ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 181. Читать онлайн

о ин:. Для це не АПТ более |лече-

прав- пред:сиваания/

важ лиш romеента о-по едирме ьней пред цесс ~гент и ин ебно даль

вова риал юва > мас

цен лен ело тол пред о ста

ним

то

Создание тематического представления текста по тезаурусу

Кпассический путь автоматического индексирования и рубрицирования (АИР) на основе тезауруса РуТез (см. гл. 8), переросший затем в тематический анализ, работает в университетской системе РОССИЯ„он близок к промышленному режиму (более подробно ниже). Авторы подхода называют ero коецеитуальным иидексировалце>м [см: Лукашевич, Добров, 2001), Один из выходов этой системы — автоматическая аннотация, или квазиреферат'.

На основе знаний, включенных в тезаурус РуТез, разработана технология тематического анализа текста, позволяющая среди всех терминов текста вьшелить тематически близкие термины и определить их значимость для текста, представив всю выявленную информацию в виде хорошо структурированного тематического представления.

Тематическое представление текста включает все термины текста, организованные в иерархическую структуру и ранжированные по мере их значимости для текста.

В текстах деловой прозы для абсолютного большинства терминов выполняются следующие правила:

1) повтор термина или его синонимов означает кореферентность и/или концептуальное тождество между этими повторами;

2) тематически близкие термины текста тематически связаны;

3) чем ближе термины к основной теме документа, тем больше вероятности, что предшествукнцие два правила выполняются.

Эти правила можно использовать лля автоматического опреде~ения основных тем текста.

На первом этапе работы алгоритма единицы текста сравнивак>тся с единицами тезауруса. Зто сравнение происходит на основе морфологического представления единиц текста и единиц тезауруса, заранее прошедших морфологический анализ. Из множества найденных в тексте единиц, совпавших с тезаурусными, выбираг гся единица, имеющая максимальную длину. Если один и тот же фрагмент текста соответствует разным единицам тезауруса, то фиксируется многозначность термина.

В результате сопоставления с тезаурусом текст отображается в ~ и>следовательность дескрипторов тезауруса. Все синонимы (вари,н ~ты) одного и того же дескриптора отображаются в соответствувиций дескриптор и далее не различаются. Для каждого дескрипи>ра фиксируются частота ero встречаемости в тексте и тематичеки близкие ему дескрипторы текста.

Совокупность дескрипторов текста, для которых указаны тематически близкие дескрипторы этого текста, называется проек-

' Описание этого и двух следующих раэлелов ведется по материалам статей

fl B.Ëóêàøåâè÷ и Б.В.Доброва [смл Лукашевич, Добров, 2001].

181

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 181. Читать онлайн