ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 187. Читать онлайн

, сно- ' MUC :ренг-

(/о!л! emen! ей те-'

,$ Inc.

Cotp.

ПЗС-6'

cartons»

"or DS

ent !

итель долж >торы >торы named

>обще рован здмас ! учеб атики м мас >касте >м» ре зоце и т.

: по

r. To

>ается

а гл

tee>co

идач

(например, узнавание именованных сущностей named entities) достигаются прекрасные результаты: 95% полноты и 95 % точности.

Искомые сущности — это такие текстовые единицы, которые локально сконцентрированы в тексте: упоминания именованных персон, организаций, географических мест, временных отрезков, дат и др., в состав которых входят параметры и их (часто) количественные значения.

Приемы анализа в ИЧИ-системах — лингвистические или выработанные в лингвистических экспериментах. Однако и связь с ПО, и связь с лингвистикой требуют оговорки. Никаких структур представления знаний ПО на входе не задается. Что касается лингвистики, то, как правило, эти системы отказываются от всех лингвистических теорий, а опираются лишь на морфологически размеченные (тэгированные) корпусы текстов. Для каждой лексемы формируется в лингвистических терминах образец (pattern) ее поведения: сочетаемости с другими категориями или лексемами в текстах. Это объявляется своего рода поисковым предписанием. Даются подробные лингвистические спецификации, как заполнять объявленные слоты. Активно используются также списки (Gazetteers) специфических для решаемой задачи лексем и словосочетаний. Это могут быть не только перечни собственных имен географических объектов, но и перечни имен организаций, персон, а также разнообразных слов-индикаторов. Среди них могут б>ыть предлоги или другие слова: например, господин, мистер, ука>ывающие на следующее за ним имя объекта, которым можно >аполнить слот. Все такие элементы могут фигурировать в грамма> ических правилах, в том числе тэги слов, которые можно пропустить при анализе текста.

Больше всего этот метод напоминает ранние системы машинного перевода с их «частными алгоритмами» обработки и перевогп: на лексических ли цепочках (corpus-derived finite-state patterns to lexical sequences) или на основе частных синтаксических структур ! поверхностный, свободный от какой-либо теории синтаксис).

В некоторых работах вводится и используется понятие обобщенной ИЧИ-системы, в составе которой перечисляются основные модули, которые в том или ином виде присутствуют в ряде ИЧИ-систем; их, как кубики, можно по-разному комбинировать и развивать, создавая новые системы этого типа [см.: Hobbs, Appelt, Bear et al., 1996]. Перечислим их:

!) деление текста на множество сегментов;

2) деление текста или сегментов на последовательность предюжений (это препроцессор);

3) фильтрация: часть предложений, не релевантных для задав и, отбрасывается;

4) просмотр последовательности лексем и попытка идентифипировать надежно определяемые структуры;

187

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 187. Читать онлайн