ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 269. Читать онлайн

дукторов ( The transduceris aftnitå-state machine which consumes input while producing output). Эти простые методы обработки оказались применимы к очень большому количеству лингвистических структур. Разработанные средства были использованы в нескольких прикладных задачах: задаче извлечения терминологии (Information Extraction), в системе помощи переводчику и в информационном поиске (Cross-language information retrieval). Технология автоматов с конечным числом состояний имеет много достоинств: это хорошо изученные механизмы, поддающиеся разным математическим операциям, их можно по-разному комбинировать, вставлять в другие процедуры и т.д. Правила трансформаций могут включать контекст, тем самым не требуя специальных программных решений. Модульность и возможность включать контекстные условия в структуру данных позволяют быстро приспосабливать подобные пакеты (suits) АОТ к другим языкам. Пакеты включают языково-независимые правила сегментации (tokeniZer), морфологические анализаторы, программы построения гипотез для неузнанных слов, программы приписывания частей речи (POS. part-of-speech taggers) и программы сборки именных групп (noun phrases extractors). Такие пакеты созданы в RXRC для семи европейских языков, готовятся еще для семи (русского, чешского, венгерского и др.).

Главное в подходе RXRC — разработка надежных и все более мошньгх технических решений, применимых к любым массивам текстов на естественном языке.

В настоящее время результаты корпусных исследований находят основное практическое применение в создании больших контекстно-ориентированных тезаурусов, которые увеличивают семантическую силу при работе систем информационного поиска. Так, в системе ACRONYM (Automated Collocational Retrieval of «Nyms») собираются концептуально родственные единицы, называемые Nyms («пимы», по аналогии с синонимами и др.) [см.: Collier, Pacey, Renouf, 1998). При этом не проводится никакая предварительная лингвистическая разметка (считается, что это слишком «дорогой» процесс на очень больших массивах), кроме перевода числовых цепочек в обобщенные категории. Проводится кластерный анализ, вычисляется мера подобия соответственно правых и левых контекстов для выделенных единиц (слов и словосочетаний), учитывается частота появления сходных контекстов и т.п. Сначала собираются группы родственных слов (пимов) первого порядка, что уже может хорошо работать для информационного поиска, затем рядом уточняющих процедур строятся пимы второго порядка, которые должны удовлетворить и лингвистов. Приведем пример построенного в системе ACRONYM списка нетривиальных «родственников» для четырех английских слов:

269

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 269. Читать онлайн