ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 264. Читать онлайн

а) сортировка и систематизация самих массивов;

б) сегментация текстов;

в) общелингвистический поверхностный анализ, или аннотирование текстов„или внутренняя разметка: расстановка морфологических, синтаксических и семантических признаков («гэгов»).

Чтобы быть полезным объектом для разных специалистов, чтобы лингвист мог выбрать или собрать нужный ему массив, КЛ систематизирует коллекции текстов — по эпохам, языкам, жанрам, стилям, тематике и т.п. Кодирование метаинформации о тексте документа и его внешних параметрах опирается в большой мере на уже разработанные технологии. Используются разные системы кодирования текстов (HTML, XML и особенно TEI: Text Encoding and Interchange); в частности, систематизация указанных выше русских корпусов основана на стандарте TEI. Об этом, а также об истории и полезных параметрах КЛ см. статьи С.А.Шарова и указанную в них литературу.

В системе COBUILD сначала использовали кодирование/разметку корпуса SGML, но в ней ненадежное деление на предложения. Разработали свою сегментацию — «легкую» (она вьшеляет лишь заголовки и подзаголовки) и «нежесткую» (нестандартные тексты не подвергаются ручному дополнению)„а имеющиеся пометы можно убирать или уточнять.

Сегментация текста (tokenizatton в системе COBUILD и др.)- процесс корпусного анализа, при котором части текста делятся сначала на предложения (или словосочетания — phrases), а внутри них вычленяются более мелкие единицы, называемые tokens. Это могут быть отдельные значимые слова или комплексы, например обозначения дат (21/04/22), денег (25 млн дуб. 42 кол.), имена компаний, телефонные номера, адреса и т.д. Включенный в них синтаксический препроцессор (chunking) собирает группы непосредственных составляющих по заданным комбинациям признаков и готовит текст к выполнению разных задач (более всего Information Extraction). Это в основном информативные слова и именные группы, но лишь такие объединения, которые не создают синтаксической омонимии; для их сборки используются технологии «автоматов с конечным числом состояний». Это все «corpus- oriented tools».

Грамматики в системе COBUILD — data-driven («под управлением данных»), они противопоставлены data-based, когда лингвист задает грамматику интуитивно, а корпус использует для проверки ее правильности и для примеров. В этой грамматике существенна лексическая компонента: нет независимого выбора грамматических конструкций и подстановки в них лексем — они работают вместе, создавая определенное значение. Есть списки лексем, для которых характерна определенная «схема», например. Vn har, V+С (verb + complement), V+ O+ А ( Verb + Obj ect + Adjunct)

264

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 264. Читать онлайн