ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 262. Читать онлайн

- лемматизированные тексты, в которых для каждого слова указывается ero основная форма и часть речи;

- тексты с морфологической информацией, в которых для каждого слова указывается его основная форма, часть речи и полный набор морфологических характеристик;

- тексты с синтаксической информацией, в которых для каждого слова указывается его основная форма, часть речи и морфологические характеристики, а для каждого предложения — ero синтаксическая структура.

Выполняемая автоматически разметка корректируется лингвистом.

К 2000 r. создано не меньше 20 аннотированных корпусов для основных европейских языков. Из них по крайней мере три — с синтаксической информацией. Наиболее известны Penn Treebank, созданный в Пенсильванском университете в 1990 r. [смл Markus, Santorini, Marcinkiew÷cr, 1993], и создаваемый по его образцу Пражский банк деревьев зависимостей (Prague Dependency Treebank). Эти работы постоянно освещаются в Пражском бюллетене по математической лингвистике [смс Bohmova, 2001; Hajidovh, Pa]as, Vesela, 2002]. Охарактеризуем коротко подход к аннотированию, позволяющий для Чешского национального корпуса строить синтаксические деревья.

PDT (Prague Dependency Treebank) — это исследовательский проект Карлова университета в Праге. Схема аннотирования включает три уровня: морфологический, аналитический и тектограмматический. На первом из них проводятся стандартные для всех систем операции лемматизации и определения всех морфологических характеристик (используется примерно 3000 значений морфологических гэгов) для словоформ входного текста. На втором уровне строится поверхностная синтаксическая структура, называемая analytic tree structure (ATS): это промежуточное дерево зависимостей, в котором каждое слово и знак препинания представлены отдельными узлами с приписанными им характеристиками теньеровского типа (субъекг, объект, адвербиал, атрибут). Этот перевод из линейных структур (с их скобочной записью) в древесную проводится полуавтоматически. Такой метод был испытан и отработан на трансформации деревьев составляюших английского языка из Пенсильванского банка в деревья тектограмматического уровня, принятые в PDT,

Третий уровень строит тектограмматическую древесную структуру (Tectogrammatical tree structure — TGTS), представляющую собой глубинное синтаксическое дерево предложения. В нем в качестве узлов остаются только полнозначные слова; все функциональные слова «без собственного лексического значения» (предлоги, подчинительные союзы, знаки препинания и пр.) становятся атрибутами при оставшихся узлах. Полнозначные узлы

262

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 262. Читать онлайн