ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 71. Читать онлайн

1 оста

прета

0 есл

ков

ва на

по ва

r джа

ся ка

- KRK

гь ил

: связ-

:Т"

входе е сло- при1ноша тека [см.: гавле~няка, предыл се:вшие ь соб-

аисте- : POC- ~изиро-

~ венных имен, отчеств и фамилий, а также географических имен, п»бревиатур и т.п.

Лемматизация осуществляется с помощью словаря словоформ, , ~ждой из которых сопоставлена лемма. Словоформы, не найденшие в словаре, анализируются по аналогии с теми имеющимися в поваре словоформами, с которыми у них обнаруживается наиюльшее совпадение с конца.

Объем основного словаря составлял к 2000 r. 2 млн словоформ.

1 роме основного словаря, состоящего из двух частей: малого словаря и большого словаря, — используется словарь имен, включаииций в себя имена собственные.

Словоформа из текста ищется сначала в так называемом малом поваре. Зтот словарь составляют слова замкнутых классов (местоимения, числительные, предлоги, союзы, частицы, а также наиоолее частые многозначные слова), и в нем слово проверяется .олько на полное совпадение. Если слово найдено, его лемма и морфологическая информация выдаются с пометой «=», означая>щей, что слово найдено именно в малом словаре. Далее, независимо от результатов предыдущего этапа, слово ищется в словаре имен. Если слово найдено в нем, его лемма и морфологическая ннформация выдаются с пометой «"». Третий заход — поиск того пе самого слова в большом словаре. Если слово было найдено в малом словаре и/или в словаре имен, то в большом словаре оно проверяется только на полное совпадение. Когда же слова нет ни и одном словаре, то в последнем, большом, словаре ищется слово, максимально совпадающее с данным с конца. В этом случае выдаются предположительные результаты анализа, помечаемые IHBKOM « — »,

Таким образом, система помет следующая:

= слово найдено а малом словаре

' слово найдено в словаре имен

+ слово найдено в большом словаре

- слово яе найдено, результат предположительный

При омонимии словоформ выдается несколько вариантов анализа.

Состав Грамматического словаря постоянно пополняется и корректируется, настраиваясь на заданную предметную область, прежде всего ПО <Политика». Зта настройка потребовала, в частности, расширить лексический состав словаря за счет введения большего количества собственных имен (в основном лиц верхнего этажа власти), ведь ими изобилуют тексты данной ПО. Для упрощения будущих сравнений с базами и облегчения синтаксического анализа произведено разделение словаря имен, используемого при морфологическом анализе, на три словаря: географические названия, личные имена и названия организаций. Словам текста, совпавшим

71

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 71. Читать онлайн