ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 65. Читать онлайн

ИА

рово- компв том, матититгс -синорий,

ючтетборы

чн по епием горфгл >лучармы':

В

r.

,, ед.

ь

IH.

~ексеслов/ : и не :коП)

НЯТО В

„иста по цели «б». Но если учесть наличие других типов единиц шкете (цифры, знаки препинания и др.; см. гл. 3), то уместно и ~ее осторожное название — поэлементное представление предявгпенин и текста (эта терминология была принята в системе нрАП). Поэлементный состав текста, полученный после первич, ноо этапа (ГрафАн+ МорфАн), в ходе дальнейшего анализа уточ»ястся, многие варианты отбраковываются и в идеале должно : таться истинное и неизбыточное ЛексП.

В корпусной лингвистике для процедуры МорфАн используют ° рмины индексирование и тегирование (приписывание морфолоо-синтаксических классов — татов, или тегов, англ. tag). Резуль;ТВ тегирования всего корпуса называют также морфологически ттзмеченным или аннотированным корпусом. В дальнейшем эти грмины стали применять и к следующим уровням разметки; наяример, говорят «синтаксическая аннотация», «семантические I >ГИ».

В 20. ПОДХОДЫ К MOP+AH

В системах АПТ приняты два метода проведения МорфАн:

1) словарный — при этом морфологический словарь может быть адан как:

а) словарь словоформ;

б) словарь основ;

2) бессловарпый.

Так называемый бессловарный метод тоже без словарей не обходится; не задается только словарь значимых элементов (основ нли полных словоформ), но задается словарь возможных окончаний (псевдоокончаний, или «хвостов») с приписанной им информацией о возможных грамматических значениях.

Каждый из этих методов имеет свои преимущества и недостатки или трудности. В начале, когда нужно было экономить память машин, развивался метод анализа со словарем основ, но по мере того как была снята проблема дефицита памяти, а развитие информационных технологий дало возможность быстро формировать словники словоформ из любого текста для любого языка, в крупных системах стали преобладать словари словоформ даже для таких развитых флективных языков, как русский. Объясняется это большей простотой (не нужно создавать сложных правил учета чередований в основе слов и т.д.) и большей универсальностью алгоритмов работы морфологического уровня: одни и те же программы могут использоваться для морфологического анализа текстов на разных языках. Лингвистическое обеспечение (приписы-

3 Явввтвввв

65

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 65. Читать онлайн