ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 57. Читать онлайн

<центри«

>гут быть ;обенно-

роцессосистема, в составе руктурик начало и текста.

гентов, в тем ".гхг. с расши-

классича какая- Б — слоощееся с ементов, зус ского, ы, знаки

я текста; крупные а и конца

>ым име-

и (ставит

ща имеет теме нтв «атриваеого предtx и крас-

ях основножества . Пример

l рафП приведен в конце следующей главы: это структура после > ~ шоты ГрафАн и следующего за ним этапа.

Кроме небольших словариков графических знаков программа 1 р»фАн использует список устойчивых неизменяемых оборотов,

горые нужно узнать в тексте. Их около 500, на уровне ГрафАн используется информация всей словарной статьи (см. гл. 12).

В отдельные единицы должны быть также выделены выражешя внутри скобок, внутри кавычек и другие отмеченные графи» ски (например, особым шрифтом) единицы: все они могут быть , мантически значимы, что выяснится только на следующих уров»tx анализа.

Основной массив знаков текста составляют буквы основного гественно-языкового алфавита, их непрерывные цепочки явля«» ся нормальными словами. В том же тексте возможны цепочки, »ринадлежашие разным ЕЯ-алфавитам, хотя даже в составе одной »»почки возможна комбинация знаков разных ЕЯ-алфавитов (на>ример, Ака<7емил).

Другие частые знаки — это цифры и знаки препинания. Реже в шцих текстах встречаются разные специальные знаки (например, »означения градуса, знаки ь, =, <, No и т.п. — их можно объеди> шть со знаками препинания, сокращенно ЗПР). Будем считать их »ементарными текстовыми единицами, включим в их число так: с знак пробела, признак абзаца, признак конца строки и др., > с. все те, которые выполняют какие-то смыслоразличительные » чи структурные функции.

Первичное определение слова как последовательности знаков между двумя пробелами подвергается процедурным поправкам. Во»срвь>х, при автоматической обработке все знаки препинания олжны быть отделены от буквенных цепочек и друг от друга прослами„чтобы знаки препинания тоже стали (квази)словами и им можно было приписать необходимую информацию.

Так, цепочка знаков «(ссылка),-» будет разбита на следующие слова»:

« — открывающая кавычка;

( — открывающая скобка;

ссь>лка — нормальное слово (лекснческая единица);

) — закрывающая скобка;

, — запятая;

- — дефис;

» — закрывающая кавычка.

Каждому из таких слов приписана определенная информация, »еобходимая для понимания их роли на синтаксическом и/или емантическом уровне. Во-вторых, некоторые разделенные про»елами буквы надо соединить (это относится к словам, написан» ым в разрядку, например, и о с т а н о ел я ю).

57

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 57. Читать онлайн