ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 49. Читать онлайн

:w York,

глава з

компонент первичного Андлизд текст

Features renoble,

ingurgh, ation.—

>О) >'EL steur.- Лас)в>пе ns1ation:

>wards а рлор on

t Status,

. — Чо!.

е-Based

renoble ]ч» l,=

49

Автоматический анализ текста в системе АПТ начинается с »,>збора поступившего в систему массива текстов: первичного >иализа самого массива и далее каждого текста в отдельности.

Первичный анализ текстов при всей своей кажущейся просто.> содержит много подводных камней и, как всякий лингвистиа ский алгоритм, представляет собой довольно сложный и гро>и>здкий механизм.

Важность этого этапа была осознана не так давно, а именно, : огда от экспериментальных упражнений с анализом отдельного »редложения внимание разработчиков систем переключилось на »роблемы обработки реальных массивов естественных текстов. Прежде всего с проблемой массива и «целого текста» во всех технических деталях столкнулись работающие системы машинного а ревода, принимающие на входе массивы текстов на машиночи>асмых носителях в разных форматах.

Массив, или корпус, текстов стал главным объектом исследо>ыния в так называемой «корпусной лингвистике» (англ. corpus lu>guisrics) (см. гл. 13). Но корпусная лингвистика и МП имеют разные цели, и если первая может ограничиться упрощенным под>одом к обработке сырого текстового материала в больших объчах, то для МП важно значение каждого знака препинания: так, неправильное определение границ предложений приводит к исьажению перевода.

В общем случае система АПТ должна быть снабжена компонеиiuusr, классифицирующим входные тексты по разным основаниям- I Io языку, жанру, по принадлежности к вышестоящему массиву, по времени создания, автору и т.д. В дальнейшем для разных подчассивов могут потребоваться разные процедуры обработки.

Задачу разбиения массива на подмассивы нельзя считать «внешней»: ведь подобное вычленение система должна проводить и внутри каждого текста, выделяя заголовки, подзаголовки, имена ав>оров, сноски, эпиграфы и другие лингвистически значимые чаги. Подобно сложным предложениям, состоящим из нескольких простых предложений, существуют и сложные тексты, состоящие

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 49. Читать онлайн