ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 50. Читать онлайн

из нескольких простых текстов, да еще принадлежащих р жанрам (стихотворение, вставленное в прозаический текст, < и т.п.). Обработку массива и текста, выделяющую самые к] единицы, можно назвать комаозициолным или структурны] лазом массива и текста. К нему относится выделение в с текста схем, таблиц и рисунков с подрисуночными налпь сносок, примечаний, приложений и т.д., сюда же отнесем ь пение границ абзацев, которые могут быть разорваны ра вставками (рисунками, формулами, длинными списками...) стемах МП их выносят в «посттекст», чтобы переводить отд а затем вставлять в текст на нужные места (когда возникает ходимость выравнивания (alignment) исходного текста и тек< ревода). Эту трудоемкую работу мы стремимся переложить: стему, но для исправления ошибок и принятия решений ь ных ситуациях (склеенные тексты, несколько заголовков ста, путаница в нумерации разделов в технической докумеь и др.) приходится иногда обращаться к человеку.

От самых крупных перейдем к самым малым текстовым иам — словам (tokens), определяемым на первом шаге как ] ки знаков от пробела до пробела. Процедура разделения ] знаков на слова или приравненные к ним единицы назван ладной литературе токеиизвцией (tokenization); в русской ции ее принято называть графвматическам анавизом (Грь иногда и весь первичный анализ называют так же.

Собственно ГрафАн имеет целью анализ и классификаци стовых единиц; в этой классификации важно выделить кла< (словоформ), которые стануг далее объектом морфологи* алавиза.

Наконец, к средним единицам относятся предложения и жие на них образования, определяемые как «цепочки слов, чиваюшиеся знаком конца предложения (точка, вопросите и восклицательный знаки)» Ясно, что этого типографскогс деления недостаточно для систем типа АПТ, и алгоритмы с тации, или фрагментации текста (англ. text segmentation), r сложнее; они являются уже началом синтаксического аналв

Эти и другие подобные задачи объединяют в отдельную: стему, называеьь)ло ареароцеесором (preprocessing). В полной ме АПТ многие из таких задач завершаются только в самом работы; именно на начальных и конечных этапах работы сь МП больше всего привлекается человек; в англоязычной л туре по СМП для них использовался термин front-end ргос<

Массив текстов как целое имеет свою семантику, поэт] первых шагах в любой системе АПТ важно выявить и зафи вать все свойства данного текста. И лишь следующие уровь лиза могут уточнить роль той или иной текстовой единиц] способа ее вььделения. Так, слово, написанное в разрядку (]

50

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 50. Читать онлайн