ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 58. Читать онлайн

Цепочки цифровых знаков требуют несколько иных п1 обработки. Например, точка и запятая между цифрами не до1 рассматриваться как разделители, т.е. как отдельные «слова>

!0,325 — одно слово (с информацией «цнфровой комплекс»-

1.000.000 — то же.

Знаки >, +, =, — и другие арифметические знаки и их кс

нации являются отдельными словами с отчетливой семант

(это операции).

Поэтому, задавая словники и словари для ГрафАн, необ:

мо настраивать их на тип текстов.

Перечислим вычленяемые в данной системе типы единиц, r.

ченные в систему детального анализа текста.

ЛЕ — однословная лексическая единица, состоящая нз букв

ro алфавита (президепт, приказывать, ста«, завиаииый, пока, пара, пад, om ИЛЕ — иноязычная лексема (alibi) ЧЛЕ — часть лексемы (например, квази-, не-, голуба-, -градус> ЦК — цифровой комплекс (напрнмер, 1989, 21/03/85); ЦБК — цнфробуквенный комплекс (БЭСМ-6, ТУ- 154); АББР — аббревиатура (ЧН, ИНФОРМЭлектро, РАН, СМИ); СЛУ — сложный узел (например, Рл(Comp(Rus-45), если н<

димо представить подобный фрагмент как одну единицу; СЛСЧ — словосочетание (в зависимости om, в связи с, иа высшем >

в coomeemcmeua с, и т.n.), приравниваемое к нормальной ЛЕ (ес.

дан список таких неизменяемых цепочек слов).

Все такие единицы могут в дальнейшем быть входами в cl тический словарь, где даются их дифференцированные опис Если их нет в словаре, анализ вынужден довольствоваться иь мацией к самому символу: ЛЕ, ИЛЕ, ЦБК, АББР и др.

Детальный анализ мелких текстовых единиц с содержате1 точки зрения и разрешение создаваемых ими всевозможны однозначностей описаны в ранней работе В.3. Санникова [смл ников, 1969]. Ряд проблем ГрафАн затронут в статьях С.А. К[ ва [см.: Крылов, Старостин, 2003].

8 18. Макросинтаксический анализ

Важнейшей задачей первичного анализа является сегмен текста на отдельные предложения. Самое простое (школь типографское) определение предложения — цепочка слов, ок вающаяся одним из знаков конца предложения„т.е. точкой росительным или восклицательным знаком. В реальных те: которые становятся документами системы АПТ, существует ro единиц типа «предложение», нарушающих это определе[

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 58. Читать онлайн