ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 268. Читать онлайн

Создание параллельных и многоязыковых корпусов столкну лось с трудной задачей «выравнивания» (alignment), т. е. разбиензц параллельных текстов на единицы, которые можно сопоставит~ друг другу.

Большинство программ выравнивания в параллельнь1х корпу сах основываются на том, что в переводе сохраняются те же тра ницы предложений и абзацев, что и в исходном тексте. В действи тельности же разные типы текстов требуют перестановки или со кращения (например, в юридических текстах) числа предложе ний. А процедура сопоставления слов вообще остается на доля человека, ведь пословных соответствий и вовсе мало (предлог- отсутствие предлога, падеж — предложная конструкция).

Минимальные единицы перевода могут состоять из одного сло ва или нескольких слов, переводимых как целое, а не пословно Переводные эквиваленты соответствуют текстовым сегментам од ноязыкового корпуса. Значение единицы перевода содержится в ei переводных эквивалентах на другие языки. Идентификация едини1 перевода требует интерпретации: единый это эквивалент или ком бинация нескольких Текстовый сегмент является единицей пере вода по отношению только к тем языкам, в которых он переводит ся как единое целое. Неоднозначные единицы перевода имею столько значений, сколько есть несинонимичных переводных эк вивалентов. Данная единица перевода языка А может иметь два не синонимичных эквивалента в языке В и три — в языке С. Объяви п какие-то эквиваленты синонимами — это акт интерпретации, сна чала надо понять текст, а это компьютерам недоступно. Практичес кое использование корпусной лингвистики — помощь переводчик' путем обработки параллельных массивов. Последние — это хранили ща переводов. Использовать их гораздо более эффективно, чем тра диционные двуязычные словари, особенно если массив учел жан) и тип текстов: выбирается тот эквивалент, контекстная проекци~ которого больше всего совпадает с профилем текстового сегмента

Анализ «по образцу», или прецедентный анализ, важен не толь ко для систем МП, как отмечалось еще в ранних работах по МП но и как серьезное подспорье при анализе свободных текстов И все же проблема формирования параллельных корпусов дос таточно трудна — и не только содержательно, но и чисто техни чески. С одной стороны, нужно сделать эксплицитной всю реле вантную информацию. С другой стороны, текст, отягощенный тэ гами, становится нечитабельным. Любые изменения в размечен ном корпусе — всегда проблема.

Многие апологеты КЛ считают, что для обработки многоязы ковых массивов текстов продуктивно использовать языково-не зависимые подходы jcM.: Greenstette, Segond, 1997]. В RXRC (Ran~ Xerox Research Centre) создано несколько средств АОТ, работа ющих на основе автоматов с конечным числом состояний и транс

2б8

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 268. Читать онлайн