ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 259. Читать онлайн

ения Бная етом г пе- ког.огии

ивать укту:амих еская . Он плен-

259

;к-, га- ге- ваг,a ве- хагни

~ук- ют>ва- зте.'ем- ьзо0íà .ры, гели кны :ния :ной

ных систем МП (как СИСТРАН), исправлять и пополнять словарь трансфера (японско-английского направления), формировать те ограничения, которые помогают разрешать неоднозначность при переводе. BOAS опирается на Онтологию, созданную в рамках проекта MICROCOSMOS.

0 70. Корпусная лингвистика

Название «Корпусная лингвистика» (Corpus Linguistics) отражает характер объекта, с которым данная эмпирическая область исследований имеет дело: это реальные естественные тексты в машиночитаемом формате, образующие массивы, коллекции, а также специально оформленные «корпуса» (Corpora).

Текстовые корпуса начали создавать уже в 60 — 70 гг. прошлого века, т.е. КЛ существует более 30 лет. За это время созданы десятки банков текстовых данных, сначала для английского, затем для других европейских языков и языковых пар; на основе текстовых корпусов (ТК) созданы сотни словарей (corpus-based dictionaries). COBUILD — первый словарь, основанный на корпусных данных, вышел в 1987 r. и бьи принят как стандарт с точки зрения теории и практики. С тех пор все современные словари, особенно предназначенные для изучения неродного (или второго) языка, основываются на материале имеющихся и все время пополняющихся ТК. В 1995 r. вышел в свет Collins COBUILD English Dictionary (CCED), в нем отразились существенные изменения в языке относительно первых публикаций COBUILD: некоторые слова и значения выпали, американизмы и технические слова, напротив„ вошли в повседневное употребление. Существует ero электронный вариант.

ТК создаются не только для основных европейских языков (французского, немецкого), но и для менее распространенных (шведского, норвежского, финского). Сейчас их много: разные типы и размеры, одно- и двуязычные, для письменного и устного вариантов языка; создаются также параллельные корпуса: англо- норвежский, чешско-английский, словацко-русский, словацко- хорватский и др. Современные грамматики и словари создаются только на основе корпусной поддержки.

По стандарту, заданному в БНК (Британский национальный корпус), были созданы текстовые корпуса для многих европейских языков. Характеристика «национальный», призванная выделить вариант языка, описываемого корпусом, стала применяться для обозначения представительного ТК любого языка. Как правило, национальный корпус — это отдельная комплексная система, образование и ведение которой требует больших трудозатрат как со стороны лингвистов, так и с точки зрения программного

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 259. Читать онлайн