ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 260. Читать онлайн

обеспечения. Современные ТК-системы выбирают и проводят определенную лингвистическую политику и используют для этого последние достижения информационных технологий.

Назовем только некоторые ТК (наиболее известные из них можно найти в Интернете): COBUILD (основан в 1980 г., руководитель Джон Синклер); British National Corpus (BNC), или БНК; Bank of English (Банк английского языка); ALEX (банк английской и американской литературы по западной философии); БК (Брауновский корпус); ICE (International Corpus of English); Longman/Lancaster Corpus; London-Lund Corpora; OED (Oxford English Dictionary); CUMBRE Corpus (корпус современного испанского); Чешский национальный корпус; Словацкий национальный корпус; Китайский текстовый корпус.

В России первым опытом создания большого лингвистического хозяйства был Машинный фонд русского языка [см.: Андрющенко, 1989]. Целью было собирание представительного корпуса и подкорпусов различных жанров и соответствующих программных средств, а также комплексная информатизация лингвистических исследований, включая создание грамматик и словарей. Хотя в полном виде программа не была выполнена„были собраны коллекции текстов разного типа, переведены в машинный вид многие традиционные словари. В настоящее время Фонд обслуживает внутренние задачи Института русского языка (ИРЯ) PAH: ведение Русского диалектологического атласа, создание автоматического конкорданса для текстов русского фольклора, политических текстов, текстов древнерусских источников XI — XVII вв. и др.„каждая из задач требует создания отдельного пакета программ. В состав Машинного фонда входит большое количество словарей: «Грамматический словарь русского языка» А.А. Зализняка, «Русский орфографический словарь», «Русский синтаксический словарь» Г.А. Золотовой и др. В Фонд вошли также коллекции русской художественной литературы (М. Ю. Лермонтов, Ф. М. Достоевский), коллекции русских поэтических текстов. Руководитель Фонда А.Я.Шайкевич самой важной научной задачей считает проведение дистрибутивно-статистического анализа текстов и создание объективного описания языка, используя языково-независимый метод формирования «естественных» классов [см, Shaikevich, 1997].

В начале этого века в России начата работа по созданию представительных корпусов для русского языка. Два проекта — БОКР (Большой корпус русского языка) и PC (Русский стандарт), которые должны были представить русский литературный язык во всех значимых жанрах и видах использования [см.: Шаров, 2003], слились с «Корпусом ЦЛД — МГУ», описанным в статье Д. В. Сичинава [см.: Сичинава, 2002]. Последний создается с 2001 г. общественной организацией ЦЛД (Центр лингвистической документации, руководитель В.А. Плунгян). Была создана Ассо-

260

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 260. Читать онлайн