ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 261. Читать онлайн

циация «Национальный корпус русского языка», в нее вошла большая группа лингвистов Москвы, Санкт-Петербурга, Новосибирска и других научных центров России. Планируемый объем корпуса — 200 млн слов. Подробнее об Ассоциации, ее участниках и планах можно посмотреть в Интернете на странице www.ruscorpora.ru.

Кроме того, отдельные коллективы РФ продолжают свои работы по созданию специальных ТК [см.: Корпусная лингвистика..., 2003[. В Санкт-Петербургском университете проводятся регулярные конференции по КЛ.

TK могут формироваться по разным основаниям: авторские, по жанрам, стилям и т.и. (анг. register), по времени источника, по научным направлениям и т.д. Создатели ТК должны определять, какие порции и пласты языка нужно в них представлять, это зависит от внутренних задач и от внешних условий (финансирования), а также от целей и адресатов ТК.

Что касается источников формирования текстовых корпусов (ТК), то сейчас проблем иет: электронный век создает для КЛ огромные, неисчерпаемые и постоянно пополняемые текстовые ресурсы, развиты технологии автоматического чтения и сканирования, увеличивается быстродействие компьютеров, размеры памяти практически неограниченные, устанавливается дружественный интерфейс с пользователем. Исследуются новые источники — Webстраницы и тексты электронной почты.

С 1996 r. стал выходить Международный журнал по корпусной лингвистике, на страницах которого обсуждаются разные аспекты формирования и ведения текстовых массивов, описгяваются новые ТК, дискутируются вопросы их аннотирования [см.: International JournaL, 1996 — 2001].

В 71. Аннотированный корпус

ТК, снабженные лингвистической информацией, называют размеченными или аннотированными (tagged/annotated corpus). Чем богаче разметка, тем большую ценность имеет корпус. Сейчас полезную лингвистическую информацию дает морфологическая и синтаксическая разметка.

В названном выше Национальном корпусе русского языка используется пять типов разметки: метатекстовая, морфологическая, акцептная, синтаксическая н семантическая, — две последние выполняются на небольшом фрагменте корпуса.

Недавно стал создаваться аннотированный корпус для русских текстов — в ИППИ PAH [см.: Богуславский, Григорьев и др., 2000[. Этот последний состоит из нескольких подкорпусов, тексты которых различаются уровнем аннотации:

261

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 261. Читать онлайн