ПравообладателямАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика, Большакова Елена
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Большакова Елена Игоревна pdf   Читать

В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Дается лингвистическая интерпретация основных лингвистических объектов и единиц анализа. Приведены сведения, необходимые для создания отдельных подсистем, отвечающих за анализ текстов на естественном языке. Рассматриваются вопросы построения систем классификации и кластеризации текстовых данных, основы фрактальной теории текстовой информации.

Издание предназначено для студентов и аспирантов высших учебных заведений, работающих в области обработки текстов на естественном языке.

[учебное пособие для вузов по направлению 231300 "Прикладная математика"]







PDF. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. Большакова Е. И.
Страница 97. Читать онлайн

информация о соответствующем слове — часть речи, словоизменительный класс (для флективных языков), перечень значений слова и т.п. В зависимости от организации лингвистического процессора в словарь может быть добавлена и грамматическая информация, например, модели управления слова.

Существуют словари, в которых представлена и более широкая информация о словах. Например, лингвистическая модель «Смысл~Текст» существенно опирается на толково-катбинатарный словарь, в словарной статье которого помимо морфологической, синтаксической и семантической информации (синтаксические и семантические валентности) представлены сведения о лексической сочетаемости этого слова.

В ряде лингвистических процессоров используются словари синонимов. Сравнительно новый вид словарей — словари паронимов, т.е. внешне схожих слов, различающихся по смыслу, например, чужой и чуждый, правка и справка [34].

Еще один вид лексических ресурсов — базы словосочетаний, в которые отбираются наиболее типичные словосочетания конкретного языка. Такая база словосочетаний русского языка (около миллиона единиц) составляет ядро системы КроссЛексика [28].

Более сложными видами лексических ресурсов являются тезаурусы и онтологии. Тезаурус — это семантический словарь, т.е. словарь, в котором представлены смысловые связи слов — синонимические, отношения род-вид (иногда называемые отношением выше-ниже), часть-целое, ассоциации. Распространение тезаурусов связано с решением задач информационного поиска [39].

С понятием тезауруса тесно связано понятие онтологии [11]. Онтология — набор понятий, сущностей определенной области знаний, ориентированный на многократное использование для различных задач. Онтологии могут создаваться на базе существующей в языке лексики — в этом случае они называются лингвистическиии.

Подобной лингвистической онтологией считается система WordNet [24] большой лексический ресурс, в котором собраны слова английского языка: существительные, прилагательные, глаголы и наречия, и представлены их смысловые связи нескольких типов. Для каждой из указанных частей речи слова сгруппированы в группы синонимов (синсеты), между которыми установлены отношения антонимии, гипонимии (отношение род-вид), меронимии (отношение часть-целое). Ресурс содержит примерно 25 тыс. слов, число уровней иерархии для отношения родвид в среднем равно 6-7, достигая порою 15. Верхний уровень иерархии формирует общую онтологию — систему основных понятий о мире.

По схеме английского WordNet были построены аналогичные лексические ресурсы для других европейских языков, объединенные под общим названием ЕшoWordNet.

Совершенно другой вид лингвистических ресурсов — это грамматики ЕЯ, тип которых зависит от используемой в процессоре модели синтаксиса. В первом приближении грамматика представляет собой набор правил, выражающих общие синтаксические свойства слов и групп слов. Общее число правил грамматики также зависит от модели синтаксиса, изменяясь от нескольких десятков до нескольких сотен.По существу, здесь проявляется такая проблема, как соотношение в модели языка грамматики и лексики: чем больше информации представлено в словаре, тем короче может быть грамматика и наоборот.

98

Обложка.
PDF. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. Большакова Е. И. Страница 97. Читать онлайн