ПравообладателямАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика, Большакова Елена
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Большакова Елена Игоревна pdf   Читать

В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Дается лингвистическая интерпретация основных лингвистических объектов и единиц анализа. Приведены сведения, необходимые для создания отдельных подсистем, отвечающих за анализ текстов на естественном языке. Рассматриваются вопросы построения систем классификации и кластеризации текстовых данных, основы фрактальной теории текстовой информации.

Издание предназначено для студентов и аспирантов высших учебных заведений, работающих в области обработки текстов на естественном языке.

[учебное пособие для вузов по направлению 231300 "Прикладная математика"]

PDF. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. Большакова Е. И.
Страница 92. Читать онлайн

его конкретную языковую форму. Элементарные единицы этого уровня называются

ееиаии, и в ряде исследований считается, что таких единиц в ЕЯ не более 2 тысяч.

Если сравнивать ЕЯ и искусственные языки, в частности, языки

программирования, которые наиболее близки к ЕЯ по выполняемым

лингвистическим функциям и успешно обрабатываются автоматически, то в первую

очередь следует указать следующие их отличия, связанные с тем, что искусственные

языки есть результат целенаправленной деятельности человека, а ЕЯ — продукт

долгого исторического, и в определенной степени стихийного развития.

1) Открытость системы ЕЯ: язык постоянно изменяется (это не очень заметно в

пределах нескольких лет, но ощутимо по прошествии одного-двух десятилетий).

Изменения касаются не только словарного запаса языка (новые слова и новые

смыслы старых), но также его синтаксического и фонетического уровней.

Следствие открытости — принципиальная невозможность единожды описать

конкретный ЕЯ и построить соответствующий лингвистический процессор.

Необходимо пополнение знаний о языке на всех его уровнях, а, следовательно, КЛ

должна разрабатывать средства автоматизации пополнения этих знаний.

2) Нестандартная сочетаемость (еинтактнка) единиц на каждом уровне ЕЯ. В

частности, если в искусственных языках синтаксическая сочетаемость знаков

диктуется их семантикой, то в ЕЯ соединение слов на уровне предложений лишь

частично может быть описана законами грамматики. В любом языке достаточно

большое количество грамматически правильных сочетаний реально не

употребляется, например, в русском языке правильным сочетанием является

крепкий чай, но не тяжелый чай (как в английском heavy tea). Тем самым, КЛ

должна вырабатывать представления нестандартной сочетаемости единиц языка.

3) Болыпая системность ЕЯ, т.е. в нем больше число уровней, четче границы между

ними, а также более выражена асеиметрия связи между единицами языка и

выражаемыми ими смыслами, проявляющаяся на всех уровнях языковой системы.

Под ассиметрией понимаются нарушения регулярности этих связей, что

выражается в таких явлениях как полисемия (многозначность) — наличие у одной

единицы языка нескольких связанных между собой значений (например,

полисемия слов, например: земля — суша, почва,; синонииия-

полное или частичное совпадение значений разных единиц (например, синонимия

слов: негодяй и подлец), отонииия — совпадение по форме двух разных по смыслу

единиц. Таким образом, КЛ должна иметь средства решения проблем

неоднозначности, связанной с этими явлениями.

Добавим, что омонимия существенно проявляется на всех уровнях ЕЯ, укажем

некоторые ее виды;

° Лексическая отонития означает одинаково звучащие и пишущиеся слова, не

имеющие общих элементов смысла, например, рожа — лицо и вид болезни.

° Морфологическая оионииия — совпадение форм одного и того же слова (лексемы),

например, словоформа круг соответствует именительному и винительному

падежам.

° Лексико-иорфологичеекая омонимия (наиболее частый вид) возникает при

совцаденин словоформ двух разных лексем, например, стих — глагол в

единственном числе мужского рода и существительное в единственном числе,

именительном падеже),

93

Обложка.
PDF. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. Большакова Е. И. Страница 92. Читать онлайн