ПравообладателямАвтоматическая обработка текстов на естественном языке и компьютерная лингвистика, Большакова Елена
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Большакова Елена Игоревна pdf   Читать

В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Дается лингвистическая интерпретация основных лингвистических объектов и единиц анализа. Приведены сведения, необходимые для создания отдельных подсистем, отвечающих за анализ текстов на естественном языке. Рассматриваются вопросы построения систем классификации и кластеризации текстовых данных, основы фрактальной теории текстовой информации.

Издание предназначено для студентов и аспирантов высших учебных заведений, работающих в области обработки текстов на естественном языке.

[учебное пособие для вузов по направлению 231300 "Прикладная математика"]







PDF. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. Большакова Е. И.
Страница 205. Читать онлайн

Выбираем 2 документа-затравки с наибольшей затравочной силой: d5 (старая

затравка) и d7 (новая затравка), обладающие затравочной силой 0.6921 и 0.4861

соответственно.

Следовательно, ьз, = (dá, dl, д3};

Ищем документы-затравки, которые максимально покрывают элементы

множества хз,.

Получаем два кластера:

С1 = (d5,d4 dá }; С2 = (d7,dl,d3 }.

Вычислительная сложность. Относительно размера коллекции документов

алгоритмы СзМ и С~1СМ имеют линейную вычислительную сложность.

й 2.б. Нейросетевой алгоритм SON

Алгоритм самоорганизующихся карт (SOM, Self Organizing Maps) был предложен Тойво Кохоненом в 1982 году как решение проблемы визуализации и кластеризации данных. Визуализация данных осуществляется путем проецирования многомерного пространства данных в двумерное пространство — карту данных. Такая карта, построенная для массива полнотекстовых документов, может служить как поисковый механизм, альтернативный поиску по запросу, предлагающий пользователю обзор/навигацию по коллекции документов. Документы близких тематик оказываются на карте рядом.

Идея алгоритма заключается в том, чтобы обучить нейронную сеть без учителя. Сеть состоит из некоторого числа нейронов, упорядоченных по узлам двумерной сетки. Каждый нейрон имеет координаты в исходном !Л-мерном пространстве документов и в двумерном пространстве карты. В процессе обучения нейроны упорядочиваются в пространстве документов так, чтобы наилучшим образом описать входной массив документов. Этот процесс является итерационным, на каждой итерации t:

а) случайным образом выбирают из входного массива d; E Э;

б) находят нейрон-победитель m, E .М', то есть ближайший к документу d;:

с = argш}п/II4, — mtl[,для Vm, б Жj = 1,]М[; (51)

Ц Ц — евклидово расстояние между векторами в пространстве терминов;

в) корректируют веса (координаты в пространстве терминов) нейрона- победителя и его соседей:

m;(t + 1) = m; (t) + h„(t)[dt — m;(t)], (52)

где h„(t) — это функция соседства, которая определяет, у какого количества

нейронов (узлов сетки), окружающих нейрон-победитель, изменятся веса н насколько

сильно они изменятся. Часто функция соседства имеет следуюший вид;

(1ч- Ц (53)

h„(t) = a(t) х е1

где a(t) — коэффициент обучения, монотонно убывающий с ростом номера

итерации /, 0 < а(г) < 1; на начальных шагах работы сети происходит заметное

упорядочивание векторов нейронов, а на остальных — уточняющая подстройка карты;

часто a(t) задают как линейную, экспоненциальную или обратно пропорциональную

функцию a(t) = А/(t + В), где А и В — константы;

r;, r, E R — координаты нейронов как узлов сетки;

206

Обложка.
PDF. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. Большакова Е. И. Страница 205. Читать онлайн