ПравообладателямАвтоматическое понимание текстов. Системы, модели, ресурсы, Леонтьева Нина
Книжная полка
перейти на полку → Хочу прочитатьЧитаюПрочитана
ИзбранноеВладею
Чтобы воспользоваться книжной полкой выполните вход либо зарегистрируйтесь
← Назад
Скачать: , Леонтьева Нина Николаевна djvu   Читать

Учебное пособие обобщает опыт создания отечественных и зарубежных систем, реализующих автоматическое понимание текстов. Эти сложные "интеллектуальные" системы выделяются из множества систем, которых просто используется автоматическая обработка текста, поскольку автора интересует именно качественный аспект понимания. Рассмотрены те компоненты процесса АПТ, которые могут быть заданы в вербальном виде. В основе пособия - идея "мягкого" понимания текста; представлена экспериментальная лингвистическая система политекст, осуществляющая гибкое соединение лингвистических и предметных знаний.

Для студентов лингвистических факультетов вузов. Может быть рекомендовано для тех, кто интересуется искусственным интеллектом, структурной и прикладной лингвистикой, информатикой.







DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н.
Страница 51. Читать онлайн

азным ;писки ауавые и аааоставе леями, г уточзными . Всиельно, необ:та пена Си-

3 труду текпвции

едиии- депочпотока авза- традиьфАн),

ю тек:с слов cecssoeo

похо- оканльный i опре- егменораздо !за. подси- систеконце 1стемы итераssors. эму на ксироus анап либо напри-

ru р, яр их аз ы в аю), нарушает типографское определение слова пк «цепочки знаков между двумя пробелами», Такие слова или выделенные как-то иначе (жирный шрифт, подчеркивание и др.) юлжны получить больший информационный вес на соответству» я цем уровне, но сначала их надо опознать по словарю как обыч~ ые слова. Для этого нужно убрать лишние пробелы, но оставить щ ~формацию о том, что они были. И это только одна маленькая цдача первичного анализа.

В 16. Состав компонента первичного

анализа текста

Компонент первичного анализа выполняет следующие задачи.

1. Структурирование массива, или документный анализ корпуа. Каждый выделенный (или выбранный для анализа) текст объяв~яется документом и снабжается идентификаторами, принятыми и Системе.

2. Сегментирование (фрагментация) текста. Текст делится на предложения или близкие к ним фрагменты, для которых можно пытаться строить синтаксическую структуру.

3. Собственно графематический анализ. Поток текстовых знаков делится на слова (или псевдослова), т.е. минимальные лингвистически значимые элементы текста.

Перечисление процедур дано здесь «сверху вниз», от анализа крупных объектов к самым мелким. Развитие корпусной лингвис~ ики приведет в конечном счете к тому, что поступающие в сисгему АПТ массивы будут уже структурированы и в значительной степени (хотя бы на морфологическом уровне) проиндексированы. Но пока мы будем исходить из того, что на вход системы поступает мало структурированный или совсем неструктурированный массив. Анализ текста обычно начинается с определения свойств самых мелких единиц, но в каждой задаче и для каждого типа обрабатываемого массива могут быть найдены свои наиболее эффективные комбинации реальных процедур.

В качестве иллюстрации функций первичного анализа рассмотрим комплекс начальных процессоров системы ПОЛИТЕКСТ. Компонент первичного анализа в ней был настроен на анализ сложного и специфического корпуса текстов официальных и правительственных документов, но в принципе он принимает на входе любые (неразмеченные) тексты, стремясь к исчерпывающей подробности анализа. Он включает:

а) предварительную (автоматическую и автоматизированную) обработку массива;

б) автоматическое формирование «шапки» (или внешней дескрипции) для каждого документа входного корпуса;

51

Обложка.
DJVU. Автоматическое понимание текстов. Системы, модели, ресурсы. Леонтьева Н. Н. Страница 51. Читать онлайн