Сравнение Технологических Подходов К Решению Задач Извлечения Данных

Цель статьи - попытка сравнительного анализа основных подходов к решению задач семантического анализа текста, их различий и эффективности на уровне концепции, без учета нюансов, комбинаций вариантов и возможных уловок, помогающих улучшить ожидаемый результат. .

На сегодняшний день существует огромное количество материалов, описывающих те или иные приемы решения задач семантического анализа текста.

Сюда входит латентно-семантический анализ, SVM-анализ, трансфер-свертка и многое другое.

Написание очередной статьи об обзоре и сравнении конкретных алгоритмов означает потерю времени.

Мне хотелось бы в рамках нескольких статей обсудить основные идеи и проблемы, лежащие в основе семантического анализа, с точки зрения их практического применения, так сказать, с базовой философско-онтологической точки зрения.

В какой степени можно использовать порождающие грамматики для анализа текста? Должны ли мы накапливать варианты написания и различные виды «корпусов» или разрабатывать алгоритмы анализа на основе правил? В рамках нашей дискуссии я сознательно постараюсь уйти от любых терминов и устоявшихся выражений, поскольку, как говорил У.

Куайн, термины — это всего лишь названия внутри онтологий, не имеющие практического значения для решения задач логики и понимания чего-либо в частности.

[ 1] Поэтому, с его позволения, мы будем опираться на отдельные описания Рассела или, проще говоря, давать полные описания в ущерб существующим устоявшимся терминам.

Если не брать во внимание конкретные задачи, такие как анализ эмоциональной окраски, фонетический анализ и т. д., то с точки зрения задач анализа текста можно выделить следующие основные виды и этапы анализа: 1. Синтаксический Анализ линейной последовательности слов для построения дерева зависимостей.

Цель – проанализировать структуру предложения и взаимосвязь его компонентов.

Анализ основан на различных типах грамматик (зависимости для славянских языков и немецкого языка, прямые компоненты для романских языков, порождающие и т. д.).

2. Семантика Анализ зависимости слова или фразы от общего контекста.

Решение проблем многозначности, синонимии и т. д. В основе лежат различные типы жилищ.

3. Семиотика Анализ смысла текста с учетом аллегорий, «ошибок перевода», связанных с различными культурными ассоциациями, принятых выражений в контексте окружения рассказчика, понятий.

С основами все еще сложно.

Возможно создание карт ассоциативных полей или карт, напоминающих политические, с временными и территориальными границами культур.

Если рассматривать возможные базовые идеи – технологические подходы в целом, то я вижу два диаметрально противоположных подхода: 1. Технологии накопления опыта на основе известного опыта (машинное обучение) и попытка использовать его для анализа новых ситуаций.

Их также называют алгоритмами, основанными на статистике.

90% публикаций касаются именно технологий.

Другими словами – статистические методы.

2. Технологии развития аналитических возможностей машины за счет разработки алгоритмов построения логических связей без предварительного «обучения» на примерах.

Или алгоритмы, основанные на правилах или грамматиках.

К первому типу следует отнести, конечно же в упрощенном виде, технологии «обучения» системы путем создания вариантов написания и суперпозиций анализируемых сущностей.

Вариациями на одну и ту же тему являются различные частотные алгоритмы, такие как латентно-семантический анализ и т.п.

Ко второму типу относятся такие технологии, как SVM-анализ, трансфер-свертка и построение грамматики.

В общем, здесь идеи Платона и Аристотеля сталкиваются во всей красе.

Отвечая на вопрос о преимуществах технологии, мы должны спросить себя, что мы хотим от нее получить и как мы хотим этого достичь? Узнаем, содержит ли анализируемый текст информацию, соответствующую нашему предыдущему опыту, или допускаем наличие информации за пределами этого опыта? И будем ли в этом случае строить гипотезы и опровергать гипотезы? Кроме того, следует разделить решаемые задачи.

Хотим ли мы понять «смысл» написанного в целом или достаточно найти то, что нам известно, и разметить текст в соответствии с нашим опытом, а именно — извлечь информацию? В качестве пояснения и примера анализ фразы: «Московский водоканал расположен по адресу Московская ул.

Земляные работы».

Вероятно, для решения задач перевода текста значение семантического анализа огромно, но недостаточно, так как помимо этого необходимо решить вопрос о различиях ассоциативных рядов, устойчивых выражений, эмоциональных оттенков и т. д. Например.

Однако большинство фундаментальных исследований, посвященных семантическому анализу, не учитывают возможную «безграмотность» писателя.

Это вполне нормально, поскольку большинство этих фундаментальных исследований были созданы не позднее 60-х годов ХХ века.

Это означает, что они носили более умозрительный характер, связанный больше с мышлением как таковым, а не с задачами распознавания текста.

Если не брать «серьёзные» научные труды, то стоит прочитать Умберто Ко «Говорить почти то же самое.

Эксперименты над переводом», где в популярной форме исследуется вопрос о влиянии семиотических подходов в вопросах перевода.

Достаточно ли семантических подходов для решения проблемы извлечения информации или проблема шире? По сути, следует ли нам больше полагаться только на семантический анализ или следует абстрагироваться и выйти на более общий уровень – семиотический? Анализ современных тенденций осложняется тем, что по-настоящему прорывные технологии зачастую представляют собой коммерческую тайну, а также огромное количество материалов, по сути являющихся перепечатками друг друга.

К счастью, Интернет терпит все.

Анализ диссертационной базы также не отличается большим разнообразием.

Речь идет, скорее, о подтверждении соискателем ученой степени, а не о разработке чего-то действительно нового.

Хотя, конечно, есть и довольно интересные публикации.

Например, работа И.

В.

как обзор весьма интересен, хотя и со спорными выводами.

Смирнова и А.

О.

Шелманов «Семантико-синтаксический анализ естественных языков» [2].

Перейдем к сути статьи и для начала определим основной пласт целей и задач.

Цели анализа:

  1. Перевод текста
  2. Поиск по тексту
  3. Советы пользователю
  4. Извлечение данных.

Проблемы:
  1. Миграционные потоки.

    Большая смесь семантических и семиотических полей с большим количеством ошибок, т.е.

    нарушением синтаксиса (грамматики) и семантики текстов.

  2. Различия фонемных рядов разных языков.

    Невозможность предсказать опечатки, а значит, невозможно создать «полную» базу вариантов написания.

  3. гаджетизация Сегодня у каждого есть смартфоны и планшеты.

    В результате развитой системы подсказок и исправлений текста возникает новый класс ошибок.

    Слова, выпадающие из контекста.

  4. Многозначность понятий.

    Внутри России это проблема, озвученная, например, порталом «Госуслуги», когда ведомства по-разному называют по сути одни и те же услуги.

    При этом они представлены в весьма «бюрократической», формальной форме или имеют очень длинные названия.

    Нормальному человеку это понять невозможно.

С точки зрения мира в целом, преобладающее влияние английского языка и появление его упрощенной версии «среднеатлантический».

Это не полный список, но для целей данной статьи его достаточно.

Прежде чем провести краткое сравнение технологических подходов, хотелось бы сделать несколько принципиальных замечаний.

Во-первых, сравнение носит чисто прикладной характер и имеет очень узкую направленность, не связанную с переводческими задачами.

Анализ выполняется для задач извлечения и поиска данных.

Довольно часто можно услышать гипотезу о том, что технологии распознавания визуальных изображений и текстов можно легко комбинировать и по сути они должны прийти к реализации общего механизма.

Возможно и так, но мне кажется, что эта идея больше напоминает поиск единой теории поля в физике.

Возможно, он будет найден, но пока в рамках данного исследования ограничимся задачами работы с текстовыми данными.

Во-вторых, ограниченный объем статьи не позволяет провести углубленный анализ.

Поэтому материал носит абстрактный характер, без детального анализа ситуаций.

В-третьих, сравнение конкретных технологических подходов, а именно: сравнение преимуществ и недостатков нейронных сетей, генетических алгоритмов, JSM-методов и т.п.

не имеет отношения к вопросу.

Это не что иное, как средства достижения результатов, в которые можно «загрузить» любую логику.

Поэтому хотелось бы сравнить сам принцип и возможности тех или иных технологических подходов.

В-четвертых, все без исключения алгоритмы основаны на нашем предыдущем опыте и являются результатом нашего предыдущего опыта.

К сожалению, в мире нет знаний свыше, в том числе и врожденных инстинктов, поскольку они являются опытом предыдущих поколений.

Поэтому говорить, что одни алгоритмы основаны на предыдущем опыте, а другие нет, — преувеличение.

Вопрос в том, как мы будем использовать этот опыт, в какие структуры его обернем.

Таким образом, целью статьи является попытка проанализировать в первом приближении возможности и ограничения самих базовых логик.

Итак, существуют две основные технологии: статистическая и основанная на правилах.

Комбинированный вариант рассматривать не будем ввиду избыточности.

Статистические методы Основная часть алгоритмов представляет собой предварительно помеченные корпуса, обогащенные вариантами написания, такими как сокращения, распространенные ошибки и т. д. На данный момент я только начал собирать статистику, поэтому репрезентативность невелика.

Тем не менее, позвольте мне выделить следующие характерные «родовые черты»: 1. Большинство решений используют внутренний полнотекстовый поиск.

2. Хеширование данных широко используется для ускорения работы.

3. Количество вариантов написания одной и той же сущности колеблется от 1 до 100. В качестве примера можно привести решения в области очистки адресных данных, где один из наиболее часто используемых сервисов указывает, что его «обучающая выборка» состоит из 50 миллионов вариантов, с базой размеров в 1,2 миллиона вариантов.

4. Анализ производится путем прямого сравнения подстрок на полное соответствие стандарту.

5. Для принятия окончательного решения необходима отдельная процедура проверки результатов.

Преимущества метода:

  1. Относительная простота реализации.

  2. Высокая скорость поиска вариантов.

К недостаткам относятся:
  1. Лавинообразный рост размера базы данных из-за необходимости хранить варианты написания отдельных сущностей.

  2. Сложность контроля согласованности, что приводит к повышенной вероятности многозначности вариантов.

  3. Невозможность или серьезные ограничения анализа частичных совпадений и учета морфологии.

  4. Высокая стоимость первоначального создания алгоритмов, поскольку необходимо накопить базу вариантов написания.

    Это выражается, например, в сложности подключения новых стран при парсинге адресов.

    Так как для каждой страны необходимо создать свою базу вариантов написания.

  5. Невозможность использования эвристических подходов для анализа ситуаций, выходящих за рамки известных вариантов.

Алгоритмы на основе правил Основная часть алгоритмов основана на понятиях фрейма, синтаксиса и с помощью искусственных предикативных языков различных семантически маркированных корпусов.

К общим чертам можно отнести:

  1. Наличие помеченных корпусов или справочных справочников тем или иным способом.

    Например, «Лексикограф»[3], ВНИИТИ, национальный корпус русского языка[4], КЛАДР/ФИАС и др.

  2. Наличие правил, объединенных в грамматики.

    Грамматики могут быть реализованы в виде связанных шаблонов, искусственных предикативных языков и т. д.

  3. Анализ проводится путем последовательного сравнения слов.

    Перестановки и частичные совпадения слов допускаются, если это предусмотрено грамматикой.

  4. Никакой отдельной процедуры проверки для принятия окончательного результата не требуется.

Преимущества:
  1. Более высокая точность
  2. Хорошая мобильность при работе с разными корпусами и областями знаний.

  3. Способность использовать эвристические подходы для анализа ситуаций, выходящих за рамки знаний, упакованных в корпусы.

  4. Способность анализировать и принимать решения в ситуациях сильной «загрязненности» данных, связанной с различного рода ошибками и избыточным контентом.

К недостаткам относятся:
  1. Сложность реализации грамматик из-за отсутствия готовых инструментов.

  2. Меньшая скорость работы.

  3. Сложность контроля согласованности правил.

  4. Сложность создания заранее размеченных и логически связанных корпусов баз знаний.

выводы Несмотря на кажущуюся очевидность преимуществ технологического подхода, основанного на правилах, оба подхода имеют право на существование.

Вопрос в сферах и экономической целесообразности их применения.

Таким образом, кажется очевидным, что подход, основанный на статистических методах, может хорошо работать в задачах, где имеется небольшой массив анализируемых объектов и нет большого загрязнения данных.

В качестве примера можно привести такие задачи, как организация[5] поиска товарных позиций в небольшом магазине, поиск и анализ хэш-тегов в социальных сетях, оценка эмоциональной окраски текстов.

Ээкспресс-анализ документов с целью определения их типа и дальнейшей каталогизации.

В то же время при решении задач, связанных с большими массивами справочных данных, при работе со славянскими языками преимущество имеет правила-технологический подход. Примером может служить решение проблемы синтаксического анализа адреса.

Результаты испытаний и анализ существующих решений показывают, что решения, основанные на статистике, дают стабильный результат точности поиска в пределах 60-70% процентов в условиях засоренности в пределах 10-15% и увеличение точности до 80-85% при снижении засоренности ниже 10%.

В приведенных выше цифрах вы легко можете убедиться, собрав стенд, представляющий собой некий полнотекстовый указатель, например эластик[6], с заполненным в него КЛАДР/ФИАС.

Данная статья по сути носит ознакомительный характер.

В дальнейшем я постараюсь остановиться на каждом из вопросов подробнее.

Примечания [1] У.

Куайн «Философия логики».

[2] Работа выполнена при поддержке РФФИ (проект № 12-07-33068) и Минобрнауки России по государственному контракту № 07.514.11.4134 от 08.06/ 2012 год [3] Проект «Лексикограф» первоначально был связан с идеей, возникшей у С.

А.

Крылова в 1990 году, о создании библиографической базы данных по лексической семантике: был выдвинут проект словаря русского языка, в котором каждое слово или значение слово будет сравниваться с относящимся к нему библиографией.

Эта идея вызвала интерес группы лингвистов и постепенно трансформировалась в идею создания базы данных по лексической семантике, которая могла бы стать рабочим инструментом лексикографа.

На начальном этапе Г.

И.

Кустова, Е.

В.

Падучева, Е.

В.

Рахилина, Р.

И.

Розина, С.

Ю.

Семенова, М.

В.

Филипенко Н.

М.

принял участие в создании «Лексикографа».

Якубова, Т.

Е.

Янко.

[4] В проекте принимают участие специалисты Института русского языка.

В.

В.

Виноградова РАН [ИРЛ РАН], Институт языкознания РАН [ИЛ РАН], Институт проблем передачи информации РАН [ИППИ РАН], Всероссийский институт научной и технической информации РАН [ВИНИТИ РАН] и Институт лингвистических исследований РАН [IL РАН] в Санкт-Петербурге (совместно с СПбГУ), Казанским (Приволжским) федеральным университетом, Воронежским государственным университетом, Саратовским государственным университетом.

Сайт: www. http://ruscorpora.ru [5] под загрязнением подразумевается наличие лишних слов, а также ошибок.

[6] https://www.elastic.co Теги: #семантический анализ текста #парсинг адресов с помощью КЛАДР/ФИАС #Семантика #Интеллектуальный анализ данных #Машинное обучение

Вместе с данным постом часто просматривают: