Тема автоматического реферирования/аннотирования текста поднималась уже давно и придумано немало способы реализации .
Так как желание знать главное есть у каждого, но это, как правило, связано с просмотром большого количества материалов.
Готовые библиотеки найти не так-то просто, а то, что имеется, плохо настроено, недоработано и главное работает только для английского языка.
Хотел исправить этот недостаток и вот что получилось .
За пару дней я написал несколько вариантов алгоритма реферирования, взяв из Интернета русскоязычные компоненты анализа русского текста, в основном АОТ.
Основная идея этих подходов реферирования заключается в выделении в тексте главных предложений, таких, которые лучше всего передают смысл всего текста.
Все три алгоритма являются модификациями LexRank. Абстрагирование в моем случае проходит три направления : 1. предложения .
(алгоритм обрабатывает предложения с помощью некоторой эвристики, поэтому не все точки являются их концом) 2. ключевые слова — существительные (для их извлечения на основе морфологии AOT используется тег POS) 3. действия - Объект-действие-субъект. (также используется POS-тегер на AOT) Если по вашему мнению какой-либо из алгоритмов будет достаточно хорош.
Я планирую сделать: 1. API 2. абстрактный RSS, 3. умение абстрагироваться по временным интервалам (дням, неделям).
4. Плагины для браузера для выделения предложений в тексте.
Если есть люди, готовые помочь в создании этих вещей, пишите.
обновление1: Добавлен формат вывода JSON, если вы добавите параметр json=true. обновление2: Статистика собрано в формах Google на данный момент (210 избирателей): алгоритм 1-3: 77%(первые 50%) все плохо: 23% Ключевые слова оказались полезно для 70% респонденты.
На мой взгляд это очень хорошо) Теги: #ИИ #суммирование #автоматизация #суммирование #аннотация #искусственный интеллект #алгоритм #пропагандирую
-
11 Самых Красивых Магазинов Apple В Мире
19 Oct, 24 -
Жизнь В Googleplex
19 Oct, 24 -
Британские Учителя Просят Закрыть Youtube
19 Oct, 24