Книга "Метод извлечения русскоязычных терминов из научных и технических текстов" от автора Юрия Ивановича Бутенко представляет собой исследование, в котором рассматривается разработка метода извлечения термина путем анализа структуры словосочетания. В книге подробно описываются различные подходы к интерпретации терминов на основе терминологии, статистические и гибридные методы, а также лингвистические проблемы терминоведов.
Автор исследует специальный лексикон научных и технических текстах и систематизирует его по темам и проблематике. Также он описывает структурные характеристики термина и приводит примеры наиболее продуктивных моделей терминологического словосочетания на русском языке.
В книге предлагается метод извлечения многокомпонентных русскоязычных терминов, который включает морфолого- синтаксический анализ текста и исключение стоп-слов. Далее происходит поиск интересующего термина, основанный на шаблонах терминологического словообразования, и сравнение с терминологическими словарями.
Важно отметить, что автор предполагает, что такие методы могут потребовать привлечения квалифицированного специалиста-терминоведа. Поэтому здесь приводятся аргументы за необходимость дальнейшей разработки методов, таких как классификация терминологической лексики, определение функциональной ролей терминов и создание новых баз данных.
В статье рассматривается метод извлечения многокомпонентных технических терминов на русском языке на основе анализа структурных моделей терминосочетаний. Выполнено сравнение подходов, используемых в современном искусственном интеллекте для обработки и извлечения информации, рассматриваются основные ограничения существующих методов для данного класса терминов. Проводится анализ предметной области (степени информативности указанного типа текстов), делается предположение о типичных конструкциях терминологичных объединений. Приводятся примеры практического применения.
Электронная Книга «Метод извлечения русскоязычных многокомпонентных терминов из научно-технических текстов» написана автором Ю. И. Бутенко в 2021 году.
Минимальный возраст читателя: 0
Язык: Русский
Серии: Прикладная информатика. Научные статьи
Описание книги от Ю. И. Бутенко
В статье представлен метод извлечения русскоязычных многокомпонентных терминов из научно-технических текстов на основе структурных моделей терминологических словосочетаний. Описаны существующие подходы к извлечению терминов на основе метода извлечения устойчивых словосочетаний, статистических и гибридных методов, а также отмечены лингвистические аспекты терминоведения, не охваченные перечисленными методами. Охарактеризован лексический состав научно-технических текстов, приведена классификация специальной лексики в научно-технических текстах. Изучены структурные особенности терминологической лексики. Представлены наиболее продуктивные модели многокомпонентных терминологических словосочетаний в русском языке. Предложен метод извлечения русскоязычных многокомпонентных терминов из научно-технических текстов, а также описаны его этапы. Показано, что на первом этапе проводится морфолого-синтаксический анализ текста путем приписывания каждому слову его грамматических характеристик. Затем происходит исключение частей речи, которые не могут входить в состав русскоязычных многокомпонентных терминов, а также стоп-слов, которые вместе с термином образуют свободные словосочетания. Полученные цепочки слов далее соотносятся с шаблонами терминологических словосочетаний, имеющихся в базе структурных моделей терминов, а также с терминологическим словарем на предмет наличия исследуемого термина-кандидата. Обоснована необходимость привлечения терминолога для разрешения неоднозначных случаев. Каждый этап метода извлечения русскоязычных многокомпонентных терминов из научно-технических текстов проиллюстрирован примерами. Перечислены перспективы исследования, а также обоснована необходимость усложнения методов извлечения терминов путем дальнейшей классификации терминологической лексики по формальной и семантической структурам, видам антропоморфных терминов, номенклатурным названиям, нормативности/ненормативности терминологических единиц.