[Специалист] Практикум (МАСТЕР): Полнотекстовый поиск в SQL Server (2016)

  • Автор темы I AM
  • 334
  • Обновлено
  • 20, Jul 2018
  • #1
Практикум (МАСТЕР): Полнотекстовый поиск в SQL Server
По окончании курса Вы будете уметь:
  • Использовать все возможности механизма полнотекстового поиска
  • Выполнять семантический анализ текстов
  • Использовать фонетический и семантический поиск
  • Разрабатывать программные модули для поиска в базах данных
  • Эксплуатировать и обслуживать базы данных, содержащие полнотекстовые индексы
  • Настраивать и расширять механизм полнотекстового поиска в базах данных


Специалисты, обладающие этими знаниями и навыками, в настоящее время крайне востребованы. Большинство выпускников наших курсов делают успешную карьеру и пользуются уважением работодателей.
Продолжительность курса - 8 ак. ч.

Программа

Модуль 1.

Постановка задачи

Задачи хранения, обработки и анализа текстов

Строковые типы данных: VarChar, Text

Работа с текстом в формате «юникод»: NVarChar, SCSU

Хранение текста в BLOB’ах: BLOB, CLOB, NCLOB, типы документов

Хранение текста в файлах и файловых таблицах: FileStream, FileTables

Текст в XML-документах: кодировки, языковая разметка, элементы, атрибуты

Загрузка текста в базу данных: OpenRowset-BULK

Режимы упорядочения и работа с диакритами: Collate, регистр, диакритические знаки

Режимы поиска: строковый, полнотекстовый, морфологический, фонетический, семантический, аналитический

Параметризация поиска: язык запросов, операторы, параметры

Требования к оформлению результатов поиска: ранжирование, сниппеты, подсветка, постраничная выдача

Оценка качества поиска: точность, отклик, производительность

Модуль 2.

Простые средства текстового поиска

Поисковые строковые функции: CharIndex, PatIndex

Вспомогательные строковые функции: Concat, Replace, Stuff, Substring, Reverse, Upper, Lower

Поиск по шаблону: LIKE

Использование регулярных выражений: VBScript.RegExp, Regex.Match

Модуль 3.

Механизм полнотекстового поиска

Подготовка индексов: типы данных, привязка к строке, язык, тип документа, обновление

Базовые возможности полнотекстового поиска: Contains, FreeText, ContainsTable, FreeTextTable

Логические выражения в полнотекстовых запросах: AND, OR, NOT

Полнотекстовые операции: префиксы, генерализация, INFLECTIONAL, THESAURUS

Весовые коэффициенты и расстояния: NEAR, WEIGHT

Модуль 4.

Подготовка результатов поиска

Табличный вывод результатов: соединение с ContainsTable и FreeTextTable

Генерация сниппетов и подсветка: простые сниппеты, подсветка с учётом словоформ

Ранжирование: простое, взвешенное, с колоночными мультипликаторами

Постраничная выдача: Row_Number, OFFSET, FETCH

Параметризация поиска: простые и сложные формы, язык запросов

Модуль 5.

Языковые особенности

Языковая разметка текста: LCID, xml:lang, индексирование, парсинг

Хранение многоязычных документов: табличное, колоночное, с языковым атрибутом, XML

Морфология: генерализация, парсинг

Работа с документами на нескольких языках: запросы с явным указанием языка, фильтрация по языковому атрибуту

Синонимы: THESAURUS, подстановки и расширения

Шумовые слова: просмотр, редактирование, привязка, генерализация шумовых слов

Модуль 6.

Подготовка баз данных

Серверные компоненты полнотекстового поиска: установка и настройка

Ресурсы операционной системы: службы, фильтры, файлы

Подготовка фильтров: установка, тестирование, интерфейс, стандартные установочные наборы

Настройка базы данных для работы с текстом: каталоги, файловые группы, включение механизма поиска

Выбор механизма хранения: BLOB, XML, текст, FileStream

Работа со словарями синонимов: редактирование и загрузка словарей, подстановки и расширения, приоритеты

Настройка шумовых слов: подключение, влияние на индексирование

Создание и настройка полнотекстовых индексов: режим отслеживания, обновление

Обслуживание полнотекстовых индексов и каталогов: мониторинг, обновление

Модуль 7.

Эксплуатация и устранение проблем

Серверные диагностические инструменты: настройки, служебные процедуры, DMV/DMF

Диагностика и мониторинг полнотекстовых индексов: документы, ключевые слова, события

Диагностика и мониторинг полнотекстовых запросов: парсинг, трассировка

Модуль 8.

Расширение полнотекстового поиска

Семантический поиск: подготовка базы данных, ключевые фразы, похожие документы

Фонетический поиск: Soundex, Difference: NYSIIS

Вычисление расстояний между словами: по Хэммингу, по Левенштейну, LCS

Анализ N-грамм: триграммы, 4-граммы,

Векторный анализ текста: простые и взвешенные координаты

Задачи класса «Text Mining»: NLP

Скачать: Скрытая информация :: Авторизуйтесь для просмотра »

I AM


Рег
23 Jul, 2011

Тем
49554

Постов
57426

Баллов
552966
Тем
49554
Комментарии
57426
Опыт
552966

Интересно