Siteanalyzer 2.5 - Парсинг Данных, Проверка Уникальности И Скорости Загрузки Страниц

Всем привет! Спустя очень долгое время мы наконец подготовили новый релиз СайтАнализатор , который, надеемся, оправдает ваши ожидания и станет незаменимым помощником в SEO-продвижении.



SiteAnalyzer 2.5 - Парсинг данных, проверка уникальности и скорости загрузки страниц

В новой версии мы реализовали несколько самых популярных среди пользователей функций, таких как: парсинг данных (извлечение данных с сайта), проверка уникальности контента и проверка скорости загрузки страниц с помощью Google PageSpeed. При этом было исправлено множество ошибок и сделан рестайлинг логотипа.

Расскажем обо всем подробнее.

Большие перемены 1. Парсинг данных с использованием XPath, CSS, XQuery, RegEx. Веб-скрапинг — это автоматизированный процесс извлечения данных с интересующих страниц веб-сайта по определенным правилам.



SiteAnalyzer 2.5 - Парсинг данных, проверка уникальности и скорости загрузки страниц

Основными методами парсинга веб-страниц являются методы анализа данных с использованием XPath, селекторов CSS, XQuery, RegExp и шаблонов HTML.

  • XPath — это специальный язык запросов для элементов документа XML/XHTML. Для доступа к элементам XPath использует навигацию по DOM, описывая путь к нужному элементу на странице.

    С его помощью можно получить значение элемента по его порядковому номеру в документе, извлечь его текстовое содержимое или внутренний код, а также проверить наличие определенного элемента на странице.

  • Селекторы CSS используются для поиска элемента по его части (атрибуту).

    CSS синтаксически похож на XPath, но в некоторых случаях локаторы CSS работают быстрее и описываются более четко и кратко.

    Недостаток CSS в том, что он работает только в одном направлении — вглубь документа.

    XPath работает в обоих направлениях (например, вы можете искать родительский элемент по дочернему элементу).

  • XQuery основан на языке XPath. XQuery имитирует XML, позволяя вам вкладывать выражения так, как это невозможно в XSLT.
  • RegExp — формальный язык поиска для извлечения значений из набора текстовых строк, соответствующих требуемым условиям (регулярному выражению).

  • HTML-шаблоны — это язык извлечения данных из HTML-документов, который представляет собой комбинацию HTML-разметки для описания шаблона поиска нужного фрагмента, а также функций и операций для извлечения и преобразования данных.

Обычно парсинг используется для решения проблем, с которыми сложно справиться вручную.

Это может быть извлечение описаний продуктов для создания нового интернет-магазина, исследование маркетинговых исследований для мониторинга цен или мониторинг рекламы.



SiteAnalyzer 2.5 - Парсинг данных, проверка уникальности и скорости загрузки страниц

В SiteAnalyzer за настройку парсинга отвечает вкладка «Извлечение данных», в которой настраиваются правила извлечения.

Правила можно сохранять и при необходимости редактировать.



SiteAnalyzer 2.5 - Парсинг данных, проверка уникальности и скорости загрузки страниц

Также имеется модуль тестирования правил.

С помощью встроенного отладчика правил вы сможете быстро и легко получить HTML-содержимое любой страницы сайта и протестировать работу запросов, после чего использовать отлаженные правила для анализа данных в SiteAnalyzer.

SiteAnalyzer 2.5 - Парсинг данных, проверка уникальности и скорости загрузки страниц

После завершения извлечения данных всю собранную информацию можно экспортировать в Excel.

SiteAnalyzer 2.5 - Парсинг данных, проверка уникальности и скорости загрузки страниц

2. Проверка уникальности контента внутри сайта.

Этот инструмент позволяет искать дубликаты страниц и проверять уникальность текстов внутри сайта.

Другими словами, это пакетная проверка группы URL-адресов на уникальность между собой.

Это может быть полезно в случаях:

  • Для поиска полных дубликатов страниц (например, страницы с параметрами и той же страницы, но в виде ЧПУ).

  • Для поиска частичных совпадений контента (например, два рецепта борща в кулинарном блоге, которые на 96% похожи друг на друга, что говорит о том, что лучше удалить одну из статей, чтобы избавиться от возможной каннибализации трафика) ).

  • Когда на сайте статей вы случайно написали статью на тему, которую уже писали 10 лет назад. В этом случае наш инструмент также обнаружит дубликат такой статьи.

Принцип работы инструмента проверки уникальности контента прост: по списку URL-адресов сайтов программа загружает их контент, получает текстовое содержимое страницы (без блока HEAD и без HTML-тегов), а затем с помощью алгоритм опоясывающий лишай сравнивает их между собой.



SiteAnalyzer 2.5 - Парсинг данных, проверка уникальности и скорости загрузки страниц

Таким образом, с помощью шинглов мы определяем уникальность страниц и можем рассчитывать как полные дубли страниц с уникальностью 0%, так и частичные дубликаты с различной степенью уникальности текстового контента.

Программа работает с гонтом длиной 5. 3. Проверка скорости загрузки страницы с помощью Google PageSpeed. Инструмент PageSpeed Insights от поискового гиганта Google позволяет проверить скорость загрузки определенных элементов страницы, а также показывает общий показатель скорости загрузки для интересующих URL-адресов для настольной и мобильной версий браузера.



SiteAnalyzer 2.5 - Парсинг данных, проверка уникальности и скорости загрузки страниц

Инструмент Google всем хорош, однако у него есть один существенный недостаток – он не позволяет создавать групповые проверки URL, что создает неудобства при проверке многих страниц вашего сайта: согласитесь, вручную проверять скорость загрузки на 100 или создание большего количества URL-адресов на одной странице утомительно и может занять много времени.

Поэтому мы создали модуль, который позволяет создавать бесплатные проверки скорости загрузки групповых страниц через специальный API в инструменте Google PageSpeed Insights.

SiteAnalyzer 2.5 - Парсинг данных, проверка уникальности и скорости загрузки страниц

Основные анализируемые параметры:

  • FCP (First Contentful Paint) – время отображения первого контента.

  • SI (Speed Index) — показатель того, насколько быстро контент отображается на странице.

  • LCP (Largest Contentful Paint) — время отображения самого большого элемента страницы.

  • TTI (Time to Interactive) — время, в течение которого страница становится полностью готовой к взаимодействию с пользователем.

  • TBT (Total Blocking Time) — время от первой отрисовки контента до его готовности к взаимодействию с пользователем.

  • CLS (Cumulative Layout Shift) – накопительный сдвиг макета.

    Используется для измерения визуальной стабильности страницы.

Благодаря многопоточной работе SiteAnalyzer проверка сотен и более URL-адресов может занять всего несколько минут, а это может занять день или больше вручную через браузер.

При этом сам анализ URL происходит всего в пару кликов, после чего можно скачать отчет, включающий основные характеристики проверок в удобной форме в Excel. 4. Добавлена возможность группировать проекты по папкам.

Для более удобной навигации по списку проектов добавлена возможность группировать сайты по папкам.



SiteAnalyzer 2.5 - Парсинг данных, проверка уникальности и скорости загрузки страниц

Кроме того, теперь можно фильтровать список проектов по названию.

5. Обновлен интерфейс настроек программы.



SiteAnalyzer 2.5 - Парсинг данных, проверка уникальности и скорости загрузки страниц

С расширением функционала программы нам стало сложно пользоваться вкладками, поэтому мы переформатировали окно настроек в более понятный и функциональный интерфейс.

Другие изменения

  • исправлен некорректный учет исключений URL
  • Исправлен некорректный учет глубины сканирования сайта.

  • восстановлено отображение редиректов для URL-адресов, импортированных из файла
  • Восстановлена возможность переставлять и запоминать порядок столбцов на вкладках.

  • восстановлен учет неканонических страниц, решена проблема с пустыми метатегами
  • восстановлено отображение якорей ссылок на вкладке «Информация»
  • ускорен импорт большого количества URL-адресов из буфера обмена
  • исправлен разбор заголовка и описания, который не всегда был корректным
  • восстановлено отображение alt и заголовка для изображений
  • исправлено зависание при переходе на вкладку "Внешние ссылки" при сканировании проекта
  • Исправлена ошибка, возникавшая при переключении между проектами и обновлении узлов во вкладке "Статистика сканирования сайта".

  • Исправлено неправильное определение уровня вложенности URL-адресов с параметрами.

  • исправлена сортировка данных по HTML-хешу в основной таблице
  • Оптимизирована работа программы с кириллическими доменами.

  • обновлен интерфейс настроек программы
  • обновленный дизайн логотипа
Буду рад любым комментариям и предложениям по улучшению функционала программы.

Теги: #SEO #SEO #аудит сайта #продвижение сайта #технический аудит #seo оптимизация #SEO-аудит #разработка сайта #интернет-маркетинг #поисковая оптимизация

Вместе с данным постом часто просматривают: