Всем привет! Спустя очень долгое время мы наконец подготовили новый релиз СайтАнализатор , который, надеемся, оправдает ваши ожидания и станет незаменимым помощником в SEO-продвижении.
В новой версии мы реализовали несколько самых популярных среди пользователей функций, таких как: парсинг данных (извлечение данных с сайта), проверка уникальности контента и проверка скорости загрузки страниц с помощью Google PageSpeed. При этом было исправлено множество ошибок и сделан рестайлинг логотипа.
Расскажем обо всем подробнее.
Большие перемены 1. Парсинг данных с использованием XPath, CSS, XQuery, RegEx. Веб-скрапинг — это автоматизированный процесс извлечения данных с интересующих страниц веб-сайта по определенным правилам.
Основными методами парсинга веб-страниц являются методы анализа данных с использованием XPath, селекторов CSS, XQuery, RegExp и шаблонов HTML.
- XPath — это специальный язык запросов для элементов документа XML/XHTML. Для доступа к элементам XPath использует навигацию по DOM, описывая путь к нужному элементу на странице.
С его помощью можно получить значение элемента по его порядковому номеру в документе, извлечь его текстовое содержимое или внутренний код, а также проверить наличие определенного элемента на странице.
- Селекторы CSS используются для поиска элемента по его части (атрибуту).
CSS синтаксически похож на XPath, но в некоторых случаях локаторы CSS работают быстрее и описываются более четко и кратко.
Недостаток CSS в том, что он работает только в одном направлении — вглубь документа.
XPath работает в обоих направлениях (например, вы можете искать родительский элемент по дочернему элементу).
- XQuery основан на языке XPath. XQuery имитирует XML, позволяя вам вкладывать выражения так, как это невозможно в XSLT.
- RegExp — формальный язык поиска для извлечения значений из набора текстовых строк, соответствующих требуемым условиям (регулярному выражению).
- HTML-шаблоны — это язык извлечения данных из HTML-документов, который представляет собой комбинацию HTML-разметки для описания шаблона поиска нужного фрагмента, а также функций и операций для извлечения и преобразования данных.
Это может быть извлечение описаний продуктов для создания нового интернет-магазина, исследование маркетинговых исследований для мониторинга цен или мониторинг рекламы.
В SiteAnalyzer за настройку парсинга отвечает вкладка «Извлечение данных», в которой настраиваются правила извлечения.
Правила можно сохранять и при необходимости редактировать.
Также имеется модуль тестирования правил.
С помощью встроенного отладчика правил вы сможете быстро и легко получить HTML-содержимое любой страницы сайта и протестировать работу запросов, после чего использовать отлаженные правила для анализа данных в SiteAnalyzer.
После завершения извлечения данных всю собранную информацию можно экспортировать в Excel.
2. Проверка уникальности контента внутри сайта.
Этот инструмент позволяет искать дубликаты страниц и проверять уникальность текстов внутри сайта.
Другими словами, это пакетная проверка группы URL-адресов на уникальность между собой.
Это может быть полезно в случаях:
- Для поиска полных дубликатов страниц (например, страницы с параметрами и той же страницы, но в виде ЧПУ).
- Для поиска частичных совпадений контента (например, два рецепта борща в кулинарном блоге, которые на 96% похожи друг на друга, что говорит о том, что лучше удалить одну из статей, чтобы избавиться от возможной каннибализации трафика) ).
- Когда на сайте статей вы случайно написали статью на тему, которую уже писали 10 лет назад. В этом случае наш инструмент также обнаружит дубликат такой статьи.
Таким образом, с помощью шинглов мы определяем уникальность страниц и можем рассчитывать как полные дубли страниц с уникальностью 0%, так и частичные дубликаты с различной степенью уникальности текстового контента.
Программа работает с гонтом длиной 5. 3. Проверка скорости загрузки страницы с помощью Google PageSpeed. Инструмент PageSpeed Insights от поискового гиганта Google позволяет проверить скорость загрузки определенных элементов страницы, а также показывает общий показатель скорости загрузки для интересующих URL-адресов для настольной и мобильной версий браузера.
Инструмент Google всем хорош, однако у него есть один существенный недостаток – он не позволяет создавать групповые проверки URL, что создает неудобства при проверке многих страниц вашего сайта: согласитесь, вручную проверять скорость загрузки на 100 или создание большего количества URL-адресов на одной странице утомительно и может занять много времени.
Поэтому мы создали модуль, который позволяет создавать бесплатные проверки скорости загрузки групповых страниц через специальный API в инструменте Google PageSpeed Insights.
Основные анализируемые параметры:
- FCP (First Contentful Paint) – время отображения первого контента.
- SI (Speed Index) — показатель того, насколько быстро контент отображается на странице.
- LCP (Largest Contentful Paint) — время отображения самого большого элемента страницы.
- TTI (Time to Interactive) — время, в течение которого страница становится полностью готовой к взаимодействию с пользователем.
- TBT (Total Blocking Time) — время от первой отрисовки контента до его готовности к взаимодействию с пользователем.
- CLS (Cumulative Layout Shift) – накопительный сдвиг макета.
Используется для измерения визуальной стабильности страницы.
При этом сам анализ URL происходит всего в пару кликов, после чего можно скачать отчет, включающий основные характеристики проверок в удобной форме в Excel. 4. Добавлена возможность группировать проекты по папкам.
Для более удобной навигации по списку проектов добавлена возможность группировать сайты по папкам.
Кроме того, теперь можно фильтровать список проектов по названию.
5. Обновлен интерфейс настроек программы.
С расширением функционала программы нам стало сложно пользоваться вкладками, поэтому мы переформатировали окно настроек в более понятный и функциональный интерфейс.
Другие изменения
- исправлен некорректный учет исключений URL
- Исправлен некорректный учет глубины сканирования сайта.
- восстановлено отображение редиректов для URL-адресов, импортированных из файла
- Восстановлена возможность переставлять и запоминать порядок столбцов на вкладках.
- восстановлен учет неканонических страниц, решена проблема с пустыми метатегами
- восстановлено отображение якорей ссылок на вкладке «Информация»
- ускорен импорт большого количества URL-адресов из буфера обмена
- исправлен разбор заголовка и описания, который не всегда был корректным
- восстановлено отображение alt и заголовка для изображений
- исправлено зависание при переходе на вкладку "Внешние ссылки" при сканировании проекта
- Исправлена ошибка, возникавшая при переключении между проектами и обновлении узлов во вкладке "Статистика сканирования сайта".
- Исправлено неправильное определение уровня вложенности URL-адресов с параметрами.
- исправлена сортировка данных по HTML-хешу в основной таблице
- Оптимизирована работа программы с кириллическими доменами.
- обновлен интерфейс настроек программы
- обновленный дизайн логотипа
Теги: #SEO #SEO #аудит сайта #продвижение сайта #технический аудит #seo оптимизация #SEO-аудит #разработка сайта #интернет-маркетинг #поисковая оптимизация
-
Шпионское Решение
19 Oct, 24 -
Теория Эйнштейна Обнаружила Антигравитацию
19 Oct, 24 -
Интернет-Знакомства В Стиле Web 2.0
19 Oct, 24 -
Кто Есть Кто На Рынке Облачных Ide?
19 Oct, 24