Разработчик браузера Opera опубликовал первые результаты исследования, направленного на изучение структуры веб-контента.
Для этого компания создала приложение под названием МАМА ( Приложение для анализа метаданных и майнинга ): Работая как паук, он индексирует разметку и некоторые другие данные с более чем 3,5 миллионов страниц.
Статистический анализ данных, собранных MAMA, позволил инженерам Opera сделать выводы о новых тенденциях в веб-разработке и о том, как в сети используются веб-технологии, основанные на стандартах.
Opera планирует вывести свой проект на более высокий уровень, разработав поисковую систему на основе уже проиндексированных данных.
Таким образом, веб-дизайнеры, разработчики браузеров и веб-инженеры могут легко получать информацию о реальных приложениях веб-технологий в Интернете.
Предварительные данные, опубликованные компанией, содержат интересную информацию об использовании конкретных элементов HTML. Среди проанализированных страниц МАМА наиболее популярными элементами являются голова , заголовок , HTML , тело , а , мета , изображение И стол .
Реже всего используются следующие элементы: вар , дель И бдо .
Компания также изучила распространенность насыщенных веб-приложений, которые в основном связаны с использованием технологии AJAX. Исследование показало, что Adobe Flash используется примерно на 35% всех проанализированных сайтов.
Наиболее распространено в Китае (67% сайтов), реже всего в Дании (25% сайтов).
XMLHttpRequest, который является основным AJAX, используется 3,2% всех веб-сайтов.
Своеобразный рекорд здесь поставила Норвегия, где использование этого механизма было обнаружено на 10% сайтов.
Исследование также показало, что CSS используется достаточно широко: почти 80% ресурсов нашли его в том или ином виде.
Самые популярные свойства CSS относятся к цветам и шрифтам.
JavaScript также не отстает от CSS и используется на 75% веб-ресурсов.
Согласие?
Opera, помимо прочего, решила проверить проиндексированные страницы с помощью утилит проверки W3C, чтобы определить, насколько из них соответствуют стандартам.
Результаты показали, что только 4,13% всех страниц действительны.
Еще один поразительный результат: около 50% страниц, содержащих значок соответствия W3C, недействительны.
Теоретически разметка таких страниц изначально соответствовала стандартам, но позже потеряла это свойство (например, в результате добавления на страницу нового контента).
Инженеры компании попытались выяснить, есть ли какая-либо связь между инструментом разработки и достоверностью страниц.
Для этого были проанализированы метатеги страницы.
Оказалось, что страницы, созданные с помощью Apple iWeb, валидны в 81% случаев.
Для сравнения, только 3,4 процента страниц, созданных в Adobe Dreamweaver, соответствуют стандартам.
Результаты проведенных исследований очень интересны, однако потенциал всей системы еще не раскрыт в полной мере.
Попытка Opera разработать поисковую систему на основе данных MAMA открывает еще более удивительные возможности анализа, которые другие проекты могут использовать в собственных исследованиях и разработках.
«Интернет фрагментирован, сложен и склонен к постоянному росту.
МАМА предоставляет нам информацию об интенсивности использования определенных веб-технологий».
— говорит вице-президент Оперы Снорре М.
Гримсби.
«Мы можем использовать эту информацию для тестирования и обеспечения высокой совместимости, надежности и производительности наших продуктов.
Мы хотим поделиться этой технологией с нашими коллегами, чтобы они тоже могли извлечь из нее пользу».
Теги: #4.13 #3.14 #веб #стандарты #opera #мама #ИТ-стандарты
-
Лучше, Чем Множество Мальчиков-Посыльных
19 Oct, 24