Парсер HTML

SeaMan75

Каким способом лучше всего очень быстро парсить HTML? - использовать готовые решения и какие или самому изобретать велосипед?

LeshaRB

SeaMan75, post: 767281:
Каким способом лучше всего очень быстро парсить HTML? - использовать готовые решения и какие или самому изобретать велосипед?

Каждый дрочит как он хочет, я дрочу как я хочу!

Есть готовые парсеры, можешь свой писать

LeshaRB

Я тут решил тебе за флуд предупрждение дать
http://lumtu.com/showthread.php?p=593696 & postcount=3

Чтоб не забывал чем пользовался 4 года назад

Nex Ko

SeaMan75, post: 767281:
Каким способом лучше всего очень быстро парсить HTML? - использовать готовые решения и какие или самому изобретать велосипед?

Использование regexp всегда универсально в этом случае

xmailer

легкий модуль для парсинга html

, работает четко. Был найден очень давно в нете.

 uses HTMLPars;


var


HTMLTag : THTMLTag;


HTMLParser : THTMLParser;


obj : TObject;


aTag, avalue: String;


i : Integer;


begin


HTMLParser:=THTMLParser.Create;


HTMLParser.Lines.Text:=tmp;


HTMLParser.Execute;


//


for i:= 1 to HTMLParser.parsed.count do


begin


obj:=HTMLParser.parsed[i-1];


if obj.classtype=THTMLText then


avalue:=avalue+THTMLText(obj).Line;


if (obj.classtype=THTMLTag)and(not ftovar) then


begin


HTMLTag:=THTMLTag(obj);


aTag :=LowerCase(HTMLTag.Name);


if (aTag='tr') then


begin


...


Continue;


end;


if (aTag='/tr') then


begin


// что то делаем с собранным текстом avalue


...


avalue:='';


Continue;


end;


end;


end;


end;

Keoda

Есть ещё компонент MSHTML

. Там есть пример.

fets

так же для парсинга можно использовать стандартный компонент TWebBrwoser, но я рекомендую юзать TChromium и у него намного больше внутренних инструментов, для парсинга HTML + встроенные отладчик страниц + скорость работы. Так же можно использовать его не визуальный компонент для этих целей.

DelGor

TRegExpr и т.п - Регулярки уже не модные что ли.. Да и вообще, задача не понятна.. всё от задачи зависит, что парсить, может можно обойтись Copy\Pos..

under44

DelGor, post: 767296:
TRegExpr и т.п - Регулярки уже не модные что ли..
Да и вообще, задача не понятна.. всё от задачи зависит, что парсить, может можно обойтись Copy\Pos..

TRegExpr очень медленный, особенно для больших объемов.

У меня даже вылетало исключение - нехватка памяти или переполнение стека, не помню уже.

Я очень разочаровался в нем, просмотрев в режиме отладки его работу.

К тому же в matches содержится ошибка при использовании с начальным индексом, по крайней мере в XE8 Upd1. Лучший вариант - LowerCase, Copy, Pos.

Со сложными выражениями, конечно, придется мучиться...

HatM

This project has parser, I'm not sure if it can be used separated
https://github.com/BerndGabriel/HtmlViewer

yyjksw

Unless the data on the web has been determined and arrived, Sometimes values are changed by Java or other scripts. It is best to use TWebbrowser's Document2 or Document3 to capture and operate it steadily. Doc3.getElelentbyID ('id') ._ ClassName, TagName, InnerText, etc.

WildFrag

Если нужно просто определенные значения в html найти то конечно либо тупо pos либо регулярные выражения. А вот если надо со всем документом работать то я бы взял dihtmlparser, либо работал бы с документом как с xml

Maslan

Поддержу DIHtmlParser - быстрый и удобный. Из минусов - платный и без исходников (линкуются объектники к проекту)

under44

test-593, post: 767305:
DiHTML работает нормально, плюс, у них есть версия для разбора XML

а что это такое вообще - компонент? может дадите ссылку хотя бы на описание?

Похожие темы	Дата
[FanAndroid] Как создать андроид-приложение для экзамена, викторины, опроса или тестов (2018)	19.10.2024, 18:10
Lynda.com] JаvаScriрt. Фунkции	19.10.2024, 18:10
Skype Login Parser v.1.1 by Дмитрий	19.10.2024, 18:10
Aвтомaтичecкoe cоздaниe и нacтpoйкa SМTР cepвepoв	19.10.2024, 18:10
[Robin Wieruch, Alexey Pyltsyn] Путь к изучению React	19.10.2024, 18:10
[Hacker Place Academy] Обучение по хакингу	19.10.2024, 18:10
[Udemy] Master Redis. Полное руководство по Redis (2018)	19.10.2024, 18:10
PHP 7. Наиболее полное руководство	19.10.2024, 18:10
Delphi style pack builder	19.10.2024, 18:10
Week of 2nd of December 2019 by Jim McKeeth	19.10.2024, 18:10

Парсер HTML

SeaMan75

LeshaRB

LeshaRB

Nex Ko

xmailer

Keoda

fets

DelGor

under44

HatM

yyjksw

WildFrag

Maslan

under44

I AM

Интересно