Crawling


Různé druhy prohledávání webu

Webové prohledávání zahrnuje procházení webových stránek, aby se extrahovaly relevantní informace. Většina webových vyhledávačů (jako například Google) používá k prohledávání webu techniku nazvanou lučení. Existují však i jiné druhy prohledávání internetu, které se líší od klasického lučení.

Full-textové indexování

Full-textové indexování je druh prohledávání webu, který se zaměřuje na extrahování informací z textu na stránce. Prohledávací systém vyhledává zadané klíčové slovo nebo frázi v celém textu, aby identifikoval relevantní stránky. Full-textové indexování může prohledávat celé webové stránky nebo konkrétní sekce (jako například titulek, odkazy nebo text ve formulářích).

Metadata spidering

Metadata spidering je druh prohledávání webu, ve kterém se extrahují informace (známé jako metadata) ze stránek. Tato informace obvykle zahrnuje datum vytvoření, datum editace a informace o autorovi stránky. Na základě těchto informací může prohledávací systém vybírat stránky, které jsou nejnovější, nejrelevantnější nebo nejpopulárnější.

Vlastní prohledávání

Pokud potřebujete prohledat speciálně nastavené stránky, můžete použít vlastní prohledávání. Tento druh prohledávání umožňuje narovnat výstup konkrétním formátem pomocí vlastního skriptu. Toto prohledávání může být praktické pro odhalování skrytých dat, jako jsou hesla nebo e-mailové adresy.

Závěrem

Existuje několik typů prohledávacích technik, které se liší v závislosti na typu informací, které hledáte. Klasický lučení je obecnou technikou pro prohledávání webu, ale existují i další možnosti, jako je full-textové indexování, crawlování metadat a vlastní prohledávání.

Zdroj:
Wikipedia – Web Scraping