Googlebot
Vývojář | |
---|---|
Typ softwaru | Web crawler |
Web | www |
Některá data mohou pocházet z datové položky. |
Googlebot (někdy též označovaný jako web crawler nebo spider) je speciální vyhledávací software společnosti Google, který se využívá k indexování webových stránek. Tento robot prochází webové stránky, přečte si jejich obsah a následně jej přidá do svého indexu, tj. do své databáze. Díky tomuto procesu je následně možné stránku zobrazit v internetovém Google vyhledávači.[1][2][3]
Jak Googlebot funguje[editovat | editovat zdroj]
Googlebot je zcela automatický program, který funguje bez jakéhokoli vnějšího řízení. Ke své činnosti využívá mapy webu (tzv. sitemaps) a odkazy objevené během předchozího vyhledávání. Pokaždé, když Googlebot narazí na nový odkaz, tak si ho uloží, aby se na něj mohl později podívat a případně jej i přidat do svého indexu. Program si též zaznamenává změněné nebo poškozené odkazy a aktualizuje podle toho svou databázi.[4][5] Googlebot si sám určuje, jak často bude webové stránky navštěvovat. Tuto četnost určuje podle tzv. rozpočtu vyhledávání (neboli crawl budget), který sám přiděluje každé stránce na základě odhadu, jak často se daná webová stránka mění.[6]
Typy[editovat | editovat zdroj]
Google využívá ke sběru dat velkou řadu IP adres, aby prohledal co nejvíce obsahu v co nejkratším čase. Existuje několik různých typů programu, každý s jasně definovaným účelem. Existuje například AdsBot – kontrola relevantnosti a kvality placených reklam na webu. Dále existuje tzv. Images Googlebot (prochází obrázky na webu), News Googlebot atd.[7]
Mezi nejvýznamnější typy patří:
Googlebot desktop
(Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)[7]
Googlebot mobile
(Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z, Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)[7]
Možnosti přístupu Googlebota ke stránce[editovat | editovat zdroj]
Googlebot může mít buď plný přístup ke stránce, nebo je možné jeho čtení stránky korigovat. Existuje mnoho případů, kdy správce webu nechce, aby měl Googlebot přístup k jeho stránce. Může se jednat například o stránku administrace, nákupní košíky nebo osobní účty uživatelů. V takovémto případě je vhodné použít soubor robots.txt, díky kterému je možné zakázat Googlebotovi přístup ke stránce nebo jednotlivým částem webu. Soubor robots.txt je první věcí, kterou Googlebot kontroluje při vstupu na stránku a následně se vždy řídí jeho příkazy.[8][9]
Optimalizace stránky pro Googlebota[editovat | editovat zdroj]
Pokud správce webu chce, aby byla jeho stránka správně indexována, je vhodné ji přizpůsobit tak, aby se Googlebotovi procházela co možná nejrychleji.[6][3]
Snadno viditelný obsah[editovat | editovat zdroj]
Je nutné, aby byl obsah stránek snadno viditelný v textovém prohlížeči a aby nebyl pro Googlebota příliš komplikovaný. Googlebot může mít potíže s indexováním stránek využívajících technologii Ajax[10] a programovací jazyk JavaScript.[11][3]
Soubory CSS[editovat | editovat zdroj]
Soubory CSS také velmi usnadňují Googlebotovu práci. CSS, neboli Cascading Style Sheets, jsou sobory, které popisují, jak se zobrazují jednotlivé prvky HTML (Hypertext Markup Language) na obrazovce. Kromě čtení textu si Googlebot stahuje právě i tyto CSS soubory, aby lépe porozuměl obsahu webu.
Kanonizace duplicitních stránek[editovat | editovat zdroj]
Webové stránky často používají různé URL (Uniform Resource Locator), na kterých je ovšem stejný obsah. Může se jednat o parametry uvedené v URL – například produkt na e-shopu může mít URL jen s ID dané věci, ale zároveň i s názvem, který je lepší pro SEO (search engine optimization). V obou případech je však obsah stejný, a tak se zde používá kanonizace. Během ní se jedna stránka označí jako ta, která se má indexovat a další se pak na ní pouze odkazují.[12]
Mapa webu (sitemap)[editovat | editovat zdroj]
Soubor sitemap slouží Googlebotovi jako jakási mapa, která mu říká, jak se má na stránce pohybovat. V souboru sitemap se nachází seznam všech URL adres webu, který se majitel webu rozhodl použít a také to, jak na sebe jednotlivé URL navazují. Díky těmto souborům mohou být stránky procházeny rychleji a jsou tedy častěji indexovány.[13]
Reference[editovat | editovat zdroj]
- ↑ What Is Googlebot | Google Search Central. Google Developers [online]. [cit. 2021-12-02]. Dostupné online. (anglicky)
- ↑ GOOGLE SEARCH CENTRAL. Googlebot: SEO Mythbusting. In: Youtube [online]. 02.12.2021. [vid. 2019-05-22]. Dostupné online.
- ↑ a b c WHOLEWHALE. How to Optimize for Googlebot. In: Youtube [online]. 02.12.2021. [vid. 2018-07-30]. Dostupné online.
- ↑ BAI, Quan; XIONG, Gang; ZHAO, Yong. Analysis and Detection of Bogus Behavior in Web Crawler Measurement. Procedia Computer Science. 2014-01-01, roč. 31, čís. 2nd International Conference on Information Technology and Quantitative Management, ITQM 2014, s. 1084–1091. Dostupné online [cit. 2021-12-02]. ISSN 1877-0509. DOI 10.1016/j.procs.2014.05.363. (anglicky)
- ↑ Web Crawler For Mining Web Data. 1library.net [online]. [cit. 2021-12-02]. Dostupné online. (anglicky)
- ↑ a b What Crawl Budget Means for Googlebot | Google Search Central Blog. Google Developers [online]. [cit. 2021-12-02]. Dostupné online. (anglicky)
- ↑ a b c Google Crawler (User Agent) Overview | Google Search Central. Google Developers [online]. [cit. 2021-12-02]. Dostupné online. (anglicky)
- ↑ Robots.txt Introduction and Guide | Google Search Central. Google Developers [online]. [cit. 2021-12-02]. Dostupné online. (anglicky)
- ↑ KOLAY, Santanu; D'ALBERTO, Paolo; DASDAN, Ali. A larger scale study of robots.txt. In: Proceedings of the 17th international conference on World Wide Web. New York, NY, USA: Association for Computing Machinery, 2008-04-21. Dostupné online. ISBN 978-1-60558-085-2. DOI 10.1145/1367497.1367711. S. 1171–1172.
- ↑ KHALID, Shah; KHUSRO, Shah; ULLAH, Irfan. CRAWLING AJAX-BASED WEB APPLICATIONS: EVOLUTION AND STATE-OF-THE-ART. Malaysian Journal of Computer Science. 2018-01-17, roč. 31, čís. 1, s. 35–47. Dostupné online [cit. 2021-12-02]. ISSN 0127-9084. DOI 10.22452/mjcs.vol31no1.3. (anglicky)
- ↑ Splitt, Martin. "How Google Search indexes JavaScript sites - JavaScript SEO". In: Youtube [online]. 02.12.2021. [2019-02-28]. Dostupné online.
- ↑ Consolidate Duplicate URLs with Canonicals | Google Search Central. Google Developers [online]. [cit. 2021-12-02]. Dostupné online. (anglicky)
- ↑ What Is a Sitemap | Google Search Central. Google Developers [online]. [cit. 2021-12-02]. Dostupné online. (anglicky)