Tvoríme webstránky: k čomu je súbor robots.txt a návod na jeho vytvorenie

0
4391

robots.txt nastavenie súboru

Či už pokročilý, alebo začínajúci autor webových stránok, každý z času na čas rieši nutné nastavenia, bez ktorých sa nezaobíde, prípadne ak chce konkrétne umiestnenie schovať, často rieši komplikované nastavenia a stačí pritom pár jednoduchých nastavení a najzákladnejší súbor TXT s niekoľkými riadkami krátkeho textu. Súbor ROBOTS.TXT je bežný súbor, ktorý si vytvoríte sami, umiestnite ho do hlavného koreňového adresára webovej stránky, kde máte všetky hlavné súbory webu. Výsledná cesta k jeho obsahu tak bude http://adresastránok.sk/robot.txt. Súbor vyhľadávajú viaceré služby, ako Yahoo, Google, MSN a ďalšie ako jednu z prvých vecí po vstupe na vaše stránky. Z tohto súboru sa dočítajú jasné inštrukcie, ktoré zložky chcete, aby sa zobrazovali vo vyhľadávačoch, môžete si dokonca vybrať, ktoré vyhľadávače chcete a ktoré nechcete, aby obsahovali výsledky cielené na Vaše stránky a tak posielali návštevníkov. Prostredníctvom súboru ROBOTS.TXT je tiež možné úplne zablokovať stránky pred vstupom internetových vyhľadávačov.

Ako vytvoriť ROBOTS.TXT
Vytvorte si kdekoľvek v počítači nový textový dokument s príponou TXT. Nie Word, ani RichText Format (RTF), ale klasické jednoduché TXT. Nazvite ho slovom „robot“ a po otvorení vložte niektorý z nižšie uvedených kódov. Po uložení súboru robot ho následne nakopírujte na vaše webové stránky presne tam,. Kde sa nachádzajú hlavné súbory stránky (najčastejšie prvý index.php, index.html).
Poznámka: znamienko * znamená, že má ísť o všetkých bez výnimky. Tiež pozor, robot.txt je dostupný súbor a je viditeľný komukoľvek, čo pozná cestu.

V prípade ak chcete všetkým vyhľadávačom zakázať prístup:

User-agent: *
Disallow: /

V prípade, ak chcete všetkým vyhľadávačom udeliť prístup:

User-agent: *
Disallow:

(rovnaký účinok má prázdny súbor robot.txt, alebo žiaden)

V prípade, ak chcete zakázať len jeden konkrétny vyhľadávač, napr. Yahoo

User-agent: Yahoo
Disallow: /

V prípade, že chcete povoliť objavenie stránok len v jednom vyhľadávači

User-agent: Google
Disallow:

User-agent: *
Disallow: /

(na príklade je povolený Google, vyhľadávač číta ďalej a nachádza po vynechanom riadku ďalšie spojenia, tentoraz označenie * – všetkých a / pre zablokovanie prístupu)

V prípade, ak chcete zablokovať konkrétnu zložku pred vyhľadávačmi, napríklad ak máte na stránkach osobnú sekciu a nechcete ju zverejniť v žiadnom vyhľadávači

User-agent: *
Disallow: /rodinny-rodokmen/
Disallow: /obrazky/
Disallow: /dokumenty/

Nastavenie v súbore robot.txt, ktoré umožňuje prístup crawlera reklamnej siete Adsense na stránky:

User-agent: Mediapartners-Google
Disallow:

Zablokovanie Google Images na vašich stránkach
Svoje stránky môžete skryť aj pred konkrétnymi súčasťami napríklad Google vyhľadávača. V prípade snahy o zablokovanie prístupu Googlu k vašim obrázkom a v prípade ak chcete, aby sa nezobrazovali obrázky z vašej stránky vo vyhľadávaní obrázkov, použite ako názov vyhľadávača v ďalšom riadku názov: googlebot-images

Konkrétne vyhľadávanie technológie a ich zoznam:

Google: googlebot
MSN Search: msnbot
MSN PicSearch: psbot
Yahoo: yahoo-slurp
Ask/Teoma: teoma
Cuil: twiceler
GigaBlast: gigabot
Scrub the Web: scrubby
DMOZ: robozilla
Nutch: nutch
Alexa/Wayback: ia_archiver
SingingFish: asterias    …a v skutočnosti takmer 200 ďalších

Zablokovanie prístupu vyhľadávačom priamo z kódu webstránky:
Zablokovanie prístupu vyhľadávačom je možné aj priamo z kódu samotnej stránky. Pokiaľ ie je pre vás komplikované zasahovať do kódu, potom v zdrojovom kóde stránok pod označením titulu stránok môžete vsunúť riadok, ktorý bude po vstupe vyhľadávačov informovať o tom, že si neprajete, aby sa stránka objavila vo vyhľadávaní a zároveň aby sa nesledovali vyhľadávačmi odkazy, na ktoré vy zo svojich stránok odkazujete.

<meta name=“ROBOTS“ content=“NOINDEX, NOFOLLOW“ />

Opačný efekt, zobrazenie vo vyhľadávačoch

<meta name=“ROBOTS“ content=“INDEX, FOLLOW“ />

Tento spôsob však využijú skôr systémy, kde je možné vyberať konkrétne stránky a ich zobrazovanie vo vyhľadávačoch (INDEX), blokovanie vo vyhľadávačoch (NOINDEX), či sledovanie odkazov (FOLLOW) z vašich stránok ďalej.