Mi is az a keresőrobot?
A keresőrobotok valójában egyszerű programok, amelyek feladata, hogy feltérképezzék az interneten található honlapokat a keresőmotorok számára. A honlapról összegyűjtik az információkat, eltárolják őket az adatbázisban, majd mennek a következő honlapra. Joggal kérdezhetitek, hogy honnan ismeri a robot az összes honlap címét az interneten? Természetesen nem ismeri. Több lehetőség is van arra, hogy ránk találjon a robot:
- Honlap címének manuális regisztrálása: a honlapok tulajdonosainak lehetősége van arra, hogy saját maguk regisztrálják be a honlapjuk címét a keresőkbe, így jelezve a kereső számára, hogy a keresőrobotoknak meg kellene látogatnia azt.
- Linkek feltérképezése: A másik módszer, hogy a már meglátogatott honlapokról összegyűjtik a linkeket és az ismeretleneket előjegyzik egy későbbi látogatásra.
Milyen gyakran történnek a látogatások?
Az honlap címének az ismerete viszont nem jelenti azt, hogy a keresőrobot egyből meg is látogatja azt. Inkább az szokott a jellemző lenni, hogy megvárják, hogy egy bizonyos számú link mutasson a weblapra, és majd csak azt követően térképezik fel az oldalt.
Fontos azt is tudni, hogy az új oldalak látogatása mellett rendszeresen fel kell keresnie a robotoknak a már eltárolt honlapokat is. Ez azért szükséges, hogy nyomon tudják követni a már feltérképezett weblapok változásait.
A honlap tulajdonosaként a mi érdekünk az, hogy az új tartalmakat minél hamarabb megtalálják a keresőrobotok. A látogatások gyakoriságát azonban több tényező is befolyásolja:
- milyen gyakran változott a múltban a honlapunk tartalma
- mennyi és milyen minőségű link mutat a weblapunkra
- a keresőt üzemeltető vállalat szabad erőforrásai
- az általunk megadott kívánt gyakoriság is befolyásolja
Keresőrobotok irányítása
A keresőrobotok irányítása nem csak azért lehet érdekes számunkra, hogy gyorsan feltérképezzék a honlapunkat, de azért is, mert lehetnek olyan tartalmak (pl. egy Pécsi családi nyaralás), amelyeket nem szeretnénk, ha a keresőrobotok megindexelnének, mivel nem akarjuk a találatok között látni őket.
A keresőrobotokat viszonylag egyszerűen irányíthatjuk a robots.txt fájl segítségével. Ez egy egyszerű szöveges állomány, amelyet a honlapunk főkönyvtárába kell feltöltenünk. A keresőrobotok a látogatások alkalmával megnézik ezt az állományt és a benne leírtak szerint végzik a munkájukat.
Nézzünk néhány példát a robots.txt fájl tartalmára:
User-agent: *
Allow: /
A fenti két sor segítségével minden keresőrobot számára megengedjük, hogy minden tartalmat megindexeljenek. A "User-agent:" segítségével tudjuk meghatározni, hogy melyik keresőmotor keresőrobotját szeretnénk irányítani. Lássunk egy másik példát, ahol bizonyos tartalmakat elrejtünk a keresőrobotok elől:
User-agent: *
Disallow: /mappa1/
Disallow: /valami.html
Ezzel megtiltjuk a robotok számára, hogy megindexeljék a mappa1 tartalmát, illetve a valami.html oldalt.
User-agent: *
Disallow: /
Ezzel kitiltjuk az összes oldalról a keresőrobotokat. Erre viszonylag ritkán van szükségünk, például abban az esetben, ha ugyanaz a tartalmunk több különböző címen is megtalálható, mivel a keresők nem szeretik a duplikált tartalmakat.
Ha csak egy konkrét kereső robotját szeretnénk irányítani (pl. csak egy kereső elől szeretnénk elrejteni bizonyos tartalmakat), akkor a "User-agent" után a keresőrobot nevét kell beírnunk. Szerencsére ezeket nem kell fejből tudnunk, az interneten található egy lista a keresőrobotokról.
A robots.txt állomány használata azonban felvet néhány biztonsági kockázatot is. Mivel egy egyszerű szöveges állományról van szó, az bárki számára olvasható. A tartalmából a látogatók következtethetnek az oldalunk könyvtárszerkezetére, láthatják, hogy hová nem engedjük be a keresőrobotokat. Éppen ezért az ebben a fájlban megtalálható könyvtárakat mindenképpen lássuk el megfelelő védelemmel, hogy a tartalmukat ne lehessen kilistázni. Példaképpen megtekinthető az [origo] portál robots.txt állománya is.