Over het algemeen kunnen zoekrobotten worden onderverdeeld in 2 categorieën: crawler-based zoekrobotten en directory's. Dit onderscheid is voor de gebruiker van een zoekrobot niet zozeer van belang maar wel bij het registreren van een website bij de zoekrobotten.
Crawler-based zoekrobotten:
Een zoekrobot maakt gebruik van speciale software; spider genoemd. Deze software gaat van website tot website via de links aanwezig op de website. Dit om nieuwe websites te ontdekken en te registreren in zijn index. Deze zoekrobotten worden in het vakjargon "crawler-based" ("spider-based") zoekrobotten genoemd.
De crawler-based zoekrobotten voeren 3 basistaken uit:
- Crawlen of spideren: een webpagina opzoeken en het opbouwen van een sleutelwoordenlijst afkomstig uit deze pagina.
- Indexeren: De sleutelwoorden en het webadres van een pagina worden opgeslagen in een database.
- Query-processing: Wanneer een gebruiker gebruik maakt van de zoekrobot wordt er in de database gezocht naar webadressen waarvan er sleutelwoorden overeenkomen met de opgegegeven zoek-woorden en -termen.
Enkele crawler-based zoekrobtten: Google, Altavista, All the Web, ...
Directory's:
Een website wordt via een persoon aan een directory toegevoegd (een human-editor).
Een directory bestaat uit een grote stamboom waarvan elke tak specifiekere sites biedt binnen een bepaald onderwerp.
Een voorbeeld: Een site die bijvoorbeeld thee verkoopt zal geregistreerd worden in de volgende categorie:
Business and Economy / Shopping and Services / Foods and Drinks / Tea
Een site wordt geregistreerd bij een directory indien hij voldoet aan volgende voorwaarden:
- Unieke inhoud: Indien u een site registreert in een bepaalde categorie waar de informatie die u biedt nog niet aanwezig is dan bent u een stap verder voor het registreren op de zoekrobot.
- Zo goed mogelijke categorie: Indien u een voorstel doet om in een categorie te staan die niet van toepassing is zal u in het beste geval verwezen worden naar een andere categorie. In het slechtste geval wordt uw aanvraag geweigerd.
- Wettig bedrijf of organisatie: Human editors wensen sites te registreren die op het interenet aanwezig blijven. Zij hebben geen boodschap aan sites die volgend jaar niet meer online staan. De meeste human-editors zullen zelfs een WHOIS-lookup (DNS) doen om te verifieeren dat de informatie die u meegeeft correct is.
- Acurate omschrijving: Wanneer u een aanvraag doet voor registratie bij een directory, wordt er gevraagd achter een omschrijving van uw site. Deze omschrijving moet kloppen met de informatie die op uw site te vinden is.
Enkele directory's: DMOZ (open directory project), Yahoo, gimpsy, ...