Dans le monde de l’informatique et du web, un crawler désigne un robot. Automatique, il parcourt le vaste monde du web pour indexer les différents sites.
Définition du crawler
Le crawler, aussi appelé crawler web ou spider est un logiciel qui a pour mission de parcourir le web afin d’analyser les contenus des documents, puis de les archiver ou les classer en fonction de leur pertinence. Ce sont des robots informatiques ou des scripts automatiques qui organisent les contenus sur le web dans un grand site d’archivage appelé « index ». Pendant son parcours, il mémorise l’adresse URL, l’identité du site et de nombreuses données. Un crawler est utilisé par un moteur de recherche. Google bot est l’un des crawlers les plus connus utilisés par le moteur de recherche Google.
Fonctionnement du crawler
Le crawler fonctionne de manière autonome et automatique. Il explore sans relâche tous les sites et pages web lancés sur Internet. Il indexe tous les jours des contenus nouveaux ou des mises à jour des contenus déjà indexés. Le processus d’indexation repose sur la qualité et la pertinence des contenus.
Le robot crawler pendant son exploration, évalue les contenus sur les sites. Des critères paramétrés en amont lui permettent de bien juger la pertinence et la qualité des contenus sur une page web donnée.
Le crawler aide également les moteurs de recherche à classer les sites web dans les pages de résultats de recherche. Devant le nombre de pages internet et de contenus qui sont uploadés sur le web, le crawler permet d’éviter les surcharges de pages web, en sélectionnant seulement celles qui sont jugées pertinentes.
Types de crawler
Il existe notamment trois types de crawler selon leur utilisation :
- Le crawler d’indexation : utilisé par les moteurs de recherche pour classer les documents sur le web.
- Le crawler de diagnostic : développé en SEO dans le travail d’un référencement naturel
- Le crawler de veille : mis en place pour suivre l’évolution du marché.
Processus de crawl
Le crawler est programmé en amont et suit des instructions. Pour atteindre les contenus à explorer, il peut suivre plusieurs parcours. Il peut partir des données déjà existantes sur les pages de résultats des moteurs de recherche. Il peut également s’appuyer sur une liste établie au préalable. Il peut aussi suivre des liens qu’il rencontre au cœur de son exploration. Il peut également être chargé de soumission ponctuelle. Cela dépend notamment de sa mission.