Vous rêvez de créer votre propre moteur de recherche? Outre les solutions proposées par Yahoo! et Google qui ne vous permettent pas de vraiment contrôler l’analyse des documents, vous pouvez tout faire vous-même, ou encore utiliser un moteur open source comme Nutch. Mais dans ces derniers cas se posera alors le problème des ressources matérielles. Il existe une solution intermédiaire : 80legs.
80legs est une solution bien pensée. A l’aide d’une interface simple, vous allez créer un job dans lequel vous spécifiez :
- la fréquence de crawl
- la liste des URLs de départ du crawl
- un filtre sur les liens à suivre
- la profondeur d’exploration
- la stratégie de crawl
- le nombre maximum d’URLs à crawler
- le type des documents à crawler
- l’analyse des documents à effectuer (filtrage par mot clé, par expression régulière ou même en utilisant votre propre code)
- un filtre sur les documents à analyser
- les type des documents à analyser
- la taille maximale des données finales
Vous lancez le job et vous avez ensuite accès aux documents crawlés et analysés. Bien sûr 80legs propose également une API permettant de gérer vos crawls mais aussi de récupérer les données crawlées. Le format des données récupérées est propriétaire et il faudra tout de même être développeur pour pouvoir les exploiter.
C’est là à mon avis où 80legs ne va pas assez loin : son API devrait également permettre d’indexer et d’interroger les crawls effectués.
Mais c’est déjà une approche intéressante que de pouvoir effectuer des crawls à un moindre coût :
- Crawl : $2 pour 1 million de pages
- Analyse : $0,03 par heure CPU utilisée
- Récupération des résultats : entre $0 et $0,10 par en fonction du volume
Emilie : pour moi, 80legs présente 3 intérêts. Tout d’abord, il offre un nouveau moyen à l’internaute de créer son propre moteur de recherche. Plus on a de choix, mieux c’est. C’est ensuite un service complètement personnalisable ; le nombre d’options est assez important. Enfin, il est, d’après ses créateurs, facile à utiliser. Que peut-on demander de plus ? Et pour ceux qui veulent savoir quelles différences il existe entre Yahoo Boss et 80legs, c’est ici.