Quand les tentatives d'hameçonnage sur Twitter se détectent en temps réel

Publié le 31 janvier 2013 par Pnordey @latelier

En analysant les url situés dans les tweets suspects, leur contenu et le profil de leur émetteur, PhishAri identifie les messages frauduleux plus de 9 fois sur 10.

La multiplication des spams et des tentatives de hameçonnage (ou "phishing"), c’est un peu la rançon du succès pour le réseau de microblogging Twitter. Une application indo-américaine* promet cependant de pouvoir lutter efficacement contre ce phénomène. Baptisée PhishAri, celle-ci analyse tout à la fois les propriétés de l’url du lien suspect, le contenu du tweet et le profil du twittos concerné. PhishAri ne s’intéresse qu’aux tweets présentant un url (donc ceux pouvant potentiellement vous rediriger vers un site malveillant). Les chercheurs expliquent que l’étude des liens url est plus ardue sur Twitter que sur d’autres réseaux ou que sur les emails car les liens sont souvent raccourcis (pour respecter la limitation à 140 caractères de Twitter). Un même lien peut donc se présenter sous des formes très différentes. Sur le réseau, la moitié des url partagés sont dans ce cas.

L’url des sites de phishing plus longs que les autres

Il faut donc s'intéresser non pas à l'url dans sa forme sur Twitter mais à sa destination réelle. Les chercheurs ont commencé par élaborer une base de données d’url connus pour mener vers des sites malveillants à l’aide d’outils existants comme PhishTank et Google Safe Browsing. La base de données ainsi constituée à partir d’url trouvés dans de vrais tweets a permis aux chercheurs d’identifier quelques propriétés des liens malveillants. Par exemple, les adresses contiennent plus de points et de sous noms de domaines que les sites légitimes. En général ils sont aussi plus longs (on parle bien ici du nom de domaine original, pas de sa version raccourcie sur Twitter). D’après les auteurs du rapport, on peut également identifier une adresse frauduleuse en s’intéressant à son créateur. Une fois identifiée un site malveillant, on peut ainsi légitimement soupçonner tous ceux qui ont été enregistrés et créés par la même personne. On peut aussi s’intéresser à la durée pour laquelle le site a été créé. Par nature, les sites malveillants doivent changer régulièrement d’adresses pour ne pas être repérés.  

Une précision de 93 % en moins d'une demi seconde

Il est donc probable que le nom de domaine n’ait pas été loué pour une durée très longue. De la même manière, le site n’ayant été créé que dans le but d’y attirer du monde, le délai entre sa création et le moment où les premiers tweets le mentionnent est très court par rapport à  la normale. Le contenu même du tweet donne lui-même des indications. Les tweets malicieux utilisent plus de hashtags (mots-dièses) et de mentions directes (@) que la moyenne car ils cherchent à être particulièrement visibles. Enfin, le ratio followers / followees des émetteurs de tweets malicieux est généralement très déséquilibré (ils suivent, beaucoup plus qu'ils ne sont suivis). Mis bout à bout, tous ces éléments permettent à PhishAri d’identifier sans erreur les tweets pirates avec une précision de presque 93 % (d’après ses auteurs). Disponible (gratuitement) sous forme d’extension pour le navigateur Google Chrome, l’application souligne en rouge les tweets suspects. Le tout  prenant moins d’une demi seconde, l’outil est idéal pour un réseau comme Twitter où le flux d’information est constant.   * des chercheurs de l’Institut des technologies de l’information d’Indraprastha et de l’Arizona State University ont collaboré sur ce projet