Rechercher dans les publications Rechercher:

Imprimer cet article

Rechercher dans les publications Auteur : Cariboo
Site Web :
Pnambique

Directeur du Pôle Experts de la société @position http://www.aposition.com

Articles de l'auteur :
La détection du Link Spam : un challenge pour les moteurs [3/4]
La détection du Link Spam : un challenge pour les moteurs [2/4]
La détection du Link Spam : un challenge pour les moteurs [Bibl.]
La détection du Link Spam : un challenge pour les moteurs [1/4]
Cuill veut surpasser Google grâce à l’analyse de données sémantiques
2007 : l’année des moteurs furtifs
L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.4]
L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.3]
L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.2]
L’autre sémantique - Le Web Sémantique et les systèmes de recherche d’information. [3.1]
Joachim Kreibich (Seekport) : pour nous, un moteur de recherche de qualité doit tenir compte des particularismes linguistiques nationaux, voire régionaux
Une tentative de définition du spamdexing
Google Base dévoilé !
Les concepts de la POO
La programmation objet : qu’est-ce que c’est ? à quoi ça sert ?
Gregory Olivier "MSN Search cherche à établir un véritable dialogue avec les webmasters et les référenceurs"
Direct Answers from Encarta
MSN Search utilise-t’il l’analyse au niveau des blocs ?
Spyware : les méthodes pour s’en débarasser
Michael James, de la société Mirago "Nous misons sur nos partenaires pour développer notre visibilité"
La sémantique appliquée et les outils de recherche [2/6]
Linguistique statistique et sémantique appliquée : outil de pertinence pour les moteurs, de KM et de référencement
ANALYSE THEMATIQUE (4/4) par le Pr E. Garcia
ANALYSE THEMATIQUE (3/4) par le Pr E. Garcia
Applications des outils sémantiques au référencement et aux moteurs de recherche
Sémantique appliquée : Liens et références bibliographiques
ANALYSE THEMATIQUE (2/4) par le Pr E. Garcia
ANALYSE THEMATIQUE (1/4) par le Pr E. Garcia
CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [3]
Mon premier programme en PHP (3e Partie)
CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [2]
CIRCA : la technologie d’Applied Semantics au coeur des Adwords et des Adsense de Google [1]
Quelques pistes pour comprendre le nouvel algorithme de Google (suite et fin)
Quelques pistes pour comprendre le nouvel algorithme de Google
FOOXX, le moteur futé venu d’Allemagne
Le futur moteur que prépare Microsoft pour MSN sera-t’il Brilliant ?
Mooter, un moteur de recherche innovant venu d’Australie
Les techniques évoluées d’indexation dans les moteurs de recherche (2e partie)
Visibilité et stratégies de développement d’audience sur le Web
Les techniques évoluées d’indexation dans les moteurs de recherche
L’algorithme HITS et le projet CLEVER (deuxième partie)
L’algorithme HITS et le projet CLEVER
La structure du web est en forme de "noeud papillon"
Webfountain d’IBM
Vers un moteur de recherche sensible au contexte (1ère partie)
Vers un moteur de recherche sensible au contexte (2ème partie)
Vers un moteur de recherche sensible au contexte (3ème partie)
Droit d’auteur et site web
Droit d’auteur et site web (2e Partie)
Droit des producteurs de bases de données (législation française)
Tester correctement variables et valeurs en php
Mon premier programme en PHP (2e Partie)
Les nouveautés de la version 5 de PHP
Les origines du PHP
Mon premier programme en PHP
Pourquoi choisir le PHP pour réaliser des pages dynamiques ?
La détection du Link Spam : un challenge pour les moteurs [3/4]

Lutte contre le spamdexing

La détection du Link Spam : un challenge pour les moteurs [3/4]

Les méthodes statistiques et l’évalution humaine

10 février 2008, par Cariboo

Une étude statistique de la distribution des liens entre les pages web montre une certaine régularité des pages normales (sur lesquelles les liens sont construits par des humains), les pages de spam ayant tendance à montrer une distribution beaucoup plus atypique.

La comparaison des scores des pages de spam à des normes établies fait partie des techniques les plus efficaces pour identifier des pages candidates au statut de spam. On notera toutefois que ces techniques ont tendance aussi à créer des "faux positifs", qui doivent être éliminés par un évaluateur humain.

structure caractéristique d'une link farm

L’approche statistique dans la lutte contre le link spam

Il n’y a pas un seul critère utilisable pour détecter une spam farm. Dans un article souvent cité [1], Fetterly Manasse et Najork avaient déjà identifié sept familles de critères de détection opérationnels :

Les propriétés d’url

La longueur des host-names, et en particulier le nombre de tirets, de chiffres, de points sont plus grands pour des pages de spam

La résolution DNS

le ratio moyen hôte/machine est très supérieur pour des pages de spam. [2] des pages s’éloigne de la distribution normale des pages du web sont probablement des pages de spam.

C’est encore plus net avec le in-degree [3]

Les zones ovales bleues montrent les pages "déviantes" sur deux critères : in degree et variance du nombre de termes

Le contenu des pages de la spam farm

Pour des raisons de coût (efficacité obtenu / temps passé), les spammeurs ont tendance à créer des pages "supportrices" peu riches en contenu et peu variées. Il suffit de calculer la variance du nombre de termes des pages présentes sur un hôte donné pour observer des pages "déviantes" qui ne présentent peu ou pas de variance dans le nombre de mots. Cet indicateur dénote une probable page de spam.

L’évolution du contenu

La mesure du nombre moyen des changements intervenus sur les pages web d’un site donné est aussi semble-t’il une caractéristique de certaines spam farm (scripts générant du contenu à la volée).

La recherche des contenus dupliqués

Une observation de la distribution des tailles des documents en situation de "near duplicates" permet elle aussi d’identifier des pages de spam.

Cette liste n’est pas exhaustive : l’approche statistique est particulièrement féconde pour détecter des structures artificielles dans une structure qui est (censée) avoir pour origine une activité humaine. Tout ce qui sort d’une norme établie peut constituer un indice de spam..

Le rôle de l’évaluation humaine

Dans la lutte contre le spam, quelle que soit la méthode utilisée, l’évaluation humaine est souvent indispensable pour éviter de sanctionner de "faux positifs".

Avec le temps, le code des pages est de moins en moins rédigé par des humains, mais généré automatiquement par des programmes qui créent des pages à la volée. Certaines structures perçues comme "artificielles" peuvent se révéler correspondre à des cas parfaitement légitimes.

Les blogs sont aussi un exemple flagrant de ce problème : les liens entre blogs amis ressemblent à une link farm, et les blogueurs jouent sans le savoir sur l’effet TKC.

Le gendarme, c’est l’algo. Le juge, c’est l’évaluateur humain

Il est évidemment impossible de difficile de surveiller en permanence les milliards de pages web qui constituent la Toile mondiale. Le principe (tel que décrit notamment il y’a quelques années par Wu et Davison) constitue à construire un système de détection s’appuyant sur de multiples indices. [4]

A partir de ces différents scores, on peut soit créer une fonction de scoring à l’aide de pondérations établies expérimentalement, ou utiliser un "arbre de décisions", ou encore une méthode probabiliste (voire même un algorithme "apprenant" comme un algorithme bayésien). L’objectif étant d’identifier les pages "suspectes".

On peut éviter les faux positifs en ne sanctionnant que les pages qui dépassent des seuils élevés, et dont la probabilité d’être du spam est proche de 100%. L’inconvénient, c’est que les SERPS (les pages de résultats) continuent forcément d’être polluées par des pages de spam.

La solution pour diminuer la présence de spam dans les pages de résultats est d’utiliser l’évaluation humaine.

L’internaute, évaluateur sans le savoir

Comme le rappelait Peter Norvig dans une interview récente de la Technology Review, Google utilise plusieurs sources d’information pour vérifier que l’algorithme fournit des résultats de qualité :
- les clics de l’internaute peuvent être traqués : si certains résultats ne sont jamais cliqués, ou si les pages en premières positions ne sont pas cliquées, au contraire de la page en position quatre ou cing, c’est qu’il y’a un problème (défaut de l’algorithme, présence de pages de spam, ou les deux).
- des tests de comportement peuvent être organisés en laboratoire, ou chez un panel d’utilisateurs
- enfin, Google sélectionne des requêtes à faire tester par des évaluateurs embauchés pour l’occasion

EWOQ, le système d’évaluation de Google

L’équipe de "search quality" de Google, dirigée par Matt Cutts, a beaucoup évolué ces derniers temps, ainsi que ses méthodes. Mais il est probable que les principes décrits ci-après soient encore à l’oeuvre.

Le principe est l’utilisation simultanée de "petites mains" (quality raters) à qui on demande de "flagger" les pages présentant certaines caractéristiques bien visibles (comme du texte caché), et d’évaluer la pertinences de certaines pages apparaissant en tête des résultats. Ces notes de qualité alimentent un système de scoring complexe baptisé EWOQ permettant d’avoir un feed back sur le fonctionnement des algorithmes (par rapport à la présence de spam mais aussi en terme de pertinence).

Il semble que ces petites mains ne puissent pas pénaliser seule un site. Mais leurs remarques peuvent conduire, combinée à d’autres critères, soit à un déclassement automatique (note intégrée dans l’algorithme) soit au déclenchement d’une alerte qui amènera une évaluation par une personne expérimentée.

Je précise bien les choses ici : chez Google, on adore les algorithmes, et trouver des solutions générales. Il est donc probable que les pénalités manuelles représentent un tout petit nombre de cas.

Philippe YONNET Directeur du Pôle Experts - Aposition

Prochain article (et dernier) : la nouvelle donne du netlinking



[1] Spam, Damn Spam, and Statistics

[2] Ce ratio mesure le nombre d’hôtes présents dans les liens d’une page, divisé par le nombre d’IP obtenus après résolution du nom de domaine]

La structure des liens

Les sites dont le "out-degree"[[le "out-degree" correspond au nombre de liens sortants. La distribution suit une loi de Zipf

[3] le nombre de liens entrants

[4] Davison proposait d’utiliser des dizaines de critères