Bruit et silence

Bruit

Dans les sciences de l'information et des bibliothèques, on parle de bruit lorsque des réponses non-pertinentes sont proposées par le système d’interrogation de la base de données. Ces réponses sont mêlées à des réponses pertinentes, qui risquent alors de ne pas être vues par l’utilisateur. Cela peut arriver notamment avec les catalogues de bibliothèque. Les causes du bruit peuvent être multiples :

  • l’utilisateur se sert de termes de recherche possédant plus d’un sens, par exemple, la couleur « orange » et le fruit « orange » (problème de polysémie);
  • l’utilisateur n’utilise pas assez de termes dans sa requête ;
  • l'utilisateur formule une requête comprenant trop de termes coordonnés par ou.

Soit un ensemble N de documents, A est un sous-ensemble de N et comporte les réponses pertinentes pour la recherche d’un usager, B est le sous-ensemble de N constitué des réponses obtenues. Plus A est inférieur à B, plus le bruit est grand et le taux de précision est faible.

Silence

Dans les sciences de l'information et des bibliothèques, on parle de silence lorsque des réponses pertinentes ne sont pas proposées par le système d’interrogation de la base de données, alors qu'elles existent. Cela peut arriver notamment avec les catalogues de bibliothèque. Les causes du silence peuvent être multiples :

  • un même concept est représenté par plus d’un terme de recherche, par exemple, « football » et « soccer » (problème de synonymie);
  • l'utilisateur formule une requête comprenant trop de termes coordonnés par et ;
  • l'indexation de la base est insuffisante ;
  • l'indexation de la base suit un langage rigide et compliqué que l'utilisateur ne connaît pas (exemple : indexation et recherche à partir seulement d’un thésaurus documentaire);
  • l’indexation ou la requête comportent des fautes d’orthographe[1].

Soit un ensemble N de documents, A est un sous-ensemble de N et comporte les réponses pertinentes pour la recherche d’un usager, B est le sous-ensemble de N constitué des réponses obtenues. Plus A est supérieur à B, plus le silence est grand et le taux de rappel est faible.

Bruit et silence

Sur une même requête, on peut rencontrer du bruit et du silence. Des documents intéressants sont mal indexés (silence) et des documents inutiles répondent à l’équation de recherche. Par exemple, si un utilisateur tape Viking, les documents indexés avec le mot Normands peuvent ne pas apparaître (silence) et certains parlant des sondes spatiales apparaître (bruit).

Bruit et silence dans le contexte des recherches sur le Web

Le Web est un terrain particulièrement propice au bruit et au silence. Véronique Mesguich identifie des facteurs de complexité du Web qui influent sur l’efficacité des recherches[2] :

  • Surabondance : En 2016, Google a affirmé avoir indexé plus de 130 000 milliards de pages Web[3]. Une telle quantité d’information est une cause importante de bruit.
  • Hétérogénéité de l’information/degré de fragmentation : La variabilité des ressources Web peut être créatrice de bruit ou de silence. Les termes de recherche peuvent n’être que mentionnés (et non traités) dans un site, ce qui génère du bruit[1]. La description des contenus non textuels en ligne (images, podcasts, vidéos, etc.) peut être absente ou inadéquate, ce qui cause du silence.
  • Renouvellement continuel : La modification et la suppression des contenus Web affectent l’efficacité du repérage.
  • Fiabilité des sources : De nombreuses pages Web véhiculent de fausses informations ou des informations mal sourcées inutilisables dans le contexte d’une recherche sérieuse. La présence de ces sources dans les résultats de recherche génère du bruit.
  • Exhaustivité : La précision et la représentativité des sources devraient être les objectifs de toute recherche, mais les moteurs de recherche tel que Google tendent plutôt à l’exhaustivité. Une recherche sur le Web repère tous les sites où apparaissent les termes de recherche. Il en résulte du bruit : par exemple, une simple publicité peut causer le repérage d’un site si elle contient les termes recherchés.

Références

  1. a et b Hudon, Michèle., Analyse et représentation documentaires : introduction à l'indexation, à la classification et à la condensation des documents, , 276 p. (ISBN 978-2-7605-3744-6, 2-7605-3744-7 et 978-2-7605-3746-0, OCLC 873807457, lire en ligne)
  2. Mesguich, Véronique., Rechercher l'information stratégique sur le web : sourcing, veille et analyse à l'heure de la révolution numérique, Louvain-la-Neuve/Paris/impr. en Belgique, De Boeck supérieur / ADBS, 207 p. (ISBN 978-2-8073-1578-5 et 2-8073-1578-X, OCLC 1045636776, lire en ligne)
  3. « Google's search knows about over 130 trillion pages », sur Search Engine Land, (consulté le 21 novembre 2019)