Ce billet fait suite à un autre billet, et rebondit sur un article du supplément du Monde (spécial Universités), La Recherche à l'épreuve des chiffres.

Quand j'ai vu le titre de l'article, je me suis dit : "Chouette, on va enfin parler des questions de financement, ou du taux de chômage, bref, les journalistes vont donner des faits, chiffrés, qui permettront de comprendre l'une des causes du conflit..." En fait, non. C'est une page complète sur le H-index, ses dérives, etc.

Le fait que les plus gros consommateurs de H-index soient les chercheurs eux-mêmes n'est pas assez mis en valeur. Pourtant, depuis sa création, le H-index me paraît être l'occasion de gigantesques concours de longueur de <meep>, organisés à grande échelle.

Mais un point qui fait débat est la qualité des chiffres. L'article cite le rapport de 4 chercheurs de l'INRIA, dont j'ai déjà parlé (ce qui veut dire, quand même, que le journaliste est allé chercher une source primaire, donc a fait du vrai travail). Ce que ce rapport montre, c'est que les grandeurs bibliométriques dépendent, fortement, de la base de publications utilisée. Thomson ISI, Scopus et Google Scholar ne contiennent pas les mêmes articles, et aucune des bases n'est exhaustive (certains articles sont indexés par A et pas par B, d'autres par B et non par A, et ainsi de suite).

Le fait que les bases de données ne soient pas exhaustives a un effet visible sur les grandeurs linéaires, comme le nombre de publications d'un chercheur. Il peut varier d'un ordre de grandeur (de 13 à 126 articles recensés). L'effet est encore plus grand sur les grandeurs quadratiques, comme le H-index : pour avoir un point dans le H-index, il faut que non seulement la base de donnée contienne un de mes articles, mais encore qu'elle contienne un article qui cite cet article là. Le H-index du même chercheur peut varier de 2 à 25, suivant la base considérée.

Cet article du Monde, et ce point précis, a déclenché une longue discussion (par mail). Pour résumer les positions, quelqu'un qui avait une longue expérience de bibliométrie a répondu : "ben oui, tout le monde le sait, c'est évident". D'autres (moi compris) répondent : "ben non, tout le monde ne le sait pas". Si on le savait, on préciserait systématiquement quel base de données on a utilisé pour calculer le H-index. Et on rejeterait probablement aux oubliettes une grandeur aussi aléatoire.

Pour nuancer ma position : je pense que beaucoup de gens savent que Google Scholar donne les résultats les plus élevés. Dans des dossiers de candidature, les candidats précisent systématiquement le nombre de citations selon Google Scholar, jamais selon d'autres bases. Il est clair, pour moi, que peu de gens savent que les résultats de Google Scholar sont surestimés : toute page web qui cite un article étant considérée comme une citation, un CV, un dossier de candidature ou un dossier de demande de grant comptent... 200 citations dans GS, ça peut n'être que 100 vrais articles. Mais à cette échelle, comment vérifier ? Même l'ordre de grandeur peut être faux. Un article avec 150 citations dans GS s'est avéré n'avoir que 15 vrais articles (et ça m'a pris pas mal de temps pour vérifier, oui).