Update: J'ai mis le billet hors-ligne, et je l'ai ré-écrit entièrement. Après un peu plus de recherches, un certain nombre de données se sont révélées erronées (dans un sens ou dans l'autre).

Soit une question simple : "quelles sont les meilleures Universités (et Grandes Écoles) françaises en matière de recherche ?".

Une première réponse pourrait être : "ben, t'as qu'à regarder le classement de Shanghaï, ou celui du Times Higher Education Supplement". Elle a l'avantage de la facilité. Elle a l'inconvénient qu'elle confond plusieurs choses. Ces deux classements mélangent des notes sur la formation et des notes sur l'éducation, et pour le THES des notes sur la réputation auprès des collègues. Je n'aurai donc pas la réponse à la question posée, mais à une autre.

Si je décide, pour un instant, d'oublier les nombreuses polémiques sur la bibliométrie et sur les bases bibliographiques, et de prendre comme élément de mesure "le nombre de publications dans ISI", je peux obtenir un début de réponse. Mais ISI ne me donne pas la réponse à la question : "combien de papiers sont publiés par l'Université X", elle me donne la réponse à la question : "combien de papiers sont publiés, dont un des auteurs a listé comme affiliation un laboratoire dont une des tutelles est l'Université X". Ce qui n'est pas tout à fait pareil. Par le jeu des laboratoires multi-tutelles, une université peut très bien "profiter" des travaux de recherche d'une université voisine (phénomène du coucou, ou du passager clandestin).

D'autre part, les universités apparaissent sous de nombreux noms, et les grandes écoles encore plus. Il faut soigneusement affiner ses recherches dans ISI pour obtenir des réponses, pas exactes, mais s'approchant sans doute de la vérité. J'estime (à vue de nez) la marge d'erreur d'ISI à 200 publications en plus ou en moins, ce qui veut dire que les trois-quarts du tableau sont dans l'épaisseur du trait... Pour simplifier, j'ai regroupé toutes les universités d'une même ville ("Univ SAME Lyon", ce qui permet d'avoir toutes les réponses du type Lyon Univ, Univ Lyon et Univ qqch Lyon, mais qui ne permet pas de distinguer les différentes universités entre elles...) Compte-tenu du biais d'ISI en faveur des sciences, le chiffre est pour l'essentiel (95 % dans certains cas) celui des publications de l'Université scientifique du campus.

Les grandes écoles m'ont posé encore plus de soucis. ISI tronque certains noms (mais pas tous). Chercher "Ecole Polytechnique" ne donne qu'une petite dizaine de publis... "Ecole Polytech" en donne plusieurs milliers... mais elles viennent presque toutes de l'EPFL. La requête était finalement du style (Ecole Polytech* SAME Palaiseau). Pour l'ENS, c'est (Ecole Normal* Super* SAME Paris) OR (ENS SAME Paris)...

Bref, la courbe :

En rouge, les universités de la région parisiennes, y compris Evry, Cergy et Versaille-St-Quentin. En bleu, les Grandes Écoles. En vert, les universités de province. J'ai restreint les recherches aux publications de l'année 2008 (ce qui donne une mesure de l'activité sur une année donnée).

On voit bien plusieurs choses :

  • la présence écrasante de l'UPMC / Paris 6...
  • la forte présence de Paris 5, Paris 11 et Paris 7...
  • plusieurs gros pôles universitaires de province, qui sont tout à fait sérieux et visibles à l'international.
  • pas de grosse surprise sur ce point : ces pôles sont ceux qu'on s'attendait à trouver, à peu près dans l'ordre attendu.
  • Entre 2 et 5 Grandes Écoles (suivant qu'on veut être gentil ou pas) qui font un travail de recherche sérieux, visible à l'international.

Le classement basé sur les publications d'une année (2008) permet de mesurer l'activité récente (pour éviter un "effet mémoire"). Mais il rend le classement éminemment volatil : d'une année à l'autre, le nombre de publications d'une université peut varier facilement de ±10 %, ce qui modifierait substantiellement le classement (de plus de 5 places dans certains cas).

Je pense qu'il me manque encore des Grandes Écoles. Mes données contiennent toutes les Universités françaises (mais c'est plus facile, surtout en regroupant les campus des grandes villes), mais peu d'Écoles. Cette partie de la recherche est assez vite déprimante, quand on réalise le très grand nombre de Grandes Écoles, puis à quel point un petit nombre d'entre elles apparaissent sur ISI de façon significative... J'ai pris les plus célèbres (souvent parisiennes), j'ai tenté plusieurs orthographes, j'ai cherché un professeur publiant sur leur site web, cherché ses publications à lui, pour voir comment on orthographiait son École, recommencé... Il n'empêche, une École très publiante a pu m'échapper... Je lance un appel à la sagacité de mes lecteurs : donnez-moi des noms, trouvez-moi les Écoles que j'ai oublié.

D'autres informations sont apparues en faisant le classement : dans certaines universités, la moitié des publications mentionnent "Lyon Univ", et l'autre moitié "Univ Lyon". Une requête (Univ SAME Lyon) couvre les deux possibilités. Et me donne une autre mesure : le degré d'internationalisation d'une université (dans les mentalités, en tout cas). Plusieurs universités ont vu leur nombre de publications grimper significativement, ce qui veut dire qu'une grosse partie des chercheurs y pensent en anglais. Et d'autres n'ont absolument pas bougé...

J'aurais voulu pouvoir ramener ces chiffres au nombre d'enseignants-chercheurs dans les universités, mais c'est très difficile. D'une part, les universités ne donnent pas toutes le nombre d'enseignants-chercheurs, et toutes ne le mesurent pas de la même manière (que les EC, EC+C, EC+PRAG, EC+PRAG+ATER...) Ensuite, le nombre d'EC ne dit pas tout ; par exemple, si une université a 50 EC, mais qu'elle fait faire tous les cours par des vacataires extérieurs, ces 50 EC ont une charge de cours réduite, ce qui les libère pour faire plus de recherche.

Je regrette clairement de ne pas pouvoir chiffrer la contribution de chaque université à une publication. Le CNRS a 29158 publications pour 2008 dans ISI, ce qui veut seulement dire qu'il y a 29158 publications dont un auteur appartient à un labo CNRS (ce qui est le cas de presque tout le monde). Mais si le CNRS n'a fourni aucun crédit ni aucun salaire, peut-on vraiment le compter comme contributeur? HAL prévoit pour chaque auteur le nom de son employeur, en plus du nom du laboratoire, mais 1) presque personne ne remplit ce champ et 2) le moteur de recherche de HAL est buggé sur ce champ précis.

À votre tour, je vous laisse dire ce que vous voyez dans ce graphique... (et en plus, comme je fais de la bibliométrie de bas étage, je vais m'attirer un commentaire d'Enro qui ne sera pas piqué des vers...)