arXiv : les chercheurs qui soumettent des articles genAI erronés se…

Chris08 | Publié le mai 18, 2026 |

Next INpact rapporte une information importante : arXiv : les chercheurs qui soumettent des articles genAI erronés seront suspendus un an.

À inondation massive, solution massive
Alors que les plateformes de prépublications et éditeurs scientifiques sont inondés d’articles générés par IA, arXiv s’affiche plus sévère. Elle annonce une suspension d’un an pour celles et ceux qui soumettent des articles dont la génération n’a manifestement pas été vérifiée.

La plateforme pionnière de prépublication scientifique arXiv va suspendre pour un an tout chercheur qui aurait mis en ligne un article erroné et manifestement généré par IA.

« Si un article contient des preuves irréfutables indiquant que les auteurs n’ont pas vérifié les résultats générés par un grand modèle de langage (LLM), cela signifie que nous ne pouvons avoir confiance en quoi que ce soit contenu dans cet article », expliquait dans un thread sur X jeudi dernier Thomas Dietterich, le responsable adjoint de la plateforme.

Une année de suspension et un retour très balisé ensuite

Il ajoutait que l’équipe avait décidé d’une suspension d’un an de la plateforme pour tout auteur ayant signé un tel article. Après cette année de suspension, la plateforme acceptera les articles signés par cet auteur s’ils ont déjà été acceptés par une revue ou une conférence qui aura déjà effectué le filtre de relecture par les pairs. Autant dire que l’intérêt de mettre en ligne sur arXiv deviendra quasiment inexistant pour ces personnes.

« Notre code de conduite stipule qu’en apposant sa signature en tant qu’auteur d’un article, chaque auteur assume l’entière responsabilité de l’ensemble de son contenu, quelle que soit la manière dont celui-ci a été élaboré », justifie-t-il.

Certains chercheurs comme l’économiste James D. Miller s’inquiètent du fait que tous les auteurs d’un article pourraient être sanctionnés : « Cela signifie-t-il donc que vous attendez de chaque auteur qu’il vérifie chaque référence et s’assure que chacune d’entre elles est authentique et exacte ? Que se passe-t-il si l’un des auteurs n’est pas en mesure de vérifier une référence parce que celle-ci est rédigée dans une langue qu’il ne maîtrise pas ou porte sur un sujet technique qu’il ne comprend pas, alors qu’un autre auteur de l’article en est capable ? », demande-t-il.

« Nous notons que les outils peuvent produire des résultats utiles et pertinents, mais aussi des erreurs ou des résultats trompeurs ; c’est pourquoi il est important de savoir quels outils ont été utilisés pour évaluer et interpréter les travaux scientifiques », expliquait le site dans sa politique de modération.

Et l’équipe d’arXiv y rappelait déjà à ses collègues « qu’en apposant leur signature en tant qu’auteur d’un article, ils assument chacun individuellement l’entière responsabilité de l’ensemble de son contenu, quelle que soit la manière dont celui-ci a pu être généré. Si des outils linguistiques d’IA générative produisent des propos inappropriés, du contenu plagié, du contenu biaisé, des erreurs, des fautes, des références erronées ou du contenu trompeur, et que ces résultats sont intégrés dans des travaux scientifiques, la responsabilité en incombe au(x) auteur(s) ».

Mais la masse d’articles contenant ce genre de problèmes est telle qu’arXiv semble avoir dû, si ce n’est relever la barre de la sanction, au moins la rendre publique.

Thomas Dietterich finit son thread en donnant quelques exemples de preuves indiscutables de ce genre d’utilisation : « références fantaisistes, méta-commentaires du LLM ( » voici un résumé de 200 mots ; souhaitez-vous que j’y apporte des modifications ? » ; « les données de ce tableau sont données à titre indicatif, complétez-le avec les chiffres réels issus de vos expériences ») ». Interrogé par 404 Media, il ajoute que la plateforme ne fera aucune exception à cette règle tout en ajoutant qu’une procédure d’appel existe et que les modérateurs de la plateforme doivent documenter clairement le signalement. Le responsable d’arXiv pour la discipline doit confirmer avant sanction.

Les revues et actes de conférences sont aussi inondés de genAI problématiques

Les plateformes de prépublication comme les revues scientifiques sont de plus en plus inondées d’articles générés par IA et non vérifiés. Récemment, une étude montrait que les actes des conférences scientifiques peuvent accueillir massivement des articles rédigés (ou générés par IA) dans le but de vendre aux chercheurs une place bien au chaud pour leur signature moyennant 11 à 400 dollars.

On peut aussi régulièrement repérer des articles scientifiques incluant des schémas fantaisistes générés par IA. De cette manière, on peut trouver, par exemple, cet article, publié en mars 2025 dans la revue Alexandria Engineering Journal éditée par Elsevier, censé présenter une modélisation mathématique de la mécanique cochléaire et des dysfonctionnements liés à la cochlée. On peut y trouver ce genre d’illustrations totalement fantaisistes et inappropriées :

L’article n’a actuellement pas encore été rétracté.

L’ACL prend aussi des mesures

Les plateformes de prépublication ne sont pas les seules à réagir. De cette manière, par exemple, les responsables de la conférence de l’Association for Computational Linguistics qui doit avoir lieu en juillet prochain ont dû publier une déclaration spécifique concernant le rejet d’articles contenant des références fantaisistes. L’organisation explique que beaucoup de propositions ont pu être rejetées dès le début pour ce genre de problème.

Mais elle ajoute que même après ces filtres, il y a eu des trous dans la raquette : « lors des derniers contrôles des versions finales des articles acceptés pour l’ACL 2026, nous avons identifié plus d’une centaine d’articles contenant des références à des publications inexistantes ». Et elle ajoute qu’« en conséquence, nous avons pris la décision de rejeter d’office ces articles acceptés afin de préserver la qualité et la fiabilité des actes du colloque ».

Source : Next INpact

Cet article est une synthèse basée sur des informations publiques. Consultez la source originale pour l'article complet.

Laisser un commentaire Annuler la réponse