Les bots sur Wikipédia : retour réflexif sur l’automatisation des articles


Sur l’encyclopédie incontournable de l’Internet, Wikipédia, des dizaines des bots naviguent en permanence pour corriger les articles… et même en écrire. Pour Marie-Noëlle Doutreix, cette automatisation est efficace pour les grandes quantités de données, mais a également des failles.

Marie-Noëlle Doutreix est attachée temporaire d’enseignement et de recherche en sciences de l’information et de la communication à l’Université de Lorraine. Elle s’intéresse, pour ses recherches, aux bots wikipédiens. Lors de la journée d’études Les pratiques journalistiques face aux algorithmes et à l’automatisation, organisée par le Crem à Metz mardi 19 novembre, elle a exploré deux corpus d’articles encyclopédiques et fait un étonnant constat : les bots seraient bien plus actifs qu’on ne le pense…

Marie-Noëlle Doutreix s'intéresse aux bots Wikipédia
Marie-Noëlle Doutreix, attachée d’enseignement et de recherche en sciences de l’information et de la communication à l’Université de Lorraine.

La contribution automatisée des bots

Dans l’ensemble du Wikipédia francophone (regroupant ainsi plusieurs communautés: française, québécoise, belge…), 85 bots sont actifs. Tous construits par des développeurs, que l’on appelle « dresseurs de bots », ces programmes effectuent 6 000 contributions par jour en moyenne. Autrement dit, à chaque fois qu’un utilisateur humain effectue une action (modification ou création d’un article par exemple), un bot passe derrière pour vérifier. Tel un secrétaire de rédaction, il va repérer les erreurs basiques mais également les tentatives de vandalisme. Insultes et autres manquements au règlement vont tout de suite à la trappe.

Les bots ont aussi un pouvoir de rédaction. « Un bot a déjà créé des milliers d’articles à propos de planètes mineures », explique la chercheure. Une tâche simpliste pour un agent informatique, mais qui prendrait des semaines à un contributeur humain. Un travail qui est pourtant invisibilisé par Wikipédia. Les 4% d’articles du Wikipédia francophone créés par des bots n’en font pas mention, alors que c’est le cas lorsqu’un article est créé à partir d’une traduction par exemple. De même, les contributions des bots n’apparaissent pas dans certaines listes de suivi des modifications afin de ne pas « noyer » les contributions humaines.

Par ailleurs, le classement des plus grands contributeurs par article ne prend en compte que les profils des humains. Il est donc compliqué de deviner la place que prennent les programmes dans l’édition de l’encyclopédie. Dans les données statistiques de Wikipédia, il est cependant possible de retrouver le classement réel des contributeurs où les bots figurent bien au-dessus des profils humains (16 sur les 20 premières places du Wikipédia francophone).

Toutefois, étant peu nombreux, les bots ne sont responsables que de 26% de l’ensemble des contributions. Un pourcentage biaisé, car les statistiques de Wikipédia ne prennent pas en considération les bots non identifiés par un compte spécifique. Autrement dit, certains profils « humains » bénéficient de l’aide d’un programme, sans le préciser. Un dopage informatique qui n’est pas au goût de tout le monde et provoque des tensions. « Cela créé une certaine suspicion entre les participants », précise Marie-Nöelle Doutreix. Les contributeurs les plus investis cherchent en effet à apparaître en tête du classement des auteurs les plus prolifiques. Position considérée comme étant gratifiante.

« Les newsbots pourraient être utiles pour les journalistes », entretien avec Marie-Noëlle Doutreix.

Absence de consensus

Les bots Wikipédia divisent la communauté. L’un des principaux avantages relevés par Marie-Noëlle Doutreix dans le discours des contributeurs : encourager la participation. Sur l’encyclopédie, de nombreux articles ont été commencés par des automates avant que des humains ne prennent le relais. Force est de constater que les contributeurs sont moins rebutés à l’idée de participer à un article déjà existant que de partir d’une page vierge, synonyme de charge de travail supplémentaire. Les automates apparaissent également comme un rempart contre les erreurs humaines, fréquentes lorsqu’il y a mention de données chiffrées. Les marges d’erreur sont nettement plus faibles chez les robots.

Malgré tout, les désagréments inquiètent. Le choix des sujets traités est régulièrement critiqué par les contributeurs. Selon eux, les articles créés de manière automatisée ne respectent pas toujours les critères d’admissibilité en vigueur dans Wikipédia. En effet, le fait qu’une personnalité (ou un événement) figure dans une base de données ne suffit pas en soi à garantir d’une notoriété suffisante pour intégrer l’encyclopédie.

Nombre de contributeurs Wikipédia reprochent aux logiciels de produire plus de travail que de bénéfices. Dès que le bot crée une erreur, il faut en effet la réparer. Chose extrêmement difficile lorsque l’activité du bot est prolifique. Dans le cas des créations massives d’articles par des bots, des questions se posent également : « Qui va suivre ces articles ? Qui, par la suite, effectuera les modifications nécessaires à leur actualisation ? » De manière générale lorsque l’on parle de bots, « s’il y a une erreur, le fait qu’elle provienne d’un automate va être une circonstance aggravante. »

Cette analyse pousse à faire le lien avec les articles de presse. « L’information basée sur des résultats, comme les élections ou les sports, est facilement automatisable » , rappelle Marie-Noëlle Doutreix. Un bot peut donc remplacer le journaliste sur certains sujets au format très standardisé. À l’inverse, que ce soit dans Wikipédia ou dans le journalisme, le travail humain reste fortement valorisé. L’automatisation est donc un bénéfice du point de vue technique et permet d’éviter les tâches fastidieuses (comme avec les bases de données), mais elle ne remplace pas la plus-value du journaliste.

Retrouvez la conférence de Marie-Noëlle Doutreix en intégralité.