ChatGPT rivalise avec l’aide humaine, selon une étude !

ByFaudel Tannouh

Fév 16, 2025

Une étude récente publiée dans la revue PLOS One démontre que l’intelligence artificielle peut être tout aussi bénéfique qu’un tuteur humain pour l’apprentissage des mathématiques. Les chercheurs ont constaté que les étudiants utilisant des indices générés par ChatGPT, un chatbot d’intelligence artificielle très populaire, affichaient des améliorations d’apprentissage en algèbre et en statistiques comparables à celles de ceux bénéficiant d’indices rédigés par des tuteurs humains.

La technologie éducative se tourne de plus en plus vers des outils d’intelligence artificielle avancés comme ChatGPT pour améliorer l’expérience d’apprentissage. La capacité de ce chatbot à générer du texte similaire à celui d’un être humain suscite un intérêt croissant quant à son potentiel en matière de tutorat et de soutien éducatif. Beaucoup estiment que cette technologie pourrait rendre l’apprentissage personnalisé plus accessible et efficace. Cependant, il existe peu de recherches sur l’efficacité et la fiabilité de ces systèmes d’intelligence artificielle dans des scénarios d’apprentissage réel, notamment dans des matières académiques telles que les mathématiques.

La création de supports d’apprentissage utiles pour l’éducation en ligne, comme des indices ou des exemples travaillés, est un processus long et coûteux. Traditionnellement, les éducateurs et les experts en la matière doivent développer, peaufiner et vérifier ces ressources manuellement. Cela implique souvent de nombreuses révisions et un contrôle qualité rigoureux. Si une intelligence artificielle comme ChatGPT pouvait générer automatiquement des supports d’apprentissage de haute qualité, cela pourrait considérablement réduire les efforts et les coûts associés au développement d’outils éducatifs, ouvrant ainsi la voie à un accès plus large aux systèmes de tutorat et à des expériences d’apprentissage plus personnalisées dans diverses matières et niveaux éducatifs.

« En tant que chercheur dans le domaine de l’IA en éducation, de nombreuses questions pressantes suscitées par l’introduction de ChatGPT sont restées sans réponse », a déclaré Zachary A. Pardos, auteur de l’étude et professeur associé à l’Université de Californie à Berkeley.

« Bien qu’OpenAI ait fourni quelques bilans de performances, les taux d’erreur de l’IA dans des matières académiques précises n’étaient pas clairement établis. Les questions essentielles étaient de savoir à quelle fréquence cette technologie commet des erreurs dans des domaines STEM clés et si ses résultats peuvent conduire à l’apprentissage. »

« De plus, nous avons entrepris le développement d’un système de tutorat adaptatif en open source (oatutor.io) et la curation de contenus pour ce système. En tant que laboratoire de recherche, nous étions essentiellement un petit éditeur, et la production de contenu était coûteuse en temps. D’un point de vue d’efficacité et d’évolutivité, le rôle de l’IA, en particulier ChatGPT, pour aider notre équipe à produire des matériaux plus rapidement sans diminution mesurable de la qualité était une question importante. »

Les chercheurs ont mené une étude en ligne impliquant 274 participants recrutés via Amazon Mechanical Turk, une plateforme de tâches en ligne. Tous les participants possédaient au moins un diplôme de lycée et avaient une désignation sur la plateforme indiquant un historique d’achèvement satisfaisant de tâches. Cela garantissait qu’ils possédaient les compétences mathématiques de base nécessaires pour bénéficier de l’étude et qu’ils étaient des participants en ligne fiables.

L’expérience a assigné les participants de manière aléatoire à l’une de trois conditions : un groupe de contrôle sans indices, un groupe avec des indices fournis par des tuteurs humains, et un groupe se voyant proposer des indices générés par ChatGPT. Dans chaque condition d’indices, les participants ont été attribués au hasard pour travailler sur des problèmes provenant de l’une de quatre matières mathématiques : algèbre élémentaire, algèbre intermédiaire, algèbre supérieure ou statistiques. Les problèmes mathématiques provenaient de manuels disponibles en ligne gratuitement.

Les chercheurs ont utilisé un système de tutorat en ligne open source comme plateforme de l’étude. Ce système délivrait des problèmes mathématiques et, en fonction de la condition assignée, fournissait des indices. Dans le cas des indices fournis par des tuteurs humains, le système utilisait des indices préexistants élaborés par des étudiants en licence ayant de l’expérience en tutorat mathématique. Ces indices, rédigés par des humains, étaient conçus pour guider les étudiants étape par étape à travers le processus de résolution de problèmes. Pour la condition des indices générés par ChatGPT, les chercheurs ont créé de nouveaux indices spécifiquement pour cette étude, en sollicitant ChatGPT avec chaque problème mathématique et en utilisant sa réponse textuelle comme indice.

Avant de commencer la section de résolution de problèmes, tous les participants ont complété un court pré-test composé de trois questions pour évaluer leurs connaissances initiales sur le sujet mathématique assigné. Après le pré-test, les participants ont travaillé sur cinq problèmes pratiques dans leur sujet attribué. Dans les conditions d’indices, les étudiants pouvaient demander des indices tout en travaillant sur ces problèmes. Après les problèmes pratiques, ils ont passé un post-test avec les mêmes questions que le pré-test pour mesurer tout gain d’apprentissage. Le groupe de contrôle a reçu un retour sur la justesse de leurs réponses pendant les problèmes pratiques mais aucun indice supplémentaire. Ils pouvaient cependant demander un « indice de solution finale », offrant la réponse au problème pour avancer. Les participants dans les conditions d’indices avaient accès à des indices de solutions détaillées en plus de cette option d’indice final. Le temps passé par les participants sur la tâche a également été enregistré.

Pour garantir la qualité des indices générés par ChatGPT, les chercheurs ont effectué des vérifications de qualité. Ils ont évalué si les indices fournissaient la bonne réponse, montraient des étapes correctes et contenaient un langage approprié. Au départ, ils ont constaté que les indices générés par ChatGPT comportaient des erreurs dans environ 32 % des cas. Pour réduire ces erreurs, ils ont utilisé une technique appelée « auto-consistance ». Cela consistait à demander à ChatGPT de générer dix indices différents pour chaque problème et à sélectionner celui qui contenait la réponse la plus fréquente parmi les dix réponses. Cette méthode a considérablement réduit le taux d’erreur, particulièrement pour les problèmes d’algèbre, atteignant des niveaux proches de zéro pour l’algèbre et environ 13 % pour les problèmes de statistiques.

« Le taux d’erreur élevé de ChatGPT dans les domaines que nous avons testés était surprenant, tout comme l’aptitude à réduire ce taux à près de 0 % avec une technique simple de réduction des erreurs », a précisé Pardos à PsyPost.

Les résultats ont montré que les indices générés par ChatGPT étaient effectivement efficaces pour favoriser l’apprentissage. Les participants ayant bénéficié d’indices de ChatGPT ont affiché une amélioration statistiquement significative de leurs scores entre le pré-test et le post-test, indiquant qu’ils avaient appris grâce aux indices.

Les progrès réalisés par les étudiants utilisant les indices de ChatGPT étaient comparables à ceux des étudiants ayant reçu des indices rédigés par des humains. Il n’y avait pas de différence statistiquement significative entre les gains d’apprentissage de ces deux groupes. Les groupes d’indices ChatGPT et tuteur humain ont tous deux montré des gains d’apprentissage significativement plus élevés que le groupe de contrôle qui n’a reçu aucun indice. Fait intéressant, bien que les deux conditions d’indices aient abouti à des apprentissages similaires, les participants des deux conditions d’indices ont passé plus de temps sur la tâche comparativement au groupe de contrôle. Cependant, il n’y avait pas de différence significative en termes de temps passé entre le groupe d’indices ChatGPT et le groupe d’indices humains.

« L’utilisation de ChatGPT pour la production de contenu éducatif en mathématiques est efficace pour l’apprentissage et accélère le processus de création de contenu par un facteur 20 », a souligné Pardos.

Cependant, les chercheurs ont reconnu certaines limites à leur étude. Un point limitant était que, en raison des restrictions du modèle d’intelligence artificielle à l’époque, ils ne pouvaient utiliser que des problèmes mathématiques n’incluant ni images ni figures. De futures recherches pourraient explorer des versions plus récentes de ces modèles capables de gérer des informations visuelles. Un autre point concerne le fait que l’étude a utilisé des travailleurs de Mechanical Turk, et non des étudiants dans de véritables environnements scolaires. Bien que cela ait permis une collecte de données plus rapide et une expérimentation, les études futures devraient idéalement être menées avec des étudiants en classe pour confirmer ces résultats dans des environnements éducatifs réels.

Les chercheurs ont également observé qu’ils avaient utilisé un modèle d’intelligence artificielle spécifique et fermé (ChatGPT 3.5). De futures recherches pourraient examiner l’efficacité de modèles d’intelligence artificielle plus accessibles. Enfin, l’étude s’est concentrée sur un type de soutien à l’apprentissage en particulier – les indices de solutions détaillées. Des études futures pourraient explorer comment l’intelligence artificielle pourrait être utilisée pour générer d’autres types de stratégies pédagogiques et des interactions de tutorat plus complexes.

De plus, il reste incertain si ChatGPT et d’autres modèles d’intelligence artificielle peuvent efficacement tutorer des matières académiques au-delà des mathématiques. « Cette approche pédagogique de tutorat par la démonstration d’exemples de résolution de problèmes, générés par l’IA, pourrait ne pas convenir à des domaines moins procéduraux (par exemple, l’écriture créative) », a remarqué Pardos.

En regardant vers l’avenir, cette étude suggère que l’intelligence artificielle a le potentiel de révolutionner la création de ressources éducatives et de systèmes de tutorat. Le fait que ChatGPT puisse générer de l’aide en mathématiques aussi efficace que celle créée par des humains, et ce, bien plus rapidement, ouvre des perspectives intéressantes pour rendre l’éducation de qualité plus accessible et évolutive.

« Le tutorat humain individuel est très coûteux et très efficace », a poursuivi Pardos. « Coïncidant avec cela, le tutorat informatique individuel est également coûteux à produire. Nous sommes intéressés à explorer comment la production de tuteurs assistée par l’IA peut modifier la structure de coûts et l’accessibilité du tutorat, tout en augmentant potentiellement son efficacité à travers une personnalisation plus raisonnablement réalisable avec des approches informatiques traditionnelles. »

« Nous avons récemment publié une étude évaluant l’efficacité de ChatGPT (et d’autres modèles) à produire des questions d’un niveau de difficulté approprié par rapport aux questions des manuels. Mettre les enseignants aux commandes de l’IA générative est également un axe de recherche sur lequel nous progressons. Cette recherche émergente, acceptée à la conférence Human Factors in Computing Systems (CHI), ainsi que d’autres thématiques peuvent être trouvées sur notre site : oatutor.io.

L’étude intitulée « L’aide générée par ChatGPT produit des gains d’apprentissage équivalents à ceux fournis par des tuteurs humains dans les compétences mathématiques » a été rédigée par Zachary A. Pardos et Shreya Bhandari.

Points à retenir

L’étude démontre que ChatGPT, en tant qu’outil d’apprentissage, peut égaler l’efficacité d’un tuteur humain dans certains contextes mathématiques.
Les résultats suggèrent que les indices générés par l’IA peuvent favoriser des gains d’apprentissage aléatoires, comparables à ceux issus d’un tutorat humain.
Les chercheurs identifient des limitations dans l’étude, soulignant que des ajustements seront nécessaires pour une application dans des environnements scolaires réels. D’autres recherches seront nécessaires pour évaluer la capacité de l’IA à traiter des matières moins procédurales.

En guise de réflexion, cette étude soulève des questions essentielles sur le rôle croissant de l’intelligence artificielle en éducation. Si l’IA parvient à transformer le tutorat et la création de ressources éducatives, quelles en seront les implications pour l’avenir de l’enseignement traditionnel et la relation entre élèves et éducateurs ? Une discussion enrichissante s’ouvre sur la façon dont ces technologies peuvent coexister avec des approches pédagogiques classiques.