OpenAI a enfin dévoilé son modèle de langage IA “Strawberry”, tant attendu, jeudi, en prétendant des améliorations significatives en matière de “raisonnement” et de capacités de résolution de problèmes par rapport aux précédents modèles de langage (LLMs). Nommée formellement “OpenAI o1“, la famille de modèles sera initialement lancée sous deux formes : o1-preview et o1-mini, disponibles dès aujourd’hui pour les utilisateurs de ChatGPT Plus et de l’API.
OpenAI affirme que l’o1-preview surpasse son prédécesseur, GPT-4o, sur plusieurs critères, notamment la programmation compétitive, les mathématiques et le “raisonnement scientifique”. Cependant, certains utilisateurs du modèle signalent qu’il ne surclasse pas encore GPT-4o sur tous les paramètres. D’autres ont critique le délai de réponse du modèle, dû aux étapes de traitement complexes en arrière-plan avant de répondre à une requête.
Dans un rare effort pour tempérer les attentes du public, la chef de produit d’OpenAI, Joanne Jang, a tweeté : “Il y a beaucoup d’engouement autour de l’o1 sur mon fil, donc je crains que cela puisse créer de fausses attentes. Ce que l’o1 est : le premier modèle de raisonnement qui brille dans des tâches vraiment difficiles, et il ne fera que s’améliorer. (Personnellement, je suis enthousiaste quant au potentiel et à la trajectoire du modèle !) Ce que l’o1 n’est pas (encore !) : un modèle miracle qui fait tout mieux que les modèles précédents. Vous pourriez être déçu si c’est votre attente pour le lancement d’aujourd’hui — mais nous travaillons pour y parvenir !”
OpenAI rapporte que l’o1-preview a obtenu le 89e percentile sur des questions de programmation compétitive provenant de Codeforces. En mathématiques, il a obtenu 83 % à un examen de qualification pour les Olympiades Internationales de Mathématiques, contre 13 % pour GPT-4o. OpenAI déclare également, dans une affirmation qui pourrait être remise en question plus tard à mesure que les utilisateurs examineront les références et effectueront leurs propres évaluations dans le temps, que l’o1 se comporte de manière comparable à des étudiants en doctorat sur des tâches spécifiques en physique, chimie et biologie. Le plus petit modèle o1-mini est spécifiquement conçu pour les tâches de codage et est proposé à un prix 80 % inférieur à celui de l’o1-preview.
OpenAI attribue les avancées de l’o1 à une nouvelle approche d’apprentissage par renforcement (RL) qui enseigne au modèle à passer plus de temps à “réfléchir” aux problèmes avant de répondre, similaire à la façon dont la technique de “réfléchissons étape par étape” peut améliorer les résultats dans d’autres LLMs. Ce nouveau processus permet à l’o1 d’essayer différentes stratégies et de “reconnaître” ses propres erreurs.
Les références d’IA sont notamment peu fiables et facilement manipulables ; néanmoins, une vérification indépendante et des expériences d’utilisateurs montreront l’étendue des progrès de l’o1 au fil du temps. Il convient de noter que des recherches menées par le MIT ont montré plus tôt cette année que certaines des déclarations d’OpenAI sur GPT-4 l’an dernier étaient erronées ou exagérées.
Un mélange de capacités
Parmi les nombreuses vidéos de démonstration de l’o1 réalisant des tâches de programmation et résolvant des énigmes logiques partagées par OpenAI sur son site web et sur les réseaux sociaux, une démonstration a particulièrement retenu l’attention peut-être pour son manque d’impact et d’impressionnant, mais elle pourrait devenir la plus commentée en raison d’un mème récurrent où les gens demandent aux LLM de compter le nombre de ‘R’ dans le mot ‘strawberry’.
En raison de la tokenisation, où le LLM traite des mots par fragments appelés tokens, la plupart des LLM sont généralement incapables de faire la différence entre les lettres en gros caractères dans les mots. Apparemment, l’o1 possède les capacités d’auto-réflexion nécessaires pour savoir comment compter les lettres et fournir une réponse précise sans assistance de l’utilisateur.
Jusqu’à présent, nous avons vu des rapports optimistes mais prudents sur l’o1-preview en ligne. Le professeur de Wharton, Ethan Mollick, a écrit sur X : “J’ai utilisé GPT-4o1 pendant le mois dernier. C’est fascinant : il ne fait pas tout mieux, mais il résout certains problèmes très difficiles pour les LLM. Il indique également beaucoup d’améliorations futures.”
Mollick a partagé un post explicatif dans son blog “One Useful Thing” qui détails ses expériences avec le nouveau modèle. “Pour être clair, l’o1-preview ne fait pas tout mieux. Ce n’est pas un meilleur rédacteur que le GPT-4o, par exemple. Mais pour des tâches nécessitant de la planification, les changements sont assez significatifs.”
Mollick donne l’exemple de demander à l’o1-preview de construire un simulateur d’enseignement “utilisant plusieurs agents et de l’IA générative, inspiré par le document ci-dessous et prenant en compte les vues des enseignants et des étudiants,” puis de lui demander de produire le code complet, et il a produit un résultat que Mollick a jugé impressionnant.
Controverse sur la terminologie du “raisonnement”
Il n’est pas surprenant que certaines personnes dans le domaine tech aient des problèmes avec l’anthropomorphisme des modèles IA et l’utilisation de termes comme “penser” ou “raisonner” pour décrire les opérations de synthèse et de traitement réalisées par ces systèmes de réseaux neuronaux.
Peu après l’annonce d’OpenAI o1, le PDG de Hugging Face, Clement Delangue a tweeté : “Encore une fois, un système IA ne ‘pense’ pas, il ‘traite’, ‘exécute des prévisions’,… comme Google ou les ordinateurs. Donner l’impression trompeuse que les systèmes technologiques sont humains est simplement une publicité bon marché et un marketing pour vous induire en erreur en pensant qu’ils sont plus intelligents qu’ils ne le sont.”
Le terme “raisonnement” est également un terme quelque peu nébuleux, puisque même chez les humains, il est difficile à définir exactement ce que cela signifie. Quelques heures avant l’annonce, le chercheur indépendant en IA, Simon Willison, a tweeté en réponse à une histoire de Bloomberg sur Strawberry, “J’ai encore du mal à définir ‘raisonnement’ en termes de capacités des LLM. Je serais intéressé à trouver une invite qui échoue sur les modèles actuels mais réussit sur strawberry, ce qui aiderait à démontrer la signification de ce terme.”
Raisonnement ou pas, l’o1-preview manque actuellement de certaines fonctionnalités présentes dans les modèles antérieurs, comme la navigation web, la génération d’images et l’upload de fichiers. OpenAI prévoit d’ajouter ces capacités dans de futures mises à jour, ainsi qu’un développement continu des séries de modèles o1 et GPT.
Bien qu’OpenAI affirme que les modèles o1-preview et o1-mini sont déployés dès aujourd’hui, aucun de ces modèles n’est encore disponible dans notre interface ChatGPT Plus, nous n’avons donc pas pu les évaluer. Nous rapporterons nos impressions sur la façon dont ce modèle diffère des autres LLM que nous avons précédemment couverts.
Ceci est une actualité en cours qui sera mise à jour.
Pour ma part, je suis curieux de voir comment OpenAI continuera à développer ces modèles et quelle impact ils auraient sur nos interactions futures avec l’intelligence artificielle. Ces avancées me semblent prometteuses et ouvrent de nouvelles voies pour les applications de l’IA dans divers domaines.