Aujourd’hui, des millions de personnes bénéficient de l’intelligence artificielle, comme ChatGPT. Grâce à l’intégration de cette technologie par Apple Intelligence sur ses appareils, tout utilisateur d’iPhone, d’iPad ou de Mac peut poser des questions complexes sans avoir besoin d’utiliser une application ou un site web distinct.
Cette intégration tant attendue suscite de nombreuses interrogations, notamment : comment fonctionne ChatGPT ?
Les chatbots
ChatGPT, développé par OpenAI, est un chatbot d’intelligence artificielle, à l’instar de Gemini de Google, Claude d’Anthropic ou de Meta AI. Ces chatbots reposent sur un type d’IA appelé « grand modèle de langage ». Ils sont capables de comprendre du texte et de générer des réponses qui sonnent humaines.
« C’est presque ennuyeux de dire cela maintenant », confie Daniel Dugas, un scientifique spécialisé en IA et robotique basé en Suisse. Il a réalisé une explication visuelle des précédents modèles d’IA GPT. « Le fait de pouvoir converser avec mon ordinateur de manière à peu près cohérente, c’est tout simplement incroyable », ajoute-t-il.
Pour Dugas, en tant qu’ingénieur, la question s’est rapidement posée : « Comment pourrait-on créer quelque chose qui ressemble à l’intelligence ? »
Bien que les grands modèles de langage puissent sembler intelligents, leur fonctionnement repose essentiellement sur la prédiction du mot suivant, tout comme les suggestions de texte d’un téléphone.
Cependant, c’est bien plus complexe.
Le fonctionnement de ChatGPT
Les grands modèles de langage sont formés sur d’énormes quantités de données, allant des livres aux réseaux sociaux en passant par une grande partie d’Internet. Un LLM établit des relations entre les mots de manière similaire à celle du cerveau humain.
Par exemple, prenons la phrase : « Ne mets pas tous tes œufs dans le même panier. » Lorsque vous l’entrez dans un LLM et appuyez sur envoyer, de multiples opérations se produisent en répétition, en une fraction de seconde.
Étape 1 : Tokenisation et encodage
Pensez à ce processus comme à une chaîne de montage. La première étape consiste à convertir la phrase en quelque chose que les ordinateurs peuvent comprendre : des chiffres.
La phrase « Ne mets pas tous tes œufs dans un » est décomposée en ce que l’on appelle des « identifiants de token », qui varient selon le modèle d’IA. La phrase devient alors [91418, 3006, 722, 634, 27226, 306, 1001].
Vous pouvez expérimenter la tokenisation avec l’outil d’OpenAI.
Étape 2 : Embedding
Ensuite, le vecteur de nombres résultant est élargi en fonction du contexte.
Par exemple, le mot « œuf » a plusieurs significations et connotations. Si l’on devait le représenter mathématiquement, une approche serait de le placer sur un graphique entre « poule » et « jeune ». Sur un graphique bidimensionnel, cela est simple.
Cependant, le terme « œuf » peut avoir de nombreuses autres significations. Cela pourrait faire référence à une expression, à un ingrédient du petit-déjeuner, à quelque chose en lien avec Pâques, ou avoir une forme spécifique. Le représenter nécessiterait plusieurs dimensions dans un vecteur infini, une tâche que nous ne pouvons pas imaginer, mais qu’un ordinateur peut traiter.
Pour la phrase « Ne mets pas tous tes œufs dans un », le mot œuf peut être représenté par [27226].
Pour la phrase « J’ai mangé un œuf au petit-déjeuner », le mot œuf pourrait être [16102]. Tout dépend du contexte. Ces ajustements contextuels reposent sur l’ensemble de l’entraînement et du réseau de mots, les modifications étant incluses dans le vecteur.
Étape 3 : Architecture Transformer
Le vecteur avance le long de la chaîne de montage vers une « architecture transformer ». C’est une série de couches qui ajustent encore plus le vecteur de nombres.
À partir de l’entraînement préliminaire, l’IA a appris à déterminer quels mots ont davantage de poids. Par exemple, dans la phrase « Ne mets pas tous tes œufs dans un », le mot « œufs » a plus d’importance que « un ».
Les ajustements au vecteur de nombres se produisent de manière répétée pour garantir que le contexte et le sens restent alignés avec tout ce sur quoi l’IA a été formée.
Étape 4 : Sortie
Enfin, le résultat revient en arrière le long de la chaîne de montage pour transformer un vecteur de nombres en un mot : panier.
« Ne mets pas tous tes œufs dans un … panier. »
Prédiction avancée de mots, intelligence ou limites ?
« Il existe des publications qui affirment que le modèle ne sera jamais capable de créer de la musique ou de résoudre des questions mathématiques », indique Dugas. « Ces idées ont été fondamentalement remises en question ces cinq dernières années. »
Alors que les grands modèles de langage continuent de progresser, il est essentiel de rester informé sur leurs capacités et de comprendre comment travailler avec cette technologie, plutôt que de le faire pour elle. Une compréhension de base aidera tout un chacun à utiliser, naviguer et encadrer une innovation que certains jugent révolutionnaire.
Bon à savoir
- Les chatbots comme ChatGPT s’appuient sur des réseaux de neurones pour établir des relations entre les mots.
- La tokenisation est une étape fondamentale qui convertit des phrases en chiffres, permettant aux ordinateurs de les traiter.
- Comprendre le fonctionnement des LLM peut aider à mieux utiliser ces technologies dans divers domaines.