Google, l’un des leaders dans le domaine des modèles d’IA générative, a présenté en décembre 2024 Gemini 2.0, la dernière version de sa famille Gemini. Cette nouvelle itération met l’accent sur l’IA agentique dans des flux de travail complexes utilisant des modèles de langage de grande taille.
La famille Gemini de Google, qui succède en grande partie à la fameuse famille de modèles de langage Pathways, a été introduite avec Gemini 1.0 en décembre 2023. Le modèle Gemini 1.5 Pro a été lancé en février 2024 et a été enrichi tout au long de l’année, aboutissant à l’intégration de l’IA agentique avec Gemini 2.0.
L’IA agentique permet aux modèles de langage d’aller au-delà des opérations simples, en introduisant davantage d’automatisation et la possibilité d’enchaîner plusieurs modèles pour obtenir un résultat. Les systèmes d’IA agentique peuvent également appeler des fonctions externes, comme l’envoi d’un e-mail ou l’émission d’un paiement, dans le cadre d’un flux de travail.
Avec Gemini 2.0, Google se positionne en concurrence directe avec le modèle de raisonnement d’OpenAI, o1. Par exemple, l’une des variantes de Google, Gemini 2.0 Flash Thinking, est la première version de Gemini capable de penser et de raisonner comme le modèle o1.
Qu’est-ce que Gemini 2.0?
Gemini 2.0 est un ensemble de modèles de langage de grande taille développés par Google, représentant la technologie d’IA générative phare de l’entreprise.
Contrairement aux versions précédentes de Gemini, le premier aperçu de Gemini 2.0 a été le modèle Gemini 2.0 Flash. Les premières versions avaient pour habitude de présenter des modèles de base, suivis d’un modèle Flash – une variante allégée, optimisée et économique d’un modèle de langage.
Le 19 décembre 2024, Google a annoncé Gemini 2.0 Flash Thinking, une variante expérimentale du modèle avec plus de capacités de raisonnement que le modèle de base Gemini 2.0 Flash.
Dans l’ensemble, Gemini 2.0 est un modèle multimodal qui offre des capacités d’IA générative complètes, y compris la génération de contenu, la synthèse et l’analyse de données sous forme de texte, d’images, d’audio et de vidéo.
Quoi de neuf dans Gemini 2.0?
Gemini 2.0 poursuit l’évolution de la famille des LLM de Google à partir des versions 1.0 et 1.5, introduisant plusieurs améliorations, notamment :
- Résultats multimodaux. À la différence des précédents LLM de Google, Gemini 2.0 peut générer du contenu de manière multimodale, incluant des images, du texte et de l’audio. Sa capacité audio multilingue fournit initialement huit voix distinctes avec des accents variés dans plusieurs langues. Les capacités d’image natives permettent aux utilisateurs de générer des images hautement personnalisées.
- Activation de l’IA agentique. Gemini 2.0 propose une compréhension multimodale, du codage, l’appel de fonctions et la capacité de suivre des instructions complexes, soutenant ainsi de meilleures expériences agentiques. Le modèle comprend davantage le monde, anticipe plusieurs étapes à l’avance et agit pour le compte des utilisateurs sous leur supervision.
- Utilisation d’outils natifs. L’IA agentique se caractérise par la possibilité d’appeler des fonctions externes. Avec Gemini 2.0, Google active une fonction externe spécifique permettant au LLM d’utiliser des outils natifs, comme Google Search et Google Maps, dans le cadre d’une requête LLM ou d’un flux de travail d’IA agentique.
- API multimodale en direct. Gemini 2.0 introduit une API en direct pour le LLM, permettant aux développeurs d’intégrer des données en streaming – audio et vidéo des écrans ou caméras des utilisateurs, par exemple – dans les sorties d’IA générative.
Gemini 2.0 Flash
La première itération de Gemini 2.0 mise à disposition par Google, Gemini 2.0 Flash est une version expérimentale et succède au modèle Gemini 1.5 Flash, tout en surpassant le modèle Gemini 1.5 Pro.
Les caractéristiques clés de Gemini 2.0 Flash comprennent :
- Vitesse améliorée. Les créateurs de Gemini 2.0 Flash rapportent qu’il est deux fois plus rapide que son prédécesseur, Gemini 1.5 Flash. En particulier, Google affirme que le temps d’attente pour le premier jeton a été considérablement réduit.
- Haute qualité. Les améliorations de vitesse dans un LLM s’accompagnent souvent d’une diminution de la qualité et de la précision du modèle, mais cela ne s’applique pas à Gemini 2.0 Flash, selon l’entreprise. Google indique également que le modèle maintient une qualité comparable à celle du plus lent Gemini 1.5 Pro.
- Performance améliorée. Gemini 2.0 Flash affiche de meilleures performances sur plusieurs benchmarks, y compris Massive Multitask Language Understanding Pro, qui évalue les réponses sur plusieurs sujets ; HiddenMath, qui fournit des problèmes mathématiques de niveau compétition ; et Natural2Code pour la génération de code.
- Efficacité énergétique. La performance améliorée de Gemini 2.0 Flash est associée à une meilleure efficacité énergétique, susceptibles de contribuer à une autonomie prolongée sur les appareils mobiles.
Comment Gemini améliore-t-il Google?
Google poursuit l’intégration des capacités d’IA générative à travers ses produits et services. Ces capacités d’IA reposent sur des LLM, une tendance qui se maintient avec le modèle Gemini 2.0.
Gemini 2.0 devrait renforcer divers produits et services de Google, parmi lesquels :
- Google Search. Google a intégré l’IA dans la recherche avec ses AI Overviews, anciennement Search Generative Experience, pour des réponses complètes. Gemini 2.0 promet plus de puissance et de nouvelles capacités multimodales pour les AI Overviews.
- Google Workspace. Le LLM Gemini est déjà intégré dans les applications Google Workspace, y compris Docs, Slides et Meet. Gemini 2.0 améliore et étend ces capacités.
- Appareils Android. En particulier avec ses smartphones phares Pixel, Google souligne ses ambitions d’intégration de LLM sur appareil.
- Google AI Studio. Pour les développeurs, Gemini 2.0 facilite la création d’applications d’IA multimodales avancées et agentiques avec Google AI Studio et Vertex AI.
Expériences agentiques
La focalisation de Gemini 2.0 sur l’IA agentique permet au modèle de comprendre des scénarios complexes, de planifier plusieurs étapes à l’avance et de prendre des mesures pour le compte des utilisateurs.
Google explore davantage les capacités de l’IA agentique à travers des efforts expérimentaux fournissant diverses expériences. Parmi les expériences annoncées publiquement par Google figurent :
- Project Astra – assistant universel AI. Google utilise Gemini 2.0 pour développer un nouvel assistant AI agentique offrant une utilisation d’outils intégrée avec Google Search, Lens et Maps. Il supporte également des conversations en temps réel dans plusieurs langues avec une meilleure compréhension des accents.
- Project Mariner – agent basé sur le navigateur. Cette expérience agentique comprend et raisonne sur les informations affichées à l’écran des navigateurs, naviguant à travers les interfaces web via une extension de Google Chrome. Elle peut également taper, défiler ou cliquer dans les onglets actifs.
- Agent de code développeur Jules. Google présente également une expérience d’IA agentique pour le codage, intégrée directement aux workflows de GitHub. Cet agent développe et exécute un plan pour des modifications de code, tout en résolvant de manière autonome les problèmes de codage.
- Agents de jeu. Google teste également des agents alimentés par Gemini 2.0 pour fournir des analyses et des suggestions de jeux en temps réel. Ces agents comprennent les règles et permettent des conversations instantanées sur le gameplay. Les premiers tests menés par Google comprennent quelques jeux comme Clash of Clans et Hay Day.
Gemini 2.0 s’intègrera-t-il à d’autres plateformes?
Comme pour les versions précédentes de Gemini, le LLM n’est pas limité à la plateforme de Google.
Les services Google AI Studio et Vertex AI permettent aux développeurs de créer des applications déployables partout. De plus, la capacité d’utilisation d’outils natifs de Gemini 2.0 suggère une intégration avec diverses applications et API tierces, bien que Google n’ait pas fourni de liste détaillée de ces intégrations à partir de janvier 2025.
Quand Gemini 2.0 sera-t-il disponible et à quel coût?
Gemini 2.0 Flash est actuellement disponible en tant que modèle expérimental pour les développeurs via l’API Gemini dans Google AI Studio et Vertex AI. Une disponibilité générale est attendue d’ici la fin janvier 2025, ainsi que d’autres variantes de modèles.
Gemini 2.0 est également accessible dans l’application Gemini. Les utilisateurs de Gemini dans le monde entier peuvent accéder à une version optimisée pour le chat du 2.0 Flash à titre expérimental.
Les détails tarifaires n’ont pas encore été annoncés. Google AI Studio offre un accès limité gratuit dans cette phase expérimentale.
Article original rédigé par : Sean Michael Kerner.
Points à retenir
- Gemini 2.0 représente une avancée significative dans le domaine des modèles de langage, mettant en avant des fonctionnalités multimodales et une agentique améliorée.
- L’intégration de capacités d’IA dans des produits comme Google Search et Google Workspace souligne l’importance croissante de l’IA générative pour l’écosystème de Google.
- Les projets en cours autour de Gemini 2.0, tels que Project Astra et Project Mariner, témoignent de l’engagement de Google envers des expériences IA plus interactives et fonctionnelles.
Le développement de Gemini 2.0 soulève des questions intéressantes sur l’évolution de l’IA et son intégration dans nos vies quotidiennes. Comment ces avancées influenceront-elles notre interaction avec la technologie et amélioreront-elles notre efficacité au travail? Les réponses à ces questions resteront à explorer au fur et à mesure que de nouvelles technologies continueront d’émerger.
Nos rédacteurs utilisent l'IA pour les aider à proposer des articles frais de sources fiables à nos utilisateurs. Si vous trouvez une image ou un contenu inapproprié, veuillez nous contacter via le formulaire DMCA et nous le retirerons rapidement. / Our editors use AI to help them offer our readers fresh articles from reliable sources. If you find an image or content inappropriate, please contact us via the DMCA form and we'll remove it promptly.