Jeudi, Google a rendu Gemini Live, sa fonction de chatbot AI vocal, accessible gratuitement à tous les utilisateurs d’Android. Cette fonctionnalité permet aux utilisateurs d’interagir avec Gemini par commandes vocales sur leurs appareils Android. Cela est significatif car la fonction de mode vocal avancé de ChatGPT, similaire à Gemini Live, développée par OpenAI, n’est pas encore complètement déployée.
Google a présenté Gemini Live lors de l’événement de lancement du Pixel 9 le mois dernier. Au départ, cette fonctionnalité était exclusive aux abonnés Gemini Advanced, mais elle est désormais accessible à tous les utilisateurs de l’application Gemini ou de son overlay sur Android.
Gemini Live permet aux utilisateurs de poser des questions à voix haute et même d’interrompre les réponses de l’IA en plein discours. Les utilisateurs peuvent choisir parmi plusieurs options vocales pour les réponses de Gemini, ajoutant ainsi un niveau de personnalisation à l’interaction.
Gemini suggère les utilisations suivantes du mode vocal dans ses documents d’aide officiels :
Dialoguer : Parlez à Gemini sans taper, et Gemini répondra verbalement.
Brainstorming : Demandez une idée de cadeau, planifiez un événement ou élaborez un plan d’affaires.
Explorer : Découvrez plus de détails sur des sujets qui vous intéressent.
Pratiquer à voix haute : Préparez-vous pour des moments importants de manière plus naturelle et conversationnelle.
Il est intéressant de noter que, bien qu’OpenAI ait initialement présenté son mode vocal avancé en mai avec le lancement de GPT-4o, cette fonctionnalité n’a été déployée que pour un nombre limité d’utilisateurs depuis fin juillet. Certains experts en IA spéculent qu’un déploiement à plus grande échelle a été freiné par un manque de puissance informatique disponible, car la fonctionnalité vocale est présumée très gourmande en ressources.
Pour accéder à Gemini Live, les utilisateurs peuvent apparemment toucher une nouvelle icône de forme d’onde dans le coin inférieur droit de l’application ou de l’overlay. Cette action active le microphone, permettant aux utilisateurs de poser des questions verbalement. L’interface comprend des options pour “retenir” la réponse de Gemini ou “terminer” la conversation, offrant aux utilisateurs le contrôle sur le déroulement de l’interaction.
Actuellement, Gemini Live ne prend en charge que l’anglais, mais Google a annoncé des projets d’expansion du support linguistique à l’avenir. La société envisage également de déployer la fonctionnalité sur les appareils iOS, bien qu’aucun calendrier précis n’ait été fourni pour cette extension.
En tant qu’utilisateur d’outils d’intelligence artificielle, je suis particulièrement enthousiaste à l’idée d’essayer Gemini Live et d’explorer ses capacités. La possibilité d’interagir naturellement avec une IA vocale pourrait transformer notre façon de travailler et d’apprendre.