OpenAI Lève le Voile sur une Nouvelle Fonctionnalité : Operator

Le jeudi, OpenAI a présenté une nouvelle fonctionnalité appelée Operator, permettant à ChatGPT de contrôler un navigateur virtuel pour réaliser des tâches du quotidien, comme commander des repas ou réserver des vols. Pour l’instant, elle est exclusivement réservée aux abonnés Pro à 200 $ par mois aux États-Unis. Cette initiative marque le premier pas de l’entreprise vers une navigation web autonome.

Cette innovation met en lumière l’émergence d’un système financier à plusieurs niveaux, où ceux qui paient davantage accèdent aux meilleures fonctionnalités de l’IA, tandis que les utilisateurs moins fortunés se retrouvent avec des modèles moins performants et des fonctionnalités limitées, un fait qui pourrait poser des questions sur l’équité d’accès.

Le système se base sur operator.chatgpt.com, où les utilisateurs peuvent demander à ChatGPT d’exécuter diverses tâches en ligne. Bien que des tentatives similaires aient été réalisées par le passé, notamment avec le magasin de plugins d’OpenAI et la promesse de modèles d’action large, leur dépendance aux API compliquait leur utilisation.

Ce qui distingue Operator, c’est son fonctionnement. Plutôt que de s’appuyer sur des API, il contrôle un navigateur basé sur le cloud, interagissant avec les pages comme un être humain. Chaque action est accompagnée d’une capture d’écran, permettant à l’utilisateur de suivre en temps réel ce qu’il fait. Par exemple, pour réserver une place à un événement, l’IA ouvrira une nouvelle fenêtre, recherchera l’événement et présentera les meilleures options avant de demander la confirmation du paiement.

Operator guidera également l’utilisateur à travers son processus décisionnel, accompagnant chaque étape de preuves visuelles. En cas de problème, un bouton "Prendre le contrôle" permet à l’utilisateur de reprendre la main.

Pour prouver sa valeur additionnelle, OpenAI a dû développer un modèle d’IA capable de comprendre visuellement les informations sur un navigateur web et d’effectuer des actions via des entrées au clavier et à la souris. Ce nouveau modèle, basé sur GPT-4o, a été nommé Computer User Agent (CUA).

Loin de se limiter à suivre des scripts, l’IA est capable de lire et de comprendre la mise en page des sites web, de s’adapter à différentes conceptions et de gérer des messages d’erreur inattendus. Par exemple, en fournissant une photo d’une liste de courses manuscrite, il utilise GPT-Vision pour la lire puis commande les articles auprès de votre supermarché préféré.

OpenAI a collaboré avec plusieurs sociétés pour assurer le bon fonctionnement de la fonctionnalité sur leurs plateformes. Lors de réservations de trajets ou de repas, l’IA peut naviguer sur des services tels qu’Uber et DoorDash sans difficulté, étant préconfigurée pour comprendre leurs interfaces. Cependant, pour les sites non pris en charge, le système continuera d’essayer de réaliser les tâches grâce à ses capacités de contrôle de navigateur.

Les résultats des benchmarks indiquent qu’Operator surpasse d’autres modèles avancés. Il affiche un score de 38,1 % dans le domaine des systèmes d’exploitation (OSWorld) contre 22 % pour le meilleur concurrent, et de 58,1 % sur les sites de commerce en ligne (WebArena) contre 36,2 %.

Il est à noter que l’équipe avertit que ce système est encore en phase de test, et que des erreurs peuvent survenir. Une préoccupation soulevée par les utilisateurs soucieux de leur sécurité est qu’il est nécessaire de faire confiance à Operator avec vos identifiants de connexion, car le navigateur cloud a besoin d’accéder à vos comptes pour remplir ses missions. Cela pourrait soulever des questions de sécurité, surtout si l’outil ne remet pas les informations sensibles en question.

La fonctionnalité devrait bientôt être déployée à plus grande échelle, avec les abonnés Plus susceptibles d’être les suivants. OpenAI prévoit également de rendre Operator disponible via une API, ouvrant ainsi la voie à une nouvelle génération d’outils d’automatisation alimentés par l’IA.

OpenAI a également annoncé que d’autres innovations au-delà du contrôle de la navigation cloud sont à venir, avec l’intention d’élargir la gamme d’agents d’intelligence artificielle disponibles.

Points à retenir

  • OpenAI lance une fonctionnalité appelée Operator, permettant à ChatGPT de gérer des tâches via un navigateur virtuel.
  • Actuellement accessible uniquement aux abonnés Pro, cette innovation soulève des questions sur la démocratisation de l’accès à l’IA.
  • Operator prend des captures d’écran de ses actions et permet aux utilisateurs de suivre chaque étape de son utilisation.
  • Un bouton "Prendre le contrôle" offre une option de reprise manuelle si nécessaire.
  • Des collaborations avec d’autres entreprises assurent une intégration harmonieuse des services connus comme Uber et DoorDash.
  • Le système est encore en phase de recherche et des améliorations sont attendues.

Il est fascinant d’observer comment des innovations comme Operator modifient notre interaction avec la technologie. Cette évolution amène à réfléchir sur les implications éthiques d’un accès différencié à des outils aussi puissants. Alors que nous avançons vers un futur de plus en plus technologique, comment garantir que tous les utilisateurs puissent bénéficier des mêmes opportunités sans compromettre leur sécurité ?




By Maria Rodriguez

Maria est Journaliste Trilingue indépendante depuis 2015, elle intervient sur LesNews Le Web est à nous dans les univers : International, Economie, Politique, Culture et d'autres faits de Société

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *