mer. Juin 24th, 2026

Les rédacteurs de PCMag sélectionnent et examinent les produits de manière indépendante. Si vous achetez par le biais de liens d’affiliation, nous pouvons percevoir des commissions qui aident à soutenir nos tests.



Les derniers modèles d’OpenAI, lancés cette semaine, sont capables de déterminer l’emplacement de photos à l’aide d’indices contextuels, une avancée que l’entreprise présente comme un “progrès significatif en perception visuelle”.

Des premiers testeurs ont commencé à télécharger des photos et à demander à ChatGPT de les “géolocaliser”. Les résultats de cette “recherche de localisation inversée” se révèlent étonnamment précis.

L’IA analyse la photo et prend quelques secondes pour “réfléchir”, en étudiant les indices contextuels. Elle fournit ensuite une réponse accompagnée d’une “chaîne de pensée interne” détaillant comment elle est arrivée à cette conclusion. Par exemple, un utilisateur a téléchargé une photo d’un livre de bibliothèque, et l’IA a correctement deviné qu’elle avait été prise à l’Université de Melbourne, grâce à un code sur l’étiquette.

Un autre utilisateur a soumis une photo générique d’une maison au Suriname, ressemblant à une image extraite de Google Earth, et ChatGPT a trouvé la bonne réponse. C’est un peu l’équivalent d’un “geoguessr” en version IA.

Bien que des systèmes de localisation de photos alimentés par l’IA existent depuis un certain temps, le modèle o3 d’OpenAI semble avoir su séduire le grand public. À noter que le modèle précédent, GPT-4o, présente également cette fonctionnalité, mais avec une précision inférieure.

Pour tester les capacités de ces modèles, nous avons demandé à chacun d’eux de deviner l’emplacement d’une image prise au New York Auto Show, représentant le dernier véhicule électrique de Subaru, qui y a été dévoilé.

GPT-4o n’a pas pu identifier une localisation précise, mais a suggéré qu’il pourrait s’agir d’un salon automobile, à Chicago, New York ou Los Angeles. Cette conclusion était basée sur “le cadre : environnement d’exposition poli, plusieurs véhicules à proximité, signalisation informative, et des personnes déambulant autour des voitures”. L’IA a mal interprété le nom du véhicule, le désignant sous le terme “Trailspeed” au lieu de “Trailseeker”.



Le modèle o3, quant à lui, a réussi à identifier correctement le véhicule. Il a “réfléchi pendant 1 minute et 40 secondes” avant d’expliquer que le “crossover bleu est le nouveau Trailseeker EV de Subaru, un modèle qui a été présenté au public lors du New York International Auto Show (NYIAS) de 2025, à l’intérieur du Jacob K. Javits Convention Center de Manhattan”.

L’IA a exploré la page de lancement du véhicule de Subaru pour confirmer que le Trailseeker avait bien été dévoilé lors de l’événement, en associant des images du stand de Subaru avec la photo, trouvant une correspondance avec “l’éclairage et le motif de ‘sol forestier’ recouvert de moquette”.



ChatGPT a également la capacité de combiner reconnaissance d’images et manipulation d’images. Si les utilisateurs téléchargent une image imparfaite, l’IA peut déplacer des éléments pour répondre à des questions à son sujet. Par exemple, elle a déchiffré une écriture quelque peu illisible, rédigée à l’envers sur un cahier.

“Je dois charger l’image pour pouvoir inspecter le texte. Une fois que je l’ai vue, je me rends compte que le texte est à l’envers, alors je vais le faire pivoter pour qu’il soit lisible,” explique ChatGPT comme partie de son ‘processus de pensée’. “À partir de là, je peux vérifier ce qui est écrit et partager mes découvertes clairement avec l’utilisateur.” L’IA a identifié que l’inscription disait, “4 février – finir la feuille de route”.



OpenAI précise que le modèle “peut encore commettre des erreurs de perception basiques” et que “même si les appels aux outils avancent correctement le processus de raisonnement, des interprétations visuelles erronées peuvent aboutir à des réponses finales incorrectes”.

D’autres applications utilisent également l’IA pour identifier les lieux à partir de photos. Par exemple, Geospy exploite des indices contextuels tels que la végétation et l’architecture pour déterminer un emplacement. Elle a fait parler d’elle plus tôt cette année lorsque 404 Media a rapporté qu’elle pouvait être exploitée par les forces de l’ordre et les harceleurs, car les utilisateurs pouvaient demander à ChatGPT de localiser des photos publiées sur les réseaux sociaux.

OpenAI envisage que cette technologie sera “utile dans des domaines tels que l’accessibilité, la recherche ou l’identification d’emplacements lors d’interventions d’urgence”, a déclaré un porte-parole de la société. “Nous avons travaillé pour former nos modèles à refuser des demandes d’informations privées ou sensibles, ajouté des mesures de sécurité destinées à interdire au modèle d’identifier des individus privés dans des images, et surveillons activement tout abus de nos politiques d’utilisation en matière de vie privée.”

Points à retenir

  • OpenAI a lancé un modèle capable de géolocaliser des photos à partir d’indices contextuels.
  • Des tests ont montré une précision étonnante, notamment sur des lieux publics tels que les universités.
  • La technologie pourrait avoir des applications précieuses dans des domaines variés, incluant l’accessibilité et les interventions d’urgence.
  • Des préoccupations persistent quant à la protection de la vie privée et à l’utilisation abusive potentielle de cette technologie.
  • ChatGPT démontre également des capacités de manipulation d’images, ouvrant la voie à des interactions plus nuancées avec les utilisateurs.

Cette avancée soulève des questions importantes sur l’avenir de l’interaction entre les intelligences artificielles et les utilisateurs. Alors que la technologie continue de progresser, il sera essentiel de trouver l’équilibre entre l’innovation et la protection des droits individuels. Comment les utilisateurs et les développeurs peuvent-ils naviguer dans ce paysage en constante évolution pour bénéficier de ces outils tout en respectant les enjeux éthiques ?


Partager : X Facebook WhatsApp LinkedIn Reddit

By Maria Rodriguez

Maria est Journaliste Trilingue indépendante depuis 2015, elle intervient sur LesNews Le Web est à nous dans les univers : International, Economie, Politique, Culture et d'autres faits de Société

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *