Lundi, OpenAI a lancé son événement annuel DevDay à San Francisco, présentant quatre mises à jour majeures des API pour les développeurs intégrant les modèles d’IA de l’entreprise dans leurs produits. Contrairement à l’événement d’un seul jour de l’année dernière qui avait présenté un discours principal de son CEO, Sam Altman, DevDay 2024 s’étend sur plusieurs jours et adopte une approche mondiale avec des événements supplémentaires prévus à Londres le 30 octobre et à Singapour le 21 novembre.
L’événement de San Francisco, qui était sur invitation uniquement et fermé à la presse, a présenté des intervenants sur scène se présentant au public à travers des présentations techniques. Peut-être la caractéristique nouvelle la plus notable de l’API est la Realtime API, qui est désormais en beta publique. Elle supporte les conversations audio à l’aide de six voix prédéfinies et permet aux développeurs de créer des fonctionnalités très similaires au Mode Voix Avancé (AVM) de ChatGPT dans leurs applications.
OpenAI affirme que la Realtime API simplifie le processus de création d’assistants vocaux. Auparavant, les développeurs devaient utiliser plusieurs modèles pour la reconnaissance vocale, le traitement du texte et la conversion texte-parole. Désormais, ils peuvent gérer l’ensemble du processus avec un seul appel API.
L’entreprise prévoit d’ajouter des capacités d’entrée et de sortie audio à son Chat Completions API dans les prochaines semaines, permettant aux développeurs d’entrer du texte ou de l’audio et de recevoir des réponses dans l’un ou l’autre format.
Deux nouvelles options pour une inférence moins coûteuse
OpenAI a également annoncé deux fonctionnalités qui pourraient aider les développeurs à équilibrer performance et coût lors de la création d’applications IA. La “distillation de modèle” permet aux développeurs de peaufiner (personnaliser) des modèles plus petits et moins chers comme GPT-4o mini en utilisant des résultats provenant de modèles plus avancés tels que GPT-4o et o1-preview. Cela permet potentiellement aux développeurs d’obtenir des résultats plus pertinents et précis tout en utilisant un modèle moins coûteux.
De plus, OpenAI a présenté “le caching des prompts”, une fonctionnalité similaire à celle introduite par Anthropic pour son API Claude en août. Cette fonctionnalité accélère l’inférence (génération de résultats par le modèle IA) en mémorisant les prompts fréquemment utilisés (tokens d’entrée). En cours de route, cette fonctionnalité offre une réduction de 50 % sur les tokens d’entrée et des temps de traitement plus rapides en réutilisant les tokens récemment vus.
Enfin, l’entreprise a élargi ses capacités de fine-tuning pour inclure des images (ce qu’elle appelle “fine-tuning visuel”), permettant aux développeurs de personnaliser GPT-4o en lui fournissant à la fois des images personnalisées et du texte. En gros, les développeurs peuvent apprendre à la version multimodale de GPT-4o à reconnaître visuellement certaines choses. OpenAI affirme que cette nouvelle fonctionnalité ouvre des possibilités pour améliorer la fonctionnalité de recherche visuelle, une détection d’objets plus précise pour les véhicules autonomes, et peut-être une analyse d’images médicales améliorée.
Où est le discours de Sam Altman ?
Contrairement à l’année dernière, DevDay n’est pas diffusé en direct, bien qu’OpenAI prévoie de publier le contenu plus tard sur sa chaîne YouTube. Le programme de l’événement comprend des sessions de travail, des présentations de la communauté et des démonstrations. Mais le plus grand changement par rapport à l’année précédente est l’absence d’une apparition en keynote de CEO. Cette année, la keynote a été assurée par l’équipe produit d’OpenAI.
Lors du DevDay inaugural de l’année dernière, le 6 novembre 2023, Sam Altman avait présenté un discours principal dans un style à la Steve Jobs devant des développeurs, employés d’OpenAI et membres de la presse. Lors de sa présentation, le CEO de Microsoft, Satya Nadella, avait fait une apparition surprise, mettant en avant le partenariat entre les deux entreprises.
Onze jours plus tard, le conseil d’administration d’OpenAI a licencié Altman, déclenchant une semaine de turbulences qui a abouti à son retour en tant que CEO et à la mise en place d’un nouveau conseil d’administration. Juste après le licenciement, Kara Swisher a relayé des sources internes indiquant que la keynote d’Altman et l’introduction du GPT Store avaient été un facteur précipitant dans son licenciement (bien qu’il ne s’agisse pas du facteur clé) en raison de certains désaccords internes sur l’orientation plus grand public de l’entreprise depuis le lancement de ChatGPT.
À la lumière de ces événements — et du fait que l’événement est centré sur les développeurs avant tout — il se peut que l’entreprise ait décidé qu’il valait mieux laisser Altman s’écarter de la keynote et permettre à la technologie d’OpenAI de devenir le point focal de l’événement. Nous ne faisons que spéculer à ce sujet, mais OpenAI a certainement connu son lot de drame au cours du mois dernier, donc cela a pu être une décision prudente.
Malgré l’absence de keynote, Altman est présent au Dev Day de San Francisco aujourd’hui et doit participer à un “fireside chat” de clôture à la fin (qui n’a pas encore eu lieu au moment où j’écris ces lignes). Altman a également publié une déclaration au sujet de DevDay sur X, notant qu’au cours de l’année écoulée, OpenAI a connu des changements spectaculaires :
Depuis le dernier DevDay jusqu’à celui-ci :
* réduction de 98 % du coût par token de GPT-4 à 4o mini
* augmentation de 50x du volume de tokens dans nos systèmes
* excellent progrès en intelligence de modèle
* (et un peu de drame en cours de route)
Dans un tweet de suivi, délivré dans son style habituel en minuscules, Altman a partagé un message tourné vers l’avenir qui faisait référence à la quête de l’entreprise pour une IA de niveau humain, souvent appelée AGI : “exité de faire encore plus de progrès d’un devday à l’autre”, a-t-il écrit. “Le chemin vers l’AGI n’a jamais semblé aussi clair.”
Dans mon expérience en tant que journaliste, il est fascinant de voir comment l’évolution rapide de ces technologies pourrait transformer notre quotidien. OpenAI, avec ses récentes avancées, montre à quel point nous sommes proches d’une nouvelle ère dans le domaine de l’intelligence artificielle.