Google annonce la disponibilité générale de SynthID Text, une technologie qui permet aux développeurs de marquer et de détecter les textes générés par des modèles d’IA générative.

SynthID Text peut être téléchargé depuis la plateforme d’IA Hugging Face ainsi que des ressources mises à jour du Responsible GenAI Toolkit de Google.

“Nous mettons à disposition notre outil de marquage SynthID Text en open source,” a annoncé l’entreprise dans un message sur X. “Accessible gratuitement aux développeurs et aux entreprises, il les aidera à identifier leur contenu généré par IA.”

Mais comment fonctionne exactement SynthID Text ?

Lorsque l’on donne une invite comme “Quel est ton fruit préféré ?”, les modèles de génération de texte prévoient quel “token” est le plus susceptible de suivre l’autre, un token à la fois. Les tokens, qui peuvent être un caractère unique ou un mot, forment les éléments de base qu’un modèle génératif utilise pour traiter l’information. Un modèle attribue à chaque token potentiel un score, qui représente la probabilité de son inclusion dans le texte produit. SynthID Text insère des informations supplémentaires dans cette distribution de tokens par “modulation de la probabilité de génération des tokens,” selon Google.

“Le modèle final de scores, résultant des choix de mots du modèle combinés avec les scores de probabilité ajustés, constitue le marquage,” précise l’entreprise dans un article de blog. “Ce motif de scores est comparé au motif de scores attendu pour les textes marqués et non marqués, permettant à SynthID de détecter si un outil d’IA a généré le texte ou s’il provient d’autres sources.”

Google affirme que SynthID Text, intégré à ses modèles Gemini depuis le printemps dernier, ne compromet ni la qualité, ni l’exactitude, ni la rapidité de la génération de texte, et fonctionne même sur des textes qui ont été raccourcis, paraphrasés ou modifiés.

Cependant, l’entreprise admet que son approche de marquage présente des limites.

Par exemple, SynthID Text n’est pas aussi performant sur des textes courts, ceux qui ont été réécrits ou traduits d’une autre langue, ou encore pour des réponses à des questions factuelles. “Sur les réponses aux invites factuelles, il y a moins d’opportunités pour ajuster la distribution des tokens sans compromettre l’exactitude factuelle,” explique l’entreprise. “Cela inclut des invites comme ‘Quelle est la capitale de la France ?’ ou des requêtes où peu ou pas de variations sont attendues, comme ‘réciter un poème de William Wordsworth.’”

Google n’est pas la seule entreprise à travailler sur des technologies de marquage de textes générés par IA. OpenAI a dédié des années à des recherches sur les méthodes de marquage, mais a retardé leur publication en raison de considérations techniques et commerciales.

Les techniques de marquage pour les textes, si elles étaient largement adoptées, pourraient contribuer à inverser la tendance actuelle face aux dispositifs de détection d’IA qui signalent faussement des essais et des travaux écrits dans un style plus générique. Mais la question demeure : ces technologies seront-elles largement adoptées, et une norme ou technologie proposée par une organisation l’emportera-t-elle sur les autres ?

Des mécanismes juridiques pourraient bientôt contraindre les développeurs. Le gouvernement chinois a introduit le marquage obligatoire du contenu généré par l’IA, et l’État de Californie envisage d’en faire de même.

La situation est urgente. Selon un rapport de l’Agence de l’Union Européenne pour la Sécurité, 90 % du contenu en ligne pourrait être généré synthétiquement d’ici 2026, posant ainsi de nouveaux défis pour les forces de l’ordre concernant la désinformation, la propagande, la fraude et la tromperie. Actuellement, près de 60 % de toutes les phrases sur le web pourraient déjà être générées par l’IA, selon une étude menée par AWS, grâce à l’utilisation généralisée des traducteurs IA.

Notre point de vue

Il est essentiel de reconnaître que le marquage des contenus générés par l’IA pourrait passer d’un simple outil technique à un impératif éthique au fur et à mesure que la génération de texte par IA se généralise. Ce développement pourrait transformer la manière dont nous interagissons avec les textes publiés, en assurant une plus grande transparence et en améliorant la confiance dans les sources d’information. L’adoption de standards communs et la collaboration entre les acteurs du secteur seront cruciales pour naviguer dans ce paysage changeant. L’intégration de ces technologies, déjà en cours chez certaines entreprises, nous pousse à anticiper une évolution des pratiques de création et de consommation du contenu à l’âge numérique.



  • Source image(s) : techcrunch.com
  • Source : https://techcrunch.com/2024/10/23/google-releases-tech-to-watermark-ai-generated-text/

Publications similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *