mer. Juin 24th, 2026

Google a lancé un nouvel accélérateur pour LiteRT, baptisé Qualcomm AI Engine Direct (QNN), visant à améliorer les performances de l’IA sur les appareils Android équipés de puces Snapdragon 8. Cet accélérateur offre des gains significatifs, avec des vitesses allant jusqu’à 100 fois plus rapides que l’exécution CPU et 10 fois plus que le GPU.

Bien que les appareils Android modernes disposent généralement de GPU, leur utilisation exclusive pour les tâches d’IA peut engendrer des goulets d’étranglement de performance. Selon les ingénieurs logiciels de Google, Lu Wang, Wiyi Wanf et Andrew Wang, “l’exécution d’un modèle complexe de génération d’images à partir de texte sur l’appareil, tout en traitant simultanément le flux vidéo de la caméra avec une segmentation basée sur l’IA”, peut submerger même les GPU mobiles les plus performants. Cela peut entraîner une expérience utilisateur saccadée, avec des images perdues.

De nombreux appareils mobiles intègrent maintenant des unités de traitement neuronal (NPU), des accélérateurs d’IA conçus sur-mesure, qui peuvent considérablement améliorer le traitement des workloads d’IA tout en consommant moins d’énergie.

Le QNN a été développé par Google en collaboration étroite avec Qualcomm, en tant que remplaçant du précédent délégué TFLite QNN. Il offre aux développeurs un workflow unifié et simplifié, intégrant un large éventail de compilateurs et d’exécutions SoC, accessibles via une API épurée. Il prend en charge 90 opérations LiteRT avec pour objectif de permettre la délégation totale de modèles, essentielle pour atteindre des performances optimales. QNN inclut également des noyaux spécialisés et des optimisations qui améliorent la performance des modèles de langage comme Gemma et FastLVM.

Google a évalué le QNN sur 72 modèles d’IA, dont 64 ont réussi à atteindre une délégation totale sur le NPU. Les résultats ont montré des gains de performance allant jusqu’à 100 fois par rapport à l’exécution sur CPU et 10 fois par rapport au GPU.

Sur le dernier SoC phare de Qualcomm, le Snapdragon 8 Elite Gen 5, les avantages de performances sont considérables : plus de 56 modèles fonctionnent en moins de 5 ms avec le NPU, tandis que seulement 13 modèles atteignent ce résultat sur le CPU. Cela ouvre la voie à de nombreuses expériences d’IA en temps réel auparavant inaccessibles.

Les ingénieurs de Google ont également développé une application concept qui exploite une version optimisée du modèle de vision FastVLM-0.5B d’Apple. Cette application peut presque instantanément interpréter la scène en direct capturée par la caméra. Sur le NPU du Snapdragon 8 Elite Gen 5, elle atteint un temps jusqu’au premier token (TTFT) de seulement 0,12 seconde pour des images de 1024×1024, avec plus de 11 000 tokens/seconde pour la préremplissage et plus de 100 tokens/seconde pour le décodage. Le modèle d’Apple a été optimisé grâce à une quantification des poids en int8 et une quantification des activations en int16. Selon les ingénieurs de Google, c’est la clé pour libérer les noyaux int16 les plus puissants et rapides du NPU.

Le QNN prend seulement en charge un sous-ensemble limité du matériel Android, principalement les dispositifs propulsés par les SoC Snapdragon 8 et Snapdragon 8+. Pour démarrer, consultez le guide d’accélération NPU et téléchargez LiteRT sur GitHub.

Points à retenir

  • QNN améliore les performances d’IA sur les appareils Snapdragon 8 avec des vitesses significativement plus élevées.
  • Les NPU augmentent l’efficacité énergétique tout en traitant des charges de travail d’IA complexes.
  • QNN offre un workflow unifié avec 90 opérations LiteRT prises en charge pour optimiser la performance.
  • Des performances allant jusqu’à 100x par rapport au CPU rendent l’IA en temps réel plus accessible.
  • Les modèles optimisés, tels que FastVLM, montrent l’engagement de Google dans la recherche en IA.

Au regard de ces avancées, je me demande quelles seront les prochaines étapes pour l’intégration de l’IA dans nos vies quotidiennes. Avec une amélioration continue des performances, pourrions-nous envisager un avenir où des applications d’IA directement sur nos appareils mobiles deviendront la norme ? Les enjeux de l’optimisation matérielle et logicielle sont plus que jamais cruciaux pour libérer l’énorme potentiel de ces technologies.


Partager : X Facebook WhatsApp LinkedIn Reddit

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *