En plus de NVIDIA DLSS 5, un autre des grands annonces de l’entreprise est la NVIDIA Vera. Ce fabricant bien connu de puces graphiques a révélé la première CPU au monde conçue spécifiquement pour l’ère de l’intelligence artificielle et de l’apprentissage par renforcement.
Contrairement à une CPU classique, l’objectif de NVIDIA est clair : répondre aux nouveaux flots d’IA. Le véritable goulot d’étranglement ne réside plus uniquement dans l’accélérateur exécutant le modèle, mais dans la couche qui coordonne les agents, gère les données, exécute les outils, valide les résultats et maintient simultanément des milliers d’environnements concurrentiels.
NVIDIA Vera souhaite redonner sa place à la CPU dans les centres de données pour l’IA
Vera est le successeur de Grace dans la stratégie désormais axée sur les CPU de NVIDIA. Grace utilisait une architecture Arm avec des cœurs Neoverse V2. Dans sa version C1, elle offrait 72 cœurs et jusqu’à 480 Go de mémoire LPDDR5X. Par ailleurs, le NVIDIA Grace Superchip intégrait une conception double CPU permettant de monter jusqu’à 144 cœurs avec un débit de 1 To/s. Vera marque une avancée significative en offrant 88 cœurs Olympus conçus par NVIDIA, avec 176 threads grâce à un système de Spatial Multithreading, une compatibilité Armv9.2, un support FP8 et une architecture monolithique visant à minimiser la latence et à garantir des performances prévisibles, notamment dans des charges très sensibles à la circulation des données.
Un autre atout majeur de NVIDIA Vera réside dans sa mémoire DRAM. Chaque CPU Vera est accompagnée de jusqu’à 1,5 To de mémoire LPDDR5X, offrant un débit de 1,2 To/s. De plus, elle élève le lien NVLink-C2C à 1,8 To/s de débit cohérent entre la CPU et la GPU, ce qui double la capacité du Grace Superchip (900 Go/s) et intègre des fonctionnalités telles que la computation confidentielle. En d’autres termes, NVIDIA souhaite que sa CPU non seulement « accompagne » la GPU, mais forme avec elle une unité beaucoup plus cohérente pour déplacer les données, gérer le KV cache, coordonner les inférences et alimenter des systèmes AI à grande échelle.
NVIDIA a également introduit un rack disposant de 256 CPU Vera refroidies par eau. Ces unités peuvent supporter plus de 22 500 environnements de CPU concurrentiels dans un seul rack. Ce chiffre s’inscrit dans l’idée que l’IA va multiplier le nombre de processus auxiliaires : outils, validations, sandbox, compilations, récupération de contexte, bases de données, files d’attente et coordination entre agents. L’objectif fondamental est de supprimer le goulot d’étranglement actuel dans l’orchestration, redonnant ainsi à la CPU son rôle central dans les centres de données dédiés à l’IA.
NVIDIA ne se limite plus à vendre des GPU, elle vise également à réduire l’usage des processeurs x86
Avec NVIDIA Vera, il devient évident que l’entreprise ne se contente plus de vendre des GPU, mais souhaite proposer une plateforme complète (CPU + GPU + mémoire). Vera s’intègre dans Vera Rubin, un rack NVL72 combinant 72 GPUs Rubin avec 36 CPUs Vera, accompagnés de SuperNICs, DPUs et l’ensemble du stack réseau et de stockage. Dans cette configuration, NVIDIA assure des performances améliorées par rapport à Blackwell, notamment la possibilité d’entraîner des modèles MoE avec un quart des GPU et jusqu’à 10 fois plus de performances par watt en termes d’inférence à un coût réduit par token. NVIDIA commercialise le centre de données comme un système intégré et codéveloppé, plutôt que comme des composants individuels.
Cette avancée remarquable avec NVIDIA Vera est d’ores et déjà soutenue par plusieurs partenariats clés avec des hyperscalers et des fournisseurs de services cloud tels que Alibaba, ByteDance, Meta, Oracle Cloud Infrastructure, CoreWeave, Lambda, Nebius ou Nscale, ainsi que des fabricants tels que Dell, HPE, Lenovo, Supermicro, ASUS, Foxconn ou Wiwynn.
De cette manière, NVIDIA entend redéfinir la CPU pour les centres de données en tant qu’élément spécialisé dans le trafic de l’IA moderne, impliquant une gestion efficace de la mémoire, une forte cohérence entre CPU et GPU, un large débit, un comportement prévisible et une bonne densité pour gérer de multiples tâches auxiliaires. En somme, une CPU conçue pour un monde au-delà des chatbots simples. L’IA ne se contente plus de répondre, elle planifie, exécute, vérifie et coordonne.
Points à retenir
- NVIDIA Vera représente une avancée majeure pour les CPU, se spécialisant dans les exigences de l’IA moderne.
- Les nouveaux flux de données rendent la coordination des agents essentielle.
- Chaque CPU Vera peut gérer jusqu’à 1,5 To de mémoire, augmentant considérablement le débit.
- NVIDIA cherche à créer une architecture intégrée où CPU et GPU travaillent de concert.
- Les améliorations en performance et en coût préfigurent des changements dans l’écosystème des centres de données.
En tant qu’observateur passionné du domaine technologique, je trouve fascinant de voir comment NVIDIA tente non seulement de redéfinir le rôle des CPU dans les centres de données, mais aussi d’optimiser l’ensemble de l’architecture AI. C’est un indicateur puissant de l’évolution qui attend notre approche de l’intelligence artificielle. Quelles seront les implications de ces innovations sur la façon dont nous concevons et utilisons la technologie à l’avenir ?