Le monde manque de données pour former l’IA : la Chine a un atout caché !

ByJulien Macé

Juin 10, 2026

Les modèles d’intelligence artificielle (IA) sont confrontés à un défi que même les processeurs les plus performants ne peuvent résoudre : le manque de données. Epoch AI, une organisation de recherche à but non lucratif spécialisée dans le développement de modèles d’IA, avertit avec un degré de confiance de 80 % que la qualité du texte disponible sur internet pourrait s’épuiser entre 2026 et 2032.

La raison est simple : depuis de nombreuses années, les laboratoires d’IA exploitent tout le potentiel du web, si bien que les modèles actuels s’entraînent déjà avec des ensembles de données approchant le maximum théorique d’information disponible. Une fois cette ressource épuisée, la croissance basée sur le volume de données pourrait s’arrêter, ralentissant ainsi le développement de l’IA.

Nous ne savons pas encore quelles stratégies les entreprises américaines envisagent pour faire face à ce problème, mais nous sommes au courant des initiatives de la Chine, leur principal rival. En effet, sous l’égide de Xi Jinping, le gouvernement chinois voit cette pénurie comme une véritable opportunité. Cette semaine, l’Administration Nationale de Données de Chine a publié un projet décrivant son plan d’action visant à bâtir, d’ici 2028, un écosystème de données validées pour soutenir la prochaine génération de modèles d’IA.

Sommaire

Aperçu de l’initiative chinoise

Le document de l’Administration Nationale de Données souligne les secteurs ciblés pour la génération et la certification des informations. Parmi eux figurent la recherche scientifique, la fabrication, l’agriculture, l’énergie, le transport, la finance, la santé, l’éducation et le commerce électronique. Mais le plan ne s’arrête pas à ces secteurs traditionnels.

Fusion nucléaire : le réacteur coréen KSTAR a réécrit les limites du possible

La Chine dispose d’un avantage structurel difficile à égaler pour les laboratoires occidentaux

Le document envisage également de fournir des données de qualité dans des domaines de pointe, tels que l’application de l’IA à la robotique, à la conduite autonome, à l’aviation à basse altitude et à la biomanufacture. Ces secteurs requièrent des données qui ne sont pas disponibles en ligne, car elles proviennent de capteurs, d’actionneurs et d’environnements physiques, nécessitant ainsi une infrastructure industrielle. Dans ce contexte, la Chine conserve un avantage structurel difficile à reproduire pour les laboratoires occidentaux.

De plus, le projet incite explicitement à l’expansion de l’offre de texte, code, images, audio et vidéo nécessaires à l’entraînement de systèmes capables de raisonnements complexes, de comportements agentiques et de contrôle de robots intelligents. Cela correspond presque exactement à ce que l’industrie désigne comme modèles de prochaine génération. Non seulement ces systèmes pourront répondre à des questions, mais ils pourront aussi planifier, agir et opérer dans le monde physique.

La disponibilité de données multimodales de haute qualité, en particulier celles provenant de véritables environnements industriels, constitue actuellement l’un des goulots d’étranglement les plus cruciaux, mais souvent sous-estimés, de la course à l’IA. Dans un contexte où l’accès aux puces de pointe est restreint par les contrôles à l’exportation américains, les données deviennent un atout stratégique. Si la Chine ne peut pas remporter la course du matériel, elle pourrait tenter de dominer celle du carburant indispensable à son efficacité réelle.

Points à retenir

La pénurie de données pourrait affecter le développement des IA dans les années à venir.
La Chine se positionne stratégiquement en misant sur la création d’un écosystème de données validées.
Plusieurs secteurs sont identifiés comme prioritaires pour la génération de nouvelles données.
Les modèles de prochaine génération nécessiteront des types de données actuellement difficiles à obtenir.
La distribution inégale des ressources en data entre la Chine et l’Occident pourrait exacerber la compétition technologique.

En tant qu’observateur de cette dynamique mondial, je me demande : comment les entreprises américaines vont-elles réagir face à ce défi ? Alors que les ressources se raréfient, il n’est pas seulement question d’innovation technique, mais également de collaboration internationale pour partager et gérer efficacement les données. Quelles alliances pourrions-nous imaginer pour aller de l’avant ensemble ?