Intelligence artificielle: AWS présente ses derniers serveurs équipés de puces Trainium3 pour des performances 4 fois supérieures
Amazon Web Services poursuit son travail d’optimisation de ses serveurs et s’appuie pour cela sur ses propres puces. Profitant de la foule rassemblée à re:Invent 2025 à Las Vegas – environ 60 000 personnes selon l’organisation – le géant du cloud a annoncé la disponibilité générale de ses puces Trainium3 gravées en 3 nm, qui vont désormais équiper ses serveurs Amazon EC2 Trn3 UltraServer.
Ces serveurs peuvent intégrer jusqu’à 144 puces Trainium3 dans un système unique, délivrant jusqu’à 362 PFLOPS FP8. Ils offrent jusqu’à 4,4 fois plus de performances de calcul et 4 fois plus d’efficacité énergétique que leurs prédécesseurs, les UltraServers Trainium2. Les clients bénéficient d’un débit 3 fois supérieur par puce et de temps de réponse quatre fois plus rapides, ce qui réduit les temps d’entraînement de plusieurs mois à quelques semaines, promet AWS.

Anthropic au premier rang des utilisateurs
En tout cas, un certain nombre d’utilisateurs ont déjà pu adopter ces puces, à commencer par Anthropic, Karakuri, Metagenomi, NetoAI, Ricoh et Splash Music qui observent une réduction des coûts d’entraînement et d’inférence allant jusqu’à 50%. De son côté, Decart, spécialisé dans la génération de vidéos et d’images à l’aide de modèles d’IA, obtient une inférence 4 fois plus rapide pour la génération vidéo en temps réel, à moitié moins cher que les GPU.
Pour les clients ayant besoin de passer à l’échelle, la firme assure que les EC2 UltraClusters 3.0 peuvent relier des milliers d’UltraServers contenant jusqu’à 1 million de puces Trainium, soit 10 fois plus que la génération précédente. L’objectif étant de rendre possible des projets auparavant tout simplement impossibles, qu’il s’agisse d’entraîner des modèles multimodaux sur des jeux de données importants ou d’exécuter de l’inférence en temps réel pour des millions d’utilisateurs simultanés.
Avec Project Rainier, AWS, au côté d’Anthropic, donne un aperçu de ce que cette interconnexion de puces peut donner : plus de 500 000 puces Trainium2 ont été connectées à date au sein du plus grand cluster de calcul IA au monde (cinq fois plus grand que l’infrastructure utilisée pour entraîner la génération précédente de modèles d’Anthropic et comptant 30 data centers).
Regard tourné vers la prochaine génération de Trainium
Le géant du cloud travaille déjà sur la conception de Trainium4, dont les performances devraient être significatives sur tous les plans, “notamment au moins 6x les performances en FP4, 3x les performances FP8, et 4x plus de bande passante mémoire” que les Trainium3.
Parallèlement, la firme mise sur une optimisation continue du hardware et du software pour qu’à l’avenir, les gains de performance soient toujours plus significatifs.
