Magazine High tech

Nvidia corrige une faille dans la puce Blackwell avec l'aide de TSMC et la production de masse revient dans les délais

Publié le 26 octobre 2024 par Zaebos @MetatroneFR

La faute était entièrement de Nvidia, a admis le PDG Jensen Huang

Que vient-il de se passer ? Nvidia a réussi à corriger un défaut de conception dans ses dernières puces Blackwell AI, selon le PDG Jensen Huang. Le problème, qui a entraîné des retards de production, a été résolu avec l'aide de TSMC, le partenaire fabricant de longue date de Nvidia. En fait, c’est TSMC qui a initialement repéré le problème.

Surmonter ce problème était crucial pour Nvidia, car l'entreprise vise à maintenir sa position dominante sur le marché des puces IA. Alors que la demande de solutions informatiques d’IA hautes performances continue d’augmenter, le lancement réussi de Blackwell jouera un rôle central dans la fourniture du matériel nécessaire.

Huang a franchement admis la responsabilité de l'entreprise dans ce revers. « Nous avions un défaut de conception à Blackwell », a-t-il déclaré. « Il était fonctionnel, mais le défaut de conception rendait le rendement faible. C'était à 100 % la faute de Nvidia. »

Les puces Blackwell, dévoilées en mars, devaient initialement être expédiées au deuxième trimestre. Cependant, le défaut de conception a entraîné des retards, affectant potentiellement des clients majeurs tels que Meta, Google et Microsoft.

Le projet Blackwell était inhabituellement complexe, a déclaré Huang, ce qui pourrait avoir été un facteur à l'origine de cette faille. « Pour faire fonctionner un ordinateur Blackwell, sept types différents de puces ont été conçus à partir de zéro et ont dû être mis en production en même temps. »

Le problème technique provenait de la technologie de packaging complexe utilisée dans les GPU Blackwell B100 et B200. Ces puces utilisent le packaging CoWoS-L de TSMC, qui utilise un interposeur RDL avec des ponts d'interconnexion locaux en silicium pour atteindre des taux de transfert de données d'environ 10 To/s. Le problème provenait d’une inadéquation des propriétés de dilatation thermique entre divers composants, provoquant une déformation et une défaillance du système.

Pour résoudre ce problème, Nvidia a modifié les couches métalliques supérieures et les bosses du silicium du GPU, améliorant ainsi les rendements de production. Bien que les détails spécifiques du correctif ne soient pas divulgués, la société a confirmé que de nouveaux masques étaient nécessaires.

La rapidité de la résolution est remarquable. Généralement, résoudre ces problèmes dans l’industrie des semi-conducteurs implique de modifier les couches métalliques et de créer de nouvelles étapes, un processus qui peut prendre environ trois mois. « Ce que TSMC a fait, c'est nous aider à nous remettre de cette difficulté de rendement et à reprendre la fabrication de Blackwell à un rythme incroyable », a déclaré Huang.

Le défaut de conception étant désormais résolu, la production en série des GPU Blackwell fixes devrait commencer fin octobre. Les expéditions devraient commencer début 2025, ce qui correspond à l'exercice financier de Nvidia.

Malgré ce revers, la demande de puces Blackwell reste élevée. Huang avait précédemment qualifié la demande de « folle », les clients étant désireux d'être les premiers à bénéficier de la nouvelle technologie.

Google a commandé plus de 400 000 puces GB200 pour un montant supérieur à 10 milliards de dollars. De même, Meta a passé une commande de 10 milliards de dollars, tandis que Microsoft devrait recevoir 55 000 à 65 000 GPU GB200 prêts pour OpenAI d’ici le premier trimestre 2025.


Retour à La Une de Logo Paperblog

A propos de l’auteur


Zaebos 7622 partages Voir son profil
Voir son blog