Конструктивный недостаток Nvidia в графическом процессоре Blackwell, снижающий производительность, был исправлен несколько месяцев назад, и усовершенствованная версия процессоров B100/B200 вот-вот поступит в массовое производство. Дженсен Хуанг, генеральный директор Nvidia, на этой неделе признал, что ошибка была полностью вызвана Nvidia, и сказал, что производственный партнер компании TSMC помог своевременно исправить ее, согласно сообщению Рейтер.
«У нас был недостаток конструкции в Blackwell, он работал, но из-за этого недостатка производительность была низкой», — сказал Хуанг. «Это была 100% вина Nvidia».
Когда появились первые сообщения о конструктивном недостатке, некоторые средства массовой информации сообщили, что виновата TSMC, и предположили, что это может вызвать напряжение в отношениях между Nvidia и ее партнером-производителем. По словам Хуанга, это было не так, и причиной проблемы стали собственные просчеты Nvidia. Хуан также назвал сообщения о напряженных отношениях между двумя компаниями «фейковыми новостями».
Графические процессоры Nvidia Blackwell B100 и B200 связывают свои два чиплета с помощью технологии упаковки TSMC CoWoS-L, которая опирается на промежуточный модуль RDL, оснащенный локальными кремниевыми межсетевыми мостами (LSI) (чтобы обеспечить скорость передачи данных около 10 ТБ/с). Расположение этих мостов имеет решающее значение. Однако предполагаемое несоответствие свойств теплового расширения между чипсетами графического процессора, мостами LSI, переходником RDL и подложкой материнской платы привело к деформации и выходу системы из строя, и, как сообщается, Nvidia пришлось модифицировать верхние металлические слои и неровности кремния графического процессора, чтобы улучшить урожайность производства. Хотя компания не раскрыла конкретных подробностей об исправлении, она упомянула, что потребуются новые маски.
Проблемы снижения производительности и серьезные проблемы с функциональностью (ошибки) не являются чем-то необычным в мире полупроводников. Обычно компании исправляют их, модифицируя один (или два) слоя металла и называя это новым степпингом. Показательный пример: по сообщениям, в Intel Sapphire Rapids было 500 ошибок, и компания выпустила около дюжины шагов, чтобы исправить их все (пять были базовыми повторными вращениями). На выполнение каждого нового шага уходит около трех месяцев (включая выявление проблемы, ее устранение и создание новой версии чипа), поэтому скорость, с которой Nvidia и TSMC исправили графический процессор Blackwell, впечатляет.
Уже исправленные графические процессоры Blackwell для искусственного интеллекта и суперкомпьютеров поступят в массовое производство в конце октября, а поставки должны начаться в начале следующего года (который по-прежнему будет 2025 финансовым годом Nvidia).
Тем не менее, ранее в этом году Nvidia сообщила, что для удовлетворения спроса на ее графические процессоры Blackwell среди крупных поставщиков облачных услуг, таких как AWS, Google и Microsoft, ей все равно придется поставить некоторые из первых низкопроизводительных процессоров Blackwell в 2024 году. Пока неясно, сколько графических процессоров Blackwell будет отправлено в дата-центры в 2024 году.