Nvidia Rubin CPX — чипы для ИИ всё более специализируются
Инференс современных LLM состоит из двух стадий: prefill и decoding, которые крайне отличаются по своим требованиям. Префил требует вычислительную мощность чтобы сгенерировать KV кэш, а для декодинга нужна пропускная способности памяти, чтобы грузить KV кэш и веса на чип.
Из-за такой разницы, на нодах которые занимаются префилом, простаивает самая дорогая часть современных датацентровых GPU — HBM память, которая сейчас составляет 50%+ всей стоимости GPU. К тому же она всё ещё в дефиците и является чуть ли не основным ограничителем производства видеокарточек.
Решение от Хуанга — сделать специальные, более дешёвые, карточки для префила. В качестве памяти — 128 гигабайт GDDR7 (против 288GB HBM4 у VR200), пропускной способность в 2 терабайта в секунду вполне достаточна для префила. Кроме этого экономят на других штуках вокруг чипа — вместо дефицитного CoWoS-L используют более бюджетный FC-BGA, а связываются карточки друг с другом по PCIe вместо NVLink.
Большой плюс — упаковать в одну стойку можно 144 таких видеокарты, против всего 72 VR200 в NVL144. При этом такая стойка с Rubin CPX будет не просто иметь больше компьюта, но и кушать меньше энергии.
Так как префил в больших деплойментах и так делают на отдельных нодах, на высоком уровне мало что изменится — просто машины для префила переедут на специальное железо. Главный минус — такие GPU перекидывать между тренировкой и инференсом вряд-ли выйдет, но это явно будет компенсировано разницей в цене и доступности.
@ai_newz
_______
Источник | #ai_newz
@F_S_C_P
Комментариев нет:
Отправить комментарий