понедельник, 27 января 2025 г.

Что за зверь DeepSeek и почему Nvidia больно?

 Что за зверь DeepSeek и почему Nvidia больно?

Твитерянин Морган Браун
Вице президент по развитию продуктов instagram, dropbox, shopify



Инновации DeepSeek в области ИИ поражают людей (и, возможно, угрожают рыночной капитализации Nvidia в $2t)


1/ Сначала немного контекста: Сейчас обучение топовых моделей ИИ НЕВЕРОЯТНО дорогое.

OpenAI, Anthropic и другие тратят $100 млн+ только на вычислительные ресурсы. Им нужны огромные дата-центры с тысячами GPU стоимостью $40K каждый. Это как если бы для работы завода требовалась целая электростанция.

2/ DeepSeek появились и сказали: "А что, если мы сделаем это за $5m?"

И они не просто говорили — они действительно это сделали. Их модели соответствуют или превосходят GPT-4 и Claude во многих задачах.

Мир ИИ роняет слезки в тирамису

3/ Как? Они переосмыслили всё с нуля. Традиционный ИИ — это как писать каждое число с 32 знаками после запятой. DeepSeek сказали: "А что, если мы будем использовать только 8? Этого достаточно!"

Бум — на 75% меньше памяти.

4/ Затем их система "мульти-токенов".

Обычный ИИ читает как первоклассник: "Кошка... сидит... на...". DeepSeek читает целыми фразами сразу. В 2 раза быстрее, с точностью 90%. Когда вы обрабатываете миллиарды слов, это ВАЖНО.

5/ Но самое крутое в их подходе:

Они создали "экспертную систему".

Вместо одного огромного ИИ, который пытается знать всё (как если бы один человек был врачом, юристом И инженером), у них есть специализированные эксперты, которые активируются только когда это нужно.

6/ Традиционные модели?

Все 1,8 триллиона параметров активны ВСЕГДА.

DeepSeek? 671 млрд параметров в общей сложности, но только 37 млрд активны одновременно.

Это как иметь огромную команду, но вызывать только тех экспертов, которые действительно нужны для каждой задачи.

7/ Результаты ошеломляющие:
- Стоимость обучения: $100 млн → $5m
- Необходимые GPU: 100 000 → 2 000
- Стоимость API: на 95% дешевле
- Может работать на игровых GPU вместо серверного оборудования

8/ "Но подождите," — скажете вы, — "должен быть подвох!" Вот что самое интересное — всё это открытый исходный код.

Любой может проверить их работу. Код публичный. Технические документы объясняют всё. Это не магия, просто невероятно умная инженерия.

9/ Почему это важно? Потому что это ломает модель "только крупные tech-компании могут играть в ИИ".

Теперь вам не нужен дата-центр за миллиард долларов. Несколько хороших GPU могут быть достаточны.

10/ Для Nvidia это страшно. Вся их бизнес-модель построена на продаже супердорогих GPU с маржой 90%. Если вдруг все смогут делать ИИ на обычных игровых GPU...

11/ DeepSeek сделали это с командой менее 200 человек. В то время как в Meta есть команды, где только компенсации сотрудников превышают весь бюджет обучения DeepSeek... и их модели не так хороши.

12/ Это классическая история прорыва: Лидеры рынка оптимизируют существующие процессы, а disruptors переосмысливают фундаментальный подход.

DeepSeek спросили: "А что, если мы просто сделаем это умнее, вместо того чтобы использовать больше железа?"

13/ Последствия:
- Разработка ИИ становится более доступной
- Конкуренция резко возрастает
- железо крупных tech-компаний кажется не нужным
- Требования к оборудованию (и затраты) резко снижаются

14/ Конечно, гиганты вроде OpenAI и Anthropic не будут стоять на месте.

Они, вероятно, уже внедряют эти инновации. Но джинн выпущен из бутылки — возврата к подходу "просто брось больше GPU" уже не будет.

15/ Это похоже на один из тех моментов, о которых мы будем вспоминать как о переломных. Как когда ПК сделали мейнфреймы менее актуальными, или когда облачные вычисления изменили всё.

ИИ скоро станет намного доступнее и намного дешевле. Вопрос не в том, будет ли это прорывом для текущих игроков, а в том, как быстро это произойдет.

x.com

_______
Источник | #makecryptogreat
@F_S_C_P

Комментариев нет:

ad