среда, 19 февраля 2025 г.

А quick vibe check of Grok 3

 А quick vibe check of Grok 3


Интересный обзор Grok 3 от самого Андрея Карпатого.

Он люто хорош, поэтому я, спотыкаясь о терминологию, все-таки перевел несколько самых интересных абзацев.

Во-первых, Grok 3 имеет современную модель мышления (кнопка "Думать") и отлично справился с моим вопросом о Settler's of Catan: "Создайте веб-страницу настольной игры, на которой изображена сетка шестиугольников, как в игре Settlers of Catan. Каждый  шестиугольник нумеруется от 1...N, где N - общее количество  шестиугольников. Сделайте его общим, чтобы можно было менять количество "колец" с помощью ползунка. Например, в Catan радиус составляет 3  шестиугольника. И пожалуйста, на одной html-странице". Немногие модели справляются с этим надежно. Лучшие модели мышления OpenAI (например, o1-pro за 200 долларов в месяц) тоже понимают это, но DeepSeek-R1, Gemini 2.0 Flash Thinking и Claude - нет.

Мне нравится, что модель честно *
пытается* решить гипотезу Римана, когда ее попросят, подобно DeepSeek-R1, но в отличие от многих других моделей, которые сразу же сдаются (o1-pro, Claude, Gemini 2.0 Flash Thinking) и просто говорят, что это большая нерешенная проблема. В конце концов, мне пришлось прекратить это занятие, потому что мне было немного не по себе, но Грок круто показал безумие и отвагу, и кто знает, может быть, когда-нибудь...

DeepSearch. Только вместо "Deep Research" здесь "Deep Search". Может выдавать высококачественные ответы на различные исследовательские/поисковые вопросы, ответы на которые вы можете найти в статьях в Интернете

Модель, похоже, не любит ссылаться на X как на источник по умолчанию, хотя вы можете явно попросить ее об этом. Несколько раз я ловил ее на том, что она галлюцинирует несуществующими URL-адресами. Несколько раз он говорил фактические вещи, которые я считаю неверными, но не приводил ссылки на них (вероятно, их не существует). Например, он сказал мне, что "Ким Чон Су все еще встречается с Ким Мин Солем" из 4-го сезона Singles Inferno, что, конечно же, совершенно не так, верно? А когда я попросил его создать отчет о крупных LLM-лабораториях, их общем финансировании и количестве сотрудников, он перечислил 12 крупных лабораторий, но не себя (xAI).

DeepSearch - это примерно то, что предлагает Perplexity DeepResearch (который просто великолепен!), но пока не дотягивает до уровня недавно выпущенного OpenAI "Deep Research", который все же кажется более основательным и надежным.

Grok 3 знает, что в слове "srawberry" есть 3 "r", но затем он также сказал мне, что в слове LOLLAPALOOZA есть только 3 "L". Включение "Reasoning" решает эту проблему.

Grok 3 сказал мне, что 9.11 > 9.9. (это характерно и для других LLM), но опять же, включение Reasoning решает эту проблему.

Резюме. Grok 3 + Thinking ощущается где-то на уровне самых сильных моделей OpenAI (o1-pro, $200/месяц), и немного лучше, чем DeepSeek-R1 и Gemini 2.0 Flash Thinking. Что довольно невероятно, учитывая, что команда начала работу с нуля ~1 год назад, такие сроки достижения уровня техники являются беспрецедентными. Не забывайте также о предостережениях - модели стохастические и могут давать немного разные ответы каждый раз, и это очень рано, так что нам придется ждать гораздо больше оценок в течение следующих нескольких дней/недель. Первые результаты LM-арены выглядят весьма обнадеживающе. На данный момент я поздравляю команду xAI, они явно набрали огромную скорость и динамику, и мне не терпится добавить Grok 3 в свой "совет LLM" и послушать, что он думает по этому поводу в будущем.


Полный твит с большим количеством примеров тут:

https://x.com/karpathy/status/1891720635363254772

@cgevent

Комментариев нет:

ad