Ex сотрудники Google дали роботам «внутренний голос», который есть у людей
Новая разработка Hi Robot от Physical Intelligence превосходит GPT-4o на 40% по точности выполнения инструкций.
Ключевое - у технологии целостностный подход, объединяющий зрительное восприятие, языковое понимание, осознанное рассуждение "внутренним голосом" и действие в единой архитектуре, которая обучается и адаптируется как единое целое.
Представьте, что вы готовите новое блюдо по рецепту. Вы мысленно проговариваете каждый шаг: «сначала нарезать лук, теперь добавить соль...» Этот «внутренний голос» — не интуиция, а осознанное, вербализованное мышление, ключевая часть человеческого разума при решении сложных задач.
Теперь такой же механизм получили роботы от стартапа Physical Intelligence, чья команда состоит из экс- сотрудников Google, основавших в марте 2024 года компанию Physical Intelligence.
Hi Robot (Hierarchical Interactive Robot) — технология, которая позволяет роботам справляться со сложными задачами, разбивая их на простые шаги и адаптируясь к указаниям человека в реальном времени.
Эта технология состоит из:
1. Двухуровневого мышления по модели Канемана.
Система напрямую воплощает знаменитую теорию нобелевского лауреата Даниэля Канемана о двух системах мышления, описанную в его работе «Думай медленно... решай быстро»:
«Система 1» (быстрая, автоматическая, интуитивная) — реализована низкоуровневой моделью π0, которая выполняет конкретные действия без видимых усилий.
«Система 2» (медленная, рассудительная, требующая внимания) — представлена высокоуровневой политикой, которая анализирует задачу, разбивает её на шаги и адаптируется к обратной связи.
Именно эта "Система 2" создаёт тот самый "внутренний голос", который проговаривает сложные задачи, делая их понятными и выполнимыми.
2. Единого фундамента для обоих уровней мышления.
В отличие от конкурентов, Hi Robot использует одну и ту же базовую модель PaliGemma-3B VLM для обоих уровней иерархии, что обеспечивает согласованность и более естественную коммуникацию между уровнями "мышления" робота.
3. Реального понимания контекста.
Система не просто выполняет команды — она понимает их в контексте ситуации. Когда вы говорите роботу «это не мусор» во время уборки стола, Hi Robot понимает, что вы указываете на конкретный объект, который робот в данный момент держит, и корректирует своё поведение.
4. Интеграции знаний из интернета.
Благодаря предварительному обучению на данных из интернета, Hi Robot обладает "здравым смыслом" и общими знаниями о мире. Это позволяет ей лучше реагировать на неожиданные ситуации и интерпретировать расплывчатые команды.
Hi Robot уже протестирован на реальных задачах, например:
Приготовление бутербродов: «Сделай мне бутерброд с сыром и ростбифом, но без помидоров»
Уборка стола: «Убери только мусор, но не посуду» или «Собери только желтоватые предметы»
Покупки в магазине: «Мне нужны чипсы, Oreo и напитки для киновечера»
При этом вы можете вмешиваться в процесс: «Оставь это», «Я хочу также KitKat», «Это не мусор!», и робот адаптируется к вашим указаниям без перепрограммирования.
Технические инновации:
В основе Hi Robot лежат передовые технологии, разработанные Physical Intelligence:
π0 — 1-я универсальная модель управления роботами, аналог GPT для физического мира.
FAST — метод токенизации действий, повышающий точность и скорость обучения в 5 раз.
Сравнение с конкурентами
Hi Robot сильно выделяется среди аналогичных проектов в этой области:
RT-2 (Google DeepMind) — модель vision-language-action, но без явного разделения на высокий и низкий уровни мышления. Hi Robot превосходит её в обработке обратной связи в реальном времени.
SayCan (Google) — использует языковые модели для планирования, но опирается на предопределённые навыки. Hi Robot предлагает более тесную интеграцию зрения и языка.
PaLM-E (Google) — единая сквозная модель без иерархии, что ограничивает её способности к адаптации и рассуждению.
YAY Robot (Stanford) — фокусируется на коррекции ошибок, но имеет более узкие возможности для сложного планирования.
Комментариев нет:
Отправить комментарий