#DeepSeek представили технологию, превращающую 27млрд-модель в конкурента GPT-4o
DeepSeek развивает новый тренд в ИИ - масштабирование моделей через оптимизацию вывода (inference) вместо увеличения размера моделей.
Этот тренд уже начали показывать Databricks и Camel-AI.
SPCT (Self-Principled Critique Tuning) – это новый метод, который позволяет значительно улучшить эффективность моделей вознаграждения без увеличения размера модели.
SPCT работает через генерацию принципов оценки на лету и параллельную выборку нескольких наборов оценок, которые затем агрегируются для получения более точного результата.
Этот подход не требует специально размеченных данных для оценки качества ответов в каждом домене – модель сама определяет релевантные критерии и применяет их к оценке.
Эмпирические исследования показывают, что DeepSeek-GRM-27млрд с использованием 32 параллельных выборок превосходит Claude 3.5 Sonnet, GPT-4o и Nemotron-4-340млрд-Reward на стандартных бенчмарках оценки LLM, что эквивалентно производительности моделей с 671млрд параметров — в ~25 раз больше параметров.
SPCT подходит для:
1. Создания специализированных LLM с помощью RLHF с использованием меньшего количества вычислительных ресурсов
2. Повышения качества существующих моделей через более точные оценки их ответов
3. Гибкого управления балансом качества и стоимости в зависимости от конкретных задач
4. Разработки систем с улучшающимся циклом использования – чем больше запросов обрабатывает система, тем лучше она становится.
_______
Источник | #blockchainRF
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
Комментариев нет:
Отправить комментарий