вторник, 8 апреля 2025 г.

DeepSeek представили технологию, превращающую 27млрд-модель в конкурента GPT-4o

 #DeepSeek представили технологию, превращающую 27млрд-модель в конкурента GPT-4o


DeepSeek развивает новый тренд в ИИ - масштабирование моделей через оптимизацию вывода (inference) вместо увеличения размера моделей.

Этот тренд уже начали показывать Databricks и Camel-AI.

SPCT (Self-Principled Critique Tuning) – это новый метод, который позволяет значительно улучшить эффективность моделей вознаграждения без увеличения размера модели.

SPCT работает через генерацию принципов оценки на лету и параллельную выборку нескольких наборов оценок, которые затем агрегируются для получения более точного результата.

Этот подход не требует специально размеченных данных для оценки качества ответов в каждом домене – модель сама определяет релевантные критерии и применяет их к оценке.

Эмпирические исследования показывают, что DeepSeek-GRM-27млрд с использованием 32 параллельных выборок превосходит Claude 3.5 Sonnet, GPT-4o и Nemotron-4-340млрд-Reward на стандартных бенчмарках оценки LLM, что эквивалентно производительности моделей с 671млрд параметров — в ~25 раз больше параметров.

SPCT подходит для:

1. Создания специализированных LLM с помощью RLHF с использованием меньшего количества вычислительных ресурсов

2. Повышения качества существующих моделей через более точные оценки их ответов

3. Гибкого управления балансом качества и стоимости в зависимости от конкретных задач

4. Разработки систем с улучшающимся циклом использования – чем больше запросов обрабатывает система, тем лучше она становится.

_______
Источник | #blockchainRF
@F_S_C_P

▪️Генерируй картинки в боте:
Flux + MidJourney

Комментариев нет:

ad