суббота, 22 марта 2025 г.

Anthropic рассказала о новом инструменте для Claude - функции "think" (думать),

 Anthropic рассказала о новом инструменте для Claude - функции "think" (думать), которая значительно улучшает способности модели решать сложные задачи. В отличие от функции "extended thinking" (которая работает до начала генерации ответа), инструмент "think" позволяет Claude добавить отдельный этап размышления уже в процессе формирования ответа.


Этот простой, но эффективный подход показал впечатляющие результаты в тестах τ-Bench, особенно в сложных сценариях обслуживания клиентов авиакомпаний. Наилучшие результаты были достигнуты при сочетании инструмента "think" с оптимизированными примерами использования в промпте - улучшение на 54% по сравнению с базовым уровнем.

Функция особенно полезна в трех сценариях: при анализе результатов других инструментов, в среде с множеством политик и правил, а также при последовательном принятии решений, где каждое действие опирается на предыдущие.

Интересно, что для более простых задач в сфере ритейла даже базовое использование "think" без дополнительных инструкций дало улучшение. В тестах SWE-Bench (программирование) этот инструмент также способствовал достижению рекордного результата 0.623, улучшив производительность на 1.6%.

Команда рекомендует использовать "think" с конкретными примерами для вашей предметной области и размещать сложные инструкции в системном промпте, а не в описании инструмента.

Я уже почти перестал удивляться, что с современными LLM всё эффективнее работают простые приемы, которые используются в процессе мышления человеком — "посиди, подумай", как пример. Но все сильнее ощущение, что в итоге это и закончится новой разумной жизнью.

https://www.anthropic.com/engineering/claude-think-tool

_______
Источник | #blognot
@F_S_C_P

Комментариев нет:

ad