Институт искусственного интеллекта Аллена (Ai2) представил Molmo — новую линейку мультимодальных AI моделей с открытым исходным кодом. Эти модели превзошли таких конкурентов, как GPT-4o от OpenAI и Claude 3.5 Sonnet от Anthropic, на нескольких независимых тестах. Molmo умеет обрабатывать изображения и файлы, а для обучения использует в 1000 раз меньше данных, чем конкуренты.
Molmo превосходит другие модели на ряде бенчмарков, особенно по работе с изображениями и текстом. Вот некоторые ключевые тесты, где Molmo-72B показала лучшие результаты:
DocVQA — Тест на понимание документов в формате вопрос-ответ, где Molmo-72B набрала 96.3 балла, обойдя такие модели, как Gemini 1.5 Pro и Claude 3.5 Sonnet.
TextVQA — Бенчмарк для распознавания текста на изображениях, где модель также показала результат 85.5 балла, превосходя аналогичные модели.
AI2D (A Diagram Is Worth A Dozen Images) — Набор данных, состоящий из научных диаграмм и аннотаций, где Molmo-72B достигла наивысшего результата среди всех моделей, набрав 96.3 балла.
Сейчас доступно image-to-text демо
И сами модельки на huggingface
_______
Источник | #Futuris
@F_S_C_P
Комментариев нет:
Отправить комментарий