четверг, 26 сентября 2024 г.

Институт искусственного интеллекта Аллена (Ai2) представил Molmo

 Институт искусственного интеллекта Аллена (Ai2) представил Molmo — новую линейку мультимодальных AI моделей с открытым исходным кодом. Эти модели превзошли таких конкурентов, как GPT-4o от OpenAI и Claude 3.5 Sonnet от Anthropic, на нескольких независимых тестах. Molmo умеет обрабатывать изображения и файлы, а для обучения использует в 1000 раз меньше данных, чем конкуренты.


Molmo превосходит другие модели на ряде бенчмарков, особенно по работе с изображениями и текстом. Вот некоторые ключевые тесты, где Molmo-72B показала лучшие результаты:

DocVQA — Тест на понимание документов в формате вопрос-ответ, где Molmo-72B набрала 96.3 балла, обойдя такие модели, как Gemini 1.5 Pro и Claude 3.5 Sonnet.

TextVQA — Бенчмарк для распознавания текста на изображениях, где модель также показала результат 85.5 балла, превосходя аналогичные модели.

AI2D (A Diagram Is Worth A Dozen Images) — Набор данных, состоящий из научных диаграмм и аннотаций, где Molmo-72B достигла наивысшего результата среди всех моделей, набрав 96.3 балла.


Сейчас доступно image-to-text демо
И сами модельки на huggingface
_______
Источник | #Futuris
@F_S_C_P

Комментариев нет:

ad