вторник, 3 октября 2023 г.

Недавно пользователям стала доступна мультимодальная модель от OpenAI

 Недавно пользователям стала доступна мультимодальная модель от OpenAI, которая может принимать на вход картинки - GPT-4V(ision). Захотелось потестить ее с разных сторон: как работает в плане OCR, может ли дететировать объекты, считать их, отвечать на детальные вопросы по текстовому промпту и так далее. А тут добрые люди скинули статью от Microsoft, где авторы упоролись и выкатили 150-страничную работу с детальным анализом модели: проверили на детекцию, анализ медицинских снимков, ориентацию в пространстве, мультимодальные знания, понимание доменных областей, понимание видео по серии кадров и мнооого чего еще. Можно залипнуть вечерком на пару часиков 🤯

_______
Источник | #AIexTime
@F_S_C_P

Комментариев нет:

ad