GPT-4V что он видит и умеет после апдейта, отличный разбор.
Главное:
—Можно дать на вход текст и картинку (или несколько картинок), это очень гибкое сочетание.
—На выходе тоже можно получить текст и картинку (но генерация пока хуже распознавания).
—Он преобразовывает ввод всё в то же векторное поле, которым пользуется в LLM, то есть, по большому счёту, наследует все способности GPT4, но очень расширяет возможности ввода.
—Хорошо учится по образцам прямо внутри промпта.
—Хорошо распознаёт объекты и их взаимосвязи, предсказывает следующее событие в сцене.
—Уверенно распознаёт медицинские ситуации по изображениям.
—Хороший поиск дефектов.
—Умеет считать объекты, но не хочет. В медленном режиме пошагового счёта считает лучше.
—Умеет обводить объекты и давать их координаты.
—Подписывает части изображения.
—Хорошо объясняет по картинкам, инструкции очень крутые.
—Отлично анализирует сцену в реверсе («представь, что ты детектив, что можешь сказать?»)
—Распознаёт текст и формулы, таблицы, переводит (20 языков), понимает структуру документов.
—Отлично понимает указатели и всё, на что вы тыкаете тем или иным образом.
—Понимает последовательности событий, разбирает видео, умеет строить временные связи между картинками и прогнозы.
—Собирает всякие головоломки типа танграмов и решает задачи на последовательности фигур.
—Определяет эмоции (что пугает в сочетании с анализом видео).
—Предсказывает, как картинка повлияет на аудиторию (самая объективно опасная способность).
—Находит различия, дефекты, оценивает повреждения
—Умеет делать разные задачи в реальной среде: догадываться, что за кнопки и для чего на разных машинах дома, сопоставлять инструкции из базы и станки, ориентироваться без полных данных.
—Хорошо браузит по неполным данным, может купить вам клавиатуру или заказать еду по запросу, причём сам разберётся, где и как это сделать.
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram
Комментариев нет:
Отправить комментарий