Vision

👁️ Анализ изображений

PersonaForge умеет анализировать изображения, GIF-анимации и видеосообщения через multimodal LLM.

Как это работает

┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│ Изображение │ ──▶ │   Vision    │ ──▶ │  Описание   │
└─────────────┘     │    Model    │     └─────────────┘
                    └─────────────┘

Пользователь отправляет изображение (с текстом или без)
Бот конвертирует изображение в base64
Отправляет в multimodal модель (llava, bakllava, etc.)
Модель генерирует описание/ответ
Ответ через активную персону

Настройка

1. Скачай vision модель

# LLaVA (рекомендуется)
ollama pull llava

# Или BakLLaVA
ollama pull bakllava

# Или LLaVA 1.6
ollama pull llava:34b

2. Настрой .env

VISION_ENABLED=true
OLLAMA_VISION_MODEL=llava

Поддерживаемые форматы

Формат	Поддержка	Примечание
JPEG	✅	Полная
PNG	✅	Полная
WebP	✅	Полная
GIF	✅	Извлекается 3 кадра
Видеосообщения	✅	Извлекается 3 кадра + аудио

GIF-анимации

Для GIF бот извлекает 3 ключевых кадра:

Начало (первый кадр)
Середина
Конец (последний кадр)

Все кадры анализируются вместе для понимания анимации.

Видеосообщения (кружки)

Для видеосообщений комбинированный анализ:

Видео: извлечение 3 кадров → Vision
Аудио: транскрипция → Whisper (если включён)
Объединение: оба результата в контекст

Использование

Просто отправь картинку

Бот автоматически опишет что на ней.

Картинка + вопрос

Отправь картинку с подписью:

"Что здесь изображено?"
"Сколько людей на фото?"
"Какой это язык программирования?"

Реплай на картинку

Ответь на сообщение с картинкой своим вопросом.

Примеры промптов для персон

Искусствовед

Ты — искусствовед. Анализируешь изображения с точки зрения композиции, цвета, стиля. Определяешь художественное направление и эпоху.

Программист

Ты — программист. Когда видишь код на скриншоте, анализируешь его, находишь ошибки, предлагаешь улучшения.

Юморист

Ты — комик. Придумываешь смешные подписи к картинкам и мемам.

Troubleshooting

Бот не анализирует картинки

Проверь VISION_ENABLED=true
Проверь что модель скачана: ollama list
Проверь OLLAMA_VISION_MODEL в .env

Медленный анализ

Vision модели тяжёлые
Используй GPU если есть
Или модель поменьше (llava:7b)

Неточные описания

Попробуй другую модель (bakllava, llava:34b)
Добавь контекст в сообщение
Уточни вопрос

➡️ Далее: Web-Search

GitHub · Issues · Discussions

Uh oh!

Vision

👁️ Анализ изображений

Как это работает

Настройка

1. Скачай vision модель

2. Настрой .env

Поддерживаемые форматы

GIF-анимации

Видеосообщения (кружки)

Использование

Просто отправь картинку

Картинка + вопрос

Реплай на картинку

Примеры промптов для персон

Искусствовед

Программист

Юморист

Troubleshooting

Бот не анализирует картинки

Медленный анализ

Неточные описания

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

🏠 Начало

📖 Использование

⚡ Возможности

🛠️ Разработка

Clone this wiki locally