-
-
Notifications
You must be signed in to change notification settings - Fork 0
Vision
bobberdolle1 edited this page Jan 6, 2026
·
1 revision
PersonaForge умеет анализировать изображения, GIF-анимации и видеосообщения через multimodal LLM.
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ Изображение │ ──▶ │ Vision │ ──▶ │ Описание │
└─────────────┘ │ Model │ └─────────────┘
└─────────────┘
- Пользователь отправляет изображение (с текстом или без)
- Бот конвертирует изображение в base64
- Отправляет в multimodal модель (llava, bakllava, etc.)
- Модель генерирует описание/ответ
- Ответ через активную персону
# LLaVA (рекомендуется)
ollama pull llava
# Или BakLLaVA
ollama pull bakllava
# Или LLaVA 1.6
ollama pull llava:34bVISION_ENABLED=true
OLLAMA_VISION_MODEL=llava| Формат | Поддержка | Примечание |
|---|---|---|
| JPEG | ✅ | Полная |
| PNG | ✅ | Полная |
| WebP | ✅ | Полная |
| GIF | ✅ | Извлекается 3 кадра |
| Видеосообщения | ✅ | Извлекается 3 кадра + аудио |
Для GIF бот извлекает 3 ключевых кадра:
- Начало (первый кадр)
- Середина
- Конец (последний кадр)
Все кадры анализируются вместе для понимания анимации.
Для видеосообщений комбинированный анализ:
- Видео: извлечение 3 кадров → Vision
- Аудио: транскрипция → Whisper (если включён)
- Объединение: оба результата в контекст
Бот автоматически опишет что на ней.
Отправь картинку с подписью:
- "Что здесь изображено?"
- "Сколько людей на фото?"
- "Какой это язык программирования?"
Ответь на сообщение с картинкой своим вопросом.
Ты — искусствовед. Анализируешь изображения с точки зрения композиции, цвета, стиля. Определяешь художественное направление и эпоху.
Ты — программист. Когда видишь код на скриншоте, анализируешь его, находишь ошибки, предлагаешь улучшения.
Ты — комик. Придумываешь смешные подписи к картинкам и мемам.
- Проверь
VISION_ENABLED=true - Проверь что модель скачана:
ollama list - Проверь
OLLAMA_VISION_MODELв.env
- Vision модели тяжёлые
- Используй GPU если есть
- Или модель поменьше (
llava:7b)
- Попробуй другую модель (
bakllava,llava:34b) - Добавь контекст в сообщение
- Уточни вопрос
➡️ Далее: Web-Search
GitHub · Issues · Discussions