Skip to content
bobberdolle1 edited this page Jan 6, 2026 · 1 revision

👁️ Анализ изображений

PersonaForge умеет анализировать изображения, GIF-анимации и видеосообщения через multimodal LLM.

Как это работает

┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│ Изображение │ ──▶ │   Vision    │ ──▶ │  Описание   │
└─────────────┘     │    Model    │     └─────────────┘
                    └─────────────┘
  1. Пользователь отправляет изображение (с текстом или без)
  2. Бот конвертирует изображение в base64
  3. Отправляет в multimodal модель (llava, bakllava, etc.)
  4. Модель генерирует описание/ответ
  5. Ответ через активную персону

Настройка

1. Скачай vision модель

# LLaVA (рекомендуется)
ollama pull llava

# Или BakLLaVA
ollama pull bakllava

# Или LLaVA 1.6
ollama pull llava:34b

2. Настрой .env

VISION_ENABLED=true
OLLAMA_VISION_MODEL=llava

Поддерживаемые форматы

Формат Поддержка Примечание
JPEG Полная
PNG Полная
WebP Полная
GIF Извлекается 3 кадра
Видеосообщения Извлекается 3 кадра + аудио

GIF-анимации

Для GIF бот извлекает 3 ключевых кадра:

  • Начало (первый кадр)
  • Середина
  • Конец (последний кадр)

Все кадры анализируются вместе для понимания анимации.

Видеосообщения (кружки)

Для видеосообщений комбинированный анализ:

  1. Видео: извлечение 3 кадров → Vision
  2. Аудио: транскрипция → Whisper (если включён)
  3. Объединение: оба результата в контекст

Использование

Просто отправь картинку

Бот автоматически опишет что на ней.

Картинка + вопрос

Отправь картинку с подписью:

  • "Что здесь изображено?"
  • "Сколько людей на фото?"
  • "Какой это язык программирования?"

Реплай на картинку

Ответь на сообщение с картинкой своим вопросом.

Примеры промптов для персон

Искусствовед

Ты — искусствовед. Анализируешь изображения с точки зрения композиции, цвета, стиля. Определяешь художественное направление и эпоху.

Программист

Ты — программист. Когда видишь код на скриншоте, анализируешь его, находишь ошибки, предлагаешь улучшения.

Юморист

Ты — комик. Придумываешь смешные подписи к картинкам и мемам.

Troubleshooting

Бот не анализирует картинки

  1. Проверь VISION_ENABLED=true
  2. Проверь что модель скачана: ollama list
  3. Проверь OLLAMA_VISION_MODEL в .env

Медленный анализ

  • Vision модели тяжёлые
  • Используй GPU если есть
  • Или модель поменьше (llava:7b)

Неточные описания

  • Попробуй другую модель (bakllava, llava:34b)
  • Добавь контекст в сообщение
  • Уточни вопрос

➡️ Далее: Web-Search

🏠 Начало

📖 Использование

⚡ Возможности

🛠️ Разработка

Clone this wiki locally