3.0 KiB
3.0 KiB
Модели Ollama для пайплайна
Используются две модели:
| Назначение | Модель в Ollama | Команда pull | Примечание |
|---|---|---|---|
| LLM: анализ и валидация (шаги 1–4) | qwen3:14b |
ollama pull qwen3:14b |
~9.3 GB (Q4_K_M). Ближе к 8bit: qwen3:14b-q8_0 (~16 GB). |
| Эмбеддинги (шаг 6) | bge-m3 |
ollama pull bge-m3 |
~1.2 GB, размерность 1024, контекст 8192. |
Загрузка моделей при работе через Docker
-
Запустите контейнер Ollama:
docker compose up -d ollama -
Дождитесь готовности (healthcheck), затем загрузите модели внутри контейнера:
# LLM для анализа глав и валидации docker exec -it ollama ollama pull qwen3:14b # Модель эмбеддингов docker exec -it ollama ollama pull bge-m3 -
Проверка списка моделей:
docker exec ollama ollama listили через API:
curl http://localhost:11434/api/tags
Варианты LLM
- qwen3:14b — по умолчанию, меньше по размеру (~9.3 GB).
- qwen3:14b-q8_0 — выше качество, ближе к «8bit» из архитектуры (~16 GB).
В коде пайплайна имя модели задаётся конфигом (например, OLLAMA_LLM_MODEL=qwen3:14b).
Параметры генерации (options) для LLM
Для стабильного структурированного вывода (JSON framework) в run_framework_ollama.py передаётся блок options:
| Параметр | Значение | Назначение |
|---|---|---|
temperature |
0.3 | Ниже = детерминированнее ответ, меньше смены языка и «творчества». Для извлечения frame лучше 0.2–0.5. |
num_ctx |
8192 | Размер контекста (токены). Должен вмещать главу + промпт. |
num_predict |
4096 | Макс. токенов ответа, чтобы полный JSON не обрезался. |
repeat_penalty |
1.1 | Снижает повторения в тексте. |
Изменить можно в коде (OLLAMA_OPTIONS) или через переменные окружения, если скрипт будет их читать.
Локальный Ollama (без Docker)
Если Ollama установлен локально:
ollama pull qwen3:14b
ollama pull bge-m3
ollama list
В docker-compose сервис ollama тогда можно не поднимать; скрипты должны обращаться к http://localhost:11434.