Модели Ollama для пайплайна

Используются две модели:

Назначение	Модель в Ollama	Команда pull	Примечание
LLM: анализ и валидация (шаги 1–4)	`qwen3:14b`	`ollama pull qwen3:14b`	~9.3 GB (Q4_K_M). Ближе к 8bit: `qwen3:14b-q8_0` (~16 GB).
Эмбеддинги (шаг 6)	`bge-m3`	`ollama pull bge-m3`	~1.2 GB, размерность 1024, контекст 8192.

Загрузка моделей при работе через Docker

Дождитесь готовности (healthcheck), затем загрузите модели внутри контейнера:

# LLM для анализа глав и валидации
docker exec -it ollama ollama pull qwen3:14b

# Модель эмбеддингов
docker exec -it ollama ollama pull bge-m3

Проверка списка моделей:

docker exec ollama ollama list

или через API:

curl http://localhost:11434/api/tags

В коде пайплайна имя модели задаётся конфигом (например, OLLAMA_LLM_MODEL=qwen3:14b).

Для стабильного структурированного вывода (JSON framework) в run_framework_ollama.py передаётся блок options:

Параметр	Значение	Назначение
`temperature`	0.3	Ниже = детерминированнее ответ, меньше смены языка и «творчества». Для извлечения frame лучше 0.2–0.5.
`num_ctx`	8192	Размер контекста (токены). Должен вмещать главу + промпт.
`num_predict`	4096	Макс. токенов ответа, чтобы полный JSON не обрезался.
`repeat_penalty`	1.1	Снижает повторения в тексте.

Изменить можно в коде (OLLAMA_OPTIONS) или через переменные окружения, если скрипт будет их читать.

Если Ollama установлен локально:

ollama pull qwen3:14b
ollama pull bge-m3
ollama list

В docker-compose сервис ollama тогда можно не поднимать; скрипты должны обращаться к http://localhost:11434.