Files
tech/docs/ollama-models.md
2026-02-01 17:57:16 +03:00

71 lines
3.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Модели Ollama для пайплайна
Используются две модели:
| Назначение | Модель в Ollama | Команда pull | Примечание |
|------------|-----------------|--------------|------------|
| LLM: анализ и валидация (шаги 14) | `qwen3:14b` | `ollama pull qwen3:14b` | ~9.3 GB (Q4_K_M). Ближе к 8bit: `qwen3:14b-q8_0` (~16 GB). |
| Эмбеддинги (шаг 6) | `bge-m3` | `ollama pull bge-m3` | ~1.2 GB, размерность 1024, контекст 8192. |
## Загрузка моделей при работе через Docker
1. Запустите контейнер Ollama:
```bash
docker compose up -d ollama
```
2. Дождитесь готовности (healthcheck), затем загрузите модели **внутри контейнера**:
```bash
# LLM для анализа глав и валидации
docker exec -it ollama ollama pull qwen3:14b
# Модель эмбеддингов
docker exec -it ollama ollama pull bge-m3
```
3. Проверка списка моделей:
```bash
docker exec ollama ollama list
```
или через API:
```bash
curl http://localhost:11434/api/tags
```
## Варианты LLM
- **qwen3:14b** — по умолчанию, меньше по размеру (~9.3 GB).
- **qwen3:14b-q8_0** — выше качество, ближе к «8bit» из архитектуры (~16 GB).
В коде пайплайна имя модели задаётся конфигом (например, `OLLAMA_LLM_MODEL=qwen3:14b`).
## Параметры генерации (options) для LLM
Для стабильного структурированного вывода (JSON framework) в `run_framework_ollama.py` передаётся блок `options`:
| Параметр | Значение | Назначение |
|----------------|----------|------------|
| `temperature` | 0.3 | Ниже = детерминированнее ответ, меньше смены языка и «творчества». Для извлечения frame лучше 0.20.5. |
| `num_ctx` | 8192 | Размер контекста (токены). Должен вмещать главу + промпт. |
| `num_predict` | 4096 | Макс. токенов ответа, чтобы полный JSON не обрезался. |
| `repeat_penalty` | 1.1 | Снижает повторения в тексте. |
Изменить можно в коде (`OLLAMA_OPTIONS`) или через переменные окружения, если скрипт будет их читать.
## Локальный Ollama (без Docker)
Если Ollama установлен локально:
```bash
ollama pull qwen3:14b
ollama pull bge-m3
ollama list
```
В `docker-compose` сервис `ollama` тогда можно не поднимать; скрипты должны обращаться к `http://localhost:11434`.