Files
tech/docs/ollama-models.md
2026-02-01 17:57:16 +03:00

3.0 KiB
Raw Permalink Blame History

Модели Ollama для пайплайна

Используются две модели:

Назначение Модель в Ollama Команда pull Примечание
LLM: анализ и валидация (шаги 14) qwen3:14b ollama pull qwen3:14b ~9.3 GB (Q4_K_M). Ближе к 8bit: qwen3:14b-q8_0 (~16 GB).
Эмбеддинги (шаг 6) bge-m3 ollama pull bge-m3 ~1.2 GB, размерность 1024, контекст 8192.

Загрузка моделей при работе через Docker

  1. Запустите контейнер Ollama:

    docker compose up -d ollama
    
  2. Дождитесь готовности (healthcheck), затем загрузите модели внутри контейнера:

    # LLM для анализа глав и валидации
    docker exec -it ollama ollama pull qwen3:14b
    
    # Модель эмбеддингов
    docker exec -it ollama ollama pull bge-m3
    
  3. Проверка списка моделей:

    docker exec ollama ollama list
    

    или через API:

    curl http://localhost:11434/api/tags
    

Варианты LLM

  • qwen3:14b — по умолчанию, меньше по размеру (~9.3 GB).
  • qwen3:14b-q8_0 — выше качество, ближе к «8bit» из архитектуры (~16 GB).

В коде пайплайна имя модели задаётся конфигом (например, OLLAMA_LLM_MODEL=qwen3:14b).

Параметры генерации (options) для LLM

Для стабильного структурированного вывода (JSON framework) в run_framework_ollama.py передаётся блок options:

Параметр Значение Назначение
temperature 0.3 Ниже = детерминированнее ответ, меньше смены языка и «творчества». Для извлечения frame лучше 0.20.5.
num_ctx 8192 Размер контекста (токены). Должен вмещать главу + промпт.
num_predict 4096 Макс. токенов ответа, чтобы полный JSON не обрезался.
repeat_penalty 1.1 Снижает повторения в тексте.

Изменить можно в коде (OLLAMA_OPTIONS) или через переменные окружения, если скрипт будет их читать.

Локальный Ollama (без Docker)

Если Ollama установлен локально:

ollama pull qwen3:14b
ollama pull bge-m3
ollama list

В docker-compose сервис ollama тогда можно не поднимать; скрипты должны обращаться к http://localhost:11434.