This commit is contained in:
2026-02-01 23:59:39 +03:00
parent ed5423bb51
commit 82f2c9082f
14 changed files with 92 additions and 36 deletions

View File

@@ -238,7 +238,7 @@ EPUB → JSON с главами → Анализ по блокам (framework
```yaml
ollama:
environment:
- OLLAMA_NUM_CTX=12000-13000 # Оптимальный компромисс
- OLLAMA_NUM_CTX=9000 # Контекст для анализа глав
- OLLAMA_NUM_THREAD=8 # По количеству ядер CPU
- OLLAMA_NUM_PARALLEL=1 # Последовательная обработка (экономия памяти)
```
@@ -246,12 +246,12 @@ ollama:
#### Ограничения контекста
**При 30GB RAM с lazy loading:**
- `qwen3-14b:8bit`: оптимально 1200013000 токенов (даёт ~1000011000 для текста главы)
- `qwen3-14b:8bit`: оптимально 9000 токенов (даёт ~70008000 для текста главы)
- **Эмбеддинги:** bge-m3 — 8192 токенов на вход, размерность 1024. Текст для эмбеддинга — сериализованный анализ главы; при превышении лимита — truncation или стратегия из embed_input_spec.txt (см. этап 6 пайплайна).
**Анализ книг:**
- Самая большая глава: 11,119 токенов ("Атомные привычки", глава 5)
- Все главы влезают в контекст 12000-13000 токенов
- Все главы влезают в контекст 9000 токенов
- С оптимизированными промптами (~200-300 токенов) остается достаточно места
**Для 20000 токенов контекста:**
@@ -1254,7 +1254,7 @@ ollama ps
1. **Lazy loading моделей** - загружать по требованию, выгружать через `keep_alive: 0`
2. **Оптимизировать промпты** - минимум токенов (~200-300 вместо 1000-2000)
3. **OLLAMA_NUM_CTX=12000-13000** - компромисс между памятью и возможностями
3. **OLLAMA_NUM_CTX=9000** - компромисс между памятью и возможностями
4. **Обработка строго последовательно** - одна глава, одна модель за раз
5. **Мониторить память** - следить за использованием RAM