fix

2026-02-01 23:59:39 +03:00
parent ed5423bb51
commit 82f2c9082f
14 changed files with 92 additions and 36 deletions
--- a/ARCHITECTURE_SUMMARY.md
+++ b/ARCHITECTURE_SUMMARY.md
@@ -238,7 +238,7 @@ EPUB → JSON с главами → Анализ по блокам (framework
 ```yaml
 ollama:
  environment:
-    - OLLAMA_NUM_CTX=12000-13000  # Оптимальный компромисс
+    - OLLAMA_NUM_CTX=9000  # Контекст для анализа глав
    - OLLAMA_NUM_THREAD=8  # По количеству ядер CPU
    - OLLAMA_NUM_PARALLEL=1  # Последовательная обработка (экономия памяти)
 ```
@@ -246,12 +246,12 @@ ollama:
 #### Ограничения контекста

 **При 30GB RAM с lazy loading:**
- `qwen3-14b:8bit`: оптимально 12000–13000 токенов (даёт ~10000–11000 для текста главы)
+- `qwen3-14b:8bit`: оптимально 9000 токенов (даёт ~7000–8000 для текста главы)
 - **Эмбеддинги:** bge-m3 — 8192 токенов на вход, размерность 1024. Текст для эмбеддинга — сериализованный анализ главы; при превышении лимита — truncation или стратегия из embed_input_spec.txt (см. этап 6 пайплайна).

 **Анализ книг:**
 - Самая большая глава: 11,119 токенов ("Атомные привычки", глава 5)
- Все главы влезают в контекст 12000-13000 токенов
+- Все главы влезают в контекст 9000 токенов
 - С оптимизированными промптами (~200-300 токенов) остается достаточно места

 **Для 20000 токенов контекста:**
@@ -1254,7 +1254,7 @@ ollama ps

 1. **Lazy loading моделей** - загружать по требованию, выгружать через `keep_alive: 0`
 2. **Оптимизировать промпты** - минимум токенов (~200-300 вместо 1000-2000)
-3. **OLLAMA_NUM_CTX=12000-13000** - компромисс между памятью и возможностями
+3. **OLLAMA_NUM_CTX=9000** - компромисс между памятью и возможностями
 4. **Обработка строго последовательно** - одна глава, одна модель за раз
 5. **Мониторить память** - следить за использованием RAM