fix
This commit is contained in:
@@ -238,7 +238,7 @@ EPUB → JSON с главами → Анализ по блокам (framework
|
||||
```yaml
|
||||
ollama:
|
||||
environment:
|
||||
- OLLAMA_NUM_CTX=12000-13000 # Оптимальный компромисс
|
||||
- OLLAMA_NUM_CTX=9000 # Контекст для анализа глав
|
||||
- OLLAMA_NUM_THREAD=8 # По количеству ядер CPU
|
||||
- OLLAMA_NUM_PARALLEL=1 # Последовательная обработка (экономия памяти)
|
||||
```
|
||||
@@ -246,12 +246,12 @@ ollama:
|
||||
#### Ограничения контекста
|
||||
|
||||
**При 30GB RAM с lazy loading:**
|
||||
- `qwen3-14b:8bit`: оптимально 12000–13000 токенов (даёт ~10000–11000 для текста главы)
|
||||
- `qwen3-14b:8bit`: оптимально 9000 токенов (даёт ~7000–8000 для текста главы)
|
||||
- **Эмбеддинги:** bge-m3 — 8192 токенов на вход, размерность 1024. Текст для эмбеддинга — сериализованный анализ главы; при превышении лимита — truncation или стратегия из embed_input_spec.txt (см. этап 6 пайплайна).
|
||||
|
||||
**Анализ книг:**
|
||||
- Самая большая глава: 11,119 токенов ("Атомные привычки", глава 5)
|
||||
- Все главы влезают в контекст 12000-13000 токенов
|
||||
- Все главы влезают в контекст 9000 токенов
|
||||
- С оптимизированными промптами (~200-300 токенов) остается достаточно места
|
||||
|
||||
**Для 20000 токенов контекста:**
|
||||
@@ -1254,7 +1254,7 @@ ollama ps
|
||||
|
||||
1. **Lazy loading моделей** - загружать по требованию, выгружать через `keep_alive: 0`
|
||||
2. **Оптимизировать промпты** - минимум токенов (~200-300 вместо 1000-2000)
|
||||
3. **OLLAMA_NUM_CTX=12000-13000** - компромисс между памятью и возможностями
|
||||
3. **OLLAMA_NUM_CTX=9000** - компромисс между памятью и возможностями
|
||||
4. **Обработка строго последовательно** - одна глава, одна модель за раз
|
||||
5. **Мониторить память** - следить за использованием RAM
|
||||
|
||||
|
||||
Reference in New Issue
Block a user