3.2 KiB
Валидация тегов (шаг 4)
Отдельный шаг пайплайна после извлечения тегов (шаг 3). Проверка релевантности каждого тега содержанию главы, соответствие каркасу/инсайтам/применению, фильтрация нерелевантных и слишком общих тегов, обновление confidence scores.
Промпт
| Файл | Назначение |
|---|---|
| validate_tags.txt | Валидация извлечённых тегов по анализу и тексту главы |
Подстановки
{book_title}— название книги{chapter_title}— название главы{extracted_tags_json}— JSON из шага 3 (tags по категориям + proposed){framework}— JSON блока framework{insights}— JSON блока insights{application}— JSON блока application{chapter_text}— выдержка текста главы (для проверки релевантности)
Вход
Извлечённые теги (шаг 3) + валидированный анализ главы (framework, insights, application) + оригинальный текст главы.
Выход
JSON: проверенные теги по категориям с обновлёнными confidence; теги, снятые при валидации, — в блоке removed (tag, category, reason). Формат tags совпадает с выходом шага 3 для передачи в эмбеддинг и сохранение в БД.
Скрипт через Ollama
run_validate_tags_ollama.py — один вызов Ollama для валидации извлечённых тегов. На выходе один JSON-файл.
Вход (по умолчанию):
../3_извлечение_тегов/extracted_tags.json— результат шага 3 (tags по категориям, proposed)../1_анализ_главы/merge.json— полный анализ (framework, insights, application)../1_анализ_главы/вход_главы.json— текст главы и метаданные
Выход: validated_tags.json в каталоге скрипта (или путь через -o).
Формат выхода: tags (по категориям с обновлённым confidence), removed (массив снятых тегов: tag, category, reason).
Запуск:
cd 4_валидация_тегов
python3 run_validate_tags_ollama.py
# с указанием путей:
python3 run_validate_tags_ollama.py --extracted-tags /path/to/extracted_tags.json --merge /path/to/merge.json --chapter /path/to/вход_главы.json -o validated_tags.json
Использование в пайплайне
Вызывается после шага 3 (извлечение тегов). Модель: qwen3-14b:8bit (или аналог). Время: ~20–30 сек на главу.