Files
tech/4_валидация_тегов
2026-02-01 22:02:49 +03:00
..
fix
2026-02-01 22:02:49 +03:00
fix
2026-02-01 22:02:49 +03:00
2026-02-01 17:01:21 +03:00
2026-02-01 17:01:21 +03:00
2026-02-01 17:01:21 +03:00

Валидация тегов (шаг 4)

Отдельный шаг пайплайна после извлечения тегов (шаг 3). Проверка релевантности каждого тега содержанию главы, соответствие каркасу/инсайтам/применению, фильтрация нерелевантных и слишком общих тегов, обновление confidence scores.

Промпт

Файл Назначение
validate_tags.txt Валидация извлечённых тегов по анализу и тексту главы

Подстановки

  • {book_title} — название книги
  • {chapter_title} — название главы
  • {extracted_tags_json} — JSON из шага 3 (tags по категориям + proposed)
  • {framework} — JSON блока framework
  • {insights} — JSON блока insights
  • {application} — JSON блока application
  • {chapter_text} — выдержка текста главы (для проверки релевантности)

Вход

Извлечённые теги (шаг 3) + валидированный анализ главы (framework, insights, application) + оригинальный текст главы.

Выход

JSON: проверенные теги по категориям с обновлёнными confidence; теги, снятые при валидации, — в блоке removed (tag, category, reason). Формат tags совпадает с выходом шага 3 для передачи в эмбеддинг и сохранение в БД.

Скрипт через Ollama

run_validate_tags_ollama.py — один вызов Ollama для валидации извлечённых тегов. На выходе один JSON-файл.

Вход (по умолчанию):

  • ../3_извлечениеегов/extracted_tags.json — результат шага 3 (tags по категориям, proposed)
  • ../1_анализ_главы/merge.json — полный анализ (framework, insights, application)
  • ../1_анализ_главы/вход_главы.json — текст главы и метаданные

Выход: validated_tags.json в каталоге скрипта (или путь через -o).

Формат выхода: tags (по категориям с обновлённым confidence), removed (массив снятых тегов: tag, category, reason).

Запуск:

cd 4_валидация_тегов
python3 run_validate_tags_ollama.py
# с указанием путей:
python3 run_validate_tags_ollama.py --extracted-tags /path/to/extracted_tags.json --merge /path/to/merge.json --chapter /path/to/вход_главы.json -o validated_tags.json

Использование в пайплайне

Вызывается после шага 3 (извлечение тегов). Модель: qwen3-14b:8bit (или аналог). Время: ~2030 сек на главу.