Files
tech/4_валидация_тегов/README.md
2026-02-01 17:01:21 +03:00

32 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Валидация тегов (шаг 4)
Отдельный шаг пайплайна после извлечения тегов (шаг 3). Проверка релевантности каждого тега содержанию главы, соответствие каркасу/инсайтам/применению, фильтрация нерелевантных и слишком общих тегов, обновление confidence scores.
## Промпт
| Файл | Назначение |
|------------------|-------------------------------------------------|
| validate_tags.txt | Валидация извлечённых тегов по анализу и тексту главы |
## Подстановки
- `{book_title}` — название книги
- `{chapter_title}` — название главы
- `{extracted_tags_json}` — JSON из шага 3 (tags по категориям + proposed)
- `{framework}` — JSON блока framework
- `{insights}` — JSON блока insights
- `{application}` — JSON блока application
- `{chapter_text}` — выдержка текста главы (для проверки релевантности)
## Вход
Извлечённые теги (шаг 3) + валидированный анализ главы (framework, insights, application) + оригинальный текст главы.
## Выход
JSON: проверенные теги по категориям с обновлёнными confidence; теги, снятые при валидации, — в блоке `removed` (tag, category, reason). Формат `tags` совпадает с выходом шага 3 для передачи в эмбеддинг и сохранение в БД.
## Использование
Вызывается после шага 3 (извлечение тегов). Модель: qwen3-14b:8bit (или аналог). Время: ~2030 сек на главу.