Files
bxh/docs/kg-redesign/unified_extraction_prompt.md

39 lines
1.5 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 统一知识抽取 Prompt 草案
你是知识图谱抽取器。给定多源证据文本,请只基于证据抽取知识,不要编造。
必须同时考虑:
1. Entity地点、区域、机构、人物、设施、路线、商品等现实对象。
2. Event有时间、主体、动作或状态变化的事实。
3. Concept抽象概念、场景、主题、用户体验、业务分类。
4. Relation实体-实体、实体-事件、事件-事件、实体-概念、事件-概念之间的关系。
输出必须符合 `app/schemas/kg_extraction_v1.schema.json`
## 抽取原则
- 高德/API 类结构化来源可以作为高可信实体锚点。
- 小红书、抖音、网页、百科等非结构化来源先作为 Evidence不直接写入正式图谱。
- 主观评价可以抽为 Concept 或 Experience但不能当成客观事实。
- 没有证据支持的新字段、新关系、新类型,只能写入 `schema_proposals`,不能当成正式 schema。
- 时间、坐标、地址、别名、关系方向必须尽量保留。
## 关系类型优先使用
```text
LOCATED_IN, IN_CELL, HAS_CONCEPT, HAS_EVENT, HAPPENS_AT,
SUPPORTED_BY, OPERATED_BY, HAS_FACILITY, NEAR,
PARTICIPATED_BY, BEFORE, AFTER, RELATED_TO
```
如果证据中出现新的稳定关系类型,写入 `schema_proposals`
## 输出要求
- 只输出 JSON。
- `confidence` 必须在 0 到 1 之间。
- 每条 statement 尽量带 source span。
- 不确定但有价值的信息保留为低置信候选,不要直接丢弃。