32 lines
1.6 KiB
Markdown
32 lines
1.6 KiB
Markdown
# 城市 POI 业务场景 Schema v0.1
|
||
|
||
目标:先用百度百科等公开网页沉淀不同业务场景的**原文 Markdown 证据**,再从证据中归纳稳定字段、实体类型、关系类型,形成抽取约束。模型只能在约束内生成候选知识;发现新字段或新关系时进入 `schema_proposals`,不能直接污染正式图谱。
|
||
|
||
## 目录
|
||
|
||
- `business_scene_seed_manifest.json`:20 个高德大类的业务场景、当前采集规模、百度百科原文样本词条。
|
||
- `city_poi_universal_schema_v0_1.json`:城市 POI 通用 schema seed,用于约束抽取结果。
|
||
- `extraction_constraints.md`:抽取时必须遵守的证据、实体对齐、字段冲突和 schema proposal 规则。
|
||
- `baidu_baike_raw_md/`:按业务场景抓取出的百度百科原文 Markdown,脚本生成。
|
||
|
||
## 流程
|
||
|
||
```text
|
||
高德 POI 大类
|
||
-> 选择每类 5-10 个百科样本词条
|
||
-> 抓取页面原文 Markdown
|
||
-> 人工/LLM 归纳领域字段与关系
|
||
-> 生成通用 schema seed
|
||
-> 用 schema seed 约束后续 POI 证据抽取
|
||
-> 新字段/关系进入 schema_proposals 审核
|
||
```
|
||
|
||
## 原则
|
||
|
||
1. 高德 POI 是 Anchor Layer,百科/抖音/小红书/点评等都是 Evidence Layer。
|
||
2. 原文 Markdown 必须保留页面 URL、页面标题、抓取时间和正文,不用摘要替代原文。
|
||
3. 抽取结果必须可追溯到原文证据;没有证据的字段只能留空或进入 proposal。
|
||
4. 同一实体必须先与高德 POI 对齐,再写候选知识,不能凭文本新建重复 POI。
|
||
5. schema 是约束,不是最终事实;事实入图还要经过实体对齐、冲突检查和审核。
|
||
|