城市 POI 业务场景 Schema v0.1
目标:先用百度百科等公开网页沉淀不同业务场景的原文 Markdown 证据,再从证据中归纳稳定字段、实体类型、关系类型,形成抽取约束。模型只能在约束内生成候选知识;发现新字段或新关系时进入 schema_proposals,不能直接污染正式图谱。
目录
business_scene_seed_manifest.json:20 个高德大类的业务场景、当前采集规模、百度百科原文样本词条。city_poi_universal_schema_v0_1.json:城市 POI 通用 schema seed,用于约束抽取结果。extraction_constraints.md:抽取时必须遵守的证据、实体对齐、字段冲突和 schema proposal 规则。baidu_baike_raw_md/:按业务场景抓取出的百度百科原文 Markdown,脚本生成。
流程
高德 POI 大类
-> 选择每类 5-10 个百科样本词条
-> 抓取页面原文 Markdown
-> 人工/LLM 归纳领域字段与关系
-> 生成通用 schema seed
-> 用 schema seed 约束后续 POI 证据抽取
-> 新字段/关系进入 schema_proposals 审核
原则
- 高德 POI 是 Anchor Layer,百科/抖音/小红书/点评等都是 Evidence Layer。
- 原文 Markdown 必须保留页面 URL、页面标题、抓取时间和正文,不用摘要替代原文。
- 抽取结果必须可追溯到原文证据;没有证据的字段只能留空或进入 proposal。
- 同一实体必须先与高德 POI 对齐,再写候选知识,不能凭文本新建重复 POI。
- schema 是约束,不是最终事实;事实入图还要经过实体对齐、冲突检查和审核。