# 城市 POI 业务场景 Schema v0.1 目标:先用百度百科等公开网页沉淀不同业务场景的**原文 Markdown 证据**,再从证据中归纳稳定字段、实体类型、关系类型,形成抽取约束。模型只能在约束内生成候选知识;发现新字段或新关系时进入 `schema_proposals`,不能直接污染正式图谱。 ## 目录 - `business_scene_seed_manifest.json`:20 个高德大类的业务场景、当前采集规模、百度百科原文样本词条。 - `city_poi_universal_schema_v0_1.json`:城市 POI 通用 schema seed,用于约束抽取结果。 - `extraction_constraints.md`:抽取时必须遵守的证据、实体对齐、字段冲突和 schema proposal 规则。 - `baidu_baike_raw_md/`:按业务场景抓取出的百度百科原文 Markdown,脚本生成。 ## 流程 ```text 高德 POI 大类 -> 选择每类 5-10 个百科样本词条 -> 抓取页面原文 Markdown -> 人工/LLM 归纳领域字段与关系 -> 生成通用 schema seed -> 用 schema seed 约束后续 POI 证据抽取 -> 新字段/关系进入 schema_proposals 审核 ``` ## 原则 1. 高德 POI 是 Anchor Layer,百科/抖音/小红书/点评等都是 Evidence Layer。 2. 原文 Markdown 必须保留页面 URL、页面标题、抓取时间和正文,不用摘要替代原文。 3. 抽取结果必须可追溯到原文证据;没有证据的字段只能留空或进入 proposal。 4. 同一实体必须先与高德 POI 对齐,再写候选知识,不能凭文本新建重复 POI。 5. schema 是约束,不是最终事实;事实入图还要经过实体对齐、冲突检查和审核。