bxh/schema搭建/city_poi_schema_v0_1/README.md

# 城市 POI 业务场景 Schema v0.1

目标：先用百度百科等公开网页沉淀不同业务场景的**原文 Markdown 证据**，再从证据中归纳稳定字段、实体类型、关系类型，形成抽取约束。模型只能在约束内生成候选知识；发现新字段或新关系时进入 `schema_proposals`，不能直接污染正式图谱。

## 目录

- `business_scene_seed_manifest.json`：20 个高德大类的业务场景、当前采集规模、百度百科原文样本词条。
- `city_poi_universal_schema_v0_1.json`：城市 POI 通用 schema seed，用于约束抽取结果。
- `extraction_constraints.md`：抽取时必须遵守的证据、实体对齐、字段冲突和 schema proposal 规则。
- `baidu_baike_raw_md/`：按业务场景抓取出的百度百科原文 Markdown，脚本生成。

## 流程

```text
高德 POI 大类
  -> 选择每类 5-10 个百科样本词条
  -> 抓取页面原文 Markdown
  -> 人工/LLM 归纳领域字段与关系
  -> 生成通用 schema seed
  -> 用 schema seed 约束后续 POI 证据抽取
  -> 新字段/关系进入 schema_proposals 审核
```

## 原则

1. 高德 POI 是 Anchor Layer，百科/抖音/小红书/点评等都是 Evidence Layer。
2. 原文 Markdown 必须保留页面 URL、页面标题、抓取时间和正文，不用摘要替代原文。
3. 抽取结果必须可追溯到原文证据；没有证据的字段只能留空或进入 proposal。
4. 同一实体必须先与高德 POI 对齐，再写候选知识，不能凭文本新建重复 POI。
5. schema 是约束，不是最终事实；事实入图还要经过实体对齐、冲突检查和审核。