Files
bxh/schema搭建/city_poi_schema_v0_1/README.md

32 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 城市 POI 业务场景 Schema v0.1
目标:先用百度百科等公开网页沉淀不同业务场景的**原文 Markdown 证据**,再从证据中归纳稳定字段、实体类型、关系类型,形成抽取约束。模型只能在约束内生成候选知识;发现新字段或新关系时进入 `schema_proposals`,不能直接污染正式图谱。
## 目录
- `business_scene_seed_manifest.json`20 个高德大类的业务场景、当前采集规模、百度百科原文样本词条。
- `city_poi_universal_schema_v0_1.json`:城市 POI 通用 schema seed用于约束抽取结果。
- `extraction_constraints.md`:抽取时必须遵守的证据、实体对齐、字段冲突和 schema proposal 规则。
- `baidu_baike_raw_md/`:按业务场景抓取出的百度百科原文 Markdown脚本生成。
## 流程
```text
高德 POI 大类
-> 选择每类 5-10 个百科样本词条
-> 抓取页面原文 Markdown
-> 人工/LLM 归纳领域字段与关系
-> 生成通用 schema seed
-> 用 schema seed 约束后续 POI 证据抽取
-> 新字段/关系进入 schema_proposals 审核
```
## 原则
1. 高德 POI 是 Anchor Layer百科/抖音/小红书/点评等都是 Evidence Layer。
2. 原文 Markdown 必须保留页面 URL、页面标题、抓取时间和正文不用摘要替代原文。
3. 抽取结果必须可追溯到原文证据;没有证据的字段只能留空或进入 proposal。
4. 同一实体必须先与高德 POI 对齐,再写候选知识,不能凭文本新建重复 POI。
5. schema 是约束,不是最终事实;事实入图还要经过实体对齐、冲突检查和审核。