Initial travel knowledge graph release

This commit is contained in:
2026-06-09 09:56:26 +08:00
commit 5f061295d8
402 changed files with 103877 additions and 0 deletions

View File

@@ -0,0 +1,31 @@
# 城市 POI 业务场景 Schema v0.1
目标:先用百度百科等公开网页沉淀不同业务场景的**原文 Markdown 证据**,再从证据中归纳稳定字段、实体类型、关系类型,形成抽取约束。模型只能在约束内生成候选知识;发现新字段或新关系时进入 `schema_proposals`,不能直接污染正式图谱。
## 目录
- `business_scene_seed_manifest.json`20 个高德大类的业务场景、当前采集规模、百度百科原文样本词条。
- `city_poi_universal_schema_v0_1.json`:城市 POI 通用 schema seed用于约束抽取结果。
- `extraction_constraints.md`:抽取时必须遵守的证据、实体对齐、字段冲突和 schema proposal 规则。
- `baidu_baike_raw_md/`:按业务场景抓取出的百度百科原文 Markdown脚本生成。
## 流程
```text
高德 POI 大类
-> 选择每类 5-10 个百科样本词条
-> 抓取页面原文 Markdown
-> 人工/LLM 归纳领域字段与关系
-> 生成通用 schema seed
-> 用 schema seed 约束后续 POI 证据抽取
-> 新字段/关系进入 schema_proposals 审核
```
## 原则
1. 高德 POI 是 Anchor Layer百科/抖音/小红书/点评等都是 Evidence Layer。
2. 原文 Markdown 必须保留页面 URL、页面标题、抓取时间和正文不用摘要替代原文。
3. 抽取结果必须可追溯到原文证据;没有证据的字段只能留空或进入 proposal。
4. 同一实体必须先与高德 POI 对齐,再写候选知识,不能凭文本新建重复 POI。
5. schema 是约束,不是最终事实;事实入图还要经过实体对齐、冲突检查和审核。