面向文学空间的“建成环境 + AI”可检索数据库/平台

闹纳尼

966人浏览 · 2025-12-25 14:34:00

闹纳尼 · 2025-12-25 14:34:00 发布

面向文学空间的“建成环境 + AI”可检索数据库/平台：把你那套12章调参到不跑偏

传统“建成环境 DH”更像：地图/地籍/照片 → 还原物质形态与演化
文学空间更像：文本叙事 → 空间指涉与经验 → 再回到真实/想象的建成环境

因此平台的主键不再是“建筑/地块”，而是更适合以三类核心对象组织：

作品/版本（Work/Edition）：同一作品不同版本、校勘差异会影响地名与描写
空间提及（Mention）：文本中每一次空间指涉（地名、地标、方位、路径、室内外场景）
地点/场景（Place/Scene）：把提及归并到“现实地点”“模糊区域”或“纯叙事场景”，并保留不确定性

第1章文学空间作为“建成环境证据”：我们到底在建什么库

核心定义（建议写进项目书）

文学空间不是“地图上的点”，而是叙事中的空间经验：路径、视角、边界、社会分区、场所气味与秩序。
你的平台要解决的不是“在哪”，而是三连问：
1. 文本中如何说到一个地方（话语与修辞）
2. 这个地方对应现实何处/何时（可考证与不确定性）
3. 它如何映射建成环境（街巷、建筑类型、基础设施、公共空间）

本章交付物

研究对象界定：作品集/作者群/时期/城市（必须明确）
“证据链”口径：每个空间结论必须能回链到具体段落（章回、页码、行号）
平台定位：研究检索为主（可附轻量可视化）

第2章问题怎么问才“可计算且有人文价值”

文学空间高价值问题模板

空间意象与城市分区：不同阶层/职业/性别的空间活动如何呈现
路径与移动：人物如何穿行城市（路线、交通方式、门禁与边界）
场所类型学：茶馆、码头、租界街、里弄、戏院等如何出现、如何变化
现实—想象的张力：同一地名在不同作品中被如何再生产
事件驱动的空间重组：战乱、灾害、改造、迁徙在叙事中的空间痕迹

本章交付物

1页研究问题书：问题 + 可证伪假设 + 可抽取字段
研究边界：不做“全自动解释”，只做“可复核证据组织 + 可查询对比”

第3章数据盘点：文学文本的版本学、版权与可复现

文学空间项目经常“死”在版本与版权上，必须提前定规矩。

数据类型

作品文本：TXT/EPUB/TEI-XML（最好能落到段落级定位）
版本信息：出版信息、校勘说明、页码映射
辅助材料：作者书信/游记、同时代报刊、地方志（用于考证）
地名对照：历史地名词表、门牌/街名更迭表（可自建）

本章交付物

版本清单（Edition Registry）：每个版本的来源、版权、校对状态
引用定位规则：章节/页码/段落ID（推荐 TEI 或至少自定义锚点）
数据命名与目录规范 + 变更日志

第4章工具链总览（文学空间版）：从文本到“时空提及库”

文本处理（建议“稳健优先”）

分段与定位：TEI-XML（如能）或自定义段落ID体系
分词/词性/NER：HanLP / LTP / spaCy（中文以HanLP、LTP更省事）
OCR（如果是扫描本）：PaddleOCR + 人工校对

空间抽取与消歧

地名/地标识别：词典+NER混合（先保证召回）
消歧与归并：候选排序 + 人工确认（人机协同）
时态地名：PlaceName + 时间范围 + 证据

底座与检索

数据库：PostgreSQL + PostGIS（即便文学空间，也建议保留几何与范围）
全文检索：OpenSearch/Elasticsearch（很适合做“引文检索+高亮”）
向量检索（可选）：用于“相似描写段落检索”，但必须和证据回链绑定

本章交付物

流水线架构图（文本→提及→地点→证据→检索）
MVP定义：先做“1位作者/1部作品/1座城市/一个时期切片”

第5章证据链（文学空间版）：从“段落”到“空间主张”的可追溯

最小单位改写为

Mention（提及）：文本片段中出现的空间指涉
Claim（主张）：研究者对提及的解释与归并（可多版本）
Evidence（证据）：段落定位 + 原文 + 版本信息

本章交付物

证据链规范：Mention → Place/Scene → Claim → Evidence
可信度分级：
- 直接指称（明确地名）
- 间接定位（“城南”“渡口旁”）
- 叙事场景（无法对应现实，但可归为场所类型）

第6章地名与场景：文学空间的“地点”不只有现实地理

你需要把地点分成三类，否则平台会混乱：

Real Place：可对应现实地点（可点/线/面+时态）
Fuzzy Place：模糊区域（城南、近郊、某条“长街”）
Narrative Scene：纯叙事场景/象征空间（可做“场所类型+语义标签”，不强行落点）

本章交付物

Place/Scene 分类规则
不确定性表达：范围、多候选、置信度、理由（写入消歧日志）

第7章 “建成环境”如何进入文学空间平台：用“场所类型学”做桥梁

文学空间要落到建成环境，最稳的桥是：场所类型（Place Type）+ 建成要素（Built Elements）。

建议建立两套词表（可迭代）

场所类型：里弄、租界街、码头、茶馆、戏院、车站、弄堂口、洋行、会馆……
建成要素：路面、路灯、电车轨道、门牌、招牌、桥、堤岸、牌坊、围墙、院落、楼梯……

本章交付物

场所类型词表（Type Gazetteer）+ 同义词/时代用语
“建成要素”标注规范（可先从20–50个高频要素起步）

第8章抽取与标注：从“自动候选”到“研究可用数据”

文学空间抽取最有效的方式通常是两段式：

机器高召回：尽量把疑似地名/场所/方位/路径都抓出来
人工高精度：确认、归并、补充类型标签与不确定性说明

本章交付物

标注指南（面向标注员/研究助理）
抽检规则（每千条提及抽检多少、如何记录分歧）
标注资产化：把“人工确认”沉淀为词表/规则/训练集

第9章数据库表结构（平台核心）：你要能“按段落检索空间”

下面给你一套最小可用的表骨架（你可写进正文作为“示例字段”，也可直接让开发照做）：

核心表（建议必须有）

work：作品（作者、成书时间范围）
edition：版本（出版信息、版权、文本来源）
text_unit：文本单元（章/回/段落，含稳定ID与页码映射）
mention：空间提及（指称文本、类型：地名/场所/方位/路径/建筑要素）
place_scene：地点/场景实体（Real/Fuzzy/Narrative）
place_name：名称谱系（旧称/别称/异体字 + 时间范围）
place_geometry：几何与范围（可为空；可多候选；含置信度）
claim：研究主张（把mention归并到哪个place_scene、为什么）
evidence：证据（text_unit定位 + 原文引用 + 版本信息）
tag：主题标签（现代性、阶层、消费、恐惧、秩序、边界等，可选）
relation：关系（人物/机构/地点/事件之间）

本章交付物

ER图（哪怕简图）
数据字典（字段解释+取值范围）
版本与审校字段（谁创建、谁审核、何时修改）

第10章检索与分析：平台要让研究者“问得出来、比得了”

必做检索（文学空间版）

地名/别名检索（含异体字、同义词）
段落检索（关键词 + 空间标签过滤）
场所类型检索（“所有茶馆描写”）
路径检索（含“从…到…”、“穿过…”，可先规则后模型）
时态检索（同一地名在不同时期的描写对比）
相似段落检索（可选，向量检索+证据回链）

本章交付物

检索DSL/过滤器设计（时间、作品、作者、类型、置信度）
分析导出：CSV/JSONL + 引用信息（方便写论文）

第11章平台产品形态：研究型后台 + 公众型前台（可分期）

你以“可检索数据库/平台”为主，我建议产品分两层：

11.1 研究型（必须优先）

强检索、强证据回链、强导出
标注/审校工作台（分配任务、冲突处理、复核记录）

11.2 公众型（第二阶段再做）

轻量地图/时间轴/故事线（避免一开始被可视化拖垮）
每个结论可点回原文段落（公众传播也需要可追溯）

本章交付物

MVP原型（检索→段落→提及→地点/场景→证据）
权限与公开策略（版权限制下如何展示）

第12章验收与复盘（文学空间平台口径）：别用“准确率”糊弄评审

建议验收指标（更贴合文学空间）

A 证据链与版本学

提及记录的证据回链率 [≥95%]
关键作品的段落定位稳定性（同版本可复现）
版本差异记录覆盖率（同段不同版本差异可追溯）

B 空间知识质量

地名归并一致性（抽检：同一旧称是否归到同一Place/Scene）
不确定性标注覆盖率（模糊空间必须标注范围/理由）
场所类型标注一致性（标注员间一致率抽检）

C 平台可用性

“从问题到证据”的点击路径（建议 [≤3] 跳到原文）
导出可用（带引用信息，能直接进入论文写作流程）

本章交付物

验收报告模板（含抽检表）
月度版本发布与数据修订机制
训练集/词表迭代机制（把标注沉淀成资产）

交付清单（文学空间平台版，按阶段）

阶段0（1–2周）：立项与MVP

作品/版本范围确定（含版权）
空间标签体系草案（场所类型、建成要素）
MVP：1部作品 + 1000段文本 + 200个空间提及

阶段1（2–6周）：数据库底座+证据链

Postgres/PostGIS建库 + 数据字典
text_unit段落定位体系（稳定ID）
evidence/mention/claim最小闭环跑通

阶段2（4–10周）：抽取+人工审校流水线

地名/场所候选抽取
标注工作台（任务分发、复核、冲突）
时态地名与Place/Scene归并（含消歧日志）

阶段3（4–8周）：检索产品化

混合检索（作品/地名/场所类型/段落）
证据查看器（原文高亮、页码/段落定位）
导出（带引用与版本信息）

阶段4（可选，3–8周）：轻量可视化

时间轴、对比阅读、（谨慎）地图视图
公众版页面（受版权控制）

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

深度测评10个AI论文写作软件，专科生毕业论文必备！

cover

解锁大模型：小白也能懂的原理与缺陷，程序员必看收藏

cover

8个降AI率工具推荐！本科生高效避坑指南

所有评论(0)

查看更多评论

闹纳尼

已为社区贡献39条内容