面向文学空间的“建成环境 + AI”可检索数据库/平台
·
面向文学空间的“建成环境 + AI”可检索数据库/平台:把你那套12章调参到不跑偏
- 传统“建成环境 DH”更像:地图/地籍/照片 → 还原物质形态与演化
- 文学空间更像:文本叙事 → 空间指涉与经验 → 再回到真实/想象的建成环境
因此平台的主键不再是“建筑/地块”,而是更适合以三类核心对象组织:
- 作品/版本(Work/Edition):同一作品不同版本、校勘差异会影响地名与描写
- 空间提及(Mention):文本中每一次空间指涉(地名、地标、方位、路径、室内外场景)
- 地点/场景(Place/Scene):把提及归并到“现实地点”“模糊区域”或“纯叙事场景”,并保留不确定性
第1章 文学空间作为“建成环境证据”:我们到底在建什么库
核心定义(建议写进项目书)
- 文学空间不是“地图上的点”,而是叙事中的空间经验:路径、视角、边界、社会分区、场所气味与秩序。
- 你的平台要解决的不是“在哪”,而是三连问:
- 文本中如何说到一个地方(话语与修辞)
- 这个地方对应现实何处/何时(可考证与不确定性)
- 它如何映射建成环境(街巷、建筑类型、基础设施、公共空间)
本章交付物
- 研究对象界定:作品集/作者群/时期/城市(必须明确)
- “证据链”口径:每个空间结论必须能回链到具体段落(章回、页码、行号)
- 平台定位:研究检索为主(可附轻量可视化)
第2章 问题怎么问才“可计算且有人文价值”
文学空间高价值问题模板
- 空间意象与城市分区:不同阶层/职业/性别的空间活动如何呈现
- 路径与移动:人物如何穿行城市(路线、交通方式、门禁与边界)
- 场所类型学:茶馆、码头、租界街、里弄、戏院等如何出现、如何变化
- 现实—想象的张力:同一地名在不同作品中被如何再生产
- 事件驱动的空间重组:战乱、灾害、改造、迁徙在叙事中的空间痕迹
本章交付物
- 1页研究问题书:问题 + 可证伪假设 + 可抽取字段
- 研究边界:不做“全自动解释”,只做“可复核证据组织 + 可查询对比”
第3章 数据盘点:文学文本的版本学、版权与可复现
文学空间项目经常“死”在版本与版权上,必须提前定规矩。
数据类型
- 作品文本:TXT/EPUB/TEI-XML(最好能落到段落级定位)
- 版本信息:出版信息、校勘说明、页码映射
- 辅助材料:作者书信/游记、同时代报刊、地方志(用于考证)
- 地名对照:历史地名词表、门牌/街名更迭表(可自建)
本章交付物
- 版本清单(Edition Registry):每个版本的来源、版权、校对状态
- 引用定位规则:章节/页码/段落ID(推荐 TEI 或至少自定义锚点)
- 数据命名与目录规范 + 变更日志
第4章 工具链总览(文学空间版):从文本到“时空提及库”
文本处理(建议“稳健优先”)
- 分段与定位:TEI-XML(如能)或自定义段落ID体系
- 分词/词性/NER:HanLP / LTP / spaCy(中文以HanLP、LTP更省事)
- OCR(如果是扫描本):PaddleOCR + 人工校对
空间抽取与消歧
- 地名/地标识别:词典+NER混合(先保证召回)
- 消歧与归并:候选排序 + 人工确认(人机协同)
- 时态地名:PlaceName + 时间范围 + 证据
底座与检索
- 数据库:PostgreSQL + PostGIS(即便文学空间,也建议保留几何与范围)
- 全文检索:OpenSearch/Elasticsearch(很适合做“引文检索+高亮”)
- 向量检索(可选):用于“相似描写段落检索”,但必须和证据回链绑定
本章交付物
- 流水线架构图(文本→提及→地点→证据→检索)
- MVP定义:先做“1位作者/1部作品/1座城市/一个时期切片”
第5章 证据链(文学空间版):从“段落”到“空间主张”的可追溯
最小单位改写为
- Mention(提及):文本片段中出现的空间指涉
- Claim(主张):研究者对提及的解释与归并(可多版本)
- Evidence(证据):段落定位 + 原文 + 版本信息
本章交付物
- 证据链规范:Mention → Place/Scene → Claim → Evidence
- 可信度分级:
- 直接指称(明确地名)
- 间接定位(“城南”“渡口旁”)
- 叙事场景(无法对应现实,但可归为场所类型)
第6章 地名与场景:文学空间的“地点”不只有现实地理
你需要把地点分成三类,否则平台会混乱:
- Real Place:可对应现实地点(可点/线/面+时态)
- Fuzzy Place:模糊区域(城南、近郊、某条“长街”)
- Narrative Scene:纯叙事场景/象征空间(可做“场所类型+语义标签”,不强行落点)
本章交付物
- Place/Scene 分类规则
- 不确定性表达:范围、多候选、置信度、理由(写入消歧日志)
第7章 “建成环境”如何进入文学空间平台:用“场所类型学”做桥梁
文学空间要落到建成环境,最稳的桥是:场所类型(Place Type)+ 建成要素(Built Elements)。
建议建立两套词表(可迭代)
- 场所类型:里弄、租界街、码头、茶馆、戏院、车站、弄堂口、洋行、会馆……
- 建成要素:路面、路灯、电车轨道、门牌、招牌、桥、堤岸、牌坊、围墙、院落、楼梯……
本章交付物
- 场所类型词表(Type Gazetteer)+ 同义词/时代用语
- “建成要素”标注规范(可先从20–50个高频要素起步)
第8章 抽取与标注:从“自动候选”到“研究可用数据”
文学空间抽取最有效的方式通常是两段式:
- 机器高召回:尽量把疑似地名/场所/方位/路径都抓出来
- 人工高精度:确认、归并、补充类型标签与不确定性说明
本章交付物
- 标注指南(面向标注员/研究助理)
- 抽检规则(每千条提及抽检多少、如何记录分歧)
- 标注资产化:把“人工确认”沉淀为词表/规则/训练集
第9章 数据库表结构(平台核心):你要能“按段落检索空间”
下面给你一套最小可用的表骨架(你可写进正文作为“示例字段”,也可直接让开发照做):
核心表(建议必须有)
work:作品(作者、成书时间范围)edition:版本(出版信息、版权、文本来源)text_unit:文本单元(章/回/段落,含稳定ID与页码映射)mention:空间提及(指称文本、类型:地名/场所/方位/路径/建筑要素)place_scene:地点/场景实体(Real/Fuzzy/Narrative)place_name:名称谱系(旧称/别称/异体字 + 时间范围)place_geometry:几何与范围(可为空;可多候选;含置信度)claim:研究主张(把mention归并到哪个place_scene、为什么)evidence:证据(text_unit定位 + 原文引用 + 版本信息)tag:主题标签(现代性、阶层、消费、恐惧、秩序、边界等,可选)relation:关系(人物/机构/地点/事件之间)
本章交付物
- ER图(哪怕简图)
- 数据字典(字段解释+取值范围)
- 版本与审校字段(谁创建、谁审核、何时修改)
第10章 检索与分析:平台要让研究者“问得出来、比得了”
必做检索(文学空间版)
- 地名/别名检索(含异体字、同义词)
- 段落检索(关键词 + 空间标签过滤)
- 场所类型检索(“所有茶馆描写”)
- 路径检索(含“从…到…”、“穿过…”,可先规则后模型)
- 时态检索(同一地名在不同时期的描写对比)
- 相似段落检索(可选,向量检索+证据回链)
本章交付物
- 检索DSL/过滤器设计(时间、作品、作者、类型、置信度)
- 分析导出:CSV/JSONL + 引用信息(方便写论文)
第11章 平台产品形态:研究型后台 + 公众型前台(可分期)
你以“可检索数据库/平台”为主,我建议产品分两层:
11.1 研究型(必须优先)
- 强检索、强证据回链、强导出
- 标注/审校工作台(分配任务、冲突处理、复核记录)
11.2 公众型(第二阶段再做)
- 轻量地图/时间轴/故事线(避免一开始被可视化拖垮)
- 每个结论可点回原文段落(公众传播也需要可追溯)
本章交付物
- MVP原型(检索→段落→提及→地点/场景→证据)
- 权限与公开策略(版权限制下如何展示)
第12章 验收与复盘(文学空间平台口径):别用“准确率”糊弄评审
建议验收指标(更贴合文学空间)
A 证据链与版本学
- 提及记录的证据回链率 [≥95%]
- 关键作品的段落定位稳定性(同版本可复现)
- 版本差异记录覆盖率(同段不同版本差异可追溯)
B 空间知识质量
- 地名归并一致性(抽检:同一旧称是否归到同一Place/Scene)
- 不确定性标注覆盖率(模糊空间必须标注范围/理由)
- 场所类型标注一致性(标注员间一致率抽检)
C 平台可用性
- “从问题到证据”的点击路径(建议 [≤3] 跳到原文)
- 导出可用(带引用信息,能直接进入论文写作流程)
本章交付物
- 验收报告模板(含抽检表)
- 月度版本发布与数据修订机制
- 训练集/词表迭代机制(把标注沉淀成资产)
交付清单(文学空间平台版,按阶段)
阶段0(1–2周):立项与MVP
- 作品/版本范围确定(含版权)
- 空间标签体系草案(场所类型、建成要素)
- MVP:1部作品 + 1000段文本 + 200个空间提及
阶段1(2–6周):数据库底座+证据链
- Postgres/PostGIS建库 + 数据字典
- text_unit段落定位体系(稳定ID)
- evidence/mention/claim最小闭环跑通
阶段2(4–10周):抽取+人工审校流水线
- 地名/场所候选抽取
- 标注工作台(任务分发、复核、冲突)
- 时态地名与Place/Scene归并(含消歧日志)
阶段3(4–8周):检索产品化
- 混合检索(作品/地名/场所类型/段落)
- 证据查看器(原文高亮、页码/段落定位)
- 导出(带引用与版本信息)
阶段4(可选,3–8周):轻量可视化
- 时间轴、对比阅读、(谨慎)地图视图
- 公众版页面(受版权控制)
更多推荐



所有评论(0)