面向文学空间的“建成环境 + AI”可检索数据库/平台:把你那套12章调参到不跑偏

  • 传统“建成环境 DH”更像:地图/地籍/照片 → 还原物质形态与演化
  • 文学空间更像:文本叙事 → 空间指涉与经验 → 再回到真实/想象的建成环境

因此平台的主键不再是“建筑/地块”,而是更适合以三类核心对象组织:

  1. 作品/版本(Work/Edition):同一作品不同版本、校勘差异会影响地名与描写
  2. 空间提及(Mention):文本中每一次空间指涉(地名、地标、方位、路径、室内外场景)
  3. 地点/场景(Place/Scene):把提及归并到“现实地点”“模糊区域”或“纯叙事场景”,并保留不确定性

第1章 文学空间作为“建成环境证据”:我们到底在建什么库

核心定义(建议写进项目书)

  • 文学空间不是“地图上的点”,而是叙事中的空间经验:路径、视角、边界、社会分区、场所气味与秩序。
  • 你的平台要解决的不是“在哪”,而是三连问:
    1. 文本中如何说到一个地方(话语与修辞)
    2. 这个地方对应现实何处/何时(可考证与不确定性)
    3. 它如何映射建成环境(街巷、建筑类型、基础设施、公共空间)

本章交付物

  • 研究对象界定:作品集/作者群/时期/城市(必须明确)
  • “证据链”口径:每个空间结论必须能回链到具体段落(章回、页码、行号)
  • 平台定位:研究检索为主(可附轻量可视化)

第2章 问题怎么问才“可计算且有人文价值”

文学空间高价值问题模板

  • 空间意象与城市分区:不同阶层/职业/性别的空间活动如何呈现
  • 路径与移动:人物如何穿行城市(路线、交通方式、门禁与边界)
  • 场所类型学:茶馆、码头、租界街、里弄、戏院等如何出现、如何变化
  • 现实—想象的张力:同一地名在不同作品中被如何再生产
  • 事件驱动的空间重组:战乱、灾害、改造、迁徙在叙事中的空间痕迹

本章交付物

  • 1页研究问题书:问题 + 可证伪假设 + 可抽取字段
  • 研究边界:不做“全自动解释”,只做“可复核证据组织 + 可查询对比”

第3章 数据盘点:文学文本的版本学、版权与可复现

文学空间项目经常“死”在版本与版权上,必须提前定规矩。

数据类型

  • 作品文本:TXT/EPUB/TEI-XML(最好能落到段落级定位)
  • 版本信息:出版信息、校勘说明、页码映射
  • 辅助材料:作者书信/游记、同时代报刊、地方志(用于考证)
  • 地名对照:历史地名词表、门牌/街名更迭表(可自建)

本章交付物

  • 版本清单(Edition Registry):每个版本的来源、版权、校对状态
  • 引用定位规则:章节/页码/段落ID(推荐 TEI 或至少自定义锚点)
  • 数据命名与目录规范 + 变更日志

第4章 工具链总览(文学空间版):从文本到“时空提及库”

文本处理(建议“稳健优先”)

  • 分段与定位:TEI-XML(如能)或自定义段落ID体系
  • 分词/词性/NER:HanLP / LTP / spaCy(中文以HanLP、LTP更省事)
  • OCR(如果是扫描本):PaddleOCR + 人工校对

空间抽取与消歧

  • 地名/地标识别:词典+NER混合(先保证召回)
  • 消歧与归并:候选排序 + 人工确认(人机协同)
  • 时态地名:PlaceName + 时间范围 + 证据

底座与检索

  • 数据库:PostgreSQL + PostGIS(即便文学空间,也建议保留几何与范围)
  • 全文检索:OpenSearch/Elasticsearch(很适合做“引文检索+高亮”)
  • 向量检索(可选):用于“相似描写段落检索”,但必须和证据回链绑定

本章交付物

  • 流水线架构图(文本→提及→地点→证据→检索)
  • MVP定义:先做“1位作者/1部作品/1座城市/一个时期切片”

第5章 证据链(文学空间版):从“段落”到“空间主张”的可追溯

最小单位改写为

  • Mention(提及):文本片段中出现的空间指涉
  • Claim(主张):研究者对提及的解释与归并(可多版本)
  • Evidence(证据):段落定位 + 原文 + 版本信息

本章交付物

  • 证据链规范:Mention → Place/Scene → Claim → Evidence
  • 可信度分级:
    • 直接指称(明确地名)
    • 间接定位(“城南”“渡口旁”)
    • 叙事场景(无法对应现实,但可归为场所类型)

第6章 地名与场景:文学空间的“地点”不只有现实地理

你需要把地点分成三类,否则平台会混乱:

  1. Real Place:可对应现实地点(可点/线/面+时态)
  2. Fuzzy Place:模糊区域(城南、近郊、某条“长街”)
  3. Narrative Scene:纯叙事场景/象征空间(可做“场所类型+语义标签”,不强行落点)

本章交付物

  • Place/Scene 分类规则
  • 不确定性表达:范围、多候选、置信度、理由(写入消歧日志)

第7章 “建成环境”如何进入文学空间平台:用“场所类型学”做桥梁

文学空间要落到建成环境,最稳的桥是:场所类型(Place Type)+ 建成要素(Built Elements)

建议建立两套词表(可迭代)

  • 场所类型:里弄、租界街、码头、茶馆、戏院、车站、弄堂口、洋行、会馆……
  • 建成要素:路面、路灯、电车轨道、门牌、招牌、桥、堤岸、牌坊、围墙、院落、楼梯……

本章交付物

  • 场所类型词表(Type Gazetteer)+ 同义词/时代用语
  • “建成要素”标注规范(可先从20–50个高频要素起步)

第8章 抽取与标注:从“自动候选”到“研究可用数据”

文学空间抽取最有效的方式通常是两段式

  1. 机器高召回:尽量把疑似地名/场所/方位/路径都抓出来
  2. 人工高精度:确认、归并、补充类型标签与不确定性说明

本章交付物

  • 标注指南(面向标注员/研究助理)
  • 抽检规则(每千条提及抽检多少、如何记录分歧)
  • 标注资产化:把“人工确认”沉淀为词表/规则/训练集

第9章 数据库表结构(平台核心):你要能“按段落检索空间”

下面给你一套最小可用的表骨架(你可写进正文作为“示例字段”,也可直接让开发照做):

核心表(建议必须有)

  • work:作品(作者、成书时间范围)
  • edition:版本(出版信息、版权、文本来源)
  • text_unit:文本单元(章/回/段落,含稳定ID与页码映射)
  • mention:空间提及(指称文本、类型:地名/场所/方位/路径/建筑要素)
  • place_scene:地点/场景实体(Real/Fuzzy/Narrative)
  • place_name:名称谱系(旧称/别称/异体字 + 时间范围)
  • place_geometry:几何与范围(可为空;可多候选;含置信度)
  • claim:研究主张(把mention归并到哪个place_scene、为什么)
  • evidence:证据(text_unit定位 + 原文引用 + 版本信息)
  • tag:主题标签(现代性、阶层、消费、恐惧、秩序、边界等,可选)
  • relation:关系(人物/机构/地点/事件之间)

本章交付物

  • ER图(哪怕简图)
  • 数据字典(字段解释+取值范围)
  • 版本与审校字段(谁创建、谁审核、何时修改)

第10章 检索与分析:平台要让研究者“问得出来、比得了”

必做检索(文学空间版)

  • 地名/别名检索(含异体字、同义词)
  • 段落检索(关键词 + 空间标签过滤)
  • 场所类型检索(“所有茶馆描写”)
  • 路径检索(含“从…到…”、“穿过…”,可先规则后模型)
  • 时态检索(同一地名在不同时期的描写对比)
  • 相似段落检索(可选,向量检索+证据回链)

本章交付物

  • 检索DSL/过滤器设计(时间、作品、作者、类型、置信度)
  • 分析导出:CSV/JSONL + 引用信息(方便写论文)

第11章 平台产品形态:研究型后台 + 公众型前台(可分期)

你以“可检索数据库/平台”为主,我建议产品分两层:

11.1 研究型(必须优先)

  • 强检索、强证据回链、强导出
  • 标注/审校工作台(分配任务、冲突处理、复核记录)

11.2 公众型(第二阶段再做)

  • 轻量地图/时间轴/故事线(避免一开始被可视化拖垮)
  • 每个结论可点回原文段落(公众传播也需要可追溯)

本章交付物

  • MVP原型(检索→段落→提及→地点/场景→证据)
  • 权限与公开策略(版权限制下如何展示)

第12章 验收与复盘(文学空间平台口径):别用“准确率”糊弄评审

建议验收指标(更贴合文学空间)

A 证据链与版本学

  • 提及记录的证据回链率 [≥95%]
  • 关键作品的段落定位稳定性(同版本可复现)
  • 版本差异记录覆盖率(同段不同版本差异可追溯)

B 空间知识质量

  • 地名归并一致性(抽检:同一旧称是否归到同一Place/Scene)
  • 不确定性标注覆盖率(模糊空间必须标注范围/理由)
  • 场所类型标注一致性(标注员间一致率抽检)

C 平台可用性

  • “从问题到证据”的点击路径(建议 [≤3] 跳到原文)
  • 导出可用(带引用信息,能直接进入论文写作流程)

本章交付物

  • 验收报告模板(含抽检表)
  • 月度版本发布与数据修订机制
  • 训练集/词表迭代机制(把标注沉淀成资产)

交付清单(文学空间平台版,按阶段)

阶段0(1–2周):立项与MVP

  • 作品/版本范围确定(含版权)
  • 空间标签体系草案(场所类型、建成要素)
  • MVP:1部作品 + 1000段文本 + 200个空间提及

阶段1(2–6周):数据库底座+证据链

  • Postgres/PostGIS建库 + 数据字典
  • text_unit段落定位体系(稳定ID)
  • evidence/mention/claim最小闭环跑通

阶段2(4–10周):抽取+人工审校流水线

  • 地名/场所候选抽取
  • 标注工作台(任务分发、复核、冲突)
  • 时态地名与Place/Scene归并(含消歧日志)

阶段3(4–8周):检索产品化

  • 混合检索(作品/地名/场所类型/段落)
  • 证据查看器(原文高亮、页码/段落定位)
  • 导出(带引用与版本信息)

阶段4(可选,3–8周):轻量可视化

  • 时间轴、对比阅读、(谨慎)地图视图
  • 公众版页面(受版权控制)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐