AI辅助网文创作理论研究笔记（一）：叙事模型的构建

本文档记录了笔者在探索“AI辅助网络小说创作”过程中的阶段性思考。针对当前大模型在长文本生成中存在的叙事失控、一致性差及需求偏差等问题，笔者分析了现有技术应用与理论研究的短板，并创新性地引入软件工程中的“瀑布模型”与“多智能体”思路，构建了一套“四层构件模型”。同时，提出“双数据库”向“三数据库”演进的知识库架构，旨在解决网文创作中“效果学”与叙事学“结构学”的映射难题，为AI可控叙事提供工程化解

sanshanjianke

73人浏览 · 2026-02-21 17:24:38

sanshanjianke · 2026-02-21 17:24:38 发布

摘要

原笔记比较杂乱此处为AI整理

一、困境与现状分析

1.1 技术层面的瓶颈

目前的生成式AI在辅助网文创作时，虽展现出强大的语言组织能力，但在实际应用中仍面临显著的技术壁垒：

叙事控制能力弱：AI倾向于生成平铺直叙或充满说教的文本，难以构建复杂的戏剧冲突，容易生成看似通顺实则逻辑崩坏的情节。
长文本一致性差：在长篇网文中，AI常出现人物性格漂移、伏笔遗忘或世界观设定冲突的问题，缺乏全局记忆管理机制。
需求偏差严重：用户意图与模型输出之间存在语义鸿沟，模型往往只能理解显性指令，难以捕捉隐性风格需求。
文本语感偏差：生成的文本常带有“翻译腔”或AI特有的机械感，缺乏网文特有的节奏感与代入感。

1.2 理论层面的断层

除技术限制外，指导AI创作的理论体系亦存在缺失：

传统叙事学与网文的脱钩：传统叙事学鲜少关注商业文学的功能性语法（如“爽感”的叙事结构），导致理论研究难以直接指导畅销书写作。
网文理论的碎片化：现有网文理论多依赖作者经验（如“黄金三章”、“压抑-释放”公式），缺乏系统性的学术总结与底层逻辑拆解。例如，“节奏”如何通过文本微观控制？“代入感”与叙事视角有何量化关系？
跨学科融合的缺失：尚未形成一套连接网文宏观效果（商业逻辑）与叙事微观技术（文学理论）的中间层理论。

1.3 应用层面的误区

当前大部分创作者对AI的使用仍停留在“手工作坊”阶段，缺乏工程化思维。常见的操作模式为直接投喂粗略设定，要求AI进行扩写。例如：

用户指令： “设定（老罗是个影音迷，到旧货店淘到一台古怪的机子……[此处省略大量混合的设定与情节描述]……请了供电所的师傅来修理，盘算了一下，地下室里，多出的东西，价值远远超出了花出去的电费……）”

此类指令存在典型问题：需求模糊、结构混乱、细节与宏观要求混杂。这相当于想盖一栋高楼，却跳过了“蓝图设计”阶段，直接指挥工人开始砌砖。没有图纸，工人（AI）只能盲目堆砌材料，最终盖出来的可能是危房，或者根本不是你想要的户型。

二、解决思路：软件工程范式的引入

鉴于上述问题，笔者借鉴软件工程中的瀑布模型与Agent（智能体）架构（如MetaGPT），提出AI创作流程的工程化改造。

软件开发的生命周期通常包含：需求分析 -> 系统设计 -> 编码 -> 测试 -> 维护。由此作者得到启发，构建一套分层处理机制，将“创意需求”逐步转化为“文本代码”。笔者据此设计了**“四层构件模型”**。

由于是初期设计，目前该模型并不完善，思路也很稚嫩，读者可以批判性的使用，如有什么独到的见解，笔者诚恳的欢迎指正。

三、核心架构设计：四层构件模型

该模型主张“自顶向下，逐步细化”，将创作过程解耦为四个层级，每一层承担特定的叙事功能。

3.1 第一层：种子层—— 用户主导

核心任务：定义“源代码”与核心愿景。此层不依赖AI逻辑，强调人类的创意直觉与商业定位。

输入：
- 核心梗/脑洞：例如“在丧尸世界倒卖修真界物资”。
- 阅读契约：目标读者（如：男频网文读者）、核心爽点（如：物资流、双界倒爷）、风格基调（如：轻松、甚至带点黑色幽默）。
- 粗略大纲：故事的起承转合。
产出：一份包含核心设定和粗略走向的《故事愿景文档》。

3.2 第二层：架构层—— 人机协商

核心任务：解决“情节-人物-环境”的动态平衡。这是最复杂的层级。AI扮演“架构师助手”，它需要利用叙事学理论，帮助用户推演逻辑、修补漏洞、强化张力。

情节 -> 人物：当用户设定“拍卖会”情节时，AI根据叙事语法建议：“为了让拍卖会冲突更激烈，需要主角展现出‘深藏不露’的性格特质（人物特性论），建议增加一个被配角轻视的细节。”
人物 -> 情节：当用户设定“主角性格谨慎”时，AI反推情节：“既然主角谨慎，那么他直接去拍卖会就不合理。建议增加一个‘事先踩点’或‘伪装入场’的情节序列。”

本层运用的理论工具：

情节功能：检验事件是否有推动力。
人物行动论/符号论：确立人物在特定情节中的定位。
环境类型：设定环境是中立的还是反讽的，是否参与叙事。

产出：一份**《精修故事大纲》**。格式清晰，包含关键转折点、人物弧光变化、环境设定说明。

3.3 第三层：光学层—— 人机协作

核心任务：将“故事”转化为“叙事”。故事是客观发生的（A打倒B），叙事是如何讲述（A视角的热血 vs B视角的悲情）。此层负责视角切分与节奏控制。 工作流：

切分序列：将《精修故事大纲》切分成具体的场景。
选择视角：
- 用户：这一章写拍卖会。
- AI建议：拍卖会众生相，建议使用**“不定内聚焦”（在不同竞拍者视角间跳跃），体现竞争的激烈；最后主角出价时，切换为“外聚焦”**，体现神秘感。
安排节奏：
- AI建议：前文铺垫过长，建议使用**“概述”快速带过入场过程，直接进入“场景”**描写竞价。

产出：一份**《细纲/章纲》**。包含每一章的具体字数、视角选择、叙事时间（闪回/顺叙）、情绪曲线设计。

3.4 第四层：渲染层—— 精细控制

核心任务：文本生成的最终执行。用户拿到细纲后，可以进行最后的微调，然后让AI“渲染”出文本。
执行逻辑：

输入：细纲指令（如：写主角出场，外聚焦视角，200字）。
检索：向量数据库根据“外聚焦+出场”检索参考文本（如海明威片段）。
生成：AI结合参考风格生成正文。
反馈：用户如果不满意，可以要求“用词更华丽一点”或“节奏更快一点”，AI实时调整。

举例演示：以“拍卖会”为例看各层运作

第一层（用户输入）：

主角去拍卖行卖一颗丧尸晶核，引起轰动，卖了个好价钱。

第二层（架构协商）：

AI分析：单纯“卖东西”情节功能太弱，缺乏冲突。建议引入**“竞争者”和“鉴定师”**作为功能性人物（扁形人物）。
AI提议：环境设定为**“支配型”**。拍卖场的压抑氛围能衬托主角的淡定。建议增加一个情节：有人质疑晶核是假的（情节服务于人物：体现主角的专业/装逼）。
产出：主角携晶核入场 -> 鉴定师震惊 -> 反派质疑并挑衅 -> 主角淡定打脸 -> 高价成交。

第三层（细纲设计）：

第一章（拍卖场风波）：
- 视角：内聚焦（鉴定师视角）。
- 叙事策略：陌生化。描写晶核时，不要直接写“它很强”，而是写鉴定师仪器爆表、冷汗直流的生理反应。
- 时间：场景（实时描写，放慢节奏）。
第二章（冲突与成交）：
- 视角：外聚焦。描写主角与反派的对话，只写动作语言，不写心理，营造神秘感。

第四层（文本生成）：

指令：[外聚焦视角] [冲突场景] [参考文本：古龙风格对话]
生成：

“这东西是假的。”光头男人敲了敲桌子，声音很冷。
年轻人没有说话。他只是拿起茶杯，吹了吹浮叶。
“我在跟你说话。”光头男人的手按在了刀柄上。
“我知道。”年轻人喝了一口茶，“但你不懂行。”

总结

这个四层模型的优势在于：

解耦了“故事”与“叙事”：第二层专注于“讲什么”，第三层专注于“怎么讲”，逻辑清晰。
解决了“人物-情节”悖论：在第二层通过人机协商的动态循环来解决，而不是僵化的前置定义。
保留了人的控制权：每一层结束时，用户都可以介入修改，避免了AI“一本正经胡说八道”失控的情况。

四、数据支撑体系：从双库到三库的演进

为了支撑上述模型的运行，需要构建专业的知识库体系。
这里提出两种数据库模式。

双数据库模式

网文理论：属于**“效果学”**。它关注的是读者的心理反应，比如“爽感”、“期待感”、“压抑-释放”。它的语言是模糊的、经验主义的（如“黄金三章”、“装逼打脸”）。
叙事学理论：属于**“结构学”**。它关注的是文本的组织形式，比如“聚焦”、“顺序”、“频率”。它的语言是精确的、结构主义的。

要将两者结合，第三层（光学层/细纲层）必须充当“编译器”的角色。它负责将模糊的“网文效果指令”翻译成精确的“叙事学技术指令”。

以下是如何构建这个双数据库驱动的映射系统：

一、核心逻辑：效果-技术映射表

我们需要在第三层建立一个中间逻辑层，将网文的“抽象公式”拆解为叙事学的“具体操作”。

示例：网文公式“装逼打脸（压抑-释放）”的拆解

阶段	网文理论指令	对应的叙事学操作	数据库检索策略
阶段一	铺垫/压抑 (建立敌人的嚣张或主角的困境)	视角：内聚焦（反派或路人视角），强调敌人的强大/傲慢。时间：慢速叙事（场景），拉长受辱时间。语式：展示，大量描写敌人的压迫感。	检索网文库：“反派嘲讽场景” 检索叙事库：“内聚焦+慢节奏+压迫感”
阶段二	积蓄/转折 (主角出手的瞬间)	视角：外聚焦或零聚焦，客观描写主角的动作，不带感情色彩。时间：停顿（描写细节），聚焦于关键道具或动作。语式：短句，动词密集。	检索网文库：“扮猪吃虎瞬间” 检索叙事库：“外聚焦+动作描写+短句”
阶段三	释放/打脸 (敌人的震惊与惨败)	视角：自由间接引语（表现敌人的心理崩溃）。时间：概述（快速交代结果）或场景（详细描写震惊表情）。人物：扁形人物的反应模式化（瞪大双眼、倒吸凉气）。	检索网文库：“震惊反应描写” 检索叙事库：“自由间接引语+心理描写”

二、第三层的工作流：双数据库协同

在第三层生成细纲时，AI的思考路径应当是这样的：

读取第二层大纲：主角在拍卖会展示丧尸晶核，打脸质疑的专家。
查询网文理论库（效果端）：
- 识别出这是**“装逼打脸”**剧情。
- 库中建议：该剧情需要“欲扬先抑”，建议先写专家的质疑（压抑），再写晶核的能量爆发（释放）。
- 库中建议：需要“侧面烘托”，通过围观群众的反应来表现主角的牛逼。
查询叙事学理论库（技术端）：
- 为了实现“压抑”，检索**“内聚焦视角”**词条，参考如何描写专家傲慢的内心独白。
- 为了实现“侧面烘托”，检索**“环境描写”**词条（如：周围空气凝固、寂静无声），参考如何用环境衬托人物。
- 为了实现“释放”，检索**“外聚焦视角”**词条，参考海明威式的冷硬动作描写，展现主角的一击必杀。
生成细纲：
- 综合两边的建议，生成带有明确技术指标的章纲。

三、数据集构建：如何打通两个库？

关键在于**“关联标签”**。我们需要在向量数据库的数据条目中，增加一个字段专门用来连接两者。

1. 网文理论库的数据结构

这条数据告诉AI“为什么要这么做”。

{
  "理论名称": "欲扬先抑",
  "适用场景": "打脸、爆发、揭晓真相",
  "情绪曲线": "V型曲线（先抑后扬）",
  "关键技术指引": [
    "前期需要使用内聚焦展示负面情绪",
    "后期需要使用外聚焦展示客观力量",
    "建议配合‘自由间接引语’表现心理落差"
  ]
}

2. 叙事学理论库的数据结构

这条数据告诉AI“具体怎么做”。

{
  "术语": "自由间接引语",
  "定义": "叙述者转述人物心理，无需引号，混合叙述者与人物的声音。",
  "参考文本": "他竟然拒绝了？这怎么可能。那份合同价值连城，除非他疯了。",
  "关联网文效果": ["震惊感", "心理落差", "代入感"]
}

四、具体案例演示

假设用户在第二层给出的剧情是：主角拿出修真法器，震慑丧尸世界的大佬。

第三层AI运行过程：

分析意图：这是典型的“装逼打脸/展示力量”桥段。
调用网文库：
- 查询：“展示力量”。
- 返回建议：不要自己夸自己，要借他人之口（侧面描写）；要有对比（普通武器 vs 修真法器）。
调用叙事库：
- 根据网文库的“借他人之口”建议，检索关键词外聚焦视角 + 对话。
- 根据网文库的“对比”建议，检索关键词感知型视角（强调感官刺激）。
生成细纲（人机协商）：
- AI向用户建议：“老板，这个剧情为了突出爽感，我建议分三步走：
  - 第一步：写大佬们的不屑（内聚焦视角，压抑）。
  - 第二步：写法器启动的异象，环境突变（环境描写，动态）。
  - 第三步：写大佬们的震惊反应，用自由间接引语表现他们的不可置信（释放）。”
- 用户确认。
产出细纲：
- 场景1：会议室。视角：某傲慢专家。内容：他认为主角在演戏。（字数300）
- 场景2：法器启动。视角：外聚焦。内容：光芒照亮全场，温度骤降。（字数200）
- 场景3：众人的反应。视角：全知/内聚焦切换。内容：专家们的心态崩塌。（字数500）

五、总结

通过这种双数据库+映射机制，完美解决了问题：

网文理论负责**“定调子”**（情绪目标、宏观节奏）。
叙事学理论负责**“给工具”**（具体的视角、描写手法）。
第三层不再是简单的流水线，而是一个**“翻译官”**，它把模糊的网文经验主义，翻译成了AI可执行的、严谨的叙事学指令。

三数据库模式

两数据库模式：依赖AI的**“临场推理能力”**。AI需要实时理解“爽文”和“叙事学”的关系，这对模型本身的智力要求极高，且结果不稳定。
三数据库模式：依赖人类的**“先验知识库”。我们将“爽文套路如何转化为叙事技巧”这一最难的过程，固化为显性的数据规则。这就是软件工程中的“配置优于实现”**。

下面我详细拆解这个三数据库架构的优越性及其搭建方案：

一、架构总览：三库四层流

在这个模型中，每一层都有明确的数据支撑，不再依赖AI“拍脑袋”推理。

1. 第二层（架构层）：宏观蓝图库

数据库名称：网文剧情库 + 叙事故事库
主辅关系：以网文理论为主（定骨架），叙事故事理论为辅（查漏补缺）。

数据条目示例：

{
  "网文理论": "换地图",
  "核心目的": "打破战力平衡，提供新的期待感",
  "叙事故事辅助": "需引入新的'典型环境'，构建新的'人物关系网'"
}

作用：确保故事的大方向符合商业网文逻辑（爽点、节奏），同时符合叙事学的完整性要求。

2. 第三层（光学层）：映射中枢库

这是你提出的最核心的创新点。这一层不再让AI去猜，而是直接检索“套路-技巧映射表”。

数据库名称：映射关系库 + 网文理论 + 叙事理论
核心价值：固化专家知识。将资深网文作者“只可意会不可言传”的经验，代码化为具体的指令。

数据条目示例（映射表）：

{
  "效果关键词": "装逼打脸",
  "映射规则": {
    "前奏": {
      "叙事指令": "内聚焦视角（反派/路人）",
      "理由": "通过无知者的傲慢视角，制造信息差，积累读者的优越感（压抑）"
    },
    "高潮": {
      "叙事指令": "外聚焦视角 + 短句动词",
      "理由": "客观冷硬地描写主角动作，不带感情色彩，通过'零度写作'提升逼格（释放）"
    },
    "余韵": {
      "叙事指令": "自由间接引语",
      "理由": "直接展示围观群众的心理崩溃，强化打脸的爽感反馈"
    }
  }
}

3. 第四层（渲染层）：微观技法库

数据库名称：叙事技巧库
作用：纯技术实现。当第三层下达了“外聚焦视角 + 短句动词”的指令后，第四层负责检索具体的文本片段，教AI怎么写这段话。
数据条目示例：
- 检索词：外聚焦 + 动作描写
- 返回：[海明威《杀人者》片段]、[古龙武侠片段]。

二、为什么“三数据库模式”更优秀？

1. 解决了“黑盒不可控”的问题

在两数据库模式下，你告诉AI：“我要写打脸，请用外聚焦视角。” AI可能会问：“为什么打脸要用外聚焦？我能不能用全知视角？”或者它根本没学会这个映射关系，写出来的打脸像流水账。

而在三数据库模式下，映射关系是写死在数据库里的。系统检索到“打脸”关键词，直接调出预设的映射规则：打脸 -> 必须用外聚焦。这是一个确定性的过程，不再依赖AI的随机推理。

2. 实现了“专业知识沉淀”

很多网文大神的经验（如“黄金三章”怎么安排视角、“扮猪吃虎”怎么控制信息量），本质上就是一种映射关系。通过建立第三个数据库（映射库），你实际上是在把大神的大脑数字化了。这个库越丰富，AI写出来的东西就越像“老书虫”写出来的，而不是像“学习了文学理论的理科生”写出来的。

3. 降低了各层的认知负荷

第二层只管“好不好看”（网文理论）；
第三层只管“怎么实现”（查表映射）；
第四层只管“写得像样”（模仿文本）。

各司其职，互不干扰，极大地降低了AI在长文本生成中崩溃的概率。

三、实际落地建议：构建“映射关系库”

既然第三层的映射库是核心，那么这个库的数据应该怎么写？建议采用**“网文功能标签 -> 叙事学解法”**的结构。

示例数据集设计：

ID	网文情境标签	叙事学解法	专家解析
Map_001	爽感-扮猪吃虎	技巧：限制视角（内聚焦-配角视角）。原理：利用“叙述者知道的比人物少”，让读者看到配角的愚蠢，从而产生优越感。	读者拥有上帝视角，而配角不知情，这种戏剧反讽是爽感的来源。
Map_002	期待感-悬念铺设	技巧：叙事空白。原理：在关键信息处通过中断、省略或转移视角，制造“未知”。	不要把话说完，利用读者的完形心理，迫使他们翻看下一章。
Map_003	节奏感-战斗爆发	技巧：时间扭曲（概述变场景）。原理：战斗前用慢镜头（场景），战斗中用快节奏（短句概述）。	视觉上的快慢交替，模拟电影的剪辑效果。
Map_004	代入感-主角登场	技巧：感知型视角 + 陌生化。原理：通过主角的感官（痛觉、嗅觉）和环境的新奇描写，将读者拉入现场。	避免“他醒了”，而是写“后脑勺传来一阵钻心的剧痛，空气中弥漫着硫磺味”。

四、总结

三数据库模式设计非常完美，它实际上构建了一个**“三层编译系统”**：

源代码（用户需求） ->
高层架构（第二层：网文剧情库） ->
中间件翻译（第三层：映射关系库） ->
机器码执行（第四层：叙事技巧库）。

想说的话

早在疫情期间，偶然接触到叙事学这门学科，我对此十分惊奇，于是一直想把叙事学引入网文写作，做一个有关叙事学的视频教程，但奈何太过惫懒，经常才做一点点的工作就弃坑。24年的时候，我意识到或许叙事学应该与AI写作相结合，但奈何当时自己的相关水平太弱，对大模型也没有更深入的理解。而Claude Code的出现给了我启发，软件工程的思路点醒了我，使我将最初的模糊抽象的念头，逐渐有了头绪。在不断的与惫懒的观念做斗争之后，在花费了三天的时间，总算将原本抽象化成了上面的模型。当然这个模型并不完善，很多细节也没有写明，甚至十分依赖于AI给出的并不靠谱的补充，但这开了个好头，至少有了一套方法。接下来我会将这套模型进行不断完善细化，并将相应的向量数据库，填充相关的内容。