摘要

本文档记录了笔者在探索“AI辅助网络小说创作”过程中的阶段性思考。针对当前大模型在长文本生成中存在的叙事失控、一致性差及需求偏差等问题,笔者分析了现有技术应用与理论研究的短板,并创新性地引入软件工程中的“瀑布模型”与“多智能体”思路,构建了一套“四层构件模型”。同时,提出“双数据库”向“三数据库”演进的知识库架构,旨在解决网文创作中“效果学”与叙事学“结构学”的映射难题,为AI可控叙事提供工程化解决方案。

原笔记比较杂乱此处为AI整理


一、 困境与现状分析

1.1 技术层面的瓶颈

目前的生成式AI在辅助网文创作时,虽展现出强大的语言组织能力,但在实际应用中仍面临显著的技术壁垒:

  1. 叙事控制能力弱:AI倾向于生成平铺直叙或充满说教的文本,难以构建复杂的戏剧冲突,容易生成看似通顺实则逻辑崩坏的情节。
  2. 长文本一致性差:在长篇网文中,AI常出现人物性格漂移、伏笔遗忘或世界观设定冲突的问题,缺乏全局记忆管理机制。
  3. 需求偏差严重:用户意图与模型输出之间存在语义鸿沟,模型往往只能理解显性指令,难以捕捉隐性风格需求。
  4. 文本语感偏差:生成的文本常带有“翻译腔”或AI特有的机械感,缺乏网文特有的节奏感与代入感。

1.2 理论层面的断层

除技术限制外,指导AI创作的理论体系亦存在缺失:

  • 传统叙事学与网文的脱钩:传统叙事学鲜少关注商业文学的功能性语法(如“爽感”的叙事结构),导致理论研究难以直接指导畅销书写作。
  • 网文理论的碎片化:现有网文理论多依赖作者经验(如“黄金三章”、“压抑-释放”公式),缺乏系统性的学术总结与底层逻辑拆解。例如,“节奏”如何通过文本微观控制?“代入感”与叙事视角有何量化关系?
  • 跨学科融合的缺失:尚未形成一套连接网文宏观效果(商业逻辑)与叙事微观技术(文学理论)的中间层理论。

1.3 应用层面的误区

当前大部分创作者对AI的使用仍停留在“手工作坊”阶段,缺乏工程化思维。 常见的操作模式为直接投喂粗略设定,要求AI进行扩写。例如:

用户指令: “设定(老罗是个影音迷,到旧货店淘到一台古怪的机子……[此处省略大量混合的设定与情节描述]……请了供电所的师傅来修理,盘算了一下,地下室里,多出的东西,价值远远超出了花出去的电费……)”

此类指令存在典型问题:需求模糊、结构混乱、细节与宏观要求混杂。 这相当于想盖一栋高楼,却跳过了“蓝图设计”阶段,直接指挥工人开始砌砖。没有图纸,工人(AI)只能盲目堆砌材料,最终盖出来的可能是危房,或者根本不是你想要的户型。


二、 解决思路:软件工程范式的引入

鉴于上述问题,笔者借鉴软件工程中的瀑布模型Agent(智能体)架构(如MetaGPT),提出AI创作流程的工程化改造。

软件开发的生命周期通常包含:需求分析 -> 系统设计 -> 编码 -> 测试 -> 维护。 由此作者得到启发,构建一套分层处理机制,将“创意需求”逐步转化为“文本代码”。笔者据此设计了**“四层构件模型”**。

由于是初期设计,目前该模型并不完善,思路也很稚嫩,读者可以批判性的使用,如有什么独到的见解,笔者诚恳的欢迎指正。


三、 核心架构设计:四层构件模型

该模型主张“自顶向下,逐步细化”,将创作过程解耦为四个层级,每一层承担特定的叙事功能。

3.1 第一层:种子层—— 用户主导

核心任务:定义“源代码”与核心愿景。 此层不依赖AI逻辑,强调人类的创意直觉与商业定位。

  • 输入
    • 核心梗/脑洞:例如“在丧尸世界倒卖修真界物资”。
    • 阅读契约:目标读者(如:男频网文读者)、核心爽点(如:物资流、双界倒爷)、风格基调(如:轻松、甚至带点黑色幽默)。
    • 粗略大纲:故事的起承转合。
  • 产出:一份包含核心设定和粗略走向的《故事愿景文档》。

3.2 第二层:架构层—— 人机协商

核心任务:解决“情节-人物-环境”的动态平衡。 这是最复杂的层级。AI扮演“架构师助手”,它需要利用叙事学理论,帮助用户推演逻辑、修补漏洞、强化张力。

  1. 情节 -> 人物:当用户设定“拍卖会”情节时,AI根据叙事语法建议:“为了让拍卖会冲突更激烈,需要主角展现出‘深藏不露’的性格特质(人物特性论),建议增加一个被配角轻视的细节。”
  2. 人物 -> 情节:当用户设定“主角性格谨慎”时,AI反推情节:“既然主角谨慎,那么他直接去拍卖会就不合理。建议增加一个‘事先踩点’或‘伪装入场’的情节序列。”

本层运用的理论工具:

  • 情节功能:检验事件是否有推动力。
  • 人物行动论/符号论:确立人物在特定情节中的定位。
  • 环境类型:设定环境是中立的还是反讽的,是否参与叙事。

产出:一份**《精修故事大纲》**。格式清晰,包含关键转折点、人物弧光变化、环境设定说明。

3.3 第三层:光学层—— 人机协作

核心任务:将“故事”转化为“叙事”。 故事是客观发生的(A打倒B),叙事是如何讲述(A视角的热血 vs B视角的悲情)。此层负责视角切分与节奏控制。 工作流:

  1. 切分序列:将《精修故事大纲》切分成具体的场景。
  2. 选择视角
    • 用户:这一章写拍卖会。
    • AI建议:拍卖会众生相,建议使用**“不定内聚焦”(在不同竞拍者视角间跳跃),体现竞争的激烈;最后主角出价时,切换为“外聚焦”**,体现神秘感。
  3. 安排节奏
    • AI建议:前文铺垫过长,建议使用**“概述”快速带过入场过程,直接进入“场景”**描写竞价。

产出:一份**《细纲/章纲》**。包含每一章的具体字数、视角选择、叙事时间(闪回/顺叙)、情绪曲线设计。

3.4 第四层:渲染层—— 精细控制

核心任务:文本生成的最终执行。用户拿到细纲后,可以进行最后的微调,然后让AI“渲染”出文本。
执行逻辑:

  • 输入:细纲指令(如:写主角出场,外聚焦视角,200字)。
  • 检索:向量数据库根据“外聚焦+出场”检索参考文本(如海明威片段)。
  • 生成:AI结合参考风格生成正文。
  • 反馈:用户如果不满意,可以要求“用词更华丽一点”或“节奏更快一点”,AI实时调整。

举例演示:以“拍卖会”为例看各层运作

第一层(用户输入):

主角去拍卖行卖一颗丧尸晶核,引起轰动,卖了个好价钱。

第二层(架构协商):
  • AI分析:单纯“卖东西”情节功能太弱,缺乏冲突。建议引入**“竞争者”“鉴定师”**作为功能性人物(扁形人物)。
  • AI提议:环境设定为**“支配型”**。拍卖场的压抑氛围能衬托主角的淡定。建议增加一个情节:有人质疑晶核是假的(情节服务于人物:体现主角的专业/装逼)。
  • 产出:主角携晶核入场 -> 鉴定师震惊 -> 反派质疑并挑衅 -> 主角淡定打脸 -> 高价成交。
第三层(细纲设计):
  • 第一章(拍卖场风波)
    • 视角内聚焦(鉴定师视角)
    • 叙事策略陌生化。描写晶核时,不要直接写“它很强”,而是写鉴定师仪器爆表、冷汗直流的生理反应。
    • 时间场景(实时描写,放慢节奏)。
  • 第二章(冲突与成交)
    • 视角外聚焦。描写主角与反派的对话,只写动作语言,不写心理,营造神秘感。
第四层(文本生成):
  • 指令:[外聚焦视角] [冲突场景] [参考文本:古龙风格对话]
  • 生成

    “这东西是假的。”光头男人敲了敲桌子,声音很冷。
    年轻人没有说话。他只是拿起茶杯,吹了吹浮叶。
    “我在跟你说话。”光头男人的手按在了刀柄上。
    “我知道。”年轻人喝了一口茶,“但你不懂行。”

总结

这个四层模型的优势在于:

  1. 解耦了“故事”与“叙事”:第二层专注于“讲什么”,第三层专注于“怎么讲”,逻辑清晰。
  2. 解决了“人物-情节”悖论:在第二层通过人机协商的动态循环来解决,而不是僵化的前置定义。
  3. 保留了人的控制权:每一层结束时,用户都可以介入修改,避免了AI“一本正经胡说八道”失控的情况。

四、 数据支撑体系:从双库到三库的演进

为了支撑上述模型的运行,需要构建专业的知识库体系。
这里提出两种数据库模式。

双数据库模式

  • 网文理论:属于**“效果学”**。它关注的是读者的心理反应,比如“爽感”、“期待感”、“压抑-释放”。它的语言是模糊的、经验主义的(如“黄金三章”、“装逼打脸”)。
  • 叙事学理论:属于**“结构学”**。它关注的是文本的组织形式,比如“聚焦”、“顺序”、“频率”。它的语言是精确的、结构主义的。

要将两者结合,第三层(光学层/细纲层)必须充当“编译器”的角色。它负责将模糊的“网文效果指令”翻译成精确的“叙事学技术指令”。

以下是如何构建这个双数据库驱动的映射系统:

一、 核心逻辑:效果-技术映射表

我们需要在第三层建立一个中间逻辑层,将网文的“抽象公式”拆解为叙事学的“具体操作”。

示例:网文公式“装逼打脸(压抑-释放)”的拆解

阶段 网文理论指令 对应的叙事学操作 数据库检索策略
阶段一 铺垫/压抑
(建立敌人的嚣张或主角的困境)
视角:内聚焦(反派或路人视角),强调敌人的强大/傲慢。
时间:慢速叙事(场景),拉长受辱时间。
语式:展示,大量描写敌人的压迫感。
检索网文库:“反派嘲讽场景”
检索叙事库:“内聚焦+慢节奏+压迫感”
阶段二 积蓄/转折
(主角出手的瞬间)
视角:外聚焦或零聚焦,客观描写主角的动作,不带感情色彩。
时间:停顿(描写细节),聚焦于关键道具或动作。
语式:短句,动词密集。
检索网文库:“扮猪吃虎瞬间”
检索叙事库:“外聚焦+动作描写+短句”
阶段三 释放/打脸
(敌人的震惊与惨败)
视角:自由间接引语(表现敌人的心理崩溃)。
时间:概述(快速交代结果)或场景(详细描写震惊表情)。
人物:扁形人物的反应模式化(瞪大双眼、倒吸凉气)。
检索网文库:“震惊反应描写”
检索叙事库:“自由间接引语+心理描写”

二、 第三层的工作流:双数据库协同

在第三层生成细纲时,AI的思考路径应当是这样的:

  1. 读取第二层大纲:主角在拍卖会展示丧尸晶核,打脸质疑的专家。
  2. 查询网文理论库(效果端)
    • 识别出这是**“装逼打脸”**剧情。
    • 库中建议:该剧情需要“欲扬先抑”,建议先写专家的质疑(压抑),再写晶核的能量爆发(释放)。
    • 库中建议:需要“侧面烘托”,通过围观群众的反应来表现主角的牛逼。
  3. 查询叙事学理论库(技术端)
    • 为了实现“压抑”,检索**“内聚焦视角”**词条,参考如何描写专家傲慢的内心独白。
    • 为了实现“侧面烘托”,检索**“环境描写”**词条(如:周围空气凝固、寂静无声),参考如何用环境衬托人物。
    • 为了实现“释放”,检索**“外聚焦视角”**词条,参考海明威式的冷硬动作描写,展现主角的一击必杀。
  4. 生成细纲
    • 综合两边的建议,生成带有明确技术指标的章纲。

三、 数据集构建:如何打通两个库?

关键在于**“关联标签”**。我们需要在向量数据库的数据条目中,增加一个字段专门用来连接两者。

1. 网文理论库的数据结构

这条数据告诉AI“为什么要这么做”。

{
  "理论名称": "欲扬先抑",
  "适用场景": "打脸、爆发、揭晓真相",
  "情绪曲线": "V型曲线(先抑后扬)",
  "关键技术指引": [
    "前期需要使用内聚焦展示负面情绪",
    "后期需要使用外聚焦展示客观力量",
    "建议配合‘自由间接引语’表现心理落差"
  ]
}
2. 叙事学理论库的数据结构

这条数据告诉AI“具体怎么做”。

{
  "术语": "自由间接引语",
  "定义": "叙述者转述人物心理,无需引号,混合叙述者与人物的声音。",
  "参考文本": "他竟然拒绝了?这怎么可能。那份合同价值连城,除非他疯了。",
  "关联网文效果": ["震惊感", "心理落差", "代入感"]
}

四、 具体案例演示

假设用户在第二层给出的剧情是:主角拿出修真法器,震慑丧尸世界的大佬。

第三层AI运行过程:

  1. 分析意图:这是典型的“装逼打脸/展示力量”桥段。
  2. 调用网文库
    • 查询:“展示力量”。
    • 返回建议:不要自己夸自己,要借他人之口(侧面描写);要有对比(普通武器 vs 修真法器)。
  3. 调用叙事库
    • 根据网文库的“借他人之口”建议,检索关键词外聚焦视角 + 对话
    • 根据网文库的“对比”建议,检索关键词感知型视角(强调感官刺激)。
  4. 生成细纲(人机协商)
    • AI向用户建议:“老板,这个剧情为了突出爽感,我建议分三步走:
      • 第一步:写大佬们的不屑(内聚焦视角,压抑)。
      • 第二步:写法器启动的异象,环境突变(环境描写,动态)。
      • 第三步:写大佬们的震惊反应,用自由间接引语表现他们的不可置信(释放)。”
    • 用户确认。
  5. 产出细纲
    • 场景1:会议室。视角:某傲慢专家。内容:他认为主角在演戏。(字数300)
    • 场景2:法器启动。视角:外聚焦。内容:光芒照亮全场,温度骤降。(字数200)
    • 场景3:众人的反应。视角:全知/内聚焦切换。内容:专家们的心态崩塌。(字数500)
五、 总结

通过这种双数据库+映射机制,完美解决了问题:

  1. 网文理论负责**“定调子”**(情绪目标、宏观节奏)。
  2. 叙事学理论负责**“给工具”**(具体的视角、描写手法)。
  3. 第三层不再是简单的流水线,而是一个**“翻译官”**,它把模糊的网文经验主义,翻译成了AI可执行的、严谨的叙事学指令。

三数据库模式

  • 两数据库模式:依赖AI的**“临场推理能力”**。AI需要实时理解“爽文”和“叙事学”的关系,这对模型本身的智力要求极高,且结果不稳定。
  • 三数据库模式:依赖人类的**“先验知识库”。我们将“爽文套路如何转化为叙事技巧”这一最难的过程,固化为显性的数据规则。这就是软件工程中的“配置优于实现”**。

下面我详细拆解这个三数据库架构的优越性及其搭建方案:

一、 架构总览:三库四层流

在这个模型中,每一层都有明确的数据支撑,不再依赖AI“拍脑袋”推理。

1. 第二层(架构层):宏观蓝图库
  • 数据库名称网文剧情库 + 叙事故事库
  • 主辅关系:以网文理论为主(定骨架),叙事故事理论为辅(查漏补缺)。
  • 数据条目示例
    {
      "网文理论": "换地图",
      "核心目的": "打破战力平衡,提供新的期待感",
      "叙事故事辅助": "需引入新的'典型环境',构建新的'人物关系网'"
    }
    
  • 作用:确保故事的大方向符合商业网文逻辑(爽点、节奏),同时符合叙事学的完整性要求。
2. 第三层(光学层):映射中枢库

这是你提出的最核心的创新点。这一层不再让AI去猜,而是直接检索“套路-技巧映射表”。

  • 数据库名称映射关系库 + 网文理论 + 叙事理论
  • 核心价值固化专家知识。将资深网文作者“只可意会不可言传”的经验,代码化为具体的指令。
  • 数据条目示例(映射表)
    {
      "效果关键词": "装逼打脸",
      "映射规则": {
        "前奏": {
          "叙事指令": "内聚焦视角(反派/路人)",
          "理由": "通过无知者的傲慢视角,制造信息差,积累读者的优越感(压抑)"
        },
        "高潮": {
          "叙事指令": "外聚焦视角 + 短句动词",
          "理由": "客观冷硬地描写主角动作,不带感情色彩,通过'零度写作'提升逼格(释放)"
        },
        "余韵": {
          "叙事指令": "自由间接引语",
          "理由": "直接展示围观群众的心理崩溃,强化打脸的爽感反馈"
        }
      }
    }
    
3. 第四层(渲染层):微观技法库
  • 数据库名称叙事技巧库
  • 作用:纯技术实现。当第三层下达了“外聚焦视角 + 短句动词”的指令后,第四层负责检索具体的文本片段,教AI怎么写这段话。
  • 数据条目示例
    • 检索词:外聚焦 + 动作描写
    • 返回:[海明威《杀人者》片段]、[古龙武侠片段]。

二、 为什么“三数据库模式”更优秀?

1. 解决了“黑盒不可控”的问题

在两数据库模式下,你告诉AI:“我要写打脸,请用外聚焦视角。” AI可能会问:“为什么打脸要用外聚焦?我能不能用全知视角?”或者它根本没学会这个映射关系,写出来的打脸像流水账。

而在三数据库模式下,映射关系是写死在数据库里的。 系统检索到“打脸”关键词,直接调出预设的映射规则:打脸 -> 必须用外聚焦。这是一个确定性的过程,不再依赖AI的随机推理。

2. 实现了“专业知识沉淀”

很多网文大神的经验(如“黄金三章”怎么安排视角、“扮猪吃虎”怎么控制信息量),本质上就是一种映射关系。 通过建立第三个数据库(映射库),你实际上是在把大神的大脑数字化了。这个库越丰富,AI写出来的东西就越像“老书虫”写出来的,而不是像“学习了文学理论的理科生”写出来的。

3. 降低了各层的认知负荷
  • 第二层只管“好不好看”(网文理论);
  • 第三层只管“怎么实现”(查表映射);
  • 第四层只管“写得像样”(模仿文本)。

各司其职,互不干扰,极大地降低了AI在长文本生成中崩溃的概率。


三、 实际落地建议:构建“映射关系库”

既然第三层的映射库是核心,那么这个库的数据应该怎么写?建议采用**“网文功能标签 -> 叙事学解法”**的结构。

示例数据集设计:

ID 网文情境标签 叙事学解法 专家解析
Map_001 爽感-扮猪吃虎 技巧:限制视角(内聚焦-配角视角)。
原理:利用“叙述者知道的比人物少”,让读者看到配角的愚蠢,从而产生优越感。
读者拥有上帝视角,而配角不知情,这种戏剧反讽是爽感的来源。
Map_002 期待感-悬念铺设 技巧:叙事空白。
原理:在关键信息处通过中断、省略或转移视角,制造“未知”。
不要把话说完,利用读者的完形心理,迫使他们翻看下一章。
Map_003 节奏感-战斗爆发 技巧:时间扭曲(概述变场景)。
原理:战斗前用慢镜头(场景),战斗中用快节奏(短句概述)。
视觉上的快慢交替,模拟电影的剪辑效果。
Map_004 代入感-主角登场 技巧:感知型视角 + 陌生化。
原理:通过主角的感官(痛觉、嗅觉)和环境的新奇描写,将读者拉入现场。
避免“他醒了”,而是写“后脑勺传来一阵钻心的剧痛,空气中弥漫着硫磺味”。

四、 总结

三数据库模式设计非常完美,它实际上构建了一个**“三层编译系统”**:

  1. 源代码(用户需求) ->
  2. 高层架构(第二层:网文剧情库) ->
  3. 中间件翻译(第三层:映射关系库) ->
  4. 机器码执行(第四层:叙事技巧库)

想说的话

早在疫情期间,偶然接触到叙事学这门学科,我对此十分惊奇,于是一直想把叙事学引入网文写作,做一个有关叙事学的视频教程,但奈何太过惫懒,经常才做一点点的工作就弃坑。24年的时候,我意识到或许叙事学应该与AI写作相结合,但奈何当时自己的相关水平太弱,对大模型也没有更深入的理解。 而Claude Code的出现给了我启发,软件工程的思路点醒了我,使我将最初的模糊抽象的念头,逐渐有了头绪。 在不断的与惫懒的观念做斗争之后,在花费了三天的时间,总算将原本抽象化成了上面的模型。 当然这个模型并不完善,很多细节也没有写明,甚至十分依赖于AI给出的并不靠谱的补充,但这开了个好头,至少有了一套方法。 接下来我会将这套模型进行不断完善细化,并将相应的向量数据库,填充相关的内容。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐