AI辅助网文创作理论研究笔记(一):叙事模型的构建
本文档记录了笔者在探索“AI辅助网络小说创作”过程中的阶段性思考。针对当前大模型在长文本生成中存在的叙事失控、一致性差及需求偏差等问题,笔者分析了现有技术应用与理论研究的短板,并创新性地引入软件工程中的“瀑布模型”与“多智能体”思路,构建了一套“四层构件模型”。同时,提出“双数据库”向“三数据库”演进的知识库架构,旨在解决网文创作中“效果学”与叙事学“结构学”的映射难题,为AI可控叙事提供工程化解
摘要
本文档记录了笔者在探索“AI辅助网络小说创作”过程中的阶段性思考。针对当前大模型在长文本生成中存在的叙事失控、一致性差及需求偏差等问题,笔者分析了现有技术应用与理论研究的短板,并创新性地引入软件工程中的“瀑布模型”与“多智能体”思路,构建了一套“四层构件模型”。同时,提出“双数据库”向“三数据库”演进的知识库架构,旨在解决网文创作中“效果学”与叙事学“结构学”的映射难题,为AI可控叙事提供工程化解决方案。
原笔记比较杂乱此处为AI整理
一、 困境与现状分析
1.1 技术层面的瓶颈
目前的生成式AI在辅助网文创作时,虽展现出强大的语言组织能力,但在实际应用中仍面临显著的技术壁垒:
- 叙事控制能力弱:AI倾向于生成平铺直叙或充满说教的文本,难以构建复杂的戏剧冲突,容易生成看似通顺实则逻辑崩坏的情节。
- 长文本一致性差:在长篇网文中,AI常出现人物性格漂移、伏笔遗忘或世界观设定冲突的问题,缺乏全局记忆管理机制。
- 需求偏差严重:用户意图与模型输出之间存在语义鸿沟,模型往往只能理解显性指令,难以捕捉隐性风格需求。
- 文本语感偏差:生成的文本常带有“翻译腔”或AI特有的机械感,缺乏网文特有的节奏感与代入感。
1.2 理论层面的断层
除技术限制外,指导AI创作的理论体系亦存在缺失:
- 传统叙事学与网文的脱钩:传统叙事学鲜少关注商业文学的功能性语法(如“爽感”的叙事结构),导致理论研究难以直接指导畅销书写作。
- 网文理论的碎片化:现有网文理论多依赖作者经验(如“黄金三章”、“压抑-释放”公式),缺乏系统性的学术总结与底层逻辑拆解。例如,“节奏”如何通过文本微观控制?“代入感”与叙事视角有何量化关系?
- 跨学科融合的缺失:尚未形成一套连接网文宏观效果(商业逻辑)与叙事微观技术(文学理论)的中间层理论。
1.3 应用层面的误区
当前大部分创作者对AI的使用仍停留在“手工作坊”阶段,缺乏工程化思维。 常见的操作模式为直接投喂粗略设定,要求AI进行扩写。例如:
用户指令: “设定(老罗是个影音迷,到旧货店淘到一台古怪的机子……[此处省略大量混合的设定与情节描述]……请了供电所的师傅来修理,盘算了一下,地下室里,多出的东西,价值远远超出了花出去的电费……)”
此类指令存在典型问题:需求模糊、结构混乱、细节与宏观要求混杂。 这相当于想盖一栋高楼,却跳过了“蓝图设计”阶段,直接指挥工人开始砌砖。没有图纸,工人(AI)只能盲目堆砌材料,最终盖出来的可能是危房,或者根本不是你想要的户型。
二、 解决思路:软件工程范式的引入
鉴于上述问题,笔者借鉴软件工程中的瀑布模型与Agent(智能体)架构(如MetaGPT),提出AI创作流程的工程化改造。
软件开发的生命周期通常包含:需求分析 -> 系统设计 -> 编码 -> 测试 -> 维护。 由此作者得到启发,构建一套分层处理机制,将“创意需求”逐步转化为“文本代码”。笔者据此设计了**“四层构件模型”**。
由于是初期设计,目前该模型并不完善,思路也很稚嫩,读者可以批判性的使用,如有什么独到的见解,笔者诚恳的欢迎指正。
三、 核心架构设计:四层构件模型
该模型主张“自顶向下,逐步细化”,将创作过程解耦为四个层级,每一层承担特定的叙事功能。
3.1 第一层:种子层—— 用户主导
核心任务:定义“源代码”与核心愿景。 此层不依赖AI逻辑,强调人类的创意直觉与商业定位。
- 输入:
- 核心梗/脑洞:例如“在丧尸世界倒卖修真界物资”。
- 阅读契约:目标读者(如:男频网文读者)、核心爽点(如:物资流、双界倒爷)、风格基调(如:轻松、甚至带点黑色幽默)。
- 粗略大纲:故事的起承转合。
- 产出:一份包含核心设定和粗略走向的《故事愿景文档》。
3.2 第二层:架构层—— 人机协商
核心任务:解决“情节-人物-环境”的动态平衡。 这是最复杂的层级。AI扮演“架构师助手”,它需要利用叙事学理论,帮助用户推演逻辑、修补漏洞、强化张力。
- 情节 -> 人物:当用户设定“拍卖会”情节时,AI根据叙事语法建议:“为了让拍卖会冲突更激烈,需要主角展现出‘深藏不露’的性格特质(人物特性论),建议增加一个被配角轻视的细节。”
- 人物 -> 情节:当用户设定“主角性格谨慎”时,AI反推情节:“既然主角谨慎,那么他直接去拍卖会就不合理。建议增加一个‘事先踩点’或‘伪装入场’的情节序列。”
本层运用的理论工具:
- 情节功能:检验事件是否有推动力。
- 人物行动论/符号论:确立人物在特定情节中的定位。
- 环境类型:设定环境是中立的还是反讽的,是否参与叙事。
产出:一份**《精修故事大纲》**。格式清晰,包含关键转折点、人物弧光变化、环境设定说明。
3.3 第三层:光学层—— 人机协作
核心任务:将“故事”转化为“叙事”。 故事是客观发生的(A打倒B),叙事是如何讲述(A视角的热血 vs B视角的悲情)。此层负责视角切分与节奏控制。 工作流:
- 切分序列:将《精修故事大纲》切分成具体的场景。
- 选择视角:
- 用户:这一章写拍卖会。
- AI建议:拍卖会众生相,建议使用**“不定内聚焦”(在不同竞拍者视角间跳跃),体现竞争的激烈;最后主角出价时,切换为“外聚焦”**,体现神秘感。
- 安排节奏:
- AI建议:前文铺垫过长,建议使用**“概述”快速带过入场过程,直接进入“场景”**描写竞价。
产出:一份**《细纲/章纲》**。包含每一章的具体字数、视角选择、叙事时间(闪回/顺叙)、情绪曲线设计。
3.4 第四层:渲染层—— 精细控制
核心任务:文本生成的最终执行。用户拿到细纲后,可以进行最后的微调,然后让AI“渲染”出文本。
执行逻辑:
- 输入:细纲指令(如:写主角出场,外聚焦视角,200字)。
- 检索:向量数据库根据“外聚焦+出场”检索参考文本(如海明威片段)。
- 生成:AI结合参考风格生成正文。
- 反馈:用户如果不满意,可以要求“用词更华丽一点”或“节奏更快一点”,AI实时调整。
举例演示:以“拍卖会”为例看各层运作
第一层(用户输入):
主角去拍卖行卖一颗丧尸晶核,引起轰动,卖了个好价钱。
第二层(架构协商):
- AI分析:单纯“卖东西”情节功能太弱,缺乏冲突。建议引入**“竞争者”和“鉴定师”**作为功能性人物(扁形人物)。
- AI提议:环境设定为**“支配型”**。拍卖场的压抑氛围能衬托主角的淡定。建议增加一个情节:有人质疑晶核是假的(情节服务于人物:体现主角的专业/装逼)。
- 产出:主角携晶核入场 -> 鉴定师震惊 -> 反派质疑并挑衅 -> 主角淡定打脸 -> 高价成交。
第三层(细纲设计):
- 第一章(拍卖场风波):
- 视角:内聚焦(鉴定师视角)。
- 叙事策略:陌生化。描写晶核时,不要直接写“它很强”,而是写鉴定师仪器爆表、冷汗直流的生理反应。
- 时间:场景(实时描写,放慢节奏)。
- 第二章(冲突与成交):
- 视角:外聚焦。描写主角与反派的对话,只写动作语言,不写心理,营造神秘感。
第四层(文本生成):
- 指令:[外聚焦视角] [冲突场景] [参考文本:古龙风格对话]
- 生成:
“这东西是假的。”光头男人敲了敲桌子,声音很冷。
年轻人没有说话。他只是拿起茶杯,吹了吹浮叶。
“我在跟你说话。”光头男人的手按在了刀柄上。
“我知道。”年轻人喝了一口茶,“但你不懂行。”
总结
这个四层模型的优势在于:
- 解耦了“故事”与“叙事”:第二层专注于“讲什么”,第三层专注于“怎么讲”,逻辑清晰。
- 解决了“人物-情节”悖论:在第二层通过人机协商的动态循环来解决,而不是僵化的前置定义。
- 保留了人的控制权:每一层结束时,用户都可以介入修改,避免了AI“一本正经胡说八道”失控的情况。
四、 数据支撑体系:从双库到三库的演进
为了支撑上述模型的运行,需要构建专业的知识库体系。
这里提出两种数据库模式。
双数据库模式
- 网文理论:属于**“效果学”**。它关注的是读者的心理反应,比如“爽感”、“期待感”、“压抑-释放”。它的语言是模糊的、经验主义的(如“黄金三章”、“装逼打脸”)。
- 叙事学理论:属于**“结构学”**。它关注的是文本的组织形式,比如“聚焦”、“顺序”、“频率”。它的语言是精确的、结构主义的。
要将两者结合,第三层(光学层/细纲层)必须充当“编译器”的角色。它负责将模糊的“网文效果指令”翻译成精确的“叙事学技术指令”。
以下是如何构建这个双数据库驱动的映射系统:
一、 核心逻辑:效果-技术映射表
我们需要在第三层建立一个中间逻辑层,将网文的“抽象公式”拆解为叙事学的“具体操作”。
示例:网文公式“装逼打脸(压抑-释放)”的拆解
| 阶段 | 网文理论指令 | 对应的叙事学操作 | 数据库检索策略 |
|---|---|---|---|
| 阶段一 | 铺垫/压抑 (建立敌人的嚣张或主角的困境) |
视角:内聚焦(反派或路人视角),强调敌人的强大/傲慢。 时间:慢速叙事(场景),拉长受辱时间。 语式:展示,大量描写敌人的压迫感。 |
检索网文库:“反派嘲讽场景” 检索叙事库:“内聚焦+慢节奏+压迫感” |
| 阶段二 | 积蓄/转折 (主角出手的瞬间) |
视角:外聚焦或零聚焦,客观描写主角的动作,不带感情色彩。 时间:停顿(描写细节),聚焦于关键道具或动作。 语式:短句,动词密集。 |
检索网文库:“扮猪吃虎瞬间” 检索叙事库:“外聚焦+动作描写+短句” |
| 阶段三 | 释放/打脸 (敌人的震惊与惨败) |
视角:自由间接引语(表现敌人的心理崩溃)。 时间:概述(快速交代结果)或场景(详细描写震惊表情)。 人物:扁形人物的反应模式化(瞪大双眼、倒吸凉气)。 |
检索网文库:“震惊反应描写” 检索叙事库:“自由间接引语+心理描写” |
二、 第三层的工作流:双数据库协同
在第三层生成细纲时,AI的思考路径应当是这样的:
- 读取第二层大纲:主角在拍卖会展示丧尸晶核,打脸质疑的专家。
- 查询网文理论库(效果端):
- 识别出这是**“装逼打脸”**剧情。
- 库中建议:该剧情需要“欲扬先抑”,建议先写专家的质疑(压抑),再写晶核的能量爆发(释放)。
- 库中建议:需要“侧面烘托”,通过围观群众的反应来表现主角的牛逼。
- 查询叙事学理论库(技术端):
- 为了实现“压抑”,检索**“内聚焦视角”**词条,参考如何描写专家傲慢的内心独白。
- 为了实现“侧面烘托”,检索**“环境描写”**词条(如:周围空气凝固、寂静无声),参考如何用环境衬托人物。
- 为了实现“释放”,检索**“外聚焦视角”**词条,参考海明威式的冷硬动作描写,展现主角的一击必杀。
- 生成细纲:
- 综合两边的建议,生成带有明确技术指标的章纲。
三、 数据集构建:如何打通两个库?
关键在于**“关联标签”**。我们需要在向量数据库的数据条目中,增加一个字段专门用来连接两者。
1. 网文理论库的数据结构
这条数据告诉AI“为什么要这么做”。
{
"理论名称": "欲扬先抑",
"适用场景": "打脸、爆发、揭晓真相",
"情绪曲线": "V型曲线(先抑后扬)",
"关键技术指引": [
"前期需要使用内聚焦展示负面情绪",
"后期需要使用外聚焦展示客观力量",
"建议配合‘自由间接引语’表现心理落差"
]
}
2. 叙事学理论库的数据结构
这条数据告诉AI“具体怎么做”。
{
"术语": "自由间接引语",
"定义": "叙述者转述人物心理,无需引号,混合叙述者与人物的声音。",
"参考文本": "他竟然拒绝了?这怎么可能。那份合同价值连城,除非他疯了。",
"关联网文效果": ["震惊感", "心理落差", "代入感"]
}
四、 具体案例演示
假设用户在第二层给出的剧情是:主角拿出修真法器,震慑丧尸世界的大佬。
第三层AI运行过程:
- 分析意图:这是典型的“装逼打脸/展示力量”桥段。
- 调用网文库:
- 查询:“展示力量”。
- 返回建议:不要自己夸自己,要借他人之口(侧面描写);要有对比(普通武器 vs 修真法器)。
- 调用叙事库:
- 根据网文库的“借他人之口”建议,检索关键词
外聚焦视角+对话。 - 根据网文库的“对比”建议,检索关键词
感知型视角(强调感官刺激)。
- 根据网文库的“借他人之口”建议,检索关键词
- 生成细纲(人机协商):
- AI向用户建议:“老板,这个剧情为了突出爽感,我建议分三步走:
- 第一步:写大佬们的不屑(内聚焦视角,压抑)。
- 第二步:写法器启动的异象,环境突变(环境描写,动态)。
- 第三步:写大佬们的震惊反应,用自由间接引语表现他们的不可置信(释放)。”
- 用户确认。
- AI向用户建议:“老板,这个剧情为了突出爽感,我建议分三步走:
- 产出细纲:
- 场景1:会议室。视角:某傲慢专家。内容:他认为主角在演戏。(字数300)
- 场景2:法器启动。视角:外聚焦。内容:光芒照亮全场,温度骤降。(字数200)
- 场景3:众人的反应。视角:全知/内聚焦切换。内容:专家们的心态崩塌。(字数500)
五、 总结
通过这种双数据库+映射机制,完美解决了问题:
- 网文理论负责**“定调子”**(情绪目标、宏观节奏)。
- 叙事学理论负责**“给工具”**(具体的视角、描写手法)。
- 第三层不再是简单的流水线,而是一个**“翻译官”**,它把模糊的网文经验主义,翻译成了AI可执行的、严谨的叙事学指令。
三数据库模式
- 两数据库模式:依赖AI的**“临场推理能力”**。AI需要实时理解“爽文”和“叙事学”的关系,这对模型本身的智力要求极高,且结果不稳定。
- 三数据库模式:依赖人类的**“先验知识库”。我们将“爽文套路如何转化为叙事技巧”这一最难的过程,固化为显性的数据规则。这就是软件工程中的“配置优于实现”**。
下面我详细拆解这个三数据库架构的优越性及其搭建方案:
一、 架构总览:三库四层流
在这个模型中,每一层都有明确的数据支撑,不再依赖AI“拍脑袋”推理。
1. 第二层(架构层):宏观蓝图库
- 数据库名称:网文剧情库 + 叙事故事库
- 主辅关系:以网文理论为主(定骨架),叙事故事理论为辅(查漏补缺)。
- 数据条目示例:
{ "网文理论": "换地图", "核心目的": "打破战力平衡,提供新的期待感", "叙事故事辅助": "需引入新的'典型环境',构建新的'人物关系网'" } - 作用:确保故事的大方向符合商业网文逻辑(爽点、节奏),同时符合叙事学的完整性要求。
2. 第三层(光学层):映射中枢库
这是你提出的最核心的创新点。这一层不再让AI去猜,而是直接检索“套路-技巧映射表”。
- 数据库名称:映射关系库 + 网文理论 + 叙事理论
- 核心价值:固化专家知识。将资深网文作者“只可意会不可言传”的经验,代码化为具体的指令。
- 数据条目示例(映射表):
{ "效果关键词": "装逼打脸", "映射规则": { "前奏": { "叙事指令": "内聚焦视角(反派/路人)", "理由": "通过无知者的傲慢视角,制造信息差,积累读者的优越感(压抑)" }, "高潮": { "叙事指令": "外聚焦视角 + 短句动词", "理由": "客观冷硬地描写主角动作,不带感情色彩,通过'零度写作'提升逼格(释放)" }, "余韵": { "叙事指令": "自由间接引语", "理由": "直接展示围观群众的心理崩溃,强化打脸的爽感反馈" } } }
3. 第四层(渲染层):微观技法库
- 数据库名称:叙事技巧库
- 作用:纯技术实现。当第三层下达了“外聚焦视角 + 短句动词”的指令后,第四层负责检索具体的文本片段,教AI怎么写这段话。
- 数据条目示例:
- 检索词:
外聚焦 + 动作描写 - 返回:[海明威《杀人者》片段]、[古龙武侠片段]。
- 检索词:
二、 为什么“三数据库模式”更优秀?
1. 解决了“黑盒不可控”的问题
在两数据库模式下,你告诉AI:“我要写打脸,请用外聚焦视角。” AI可能会问:“为什么打脸要用外聚焦?我能不能用全知视角?”或者它根本没学会这个映射关系,写出来的打脸像流水账。
而在三数据库模式下,映射关系是写死在数据库里的。 系统检索到“打脸”关键词,直接调出预设的映射规则:打脸 -> 必须用外聚焦。这是一个确定性的过程,不再依赖AI的随机推理。
2. 实现了“专业知识沉淀”
很多网文大神的经验(如“黄金三章”怎么安排视角、“扮猪吃虎”怎么控制信息量),本质上就是一种映射关系。 通过建立第三个数据库(映射库),你实际上是在把大神的大脑数字化了。这个库越丰富,AI写出来的东西就越像“老书虫”写出来的,而不是像“学习了文学理论的理科生”写出来的。
3. 降低了各层的认知负荷
- 第二层只管“好不好看”(网文理论);
- 第三层只管“怎么实现”(查表映射);
- 第四层只管“写得像样”(模仿文本)。
各司其职,互不干扰,极大地降低了AI在长文本生成中崩溃的概率。
三、 实际落地建议:构建“映射关系库”
既然第三层的映射库是核心,那么这个库的数据应该怎么写?建议采用**“网文功能标签 -> 叙事学解法”**的结构。
示例数据集设计:
| ID | 网文情境标签 | 叙事学解法 | 专家解析 |
|---|---|---|---|
| Map_001 | 爽感-扮猪吃虎 | 技巧:限制视角(内聚焦-配角视角)。 原理:利用“叙述者知道的比人物少”,让读者看到配角的愚蠢,从而产生优越感。 |
读者拥有上帝视角,而配角不知情,这种戏剧反讽是爽感的来源。 |
| Map_002 | 期待感-悬念铺设 | 技巧:叙事空白。 原理:在关键信息处通过中断、省略或转移视角,制造“未知”。 |
不要把话说完,利用读者的完形心理,迫使他们翻看下一章。 |
| Map_003 | 节奏感-战斗爆发 | 技巧:时间扭曲(概述变场景)。 原理:战斗前用慢镜头(场景),战斗中用快节奏(短句概述)。 |
视觉上的快慢交替,模拟电影的剪辑效果。 |
| Map_004 | 代入感-主角登场 | 技巧:感知型视角 + 陌生化。 原理:通过主角的感官(痛觉、嗅觉)和环境的新奇描写,将读者拉入现场。 |
避免“他醒了”,而是写“后脑勺传来一阵钻心的剧痛,空气中弥漫着硫磺味”。 |
四、 总结
三数据库模式设计非常完美,它实际上构建了一个**“三层编译系统”**:
- 源代码(用户需求) ->
- 高层架构(第二层:网文剧情库) ->
- 中间件翻译(第三层:映射关系库) ->
- 机器码执行(第四层:叙事技巧库)。
想说的话
早在疫情期间,偶然接触到叙事学这门学科,我对此十分惊奇,于是一直想把叙事学引入网文写作,做一个有关叙事学的视频教程,但奈何太过惫懒,经常才做一点点的工作就弃坑。24年的时候,我意识到或许叙事学应该与AI写作相结合,但奈何当时自己的相关水平太弱,对大模型也没有更深入的理解。 而Claude Code的出现给了我启发,软件工程的思路点醒了我,使我将最初的模糊抽象的念头,逐渐有了头绪。 在不断的与惫懒的观念做斗争之后,在花费了三天的时间,总算将原本抽象化成了上面的模型。 当然这个模型并不完善,很多细节也没有写明,甚至十分依赖于AI给出的并不靠谱的补充,但这开了个好头,至少有了一套方法。 接下来我会将这套模型进行不断完善细化,并将相应的向量数据库,填充相关的内容。
更多推荐


所有评论(0)