标题:论文解读 | 断章取义!在ChatGPT-4o文本分析中管理上下文窗口的局限性


一、翻译全文

论文原标题:Out of Context! Managing the Limitations of Context Windows in ChatGPT-4o Text Analyses
原文链接点击此处查看原论文

摘要

近年来,大型语言模型(LLM)应用激增,学术界也紧随其后。研究人员经常寻求自动化文本标注这一繁琐任务,并在一定程度上寻求文本分析的自动化。值得注意的是,像ChatGPT这样流行的LLM已被作为研究助手和分析工具进行了研究,揭示了关于透明度和AI生成内容本质的若干担忧。本研究评估了ChatGPT在“开箱即用”的零样本(zero-shot)或少样本(few-shot)语境下进行文本分析(特别是关键词提取和主题分类)的可用性和可靠性,重点强调了上下文窗口大小和不同文本类型如何影响分析结果。我们的发现表明,文本类型和文本呈现的顺序都会显著影响ChatGPT的分析。同时,在分析相似文本时,上下文构建往往问题较少。然而,长文本和文档构成了严峻挑战:一旦超出上下文窗口,往往会出现“幻觉”结果。虽然其中一些问题源于LLM的核心功能,但通过透明的研究规划可以缓解部分问题。

1. 引言

利用大型语言模型进行数据分析的潜力引起了各领域研究人员的广泛兴趣,其中市场领导者OpenAI的ChatGPT是被研究最广泛的工具之一。作为一个界面简单的免费工具,它将一套新的分析方法带给了可能因技术或资源障碍而无法使用计算社会科学方法的研究人员。尽管围绕该工具存在大量炒作,但ChatGPT及一般的LLM在包括文本分析和标注在内的各种研究任务中被批评且被发现不可靠。本文从自动化文本分析的角度为这一文献做出贡献,同时也补充了关于此类服务在较小语种(如芬兰语)中运作情况的有限研究。

研究旨在了解上下文对分类的影响,并阐明在使用基于LLM的工具时必须考虑何种偏差和限制,特别是在使用多种不同类型的数据时。具体而言,研究旨在评估基于聊天的LLM服务(如ChatGPT)生成的关键词提取和主题分类是否会根据不同的内容类型、内容的混合、混合内容的顺序以及同一对话窗口内的上下文构建而变化。本研究并不旨在取代现有的自然语言处理(NLP)工具,而是探索LLM是否能在需要上下文解释和精度的研究阶段支持甚至取代人类的努力。

具体的案例研究将聚焦于关于“绿色转型”(green transition)的讨论。在芬兰,自2023年以来执政的政府曾试图用“清洁转型”或“蓝白转型”等其他表达方式取代该术语。为了从政治家和公众的角度研究这一辩论,我们分析了2022年底在埃及举行的COP27气候变化会议期间Twitter上和芬兰议会内的交流。数据包括2022年10月19日至12月1日期间收集的议会演讲和推文,每个数据集包含20个文本。

研究提出了四个假设:

  1. 在针对特定政治议题(如“绿色转型”)的零样本或少样本设置中,使用LLM分析和识别文本数据中的关键词和主题是可能获得有意义结果的。
  2. 当以混合顺序分析文本时,初始内容类型将影响关键词提取和主题分类。
  3. 与在单独聊天窗口中的零样本分析相比,同一聊天窗口内的上下文构建会影响少样本设置下的分析结果。
  4. 在处理较长文本文档时,上下文窗口的限制将对LLM分析产生恶化影响。

1.1 过往研究回顾

传统上,自动化文本分析任务是使用主题模型或BERT等语言表示模型进行的。LLM被预测代表了未标注文本零样本分类的最新技术水平。然而,生成式语言模型固有的不一致性已在医学、数学和编码等各个领域被注意到。一个潜在的不一致来源是ChatGPT的模型在生成响应时会考虑输入的顺序。对于文本分析和标注,研究表明,利用LLM的零样本或少样本方法通常无法达到微调后的人工标注模型的准确性。此外,受限上下文窗口的固有局限性被强调为将其无缝集成到冗长或复杂任务中的重大障碍。其他严重问题包括不可靠性、潜在的“幻觉”结果、版权问题以及错误信息的随机生成。

2. 方法与材料

议会演讲通过芬兰议会演讲档案Parliament Sampo获取,筛选出包含“vihreä siirtymä”(绿色转型)的20篇演讲。推文通过Mohawk Analysis服务收集,通过匹配议会演讲的日期并随机选择,共选取了20条推文。所有分析均通过ChatGPT-4o版本进行,其上下文窗口为128,000个token(约50页文本),足以涵盖所有测试设置。所有演讲和推文加起来共20页。

每个分析都以相同的提示词开始,随后的提示仅包含要分析的文本。测试期间未向ChatGPT提供反馈。如果ChatGPT提供选项供选择,则忽略并输入下一个文本。初始提示词指示提取关键词列表并为每个关键词提供相应的主题类别。

2.1 测试批次1:单一数据集
该实验评估了在同一聊天窗口中以少样本设置分析所有内容,与在单独聊天窗口中以零样本设置分析每个项目时的文本分析差异。

  • 测试1.1:所有议会演讲在同一窗口分析。
  • 测试1.2:所有推文在同一窗口分析。
  • 测试1.3:20篇议会演讲在20个独立窗口分析。
  • 测试1.4:20条推文在20个独立窗口分析。

2.2 测试批次2:混合数据集
该实验评估了当以混合顺序分析所有40个文本时,同一聊天窗口内的上下文构建如何影响结果,以及初始内容类型是否影响结果。

  • 测试2.1:交替输入(推文1,演讲1…),以推文开始。
  • 测试2.2:交替输入,以演讲开始。
  • 测试2.3:先输入所有推文,再输入所有演讲。
  • 测试2.4:先输入所有演讲,再输入所有推文。

3. 结果分析与评估

3.1 关键词与主题
总体而言,ChatGPT识别的关键词和主题数量各不相同。在分离数据集的测试中,议会演讲的分析提供的关键词和主题多于推文。在零样本分析中识别的关键词和主题少于少样本分析。在混合数据集测试中,测试2.3(先全推文后全演讲)发现了最多的关键词和主题,其次是以推文开始的交替测试2.1。尽管在同一上下文窗口中分析相同内容,文本的顺序确实影响了发现的关键词和主题数量。

3.2 “绿色转型”的分类
我们在一致性和相关性评估中比较了分类结果。对于推文和议会演讲,当在同一聊天窗口中以少样本设置分析所有文本时,分类更加一致:所有推文被归类为“环境政策”,议会演讲被归类为“环境政策”和“绿色转型”。在零样本设置中,类别名称变化很大,且出现了多级类别(如“环境政策/可持续性”)。结果表明,主题类别对关键词形式的变化相当敏感。

3.3 上下文构建与错误的示例
测试1.1(议会演讲)表现一致。测试1.2(推文)在第7条推文时出现问题,ChatGPT开始以对话方式回答推文内容而非进行分析,因为推文以英文单词“Sorry”开头。
在混合数据集中,测试2.2(以演讲开始交替)在第10条推文时崩溃,该推文质疑风力发电的逻辑。ChatGPT没有分析文本,而是开始搜索网络并撰写关于“绿色转型的可持续基础和逻辑”的简报。这种模式随后持续,分析变成了“分析与评论”和“结论”的形式,而非列表。
测试2.4(先全演讲后全推文)在推文阶段初期就恶化了,ChatGPT开始回答推文中关于太阳能板制造的问题,而不是提取关键词。

3.4 分类微调
我们尝试通过提示词微调分类,要求将“绿色转型”归类为特定测试主题。在零样本设置中,指令被遵循。在少样本设置中,结果各异,一旦遇到触发模型回答问题而非分析的内容,指令就会被忽略。

3.5 其他潜在问题
ChatGPT随机决定是否在回复中包含原始文本,这影响了是否需要额外提示“继续生成”。此外,聊天中偶尔出现的错误会阻止分析完成。有一篇包含“仇恨人类”和“仇恨俄罗斯”词汇的议会演讲被标记为违反政策。

4. 有限的上下文窗口与“懒惰语言模型”的影响

为了测试上下文窗口的限制,我们尝试了电子表格方法(将所有文本放入CSV文件)和文本文档方法(上传包含所有文本的文档)。
在电子表格方法中,ChatGPT倾向于使用Python编程进行分析,即使被明确禁止。当最终被诱导进行手动分析时,它在处理完前几批文本后开始崩溃,重复之前的文本,并在第四批次后开始完全编造(幻觉)从未存在过的议会演讲内容。
文本文档方法也产生了类似结果。模型表现出“懒惰”行为,不阅读整个文档,而是利用开头和结尾的信息编造看似相关但实质虚构的结果。这证实了文本量直接影响分析的准确性,处理长篇政策文档可能会返回肤浅和不完整的结果。

5. 讨论

尽管样本量较小,实验清楚地表明上下文构建是ChatGPT-4o文本分析中的一个重要因素。虽然单独的“零样本”分析没有上下文恶化的风险,但“少样本”可能提供更一致的分类,特别是当文本类型相似时。然而,随着数据集的增长,零样本分析变得过于繁琐。
混合数据集更容易出错。如果建立了一个可靠的测试环境,API批处理零样本方法可能是一个非常有效的方法。
此外,必须考虑使用此类工具的伦理方面,如巨大的环境足迹。ChatGPT用户的庞大数量导致了显著的环境足迹。如果使用此类系统产生的却是不可用的、编造的结果,那么这种排放更是毫无正当性。

6. 结论

我们的假设2和3关于上下文窗口及其对文本分析的影响被证明是准确的。文本呈现的顺序影响了分析,混合数据集比单一类型分析更容易出错。假设4也被证明是准确的:文本文档的长度直接影响分析的准确性和可靠性。
为了未来的研究和可复制性,必须透明地描述测试过程和使用的LLM版本。由于大型语言模型的性质,结果本身可能无法完全复制,但通过API批处理单个文本可能会提供更准确和可复制的方法。我们的研究强调了验证过程的重要性:仅看数字,结果似乎比实际检查时更一致。此外,必须确保检测到幻觉,如研究材料的伪造。


二、解读

这篇论文虽然聚焦于芬兰语境下的“绿色转型”文本分析,但其核心贡献在于对生成式AI(特别是ChatGPT-4o)在学术研究方法论层面的深刻解构。它不仅仅是一份技术测试报告,更是一份关于“数字人文学科如何面对黑箱工具”的警示录。

1. 上下文窗口的“无限”假象与“懒惰”本质
当前AI模型竞相标榜超长上下文窗口(如128k tokens),给研究者造成一种错觉:只要把所有文档丢进去,AI就能像超级计算机一样全盘处理。本研究无情地戳破了这一泡沫。研究发现,当通过上传文件(CSV或文档)要求ChatGPT分析大量文本时,模型表现出了极度的“懒惰”和欺骗性——它不仅跳过了中间的大量内容,甚至在被迫输出时开始“一本正经地胡说八道”,编造从未存在的演讲内容。这在方法论上是致命的,因为它意味着在处理长文本或批量数据时,AI的输出可能在统计上看似合理(学到了语境),但在事实层面完全虚构。

2. 顺序效应与认知偏差的算法化
论文极其精彩地展示了“顺序”如何决定“结果”。先分析推文再分析演讲,与先分析演讲再分析推文,得到的关键词数量和分类体系截然不同。这揭示了LLM并非一个客观的、静态的分析器,而是一个高度受“启动效应(Priming Effect)”影响的动态系统。在混合数据测试中,一条包含反问句的推文就能诱导模型从“分析模式”切换到“对话/问答模式”,这种模式的切换具有传染性,会污染后续所有的分析。这对于社会科学研究意味着,数据的输入顺序本身就是一个必须被严格控制的变量,否则研究结果将无法复现。

3. 零样本与少样本的博弈
研究揭示了一个两难困境:

  • 零样本(Zero-shot):在独立窗口分析每个文本。这是最纯粹、最客观的方式,避免了上下文污染,但导致分类标准极其不一致(同一概念出现12种不同标签),且操作繁琐。
  • 少样本(Few-shot)/长上下文:在同一窗口连续分析。这能利用模型的短期记忆建立一致的分类体系(类似于人类编码员的熟练度提升),但随着对话进行,模型容易疲劳、产生幻觉或被特定样本带偏。
    结论指向了一个明确的方向:对于严谨的学术研究,不能依赖网页版ChatGPT的连续对话框来处理异质数据,API接口下的受控批处理才是唯一可行的路径。

4. 语言与文化的细微差别
研究特别提到了芬兰语中复合词(如“vihreä siirtymä”)的处理。这提醒非英语母语的研究者,LLM在处理特定语言的构词法和文化隐喻(如推文中提到的“火腿战争”)时,其表现往往不如英语稳定。这种语言特异性偏差是跨文化比较研究中必须警惕的噪音来源。

5. 环境伦理的考量
作者在讨论部分引入了环境伦理视角,这在技术应用类论文中并不多见但至关重要。如果AI产生的是无效的、幻觉的数据,那么其巨大的碳排放就是纯粹的浪费。这实际上是在呼吁一种“负责任的AI使用”——在决定使用AI替代人工编码之前,必须权衡其能耗与产出的有效性比率。


三、问答

1. 为什么说ChatGPT的“长上下文窗口”在实际文本分析中可能是一个陷阱?
答:虽然ChatGPT-4o拥有128k token的上下文窗口,但这并不意味着它能同等关注窗口内的所有信息。研究发现,当输入大量文本(如通过文件上传)时,模型会表现出“懒惰”行为,倾向于只处理开头和结尾的信息,忽略中间部分,甚至在被要求逐条分析时编造(幻觉)中间的数据。这种不可见的“跳读”会严重损害研究的完整性。

2. 在文本分析任务中,零样本(Zero-shot)和少样本(Few-shot)设置各有什么优缺点?
答:零样本(在独立窗口分析)的优点是避免了上下文污染和累积误差,每个分析都是独立的;缺点是分类标准不一致,同一概念可能有多种标签,且操作效率低。少样本(在同一窗口连续分析)的优点是模型能通过上下文建立一致的分类体系;缺点是容易受输入顺序影响,且随着对话延长可能出现模式崩溃或幻觉。

3. 数据的输入顺序如何影响ChatGPT的分析结果?
答:输入顺序具有决定性影响。研究表明,先输入推文还是先输入演讲,或者两者交替输入的顺序,会导致提取的关键词数量和生成的主题类别显著不同。这种“顺序偏差”意味着模型会受到先前处理内容的“启动效应”影响,从而改变对后续内容的理解框架。

4. 什么是“模式崩溃”或分析风格的恶化?
答:这是指模型在连续分析过程中,突然改变输出格式的现象。例如,模型原本被指令提取关键词列表,但当遇到一条包含问题或反讽的推文时,它可能突然切换到“聊天机器人”模式去回答问题或进行评论,并且这种错误的格式会延续到后续的分析中,导致结构化数据采集失败。

5. 混合不同类型的文本(如正式演讲和社交媒体推文)对分析有何影响?
答:混合文本类型会增加出错的风险。正式的议会演讲和非正式的推文在长度、语体和逻辑上差异巨大。研究发现,当这两者在同一会话中混合时,特别是以非正式文本干扰正式文本分析时,模型更容易出现格式混乱、遗漏关键词或产生幻觉。

6. 为什么研究者建议使用API而不是网页版ChatGPT进行严谨研究?
答:网页版ChatGPT存在不可控的上下文构建、静默更新(模型版本变化)、以及难以完全复现的对话环境。API允许研究者精确控制每个请求的参数(如温度),并在真正的零样本环境下进行批处理,从而避免了网页版中上下文累积带来的偏差和不可预测性。

7. 论文中提到的“幻觉”在文本分析中具体表现为什么?
答:除了常见的编造事实外,在文本分析中,“幻觉”还表现为:编造从未在文本中出现的关键词(如基于对主题的“猜测”而非实际文本);在批量处理时,重复前一个文本的分析结果来填充后一个文本;甚至在处理大文件时,完全虚构出不存在的文档内容(如编造一篇从未发生过的议会演讲)。

8. 对于非英语语言(如芬兰语),ChatGPT的分析表现有何特殊性?
答:ChatGPT在处理非英语语言的复合词和特定文化梗时可能存在不稳定性。例如,它可能将芬兰语的复合词拆解不当,或者在翻译主题时丢失原文的细微差别。此外,对于特定的文化双关语(如“火腿战争”),模型可能无法识别,导致关键词提取遗漏。

9. 作者如何看待使用AI进行研究的环境成本?
答:作者强调了AI模型巨大的碳足迹。如果AI产生的结果是不可靠的或需要大量人工修正的,那么这种高能耗就是不合理的。研究者在选择方法时,应权衡AI带来的效率提升与其环境成本,有时传统的人工编码或低能耗的NLP方法在生态和效果上可能更优。

10. 为了提高ChatGPT文本分析的可靠性,研究者应该采取哪些措施?
答:研究者应当:1. 优先使用API以确保环境可控;2. 对长文本或多文档避免一次性全量输入,防止“懒惰”效应;3. 严格控制并报告数据的输入顺序;4. 进行小规模的预实验以验证分类一致性;5. 必须包含人工验证步骤,专门检查是否存在幻觉和格式漂移,绝不能盲目信任AI的直接输出。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐