在这里插入图片描述

Code:https://github.com/subbareddy248/speech-llm-brain
Data:https://gin.g-node.org/denizenslab/narratives_reading_listening_fmri



Abstract

这项研究探讨了基于文本和基于语音的语言模型在预测大脑活动方面的不同效果。研究发现,当从模型中移除文本、语音和视觉等低层次特征后,基于文本的模型在早期感觉区域的预测能力下降,但在晚期语言区域仍保持较强的预测能力。而基于语音的模型即使在移除这些特征后,也能在早期听觉区域保持强大的预测能力,但在晚期语言区域的预测能力则完全丧失。这表明基于语音的模型可能提供了关于早期听觉区域处理的额外信息,但在模拟晚期语言区域的处理时需谨慎使用


Method

在这里插入图片描述

  1. 从语言模型表示中删除可解释的低级刺激特征;

    • Text-based models:BERT,GPT2,FLAN-T5
    • Speech-based models:Wav2Vec2.0,Whisper
  2. 估计删除特定特征之前和之后语言模型的表征与大脑(fMRI)对齐情况;

    • 低级语言特征:单词/语音表征
    • 大脑相应区域:Early Visual,Early Auditory,Late Language

在这里插入图片描述

  1. 显着性检验,以确定估计的大脑对齐度在删除低级特征前后的差异是否显着。

Results

Figures

  • 橙色:文本模型,绿色:语音模型
  • 实色:阅读模式,线型:听觉模式
  • 不同的浅色bar:分别去除某种低级特征(文本,语音,听觉)

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

Findings

Brain Alignment of Text-Based Language Models:

  • In late language regions:
    1. 在阅读和听力过程中都具有非常高的ROIs(图3a)
    2. 即使在阅读(图4a)和听觉(图 5a)过程中去除低水平特征后仍保留大部分对齐(显着高于机会水平)
    3. 阅读过程与听力相比具有更好的对齐,但是在删除低级文本特征后,这种差异很大程度上消失了(图 4a 和 5a)
    4. 这些结果表明,无论刺激方式如何,基于文本的语言模型与晚期语言区域的对齐并不是由于低级特征造成的。
  • In early sensory regions:
    1. 阅读过程中早期视觉区域的对齐几乎与晚期语言区域一样高(图3a)。然而,这种对齐很大程度上是由低级文本特征来解释的(图 4a)。
    2. 听力过程中早期听觉区域的对齐度也非常高,这几乎完全是由于低级文本特征造成的(图 5a)。

Brain Alignment of Speech-Based Language Models:

  • In late language regions:
    1. 基于语音的语言模型在阅读和听力过程中都具有较高的大脑对齐度,但不如基于文本的语言模型那么高(图 3)
    2. 去除低级特征后,在阅读(图 4b)和听力(图 5b)期间失去了大部分对齐度
    3. 基于语音的语言模型与晚期语言区域的对齐并不是由于与大脑相关的语义。
  • In early sensory regions:
    1. 阅读过程中早期视觉区域的对齐甚至高于晚期语言区域(图3b),这种对齐可以通过低级文本特征部分解释(图 4b)。
    2. 听力过程中早期听觉区域的对齐度非常高,这部分是由于低级文本或语音特征造成的。删除一组全面的低级特征后,仍然存在显着的无法解释的对齐。
    3. 这些结果表明,除了本研究中考虑的低级特征之外,还有其他信息,这些信息在早期感觉区域进行处理(图 5b),并由基于语音的语言模型捕获。

Conclusion

  1. 与不一致模态相关的感觉区域(即具有听觉区域的文本模型和具有视觉区域的语音模型)的模型的意外对齐完全是由于低水平刺激特征造成的,这些特征是文本和语音之间的相关性(例如字母数量和音素数量);
  2. 模型与各自的感觉区域表现出不同的一致性,这种差异不能单独归因于低水平的刺激特征。文本模型表现出与视觉和听觉区域相当的一致性,完全由低级文本特征驱动。相比之下,语音模型与听觉区域的一致性明显高于视觉区域,并且这种差异不能完全由所研究的低级刺激特征的综合集来解释。这强调了基于语音的语言模型能够捕获对早期听觉皮层至关重要的其他特征,暗示它们有可能增强我们对这一大脑区域的理解;
  3. 虽然基于文本和语音的模型都显示出与晚期语言区域的实质性对齐,但低级刺激特征对文本模型对齐的影响是微不足道的,而对于基于语音的模型,对齐完全是由这些低级刺激特征驱动的。由于这些区域据称代表语义信息,这一发现意味着当代基于语音的模型缺乏与大脑相关的语义。此外,这些结果意味着过去观察到的基于语音的模型和大脑记录之间存在相似性很大程度上是由于低级信息造成的。这种差异引发了人们对语音模型在晚期语言处理建模中的实用性的质疑,这与同一区域基于文本的模型的令人放心的发现形成鲜明对比。

未来,利用晚期语言区域中基于文本的模型和早期听觉区域中基于语音的模型的对齐优势可能会改进大脑中的端到端听力模型。


创作不易,麻烦点点赞和关注咯!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐