尊龙游戏人生就是博

爆❌喷水❌洗澡❌tiktok 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

目今位置:首页专题合集 → w3u7903ejky2ywls

尊龙凯时 - 人生就是搏!

下一句会是什么?我们是否高估了展望编码理论?

下一句会是什么?我们是否高估了展望编码理论?

文 | 追问nextquestion

当以ChatGPT为代表的许多大语言模子 ,能够实现相瞄准确地展望大脑对语言使命的反应时 ,是否可以以为大语言模子捕获到了大脑语言认知加工的一些深层机制?换言之 ,大脑也接纳类似大语言模子的展望编码机制——一直展望并修正过失?

这种推论是否经得起科学的磨练?GPT的展望与人脑语言反应的高度相关 ,事实是“认知实质” ,照旧只是“统计上的巧合”?

01 展望编码理论

在20世纪 ,我们以为大脑从感官中提取知识。21世纪则见证了一场“希奇的反转” ,大脑被视为一个推理的器官 ,会自动地为外部天下爆发的事情构建诠释[1]。在这场转变中 ,展望编码(Predictive coding)理论饰演了主要角色。

20世纪90年月 ,心理学家Karl Friston提出了展望编码理论 ,提供了一个关于大脑怎样加工的高条理形貌。该理论以为 ,大脑在未来事务爆发之前就在一直地实验对其举行展望 ,然后将展望与视察举行较量 ,当展望与现实的感官输入不匹配时 ,大脑会对展望举行调解与更新以镌汰这种展望误差(prediction error)。作为一种认知理论 ,展望编码理论为大脑信息加工提供了一种看法精练、机制合理的详细目的 ,获得了许多研究者的青睐。

?简化的感受展望模子。蓝色箭头指示怎样更新展望神经元 ,并转达到较低的条理结构级别。红色箭头指示怎样天生展望误差并将其进给到更高的条理结构级别。图源:doi:10.3389/fpsyt.2020.557932.

展望编码理论相关研究最早可追溯到视觉加工领域。20世纪末 ,Rao和Ballard提出了一种视觉加工的展望编码模子:高级视觉区域会对初级视觉区域的运动举行展望 ,初级视觉区域则反过来向高级视觉区域转达展望误差 ,即未能被展望的“新颖”信息[2]。通过模拟剖析 ,他们发明这种简朴的层级架构不但与神经剖解学和心理学证据一致 ,还能诠释一些重大的反应[1]。

不但仅是视觉加工 ,展望编码也为感知、注重、学习、运动控制等认知功效提供了一种统一的框架。以语言加工为例 ,展望编码理论以为 ,在感知到自然语言的刺激时 ,大脑会先发制人地关于未来会泛起的词语和句子举行展望。展望编码理论获得了多方证据支持 ,一方面 ,许多研究发明了与句法或语法纷歧致文句有关的电心理信号;另一方面 ,体现展望编码理论的神经网络语言模子(Neural Network Language Models, NNLM)能有用地诠释由自然语言引发的大脑运动。

为什么使用NNLM能云云有用地展望大脑关于自然语言的反应?一种颇具吸引力的看法以为 ,语言模子和大脑是相似的 ,它们在语言认知加工方面具有相同的目的 ,即对未来即将泛起的文句举行展望。近期 ,来自德克萨斯大学奥斯汀分校的Antonello和Huth在Neurobiology of Language发文 ,对此看法提出了质疑[3]。

02 神经网络语言模子

单向的NNLM是一种用于单词展望使命的人工神经网络 ,能够基于语料库 ,凭证上文信息天生下一个单词的概率漫衍。例如 ,上文是“they say his father was a f____” ,关于f开头的单词 ,NNLM会展望一系列候选词泛起的概率 ,对更有可能泛起的词语(如fisherman)付与更高的概率[4]。与翻译、问答等需要标注数据的使命相比 ,NNLM的突出优势在于可使用险些所有自然语言文本举行训练 ,拥有学习许多差别类文本统计纪律的能力。

?实验和剖析框架的示意图。(a)(顶部)在两个实验中 ,加入者在纪录大脑运动时都聆听了有声读物的一连录音。(底部)加入者听取的文本由深度神经网络(GPT-2)剖析 ,以量化每个单词的上下文概率。使用基于回归的手艺来预计(差别级别)语言意外性对一连纪录中诱发响应的影响。(b)剖析的数据集:一个组级的脑电图数据集和一个单独的主题源源定位的MEG数据集。图源:[4]

近些年来 ,NNLM也催生了一类范式:语言模子微调(language model fine-tuning)。从已有NNLM中提取出的表征可重新用于其他的语言使命 ,如识别命名实体、情绪剖析等。研究者发明 ,凭证NNLMs微调获得的模子 ,往往比凭证特定使命重新最先训练获得的模子体现更优 ,微调后的模子允许使用原始的NNLM学习到的语言特征 ,有助于填补许多语言使命训练数据的本钱问题(即手工标注数据腾贵且有限)[5]。

?图源:https://www.ruder.io/

现在 ,最先进的NNLM通常包括一系列结构相同的加工?椋磘ransformers) ,其机制是点积注重力(dot product attention) ,有选择性地加工输入中的一部分元素。每个transformer的输出被称为隐藏态(hidden state) ,是对输入的编码表征。NNLM的输入通常是词嵌入(word embeddings) ,通过transformer最终转化为对下一个单词的展望。在评价NNLM的体现时 ,研究者常使用疑心度(perplexity)这个指标 ,疑心度越低 ,意味着模子给现实的下一个单词付与了越高的概率。

03 神经科学研究中的NNLM

NNLM能够应对许多差别类型的语言使命 ,因此神经科学家也使用NNLM来展望大脑关于自然语言的反应。研究者建设了使用从语言刺激中导出的特征来展望大脑对自然语言反应的回归模子 ,称之为编码模子(encoding model)。与使用源于非情景化词嵌入空间的表征相比 ,使用NNLM天生的表征的编码模子体现更好 ,这样的编码模子也被称为基于语言模子的编码模子(LM-based encoding model)。

为什么引入语言模子有助于提升编码模子在展望大脑反应时的体现?一种盛行的假设以为 ,基于语言模子的编码模子与大脑有相同的目的——对还未泛起的单词举行展望。

例如 ,Schrimpf等人(2021)基于语言明确使命的三大神经数据集* ,考察了多种NNLM的体现。效果批注 ,在展望大脑关于语句的神经反应时 ,最优的模子能对险些100%的可诠释方差举行展望。别的 ,他们还发明 ,模子关于神经数据、行为数据(即阅读时间)的拟合效果与模子在单词展望使命中的准确性之间保存强相关。这进一步批注 ,单词展望可能是语言认知加工的基础部分[6]。

*注:这些数据集包括三组神经数据。1)逐句泛起条件下阅读话题多样的短篇文字时的fMRI数据(Pereira, 2018);2)逐词泛起条件下阅读语法句法各异的句子时的ECoG数据(Fedorenko, 2016);3)听时长约5min的故事时的fMRI血氧信号时序数据(Blank, 2014)。

Goldstein等人(2021)进一步发明 ,纵然去除了简朴的语境和语义信息(如词义) ,也能凭证在词语泛起之前的大脑反应 ,显著地展望出NNLM对未来词语的表征[7]。类似地 ,Caucheteux等人(2021)发明 ,与只使用目今语境的信息相比 ,增添未来词语的嵌入有助于提升基于语言模子的编码模子的体现[8]。

这些研究效果都试图批注 ,拥有更好的词语展望能力的模子也具备更强的编码能力。我们能否就因此得出“大脑在语言加工时举行了展望式编码”的一定结论呢?

04 差别于展望编码的替换诠释

若是大脑可以对某个特征举行编码 ,那么 ,在其它因素相同的情形下 ,能和大脑一样对同样特征举行编码的模子将比其他模子体现更好。凭证这一逻辑 ,过往研究反推 ,既然拥有词语展望能力的模子比其他模子在诠释大脑运动方面体现更优 ,那么大脑也同样会对未来的词语举行展望。

可是 ,Antonello和Huth关于这一逆命题坚持嫌疑态度。他们还指出 ,现有的研究证据都是相关性数据 ,无法以此得出“由于举行了展望编码 ,以是在展望词语时体现更好”这样的因果性推论。

为此 ,他们睁开了一项基于fMRI数据集使用NNLM的剖析研究 ,并提出了一种差别于展望编码理论的诠释——表征普遍性(representational generality)。他们以为 ,基于语言模子的编码模子捕获到了某些普遍信息 ,因此在展望语言使命中的大脑反应时体现优异。

研究中使用的数据集包括5名康健被试在听英语博客故事时的fMRI数据(含训练集与测试集)。在预处置惩罚后凭证训练集数据天生了97种差别的体素级大脑编码模子* ,使用岭回归要领展望在测试集中大脑的血氧反应 ,所有被试的平均体现作为编码模子的体现指标。关于词语展望使命 ,该研究凭证编码模子的表征与下一个词语的GloVe嵌入举行了线性回归 ,盘算了此回归模子对下一个词语概率漫衍的展望与现实漫衍之间的交织熵 ,并以此作为编码模子在词语展望使命中的体现指标(即疑心度)。

*注:该研究从多种自然语言处置惩罚模子中提取了97种语言表征。详细来说 ,包括3种词嵌入空间(GloVe、BERT-E和FLAIR)、3种单向语言模子(GPT-2 Small、GPT-2 Medium和Transformer-XL)、2种掩码双向语言模子(BERT和ALBERT)、4种常见的可诠释的语言标注使命(命名实体识别、词性标注、句子分块和框架语义剖析)以及2种机械翻译模子(英中和英德)。完整细节可在https://doi .org/10.1162/nol_a_00087中举行阅读。

首先 ,与过往研究一致 ,该研究也发明了模子的编码体现与对下一个词语的展望体现之间保存高相关(相关系数r=0.847)。然而 ,高相关可能与模子表征包括的信息能够普遍适用于多种语言使命(包括词语展望)有关。

因此 ,研究进一步剖析了每种模子表征对其他96种表征的展望能力 ,展望能力越强意味着表征包括的普遍性信息越多。效果批注 ,表征的普遍性与编码体现之间也保存高相关(相关系数r=0.864);谎灾 ,编码体现越好的模子其表征普遍性也越高。

最后 ,研究还探讨了每种模子表征关于英德翻译模子表征的展望能力 ,依然获得了高相关(相关系数r=0.780)。该效果进一步说明 ,面向多种语言使命的迁徙能力 ,而非展望能力 ,才是语言模子体现优异的焦点缘故原由。

别的 ,研究还针对GPT-2 Small和GPT-2 Medium两个模子举行了剖析。这些NNLM模子在处置惩罚文本信息时 ,会将词语从模子的第一层最先输入并穿越众多中心层 ,在最后一层举行下一个词的展望。若是展望编码理论建设 ,那么就应该视察到随着模子深度加深 ,编码与展望体现都应有显着提升。

思量位于差别深度的表征的编码与展望体现 ,研究发明语言模子的编码体现在模子深度的60%到80%之间抵达了峰值 ,然后在更深入的后期条理中蓦然下降;同时 ,模子关于下一个词语的展望能力 ,并未随着抵达最后一层而较中心层有显著提升。总的来看 ,这些效果都未能为展望编码理论提供支持。

?GPT-2小型、中型编码模子随层深转变的编码体现。图源:[3]

05 结语

自ChatGPT以来 ,语言模子已经进入了千家万户。关于研究者而言 ,人工造物能展现出与大脑类似或相同的体现自然是令人欣喜的 ,但因此推断人类的大脑也以语言模子的方法加工信息事实是否合适?Antonello和Huth的这项研究为我们提供了另一可能的诠释:表征普遍性可能才是语言模子体现优异的要害之处。NNLM以普遍的自然语言文本作为训练集 ,基于此的编码模子可能捉住了人类语言中的某些普遍性信息 ,因而拥有强盛的能力以应对种种语言使命(不但限于词语展望)。

Antonello和Huth以为作为一种科学理论 ,展望编码理论只是被诠释为“大脑以展望作为语言加工的目的”显得太过模糊 ,缺乏明确的界说和可证伪的表述。

但他们也没有否定展望编码理论。作为一项认知理论 ,展望编码理论能够诠释许多征象 ,只不过在判断研究证据是否能为展望编码理论提供支持方面 ,研究者理应更为审慎些。许多被以为支持展望编码的证据 ,纵然在没有展望编码的情形下也可能是准确的 ,本研究提出的表征普遍性便可以用来诠释这些证据。

未来的研究应该寻找能够明确区分大脑是否举行展望编码的奇异可丈量征象。例如 ,发明一些自然保存的、以展望编码作为语言学习目的的初级神经环路 ,或将成为强有力的证据。

参考文献

[1] Friston, K. (2018). Does predictive coding have a future? Nature Neuroscience, 21(8), 1019–1021. https://doi.org/10.1038/s41593-018-0200-7

[2] Rao, R. P. N., & Ballard, D. H. (1999). Predictive coding in the visual cortex: A functional interpretation of some extra-classical receptive-field effects. Nature Neuroscience, 2(1), 79–87. https://doi.org/10.1038/4580

[3] Antonello, R., & Huth, A. (2024). Predictive Coding or Just Feature Discovery? An Alternative Account of Why Language Models Fit Brain Data. Neurobiology of Language, 5(1), 64–79. https://doi.org/10.1162/nol_a_00087

[4] Heilbron, M., Armeni, K., Schoffelen, J.-M., Hagoort, P., & de Lange, F. P. (2022). A hierarchy of linguistic predictions during natural language comprehension. Proceedings of the National Academy of Sciences, 119(32), e2201968119. https://doi.org/10.1073/pnas.2201968119

[5] Dodge, J., Ilharco, G., Schwartz, R., Farhadi, A., Hajishirzi, H., & Smith, N. (2020). Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping (arXiv:2002.06305). arXiv. https://doi.org/10.48550/arXiv.2002.06305

[6] Schrimpf, M., Blank, I. A., Tuckute, G., Kauf, C., Hosseini, E. A., Kanwisher, N., Tenenbaum, J. B., & Fedorenko, E. (2021). The neural architecture of language: Integrative modeling converges on predictive processing. Proceedings of the National Academy of Sciences, 118(45), e2105646118. https://doi.org/10.1073/pnas.2105646118

[7] Goldstein, A., Zada, Z., Buchnik, E., Schain, M., Price, A., Aubrey, B., Nastase, S. A., Feder, A., Emanuel, D., Cohen, A., Jansen, A., Gazula, H., Choe, G., Rao, A., Kim, S. C., Casto, C., Fanda, L., Doyle, W., Friedman, D., … Hasson, U. (2021). Thinking ahead: Spontaneous prediction in context as a keystone of language in humans and machines. BioRxiv. https://doi.org/10.1101/2020.12.02.403477

[8] Caucheteux, C., Gramfort, A., & King, J.-R. (2021). Long-range and hierarchical language predictions in brains and algorithms (arXiv:2111.14232). arXiv. https://doi.org/10.48550/arXiv.2111.14232

相关推荐:男女无遮挡XXOO120动态图 贱奴含了主人一夜的脚趾男 国产精品㊙️天美传媒口

分享: 2025-07-18 23:24:23 共81款

电脑

安卓

苹果

相关合集

网友谈论 审查所有谈论>>

揭晓谈论

(您的谈论需要经由审核才华显示) 网友粉丝QQ群号:766969941

审查所有0条谈论>>

【网站地图】【sitemap】