有多少人小时候,干过这样的「兼职」?
给爸爸妈妈捶捶背、按按腰,忙活半天换来微薄的零花钱。考试成绩进步了几名,家长也可能「大手一挥」,奖励我们心心念念很久的玩具。
现在回头看,这些奖励确实谈不上多丰厚,但当时对我们却有着惊人的吸引力。现在,很多人对此也早已习以为常了,“表现好就给点奖励,以资鼓励”再正常不过了。
但奖励究竟为什么让人学得更积极?如果奖励再大一些,学习效率会不会也跟着提高呢?
近期,来自霍华德·休斯医学研究所的研究团队发表于Science的一项研究发现,给小鼠的奖励越丰厚,它们学习新任务的速度就越快。更大的奖励会让多巴胺释放持续更长时间,从而显著提升学习效率。
标题
按照经典理论,多巴胺编码“奖励预测误差”。我们实际拿到的奖励和预期之间存在的差距,驱动学习的进行。
但最近有研究者提出,多巴胺可能还调节另一个参数:学习率,也就是我们从每次奖励中能吸收多少信息。
如果这个说法成立,那奖励的绝对大小就应该直接影响学习速度。然而,不同实验室用的奖励能差几十倍,却几乎没人系统比较过。而多数实验用的奖励,连动物每天需求量的1%都不到。

给予少量但非常大的奖励,学习速度更快
研究团队进行了五种实验,在控制每日总奖励液体量相同的前提下,仅仅改变了单次奖励的体积:标准组单次给予3–5 μL糖水,大奖励组提升至50–100 μL,单次奖励幅度扩大了10–20倍。
为了验证奖励大小究竟会不会影响学习速度,研究团队先给小鼠安排了隐藏目标导航任务。
其中,标准奖励组每完成一次任务,可以获得5 μL糖水,因此一天大约能尝试180次;而大奖励组每次能获得100 μL糖水,但因为很快就喝饱了,一天只能尝试约9次。
按常理来说,练习次数多的一方似乎更占优势。但结果,大奖励组的小鼠只用了寥寥几次尝试,就迅速掌握了任务;而标准奖励组却需要经历数百甚至上千次尝试,才能达到类似水平。
并且,随着单次奖励不断增加,小鼠的学习效率也一路攀升;当奖励超过50 μL时,这种提升基本达到了峰值。
随后,研究团队又进行了一次“先甜后淡”的“降奖励”实验。他们只在训练第一天给小鼠发放100 μL的大奖励,之后便全部换回5 μL的标准奖励。结果,小鼠不仅没有“摆烂”,反而保留了第一天学到的技能,后续学习进度也没有明显放缓,整体表现几乎和全程享受大奖励的小鼠不相上下。
可见,大奖励带来的学历速度的提升,并不是昙花一现的。哪怕奖励后来缩水了,最初建立起来的学习优势还是能够持续保留。

大奖励显著加快初始任务学习速度
与此同时,标准奖励组的小鼠在训练中可以说是“高开低走”。任务刚开始,它们越学越顺,可一到某个峰值,突然出现“任务脱离”,状态断崖式崩了。后面,它们再怎么练也基本“废了”,直到当天训练结束。
反观大奖励组,只要给上几次大奖励,它们很快就能进入状态,从头到尾保持专注,几乎不“掉线”。
不光这样,这种好处还能过夜。对大奖励组的小鼠来说,前一天学会的东西,第二天上来就能接着用;但标准组小鼠前一天好不容易攒下来的学习成果,过了一夜后,几乎都抛到了九霄云外。

会话内的动态反映了持续的学习和参与
从机制上来说,大奖励提升学习效率的关键藏在多巴胺的“续航能力”上。奖励越大,伏隔核中的多巴胺信号持续的时间更长。
多巴胺更持久的释放带来了两个实打实的好处:一是让小鼠在单次训练里学得更快,二是几乎彻底消灭了那种“练着练着突然摆烂”的任务脱离现象,让它们能从头专注到尾。

多巴胺对学习和参与度的不同影响
总体而言,上述研究揭示了,给小鼠的那点“塞牙缝”奖励,可能根本没能激发出它们真正的学习能力。
大幅提高单次奖励后,即便它们每天的训练次数从180次骤降到9次,学习新任务的速度却不降反升,甚至快了10倍以上。与此同时,原本在训练过程中经常出现的“学着学着就没状态了”的任务脱离现象也几乎消失了。
而且,重赏之下,前一天积累下来的学习成果,还能顺利延续到第二天,不必再从头开始重新进入状态。
参考资料:
https://www.science.org/doi/10.1126/science.aeb0813