加拿大华人论坛加拿大新闻谷歌发现大模型“领悟”现象:训练久了AI突然顿悟!

日期：2023-08-13 栏目：加拿大新闻

多伦多 Toronto 蒙特利尔 Montreal 温哥华 Vancouver 卡尔加里 Calgary

在加拿大

发现谷歌久了现象训练领悟 大模型

哪怕只有几十个神经元，AI也能出现泛化能力！

这是几个谷歌科学家在搞正经研究时，“不经意间”发现的新成果。

他们给一些很简单的AI模型“照了个X光”——将它们的训练过程可视化后，发现了有意思的现象：

随着训练时间增加，一些AI会从“死记硬背”的状态中脱离出来，进化出“领悟力”（grokking），对没见过的数据表现出概括能力。

这正是AI掌握泛化能力的关键。

基于此，几位科学家专门写了个博客，探讨了其中的原理，并表示他们会继续研究，试图弄清楚大模型突然出现强理解力的真正原因。

一起来看看。

并非所有AI都能学会“领悟”

科学家们先探讨了AI出现“领悟力”（grokking）的过程和契机，发现了两个现象：

一、虽然训练时loss会突然下降，但“领悟”并不是突然发生的，它是一个平滑的变化过程。

二、并非所有AI都能学会“领悟”。

先来看第一个结论。他们设计了一个单层MLP，训练它完成“数奇数”任务。

“数奇数”任务，指识别一串长达30位“0”“1”序列中的前3位是否有奇数个“1”。例如，在

000110010110001010111001001011中，前3位没有奇数个1；010110010110001010111001001011中，前3位有奇数个1。

在训练前期阶段，模型中各神经元的权重（下图中的热图）是杂乱无章的，因为AI不知道完成这一任务只需要看前3个数字。

但经过一段时间的训练后，AI突然“领悟了”，学会了只看序列中的前3个数字。具体到模型中，表现为只剩下几个权重会随着输入发生变化：

这个训练过程的目标被称之为最小化损失（提升模型输出准确率），采用的技术则被称之为权重衰减（防止模型过拟合）。

训练过程中，有一些权重与任务的“干扰数字”（30位序列的后27位）相关，下图可视化为灰色；有一些则与完成任务的“前3位数字”有关，下图可视化为绿色。

当最后一个灰色权重降到接近0，模型就会出现“领悟力”，显然这个过程不是突然发生的。

再来看第二个结论。不是所有AI模型都能学会“领悟”。

科学家们训练了1125个模型，其中模型之间的超参数不同，每组超参数训练9个模型。

最后归纳出4类模型，只有2类模型会出现“领悟力”。

如下图，“白色”和“灰色”代表学不会“领悟”的AI模型，“黄色”和“蓝色”代表能“领悟”的AI模型。

总结概括规律就是，一旦权重衰减、模型大小、数据量和超参数的设置不合适，AI的“领悟力”就有可能消失——

以权重衰减为例。如果权重衰减太小，会导致模型过拟合；权重衰减太大，又会导致模型学不到任何东西。

嗯，调参是门技术活……

了解现象之后，还需要探明背后的原因。

接下来，科学家们又设计了两个小AI模型，用它来探索模型出现“领悟力”、最终掌握泛化能力出现的机制。

更大的模型学会泛化的机制

科学家们分别设计了一个24个神经元的单层MLP和一个5个神经元的单层MLP，训练它们学会做模加法（modularaddition）任务。

模加法，指(a + b) modn。输入整数a和b，用它们的和减去模数n，直到获得一个比n小的整数，确保输出位于0~(n-1)之间。

显然，这个任务的输出是周期性的，答案一定位于0~66之间。

首先，给只有5个神经元的单层MLP一点“提示”，设置权重时就加入周期性（sin、cos函数）。

在人为帮助下，模型在训练时拟合得很好，很快学会了模加法。

然后，试着“从头训练”具有24个神经元的单层MLP，不特别设置任何权重。

可以看到，训练前期，这只MLP模型的权重（下面的热图）变化还是杂乱无章的：

然而到达某个训练阶段后，模型权重变化会变得非常规律，甚至随着输入改变，呈现出某种周期性变化：

如果将单个神经元的权重拎出来看，随着训练步数的增加，这种变化更加明显：

这也是AI从死记硬背转变为具有泛化能力的关键现象：神经元权重随着输入出现周期性变化，意味着模型自己找到并学会了某种数学结构（sin、cos函数）。

这里面的频率（freq）不是固定的一个值，而是有好几个。

之所以会用到多个频率（freq），是因为24个神经元的单层MLP还自己学会了使用相长干涉（constructiveinterference），避免出现过拟合的情况。

不同的频率组合，都能达到让AI“领悟”的效果：

用离散傅里叶变换（DFT）对频率进行隔离，可以发现和“数奇数”类似的现象，核心只有几个权重起作用：

总结来看，就像前面提到的“数奇数”任务一样，“模加法”实验表明，参数量更大的AI也能在这个任务中学会“领悟”，而这个过程同样用到了权重衰减。

从5个神经元到24个神经元，科学家们成功探索了更大的AI能学习“领悟”的机制。

接下来，他们还计划将这种思路套用到更大的模型中，以至于最后能归纳出大模型具备强理解力的原因。

不仅如此，这一成果还有助于自动发现神经网络学习算法，最终让AI自己设计AI。

团队介绍

撰写博客的作者来自谷歌的People + AI Research（PAIR）团队。

这是谷歌的一个多学科团队，致力于通过基础研究、构建工具、创建框架等方法，来研究AI的公平性、可靠性等。

<

p style=”text-align:center;”>

一句话总结就是，让“AI更好地造福于人”。

·生活百科良好的三相电池系统？
·生活百科太阳报价

医药反腐如火如荼医生干脆“躺平”休假不愿做手术

加拿大新闻-加拿大

医药反腐如火如荼医生干脆“躺平”休假不愿做手术

华人网内地医疗反腐进行得如火如荼，不过有内媒报道指，由于医院内部管控严格，部分医生在反腐风暴下不愿意做手术，导致手术量大减，可做可不做的手术就一律不做。还有医生干脆轮番 ...

杜鲁多召集紧急内阁会议研西北地区严峻山火(图)

加拿大新闻-加拿大

杜鲁多召集紧急内阁会议研西北地区严峻山火(图)

华人网总理杜鲁多周四在召集一个高级别紧急会议，研讨威胁西北地区的严重山火。因山火迫近，西北地区首府黄刀的居民周三已被下令开始疏散，改疏散令影响到近22,000人。杜鲁多此前一 ...

邹至蕙要求开徵市政销售税省长办公室不置可否(图)

加拿大新闻-加拿大

邹至蕙要求开徵市政销售税省长办公室不置可否(图)

华人网多伦多市长邹至蕙表示﹐多市财政陷入前所未有的危机﹐市府正研究多项开源的方法﹐包括开徵市政销售税﹐希望在未来10年﹐为市府带来465亿元的收入﹐从而纾缓财政压力。多市今﹑ ...

国际人权报告：中国社群集体仇黑丑化非洲

加拿大新闻-加拿大

国际人权报告：中国社群集体仇黑丑化非洲

华人网p style=text-align: center;>“抖音挑战”重大争议社群媒体平台充斥种族歧视视频国际人权组织“人权观察”十六日发布调查报告指出，中国热门社群媒体平台上经常可见中国网友歧视其他 ...

全美最新民调近半美国人支持禁用中国TikTok

加拿大新闻-加拿大

全美最新民调近半美国人支持禁用中国TikTok

华人网根据路透／易普索16日公布的最新线上民调结果，近半数美国成年人支持禁用中国应用程式TikTok。（路透档案照）根据路透／易普索十六日公布的最新线上民调结果，近半数美国成年人 ...

运联再搞抽奖大奖可免费乘搭大温交通工具5年(图)

加拿大新闻-加拿大

运联再搞抽奖大奖可免费乘搭大温交通工具5年(图)

华人网运联(TransLink)再次推出抽奖活动「Tap In to Win」，所有使用运联服务的乘客只要是年满18岁的卑诗省居民，并使用已登记的康百世卡(Compass Card)拍卡乘车便可参加，奖品包括5年的年票、旅 ...

洗洗睡吧！德国顶尖研究所证实:“LK-99”不是超导体

加拿大新闻-加拿大

洗洗睡吧！德国顶尖研究所证实:“LK-99”不是超导体

华人网德国马克斯—普朗克固体研究所合成出最纯粹的“LK-99”，分析后排除其为常温常压超导体的可能性。。图为该实验材料LK-99在磁铁上展现抗磁性。（图取自ScienceCast网站）韩国科学家日 ...

【专访】蒙城亚洲夜市创办人胡逸芳：我感觉对唐人街有份责任

加拿大新闻-加拿大

【专访】蒙城亚洲夜市创办人胡逸芳：我感觉对唐人街有份责任

华人网首次与享誉国际的街头壁画节（MURAL）合作，集美食、文化于一体。今年五月，亚裔文化月开幕，胡逸芳（右）与加拿大华裔联邦部长伍凤仪在蒙城唐人街参与活动时留影。照片：Rad ...

PNE园游会本周六开幕设莫内艺术展、猪赛跑、穿梭火车(图)

加拿大新闻-加拿大

PNE园游会本周六开幕设莫内艺术展、猪赛跑、穿梭火车(图)

华人网太平洋国家展览会（PNE）第113届园游会（Fair）将于本周六开幕，举行至9月4日。本届园游会新设了不少节目。首先有享誉盛名的Beyond Monet印象派画家莫内沉浸式艺术展、标志性的「超级 ...

拜登宣布对中、德、加食品罐头薄金属加征关税

加拿大新闻-加拿大

拜登宣布对中、德、加食品罐头薄金属加征关税

华人网镀锡钢板俗称马口铁，常用于制造食品罐头。拜登政府17日计划宣布对产于中国、德国和加拿大的马口铁加征关税。维基百科拜登政府17日计划宣布对产于中国、德国和加拿大的生产食 ...

【西北地区山火】国防部长称准备下令空运黄刀居民撤离(图)

加拿大新闻-加拿大

【西北地区山火】国防部长称准备下令空运黄刀居民撤离(图)

华人网国防部长布莱尔周四称，他已经准备好下令加军军机空运黄刀居民撤离。因山火逼近，黄刀居民周三被下令立即撤离。疏散令影响大约22,000名民众。布莱尔表示，商业飞机仍在接载当地 ...

中国的好兄弟——俄罗斯，已经快没钱了

加拿大新闻-加拿大

中国的好兄弟——俄罗斯，已经快没钱了

华人网1948年，中国正遭遇前所未有的通货膨胀。抗日战争结束时，原本各地物价都普遍猛烈下跌。但内战既起，南京政府平均每个月，要发行一万多亿元法币，来填军费造成的财政窟窿。过 ...

走线:为了润，他们在拉美长征四千公里

加拿大新闻-加拿大

走线:为了润，他们在拉美长征四千公里

华人网连江理著个小平头，平日烟不离手。虽然他年纪轻，不过三十出头，但说起话来总显得老气横秋。连江出身在广东省清远的小农村，从小就开始帮著父母下地种田。这几年家里经济状况 ...

皮蓬气哭！32岁乔丹儿子迎娶48岁皮蓬前妻

加拿大新闻-加拿大

皮蓬气哭！32岁乔丹儿子迎娶48岁皮蓬前妻

华人网8月18日消息，公牛传奇迈克尔-乔丹和皮蓬最不希望看到的一幕要发生了！48岁的皮蓬前妻即将与32岁的乔丹儿子马库斯举行婚礼，两人正在寻找婚礼场所，新娘连婚纱礼服都已经订好了。 ...

加拿大新闻-加拿大

外媒：恒大集团在美申请破产保护

华人网8月18日消息，美国当地时间周四，法庭文件显示，中国恒大集团已经依据美国《破产法》第15章在纽约申请破产保护。此举是为了恒大集团在其他地方进行重组之际，保护其美国资产不受 ...

方舱重现:239条标书,95个项目,7亿投资

加拿大新闻-加拿大

方舱重现:239条标书,95个项目,7亿投资

华人网这波方舱医院相关项目公告时间以2023年5-7月最多，涉及22个省级行政区，重庆、黑龙江、四川公告数最多。从方舱项目所处阶段来看，主要有新建项目（含设备采购）、升级改造项目（ ...

夏威夷火灾:超百人死亡，游客跳太平洋逃生

加拿大新闻-加拿大

夏威夷火灾:超百人死亡，游客跳太平洋逃生

华人网一边灾民忙于重建，一边数千游客继续度假。全文2931字，阅读约需6分钟新京报记者栾若曦编辑张磊校对李立军美国夏威夷州经历了自1959年建州以来死亡人数最多的灾难，毛伊岛的 ...

一兆韦德北京多店停业、换壳,创始人陷跑路风波

加拿大新闻-加拿大

一兆韦德北京多店停业、换壳,创始人陷跑路风波

华人网截止2023年8月16日，在一兆韦德官方小程序上，北京尚有七家门店在列，但仅有位于亮马桥的大使馆店，仍使用一兆韦德的名字营业。 “一兆韦德”，这个曾经国内市场最大连锁健身机构 ...

福原爱与前夫夺子风波升级:或面临国际通缉？

加拿大新闻-加拿大

福原爱与前夫夺子风波升级:或面临国际通缉？

华人网8月的一天，新加坡滨海湾金沙酒店顶楼，从著名的空中泳池望下去，包括鱼尾狮在内的美景尽收眼底。身着蓝色泳衣的福原爱正同一个小男孩嬉戏。眼下，这位有着超高人气的日本乒坛 ...

梅西:从未重视金球奖!世界杯夺冠后更不考虑

加拿大新闻-加拿大

梅西:从未重视金球奖!世界杯夺冠后更不考虑

华人网周日，迈阿密国际将在中北美联赛杯决赛对阵纳什维尔。梅西第一次参加了赛前新闻发布会，让我们来看看他都说了些什么吧。对目前的成绩是否满意？梅西：来到美国时，我怀着巨大 ...