加拿大华人论坛加拿大新闻AI考高数,反而“卷死”了一大帮计算机博士

日期：2022-07-02 栏目：加拿大新闻

多伦多 Toronto 蒙特利尔 Montreal 温哥华 Vancouver 卡尔加里 Calgary

在加拿大

计算机 反而考高 一大帮 卷死

高数考不好，不知道是多少人的噩梦。

如果说你高数考得还不如 AI 好，是不是就更难以接受了？

没错，来自 OpenAI 的 Codex 已经在 MIT 的 7 门高数课程题目中正确率达到 81.1%，妥妥的 MIT本科生水平。

课程范围从初级微积分到微分方程、概率论、线性代数都有，题目形式除了计算、甚至还有画图。

这件事最近还登上了微博热搜。

” 仅 ” 得 81 分，对 AI 的期待也太高了吧

现在，谷歌那边又传来了最新大消息：

不止数学，我们的 AI 甚至在整个理工科上，都已经拿到最高分啦！

看来在培养 “AI 做题家 ” 这件事上，科技巨头们已经卷出了新高度。

谷歌这个最新 AI 做题家，参加了四门考试。

数学竞赛考试 MATH，以往只有三届 IMO 金牌得主才拿过 90 分，普通的计算机博士甚至只能拿到 40 分左右。

至于别的 AI 做题家们，以前最好成绩只有 6.9 分……

但这一次，谷歌新 AI 却刷到了 50 分，比计算机博士还高。

综合考试 MMLU-STEM，内含数理化生、电子工程和计算机科学，题目难度达到高中甚至大学水平。

这一次，谷歌 AI” 满血版 “，也都拿到了做题家中的最高分，直接将分数拉高了 20 分左右。

小学数学题 GSM8k，直接将成绩拉升到 78 分，相比之下 GPT-3 还没及格（仅 55分）。

就连 MIT 本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程，谷歌新 AI 也能在 200多道题中，答出将近三分之一。

最重要的是，与 OpenAI 凭借 ” 编程技巧 ” 取得数学高分的方法不同，谷歌 AI 这一次，走的可是 ” 像人一样思考 “的路子——

它像一个文科生一样只背书不做题，却掌握了更好的理工科解题技巧。

值得一提的是，论文一作 Lewkowycz 还分享了一个论文中没写到的亮点：

我们的模型参加了今年的波兰数学高考，成绩比全国平均分还要高。

看到这里，有的家长已经坐不住了。

如果告诉我女儿这件事，我怕她用 AI 做作业。但如果不告诉她，就没有让她对未来做好准备！

在业内人士看来，只靠语言模型，不对算数、逻辑和代数做硬编码达到这种水平，是这项研究最惊艳的地方。

那么，这是怎么做到的？

AI 狂读 arXiv 上 200 万篇论文

新模型 Minerva，基于 Pathway 架构下的通用语言模型 PaLM 改造而来。

分别在 80 亿、600 亿和 5400 亿参数 PaLM 模型的基础上做进一步训练。

Minerva 做题与 Codex 的思路完全不同。

Codex 的方法是把每道数学题改写成编程题，再靠写代码来解决。

而 Minerva 则是狂读论文，硬生生按理解自然语言的方式去理解数学符号。

在 PaLM 的基础上继续训练，新增的数据集有三部分：

主要有 arXiv 上收集的 200 万篇学术论文，60GB 带 LaTeX 公式的网页，以及一小部分在 PaLM训练阶段就用到过的文本。

通常的 NLP 数据清洗过程会把符号都删掉只保留纯文字，导致公式不完整，比如爱因斯坦著名的质能方程只剩下了 E=mc2。

但谷歌这次把公式都保留，和纯文本一样走一遍 Transformer 的训练程序，让 AI 像理解语言一样去理解符号。

与之前的语言模型相比，这是 Minerva 在数理问题上表现更好的原因之一。

但与专门做数学题的 AI 相比，Minerva 的训练中没有显式的底层数学结构，这带来一个缺点和一个优点。

缺点，是可能出现 AI 用错误的步骤得到正确答案的情况。

优点，是可以适应不同学科，即使有些问题无法用正规的数学语言表达出来，也可以结合自然语言理解能力解出来。

到了 AI 的推理阶段，Minerva 还结合了多个最近谷歌开发的新技术。

先是 Chain of Thought 思维链路提示，今年一月由谷歌大脑团队提出。

具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI 在做题时就可以采用类似的思考过程，正确回答本来会答错的题目。

再有是谷歌和 MIT 合作开发的 Scrathpad 草稿纸方法，让 AI 把分步计算的中间结果临时存储起来。

最后还有 Majority Voting 多数表决方法，也是今年 3 月才发表的。

让 AI 多次回答同一个题目，选择答案中出现频率最高的。

所有这些技巧全用上以后，5400 亿参数的 Minerva 在各种测试集中达到 SOTA。

甚至 80 亿参数版的 Minerva，在竞赛级数学题和 MIT 公开课问题中，也能达到 GPT-3 最新更新的davinci-002 版本水平。

说了这么多，Minerva 具体都能做出哪些题目？

对此谷歌也开放出了样例集，一起来看一下。

数理化生全能，连机器学习都会

数学上，Minerva 可以像人类一样按步骤计算数值，而不是直接暴力求解。

对于应用题，可以自己列出方程式并做简化。

甚至还可以推导证明。

物理上，Minerva 可以求中性氮基态（Z = 7）电子的总自旋量子数这样的大学水平题目。

生物和化学上，Minerva 凭借语言理解能力也可以做各种选择题。

以下哪种点突变形式对 DNA 序列形成的蛋白质没有负面影响？

以下哪种是放射性元素？

以及天文学：为什么地球拥有很强的磁场？

在机器学习方面，它通过解释 ” 分布外样本检测 ” 的具体含义，从而正确了给出这个名词的另一种说法。

不过，Minerva 有时也会犯一些低级错误，比如把等式两边的√给消了。

除此之外，Minerva 会出现的推理过程错误但结果对的 ” 假阳性 ” 情况，比如下面这种，有 8% 的可能性。

经过分析之后，团队发现主要的错误形式来自计算错误和推理错误，只有小部分来自题意理解错误和在步骤中使用了错误的事实等其他情况。

其中计算错误可以轻易通过访问外部计算器或 Python 解释器解决，但其他种类的错误因为神经网络规模太大就不太好调整了。

总的来看，Minerva 的表现让很多人感到惊艳，纷纷在评论区求 API（可惜谷歌目前并没有公开计划）。

有的网友想到，加上前几日让 GPT-3 解题正确率暴涨 61% 的 ” 哄一哄 ” 大法，它的准确率或许还可以再提高？

不过作者的回应是，哄一哄方法属于零样本学习，再强恐怕也比不上带 4 个例子的少样本学习。

还有网友提出，既然它可以做题，那么能不能反过来出题？

事实上用 AI 给大学生出题这件事，MIT 已经联合 OpenAI 在做了。

他们把人类出的题和 AI 出的题混在一起，找学生来做问卷调查，大家也很难分清一道题是不是 AI 出的。

总之现在的情况，除了搞 AI 的在忙着读这篇论文以外。

学生们盼着有一天能用 AI 做作业。

老师们也盼着有一天能用 AI 出卷子。

p style=”text-align:center;”>

·房产房屋 99年土地租赁
·房产房屋 NCAT和房地产

加拿大新闻-加拿大

加航多收五千元机票钱不肯退回仅允提供代币(图)

华人网费尔南德斯(右)。卑诗省一名妇女在今年5月购买了两张加拿大航空公司(Air Canada)的机票，不料被加航收取了两次的费用。但加航没有向她退还多收取的5,000多元，仅提供代币，以致该名 ...

加拿大新闻-加拿大

西岸快车将在后天新增一列车增加两班次(图)

华人网西岸快车(West Coast Express)将在19日即后天增加新的一班车WCE 907，这将让WCE的服务回到疫情未发生之前。新增加的班次包括上午5时55分从米逊市站(Mission City Station)出发的列车，以及下午 ...

加拿大新闻-加拿大

防“娘娘”聚集北京故宫叫停商业拍摄

华人网北京故宫博物院日前公布新规，6月30日起，禁止未经允许的各类商业拍摄、演出和自媒体直播活动，帐篷等露营装备也不能入院。工作人员说，新规是为维护文物安全和参观秩序。中国 ...

加拿大新闻-加拿大

【近半受访者称因财务压力睡不著】较去年升5%(图)

华人网据FP Canada一项最新民意调查指出，加人面对最大的压力来自财务方面，这已是连续6年财务压力位居首位。通胀高企、食物和汽油价格上升等等，令致全国有48%的受访者表示因为财务问 ...

加拿大新闻-加拿大

【有片】【父亲节前颐康举行照护食】助吞咽困难长者进食(图)

华人网颐康中心在明日父亲节前，今日举行照护食（Care Food）关爱家人活动，开发出既营养健康又形态诱人、特别适合适合吞咽困难人士的食品。颐康中心社区及专业服务行政总监朱陈丽嫦说 ...

加拿大新闻-加拿大

普京“很快”访问土耳其俄乌战争后首赴北约国家

华人网2022年2月俄乌战争爆发引发多国抵制后，俄罗斯总统普京少有国际出访行程，不过据日前俄媒国际传真社（Interfax）引述一名俄国当局幕僚在16日宣称，普京已和土耳其总统厄多安商妥， ...

加拿大新闻-加拿大

拜登明确表态：乌克兰想加入北约将无捷径可走

华人网美国总统拜登今天表示，尽管俄罗斯全面入侵乌克兰，美国不会为乌克兰加入北大西洋公约组织（NATO）军事联盟做出特别安排。法新社报导，拜登在华盛顿附近告诉媒体记者，“他们（ ...

加拿大新闻-加拿大

多空激辩：美股还有得涨？失去动能转跌？

华人网美国股市涨势正盛，即便联准会（Fed）上周暗示还会有两次各1码的升息，仍无法浇熄今年来的多头气焰。然而，对于美股后市会继续往上攻坚或涨不动了，分析师陷入激辩。标普500指数 ...

加拿大新闻-加拿大

维多利亚一对夫妇结婚周年纪念前赢得3500万Lotto Max大奖

华人网卑诗省新诞生了一对千万富翁!住在维多利亚的Lahsen Rezrazi及Debbie Ramsay是上一周开奖至多彩(Lotto Max)3500万元大奖的赢家，这对幸运夫妻正准备大肆庆祝他们的结婚周年纪念，看来这一大奖 ...

加拿大新闻-加拿大

【道银系统问题未解决】不少客户满肚牢骚(图)

华人网道明银行（TD Bank）系统故障导致客户无法存取款到16日晚依然没有完全解决，网上社交媒体充斥消费者的抱怨愤怒。一名消费者发推特说，「我非常愤怒道明一直拖延没有解决，我花 ...

加拿大新闻-加拿大

【密市工业意外】年青工人开工受伤(图)

华人网密西沙加市今日上午发生工业意外，1名20多岁男子从高处堕下重伤。皮尔区警方今早8时15分接报，赶到位于Atlantic Drive夹Britannia Road一带的工业区内调查。受伤工人伤况严重，由救护车 ...

加拿大新闻-加拿大

【更新】【道银话问题解决】如有困难可以Call客服或到分行(图)

华人网道明银行今日表示，受到直接存款转账（direct deposit transfers）和扣账卡（debit card）支付技术问题影响的客户，问题现已解决。在周五社交媒体上出现问题和投诉后，银行承认加拿大西 ...

加拿大新闻-加拿大

福特政府预计将扩大市长权力范围，覆盖更多的自治市镇

华人网福特政府将在短短两周内将强市长权力扩大到近30个城市。万锦、列治文山、旺市、汉密尔顿、尼亚加拉大瀑布、巴里和宾顿等26个城市的市长将获得更多的权力。安省住房厅长克拉克 ...

加拿大新闻-加拿大

定存利率高涨至5%！专家强烈建议存款不低于此数额

华人网定存对于寻找风险较小的投资工具、但又能赚取略高于银行利息的人来说，是个聪明的选择。定期存款（certificate of deposit, CD）是在规定时间内支付固定利息的储蓄工具。财务规划师泰 ...

加拿大新闻-加拿大

【报道】风雨彩虹，骄傲人生：加拿大华裔LGBTQ+群体亲友分享会23日举行

华人网组织者Carmen Gao：我们希望借助这个活动，感动一些人，唤醒一些人。风雨彩虹，骄傲人生分享会组织者Carmen Gao，与儿子Kingsley（中），以及丈夫郭斌的合影。照片：Radio-Canada / submitt ...

加拿大新闻-加拿大

调查指华埠六成长者曾跌倒关注组织吁省府增拨资源推展防跌措施(图)

华人网根据一项最新调查，温哥华华埠有六成长者在过往一年至少跌倒一次，主要原因包括脚软及失平衡，不少受访者指跌倒后活动能力出现下降。负责调查的非牟利组织向省府提出6项建议， ...

加拿大新闻-加拿大

夏季出行高峰之际油价下跌驾车人暂获喘息之机

华人网驾车人终于迎来今夏汽油价格可能会走低的好消息。美国汽车协会（AAA）指出，6月16日每加仑普通汽油平均价格约为3.58元，远低于一年前5元的历史高位，当时乌克兰战争使能源市场陷入 ...

加拿大新闻-加拿大

阿里巴巴全球数学竞赛决赛开赛马云在杭州现场观赛

华人网6月17日下午，“2023阿里巴巴全球数学竞赛”决赛开赛。这是全球最大的在线数学赛事，今年来自全球19个国家的685位选手，从5万多名参赛者中脱颖而出，晋级时长8小时的终极对决。开赛 ...

加拿大新闻-加拿大

男子擅闯北温柏文大楼舞刀紧急应变部队掷闪光弹拘捕(图)

华人网北温龙士代区（Lonsdale）今日早上有柏文大楼被非法闯入，疑犯更涉嫌向保安人员挥舞利刀，其后逃往附近一栋废弃大楼的天台，大批警员接报到场，使用闪光弹等工具成功拘捕疑犯。 ...

加拿大新闻-加拿大

【福特政府退还车牌贴费用】【扛上新民主党】有人拿回逾8千元退款(图)

华人网安省政府取消了车牌贴纸费，但是新民主党指责此举这固然为普通司机节省了数百元，但是那些拥有5辆以上汽车的人可获得更多退款。新民主党财政评论员Catherine Fife上周在省议会指出 ...

加拿大华人论坛 加拿大新闻AI考高数,反而“卷死”了一大帮计算机博士

相关推荐

加拿大华人论坛加拿大新闻AI考高数,反而“卷死”了一大帮计算机博士