当前位置：首页 > 科技 > 正文内容

分不清9.9与9.11谁大？大模型数学能力堪忧

2024-07-19 14:55科技

每经记者可杨每经编辑梁枭

13.11%和13.8%哪个大？9.9和9.11哪个大？

两道小学数学难度的题目难倒了众多主流大模型，在比大小的过程中，不少大模型给出了错误的答案。此外，此前《每日经济新闻》发布的《每日经济新闻大模型评测报告（第1期）》中，主流大模型被要求计算企业营业收入复合增长率时，没有一家大模型计算出正确答案。

7月17日，有大模型企业人士向记者表示，对于大模型而言，这不是很难解决的技术问题，只要“喂”了这方面的数据，就能得到准确的答案，只不过大部分的大模型厂商没有把这方面的训练作为重心，所以可能会出现上述不准确的回答。

大模型比大小“翻车”

由综艺节目《歌手2024》排名引发的热议蔓延到了大模型领域，也成了一场针对大模型数学能力的小测。

在《每日经济新闻》记者7月17日的测试中，对于13.11%与13.8%谁大的问题，除了智谱清言外，文心一言、通义千问、Kimi、商汤商量、百川智能百小应等大模型均给出了正确回答。

大部分大模型都在给出答案的同时呈现了推理过程。智谱清言给出的推理过程显示，在比较13.11%和13.8%时，13.11%是更大的数值。这是因为当比较两个百分数时，首先比较整数部分，如果它们相同，则比较小数部分。在这里，两个数的整数部分都是13，但13.11的小数部分11大于13.8的小数部分8，因此13.11%大于13.8%。

从推理过程判断，可能由于小数点后数位不同，大模型在比较过程中产生了幻觉。经过两轮提问后，智谱清言给出了正确回答。

当记者把问题换成“9.9与9.11谁大”，零一万物的万知大模型等同样在一开始给出了错误答案，当记者进一步追问“9.11减9.9等于多少”，甚至有大模型给出了“0.21”的答案。

万知大模型的推理过程稍显混乱：在比较9.9和9.11时，由于整数部分都是9，所以比较小数点后的第一位数字。9.9的小数点后第一位是9，而9.11的小数点后第一位是1。由于9小于10，所以在比较小数点后第二位数字时，9.9的小数点后第二位是0（隐含的），而9.11的小数点后第二位是1。因此，9.9的小数点后第二位数字（隐含的0）小于9.11的小数点后第二位数字（1），所以9.9小于9.11。

随后，记者向大模型提问：为何会出现有大模型认为13.11大于13.8的情况？

ChatGPT给出的回答显示，出现这种情况的原因可能是由于计算或比较方式的错误。可能的误差原因包括：数值理解错误，有时系统可能会误解数字的小数点位置；字符串比较，如果直接按字符串比较，可能会出现错误。因为字符串比较是按字符顺序逐一比较的，而不是按数值比较；代码实现错误，在编程中，可能存在比较逻辑或转换错误。

文心一言给出的解答则是，训练数据偏差、输入处理与理解、模型幻觉、推理能力不足等原因。训练数据偏差层面，即大模型在训练过程中，可能接触到了大量包含数字的数据，但这些数据并不总是以比较大小为目的。例如，数字可能出现在版本号、股票代码、基金表现、汇率等上下文中，这些场景下的数字大小并不总是具有直接的比较意义。如果训练数据中存在关于数字比较的偏差或不足，模型可能无法学习到正确的比较规则。

另一方面，可能由于大模型在处理输入文本时，将数字视为字符序列，而不是具有数值意义的实体。因此，在比较数字大小时，模型可能没有正确地将其转换为数值进行比较。另外，模型在处理小数时可能存在困难，特别是当小数位数不同时。模型可能没有正确地理解小数部分的比较规则。

这个问题不难解决

7月17日，有大模型企业人士在接受记者电话采访时表示，对于大模型而言，这不是很难解决的技术问题，只要“喂”了这方面的数据，其实就能得到准确的答案，只不过大部分的大模型厂商没有把这方面的训练作为重心，所以可能会出现上述不准确的回答。

这也并非大模型的数学能力首次受到关注。

6月，上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示，三科总分420分，大模型最高分仅303分，其中语文、英语表现相对良好，数学全不及格。

在此前《每日经济新闻》发布的《每日经济新闻大模型评测报告（第1期）》中，对主流大模型的财务数据计算和分析能力同样进行了测评。在财务数据计算中，当被要求计算营业收入复合增长率时，没有一家大模型计算出正确答案。

综合来看，Anthropic Claude 3 Opus表现最为出色，以总分136分高居榜首。该模型在计算题的任务一（同比增长率计算）和任务二（毛利率计算）中均获得了较高的分数，但在任务三（复合增长率计算）中未能给出正确答案。

幻方求索DeepSeek-V2是“财务数据计算和分析”场景评测中的一匹“黑马”，以总分133.4分位列第二。该模型在计算题的任务一和任务二中同样表现良好，但在任务三中也未能给出正确答案。不过，在计算复合增长率的任务中，尽管其答案有误，但已掌握了正确的公式。

零一万物Yi-Large的总分达到了126.4分，该模型尽管“分析写作题”得分略逊一筹，但在计算题的任务一和任务二中表现稳定。该模型在计算复合增长率时，同样给出了错误答案，但也给出了正确的公式。

（责任编辑：董萍萍）

更新于：4个月前

返回列表

上一篇：打卡D189

下一篇：打卡363天

可灵AI面向B端重磅升级 API新增高品质模型和视频延长功能2024-11-20

AI进化撞上“数据墙”？三大模型研发遇阻，巨头纷纷转向新赛道2024-11-17

月活超3600万人 Kimi发布数学推理模型，能力可对标OpenAI o1系列2024-11-17

揭秘涨停 | 大模型概念，多股涨停2024-11-14

离上小学还有半年时间，孩子应该培养哪些能力？2024-11-12

百度重磅！李彦宏：大模型基本消除了幻觉，智能体迎来爆发点！将成为内容、服务和信息新载体2024-11-12

一年级语文&数学的基础学习2024-11-11

即梦AI首发字节自研视频生成模型Seaweed开放使用2024-11-09

字节自研视频生成模型Seaweed开放使用，即梦AI首发2024-11-09

自我学习的能力+免费资源的主动获取+坚持2024-11-07

中国饭店协会：县域消费能力提升带动餐饮市场下沉加速2024-11-03

Q3-24年三季度理财总结：理财能力有限，减少负债是好事儿2024-11-01

泸州银行入选2024“陀螺”城商行评价TOP15并荣获员工知会能力第一名2024-10-31

央行新增买断式逆回购增强流动性调节能力2024-10-29

AI玩家中谁将组成大模型“最强战队”？2024-10-28

中兴通讯CDO崔丽：溯源大模型，如何实现AI和能源相互成就2024-10-23

字节回应实习生破坏大模型训练：确有此事，但部分报道夸大失实2024-10-20

抢占应用场景物流巨头争相布局大模型2024-10-16

专访鼎捷数智副总裁裴菁：数据是AI大模型发挥效能的关键2024-10-04

公募基金大模型拟添“新玩家”，场景多元化需求适配下，业内更加关注投资机会挖掘能力2024-09-25

分不清9.9与9.11谁大？大模型数学能力堪忧

相关文章

Copyright © 2024 说理财 浙ICP备2023018108号-2

分不清9.9与9.11谁大？ 大模型数学能力堪忧

相关文章

Copyright © 2024 说理财 浙ICP备2023018108号-2

分不清9.9与9.11谁大？大模型数学能力堪忧

Copyright © 2024 说理财浙ICP备2023018108号-2