分享

收藏

点赞

  1. 主页 > 资讯 > 智慧城市

大模型认知戏问 | DeepSeek热背后的冷思考

人工智能大模型的话题是不是炒作过度?

01

DeepSeek为什么厉害?

为了验证DeepSeek为什么厉害,我请我的学生褚博士专门做一个简单的测评,褚博士在读本科时就是国际大学生数学模型竞赛特等奖获得者、全J十大学习成才标兵,还有其他诸多荣誉光环等身。有人会质疑,请这么高水平的博士做测评,会不会是大炮打蚊子?其实不然,大模型测评是一个不折不扣的技术活儿,如何设计测评题目,如何判断结果的好坏,都有很多的门道。比如让DeepSeek写诗,但到底写得好不好,很难有客观的评价标准;让它做奥数题,但完全有可能它在训练阶段就见过类似的题目,实际上并没有做题,而是直接背出了答案,这也有失公允。设计一个通俗易懂、客观、公正的测评方法实际上并不容易。

822cf472914e2875b8bee64e93e31b73.png

图一、褚博士就大模型应用接受央视记者专访

另外,测评有比较才有鉴别,不能自说自话,由于目前大模型领域基本上是中美两国的竞技,因此,选取中美两国各4个知名大模型通过测评进行PK,一是了解中美是否有差距,二是了解DeepSeek到底强在哪里。

5d79b1ddb14b491cf9a6e72f5679bb4e.png

表一、中美PK大模型清单

上述大模型均为非推理型的,为什么不用推理大模型呢?因为推理大模型那可是“机器一响,黄金万两”,需要烧钱的,其实天下并没有免费的午餐。需要说明的是,在大模型如雨后春笋不断涌现群“模”共舞、各领风骚三五天的今天,上述8个模型最早发布的智谱GLM-4-Plus(2024年8月)与最晚发布的Claude3.7Sonnet(2025年2月24日)发布时间上差了半年,能力上肯定会有一定的差距。

测评的方法很简单,连小学生都能看懂原理,就是我们通常说的“猜数字”游戏,而测评结果能够在一定程度上说明问题。如下图所示:

378e5297f11784bb12d38cc74d6a0fc8.png

这个简直太简单了,幼儿园的小朋友一看都知道答案,增加一点儿难度,变成如下随机的顺序:

7a820cf8e911dd831d18525b46eba92b.png

小朋友经过仔细观察还是能够找到正确答案。如果把N=10换成N=50而且还是随机的,小朋友有点耐心仍然能够找到正确答案。如果换成N=500呢?那小朋友会哭着鼻子吼我是坏伯伯了。

因此,这样的累活还是交给大模型吧,但做一次肯定不行,同时要禁止大模型编程序,并且不要给出中间过程直接报出答案。批量测评如下:

分别设定N从20到800,每次增加20。也就是说,N依次取20,40,60,......,780,800,逐渐增加题目难度。对于每个N,每个大模型都会做20道“猜数字”的题目。每道题目都是随机生成的。

计分规则为:如果答案正确,得1分,如果不正确,得0分。对于每个N,每个大模型在做完20道题目之后,会把得分的总和作为它在N上的成绩。也就是说,对于每个N,每个大模型的得分是0到20分,0分为最低,20分为最高。为了减少测评开销,加一条策略:对于每个N,如果某个大模型在做完前10道题目以后,得分已经超过5分了,则不再做剩下的10道题目,而是直接把得分乘以2,作为这个大模型在N上的成绩。比如,某个大模型在做完前10道题目以后,得分是8分,则剩下的10道题目就不用做了,直接把成绩设为16分。

忽略测评过程,下面直接看测评结果,如下图:

b65e9366bcff6efc6b019bd2ff1f9171.png

图二、大模型测评结果对比

结论读者们可以自行补脑。既然DeepSeek在性能上并不占优,那么它到底强在哪里呢?答案是性价比,它的单token价格最低,而且仅仅是GPT-4o的1/10,而其性能对GPT-4o形成了碾压。DeepSeek使我们能够用低廉的价格享用最高性能比的AI大模型的能力,打破了AI霸权,实现了AI平权,让AI大模型飞入寻常百姓家,这就是其厉害的地方。

5fd55ce3ee37e923d2e4188922d5d33d.png

图三、消耗Token数和单token费用对比


02

人工智能大模型的话题是不是炒作过度?


笔者每天打开手机,就是铺天盖地的人工智能和大模型的推文,DeepSeek持续引发的热度,自媒体收获了流量、城市收获了形象宣传、一体机厂家收获了真金白银的业绩、政府部门收获了“敢于尝试、大胆创新”的政绩、吃瓜群众则收获了不安和焦虑,这泼天的富贵各行各业都接到了。

bf54e535f4ba8499c6b26117ce93b44a.png

图四、笔者手机每天收到大量人工智能相关推文

某地宣传说70名AI公务员上岗了,全国的公务员都心惊胆战一吓,担心哪天自己会被AI替代下岗。某公交集团企业更是以正式红头文件确认首批AI员工上岗履职并赋予工号,不知道会不会在全国公交企业员工中引起一阵恐慌。

与其被媒体宣传绑架,我们倒是应该静下心来听听科学家们怎么说,他们的认知水平远在我们普通人之上,绝不会信口开河,因此,要理性和可靠的多。

AI教母李飞飞说,对AI要有科学,而不是科幻。AI会带来很多变化,我们需要用科学的方法衡量其进展或影响,而不是用极端的乌托邦或反乌托邦式言论来制造恐慌。历史上我们不止一次面临类似问题:工业革命、汽车出现、生物技术等等,都有过大规模的争议和评估,我们也都用科学的方法来理解、解决,AI也必须如此。

北京大学人工智能研究院、智能学院院长朱松纯说,目前,行业对AI的讨论几乎被大模型能力所占据,而基础学科、原始创新与智能本质的研究却被边缘化,甚至遭到部分舆论的否定。仿佛只有少数企业能代表中国AI的水平,而长期支撑AI发展的基础学术群体、理论工作者、认知科学研究者则被忽视。这种认知偏差,正在让我们离真正的AI创新越来越远。

图灵奖获得者杨立昆则直接砸了大模型的场子,他在今年的GTC英伟达大会上与英伟达首席科学家比尔达利(BillDally)深度对话时说,我现在对大语言模型(LLM)已经没那么大兴趣了。感觉它们现在已经有点儿像走到最后一步了,落到了那些搞产业产品的人手里,就有点儿像是在边边角角上做改进,想办法搞更多数据,更多算力,或者搞点合成数据什么的。大语言模型那种推理方式还是太简单粗暴了,我觉得肯定有更好、更高级的方法来做推理。


03

DeepSeek一体机是不是智商税?


只能这么说,大部分的一体机是甲方交了智商税。一体机更多是满足了甲方的情绪价值,具体能为其业务带来哪些变化,恐怕他自己也弄不清楚。隔壁老王家私有化部署大模型了,并且上了热搜,如果我不跟进,那就落伍了。于是赶紧给领导打报告,这里AI公务员上岗了、那里AI已经办理政务服务了,形势简直逼人,被迫也要营业。领导大笔一挥,很好,抓紧落实。新需求催生新供给、新供给创造新需求,于是硬生生催生出一个DeepSeek一体机供需市场,一体机厂商如雨后春笋般一夜之间喷涌而出,如大模型的能力突然涌现一样。因为私有化部署大模型最简单直接的方式就是购买一台一体机,一个模型、一个Dify外壳、一个甲方企业LOGO、一个对话框,开箱即用。

关于一体机,咱不问你极限总吞吐(TPS)每秒最高能处理多少个Tokens;也不问你并发能力能同时处理多少个用户请求,而不崩、不卡、不掉线;也不问你能否平滑支持集群部署;单单问你能不能同时跑多个模型?如DeepSeek、QwQ、Doubao等,而不会被框架或资源限制住,不要说DeepSeek一体机就只能给我跑一个DeepSeek大模型;再问你是否支持模型热部署与快速切换?毕竟现在大模型迭代太快了,我不能一个模型用到底;还问你配套AI开发工具链到底有没有坑?没有丰富的工具链配套,你卖给我的就是一个聊天机器人而已。

32d7e76f7d7163a103a5ba46a53907c4.png

图六、多模能力是对一体机的一项基本要求(图片来自网络)

如果厂家不能满足这些要求,这个一体机大概率最后会变成一堆破铜烂铁,丢在角落里吃灰。

我们不得不佩服售卖一体机的乙方厂家是懂营销心理学的,这让笔者不禁想起了赵本山的经典小品《卖拐》,去年把你忽悠瘸了,卖你一副拐杖;今年把你忽悠瘫了,卖你一部轮椅。我想厂家是学到了小品的精髓,去年说具身智能是未来,大家就卖机器人,据说高速公路收费站的收费机器人卖的非常火,借着这几年交通基础设施数字化转型升级的政策东风,厂商的收费机器人的红利是妥妥地吃定了;今年大模型火爆,大家就卖大模型一体机,据说某运营商的一体机营收短短两个月已经大几个亿了。


04

交通行业需要部署满血版DeepSeek大模型?


DeepSeek给我的答案是这样的:“直接部署满血版DeepSeek通用大模型在交通行业可能并非最优解,但通过定制化微调、蒸馏小模型或结合EP(专家并行)架构优化分布式推理,可显著提升性价比。此外,DeepSeek的低成本训练与开源策略为行业提供了灵活的技术迭代空间。建议交通行业采用‘通用模型+垂直优化’的混合模式,既保留MoE的高效性,又通过领域适配降低冗余,实现资源与需求的最佳匹配。”

笔者的粗浅理解是,DeepSeek稀疏度极高的MoE混合专家架构决定了其在具体的行业应用中,只能激活行业领域专家的能力,其他不相关的大部分专家不会被激活,其能力闲置的,但它又要占用存储资源。行业部署满血版DeepSeek大模型就类似把专科医院办成了综合医院的规模,比如把交通行业比作一家口腔专科医院,本来只要聘用验血、拍片医生(通用专家)和口腔医生(领域专家)就可以正常运营了。行业部署满血版大模型,就相当于口腔医院还聘用了内科、外科、神经科、脑科、胸科、儿科、产科、肾科等所有的医生,他们每天要来上班(占用办公室、医疗资源),但完全不接诊(专家资源闲置),可是医院要给他们一分不少地发工资(费用)。“并非最优解”在笔者看来就是总体性价比不高。

因此,很多情况下私有化部署DeepSeek大模型的满血版,不是因为其效果好,而是看重了其光环,引起盲目跟风,这样可能反而会损害人工智能技术在交通运输行业的应用前景。


05

交通行业需要的到底是大模型还是小模型?


交通行业有个怪现象,就是言必称大模型,前两年北京某高校、南京某高校均宣传推出了交通行业通用大模型,到底怎么样呢?大抵是发个新闻后就束之高阁了,因为纯学院派的人员,让他们做像DeepSeek大模型这样工程化需要做到极致的产品,万万是做不出来的。我们深挖一下DeepSeek核心技术团队成员的从业背景,就会发现他们大多都有在号称中国人工智能黄埔军校的某某亚洲研究院工作或者实习的经历,正是这样的经历练就了他们极致的工程化能力,也才能做出来DeepSeek这样优秀的产品。

3dd330ed63e486259f852a0d1b77b504.png

图七、DeepSeek部分核心团队成员名单

其实,交通很多的垂直场景的人工智能都是小模型,这是这些场景的实时性要求决定的,称之为时间敏感性场景,模型必须部署在边端侧才能满足实时性要求,比如基于雷视感知融合的交通事件智能识别、驾驶员不安全驾驶行为的识别等,感知信息上传到由云端大模型来识别难以满足实时发现要求,因此,模型必须部署在端边侧,由于端边侧的算力资源有限,加之端边侧场景一般都是单一具体的任务,因此,端边侧垂域模型的参数量相比于我们通常说的大模型(LargeModel、FoundationModel)动辄百亿千亿的参数量,会呈数量级的减少。比如长沙某边端感知识别一体的雷视设备企业,其识别准确率达99.98%以上,其模型参数量仅为几十万,是典型的微小模型,而其产品却在某省高速公路数字化转型项目中PK掉了某大厂厂家和本土传统龙头企业,一举夺魁,独占鳌头。2024年,笔者参加赛文交通网信控中国俱乐部走进襄阳市车联网先导区活动,了解到襄阳市人工智能+智慧交管创新应用中的人工智能模型全部部署在城市道路交叉口,因为,只有这样才能实现根据实时车流动态调整路口信号灯的要求,由“车看灯”变成“灯看车”,其模型参数为亿级,相比于动辄百亿千亿级别参数的大模型,这是也是典型的小模型创新应用场景。因此,从单纯的交通垂直场景应用来看,大部分都是人工智能小模型场景。

这并不是说行业不需要大模型,事实上,也有不少“人工智能+交通运输”应用场景,是由云端行业大模型和端边侧垂域小模型双轮驱动的。比如,路网运行态势感知是端侧大模型将融合感知信息进行提取、预处理后上传到云端,由云端大模型根据融合历史数据和实时感知信息生成路网态势感知预警,预测拥堵或事故风险,并生成运行调度和应急指挥调度方案。再比如,“人工智能+道路养护”先通过车载或者机载智能设备对路面病害等信息识别后,再上传至云端,由云端大模型综合这些信息生成养护决策分析报告。

因此,交通运输行业要做好人工智能大模型应用的文章,需坚持云端大模型+端边垂域小模型双轮驱动的技术路线,如鸟之双翼、车之两轮,想用一模覆全域简直是难以想象的。


06

大模型技术发展能跳出Gartner技术成熟度曲线铁律?


下图是著名的Gartner公司发布的“2024年中国数据、分析和人工智能技术成熟度曲线”,我们发现生成式AI、大模型均位于曲线的“期望膨胀期”顶端,这与当下的热度十分吻合。大模型技术的发展会打破该曲线的铁律持续成为热点吗?笔者认为不会打破,大模型迎来“泡沫破裂低谷期”可能为期不远了,让我们拭目以待。

今年卖一体机的厂家明年会卖什么呢?我们不得而知,但确定的是,小品《卖拐》的情景明年仍会持续上演。

473005da2fd20d5ee3ba49e35ae8bbdc.png

图八、Gartner2024年中国数据、分析和人工智能技术成熟度曲线


作者简介:乔川龙,湖南省交通运输厅科技信息中心部长

未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明等材料,与我们联系,我们将及时沟通与处理。

加载中~

你可能也喜欢这些文章




稿
意见反馈0
商务合作

商务合作 扫码联系

返回顶部