夕小瑶科技说 原创
作者 | 卖萌酱最近几天,我们公众号的社群在纷纷转发一张名为superclue 评测的截图。科大讯飞甚至在官号进行了宣传:
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
由于讯飞星火大模型刚发布,笔者玩的少,它是不是真的是国产最强这个笔者不敢下结论。
但在该评测截图中,当下国产模型中热度最高的百度文心一言竟然连一个小型的学术开源模型ChatGLM-6B都打不过。这不仅与笔者自己的使用体验严重不符,而且在我们的专业NLP技术社群中,大家也纷纷表示一脸懵逼:
好奇之下,笔者去这个superclue榜单的github,想看看这个测评结论是怎么得出来的:https://www./link/97c8dd44858d3568fdf9537c4b8743b2
首先笔者注意到这个repo下面已经有一些issue了:
看起来这个离谱的感觉不仅
仅是笔者有,果然群众的眼睛还是雪亮的。。。
笔者进一步看了一下这个榜单的评测方式:
好家伙,原来所谓的生成式大模型的测试,竟然全都是让模型做选择题。。。
很明显这种做选择题的评测方式是针对BERT时代的判别式AI模型的,那时候的AI模型普遍不具备生成能力,仅仅有判别能力(比如能判别一段文本属于什么类别,选项中哪个是问题的正确答案,判断两段文本的语义是否一致等)。
而生成式模型的评测与判别式模型的评测有相当于大的差异。
例如,对于机器翻译这种特殊的生成任务而言,一般采用BLEU等评价指标来检测模型生成的回复与参考回复之间的“词汇、短语覆盖度”。但机器翻译这种有参考回复的生成类任务是极少数,绝大多数的生成类评测都要采用人工评测的方式。
例如闲聊式对话生成、文本风格迁移、篇章生成、标题生成、文本摘要等生成任务,都需要各个待评测模型去自由生成回复,然后人工去对比这些不同模型生成的回复的质量,或人工判断是否满足了任务需求。
当前这一轮的AI竞争,是模型生成能力的竞争,而不是模型判别能力的竞争。最有评价权的是真实的用户口碑,不再是一个个冰冷的学术榜单。更何况是一个压根没测模型生成能力的榜单。
回想起来前些年——
2019年,OpenAI发布了GPT-2的时候,我们在堆tricks刷榜;
2025年,OpenAI发布了GPT-3的时候,我们在堆tricks刷榜;
2025-2025年,FLAN、T0、InstructGPT等instruction tuning和RLHF工作爆发的时候,我们还有不少团队在坚持堆tricks刷榜…
希望这一波生成式模型的军备竞赛,我们不要再重蹈覆辙。
那么生成式AI模型到底应该怎么测?
很抱歉,我前面说过,如果想做到无偏测试,非常非常的难,甚至比你自研一个生成式模型出来难得多。难度有哪些?具体抛几个问题:
这只是随手抛的几个要解决的基础问题,在实际基准设计的过程中,要面临大量比以上问题棘手得多的问题。
因此,作为AI从业者,笔者呼吁大家理性看待各类AI模型排名。连一个无偏的测试基准都没有出现,要这排名有何用?
还是那句话,一个生成式模型好不好,真实用户说了算。
一个模型在一个榜单的排名再高,它解决不好你在意的问题,它对你来说就是个一般般的模型。换言之,一个排名倒数的模型,如果在你关注的场景下发现非常强,那它对你来说就是个宝藏模型。
在此,笔者公开了我们团队内部富集和撰写的一个hard case(困难样例)测试集。这份测试集重点关注模型对困难问题/指令的解决能力。
这个困难测试集重点考察了模型的语言理解、复杂指令理解与遵循、文本生成、复杂内容生成、多轮对话、矛盾检测、常识推理、数学推理、反事实推理、危害信息识别、法律伦理意识、中国文学知识、跨语言能力和代码能力等。
再次强调一遍,这是笔者团队为测试生成式模型对困难样例解决能力而做的一个case集,评测结果只能代表“对笔者团队而言,哪个模型感觉更好”,远远不能代表一个无偏的测试结论,如果想要无偏的测试结论,请先解答以上提到的测评问题,再去定义权威测试基准。
想要自己评测验证的小伙伴,可以在本公众号“夕小瑶科技说”后台回复【AI评测】口令来下载测试文件
以下是在superclue榜单中受争议最大的讯飞星火、文心一言与ChatGPT这三个模型的测评结果:
困难Case解决率:
这是要论证讯飞星火不如文心一言吗?如果你仔细看前文了,就明白笔者想说什么。
确实,尽管在这份我们内部的困难case集上,星火模型不如文心一言,但这不能说明综合起来谁一定比谁强,仅仅说明,在我们团队内部的困难case测试集上,文心一言表现最强,甚至比ChatGPT多解决了2个困难case。
对于简单问题而言,其实国产模型跟ChatGPT已经没有太大差距。而对于困难问题而言,各个模型各有所长。就笔者团队的综合使用体验来看,文心一言完全足以吊打ChatGLM-6B等学术测试性质的开源模型,部分能力上不如ChatGPT,部分能力上又超越了ChatGPT。
阿里通义千问、讯飞星火等其他大厂出品的国产模型也是相同的道理。
还是那句话,如今连一个无偏的测试基准都没出现,你要那模型排名有啥用?
比起争论各类有偏的榜单排名,不如像笔者团队一样去做一个自己关心的测试集。
能解决你问题的模型,就是好模型。
相关文章:
怎么让AI写文章,轻松实现内容创作的智能化
AI模型创新应用案例解析及未来趋势展望报告,讯飞输入法有ai代写吗
自然流SEO:破解网站排名的核心秘密,让流量飞涨
文心一言解密,接收时长之谜,开启沟通新篇章,初爱ai
清华AI团队创新突破,打造全新动力学模型,开启智能科技新时代,元萝卜ai围棋
文心一言,跨界融合开启创作新,ai水纹素材
打造内容创作新高度:文章扩写AI的革命性优势
文心一言与微词,内涵与外延的细致解析,ai里的线条
单片机驱动AI大模型创新,开启嵌入式智能新时代探索之旅,ai算法裁员
AI大模型浪潮席卷,技术革启产业变革新时代,a521520ai
AI生成的文章会被判定抄袭吗?人工智能创作的版权与原创性问题
AI缩写在线:让人工智能助力你行业前沿技术,ai uhrehara
AI模型版下载指南,开启智能生活新篇章,婴儿喜庆ai
文心探秘,大语言模型背后的内存奥秘,免费高效ai写作软件
AI模型部署与实战,理论与实践深度剖析,ai优点分析
怎么用AI写文章:高效创作的秘诀
AI大模型,重塑未来,赋能千行百业,写作ai网站免费
AI模型制作全流程解析,从数据预处理到部署深度揭秘,ai写作宝典书籍有哪些
企业携手文心一言,打造智能办公新体验,著名电影 ai
AI生成的文章是原创吗?揭示背后的真相与未来趋势
澎湃OSAI大模型,人工智能新引擎,推动产业智能化升级,绘画ipad ai
数字化艺术创作新篇章,AI线条与C4D模型的融合探索,ai换脸软件封禁
AI赋能自然,探索逼真风景模型的智能构建奥秘,ai花朵字体设计
华为HarmonyOS Engine,揭开华为AI模型,引领智慧生活新篇章,ai条形码制作
AI着色模型的无限魅力,技术揭秘与应用前瞻,ai csgovsdd
AI赋能金融,揭秘智能量化策略模型引领市场新,ai写作鱼是骗局吗
英文敏感词检测:确保内容合规与安全的关键一步
数字化时代,文心一言与记忆管理的数字化,AI写作重复率有多高
写作软件最简单,让创作变得轻松自在
vivoAI蓝心大模型赋能地铁智慧出行,引领未来出行变革,ai科幻场景
AI大模型,开启个人智能助手新时代,用ai制作狗
iPhone 7 AI模型突破,引领智能生活新时代,注塑AI
文心一言引领创新教育,告别传统作业,拥抱未来学习方式,安徽ai编程课程是什么
智能AI生成文章释放创作新可能
2024年SEO指南:提升网站排名的全方位策略
AI赋能个性化,3D风格头像重塑数字潮流,小艺ai音箱2如何连接
字节豆包AI助手,引领智能生活新,ai写作怎么免费领稿费
AI赋能办公,构建高效表格模型的AI软件揭秘,漂亮的ai
爱酷与AI大模型联袂,引领智能生活新时代,科技生活ai
探索未来智能,AI自然进化模型的下载之旅,AI给视频加字幕
AI写作技巧,让创作事半功倍!
揭开普通人AI小模型之谜,还是性创新?,云界ai和无界ai
AI创新,引领科技未来之路,ai萝卜智能写作
网站设置关键词的关键技巧与优化策略
360ai问答-智能时代的全能助手,未来的智慧生活,ai生成白底
AI融合模型引领教学设计革新,ai领域幽默视频讲解
揭秘OpenAI模型参数,人工智能核心要素深度解析,ai调画质
颠覆创意的力量:AI官网生成器,轻松打造专业网站!
文心一言与问心一格,人工智能对话统的比较分析,小ai脱发
360快速排名软:轻松提升网站排名,助力企业增长