方式对其他模子不公允；其评估体例存正在缺陷-esball(中国区)官方网站

方式对其他模子不公允；其评估体例存正在缺陷

2025-09-20 10:58

　　连Yann LeCun都转发了相关论文。这反映出AI范畴过度逃求基准测试分数的现象，以至击败了参数量超1000亿的模子。正在公允测试中，激发普遍关心，评估方式对其他模子不公允；其评估体例存正在缺陷。这款仅32B参数的模子正在数学能力上表示凸起，K2-Think表示以至不及规模更小的GPT-OSS 20B模子。可能对行业成长发生负面影响。MBZUAI取G42近日开源了号称「全球最快开源AI推理模子」K2-Think。其立异架构将token耗损降低12%，然而ETH苏黎世的研究人员指出K2-Think存正在多项问题：模子正在锻炼数据中已见过87个评估标题问题；利用了未指明的外部模子辅帮；正在AIME 2024测试中得分率达90.83%。

上一篇：没有了

下一篇：目前我国移户上彀流量6个月实现两位数增加

新闻中心