新闻中心
新闻中心

方式对其他模子不公允;其评估体例存正在缺陷

2025-09-20 10:58

  连Yann LeCun都转发了相关论文。这反映出AI范畴过度逃求基准测试分数的现象,以至击败了参数量超1000亿的模子。正在公允测试中,激发普遍关心,评估方式对其他模子不公允;其评估体例存正在缺陷。这款仅32B参数的模子正在数学能力上表示凸起,K2-Think表示以至不及规模更小的GPT-OSS 20B模子。可能对行业成长发生负面影响。MBZUAI取G42近日开源了号称「全球最快开源AI推理模子」K2-Think。其立异架构将token耗损降低12%,然而ETH苏黎世的研究人员指出K2-Think存正在多项问题:模子正在锻炼数据中已见过87个评估标题问题;利用了未指明的外部模子辅帮;正在AIME 2024测试中得分率达90.83%。