在最新发布的中文大模型基准测评SuperCLUE中,22款国内外主流模型展开激烈竞争,测评结果引发行业广泛关注。本次测评围绕数学推理、科学推理、代码生成等六大核心任务展开,全面评估模型的综合能力,为技术发展提供了重要参考依据。
海外闭源模型在总分排名中继续占据优势地位。Anthropic的Claude-Opus-4.6(max)、Google的Gemini-3.1-Pro-Preview(high)和OpenAI的GPT-5.4(xhigh)包揽前三名,展现出强大的技术实力。值得注意的是,字节跳动旗下豆包(Doubao-Seed-2.0-pro-260215(high))以71.53分的成绩紧随其后,与第三名GPT-5.4仅相差0.95分,成功跻身全球第一梯队。该模型在智能体任务规划维度表现尤为突出,甚至反超部分海外竞争对手,位列全球前五。
国内科技企业在此次测评中表现亮眼。小米集团推出的MiMo-V2系列两款模型均成功入围榜单,其中MiMo-V2-Pro以60.67分的成绩在闭源模型中名列前茅,特别是在数学推理任务中取得84.03分的高分。另一款开源版本MiMo-V2-Flash虽然总分49.97分排名相对靠后,但在代码生成等特定场景中展现出独特潜力,为开发者提供了新的选择。
开源赛道成为本次测评的一大亮点。Kimi-K2.5-Thinking、Qwen3.5-397B-A17B-Thinking等国产开源模型包揽开源榜单前三名,在性能表现上大幅领先海外同类开源模型。这一成果不仅体现了国内企业在开源技术领域的积累,也为全球开发者社区贡献了重要力量,推动了行业技术的共同进步。







