一手实测kimi K2 Thinking,它依旧被这几道题难住了
1、 一条街上有五座不同颜色的房子,每座房子住着不同国籍的人,每个人有不同的职业,喝不同的饮料,养不同的宠物。同样这道题对于我们来说非常简单,但对大模型的难度可不一般,此前多款顶尖模型拜倒在这道题的石榴裙下。K2 Thinking同样没看出图片中的爱心图标,它的回答是“一个圆形的图案漂浮在背景之上”。为了防止之前的题目会训练过,所有我们在“strawberry”的基础上,多在了6个“r”。由于现在
日前,月之暗面开源了最新一代大模型Kimi K2 Thinking。
新模型一经推出,好评如潮!
HuggingFace 联合创始人Thomas Wolf 甚至毫不吝啬的表示,“我们正在见证又一次 DeepSeek 时刻”。
知名学者Alvin Wang Graylin 也夸赞,其已经超越西方的闭源模型。
为什么此次月之暗面推出的Kimi K2 Thinking这么受欢迎?
我们接着往下看。
根据AI分析机构Artificial Analysis的评估,Kimi K2 Thinking在智能体相关任务中表现非常突出。
比如,在Artificial Analysis智能指数中,获得67分。
这一成绩使其领先于所有的其他开源模型,包括最近发布的MiniMax-M2和DeepSeek-V3.2-Exp,仅次于GPT-5。
在智能体工具调用 (𝜏²-Bench)测试中,Kimi K2 Thinking得分高达 93%,是目前第三方机构测量到的最高分。
在在Humanity’s Last Exam(人类终极考试)评测中,Kimi K2 Thinking在无工具情况下的得分为22.3%,仅次于GPT-5和Grok 4。
这成绩已经不是国产SOTA了,当之无愧又一次的DeepSeek时刻。
据介绍, K2 Thinking 的参数规模高达万亿。
但其运行成本仍然很低,其 API 价格是百万 token 输入 0.15 美元(缓存命中)/0.6 美元(缓存未命中),每百万 token 输出 2.5 美元。
那K2 Thinking的实际效果到底如何?
老规矩,我们实测一番。
由于现在的模型的能力越来越强,并且有很多变量的存在,简单的题目已经无法测出模型的能力了。
于是我们决定用历届模型经常翻车的问题来逐一刁难它,看K2 Thinking究竟是否会翻车!(关闭搜索)
测试题一:爱心视觉错题
这是最近最火的一道视觉测试题,测试模型是否可以看到图片中的爱心。
目前没有一个模型回答正确,看K2 Thinking是否能回答正确。
K2 Thinking同样没看出图片中的爱心图标,它的回答是“一个圆形的图案漂浮在背景之上”。
测试题二:数值比较
测试题很简单,9.11-9.9=?
看这次K2 Thinking能否答对!
回答错误!并且还把计算过程列出来了。
测试题三:数数题
“strawberryrrrrrr"中有几个字母“r"。
同样这道题对于我们来说非常简单,但对大模型的难度可不一般,此前多款顶尖模型拜倒在这道题的石榴裙下。
为了防止之前的题目会训练过,所有我们在“strawberry”的基础上,多在了6个“r”。
依旧回答正确,并且明确指出"strawberry"部分有 3个“r”,后面的"rrrrrr"部分有 6个“r”。
测试题四:竹子过门
一根5米长的竹竿,能不能通过高2米、宽2米的城门?
同样这道题我们也做了简单从处理。
终于,被这道题难到了,不过也很正常,这道题很多模型都回答不出。
下面再来道非常烧脑的逻辑题。
测试题五:爱因斯坦斑马问题
提示词:
1、 一条街上有五座不同颜色的房子,每座房子住着不同国籍的人,每个人有不同的职业,喝不同的饮料,养不同的宠物。 2、英国人住在红色的房子里; 3、西班牙人养了一条狗; 4、日本人是一个油漆工; 5、意大利人喜欢喝茶; 6、挪威人住在左边的第一个房子里; 7、绿房子在白房子的右边; 8、摄影师养了一只蜗牛; 9、外交官住在黄房子里; 10、中间房子里的那个人喜欢喝牛奶; 11、喜欢喝咖啡的人住在绿房子里; 12、挪威人住在蓝色的房子旁边; 13、小提琴家喜欢喝橘子汁; 14、养狐狸的人所住的房子与医师的房子相邻; 15、养马的人所住的房子与外交官的房子相邻。
先给大家公布正确的答案。

回答错误,再次难倒。
看来这几道题的难度不小,绝大部分的模型都倒在这几道题上。
最后大家感兴趣的可以去体验一下,K2 Thinking已上线Kimi啦。
相关阅读:
更多推荐



所有评论(0)