Moonshot AI发布Kimi K2 Thinking，具有超长链推理能力

Moonshot AI发布新一代开源“思考模型”Kimi K2 Thinking，这也是目前 Kimi 系列中能力最强的版本。根据官方的介绍，Kimi K2 Thinking基于“模型即智能体（Agent）”理念设计，原生具备“边思考，边使用工具”的能力，能够在无需人工干预的情况下，执行 200–300 次连续工具调用，完成复杂任务的多步骤推理与操作。

Kimi K2 Thinking在使用工具的情况下，HLE 得分达到 44.9%，BrowseComp 得分达到 60.2%，SWE-Bench Verified 得分达到 71.3%

✅ 推理能力
在一个涵盖超过 100 个学科的数千个专家级问题的HLE测试中，K2 Thinking 使用工具（搜索、Python、网页浏览）取得了 44.9% 的成绩，显著优于其他模型。

✅ 编程能力
在编程基准测试中表现优异：

SWE-Bench Verified：71.3%
SWE-Multilingual：61.1%
Terminal-Bench：47.1%
支持 HTML、React 等前端开发任务，能将想法转化为完整、响应式的产品。

✅ 智能搜索
在 BrowseComp 基准测试中Kimi K2 Thinking得分达 60.2%，远超人类基线（29.2%），比较好的体现了模型对目标导向搜索与信息整合能力。
在长期规划和适应性推理的驱动下，K2 Thinking 能够执行 200-300 个连续的工具调用。K2 Thinking 可以以“思考 → 搜索 → 浏览器使用 → 思考 → 编码”的动态循环方式执行任务，不断生成和完善假设、验证证据、进行推理并构建连贯的答案。

✅ 写作能力
在官方的介绍中，Kimi K2 Thinking在写作方面提升也比较明显。主要体现在创意写作、实用写作和情感回应三个方面。
使用Kimi K2 Thinking辅助写本文时，整理资料能力的确很好，行文方面并没有展现出来特别出色地方。可能会在论文和专业性文章的写作方面会比较突出。创业写作，没做专门的测试。

✅ 技术架构与优化

总参数量：1 万亿（1T）
激活参数：320 亿（32B）
上下文长度：256K
量化支持：原生支持 INT4 量化，推理速度提升约 2 倍，内存占用更低，且性能几乎无损。

Kimi K2 Thinking已经上线，可以在 kimi.com和最新版 Kimi App的对话模式中使用。API可通过 Kimi开放平台获取。

Moonshot AI发布Kimi K2 Thinking，具有超长链推理能力

发表评论点击这里取消回复。

标签

友情链接

Moonshot AI发布Kimi K2 Thinking，具有超长链推理能力

微信扫一扫,分享到朋友圈

发表评论 点击这里取消回复。

标签

友情链接

关注我们的公众号

发表评论点击这里取消回复。