Moonshot AI发布新一代开源“思考模型”Kimi K2 Thinking,这也是目前 Kimi 系列中能力最强的版本。根据官方的介绍,Kimi K2 Thinking基于“模型即智能体(Agent)”理念设计,原生具备“边思考,边使用工具”的能力,能够在无需人工干预的情况下,执行 200–300 次连续工具调用,完成复杂任务的多步骤推理与操作 。

Kimi K2 Thinking在使用工具的情况下,HLE 得分达到 44.9%,BrowseComp 得分达到 60.2%,SWE-Bench Verified 得分达到 71.3%
✅ 推理能力
在一个涵盖超过 100 个学科的数千个专家级问题的HLE测试中,K2 Thinking 使用工具(搜索、Python、网页浏览)取得了 44.9% 的成绩,显著优于其他模型。
✅ 编程能力
在编程基准测试中表现优异:
- SWE-Bench Verified:71.3%
- SWE-Multilingual:61.1%
- Terminal-Bench:47.1%
- 支持 HTML、React 等前端开发任务,能将想法转化为完整、响应式的产品 。
✅ 智能搜索
在 BrowseComp 基准测试中Kimi K2 Thinking得分达 60.2%,远超人类基线(29.2%),比较好的体现了模型对目标导向搜索与信息整合能力 。
在长期规划和适应性推理的驱动下,K2 Thinking 能够执行 200-300 个连续的工具调用。K2 Thinking 可以以“思考 → 搜索 → 浏览器使用 → 思考 → 编码”的动态循环方式执行任务,不断生成和完善假设、验证证据、进行推理并构建连贯的答案。
✅ 写作能力
在官方的介绍中,Kimi K2 Thinking在写作方面提升也比较明显。主要体现在创意写作、实用写作和情感回应三个方面。
使用Kimi K2 Thinking辅助写本文时,整理资料能力的确很好,行文方面并没有展现出来特别出色地方。可能会在论文和专业性文章的写作方面会比较突出。创业写作,没做专门的测试。
✅ 技术架构与优化
- 总参数量:1 万亿(1T)
- 激活参数:320 亿(32B)
- 上下文长度:256K
- 量化支持:原生支持 INT4 量化,推理速度提升约 2 倍,内存占用更低,且性能几乎无损 。
Kimi K2 Thinking已经上线,可以在 kimi.com和最新版 Kimi App的对话模式中使用。API可通过 Kimi开放平台获取。