概述

Kimi自从1.5之后，淡出视野有一段时间了，以至于让人觉得月之暗面是不是快凉了。

前天(7月13日)，Kimi 突然宣布发布开源的kimi2，准确的说是Kimi K2模型，模型参数量是 1T。

1T = 1024B，要知道 DeekSeek的 V3 和 R1 模型，最大参数量也只是671B。

从参数量来说，Kimi K2 ≈ 1.5 DeepSeek-R1。

本文就来从理论和实践两个角度，挖掘一下这款新模型的潜力。

模型理论

目前，该模型只有一篇技术博客简单做了相关介绍，论文尚未公开。

开源地址：https://github.com/MoonshotAI/Kimi-K2

技术博客：https://moonshotai.github.io/Kimi-K2

1. 模型版本

该模型有两个版本：

Kimi-K2-Base: 基础模型，类似于 DeepSeek-r1-Zero，做相关研究的可以关注
Kimi-K2-Instruct: 在基础模型的基础上，后训练的模型，实际上调用的就是这个。

两个版本的模型结构一致，具体如下：

架构	混合专家模型 (MoE)
总参数量	1万亿 (1T)
激活参数量	320亿 (32B)
层数（包含全连接层）	61
全连接层数量	1
注意力隐藏层维度	7168
MoE隐藏层维度（单专家）	2048
注意力头数量	64
专家数量	384
每token选择的专家数	8
共享专家数量	1
词表大小	16万 (160K)
上下文长度	12.8万 (128K)
注意力机制	MLA（多头层叠注意力）
激活函数	SwiGLU pc28开奖网站

2. 模型基准测试

根据技术博客披露的基准对比情况，整体和Claude 4 Opus 不相上下，在数学和自然科学方面，取得了SOTA的水准。

3. 技术细节

博客中没有写太多的技术细节，主要以下三点。

1.MuonClip优化器

Kimi 之前的工作提到过 Muon 优化器，这项工作中，进一步发展为 MuonClip优化器，旨在解决因注意力计算爆炸导致的训练不稳定性问题。

这个优化器使得大规模预训练极其稳定，下图是损失随token的变化曲线，基本没出现不稳定的波动。

2.Agent能力训练

受 ACEBench 启发，这项工作大规模模拟了现实世界的工具使用场景，以此去增强模型的 Agent 能力。

Agent与模拟环境和用户代理交互，创建逼真的多轮工具使用场景。LLM 评委根据任务评分标准评估模拟结果，筛选出高质量的训练数据。

具体流程如下图所示。

3.通用强化学习

以往的强化学习是使用数学和编程竞赛进行学习，这类任务有标准答案，是可验证奖励的任务。

而撰写研究报告通常被视为不可验证的任务。为了让模型在这类任务中学习，采用自我判断机制，让模型充当自身的“批评家”，为不可验证任务提供可扩展的、基于评分标准的反馈。

模型测试

下面来进行测试，吹得再多没什么用，还得拉出来遛遛才能知道真实效果。

Kimi-K2 兼容 OpenAI/Anthropic API，兼容 Anthropic，这就意味着可以直接在 Cluade Code 里面直接配置这款模型。

如果想直接测试 Kimi-K2 的问答效果，可以直接登陆其官网，里面的模型已经支持K2。

在线地址：https://www.kimi.com/

下面从程序员的角度来进行测试，核心目的是测试其在真实编程场景中的使用体验。

1. 创建API

首先需要登陆月之暗面控制台，创建一个API key。

月之暗面控制台：https://platform.moonshot.cn/console/api-keys

它的 key 只会在创建的时候显示一次，后续无法再次查看，因此看到时最好做一个记录，防止后续配置时找不到。

2. 安装 Cluade Code

Cluade Code 在我之前的两篇文章中，分别介绍了 windows 和 Linux 的安装方式，没看过的读者可以跳转阅读，这里不重复赘述。

3. 配置环境变量

在 Linux 上，如果要在当前终端中，临时修改环境变量，可采用如下方式：

export ANTHROPIC_AUTH_TOKEN="你的API_Key"# 替换你的真实Keyexport ANTHROPIC_BASE_URL="https://api.moonshot.cn/anthropic"

如果要永久配置，可写入配置文件。

echo'export ANTHROPIC_AUTH_TOKEN="你的API_Key"' >> ~/.bashrc # 永久保存echo'export ANTHROPIC_BASE_URL="https://api.moonshot.cn/anthropic"' >> ~/.bashrc source ~/.bashrc

对于 windows 用户，可打开编辑账户环境变量，对应修改相应的环境变量。

配置完后，重新打开终端，输入claude就可以正常用了。

4. 实际测试

为了方便对比，我采用前文中整理的提示词，让它从零开始，写一个类OpenAI的聊天界面，具体 prompt 如下：

请帮我设计一个基于React的类OpenAI聊天界面，需满足以下功能： 1. **用户配置模块**- 提供API Key输入框（支持本地存储，避免重复填写） - 支持选择模型（如deepseek-v3/deepseek-R1等）和参数（temperature、max_tokens等 2. **对话交互界面**- 仿ChatGPT的聊天布局：左侧历史会话列表，右侧主聊天区 - 支持多轮对话，保留上下文（通过messages数组传递历史记录） - 实现流式响应（逐字输出效果），使用Server-Sent Events或OpenAI的stream参数 3. **功能增强**- 消息Markdown渲染（代码高亮、链接解析等） - 一键复制回复内容 - 响应耗时统计与token用量显示 4. **错误处理与状态管理**- 网络错误、API限流等异常提示 - 加载状态动画（如发送中、流式响应时） 5. **技术栈建议**- UI库：Ant Design或Material-UI - 状态管理：Zustand或Context API - 流式处理：使用`openai`库的`stream`参数或自定义SSE连接 **附加要求：**- 提供完整的React Hooks实现方案 - 优先考虑TypeScript类型安全 - 兼容移动端布局 - 提供完整的readme.md文档

很快它列出了一长串任务清单。

刚做完第一条，突然报错：

看错误信息，原来是被限速了！

查阅官方文档，原来免费的账户有 15r 的体验额度，但没充钱，每分钟最多请求 3 次。

遇到限速，只好先等等，等一分钟，再输入提示继续。

大概这样连续 3-4 次，它终于把代码写完了。

运行界面，模型配置弹窗如下：

问答也没出大问题，能流畅跑通，还顺带支持对话记录导出为 json 格式的功能。

不过也存在一点小bug，比如问答没有流式输出，对话有删除键，但无法生效。

不过总体表现和Claude 4差不多了，比Cursor + gemini-2.5-pro的效果略优。

价格方面，做完这个任务，花费了￥1.45，相比于Claude 4花费的$2，成本约是后者的 1/10。

总结

Kimi K2 这款模型让我感觉月之暗面再次回到大模型的第一梯队。

现如今 Agent 逐渐成为趋势，Kimi K2 能够兼容 Anthropic，让它能够充分利用 Claude Code 的集成便携性，进一步发挥 Agent 的实用价值。

美中不足的一点就是 Kimi 没有什么会员机制，API 按量计费，这对高频使用来说，成本难以控制；对免费用户来说，较高的限速会导致体验会有所下降。

公司新闻

Kimi2：又一次回到国产之巅

概述

模型理论

1. 模型版本

2. 模型基准测试

3. 技术细节

模型测试

1. 创建API

2. 安装 Cluade Code

3. 配置环境变量

4. 实际测试

总结

导航

热门资讯

MG4动力缩水续航涨，车主不满：经济车翻身难？

Kimi2：又一次回到国产之巅

DeepSeek深夜开源新版R1模型

A级车，B级车，C级车，原来就是这么划分的

8AT+3.3T双涡轮新劳恩斯酷派外形借鉴HND-9概念车

7万级家轿王！2024帝豪深度测评：凭啥叫板合资？

6年亏损80多亿、为“保壳”一退再退，一汽夏利最终狼狈退市！

导航

联系方式

邮箱订阅

公司新闻

Kimi2：又一次回到国产之巅

概述

模型理论

1. 模型版本

2. 模型基准测试

3. 技术细节

模型测试

1. 创建API

2. 安装 Cluade Code

3. 配置环境变量

4. 实际测试

总结

导航

热门资讯

MG4动力缩水续航涨，车主不满：经济车翻身难？

Kimi2：又一次回到国产之巅

DeepSeek深夜开源新版R1模型

A级车，B级车，C级车，原来就是这么划分的

8AT+3.3T双涡轮 新劳恩斯酷派外形借鉴HND-9概念车

7万级家轿王！2024帝豪深度测评：凭啥叫板合资？

6年亏损80多亿、为“保壳”一退再退，一汽夏利最终狼狈退市！

导航

联系方式

邮箱订阅

8AT+3.3T双涡轮新劳恩斯酷派外形借鉴HND-9概念车