您现在的位置是：首页 > 要闻 > 正文

如何训练deepseek 手机上如何使用deepseek

发布时间：2025-01-27 23:58:08来源：

导读如何训练DeepSeekDeepSeek AI推出了DeepSeek-R1模型，一款在复杂推理任务中可与OpenAI的o1模型竞争的开源模型。其关键创新在于引入了群体...

如何训练DeepSeek

DeepSeek AI推出了DeepSeek-R1模型，一款在复杂推理任务中可与OpenAI的o1模型竞争的开源模型。其关键创新在于引入了群体相对策略优化（Group Relative Policy Optimization，GRPO）和基于强化学习的多阶段训练方法。以下是训练DeepSeek的一些核心步骤：

1. 群体相对策略优化（GRPO）：

采样：使用当前策略为每个提示生成多个输出。

奖励评分：使用奖励函数对每个生成结果进行评分（可以是基于规则或结果的）。

优势计算：以生成输出的平均奖励为基准，计算每个解决方案相对于该基准的优势，并在群体内进行奖励归一化。

策略优化：通过最大化GRPO目标函数来优化策略，该函数包含计算出的优势值和KL散度项（不同于PPO中将KL散度项直接嵌入奖励信号）。

2. 多阶段训练方法：

团队通过在基础模型上实验强化学习，积累了丰富经验。从DeepSeek V3模型开始，团队将GRPO应用于无监督推理文本补全任务，并设计了基于规则的奖励模型。

准确性奖励：评估模型响应的正确性，例如是否返回正确结果或成功通过LeetCode问题的编译。

格式奖励：确保模型将推理过程格式化在标记对内。

针对准确性和格式设计的基于规则的奖励模型，效果优于复杂奖励模型。

3. 训练流程：

为解决基础模型强化学习冷启动不稳定的问题，团队采用了四阶段训练流程。

收集了长度可达10k Token的链式推理（CoT）数据，数据来源包括R1-zero模型和人工标注样本。这些数据被用于微调DeepSeek V3基础模型，从而提升其可读性和连贯性。

使用与R1-zero相同的强化学习管道，专注于数学和编程等推理密集型任务，并采用相同的基于规则的奖励模型。此外，增加了“语言一致性”奖励，帮助模型保持输出语言的一致性。

利用拒绝采样（Reject Sampling, RS）生成了大量合成数据集，专注于写作、角色扮演等通用任务。

使用第二阶段训练的模型和DeepSeek V3作为裁判，生成了约60万条推理相关数据和20万条通用任务数据。这些数据包括原有的DeepSeek-V3 SFT数据集以及附带CoT的重新生成数据。

在最后阶段，结合基于规则和结果的奖励模型，再次使用GRPO优化模型，提升其有用性和安全性，最终形成了DeepSeek R1模型。

手机上如何使用DeepSeek

在手机上使用DeepSeek，可以通过以下步骤实现：

1. 下载与安装：

对于iOS用户，可以在App Store中搜索“DeepSeek”，并认准开发者为“杭州深度求索人工智能”进行下载。

对于Android用户，可以在小米应用商店等官方渠道下载。

2. 注册与登录：

下载完成后，打开DeepSeek应用，使用手机号+验证码进行登录。

3. 使用Chatbox App部署DeepSeek-V3（可选）：

若想使用DeepSeek-V3模型，可以通过Chatbox App进行部署。

首先，下载Chatbox App，并在DeepSeek开放平台注册一个账号，为Chatbox App创建一个API key。

在Chatbox App中设置自定义提供方，选择OpenAI API兼容模式，并输入API密钥。

设置完成后，即可在Chatbox App中使用DeepSeek-V3模型。

4. 使用DeepSeek：

打开DeepSeek应用，即可开始与AI进行对话。

DeepSeek提供了“深度思考”和“联网搜索”等功能，可以拍照或上传图片识别内容，文件也可以上传读取分析。

需要注意的是，DeepSeek V3目前是一个纯文本模型，只支持文本输入和输出。

5. 查看与使用Tokens：

每次使用DeepSeek都会消耗一定的Tokens，可以在DeepSeek开放平台查看Tokens的用量和余额，并进行充值。

通过上述步骤，用户可以在手机上轻松使用DeepSeek进行对话、思考、搜索等操作。同时，DeepSeek也提供了丰富的功能和选项，以满足用户的不同需求。

标签：

您现在的位置是：首页 > 要闻 > 正文

如何训练deepseek 手机上如何使用deepseek

猜你喜欢

最新文章