您现在的位置是:首页 > 要闻 > 正文

如何训练deepseek 手机上如何使用deepseek

发布时间:2025-01-27 23:58:08来源:

导读 如何训练DeepSeekDeepSeek AI推出了DeepSeek-R1模型,一款在复杂推理任务中可与OpenAI的o1模型竞争的开源模型。其关键创新在于引入了群体...

如何训练DeepSeek

DeepSeek AI推出了DeepSeek-R1模型,一款在复杂推理任务中可与OpenAI的o1模型竞争的开源模型。其关键创新在于引入了群体相对策略优化(Group Relative Policy Optimization,GRPO)和基于强化学习的多阶段训练方法。以下是训练DeepSeek的一些核心步骤:

1. 群体相对策略优化(GRPO):

采样:使用当前策略为每个提示生成多个输出。

奖励评分:使用奖励函数对每个生成结果进行评分(可以是基于规则或结果的)。

优势计算:以生成输出的平均奖励为基准,计算每个解决方案相对于该基准的优势,并在群体内进行奖励归一化。

策略优化:通过最大化GRPO目标函数来优化策略,该函数包含计算出的优势值和KL散度项(不同于PPO中将KL散度项直接嵌入奖励信号)。

2. 多阶段训练方法:

团队通过在基础模型上实验强化学习,积累了丰富经验。从DeepSeek V3模型开始,团队将GRPO应用于无监督推理文本补全任务,并设计了基于规则的奖励模型。

准确性奖励:评估模型响应的正确性,例如是否返回正确结果或成功通过LeetCode问题的编译。

格式奖励:确保模型将推理过程格式化在标记对内。

针对准确性和格式设计的基于规则的奖励模型,效果优于复杂奖励模型。

3. 训练流程:

为解决基础模型强化学习冷启动不稳定的问题,团队采用了四阶段训练流程。

收集了长度可达10k Token的链式推理(CoT)数据,数据来源包括R1-zero模型和人工标注样本。这些数据被用于微调DeepSeek V3基础模型,从而提升其可读性和连贯性。

使用与R1-zero相同的强化学习管道,专注于数学和编程等推理密集型任务,并采用相同的基于规则的奖励模型。此外,增加了“语言一致性”奖励,帮助模型保持输出语言的一致性。

利用拒绝采样(Reject Sampling, RS)生成了大量合成数据集,专注于写作、角色扮演等通用任务。

使用第二阶段训练的模型和DeepSeek V3作为裁判,生成了约60万条推理相关数据和20万条通用任务数据。这些数据包括原有的DeepSeek-V3 SFT数据集以及附带CoT的重新生成数据。

在最后阶段,结合基于规则和结果的奖励模型,再次使用GRPO优化模型,提升其有用性和安全性,最终形成了DeepSeek R1模型。

手机上如何使用DeepSeek

在手机上使用DeepSeek,可以通过以下步骤实现:

1. 下载与安装:

对于iOS用户,可以在App Store中搜索“DeepSeek”,并认准开发者为“杭州深度求索人工智能”进行下载。

对于Android用户,可以在小米应用商店等官方渠道下载。

2. 注册与登录:

下载完成后,打开DeepSeek应用,使用手机号+验证码进行登录。

3. 使用Chatbox App部署DeepSeek-V3(可选):

若想使用DeepSeek-V3模型,可以通过Chatbox App进行部署。

首先,下载Chatbox App,并在DeepSeek开放平台注册一个账号,为Chatbox App创建一个API key。

在Chatbox App中设置自定义提供方,选择OpenAI API兼容模式,并输入API密钥。

设置完成后,即可在Chatbox App中使用DeepSeek-V3模型。

4. 使用DeepSeek:

打开DeepSeek应用,即可开始与AI进行对话。

DeepSeek提供了“深度思考”和“联网搜索”等功能,可以拍照或上传图片识别内容,文件也可以上传读取分析。

需要注意的是,DeepSeek V3目前是一个纯文本模型,只支持文本输入和输出。

5. 查看与使用Tokens:

每次使用DeepSeek都会消耗一定的Tokens,可以在DeepSeek开放平台查看Tokens的用量和余额,并进行充值。

通过上述步骤,用户可以在手机上轻松使用DeepSeek进行对话、思考、搜索等操作。同时,DeepSeek也提供了丰富的功能和选项,以满足用户的不同需求。

标签:

上一篇
下一篇