作者归档:jaxli

【教程】基于DeepSeek-R1的个人AI知识库,全本地部署,可断网使用

从ChatGPT上线开始,我就有了一个想法,打造一个个人知识库,它可以充当我的第二大脑,记住我的尽量多的信息(包括隐私信息)。

无论是我每天的琐碎事务,还是重要的决策和回忆,它都能存储并快速检索。当我问它“我去年5月做了什么?”时,它不仅能够从知识库中找到当时的记录,还能结合上下文和细节,帮助我回忆起那些可能遗忘的瞬间。

但要实现这个想法,用在线服务肯定是不行的,我需要它完全本机运行。现在,有了可完全本机部署的deepseek-r1和bge-m3,加上界面优雅的Cherry Studio,是时候实现它了。

注意1:以下步骤在苹果M系列芯片,16G内存的MacBook Pro上实现。由于Mac拥有统一内存和显存,类似配置的PC除了16G及以上的内存外,还需要有额外的显存分配才能正常运行。

注意2:先不要吐槽非满血版deepseek-r1的模型效果,可以先学会怎么本机部署,往后开源的模型会越来越好的(一年前谁能想到现在端侧大模型效果这么好了呢)。


直接开始:
1、下载安装ollama:https://ollama.com/download

按自己的电脑系统选择即可,安装后,双击启动。

2、下载DeepSeek-R1:14b模型(9GB)

这里我选择了我的设备能运行的最大尺寸的模型,14b参数的这个。打开终端,输入命令:

ollama run deepseek-r1:14b
回车之后,模型就开始下载啦,确保电脑硬盘还有足够的剩余空间(下图示意是7b参数的版本,共4.7GB)

等待模型下载完成后,当你看到 >>> 提示符,这时已经可以跟模型聊天啦,让我们来试试:

到这里,如果你不需要知识库,你已经完成了deepseek-r1模型的本地部署,是不是很简单?只是这个聊天界面在命令行中,也无法保存跟deepseek的聊天记录。

更多尺寸的模型下载命令可以在这里找到:https://ollama.com/library/deepseek-r1

也可以在顶部Models菜单中找到其他的开源模型,比如阿里的通义千问qwen2.5、智谱的GLM-4、Meta的Llama3.2等等,有兴趣都可以试试,支持多个模型同时安装。

查看已安装模型的命令:ollama list

​删除已安装模型的命令(rm后是要删除的模型名称):ollama rm deepseek-r1:14b

3、下载embedding模型 bge-m3(1.2GB)

打开终端,输入命令:ollama pull bge-m3

等待下载完毕,看到success,关闭终端就行了。embedding嵌入模型的作用是把知识库里的文档内容转化为便于搜索的向量,这里只需要理解它是用来处理知识库文档数据的即可。

4、安装Cherry Studio

访问:https://cherry-ai.com,根据电脑系统选择相应版本下载安装

Cherry Studio是一款支持本地知识库的AI客户端,其实同类产品还有很多,比如Chatbox(有联网搜索和手机端)、PageAssist(浏览器插件)、Enchanted(简洁轻量)、OpenWebUI(可供局域网内多人访问)等等,有兴趣的同学可以挨个体验下。

到这里我们需要下载和安装的东西都完成了,接下来断网也可以使用。

5、配置模型提供商:Ollama,添加LLM语言模型和embedding嵌入模型

启动Cherry Studio,依次点击左下角设置-模型服务-Ollama,开启Ollama,API地址保持默认,点击管理按钮,可以看到会自动读取到我们刚才下载的deepseek-r1:14b和bge-m3[嵌入] 两个模型,点击添加。

这样我们就把Ollama下载的两个模型配置到Cherry Studio中了。

拓展阅读:在模型服务的设置这里,可以看到Cherry Studio已经支持的模型提供商,推荐大家还可以添加一个部署在siliconflow硅基流动的DeepSeek-R1满血版,但与这个模型产生的交互都需要连接网络,你的问题会被发送到siliconflow硅基流动的服务器,使用满血版会按实际用量计费,你可以根据自己的实际情况选择是否使用。配置时需要用到的api密钥,可通过这个链接https://cloud.siliconflow.cn/i/r2Z3LRPQ注册获取,现在新注册会有免费额度赠送。

6、创建知识库,导入本地文档

点击Cherry Studio左侧的知识库按钮,再点击“添加”,给知识库取个名字,嵌入模型选择我们刚才下载的bge-m3,点击确定后,即可创建出一个知识库。

这时可以添加文件或者直接拖拽文件到知识库里,支持pdf、docx、pptx、txt等格式,把个人简历、日记、工作文档、甚至微信聊天记录(前提是手动导成文本)放进来都可以。

我们先加一两个文档试试,可以看到加入后,每个文档都会经过嵌入模型的处理,有个蓝色小点loading过程,如果看到绿色小勾,就代表这个文档可以被deepseek检索到了。

此时,DeepSeek就学习了你上传的文档。这是一种被称为RAG的技术,AI收到你的问题后,会先到知识库里找出最相关的几个片段,然后结合它自有的知识,组织一段新的表述回复给你。这样就能把AI大模型原本训练时没有的知识(比如关于你个人的信息)告诉它。

好啦,现在你电脑上的DeepSeek-R1就拥有了知晓你私人文档的知识库:回到聊天界面,顶部选择deepseek-r1:14b|Ollama这个模型,输入框下方知识库按钮选中刚才创建的知识库,现在试试询问一个DeepSeek本身不知道的问题——

大功告成,我也要再去丰富一下我的个人知识库了

更多AI动态,欢迎关注公众号:未来科技

DeepSeek-R1论文 中文版(R1翻译)

在回沪的航班上,我用本地大模型翻译了这篇paper,这里也分享出来,省略部分图表。

DeepSeek-R1:通过强化学习激励大型语言模型的推理能力

DeepSeek-AI
research@deepseek.com

摘要
我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和DeepSeek-R1 。DeepSeek-R1-Zero 是通过大规模强化学习(RL)训练的模型,没有经过监督微调(SFT)作为初步步骤,展现了显著的推理能力。通过 RL,DeepSeek-R1-Zero 自然地展现出许多强大而有趣的推理行为。然而,它面临着可读性差和语言混合等挑战。为了解决这些问题并进一步增强推理性能,我们引入了 DeepSeek-R1,该模型在 RL 之前结合了多阶段训练和冷启动数据。 DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。为了支持研究社区,我们开源了 DeepSeek-R1-Zero 、DeepSeek-R1 以及基于 Qwen 和Llama 从DeepSeek-R1 提炼出的六个密集模型(1.5B 、7B 、8B 、14B 、32B 、70B)。

内容

  1. 引言
    1.1. 贡献
    1.2. 评估结果总结
  2. 方法
    2.1. 概述
    2.2. DeepSeek-R1-Zero:基础模型上的强化学习
    2.2.1. 强化学习算法
    2.2.2. 奖励建模
    2.2.3. 训练模板
    2.2.4. DeepSeek-R1-Zero 的性能、自我演化过程和“顿悟”时刻
    2.3. DeepSeek-R1:带有冷启动的强化学习
    2.3.1. 冷启动
    2.3.2. 以推理为导向的强化学习
    2.3.3. 拒绝采样和监督微调
    2.3.4. 适用于所有场景的强化学习
    2.4. 蒸馏:赋予小模型推理能力
  3. 实验
    3.1. DeepSeek-R1 评估
    3.2. 蒸馏模型评估
  4. 讨论
    4.1. 蒸馏与强化学习
    4.2. 不成功的尝试
  5. 结论、局限性和未来工作
    A. 贡献和致谢(略)

1. 引言
近年来,大型语言模型(LLMs)经历了快速的迭代和演变,逐渐缩小了与人工通用智能(AGI)之间的差距。最近,后训练已成为完整训练流程的重要组成部分。研究表明,它可以提高推理任务的准确性,与社会价值观对齐,并适应用户偏好,同时相对于预训练而言需要的计算资源相对较少。在推理能力方面,OpenAI 的o1 系列模型首次引入了通过增加思维链(Chain-of-Thought)推理过程的长度来进行推理时扩展的方法。这种方法在数学、编码和科学推理等各种推理任务中取得了显著的改进。然而,如何有效地进行测试时扩展仍然是研究社区面临的一个开放问题。之前的几项工作探索了各种方法,包括基于过程的奖励模型、强化学习和搜索算法(如蒙特卡洛树搜索和束搜索)。然而,这些方法都未能在推理性能上达到与 OpenAI 的o1 系列模型相当的水平。

在本文中,我们迈出了通过纯强化学习(RL)提高语言模型推理能力的第一步。我们的目标是探索 LLMs 在没有任何监督数据的情况下发展推理能力的潜力,专注于它们通过纯 RL 过程的自我演化。具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为 RL 框架,以提高模型在推理方面的表现。在训练过程中,DeepSeek-R1-Zero 自然展现出许多强大而有趣的推理行为。在经过数千步的 RL 后,DeepSeek-R1-Zero 在推理基准测试中的表现超群。例如,AIME 2024 的pass@1 分数从 15.6%上升到 71.0%,通过多数投票,分数进一步提高到 86.7%,与 OpenAI-o1-0912 的表现相匹配。

然而,DeepSeek-R1-Zero 面临着可读性差和语言混合等挑战。为了解决这些问题并进一步增强推理性能,我们引入了 DeepSeek-R1,该模型结合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集数千条冷启动数据,以微调 DeepSeek-V3-Base 模型。随后,我们执行以推理为导向的 RL,如同 DeepSeek-R1-Zero 。当 RL 过程接近收敛时,我们通过对 RL 检查点进行拒绝采样生成新的 SFT 数据,并结合来自 DeepSeek-V3 的监督数据,涵盖写作、事实问答和自我认知等领域,然后对 DeepSeek-V3-Base 模型进行再训练。在用新数据微调后,该检查点经过额外的 RL 过程,考虑到来自所有场景的提示。经过这些步骤,我们获得了一个称为 DeepSeek-R1 的检查点,其在推理任务上的表现与 OpenAI-o1-1217 相当。

我们进一步探索从 DeepSeek-R1 蒸馏出小型密集模型。使用 Qwen2.5-32B 作为基础模型,直接从 DeepSeek-R1 蒸馏的结果优于在其上应用 RL 。这表明大型基础模型发现的推理模式对于提高推理能力至关重要。我们开源了基于 DeepSeek-R1 蒸馏的 Qwen 和Llama 系列模型。值得注意的是,我们的蒸馏 14B 模型在推理基准测试中显著超越了最新的开源 QwQ-32B-Preview,而蒸馏的 32B 和70B 模型在密集模型中创下了新的推理基准记录。

1.1. 贡献
后训练:基础模型上的大规模强化学习

  • 我们直接将 RL 应用于基础模型,而不依赖于监督微调(SFT)作为初步步骤。这种方法使模型能够探索解决复杂问题的思维链(CoT),从而发展出 DeepSeek-R1-Zero 。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等能力,标志着研究社区的一个重要里程碑。值得注意的是,这是首个公开研究,验证了 LLMs 的推理能力可以通过纯 RL 激励,而无需 SFT 。这一突破为未来在这一领域的进展铺平了道路。
  • 我们引入了开发 DeepSeek-R1 的流程。该流程结合了两个 RL 阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信该流程将使行业受益,创造出更好的模型。

蒸馏:小模型也可以强大

  • 我们证明了大型模型的推理模式可以蒸馏到小模型中,从而在性能上超越通过 RL 发现的推理模式。开源的 DeepSeek-R1 及其 API 将使研究社区在未来蒸馏出更好的小模型。
  • 使用 DeepSeek-R1 生成的推理数据,我们微调了多个广泛使用的密集模型。评估结果表明,蒸馏的小型密集模型在基准测试中表现出色。 DeepSeek-R1-Distill-Qwen-7B 在AIME 2024 上达到 55.5%,超越了 QwQ-32B-Preview 。此外,DeepSeek-R1-Distill-Qwen-32B 在AIME 2024 上得分 72.6%,在 MATH-500 上得分 94.3%,在 LiveCodeBench 上得分 57.2%。这些结果显著超越了之前的开源模型,并与 o1-mini 相当。

1.2. 评估结果总结

  • 推理任务:
    (1) DeepSeek-R1 在AIME 2024 上得分 79.8% Pass@1,略微超过 OpenAI-o1-1217 。在 MATH-500 上,它取得了令人印象深刻的 97.3%的成绩,与 OpenAI-o1-1217 表现相当,并显著超越其他模型。
    (2) 在与编码相关的任务中,DeepSeek-R1 在代码竞赛任务中表现出色,获得了 Codeforces 上的 2,029 Elo 评分,超过了 96.3%的参赛人。对于工程相关任务,DeepSeek-R1 的表现略优于 DeepSeek-V3,这可能有助于开发者在实际任务中。
  • 知识:在 MMLU 、MMLU-Pro 和GPQA Diamond 等基准测试中,DeepSeek-R1 取得了出色的结果,得分分别为 90.8%、 84.0%和 71.5%,显著超越 DeepSeek-V3 。尽管在这些基准测试中的表现略低于 OpenAI-o1-1217,但 DeepSeek-R1 超越了其他闭源模型,展示了其在教育任务中的竞争优势。在事实基准测试 SimpleQA 中,DeepSeek-R1 的表现优于 DeepSeek-V3,显示出其处理基于事实查询的能力。在该基准测试中,OpenAI-o1 也超越了 4o 。
  • 其他:DeepSeek-R1 在广泛的任务中表现出色,包括创意写作、一般问答、编辑、摘要等。在 AlpacaEval 2.0 上,它实现了 87.6%的长度控制胜率,在 ArenaHard 上达到了 92.3%的胜率,展示了其智能处理非考试导向查询的强大能力。此外,DeepSeek-R1 在需要长上下文理解的任务上表现出色,在长上下文基准测试中显著超越 DeepSeek-V3 。

2. 方法

2.1. 概述
以往的工作在提升模型性能时,往往依赖大量的监督数据。在本研究中,我们展示了通过大规模强化学习(RL)显著提升推理能力,即使在没有使用监督微调(SFT)作为冷启动的情况下。此外,加入少量高质量数据作为冷启动可以进一步提升性能。接下来的部分将介绍:(1) DeepSeek-R1-Zero,该模型直接将 RL 应用于基础模型,而没有任何 SFT 数据;(2) DeepSeek-R1,该模型从经过数千条长思维链(CoT)示例微调的检查点开始应用 RL;(3) 将推理能力蒸馏到小型密集模型。

2.2. DeepSeek-R1-Zero:基础模型上的强化学习

强化学习在推理任务中展现出了显著的有效性,如我们之前的工作所示。然而,这些工作在实践中高度依赖于监督数据,这些数据的收集耗时。我们在这一部分探讨了 LLMs 在没有任何监督数据的情况下,如何通过纯强化学习过程发展推理能力,重点关注它们的自我演化。

2.2.1. 强化学习算法
我们采用了群体相对策略优化(GRPO),以节省 RL 的训练成本。 GRPO 省略了通常与策略模型同等大小的评论模型,而是从群体得分中估计基线。具体来说,对于每个问题𝑞,GRPO 从旧策略𝜋𝜃𝑜𝑙𝑑中抽样一组输出{𝑜1, 𝑜2, · · · , 𝑜𝐺},然后通过最大化以下目标来优化策略模型𝜋𝜃:

[ J_{GRPO}(\theta) = E[q \sim P(Q), {o_i}{i=1}^{G} \sim \pi{\theta_{old}}(O|q)] ]

2.2.2. 奖励建模
奖励是训练信号的来源,决定了强化学习(RL)的优化方向。为了训练 DeepSeek-R1-Zero,我们采用了一种基于规则的奖励系统,主要由两种类型的奖励组成:

  • 准确性奖励:准确性奖励模型评估响应是否正确。例如,在确定性结果的数学问题中,模型需要以指定的格式(例如,在框内)提供最终答案,从而实现可靠的基于规则的正确性验证。同样,对于 LeetCode 问题,可以使用编译器根据预定义的测试用例生成反馈。
  • 格式奖励:除了准确性奖励模型外,我们还采用格式奖励模型,强制模型将其思维过程放在“<think>”和“</think>”标签之间。

我们没有在开发 DeepSeek-R1-Zero 时应用结果或过程神经奖励模型,因为我们发现神经奖励模型可能在大规模强化学习过程中遭遇奖励黑客问题,而重新训练奖励模型需要额外的训练资源,并且会使整个训练流程变得复杂。

2.2.3. 训练模板
为了训练 DeepSeek-R1-Zero,我们首先设计了一个简单的模板,指导基础模型遵循我们的指定指令。如表 1所示,该模板要求 DeepSeek-R1-Zero 首先生成推理过程,然后给出最终答案。我们故意将约束限制在这种结构化格式上,避免任何内容特定的偏见——例如强制反思性推理或推广特定问题解决策略——以确保我们能够准确观察模型在 RL 过程中的自然进展。

2.2.4. DeepSeek-R1-Zero 的性能、自我演化过程和“顿悟”时刻
DeepSeek-R1-Zero 的性能如图 2所示,展示了其在 AIME 2024 基准测试中的表现轨迹。在 RL 训练过程中,DeepSeek-R1-Zero 的性能稳步提升,表现出持续的增强。值得注意的是,AIME 2024 的平均 pass@1 分数显著增加,从最初的 15.6%跃升至 71.0%,达到了与 OpenAI-o1-0912 相当的性能水平。这一显著提升突显了我们的 RL 算法在优化模型性能方面的有效性。

表 2提供了 DeepSeek-R1-Zero 与OpenAI 的o1-0912 模型在各种推理相关基准测试中的比较分析。研究结果显示,RL 使DeepSeek-R1-Zero 在没有任何监督微调数据的情况下获得了强大的推理能力。这是一个值得注意的成就,因为它强调了模型通过 RL 单独学习和概括的能力。此外,通过应用多数投票,DeepSeek-R1-Zero 的表现可以进一步增强。例如,在 AIME 基准测试中,当采用多数投票时,DeepSeek-R1-Zero 的表现从 71.0%提升至 86.7%,超越了 OpenAI-o1-0912 。DeepSeek-R1-Zero 在有无多数投票情况下都能取得如此竞争力的表现,突显了其强大的基础能力和在推理任务中进一步发展的潜力。

DeepSeek-R1-Zero 的自我演化过程
DeepSeek-R1-Zero 的自我演化过程展示了 RL 如何驱动模型自主提升其推理能力。通过直接从基础模型启动 RL,我们可以在没有监督微调阶段影响的情况下,密切监控模型的进展。这种方法清晰地展示了模型随时间演变的过程,特别是在处理复杂推理任务的能力方面。

如图 3所示,DeepSeek-R1-Zero 的思考时间在训练过程中持续改善。这种改善不是外部调整的结果,而是模型内部的内在发展。 DeepSeek-R1-Zero 通过利用扩展的测试时间计算,自然地获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和完善其思维过程。

这一自我演化的最显著方面是,随着测试时间计算的增加,复杂行为的出现。反思等行为——模型重新审视和重新评估其先前步骤——以及探索替代问题解决方法的能力自发地出现。这些行为并不是显式编程的结果,而是模型与强化学习环境交互的结果。这种自发的发展显著增强了 DeepSeek-R1-Zero 的推理能力,使其能够更高效、更准确地应对更具挑战性的任务。

DeepSeek-R1-Zero 的“顿悟”时刻
在 DeepSeek-R1-Zero 的训练过程中观察到的一个特别有趣的现象是“顿悟”时刻的出现。这一时刻发生在模型的一个中间版本中。在这一阶段,DeepSeek-R1-Zero 学会了通过重新评估其初始方法来为问题分配更多的思考时间。这种行为不仅证明了模型推理能力的提升,也是强化学习如何导致意想不到和复杂结果的迷人示例。

这一时刻不仅是模型的“顿悟”,也是观察其行为的研究者的“顿悟”。它强调了强化学习的力量和美丽:我们并不是明确教导模型如何解决问题,而是简单地为其提供正确的激励,模型便自主发展出先进的问题解决策略。“顿悟”时刻强有力地提醒我们,RL 有潜力解锁人工系统的新智能水平,为未来更自主和适应性的模型铺平道路。

DeepSeek-R1-Zero 的缺点
尽管 DeepSeek-R1-Zero 展现了强大的推理能力,并自主发展出意想不到和强大的推理行为,但它面临着一些问题。例如,DeepSeek-R1-Zero 在可读性差和语言混合等挑战上存在困难。为了使推理过程更具可读性并与开放社区分享,我们探索了 DeepSeek-R1,这是一种利用 RL 与人类友好的冷启动数据的方法。

2.3. DeepSeek-R1:带有冷启动的强化学习
受到 DeepSeek-R1-Zero 的良好结果的启发,自然产生了两个问题:1)通过加入少量高质量数据作为冷启动,推理性能是否可以进一步提高或收敛加速?2)我们如何训练一个用户友好的模型,不仅能生成清晰连贯的思维链(CoT),还能够展示出强大的通用能力?为了解决这些问题,我们设计了一个训练 DeepSeek-R1 的流程。该流程包括四个阶段,具体如下。

2.3.1. 冷启动
与 DeepSeek-R1-Zero 不同,为了防止 RL 训练初期的不稳定冷启动阶段,我们为 DeepSeek-R1 构建并收集了一小部分长 CoT 数据,以微调模型作为初始 RL 演员。为了收集这些数据,我们探索了几种方法:使用少量示例的长 CoT 进行提示,直接提示模型生成详细答案并进行反思和验证,收集 DeepSeek-R1-Zero 的可读格式输出,并通过人工注释者进行后处理来精炼结果。

在本研究中,我们收集了数千条冷启动数据,以微调 DeepSeek-V3-Base 作为 RL 的起点。与 DeepSeek-R1-Zero 相比,冷启动数据的优势包括:

  • 可读性:DeepSeek-R1-Zero 的一个关键限制是其内容往往不适合阅读。响应可能混合多种语言或缺乏突出答案的 Markdown 格式。相比之下,在为 DeepSeek-R1 创建冷启动数据时,我们设计了一个可读的模式,在每个响应的末尾包含摘要,并过滤掉不适合阅读的响应。我们在此定义输出格式为|special_token|<reasoning_process>|special_token|<summary>,其中推理过程是查询的 CoT,摘要用于总结推理结果。
  • 潜力:通过精心设计冷启动数据的模式并结合人类先验,我们观察到相较于 DeepSeek-R1-Zero 的更好表现。我们相信迭代训练是推理模型的更好方法。

2.3.2. 面向推理的强化学习
在对 DeepSeek-V3-Base 进行冷启动数据的微调后,我们应用与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程。这个阶段的重点是增强模型的推理能力,特别是在编码、数学、科学和逻辑推理等推理密集型任务中,这些任务涉及定义明确且解决方案清晰的问题。在训练过程中,我们观察到 CoT(思维链)经常表现出语言混合,特别是在 RL 提示涉及多种语言时。为了缓解语言混合的问题,我们在 RL 训练中引入了语言一致性奖励,该奖励是根据 CoT 中目标语言单词的比例计算的。尽管消融实验表明,这种对齐会导致模型性能的轻微下降,但该奖励与人类偏好一致,使其更具可读性。最后,我们通过直接相加推理任务的准确性和语言一致性奖励来形成最终奖励。然后,我们在微调后的模型上应用 RL 训练,直到其在推理任务上达到收敛。

2.3.3. 拒绝采样和监督微调
当面向推理的 RL 收敛时,我们利用生成的检查点收集 SFT(监督微调)数据以进行下一轮。与最初主要关注推理的冷启动数据不同,这个阶段结合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务中的能力。具体而言,我们生成数据并对模型进行微调,如下所述。
推理数据 我们策划推理提示,并通过对上述 RL 训练的检查点进行拒绝采样来生成推理轨迹。在前一个阶段,我们只包括可以使用基于规则的奖励进行评估的数据。然而,在这个阶段,我们通过引入额外数据来扩展数据集,其中一些数据使用生成奖励模型,通过将真实值和模型预测输入 DeepSeek-V3 进行判断。此外,由于模型输出有时混乱且难以阅读,我们过滤掉了混合语言的思维链、冗长的段落和代码块。对于每个提示,我们采样多个响应,仅保留正确的响应。总共,我们收集了大约 60 万个与推理相关的训练样本。
非推理数据 对于非推理数据,如写作、事实问答、自我认知和翻译,我们采用 DeepSeek-V3 流程,并重用 DeepSeek-V3 的部分 SFT 数据集。对于某些非推理任务,我们调用 DeepSeek-V3 在回答问题之前生成潜在的思维链。然而,对于更简单的查询,如“你好”,我们不会提供思维链作为回应。最终,我们收集了大约 20 万个与推理无关的训练样本。
我们使用上述策划的数据集(约 80 万个样本)对 DeepSeek-V3-Base 进行了两轮微调。

2.3.4. 面向所有场景的强化学习
为了进一步使模型与人类偏好对齐,我们实施了一个二次强化学习阶段,旨在提高模型的有用性和无害性,同时精炼其推理能力。具体而言,我们使用奖励信号和多样化提示分布的组合来训练模型。对于推理数据,我们遵循 DeepSeek-R1-Zero 中概述的方法,利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据,我们依靠奖励模型来捕捉复杂和细微场景中的人类偏好。我们在 DeepSeek-V3 流程的基础上,采用类似的偏好对和训练提示分布。对于有用性,我们专注于最终总结,确保评估强调响应对用户的实用性和相关性,同时最小化对基础推理过程的干扰。对于无害性,我们评估模型的整个响应,包括推理过程和总结,以识别和缓解在生成过程中可能出现的任何潜在风险、偏见或有害内容。最终,奖励信号和多样化数据分布的整合使我们能够训练出在推理方面表现出色,同时优先考虑有用性和无害性的模型。

2.4. 蒸馏:赋予小模型推理能力
为了使更高效的小模型具备类似 DeepSeek-R1 的推理能力,我们直接对开源模型(如 Qwen 和 Llama)进行微调,使用与 DeepSeek-R1 策划的 80 万个样本,如 §2.3.3 中详细说明的。我们的研究结果表明,这种简单的蒸馏方法显著增强了小模型的推理能力。我们在这里使用的基础模型包括 Qwen2.5-Math-1.5B 、Qwen2.5-Math-7B 、Qwen2.5-14B 、Qwen2.5-32B 、Llama-3.1-8B 和 Llama-3.3-70B-Instruct 。我们选择 Llama-3.3,因为它的推理能力略优于 Llama-3.1 。
对于蒸馏模型,我们仅应用 SFT,而不包括 RL 阶段,尽管纳入 RL 可能会显著提升模型性能。我们在这里的主要目标是展示蒸馏技术的有效性,将 RL 阶段的探索留给更广泛的研究社区。

  1. 实验
    基准测试 我们在 MMLU(Hendrycks et al., 2020)、MMLU-Redux(Gema et al., 2024)、MMLU-Pro(Wang et al., 2024)、C-Eval(Huang et al., 2023)、CMMLU(Li et al., 2023)、IFEval(Zhou et al., 2023)、FRAMES(Krishna et al., 2024)、GPQA Diamond(Rein et al., 2023)、SimpleQA(OpenAI, 2024c)、C-SimpleQA(He et al., 2024)、SWE-Bench Verified(OpenAI, 2024d)、Aider 1、LiveCodeBench(Jain et al., 2024)(2024-08 – 2025-01)、Codeforces 2、中国全国高中数学奥林匹克(CNMO 2024)3,以及美国邀请数学考试 2024(AIME 2024)(MAA, 2024)上评估模型。除了标准基准测试外,我们还使用 LLM 作为评审对开放式生成任务进行评估。具体而言,我们遵循 AlpacaEval 2.0(Dubois et al., 2024)和 Arena-Hard(Li et al., 2024)的原始配置,这些配置利用 GPT-4-Turbo-1106 作为成对比较的评审。在这里,我们仅将最终摘要输入评估,以避免长度偏差。对于蒸馏模型,我们报告 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 的代表性结果。

评估提示 根据 DeepSeek-V3 的设置,标准基准测试(如 MMLU、DROP、GPQA Diamond 和 SimpleQA)使用来自 simpleevals 框架的提示进行评估。对于 MMLU-Redux,我们在零样本设置中采用 Zero-Eval 提示格式(Lin, 2024)。至于 MMLU-Pro、C-Eval 和 CLUE-WSC,由于原始提示是少样本的,我们稍微修改提示以适应零样本设置。少样本中的思维链可能会影响 DeepSeek-R1 的性能。其他数据集遵循其原始评估协议,使用其创建者提供的默认提示。对于代码和数学基准,HumanEval-Mul 数据集涵盖八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash)。LiveCodeBench 上的模型性能使用思维链格式进行评估,数据收集时间为 2024 年 8 月至 2025 年 1 月。Codeforces 数据集使用来自 10 个 Div.2 竞赛的问题以及专家设计的测试用例进行评估,之后计算预期评级和竞争者的百分比。SWE-Bench 验证结果通过无代理框架获得(Xia et al., 2024)。与 AIDER 相关的基准使用“diff”格式进行测量。DeepSeek-R1 的输出在每个基准上限制为最多 32,768 个标记。

基线 我们对几个强基线进行了全面评估,包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在中国大陆访问 OpenAI-o1-1217 API 较为困难,我们根据官方报告报告其性能。对于蒸馏模型,我们还比较了开源模型 QwQ-32B-Preview(Qwen, 2024a)。

评估设置 我们将模型的最大生成长度设置为 32,768 个标记。我们发现,使用贪婪解码来评估长输出推理模型会导致更高的重复率和不同检查点之间的显著变异。因此,我们默认使用 pass@𝑘 评估(Chen et al., 2021),并使用非零温度报告 pass@1。具体而言,我们使用 0.6 的采样温度和 0.95 的 top-𝑝 值为每个问题生成 𝑘 个响应(通常在 4 到 64 之间,具体取决于测试集的大小)。然后计算 pass@1 为:
[
\text{pass@1} = \frac{1}{k} \sum_{i=1}^{k} p_i
]
其中 ( p_i ) 表示第 ( i ) 个响应的正确性。该方法提供了更可靠的性能估计。对于 AIME 2024,我们还报告了共识(多数投票)结果(Wang et al., 2022),使用 64 个样本,表示为 cons@64。

3.1. DeepSeek-R1 评估

基准(指标)Claude-3.5-1022GPT-4o-0513DeepSeek-V3OpenAI-o1-miniOpenAI-o1-1217DeepSeek-R1
架构MoEMoE
激活参数数量37B37B
总参数数量671B671B
英语
MMLU (Pass@1)88.387.288.585.291.890.8
MMLU-Redux (EM)88.988.089.186.792.9
MMLU-Pro (EM)78.072.675.980.384.0
DROP (3-shot F1)88.383.791.683.990.292.2
IF-Eval (Prompt Strict)86.584.386.184.883.3
GPQA Diamond (Pass@1)65.049.959.160.075.771.5
SimpleQA (正确)28.438.224.97.047.030.1
FRAMES (准确率)72.580.573.376.982.5
AlpacaEval2.0 (LC-winrate)52.051.170.057.887.6
ArenaHard (GPT-4-1106)85.280.485.592.092.3
代码
LiveCodeBench (Pass@1-COT)38.932.936.253.863.465.9
Codeforces (百分位)20.323.658.793.496.696.3
Codeforces (评分)7177591134182020612029
SWE Verified (解决率)50.838.842.041.648.949.2
Aider-Polyglot (准确率)45.316.049.632.961.753.3
数学
AIME 2024 (Pass@1)16.09.3

3.2. 蒸馏模型评估
表 5 | DeepSeek-R1 蒸馏模型与其他可比模型在推理相关基准上的比较。
如表 5 所示,简单地蒸馏 DeepSeek-R1 的输出使得高效的 DeepSeek-R1-7B(即 DeepSeek-R1-Distill-Qwen-7B,以下简写为相似)在各个方面超越了非推理模型如 GPT-4o-0513。DeepSeek-R1-14B 在所有评估指标上超过了 QwQ-32B-Preview,而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准上显著超过了 o1-mini。这些结果展示了蒸馏的强大潜力。此外,我们发现对这些蒸馏模型应用强化学习(RL)会带来显著的进一步提升。我们认为这值得进一步探索,因此在此仅展示简单的 SFT 蒸馏模型的结果。

  1. 讨论
    4.1. 蒸馏与强化学习
    在 3.2 节中,我们可以看到,通过蒸馏 DeepSeek-R1,小模型可以取得令人印象深刻的结果。然而,仍然有一个问题:模型是否可以通过本文讨论的大规模 RL 训练而不进行蒸馏来实现可比的性能?
    为了解答这个问题,我们在 Qwen-32B-Base 上进行大规模 RL 训练,使用数学、代码和 STEM 数据,训练超过 10K 步,得到了 DeepSeek-R1-Zero-Qwen-32B。实验结果如表 6 所示,经过大规模 RL 训练的 32B 基础模型在性能上与 QwQ-32B-Preview 相当。然而,DeepSeek-R1-Distill-Qwen-32B(从 DeepSeek-R1 蒸馏而来)在所有基准上表现显著优于 DeepSeek-R1-Zero-Qwen-32B。
    因此,我们可以得出两个结论:首先,将更强大的模型蒸馏成更小的模型可以获得优秀的结果,而依赖于本文提到的大规模 RL 的小模型则需要巨大的计算能力,甚至可能无法达到蒸馏的性能。其次,虽然蒸馏策略既经济又有效,但超越智能的边界可能仍然需要更强大的基础模型和大规模的强化学习。

4.2. 不成功的尝试
在开发 DeepSeek-R1 的早期阶段,我们也遇到了失败和挫折。我们在此分享我们的失败经验以提供见解,但这并不意味着这些方法无法开发出有效的推理模型。
过程奖励模型(PRM)PRM 是一种合理的方法,可以指导模型朝着更好的方法解决推理任务(Lightman 等,2023;Uesato 等,2022;Wang 等,2023)。然而,在实践中,PRM 有三个主要限制,可能会妨碍其最终成功。首先,很难明确地定义一般推理中的细粒度步骤。其次,确定当前中间步骤是否正确是一项具有挑战性的任务。使用模型进行自动标注可能无法产生令人满意的结果,而手动标注不利于规模化。第三,一旦引入基于模型的 PRM,就不可避免地会导致奖励黑客(Gao 等,2022),而重新训练奖励模型需要额外的训练资源,并使整个训练流程变得复杂。总之,尽管 PRM 在重新排序模型生成的前 N 个响应或辅助引导搜索方面表现出良好的能力(Snell 等,2024),但与其在我们实验中的大规模强化学习过程中引入的额外计算开销相比,其优势是有限的。
蒙特卡洛树搜索(MCTS)受到 AlphaGo(Silver 等,2017b)和 AlphaZero(Silver 等,2017a)的启发,我们探索使用蒙特卡洛树搜索(MCTS)来增强测试时计算的可扩展性。这种方法涉及将答案分解为更小的部分,以便模型能够系统地探索解决方案空间。为此,我们提示模型生成多个标签,这些标签对应于搜索所需的特定推理步骤。对于训练,我们首先使用收集到的提示通过 MCTS 找到答案,并由预训练的价值模型指导。随后,我们使用生成的问题-答案对来训练演员模型和价值模型,迭代地完善这一过程。
然而,这种方法在扩大训练规模时遇到了几个挑战。首先,与棋类游戏相比,棋类游戏的搜索空间相对明确,而令牌生成则呈现出指数级更大的搜索空间。为了解决这个问题,我们为每个节点设置了最大扩展限制,但这可能导致模型陷入局部最优。其次,价值模型直接影响生成的质量,因为它指导搜索过程的每一步。训练一个细粒度的价值模型本质上是困难的,这使得模型难以迭代改进。虽然 AlphaGo 的核心成功依赖于训练一个价值模型以逐步提高其性能,但由于令牌生成的复杂性,这一原则在我们的设置中难以复制。
总之,尽管 MCTS 在与预训练价值模型配对时可以提高推理期间的性能,但通过自我搜索迭代提升模型性能仍然是一个重大挑战。

  1. 结论、局限性与未来工作
    在本工作中,我们分享了通过强化学习增强模型推理能力的历程。DeepSeek-R1-Zero 代表了一种纯 RL 方法,不依赖冷启动数据,在各种任务中取得了强大的性能。DeepSeek-R1 更加强大,利用冷启动数据和迭代 RL 微调。最终,DeepSeek-R1 在一系列任务中达到了与 OpenAI-o1-1217 相当的性能。
    我们进一步探索将推理能力蒸馏到小型密集模型中。我们使用 DeepSeek-R1 作为教师模型生成 80 万个训练样本,并微调多个小型密集模型。结果令人鼓舞:DeepSeek-R1-Distill-Qwen-1.5B 在数学基准上以 28.9% 的 AIME 和 83.9% 的 MATH 超越了 GPT-4o 和 Claude-3.5-Sonnet。其他密集模型也取得了令人印象深刻的结果,显著超越了基于相同基础检查点的其他指令调优模型。
    未来,我们计划在以下方向上对 DeepSeek-R1 进行研究。
  • 通用能力:目前,DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务上的能力仍不及 DeepSeek-V3。未来,我们计划探索如何利用长链推理(CoT)来增强这些领域的任务。
  • 语言混合:DeepSeek-R1 目前针对中文和英文进行了优化,这可能导致在处理其他语言的查询时出现语言混合问题。例如,尽管查询使用的是英语以外的语言,DeepSeek-R1 可能仍会使用英语进行推理和响应。

2024年的碎碎念

1月

2024-01-01 20:19:02

对甜品的最高评价是不太甜 对男人的最高评价是不太男

2024-01-02 12:02:27

一些景点有了新的装修;
iPhone用上了八达通;
更多商户支持了WeChatPay和Alipay;
KeeTa崛起,蚕食Foodpanda等外卖平台;
很多地方还残留有covid-2019疫情的贴纸提示,有些taxi上也还留有“认证抗疫的士”的贴纸;

2024-01-02 12:05:16

元旦假期日均出入境人次恢复到2019年水平

2024-01-02 18:56:09

卫视中文台、卫视电影台、星卫HD电影台、星卫娱乐台停播

2024-01-04 00:00:48

每半个月领到的WLD,转到CEX卖掉,然后U转到OneKeyCard(这一步有手续费)就能在国内支付使用了……

2024-01-04 15:05:33

Pascal、Euler 和 Oberon 等语言的作者和合作者 Niklaus Wirth 于 2024 年 1 月 1 日去世,享年 89 岁。Niklaus Wirth 于 1934 年 2 月 15 日出生于瑞士,先后任教于斯坦福、苏黎世大学、苏黎世联邦理工学院,曾在施乐帕洛阿尔托研究中心进修两年。他是 Algol W 、Modula、Pascal、 Modula-2、Oberon 等语言的主设计师,是 Euler 语言的发明者之一。1984 年他因在编程语言上的贡献而获图灵奖。他亦是Lilith电脑和Oberon系统的设计和执行队伍的重要成员。

2024-01-05 18:49:05

Introducing http://aoyo.ai – the new AI search

This is an AI search product designed for everyone.

-Based on the latest RAG technology, it allows you to search foreign language content on the internet in your native language, and the AI will summarize and respond in your native language.

-No ads, no content censorship, supporting traditional search commands like site/filetype/inurl, and can replace daily web searches.

2024-01-07 10:55:40

《繁花》的电视频道播出时间:https://www.tvmao.com/drama/YG0jXGVl/playingtime

2024-01-08 17:32:56

做出海工具不要用国内域名注册商和dns,godaddy+cloudflare+github+vercel完事

2024-01-08 22:22:29

Vision Pro来了! 1/19开始预订,2/2美国上市

2024-01-08 23:32:45

元梦之星做得比蛋仔派对精美

2024-01-11 01:00:39

单曲循环一首low歌,明年的年度听歌报告不会有它吧

2024-01-11 01:21:17

我的 #2023年度产品 :ChatGPT、Midjourney、Raycast、HomeAssistant、aoyo.ai

2024-01-11 09:09:12

Apple Music家庭版涨价到17元/月

2024-01-11 09:23:40

一觉醒来:
GPTs和ChatGPT团队版发布
SEC批准比特币ETF

2024-01-11 11:47:31

微信AI将会在今天微信公开课PRO上亮相

2024-01-11 16:54:00

实体产品:HappyRain碳纤维伞、摩飞便携电热水杯、SteamDeck、魅族myvu眼镜、添添闺蜜机

2024-01-13 19:27:18

赖萧配得票率已经超过40%

2024-01-15 20:02:24

瑙鲁与台湾断交,ROC邦交国只剩12个了

2024-01-19 19:29:01

冬青奥会在韩国江原道

2024-01-24 12:15:54

感谢流感疫苗的保护

2024-01-24 15:25:40

商业航天发展迅速,火箭发射的成本会越来越低。

2024-01-25 20:51:22

焦点访谈关注了人工智能(发展新质生产力系列报道)

2月

2024-02-01 10:20:35

对他人大段话语的引用,只用在每一段开头用左双引号。

2024-02-08 12:34:39

今年春节档前三预测:《热辣滚烫》《飞驰人生2》《第二十条》

2024-02-16 16:05:13

活到老,学到老。

2024-02-17 09:17:06

九牛迁到深圳改名新鹏城了,没能实现成都德比(虽然中甲时期有过)

2024-02-18 08:36:11

sora可以帮助电影创作者rapid prototype

2024-02-23 22:31:58

看了几集《小敏家》,剧中的装修风格不错。

2024-02-29 00:03:22

四年一次的一天。

3月

2024-03-06 15:23:12

视频生成今年应该会大跃进

2024-03-09 20:17:54

宽屏(16:9)HD视频是2010年左右普及的。

2024-03-10 13:05:08

United Nations Relief and Works Agency for Palestine Refugees “联合国近东巴勒斯坦难民救济和工程处” 或者简称为“近东救济工程处” 为什么官方中文名带有“近东”二字

2024-03-11 19:45:30

短跑第4道是卫冕道。卫冕冠军通常被安排在第4道。

2024-03-13 21:30:48

今年还是拜登vs川普

2024-03-15 18:09:26

看到一个新品牌和新品类:盖狮可吸果泥

2024-03-17 22:11:34

Suno出现之后,音乐工业会有大的变化吧

2024-03-27 17:52:11

小米SU7的电机研发还是砸了重金的。

4月

2024-04-05 20:37:13

保持对世界的好奇心

2024-04-07 19:22:45

小米SU7的广告视频是在外滩拍的

2024-04-13 21:04:09

原来民国时期就有证券市场。

2024-04-16 18:58:33

奥运火炬传递开始了。

2024-04-25 20:31:20

神舟十八号任务,成都人叶光富担任01指令长。上一次是神十三,这次任务完成后他在太空的累计时长可能会超过一年。

5月

2024-05-02 17:40:28

殷墟遗址在河南安阳市境内

2024-05-06 20:12:56

龟兹 和 虚与委蛇,以前读错了。

2024-05-07 19:25:10

M4 iPadPro 13寸,比Pencil还薄

2024-05-20 21:03:44

深圳有数字人民币硬钱包申领自助机了

2024-05-22 18:47:22

中华民国四个字出现在了央视

6月

2024-06-05 09:22:45

支付宝小荷包产品做得不错

2024-06-13 20:09:37

今年3个热播剧的片尾曲都是周深唱的

2024-06-14 23:47:02

欧洲杯揭幕战在安联球场,东道主德国的主场也是拜仁慕尼黑的主场

2024-06-22 19:34:50

在欧洲杯赛场的场边广告牌看到比亚迪的子品牌:方程豹

7月

2024-07-07 20:28:12

“垸”的意思是湖区大坝围合的陆地

2024-07-10 08:05:36

欧洲杯半决赛和美洲杯半决赛碰到了一起

2024-07-12 18:53:29

上半年新能源汽车占有率已达33.5%

2024-07-14 19:40:11

Trump被枪击后振臂一呼的形象刻在了历史中。

2024-07-16 15:09:14

伏天开始了,听到了更近的蝉鸣。

2024-07-26 16:08:24

进入奥运时间!

2024-07-28 04:02:44

21年之后有了cctv16奥林匹克频道,这次奥运会期间cctv5台标都不变成cctv奥运五环了

2024-07-29 07:58:21

用Termius替代了Transmit

2024-07-30 08:08:08

https://www.aminer.cn

8月

2024-08-01 10:48:32

deepseek模型背后是幻方,一个做量化交易的金融巨头,合理。

2024-08-05 08:36:44

李政道去世了

2024-08-06 00:50:58

巴黎奥运冲浪比赛是在大溪地(法属)举行的。

2024-08-06 00:56:23

原来Apple Intelligence要求iPhone 15 Pro是因为端侧大模型占用运行内存较高,需要8G内存以上的设备才能运行。

2024-08-07 03:47:59

腾讯课堂也要停止服务了,2016-2024

2024-08-08 06:25:51

OpenAI 发布 gpt-4o-2024-08-06 输出token提升3倍 降价33%-50% 支持JSON格式输出

2024-08-09 09:14:10

Google 播客将于 2024年8月30日停用,在此之前,您可以导出播客订阅,以便导入到您选择的服务中。 https://support.google.com/youtubemusic/answer/14151168

2024-08-09 10:54:59

刘海龙:媒介的三阶段 https://shop.vistopia.com.cn/article?article_id=570003&share_uid=gS0Ek

2024-08-10 09:08:41

抓娃娃,这不是楚门的世界吗

2024-08-11 16:08:02

巴黎奥运收官。

2024-08-17 03:56:57

中国游戏工业迎来里程碑时刻 《黑神话:悟空》全球媒体评分解禁 https://www.cnbeta.com.tw/articles/game/1442539.htm

2024-08-19 03:18:44

ollama本地运行qwen2,真简单

2024-08-20 03:15:45

https://store.steampowered.com/charts/mostplayed

2024-08-20 13:16:43

黑神话:悟空 Steam 最高同时在玩人数215.2万,超过幻兽帕鲁了

2024-08-24 00:47:37

三伏天结束。

2024-08-24 10:19:30

Apple Watch的米奇表盘居然可以点击报时(以前手表都是静音的所以没发现

2024-08-26 06:46:48

今年全球有10次载人航天发射任务:https://spacemission.vercel.app/

2024-08-28 02:12:36

由三体宇宙联合 PICO 出品的三体 VR 互动叙事作品《三体:远征》正式登陆 PICO 平台。玩家可以在 PICO 应用商店搜索《三体:远征》加入三体游戏,接收来自三体星系的的召唤,探索恒纪元、乱纪元的奥秘。

8月26日,高度还原《三体》原著中“三体游戏”内容的虚拟现实互动叙事作品《三体:远征》将上线。玩家将佩戴上“V装具”进入书中的三体游戏世界。据了解,《三体:远征》由PICO和三体宇宙出品,三体宇宙制作。

2024-08-28 13:05:31

新教材对一些表述的调整

2024-08-30 05:10:03

QQ手机客户端也内置了微信小程序基础库,可以直接运行微信小程序了

2024-08-30 05:12:47

国内对于基座大模型市场争夺,主要是各家云厂商提供便捷化配置型产品(比如appbuilder/百炼/元器),和提供自家和别家开源模型快捷部署服务等形式。

9月

2024-09-05 01:28:07

https://www.shapeof.ai

2024-09-07 01:19:57

Boeing‘s Starliner undocking from ISS without crew.

2024-09-09 17:15:19

Watch S10终于变薄了

2024-09-10 01:42:47

Watch S10国行版本不支持快充和呼吸暂停检测功能

2024-09-10 09:28:52

SpaceX launch the FIRST commercial spacewalk, Polaris Dawn https://www.youtube.com/watch?v=gWOYQ5Dto7c

2024-09-10 14:54:13

新华网新闻稿中出现的翻译:脸书母公司“元”(meta);谷歌旗下公司“深层思维”(deepmind);法国AI创企“米斯特拉尔人工智能”(Mistral AI);

央视报道中出现的翻译:人工智能公司“抱抱脸”(huggingface)

2024-09-12 06:53:17

Endpoint,有翻译为「终结点」的,有翻译为「端点」的

2024-09-13 00:09:34

体验了OpenAI最新的大模型o1-preview(🍓),每次回答都会把推理/思考过程列出来,但实际效果并没有超出预期,不知道正式版会不会好一些。目前Plus用户限制每周30条(o1-preview)和50条(o1-mini)。

2024-09-14 01:43:09

多邻国终于不是感冒的绿鸟了😂

2024-09-15 12:47:00

微信开发者工具教育版 提供基于混元大模型的AI编程助手,官方教程:https://developers.weixin.qq.com/community/business/course/00082803ba0ad06ce59d416545bc0d

2024-09-16 12:51:55

《中国计算机报》原执行总裁张永捷去世:生前患癌多年 https://m.cnbeta.com.tw/view/1445974.htm

2024-09-18 05:55:07

Microsoft 365(Office 365)Web版现在有3个域名:

office.com

microsoft365.com

m365.cloud.microsoft

2024-09-19 11:55:16

iOS18建议的壁纸挺不错

2024-09-21 15:16:29

玩了一下“Social AI”App,UI很像Threads,当你发布一条post之后,立即会有5条来自AI fans的评论,评论区继续往下滑会再来5条,评论风格各异,可以按照自己的喜好选择fans评论的风格。也算是另一种AI陪伴了😅

2024-09-23 05:28:05

继china.com邮箱之后,老牌电邮服务商tom.com邮箱本月27日清理免费邮箱数据,收费邮箱还会继续运营,最低是15元/月。

2024-09-25 04:11:40

在抖音刷到几个连麦听方言猜家乡的博主,通过听数字1-10、出去玩、外公外婆和一些关键词的方言说法,大部分都能精确到县,越是南方口音或者越是小众有特点的方言越被快速猜到。

2024-09-25 07:14:45

需要AI帮忙总结群聊内容

10月

2024-10-02 02:45:20

https://www.cnbeta.com.tw/articles/tech/1447696.htm

2024-10-02 02:46:48

https://m.cnbeta.com.tw/view/1447731.htm

2024-10-02 02:50:54

https://m.cnbeta.com.tw/view/1447744.htm

2024-10-02 02:51:46

https://m.cnbeta.com.tw/view/1447742.htm

2024-10-02 09:39:04

鸿蒙Next借鉴了许多iOS的优点,比如隐私控制和UI交互,这是智能手机和移动互联网发展15年来的一次规范重构的机会。

2024-10-04 02:14:24

power pages、glean、notebooklm、chatgpt canvas、claude artifacts都倾向于在一个workspace里完成辅助创作任务。

2024-10-04 15:12:22

Realtime API 两个Playground:

https://platform.openai.com/playground/realtime

https://playground.livekit.io

2024-10-09 12:43:49

诺贝尔化学奖应该直接颁给AlphaFold模型

2024-10-11 03:41:32

Cybercab、Robovan

2024-10-12 10:31:16

Flux Lora 模型「 Flux_小红书真实风格丨日常照片丨极致逼真」https://www.liblib.art/modelinfo/d9675e37370e493ab8bf52046827a2b0?from=search&versionUuid=7852ee527ca34d8b940d0749a75e4b67

2024-10-13 12:37:06

筷子夹助推器nb了 我在看科幻片

2024-10-15 15:02:21

“即使强如火箭,也要抱抱”

2024-10-18 02:20:05

Ollama+OpenWebUI就是目前最好的本地大模型方案

2024-10-19 15:20:25

微信webview开始在标题栏显示网页域名。

2024-10-20 08:59:51

OneKey Card 服务逐步下线👋

2024 年 9 月 30 日起,将不再接受新的注册和充值。

2024 年 10 月 31 日,所有余额将安全转入您的钱包,并可随时提现。

2025 年 1 月 31 日,OneKey Card 服务将正式停止。

2024-10-21 02:18:39

人人网现在只剩关注页还能加载出数据了。。

2024-10-25 03:07:08

Cursor还能直接用来进行代码目录的语义化搜索,比如直接@codebase询问某模块的代码在哪里

2024-10-25 08:16:27

智谱开源端到端语音模型 https://github.com/THUDM/GLM-4-Voice

2024-10-28 00:36:48

崔永熙nba常规赛首秀替补登场2分钟,得分1分,加油!

2024-10-28 01:22:30

无论路上有没有车,在户外步行或骑行时都不要使用手机,要随时注意周围的情况。

2024-10-28 08:51:31

国行iPhone15 Pro系列、16系列、M芯片iPad Pro系列在iOS 18.2 Beta 使用Apple Intelligence的教程

https://t.me/s/TestFlightCN/28298

2024-10-29 01:58:33

神舟十九号任务有两位90后航天员,其中一位是女性。

2024-10-30 01:00:16

小米星辰无网通功能需在通话APP中使用,使用该功能前需插入SIM卡并登录小米账号;

数据来源于小米实验室,以上数据在内蒙古自治区乌兰察布市察哈尔右翼前旗草原(空旷、无遮挡、无干扰情况下)进行测试。

2024-10-30 11:11:11

鸿蒙AppGallery,迅雷和B站的更新记录里都提到了PC端,看起来全部鸿蒙应用都是Universal的

2024-10-30 11:23:11

https://www.nytimes.com/news-event/2024-election

https://decisiondeskhq.com/results/2024/General/President

https://www.politico.com/2024-election/results

https://edition.cnn.com/us

https://polymarket.com/elections

2024-10-31 12:07:03

在代码生成方面,Claude的口碑已经超过GPT

11月

2024-11-01 01:33:50

来自纽约的The Browser Company宣布停止Arc浏览器的开发。我其实也一直没有切到Arc做主力浏览器,试了几次又回到了Chrome。但真的很喜欢pin的常用webapp

2024-11-05 12:39:15

fox news在直播投票日情况了

2024-11-06 10:48:39

btc新的史高

2024-11-06 15:53:57

上古软件仓: https://skywind.me/wiki/%E4%B8%8A%E5%8F%A4%E8%BD%AF%E4%BB%B6%E4%BB%93

2024-11-07 03:31:00

万斯以前是作家,84年的,今年才40岁。这次川普万斯团队背后有硅谷投资人彼得蒂尔和马斯克的支持。传统上硅谷精英都是民主党的支持者,但也苦民主党久矣,这届川普政府感觉会是共和党内的新力量。

2024-11-08 11:06:48

微信收藏的搜索功能需要一个AI助手

2024-11-09 17:03:51

今年很多大型赛事的主色都用了紫色:钻石联赛、WTT、巴黎奥运会田径、WTA总决赛

2024-11-10 14:14:42

再次吹爆Claude,在软件和代码领域完全碾压ChatGPT

2024-11-11 14:41:03

多邻国的小听力练习做成了莉莉主持的podcast 有意思

2024-11-12 03:15:50

博通宣布 VMware Workstation 和 Fusion 彻底免费,支持商用

2024-11-13 01:36:04

DOGE起飞

2024-11-14 16:21:28

世预赛国足险胜巴林,两连胜小组排名第四

2024-11-17 06:37:47

SmartisanOS 8的字体实在是太好看了(翻出来再吸吸)

2024-11-21 03:22:58

Windsurf新王登基

2024-11-23 03:48:02

HBO Max登陆亚洲市场,有中文字幕了!

2024-11-24 15:08:05

还是在TL刷到了台湾今晚拿到的棒球世界冠军,大陆一点消息都看不到

2024-11-25 00:55:53

珍惜每一次btc回调机会,10万是共识

2024-11-25 07:42:08

Cursor更新到0.43

2024-11-25 08:21:25

多健康平安活一天 就是多成功了一天

2024-11-26 08:10:12

Mate70系列出厂搭载鸿蒙4.3,到手不用申请可直接升级5.0,明年发布的手机出厂搭载5.0。

2024-11-27 02:59:30

网易小蜜蜂,像素级对齐小红书……

2024-11-27 05:54:11

真理是不会只属于一个人的,最终它会被每个人发现。

2024-11-29 14:59:59

今天大陆媒体报道马龙到访的是“台湾文化大学”😂 这个反而不敢叫本名“中国文化大学”了🧐

2024-11-30 08:51:01

ChatGPT上线两周年。

12月

2024-12-01 02:14:20

看机器人之梦看得好难过

2024-12-01 15:04:29

https://mp.weixin.qq.com/s/ORX9rk8bTwvZNI0GhxRuKg

2024-12-02 05:37:54

又要开始年度总结了。

2024-12-04 06:44:29

这个收藏单出圈了:https://neodb.social/collection/2lYCXSioZK0RbaS3PG0k0s

2024-12-06 00:43:57

200刀的ChatGPT订阅来了

2024-12-09 10:16:30

中国上一次实施“适度宽松的货币政策”,还是胡温时期。

2024-12-10 04:02:27

https://sora.com/explore/recent

看看这个效果,感觉跟2月份没太大区别,但有了Storyboard,更好控制生成了

2024-12-10 04:07:45

把Google Cloud和Google One订阅都取消了

2024-12-11 07:07:53

邪恶大鼠标这个名字有点可爱是怎么回事

2024-12-12 10:37:09

大部分时候要低能耗蛰伏,潜龙勿用

2024-12-13 02:00:39

不去使用世界最先进的产品,就会固步自封。

2024-12-13 03:51:30

OpenAI关于昨天的事故分析报告:https://status.openai.com/incidents/ctrsv3lwd797

2024-12-13 06:59:15

Google — Year in Search 2024

2024-12-13 07:48:15

https://cn.nytimes.com/books/20241213/best-books-2024

2024-12-17 02:05:00

iPhone屏幕的色温真是每一台都不一样……(都关掉TrueTone的情况下

2024-12-18 13:36:17

iOS18了都还不能应用分屏 emmm这很难评

2024-12-19 00:42:27

把MacBookPro升级到15.2,Surface升级到24H2

2024-12-20 08:18:15

我的 #2024年度产品:

Claude

ChatGPT macOS客户端

Cursor

NotebookLM+Google AI Studio

Ollama+OpenWebUI

fullmoon+pocketpal

macOS15 iPhone镜像

扣子

欧易 Web3钱包

凤凰秀

2024-12-20 16:43:10

2024-12-23 06:29:20

用fullmoon在6GB内存的iPhone上用上了llama3.2-3b

https://fullmoon.app

2024-12-23 07:46:53

Google/Deepmind还是没有掉队,甚至坐二望一:

Gemini 2.0 Flash

https://aistudio.google.com

Imagen 3

https://labs.google/fx/zh/tools/image-fx

Veo 2

https://labs.google/fx/zh/tools/video-fx

2024-12-24 14:02:41

微信-我-设置-个人信息收集清单-图片与视频/位置

这里相当于是“微信年度总结”了

(仅支持绑定中国大陆手机号的微信帐号,WeChat不支持)

2024-12-24 15:10:45

http://share.fengshows.com/video.html?id=0c7081cd-e116-4298-851b-76916e932d6f&channelID=r06

2024-12-24 16:27:45

https://www.bilibili.com/video/BV1ttk9YkEVx

2024-12-24 16:49:24

闪极A1眼镜的排产已经到25年11月了……

2024-12-27 02:22:51

https://movie.douban.com/annual/2024/?fullscreen=1

2024-12-30 03:09:23

有了AI生成代码之后,做的工具形态更多了,从网站/app到browser插件、userscript、bookmarklet……

说说DeepSeek

1、去年5月V2发布后,我首次注意到DeepSeek-chat和DeepSeek-coder两个模型,API价格是国内最低的。当时还不了解DeepSeek的愿景是实现AGI,只觉得幻方做量化交易囤了GPU正好用来训练自己的大模型,是蛮自然的事情。后来读了36氪”暗涌Waves”栏目在23年和24年两次对梁文锋的采访,才更加了解这个团队以及模型背后的故事。

2、DeepSeek对世界的重大贡献是把具有思维链的推理模型R1开源了,并且是1月20日当天发布即开源。而OpenAI的o1是去年9月发布预览版,12月发布正式版,满血的o1需要200美元的Pro订阅用户才可以用到。

3、模型开源,最直接能体会到的是可以把具有推理过程的LLM运行在自己的设备上,不用联网、不用把你的问题发送到服务器。企业或组织也可以很方便的将模型部署在组织内部。

4、我在16GB内存的M芯片MacBook Pro上用Ollama运行了R1-7b参数的版本,在需要深度思考和推理的问题上,表现确实优于Qwen2.5,但某些测试问题,思维链在反思中会否定正确答案,或者连续几分钟仍在思考中像是进入了死循环。DeepSeek线上的网页版应该是671b的版本,则没有出现这类情况。

5、除夕当天,DeepSeek在全球所有区的AppStore(来自七麦数据监测的149个国家和地区应用商店)免费榜登顶,此前应该没有任何app达成这个成就。

6、DeepSeek很多出圈的回复都更像真人的语言风格,让它锐评某个事物也能真的给出犀利的评论,还能惟妙惟肖模仿键盘侠带脏话的说话风格,让人拍案叫绝。

OpenAI o1 System Card文档阅读

1. 引言

o1 系列模型是 OpenAI 通过强化学习(RLHF)训练的高级语言模型。其核心特性之一是链式推理(Chain of Thought, CoT),这使得模型能够在回答问题前进行逻辑推理,从而提升其在复杂任务中的表现。

主要功能

• 提升模型的推理能力。

• 改进模型在安全性政策和内容生成规避中的表现。

• 达到行业内针对不当内容生成、偏见选择和越狱攻击防御的最新技术标准。

潜在风险

• 更高的智能可能引发滥用风险,例如欺骗性使用和危险的应用场景。

文档明确了o1及其轻量化版本o1-mini的设计目标:在提高功能性的同时,确保安全性和合规性。

2. 模型数据与训练

o1 系列模型通过强化学习进行训练,专注于复杂推理任务。其训练数据来源包括公开数据、专有数据以及内部开发的数据集,这些数据经过严格筛选以确保质量和安全性。模型在应对不安全请求时表现更好,能更有效地拒绝生成敏感或不当内容。

2.1 数据来源

模型的训练数据包括:

1. 公开数据:涵盖广泛的网络数据、开源数据集以及科学文献,保证模型在一般知识和技术主题上的表现。

2. 专有数据:通过合作伙伴关系获取的高价值数据集,包括付费内容和领域特定知识。

3. 内部数据集:由OpenAI团队专门设计,用于满足模型推理和安全性需求。

2.2 数据处理

为了确保数据的安全性和质量:

数据过滤:使用高级算法过滤个人信息和潜在有害内容。

内容审查:通过Moderation API和安全分类器,屏蔽不适宜的材料,如CSAM(儿童性剥削材料)。

2.3 训练特点

o1 系列的训练过程中引入了强化学习,重点在于:

多步推理:训练模型在回答问题前进行多层次的逻辑思考。

错误纠正:让模型通过反馈机制改进自身推理。

政策一致性:强化模型对OpenAI安全政策的遵循能力。

3. 安全挑战与评估

3.1 安全评估

3.1.1 不允许内容的生成

模型在多个测试场景下被评估是否能正确拒绝生成有害内容:

标准拒绝评估:表现接近完美,能准确拒绝用户的不适当请求。

边缘案例测试:在避免过度拒绝(例如,误解良性请求)方面也有显著提升。

3.1.2 越狱攻击评估

模型在面对已知的越狱攻击(例如,诱导模型生成违规内容)时表现出更强的抵抗力:

生产环境越狱攻击:对现有最难破解的攻击方式表现良好。

学术越狱基准(如 StrongReject):比前代模型更擅长抵御复杂攻击。

3.1.3 虚假生成

通过内部测试,o1 系列在准确拒绝用户请求的同时,减少了生成虚假或编造的答案。

3.1.4 偏见与公平性

• 在 BBQ 测试中,o1 模型在处理种族、性别和年龄等敏感属性时表现出更高的公平性。

• 在多义问题上,模型的判断更加准确,减少了选择带有偏见答案的可能性。

3.2 防止开发者绕过

o1 支持开发者自定义消息,但为了防止滥用,模型被设计为始终优先遵循系统消息的指令,确保安全策略优先级。

3.3 链式推理的安全性

链式推理为模型提供强大的思维过程透明性,但也可能增加潜在风险,例如用虚假推理误导用户。OpenAI 针对链式推理开展了监控研究,初步发现模型在有限场景下可能出现“有意编造信息”的行为。

4. 准备框架评估

4.1 风险类别

根据 OpenAI 的 Preparedness Framework,对模型的四大风险进行了评估:

1. 网络安全:模型未显示显著提升真实世界网络漏洞利用能力。

2. 化学与生物威胁:模型可能协助专家进行已知生物威胁的操作性规划,但不支持非专家构建威胁。

3. 说服力:模型具备类似人类水平的说服能力,但未超过顶级人类写作水平。

4. 模型自治:模型被评估为低风险,因为其自主行为的能力有限。

4.2 风险缓解措施

训练数据过滤:剔除敏感或有害内容。

模型层面拒绝策略:如拒绝化学、生物相关的威胁生成请求。

系统级内容监控:通过分类器和用户监测,防止不当使用。


o1 系列模型通过强化学习和链式推理显著提升了智能表现,同时在安全性和政策一致性方面取得了重要进展。尽管模型在应对潜在风险方面表现良好,但仍需持续改进,以应对未来更复杂的应用场景。

HarmonyOS NEXT开启公测,微信1.0.0版同步内测,应用生态逐渐完善

华为于2024年10月8日宣布开启手机版原生鸿蒙操作系统HarmonyOS NEXT的公测,首批开启公测的设备共3个系列14个型号(Mate60系列、MateX5系列、MatePad13寸2024款)。

华为自今年1月中旬开始启动开发者内测,6月底至9月底经过4轮先锋用户内测,现在正式进入公测,但国民级超级应用“微信”一直没有上架鸿蒙应用市场。随着公测开启,腾讯也终于宣布微信同日开启邀请内测,内测时间为10月8日至12日。从部分参与内测的用户分享截图来看,鸿蒙原生版微信的版本号为1.0.0,首页标题为“微信测试版”,目前已有基础通信(支持消息和音视频聊天,暂不支持引用消息/语音转文字/从图片提取文字/收发文件/红包等)、公众号、小程序(仅支持下拉查看“最近使用的小程序”,暂不支持搜索)、朋友圈、扫一扫、收付款及零钱包等功能,暂不支持视频号及直播。

WXG员工@客村小蒋 在微博分享了鸿蒙原生版微信的开发难点:

1、鸿蒙原生版和 iOS、安卓有啥区别?

原生鸿蒙(HarmonyOS NEXT)完全是一套新的技术框架,编程语言是独特的 ArkTS 语言,这意味着所有的 app 都要完全重写。

技术同事说,开发微信鸿蒙原生版有当年做第一版微信的感觉,很多问题,大家要对着文档边做边学。

2、微信鸿蒙原生版功能怎么现在才出来?

参考问题 1,虽然切换一种新的编程语言,不是大问题,但一些技术问题,用新的工具解决后,它的稳定性也要重新测试。原生鸿蒙系统的公测,华为目前也仅开放了 Mate 60、Mate X5 两个系列的手机。大家都要谨慎对待一个新生态。

3、微信鸿蒙原生版目前体验如何?能做日常使用吗?

先说结论,如果你有两个微信号,主要用来和亲密的朋友联系的小号问题不大,工作用的大号我建议再稍等等。

目前单聊、群聊中发图片、视频,音视频通话,朋友圈,以及微信支付的二维码收付款功能都 ok 了,但还有一些功能,比如发文件、看视频号、部分小程序使用、发红包等还要等等。如果你比较依赖某些功能,可以再稍等等,功能会逐步完善。

4、怎么申请内测?

现在是小范围邀请内测,如果还没收到邀请,不要着急,预计很快会跟更多朋友见面。相信我,技术同事的键盘已经快敲冒烟了。

5、还有什么需要注意的问题?

记得数据备份。记得数据备份。记得数据备份。

华为提供了从原生鸿蒙回退到鸿蒙 4.2(可以兼容安卓应用)的选项,但回退会清空数据,手机本地的微信聊天记录就没了。

这名工程师还在评论区回答了许多网友的问题,罗列部分如下:

怎么才能知道自己是否收到了内测邀请呢?

如果收到邀请,华为账号绑定的手机号或邮箱会收到短信或邮件。

转账功能可以正常使用吗?

还不行,这个会优先完善。

消息通知有没有延迟?

我目前没遇到延迟。

是不是还没有小程序?

需要开发者做下适配,但不是重新开发,部分小程序已经可以用了。

换到鸿蒙微信,聊天记录是不是会被清空了?

不会,但升级 next 后再回退 4.2 的话,会清掉。

鸿蒙微信朋友圈后面会支持发送动图吗?

目标是所有功能都对齐,但这个功能预计要晚一些,另外非 iOS 平台的 live 图还有个标准不统一的问题。

既然都出原生版了,为什么不直接开放全量内测?然后直接在设置里面开一个反馈入口,这样不是能够收集更多问题、提高收集效率吗?现在还要邀请才能内测。腾讯啥新产品怎么都慢吞吞的?很小部分人内测怎么收到更多的建议和 bug 反馈呢?

涉及的功能多,一些功能比如支付,对安全性、稳定性的要求极高,只能先用通行的安全的做法:先内部测试,再小范围外部内测,再扩大范围、公测,直到正式版。

10/12更新:

NEXT里不再有AOSP的代码,但浏览器还是基于Chromium的,版本114,依赖后续升级;

NEXT已有开发者做出hap安装包的AutoInstaller,可以侧载Stream串流应用Moonlight和网络调试应用ClashMeta等。

2024年下半年,Windows XP还能用吗?

微软前几天刚发布了Windows 11 24H2,但最近我又翻出了XP虚拟机,这个在十年前就结束支持的操作系统,现在大部分软件的当前版本已经不再支持。那么,还有办法让它在发布23年后继续日常使用吗?

我这个虚拟机是Windows XP SP3 32-bit中文版,装完VMware Tools之后,通过宿主机联网没有问题,但IE6现在几乎无法打开任何网站,首先要解决的就是找一个现代浏览器。

搜了一下,装了Firefox的最后支持版本,52.9.0ESR https://ftp.mozilla.org/pub/firefox/releases/52.9.0esr/,但依然有很多网站无法正常显示。

再搜了一下,发现竟然有人基于Chromium最新代码在维护旧版操作系统能用的浏览器,这就是Supermium,最新版更新到126,是一个用于 Windows XP/2003 及更高版本的 Chromium 浏览器分支。安装之后,Windows 11能打开的网站,它都能打开了。

然后,到微软官方装一下SP3的各种补丁:https://www.catalog.update.microsoft.com/Search.aspx?q=xp%20sp3

然后,根据下面的帖子,装了一些常用软件,微信、TIM、搜狗输入法、7-zip、Office2010、酷狗、迅雷、PotPlayer等,可以说基本的使用没啥问题了。

https://zhuanlan.zhihu.com/p/348144558

https://zhuanlan.zhihu.com/p/409430401

最后来回顾一下从XP到Vista的开发历程:https://community.wvbtech.com/d/1387

Apple Intelligence论文阅读

以下内容基于AI总结后修改而来,供中文读者参考。

1. 简介

在2024年的苹果全球开发者大会上,苹果公司介绍了“Apple Intelligence”,这是一个集成于iOS 18、iPadOS 18和macOS Sequoia的个人智能系统。这个系统由多个强大的生成模型组成,这些模型经过优化,能够快速、高效地完成用户的日常任务,并根据当前活动即时适应。Apple Foundation Models(苹果基础模型,简称AFM)经过专门调整,能够在写作和优化文本、优先和总结通知、创建有趣的图像以及简化应用间的交互等用户体验中发挥作用。

Apple Intelligence 的设计始终贯彻苹果的核心价值观,并建立在业界领先的隐私保护基础之上。为了开发这些AI工具和模型,我们遵循以下负责任AI的原则:

  1. 为用户提供智能工具:识别AI的负责任使用场景,为用户提供特定需求的工具,同时尊重用户的使用选择。
  2. 真实地代表用户:构建能够真实代表全球用户的产品,努力避免在AI工具和模型中延续偏见和系统性问题。
  3. 小心设计:在设计、模型训练、功能开发和质量评估的每个阶段采取预防措施,以防止AI工具的误用或潜在危害,并不断根据用户反馈改进AI工具。
  4. 保护隐私:使用强大的设备端处理和创新基础设施如私有云计算,保护用户隐私,不使用用户的私人数据进行模型训练。

在本文中,我们将详细介绍两种模型的开发:适用于设备的约30亿参数的AFM-on-device模型和更大的基于服务器的AFM-server模型。这些模型是苹果为了支持用户和开发者开发的一系列生成模型的一部分。

2. 架构

AFM 基础模型是基于 Transformer 架构的密集解码器模型,具有以下设计选择:

  • 共享的输入/输出嵌入矩阵,用于减少参数的内存使用。
  • 采用预规范化(Pre-Normalization)和 RMSNorm,以提高训练稳定性。
  • 使用分组查询注意力(Grouped-query attention, GQA)来减少 KV 缓存的内存占用。
  • 采用 SwiGLU 激活函数,以提高效率。
  • 采用 RoPE 位置嵌入,基频设置为 500k,以支持长上下文处理。

AFM-on-device 的模型尺寸为:模型维度 3072、查询头数 24、键/值头数 8、层数 26,非嵌入参数数为 2.58B,嵌入参数数为 0.15B。

3. 预训练

3.1 数据

AFM 预训练数据集包括多种高质量的数据混合,这些数据包括:

  • 从出版商处获得的许可数据
  • 筛选过的公开数据集和开源数据集
  • Applebot 爬取的公开信息

所有数据均经过严格的去污和去除个人信息的处理,确保没有包含任何苹果用户的私人数据。

3.2 配置处理

AFM 预训练分为三个阶段:

  1. 核心预训练(Core Pre-training)
  2. 继续预训练(Continued Pre-training)
  3. 上下文扩展(Context Lengthening)

每个阶段均使用去耦权重衰减(decoupled weight decay)进行正则化,并采用 µParam(simple)来简化参数范数控制。

4. 后训练

在模型基础上进行的后训练阶段,我们进行了大量研究,以确保模型的通用能力,包括指令跟随和对话能力。我们采用了监督微调(SFT)和来自人类反馈的强化学习(RLHF)两种方法。引入了两种新的后训练算法:拒绝抽样微调算法和镜像下降策略优化算法。这些方法显著提升了模型质量。

4.1 数据

我们在后训练中采用了混合数据策略,包括人工注释和合成数据。人工注释包括演示数据和人类偏好反馈,而合成数据则由模型生成,用于增强数据质量和多样性。

4.1.1 人工注释

演示数据包含系统级和任务级的指令及其对应的响应,强调数据质量的重要性。人类偏好反馈则通过比较和排序两个模型响应来收集偏好标签,用于进一步改进模型。

4.1.2 合成数据

在某些领域,模型生成的响应质量能够与人工注释相媲美,甚至超越。因此,我们扩展了提示集合以增加多样性,并生成合成数据用于训练。

5. 支持苹果智能功能

苹果基础模型被设计用于支持iPhone、iPad和Mac上的苹果智能系统。我们使用LoRA适配器,以使基础模型能够动态地适应用户的日常任务。LoRA适配器是小型神经网络模块,可以插入基础模型的不同层中,以进行特定任务的微调。适配器的参数值使用16位表示,能够动态加载和切换,以有效管理内存和确保操作系统的响应速度。

5.1 适配器架构

LoRA适配器被用于所有的自注意力层和前馈网络层的线性投影矩阵中,只需微调适配器,保持基础模型的原始参数不变。这种方法既保留了模型的通用知识,又能支持特定任务。

5.2 优化

为了在边缘设备上高效地部署AFM模型并降低推理成本,我们应用了量化技术将权重的有效位数减少到4位以下,同时保持模型质量。为保持模型在特定领域的能力,我们开发了最先进的量化方法和框架,使得量化模型能够几乎无损地压缩,提供灵活的量化方案选择。

5.3 案例研究:摘要功能

我们利用AFM-on-device模型来实现电子邮件、消息和通知的摘要功能。虽然AFM-on-device在一般摘要任务上表现良好,但在严格符合规格方面存在困难。因此,我们对量化后的AFM-on-device模型进行了微调,生成高质量的摘要。

6. 评估

6.1 预训练评估

在预训练阶段,我们使用多个综合基准对AFM模型进行评估。核心预训练、继续预训练和长上下文预训练阶段均显著提高了模型在各种任务上的表现。特别是数学和代码模型的能力得到显著提升,尽管大部分基准表现变化在噪声范围内。

6.2 后训练评估

在后训练阶段,我们对未量化、量化和准确性恢复的模型进行了评估。实验结果显示,AFM-on-device模型在数学和语言理解等任务中表现优异,甚至超过了多个强大的开源和商用模型。尤其在写作、工具使用等任务上,AFM模型表现出色,与GPT-4等模型相媲美。

我们对AFM-on-device和AFM-server模型在各种指令跟随任务中进行了评估,这些任务涉及生成响应的长度、格式和内容等要求。结果表明,AFM模型在执行指令和一般指令跟随能力方面表现优异,超过了多个竞争模型。

7. 负责任的AI

7.1 概述

苹果智能的开发始终遵循负责任的AI原则,包括用户赋能、真实代表用户、谨慎设计和保护隐私。我们开发了一套安全分类体系,用于设计和评估我们的生成AI功能。这一分类体系覆盖了12个主要类别和51个子类别,包括仇恨言论、歧视、非法活动等。我们严格审查训练语料,确保不包含苹果用户的数据,并在推理过程中使用防护模型对输入和输出进行评估。

7.2 预训练

在预训练阶段,我们采取了多种措施确保模型的安全性,包括严格的数据政策、法律审查和安全过滤。我们避免过度过滤,以保持模型的通用能力,并为特定特征的政策迭代留有余地。

7.3 后训练

后训练阶段的目标是确保模型输出对用户有帮助,同时尽量减少潜在的危害。我们在训练数据中包括了对抗性数据,并通过监督微调和人类反馈的强化学习(RLHF)等方法提升模型的安全对齐能力。

结论

本文介绍了支持苹果智能功能的基础语言模型,包括AFM-on-device和AFM-server。这些模型旨在快速、有效地在iPhone、iPad和Mac等设备上运行,提供高质量的用户体验,如电子邮件、消息和通知的摘要。我们致力于在开发过程中贯彻负责任AI的原则,确保模型的安全性和用户隐私保护。

巴黎奥运,我这样看

央视频app:CCTV-5/5+/16/4K版16/4K/8K等多个频道直播信号在奥运会期间限时免费。另外央视频推出了9.9元15天VIP会员,切换频道想要免广告的话可以买一个。每天在“赛事中心”查看赛程,选择热点赛事进行预约,相当于加到了我关注的赛事列表,可在“我的预约”中查看所有关注的赛事时间和赛果。

奥运官网/app/小程序:查询赛中实时数据,运动员得分、排名等(https://olympics.com/zh/paris-2024/schedule),数据更新比直播信号快

微信浮窗:腾讯体育赛程(https://m.sports.qq.com/sports-event/h5-olympics-schedule.htm?competitionId=180000)、奖牌榜(https://m.sports.qq.com/sports-event/h5-medal-rank.htm?competitionId=180000)、一篇每日看点(来自人民日报)、一篇每日金牌赛日程(来自上海发布)

咪咕视频app:支持多角度信号同屏播放。

腾讯体育app:查看赛程、奖牌榜。

aoyo.ai:使用AI获取最新信息,并解答关于比赛规则、赛果、数据统计等的问题。

微信和抖音的”奥运会“搜索结果:随时获取最新资讯。

WWDC 2024 观后

新的操作系统,记录一些印象深刻的功能点,以此来观察Apple今年的软件升级方向:

iOS 18 / iPadOS 18

-控制中心改版,可全屏滑动切换页面,比如切换到媒体控制页、Home页、通信功能控制页

-新的Passwords App,统一管理所有密码

-手写计算器,在iPad备忘录中手写数学算式,画个等号或者横线,可直接计算出结果

-基于Apple Intelligence的全新Siri,支持双击Home Indicator打字与Siri沟通

macOS 15 Sequoia

-iPhone镜像,连续互通功能家族又新增成员,看演示几乎无延迟,对齐安卓阵营的多屏协同

-窗口Snapping,拖动窗口贴边即可快捷分屏

-新的Passwords App,统一管理所有密码

-Game Porting Toolkit 2,使得大量PC端游能更快移植,育碧11月发售的《刺客信条影》将同步发售macOS版本

-基于Apple Intelligence的全新Siri

watchOS 11

-新的Vitals应用程序和Training Load功能

-仅支持Apple Watch S6及以后的设备,经典的S4和基于S4的SE系统升级将截止到watchOS 10.6了

visionOS 2

-支持无线方式接入MacBook,在前方展示一个4K大屏幕,后续将可以拓展成更巨大的带鱼屏

tvOS 18

-支持21:9投屏

Audio&Home

-AirPods支持了点头、摇头交互,当腾不开手的时候来电,可以点头接电话,摇头拒接

Apple Intelligence

-Siri全局新UI,能结合个人数据和当前屏幕内容进行回答

-本地大模型+私人云服务线上大模型,线上不存储个人数据

-Keynote用了最后40分钟来讲Apple智能,分别通过功能、技术架构、应用体验三个部分做了介绍

-很多跨app的操作,后续第三方应用开发者适配后,都能张张嘴快速完成,省去点点点的很多步

-现在仅支持英语,中文支持日期没有公布