月度归档：2025年02月

ollama常用命令

发表评论

-运行模型（本地没有会自动pull，模型名称可以带远程仓库路径）：ollama run 模型名称

-运行时显示性能数据：ollama run –verbose 模型名称

-拉取模型（比如嵌入模型）：ollama pull 模型名称

-查看已安装模型（可看到模型大小和安装时间）：ollama list

-删除模型：ollama rm 模型名称

-查看模型运行数据（CPU/GPU占比等）：ollama ps

-查看模型配置文件：ollama show 模型名称 –modelfile

-从modelfile创建模型：ollama create 模型名称 -f Modelfile

运行中：

修改模型参数（以设置线程数32为例）：/set parameter num_thread 32

修改上下文窗口（以修改为8k为例）：/set parameter num_ctx 8192

修改gpu数量（以纯cpu推理为例）：/set parameter num_gpu 0

清除上下文：/clear

退出：/bye

帮助：/?

深度学习中的稠密架构与稀疏架构

发表评论

在深度学习中，稠密架构（Dense Architecture）和稀疏架构（Sparse Architecture）是两种常见的神经网络设计方式，它们的主要区别在于神经元或连接的分布密度。

1. 稠密架构（Dense Architecture）

稠密架构是指每一层的神经元都与前一层的所有神经元连接的网络结构。这种结构在大多数传统的深度学习网络中都很常见，比如经典的全连接神经网络（Fully Connected Networks）和卷积神经网络（CNN）中的某些部分。

• 特点：

• 每个神经元都会与前一层的所有神经元进行连接。

• 网络结构非常密集，参数量通常很大。

• 计算量和存储开销较大，可能导致较长的训练时间和较高的计算资源需求。

• 适用于一些要求高表达能力的任务。

• 优点：

• 高度连接的结构使得网络可以学习非常复杂的模式和特征。

• 对于大多数传统任务，如图像分类、语音识别等表现良好。

• 缺点：

• 参数非常多，容易导致过拟合。

• 高计算和存储需求，尤其是在大型网络中，计算资源开销很大。

2. 稀疏架构（Sparse Architecture）

稀疏架构是指每一层的神经元只与前一层中的部分神经元连接，而不是与每个神经元都连接。这样做的目的是减少计算和存储成本，提高效率。

• 特点：

• 只有一部分连接被保留，而其他连接被去除，从而减少了网络中的参数数量。

• 稀疏连接的选择可以是手动设计的，也可以通过一些算法自动选择，比如基于稀疏性的正则化方法。

• 通常采用稀疏矩阵表示，以节省内存和计算资源。

• 优点：

• 更少的参数，使得网络计算和存储更加高效。

• 可能有助于提高泛化能力，减少过拟合。

• 可以应用于一些资源受限的环境，比如嵌入式系统和边缘计算设备。

• 缺点：

• 由于不是每个神经元都参与计算，可能会限制模型的表达能力，导致性能下降。

• 稀疏结构设计较复杂，可能需要特定的优化方法来训练。

稠密与稀疏架构的对比

特性	稠密架构 (Dense)	稀疏架构 (Sparse)
连接方式	每个神经元与前一层所有神经元连接	仅部分连接
参数数量	较多	较少
计算和存储开销	高	低
训练效率	需要更多计算资源	计算资源消耗较低
表现能力	高	可能略低（取决于稀疏程度）
过拟合风险	较高	较低
适用场景	传统大规模深度学习任务	资源受限场景，如边缘计算、嵌入式

稀疏架构的应用

在一些前沿的研究中，稀疏架构已被广泛应用，例如神经网络剪枝（Pruning）技术，它通过去除一些不必要的连接（或者低权重的连接）来实现稀疏化。此外，一些更先进的模型，如稀疏变换器（Sparse Transformer）等，也采用了稀疏连接来提高计算效率，尤其是在处理大规模数据时。

总之，稠密和稀疏架构各有优缺点，通常会根据具体应用需求来选择合适的架构。在某些情况下，可能会结合这两者的优势，使用混合架构（如稠密-稀疏混合网络）来获得更好的效果。

【教程】基于DeepSeek-R1的个人AI知识库，全本地部署，可断网使用

发表评论

从ChatGPT上线开始，我就有了一个想法，打造一个个人知识库，它可以充当我的第二大脑，记住我的尽量多的信息（包括隐私信息）。

无论是我每天的琐碎事务，还是重要的决策和回忆，它都能存储并快速检索。当我问它“我去年5月做了什么？”时，它不仅能够从知识库中找到当时的记录，还能结合上下文和细节，帮助我回忆起那些可能遗忘的瞬间。

但要实现这个想法，用在线服务肯定是不行的，我需要它完全本机运行。现在，有了可完全本机部署的deepseek-r1和bge-m3，加上界面优雅的Cherry Studio，是时候实现它了。

注意1：以下步骤在苹果M系列芯片，16G内存的MacBook Pro上实现。由于Mac拥有统一内存和显存，类似配置的PC除了16G及以上的内存外，还需要有额外的显存分配才能正常运行。

注意2：先不要吐槽非满血版deepseek-r1的模型效果，可以先学会怎么本机部署，往后开源的模型会越来越好的（一年前谁能想到现在端侧大模型效果这么好了呢）。

直接开始：
1、下载安装ollama：https://ollama.com/download

按自己的电脑系统选择即可，安装后，双击启动。

2、下载DeepSeek-R1:14b模型（9GB）

这里我选择了我的设备能运行的最大尺寸的模型，14b参数的这个。打开终端，输入命令：

ollama run deepseek-r1:14b
回车之后，模型就开始下载啦，确保电脑硬盘还有足够的剩余空间（下图示意是7b参数的版本，共4.7GB）

等待模型下载完成后，当你看到 >>> 提示符，这时已经可以跟模型聊天啦，让我们来试试：

到这里，如果你不需要知识库，你已经完成了deepseek-r1模型的本地部署，是不是很简单？只是这个聊天界面在命令行中，也无法保存跟deepseek的聊天记录。

更多尺寸的模型下载命令可以在这里找到：https://ollama.com/library/deepseek-r1

也可以在顶部Models菜单中找到其他的开源模型，比如阿里的通义千问qwen2.5、智谱的GLM-4、Meta的Llama3.2等等，有兴趣都可以试试，支持多个模型同时安装。

查看已安装模型的命令：ollama list

删除已安装模型的命令（rm后是要删除的模型名称）：ollama rm deepseek-r1:14b

3、下载embedding模型 bge-m3（1.2GB）

打开终端，输入命令：ollama pull bge-m3

等待下载完毕，看到success，关闭终端就行了。embedding嵌入模型的作用是把知识库里的文档内容转化为便于搜索的向量，这里只需要理解它是用来处理知识库文档数据的即可。

4、安装Cherry Studio

访问：https://cherry-ai.com，根据电脑系统选择相应版本下载安装

Cherry Studio是一款支持本地知识库的AI客户端，其实同类产品还有很多，比如Chatbox（有联网搜索和手机端）、PageAssist（浏览器插件）、Enchanted（简洁轻量）、OpenWebUI（可供局域网内多人访问）等等，有兴趣的同学可以挨个体验下。

到这里我们需要下载和安装的东西都完成了，接下来断网也可以使用。

5、配置模型提供商：Ollama，添加LLM语言模型和embedding嵌入模型

启动Cherry Studio，依次点击左下角设置-模型服务-Ollama，开启Ollama，API地址保持默认，点击管理按钮，可以看到会自动读取到我们刚才下载的deepseek-r1:14b和bge-m3[嵌入] 两个模型，点击添加。

这样我们就把Ollama下载的两个模型配置到Cherry Studio中了。

拓展阅读：在模型服务的设置这里，可以看到Cherry Studio已经支持的模型提供商，推荐大家还可以添加一个部署在siliconflow硅基流动的DeepSeek-R1满血版，但与这个模型产生的交互都需要连接网络，你的问题会被发送到siliconflow硅基流动的服务器，使用满血版会按实际用量计费，你可以根据自己的实际情况选择是否使用。配置时需要用到的api密钥，可通过这个链接https://cloud.siliconflow.cn/i/r2Z3LRPQ注册获取，现在新注册会有免费额度赠送。

6、创建知识库，导入本地文档

点击Cherry Studio左侧的知识库按钮，再点击“添加”，给知识库取个名字，嵌入模型选择我们刚才下载的bge-m3，点击确定后，即可创建出一个知识库。

这时可以添加文件或者直接拖拽文件到知识库里，支持pdf、docx、pptx、txt等格式，把个人简历、日记、工作文档、甚至微信聊天记录(前提是手动导成文本)放进来都可以。

我们先加一两个文档试试，可以看到加入后，每个文档都会经过嵌入模型的处理，有个蓝色小点loading过程，如果看到绿色小勾，就代表这个文档可以被deepseek检索到了。

此时，DeepSeek就学习了你上传的文档。这是一种被称为RAG的技术，AI收到你的问题后，会先到知识库里找出最相关的几个片段，然后结合它自有的知识，组织一段新的表述回复给你。这样就能把AI大模型原本训练时没有的知识（比如关于你个人的信息）告诉它。

好啦，现在你电脑上的DeepSeek-R1就拥有了知晓你私人文档的知识库：回到聊天界面，顶部选择deepseek-r1:14b|Ollama这个模型，输入框下方知识库按钮选中刚才创建的知识库，现在试试询问一个DeepSeek本身不知道的问题——

大功告成，我也要再去丰富一下我的个人知识库了

更多AI动态，欢迎关注公众号：未来科技

DeepSeek-R1论文中文版（R1翻译）

发表评论

在回沪的航班上，我用本地大模型翻译了这篇paper，这里也分享出来，省略部分图表。

DeepSeek-R1：通过强化学习激励大型语言模型的推理能力

DeepSeek-AI
research@deepseek.com

摘要
我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero 和DeepSeek-R1 。DeepSeek-R1-Zero 是通过大规模强化学习（RL）训练的模型，没有经过监督微调（SFT）作为初步步骤，展现了显著的推理能力。通过 RL，DeepSeek-R1-Zero 自然地展现出许多强大而有趣的推理行为。然而，它面临着可读性差和语言混合等挑战。为了解决这些问题并进一步增强推理性能，我们引入了 DeepSeek-R1，该模型在 RL 之前结合了多阶段训练和冷启动数据。 DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。为了支持研究社区，我们开源了 DeepSeek-R1-Zero 、DeepSeek-R1 以及基于 Qwen 和Llama 从DeepSeek-R1 提炼出的六个密集模型（1.5B 、7B 、8B 、14B 、32B 、70B）。

内容

引言
1.1. 贡献
1.2. 评估结果总结
方法
2.1. 概述
2.2. DeepSeek-R1-Zero：基础模型上的强化学习
2.2.1. 强化学习算法
2.2.2. 奖励建模
2.2.3. 训练模板
2.2.4. DeepSeek-R1-Zero 的性能、自我演化过程和“顿悟”时刻
2.3. DeepSeek-R1：带有冷启动的强化学习
2.3.1. 冷启动
2.3.2. 以推理为导向的强化学习
2.3.3. 拒绝采样和监督微调
2.3.4. 适用于所有场景的强化学习
2.4. 蒸馏：赋予小模型推理能力
实验
3.1. DeepSeek-R1 评估
3.2. 蒸馏模型评估
讨论
4.1. 蒸馏与强化学习
4.2. 不成功的尝试
结论、局限性和未来工作
A. 贡献和致谢（略）

1. 引言
近年来，大型语言模型（LLMs）经历了快速的迭代和演变，逐渐缩小了与人工通用智能（AGI）之间的差距。最近，后训练已成为完整训练流程的重要组成部分。研究表明，它可以提高推理任务的准确性，与社会价值观对齐，并适应用户偏好，同时相对于预训练而言需要的计算资源相对较少。在推理能力方面，OpenAI 的o1 系列模型首次引入了通过增加思维链（Chain-of-Thought）推理过程的长度来进行推理时扩展的方法。这种方法在数学、编码和科学推理等各种推理任务中取得了显著的改进。然而，如何有效地进行测试时扩展仍然是研究社区面临的一个开放问题。之前的几项工作探索了各种方法，包括基于过程的奖励模型、强化学习和搜索算法（如蒙特卡洛树搜索和束搜索）。然而，这些方法都未能在推理性能上达到与 OpenAI 的o1 系列模型相当的水平。

在本文中，我们迈出了通过纯强化学习（RL）提高语言模型推理能力的第一步。我们的目标是探索 LLMs 在没有任何监督数据的情况下发展推理能力的潜力，专注于它们通过纯 RL 过程的自我演化。具体来说，我们使用 DeepSeek-V3-Base 作为基础模型，并采用 GRPO 作为 RL 框架，以提高模型在推理方面的表现。在训练过程中，DeepSeek-R1-Zero 自然展现出许多强大而有趣的推理行为。在经过数千步的 RL 后，DeepSeek-R1-Zero 在推理基准测试中的表现超群。例如，AIME 2024 的pass@1 分数从 15.6%上升到 71.0%，通过多数投票，分数进一步提高到 86.7%，与 OpenAI-o1-0912 的表现相匹配。

然而，DeepSeek-R1-Zero 面临着可读性差和语言混合等挑战。为了解决这些问题并进一步增强推理性能，我们引入了 DeepSeek-R1，该模型结合了少量冷启动数据和多阶段训练流程。具体来说，我们首先收集数千条冷启动数据，以微调 DeepSeek-V3-Base 模型。随后，我们执行以推理为导向的 RL，如同 DeepSeek-R1-Zero 。当 RL 过程接近收敛时，我们通过对 RL 检查点进行拒绝采样生成新的 SFT 数据，并结合来自 DeepSeek-V3 的监督数据，涵盖写作、事实问答和自我认知等领域，然后对 DeepSeek-V3-Base 模型进行再训练。在用新数据微调后，该检查点经过额外的 RL 过程，考虑到来自所有场景的提示。经过这些步骤，我们获得了一个称为 DeepSeek-R1 的检查点，其在推理任务上的表现与 OpenAI-o1-1217 相当。

我们进一步探索从 DeepSeek-R1 蒸馏出小型密集模型。使用 Qwen2.5-32B 作为基础模型，直接从 DeepSeek-R1 蒸馏的结果优于在其上应用 RL 。这表明大型基础模型发现的推理模式对于提高推理能力至关重要。我们开源了基于 DeepSeek-R1 蒸馏的 Qwen 和Llama 系列模型。值得注意的是，我们的蒸馏 14B 模型在推理基准测试中显著超越了最新的开源 QwQ-32B-Preview，而蒸馏的 32B 和70B 模型在密集模型中创下了新的推理基准记录。

1.1. 贡献
后训练：基础模型上的大规模强化学习

我们直接将 RL 应用于基础模型，而不依赖于监督微调（SFT）作为初步步骤。这种方法使模型能够探索解决复杂问题的思维链（CoT），从而发展出 DeepSeek-R1-Zero 。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等能力，标志着研究社区的一个重要里程碑。值得注意的是，这是首个公开研究，验证了 LLMs 的推理能力可以通过纯 RL 激励，而无需 SFT 。这一突破为未来在这一领域的进展铺平了道路。
我们引入了开发 DeepSeek-R1 的流程。该流程结合了两个 RL 阶段，旨在发现改进的推理模式并与人类偏好对齐，以及两个 SFT 阶段，作为模型推理和非推理能力的种子。我们相信该流程将使行业受益，创造出更好的模型。

蒸馏：小模型也可以强大

我们证明了大型模型的推理模式可以蒸馏到小模型中，从而在性能上超越通过 RL 发现的推理模式。开源的 DeepSeek-R1 及其 API 将使研究社区在未来蒸馏出更好的小模型。
使用 DeepSeek-R1 生成的推理数据，我们微调了多个广泛使用的密集模型。评估结果表明，蒸馏的小型密集模型在基准测试中表现出色。 DeepSeek-R1-Distill-Qwen-7B 在AIME 2024 上达到 55.5%，超越了 QwQ-32B-Preview 。此外，DeepSeek-R1-Distill-Qwen-32B 在AIME 2024 上得分 72.6%，在 MATH-500 上得分 94.3%，在 LiveCodeBench 上得分 57.2%。这些结果显著超越了之前的开源模型，并与 o1-mini 相当。

1.2. 评估结果总结

推理任务：
(1) DeepSeek-R1 在AIME 2024 上得分 79.8% Pass@1，略微超过 OpenAI-o1-1217 。在 MATH-500 上，它取得了令人印象深刻的 97.3%的成绩，与 OpenAI-o1-1217 表现相当，并显著超越其他模型。
(2) 在与编码相关的任务中，DeepSeek-R1 在代码竞赛任务中表现出色，获得了 Codeforces 上的 2,029 Elo 评分，超过了 96.3%的参赛人。对于工程相关任务，DeepSeek-R1 的表现略优于 DeepSeek-V3，这可能有助于开发者在实际任务中。
知识：在 MMLU 、MMLU-Pro 和GPQA Diamond 等基准测试中，DeepSeek-R1 取得了出色的结果，得分分别为 90.8%、 84.0%和 71.5%，显著超越 DeepSeek-V3 。尽管在这些基准测试中的表现略低于 OpenAI-o1-1217，但 DeepSeek-R1 超越了其他闭源模型，展示了其在教育任务中的竞争优势。在事实基准测试 SimpleQA 中，DeepSeek-R1 的表现优于 DeepSeek-V3，显示出其处理基于事实查询的能力。在该基准测试中，OpenAI-o1 也超越了 4o 。
其他：DeepSeek-R1 在广泛的任务中表现出色，包括创意写作、一般问答、编辑、摘要等。在 AlpacaEval 2.0 上，它实现了 87.6%的长度控制胜率，在 ArenaHard 上达到了 92.3%的胜率，展示了其智能处理非考试导向查询的强大能力。此外，DeepSeek-R1 在需要长上下文理解的任务上表现出色，在长上下文基准测试中显著超越 DeepSeek-V3 。

2. 方法

2.1. 概述
以往的工作在提升模型性能时，往往依赖大量的监督数据。在本研究中，我们展示了通过大规模强化学习（RL）显著提升推理能力，即使在没有使用监督微调（SFT）作为冷启动的情况下。此外，加入少量高质量数据作为冷启动可以进一步提升性能。接下来的部分将介绍：(1) DeepSeek-R1-Zero，该模型直接将 RL 应用于基础模型，而没有任何 SFT 数据；(2) DeepSeek-R1，该模型从经过数千条长思维链（CoT）示例微调的检查点开始应用 RL；(3) 将推理能力蒸馏到小型密集模型。

2.2. DeepSeek-R1-Zero：基础模型上的强化学习

强化学习在推理任务中展现出了显著的有效性，如我们之前的工作所示。然而，这些工作在实践中高度依赖于监督数据，这些数据的收集耗时。我们在这一部分探讨了 LLMs 在没有任何监督数据的情况下，如何通过纯强化学习过程发展推理能力，重点关注它们的自我演化。

2.2.1. 强化学习算法
我们采用了群体相对策略优化（GRPO），以节省 RL 的训练成本。 GRPO 省略了通常与策略模型同等大小的评论模型，而是从群体得分中估计基线。具体来说，对于每个问题𝑞，GRPO 从旧策略𝜋𝜃𝑜𝑙𝑑中抽样一组输出{𝑜1, 𝑜2, · · · , 𝑜𝐺}，然后通过最大化以下目标来优化策略模型𝜋𝜃：

[ J_{GRPO}(\theta) = E[q \sim P(Q), {o_i}{i=1}^{G} \sim \pi{\theta_{old}}(O|q)] ]

2.2.2. 奖励建模
奖励是训练信号的来源，决定了强化学习（RL）的优化方向。为了训练 DeepSeek-R1-Zero，我们采用了一种基于规则的奖励系统，主要由两种类型的奖励组成：

准确性奖励：准确性奖励模型评估响应是否正确。例如，在确定性结果的数学问题中，模型需要以指定的格式（例如，在框内）提供最终答案，从而实现可靠的基于规则的正确性验证。同样，对于 LeetCode 问题，可以使用编译器根据预定义的测试用例生成反馈。
格式奖励：除了准确性奖励模型外，我们还采用格式奖励模型，强制模型将其思维过程放在“<think>”和“</think>”标签之间。

我们没有在开发 DeepSeek-R1-Zero 时应用结果或过程神经奖励模型，因为我们发现神经奖励模型可能在大规模强化学习过程中遭遇奖励黑客问题，而重新训练奖励模型需要额外的训练资源，并且会使整个训练流程变得复杂。

2.2.3. 训练模板
为了训练 DeepSeek-R1-Zero，我们首先设计了一个简单的模板，指导基础模型遵循我们的指定指令。如表 1所示，该模板要求 DeepSeek-R1-Zero 首先生成推理过程，然后给出最终答案。我们故意将约束限制在这种结构化格式上，避免任何内容特定的偏见——例如强制反思性推理或推广特定问题解决策略——以确保我们能够准确观察模型在 RL 过程中的自然进展。

2.2.4. DeepSeek-R1-Zero 的性能、自我演化过程和“顿悟”时刻
DeepSeek-R1-Zero 的性能如图 2所示，展示了其在 AIME 2024 基准测试中的表现轨迹。在 RL 训练过程中，DeepSeek-R1-Zero 的性能稳步提升，表现出持续的增强。值得注意的是，AIME 2024 的平均 pass@1 分数显著增加，从最初的 15.6%跃升至 71.0%，达到了与 OpenAI-o1-0912 相当的性能水平。这一显著提升突显了我们的 RL 算法在优化模型性能方面的有效性。

表 2提供了 DeepSeek-R1-Zero 与OpenAI 的o1-0912 模型在各种推理相关基准测试中的比较分析。研究结果显示，RL 使DeepSeek-R1-Zero 在没有任何监督微调数据的情况下获得了强大的推理能力。这是一个值得注意的成就，因为它强调了模型通过 RL 单独学习和概括的能力。此外，通过应用多数投票，DeepSeek-R1-Zero 的表现可以进一步增强。例如，在 AIME 基准测试中，当采用多数投票时，DeepSeek-R1-Zero 的表现从 71.0%提升至 86.7%，超越了 OpenAI-o1-0912 。DeepSeek-R1-Zero 在有无多数投票情况下都能取得如此竞争力的表现，突显了其强大的基础能力和在推理任务中进一步发展的潜力。

DeepSeek-R1-Zero 的自我演化过程
DeepSeek-R1-Zero 的自我演化过程展示了 RL 如何驱动模型自主提升其推理能力。通过直接从基础模型启动 RL，我们可以在没有监督微调阶段影响的情况下，密切监控模型的进展。这种方法清晰地展示了模型随时间演变的过程，特别是在处理复杂推理任务的能力方面。

如图 3所示，DeepSeek-R1-Zero 的思考时间在训练过程中持续改善。这种改善不是外部调整的结果，而是模型内部的内在发展。 DeepSeek-R1-Zero 通过利用扩展的测试时间计算，自然地获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记，使模型能够更深入地探索和完善其思维过程。

这一自我演化的最显著方面是，随着测试时间计算的增加，复杂行为的出现。反思等行为——模型重新审视和重新评估其先前步骤——以及探索替代问题解决方法的能力自发地出现。这些行为并不是显式编程的结果，而是模型与强化学习环境交互的结果。这种自发的发展显著增强了 DeepSeek-R1-Zero 的推理能力，使其能够更高效、更准确地应对更具挑战性的任务。

DeepSeek-R1-Zero 的“顿悟”时刻
在 DeepSeek-R1-Zero 的训练过程中观察到的一个特别有趣的现象是“顿悟”时刻的出现。这一时刻发生在模型的一个中间版本中。在这一阶段，DeepSeek-R1-Zero 学会了通过重新评估其初始方法来为问题分配更多的思考时间。这种行为不仅证明了模型推理能力的提升，也是强化学习如何导致意想不到和复杂结果的迷人示例。

这一时刻不仅是模型的“顿悟”，也是观察其行为的研究者的“顿悟”。它强调了强化学习的力量和美丽：我们并不是明确教导模型如何解决问题，而是简单地为其提供正确的激励，模型便自主发展出先进的问题解决策略。“顿悟”时刻强有力地提醒我们，RL 有潜力解锁人工系统的新智能水平，为未来更自主和适应性的模型铺平道路。

DeepSeek-R1-Zero 的缺点
尽管 DeepSeek-R1-Zero 展现了强大的推理能力，并自主发展出意想不到和强大的推理行为，但它面临着一些问题。例如，DeepSeek-R1-Zero 在可读性差和语言混合等挑战上存在困难。为了使推理过程更具可读性并与开放社区分享，我们探索了 DeepSeek-R1，这是一种利用 RL 与人类友好的冷启动数据的方法。

2.3. DeepSeek-R1：带有冷启动的强化学习
受到 DeepSeek-R1-Zero 的良好结果的启发，自然产生了两个问题：1）通过加入少量高质量数据作为冷启动，推理性能是否可以进一步提高或收敛加速？2）我们如何训练一个用户友好的模型，不仅能生成清晰连贯的思维链（CoT），还能够展示出强大的通用能力？为了解决这些问题，我们设计了一个训练 DeepSeek-R1 的流程。该流程包括四个阶段，具体如下。

2.3.1. 冷启动
与 DeepSeek-R1-Zero 不同，为了防止 RL 训练初期的不稳定冷启动阶段，我们为 DeepSeek-R1 构建并收集了一小部分长 CoT 数据，以微调模型作为初始 RL 演员。为了收集这些数据，我们探索了几种方法：使用少量示例的长 CoT 进行提示，直接提示模型生成详细答案并进行反思和验证，收集 DeepSeek-R1-Zero 的可读格式输出，并通过人工注释者进行后处理来精炼结果。

在本研究中，我们收集了数千条冷启动数据，以微调 DeepSeek-V3-Base 作为 RL 的起点。与 DeepSeek-R1-Zero 相比，冷启动数据的优势包括：

可读性：DeepSeek-R1-Zero 的一个关键限制是其内容往往不适合阅读。响应可能混合多种语言或缺乏突出答案的 Markdown 格式。相比之下，在为 DeepSeek-R1 创建冷启动数据时，我们设计了一个可读的模式，在每个响应的末尾包含摘要，并过滤掉不适合阅读的响应。我们在此定义输出格式为|special_token|<reasoning_process>|special_token|<summary>，其中推理过程是查询的 CoT，摘要用于总结推理结果。
潜力：通过精心设计冷启动数据的模式并结合人类先验，我们观察到相较于 DeepSeek-R1-Zero 的更好表现。我们相信迭代训练是推理模型的更好方法。

2.3.2. 面向推理的强化学习
在对 DeepSeek-V3-Base 进行冷启动数据的微调后，我们应用与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程。这个阶段的重点是增强模型的推理能力，特别是在编码、数学、科学和逻辑推理等推理密集型任务中，这些任务涉及定义明确且解决方案清晰的问题。在训练过程中，我们观察到 CoT（思维链）经常表现出语言混合，特别是在 RL 提示涉及多种语言时。为了缓解语言混合的问题，我们在 RL 训练中引入了语言一致性奖励，该奖励是根据 CoT 中目标语言单词的比例计算的。尽管消融实验表明，这种对齐会导致模型性能的轻微下降，但该奖励与人类偏好一致，使其更具可读性。最后，我们通过直接相加推理任务的准确性和语言一致性奖励来形成最终奖励。然后，我们在微调后的模型上应用 RL 训练，直到其在推理任务上达到收敛。

2.3.3. 拒绝采样和监督微调
当面向推理的 RL 收敛时，我们利用生成的检查点收集 SFT（监督微调）数据以进行下一轮。与最初主要关注推理的冷启动数据不同，这个阶段结合了来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务中的能力。具体而言，我们生成数据并对模型进行微调，如下所述。
推理数据我们策划推理提示，并通过对上述 RL 训练的检查点进行拒绝采样来生成推理轨迹。在前一个阶段，我们只包括可以使用基于规则的奖励进行评估的数据。然而，在这个阶段，我们通过引入额外数据来扩展数据集，其中一些数据使用生成奖励模型，通过将真实值和模型预测输入 DeepSeek-V3 进行判断。此外，由于模型输出有时混乱且难以阅读，我们过滤掉了混合语言的思维链、冗长的段落和代码块。对于每个提示，我们采样多个响应，仅保留正确的响应。总共，我们收集了大约 60 万个与推理相关的训练样本。
非推理数据对于非推理数据，如写作、事实问答、自我认知和翻译，我们采用 DeepSeek-V3 流程，并重用 DeepSeek-V3 的部分 SFT 数据集。对于某些非推理任务，我们调用 DeepSeek-V3 在回答问题之前生成潜在的思维链。然而，对于更简单的查询，如“你好”，我们不会提供思维链作为回应。最终，我们收集了大约 20 万个与推理无关的训练样本。
我们使用上述策划的数据集（约 80 万个样本）对 DeepSeek-V3-Base 进行了两轮微调。

2.3.4. 面向所有场景的强化学习
为了进一步使模型与人类偏好对齐，我们实施了一个二次强化学习阶段，旨在提高模型的有用性和无害性，同时精炼其推理能力。具体而言，我们使用奖励信号和多样化提示分布的组合来训练模型。对于推理数据，我们遵循 DeepSeek-R1-Zero 中概述的方法，利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据，我们依靠奖励模型来捕捉复杂和细微场景中的人类偏好。我们在 DeepSeek-V3 流程的基础上，采用类似的偏好对和训练提示分布。对于有用性，我们专注于最终总结，确保评估强调响应对用户的实用性和相关性，同时最小化对基础推理过程的干扰。对于无害性，我们评估模型的整个响应，包括推理过程和总结，以识别和缓解在生成过程中可能出现的任何潜在风险、偏见或有害内容。最终，奖励信号和多样化数据分布的整合使我们能够训练出在推理方面表现出色，同时优先考虑有用性和无害性的模型。

2.4. 蒸馏：赋予小模型推理能力
为了使更高效的小模型具备类似 DeepSeek-R1 的推理能力，我们直接对开源模型（如 Qwen 和 Llama）进行微调，使用与 DeepSeek-R1 策划的 80 万个样本，如 §2.3.3 中详细说明的。我们的研究结果表明，这种简单的蒸馏方法显著增强了小模型的推理能力。我们在这里使用的基础模型包括 Qwen2.5-Math-1.5B 、Qwen2.5-Math-7B 、Qwen2.5-14B 、Qwen2.5-32B 、Llama-3.1-8B 和 Llama-3.3-70B-Instruct 。我们选择 Llama-3.3，因为它的推理能力略优于 Llama-3.1 。
对于蒸馏模型，我们仅应用 SFT，而不包括 RL 阶段，尽管纳入 RL 可能会显著提升模型性能。我们在这里的主要目标是展示蒸馏技术的有效性，将 RL 阶段的探索留给更广泛的研究社区。

实验
基准测试我们在 MMLU（Hendrycks et al., 2020）、MMLU-Redux（Gema et al., 2024）、MMLU-Pro（Wang et al., 2024）、C-Eval（Huang et al., 2023）、CMMLU（Li et al., 2023）、IFEval（Zhou et al., 2023）、FRAMES（Krishna et al., 2024）、GPQA Diamond（Rein et al., 2023）、SimpleQA（OpenAI, 2024c）、C-SimpleQA（He et al., 2024）、SWE-Bench Verified（OpenAI, 2024d）、Aider 1、LiveCodeBench（Jain et al., 2024）（2024-08 – 2025-01）、Codeforces 2、中国全国高中数学奥林匹克（CNMO 2024）3，以及美国邀请数学考试 2024（AIME 2024）（MAA, 2024）上评估模型。除了标准基准测试外，我们还使用 LLM 作为评审对开放式生成任务进行评估。具体而言，我们遵循 AlpacaEval 2.0（Dubois et al., 2024）和 Arena-Hard（Li et al., 2024）的原始配置，这些配置利用 GPT-4-Turbo-1106 作为成对比较的评审。在这里，我们仅将最终摘要输入评估，以避免长度偏差。对于蒸馏模型，我们报告 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 的代表性结果。

评估提示根据 DeepSeek-V3 的设置，标准基准测试（如 MMLU、DROP、GPQA Diamond 和 SimpleQA）使用来自 simpleevals 框架的提示进行评估。对于 MMLU-Redux，我们在零样本设置中采用 Zero-Eval 提示格式（Lin, 2024）。至于 MMLU-Pro、C-Eval 和 CLUE-WSC，由于原始提示是少样本的，我们稍微修改提示以适应零样本设置。少样本中的思维链可能会影响 DeepSeek-R1 的性能。其他数据集遵循其原始评估协议，使用其创建者提供的默认提示。对于代码和数学基准，HumanEval-Mul 数据集涵盖八种主流编程语言（Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash）。LiveCodeBench 上的模型性能使用思维链格式进行评估，数据收集时间为 2024 年 8 月至 2025 年 1 月。Codeforces 数据集使用来自 10 个 Div.2 竞赛的问题以及专家设计的测试用例进行评估，之后计算预期评级和竞争者的百分比。SWE-Bench 验证结果通过无代理框架获得（Xia et al., 2024）。与 AIDER 相关的基准使用“diff”格式进行测量。DeepSeek-R1 的输出在每个基准上限制为最多 32,768 个标记。

基线我们对几个强基线进行了全面评估，包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在中国大陆访问 OpenAI-o1-1217 API 较为困难，我们根据官方报告报告其性能。对于蒸馏模型，我们还比较了开源模型 QwQ-32B-Preview（Qwen, 2024a）。

评估设置我们将模型的最大生成长度设置为 32,768 个标记。我们发现，使用贪婪解码来评估长输出推理模型会导致更高的重复率和不同检查点之间的显著变异。因此，我们默认使用 pass@𝑘 评估（Chen et al., 2021），并使用非零温度报告 pass@1。具体而言，我们使用 0.6 的采样温度和 0.95 的 top-𝑝 值为每个问题生成 𝑘 个响应（通常在 4 到 64 之间，具体取决于测试集的大小）。然后计算 pass@1 为：
[
\text{pass@1} = \frac{1}{k} \sum_{i=1}^{k} p_i
]
其中 ( p_i ) 表示第 ( i ) 个响应的正确性。该方法提供了更可靠的性能估计。对于 AIME 2024，我们还报告了共识（多数投票）结果（Wang et al., 2022），使用 64 个样本，表示为 cons@64。

3.1. DeepSeek-R1 评估

基准（指标）	Claude-3.5-1022	GPT-4o-0513	DeepSeek-V3	OpenAI-o1-mini	OpenAI-o1-1217	DeepSeek-R1
架构	–	–	MoE	–	–	MoE
激活参数数量	–	–	37B	–	–	37B
总参数数量	–	–	671B	–	–	671B
英语
MMLU (Pass@1)	88.3	87.2	88.5	85.2	91.8	90.8
MMLU-Redux (EM)	88.9	88.0	89.1	86.7	–	92.9
MMLU-Pro (EM)	78.0	72.6	75.9	80.3	–	84.0
DROP (3-shot F1)	88.3	83.7	91.6	83.9	90.2	92.2
IF-Eval (Prompt Strict)	86.5	84.3	86.1	84.8	–	83.3
GPQA Diamond (Pass@1)	65.0	49.9	59.1	60.0	75.7	71.5
SimpleQA (正确)	28.4	38.2	24.9	7.0	47.0	30.1
FRAMES (准确率)	72.5	80.5	73.3	76.9	–	82.5
AlpacaEval2.0 (LC-winrate)	52.0	51.1	70.0	57.8	–	87.6
ArenaHard (GPT-4-1106)	85.2	80.4	85.5	92.0	–	92.3
代码
LiveCodeBench (Pass@1-COT)	38.9	32.9	36.2	53.8	63.4	65.9
Codeforces (百分位)	20.3	23.6	58.7	93.4	96.6	96.3
Codeforces (评分)	717	759	1134	1820	2061	2029
SWE Verified (解决率)	50.8	38.8	42.0	41.6	48.9	49.2
Aider-Polyglot (准确率)	45.3	16.0	49.6	32.9	61.7	53.3
数学
AIME 2024 (Pass@1)	16.0	9.3

3.2. 蒸馏模型评估
表 5 | DeepSeek-R1 蒸馏模型与其他可比模型在推理相关基准上的比较。
如表 5 所示，简单地蒸馏 DeepSeek-R1 的输出使得高效的 DeepSeek-R1-7B（即 DeepSeek-R1-Distill-Qwen-7B，以下简写为相似）在各个方面超越了非推理模型如 GPT-4o-0513。DeepSeek-R1-14B 在所有评估指标上超过了 QwQ-32B-Preview，而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准上显著超过了 o1-mini。这些结果展示了蒸馏的强大潜力。此外，我们发现对这些蒸馏模型应用强化学习（RL）会带来显著的进一步提升。我们认为这值得进一步探索，因此在此仅展示简单的 SFT 蒸馏模型的结果。

讨论
4.1. 蒸馏与强化学习
在 3.2 节中，我们可以看到，通过蒸馏 DeepSeek-R1，小模型可以取得令人印象深刻的结果。然而，仍然有一个问题：模型是否可以通过本文讨论的大规模 RL 训练而不进行蒸馏来实现可比的性能？
为了解答这个问题，我们在 Qwen-32B-Base 上进行大规模 RL 训练，使用数学、代码和 STEM 数据，训练超过 10K 步，得到了 DeepSeek-R1-Zero-Qwen-32B。实验结果如表 6 所示，经过大规模 RL 训练的 32B 基础模型在性能上与 QwQ-32B-Preview 相当。然而，DeepSeek-R1-Distill-Qwen-32B（从 DeepSeek-R1 蒸馏而来）在所有基准上表现显著优于 DeepSeek-R1-Zero-Qwen-32B。
因此，我们可以得出两个结论：首先，将更强大的模型蒸馏成更小的模型可以获得优秀的结果，而依赖于本文提到的大规模 RL 的小模型则需要巨大的计算能力，甚至可能无法达到蒸馏的性能。其次，虽然蒸馏策略既经济又有效，但超越智能的边界可能仍然需要更强大的基础模型和大规模的强化学习。

4.2. 不成功的尝试
在开发 DeepSeek-R1 的早期阶段，我们也遇到了失败和挫折。我们在此分享我们的失败经验以提供见解，但这并不意味着这些方法无法开发出有效的推理模型。
过程奖励模型（PRM）PRM 是一种合理的方法，可以指导模型朝着更好的方法解决推理任务（Lightman 等，2023；Uesato 等，2022；Wang 等，2023）。然而，在实践中，PRM 有三个主要限制，可能会妨碍其最终成功。首先，很难明确地定义一般推理中的细粒度步骤。其次，确定当前中间步骤是否正确是一项具有挑战性的任务。使用模型进行自动标注可能无法产生令人满意的结果，而手动标注不利于规模化。第三，一旦引入基于模型的 PRM，就不可避免地会导致奖励黑客（Gao 等，2022），而重新训练奖励模型需要额外的训练资源，并使整个训练流程变得复杂。总之，尽管 PRM 在重新排序模型生成的前 N 个响应或辅助引导搜索方面表现出良好的能力（Snell 等，2024），但与其在我们实验中的大规模强化学习过程中引入的额外计算开销相比，其优势是有限的。
蒙特卡洛树搜索（MCTS）受到 AlphaGo（Silver 等，2017b）和 AlphaZero（Silver 等，2017a）的启发，我们探索使用蒙特卡洛树搜索（MCTS）来增强测试时计算的可扩展性。这种方法涉及将答案分解为更小的部分，以便模型能够系统地探索解决方案空间。为此，我们提示模型生成多个标签，这些标签对应于搜索所需的特定推理步骤。对于训练，我们首先使用收集到的提示通过 MCTS 找到答案，并由预训练的价值模型指导。随后，我们使用生成的问题-答案对来训练演员模型和价值模型，迭代地完善这一过程。
然而，这种方法在扩大训练规模时遇到了几个挑战。首先，与棋类游戏相比，棋类游戏的搜索空间相对明确，而令牌生成则呈现出指数级更大的搜索空间。为了解决这个问题，我们为每个节点设置了最大扩展限制，但这可能导致模型陷入局部最优。其次，价值模型直接影响生成的质量，因为它指导搜索过程的每一步。训练一个细粒度的价值模型本质上是困难的，这使得模型难以迭代改进。虽然 AlphaGo 的核心成功依赖于训练一个价值模型以逐步提高其性能，但由于令牌生成的复杂性，这一原则在我们的设置中难以复制。
总之，尽管 MCTS 在与预训练价值模型配对时可以提高推理期间的性能，但通过自我搜索迭代提升模型性能仍然是一个重大挑战。

结论、局限性与未来工作
在本工作中，我们分享了通过强化学习增强模型推理能力的历程。DeepSeek-R1-Zero 代表了一种纯 RL 方法，不依赖冷启动数据，在各种任务中取得了强大的性能。DeepSeek-R1 更加强大，利用冷启动数据和迭代 RL 微调。最终，DeepSeek-R1 在一系列任务中达到了与 OpenAI-o1-1217 相当的性能。
我们进一步探索将推理能力蒸馏到小型密集模型中。我们使用 DeepSeek-R1 作为教师模型生成 80 万个训练样本，并微调多个小型密集模型。结果令人鼓舞：DeepSeek-R1-Distill-Qwen-1.5B 在数学基准上以 28.9% 的 AIME 和 83.9% 的 MATH 超越了 GPT-4o 和 Claude-3.5-Sonnet。其他密集模型也取得了令人印象深刻的结果，显著超越了基于相同基础检查点的其他指令调优模型。
未来，我们计划在以下方向上对 DeepSeek-R1 进行研究。

通用能力：目前，DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务上的能力仍不及 DeepSeek-V3。未来，我们计划探索如何利用长链推理（CoT）来增强这些领域的任务。
语言混合：DeepSeek-R1 目前针对中文和英文进行了优化，这可能导致在处理其他语言的查询时出现语言混合问题。例如，尽管查询使用的是英语以外的语言，DeepSeek-R1 可能仍会使用英语进行推理和响应。

2024年的碎碎念

发表评论

1月

2024-01-01 20:19:02

对甜品的最高评价是不太甜对男人的最高评价是不太男

2024-01-02 12:02:27

一些景点有了新的装修；
iPhone用上了八达通；
更多商户支持了WeChatPay和Alipay；
KeeTa崛起，蚕食Foodpanda等外卖平台；
很多地方还残留有covid-2019疫情的贴纸提示，有些taxi上也还留有“认证抗疫的士”的贴纸；

2024-01-02 12:05:16

元旦假期日均出入境人次恢复到2019年水平

2024-01-02 18:56:09

卫视中文台、卫视电影台、星卫HD电影台、星卫娱乐台停播

2024-01-04 00:00:48

每半个月领到的WLD，转到CEX卖掉，然后U转到OneKeyCard（这一步有手续费）就能在国内支付使用了……

2024-01-04 15:05:33

Pascal、Euler 和 Oberon 等语言的作者和合作者 Niklaus Wirth 于 2024 年 1 月 1 日去世，享年 89 岁。Niklaus Wirth 于 1934 年 2 月 15 日出生于瑞士，先后任教于斯坦福、苏黎世大学、苏黎世联邦理工学院，曾在施乐帕洛阿尔托研究中心进修两年。他是 Algol W 、Modula、Pascal、 Modula-2、Oberon 等语言的主设计师，是 Euler 语言的发明者之一。1984 年他因在编程语言上的贡献而获图灵奖。他亦是Lilith电脑和Oberon系统的设计和执行队伍的重要成员。

2024-01-05 18:49:05

Introducing http://aoyo.ai – the new AI search

This is an AI search product designed for everyone.

-Based on the latest RAG technology, it allows you to search foreign language content on the internet in your native language, and the AI will summarize and respond in your native language.

-No ads, no content censorship, supporting traditional search commands like site/filetype/inurl, and can replace daily web searches.

2024-01-07 10:55:40

《繁花》的电视频道播出时间：https://www.tvmao.com/drama/YG0jXGVl/playingtime

2024-01-08 17:32:56

做出海工具不要用国内域名注册商和dns，godaddy+cloudflare+github+vercel完事

2024-01-08 22:22:29

Vision Pro来了！ 1/19开始预订，2/2美国上市

2024-01-08 23:32:45

元梦之星做得比蛋仔派对精美

2024-01-11 01:00:39

单曲循环一首low歌，明年的年度听歌报告不会有它吧

2024-01-11 01:21:17

我的 #2023年度产品：ChatGPT、Midjourney、Raycast、HomeAssistant、aoyo.ai

2024-01-11 09:09:12

Apple Music家庭版涨价到17元/月

2024-01-11 09:23:40

一觉醒来：
GPTs和ChatGPT团队版发布
SEC批准比特币ETF

2024-01-11 11:47:31

微信AI将会在今天微信公开课PRO上亮相

2024-01-11 16:54:00

实体产品：HappyRain碳纤维伞、摩飞便携电热水杯、SteamDeck、魅族myvu眼镜、添添闺蜜机

2024-01-13 19:27:18

赖萧配得票率已经超过40%

2024-01-15 20:02:24

瑙鲁与台湾断交，ROC邦交国只剩12个了

2024-01-19 19:29:01

冬青奥会在韩国江原道

2024-01-24 12:15:54

感谢流感疫苗的保护

2024-01-24 15:25:40

商业航天发展迅速，火箭发射的成本会越来越低。

2024-01-25 20:51:22

焦点访谈关注了人工智能（发展新质生产力系列报道）

2月

2024-02-01 10:20:35

对他人大段话语的引用，只用在每一段开头用左双引号。

2024-02-08 12:34:39

今年春节档前三预测：《热辣滚烫》《飞驰人生2》《第二十条》

2024-02-16 16:05:13

活到老，学到老。

2024-02-17 09:17:06

九牛迁到深圳改名新鹏城了，没能实现成都德比（虽然中甲时期有过）

2024-02-18 08:36:11

sora可以帮助电影创作者rapid prototype

2024-02-23 22:31:58

看了几集《小敏家》，剧中的装修风格不错。

2024-02-29 00:03:22

四年一次的一天。

3月

2024-03-06 15:23:12

视频生成今年应该会大跃进

2024-03-09 20:17:54

宽屏（16:9）HD视频是2010年左右普及的。

2024-03-10 13:05:08

United Nations Relief and Works Agency for Palestine Refugees “联合国近东巴勒斯坦难民救济和工程处” 或者简称为“近东救济工程处” 为什么官方中文名带有“近东”二字

2024-03-11 19:45:30

短跑第4道是卫冕道。卫冕冠军通常被安排在第4道。

2024-03-13 21:30:48

今年还是拜登vs川普

2024-03-15 18:09:26

看到一个新品牌和新品类：盖狮可吸果泥

2024-03-17 22:11:34

Suno出现之后，音乐工业会有大的变化吧

2024-03-27 17:52:11

小米SU7的电机研发还是砸了重金的。

4月

2024-04-05 20:37:13

保持对世界的好奇心

2024-04-07 19:22:45

小米SU7的广告视频是在外滩拍的

2024-04-13 21:04:09

原来民国时期就有证券市场。

2024-04-16 18:58:33

奥运火炬传递开始了。

2024-04-25 20:31:20

神舟十八号任务，成都人叶光富担任01指令长。上一次是神十三，这次任务完成后他在太空的累计时长可能会超过一年。

5月

2024-05-02 17:40:28

殷墟遗址在河南安阳市境内

2024-05-06 20:12:56

龟兹和虚与委蛇，以前读错了。

2024-05-07 19:25:10

M4 iPadPro 13寸，比Pencil还薄

2024-05-20 21:03:44

深圳有数字人民币硬钱包申领自助机了

2024-05-22 18:47:22

中华民国四个字出现在了央视

6月

2024-06-05 09:22:45

支付宝小荷包产品做得不错

2024-06-13 20:09:37

今年3个热播剧的片尾曲都是周深唱的

2024-06-14 23:47:02

欧洲杯揭幕战在安联球场，东道主德国的主场也是拜仁慕尼黑的主场

2024-06-22 19:34:50

在欧洲杯赛场的场边广告牌看到比亚迪的子品牌：方程豹

7月

2024-07-07 20:28:12

“垸”的意思是湖区大坝围合的陆地

2024-07-10 08:05:36

欧洲杯半决赛和美洲杯半决赛碰到了一起

2024-07-12 18:53:29

上半年新能源汽车占有率已达33.5%

2024-07-14 19:40:11

Trump被枪击后振臂一呼的形象刻在了历史中。

2024-07-16 15:09:14

伏天开始了，听到了更近的蝉鸣。

2024-07-26 16:08:24

进入奥运时间！

2024-07-28 04:02:44

21年之后有了cctv16奥林匹克频道，这次奥运会期间cctv5台标都不变成cctv奥运五环了

2024-07-29 07:58:21

用Termius替代了Transmit

2024-07-30 08:08:08

https://www.aminer.cn

8月

2024-08-01 10:48:32

deepseek模型背后是幻方，一个做量化交易的金融巨头，合理。

2024-08-05 08:36:44

李政道去世了

2024-08-06 00:50:58

巴黎奥运冲浪比赛是在大溪地（法属）举行的。

2024-08-06 00:56:23

原来Apple Intelligence要求iPhone 15 Pro是因为端侧大模型占用运行内存较高，需要8G内存以上的设备才能运行。

2024-08-07 03:47:59

腾讯课堂也要停止服务了，2016-2024

2024-08-08 06:25:51

OpenAI 发布 gpt-4o-2024-08-06 输出token提升3倍降价33%-50% 支持JSON格式输出

2024-08-09 09:14:10

Google 播客将于 2024年8月30日停用，在此之前，您可以导出播客订阅，以便导入到您选择的服务中。 https://support.google.com/youtubemusic/answer/14151168

2024-08-09 10:54:59

刘海龙：媒介的三阶段 https://shop.vistopia.com.cn/article?article_id=570003&share_uid=gS0Ek

2024-08-10 09:08:41

抓娃娃，这不是楚门的世界吗

2024-08-11 16:08:02

巴黎奥运收官。

2024-08-17 03:56:57

中国游戏工业迎来里程碑时刻《黑神话：悟空》全球媒体评分解禁 https://www.cnbeta.com.tw/articles/game/1442539.htm

2024-08-19 03:18:44

ollama本地运行qwen2，真简单

2024-08-20 03:15:45

https://store.steampowered.com/charts/mostplayed

2024-08-20 13:16:43

黑神话：悟空 Steam 最高同时在玩人数215.2万，超过幻兽帕鲁了

2024-08-24 00:47:37

三伏天结束。

2024-08-24 10:19:30

Apple Watch的米奇表盘居然可以点击报时（以前手表都是静音的所以没发现

2024-08-26 06:46:48

今年全球有10次载人航天发射任务：https://spacemission.vercel.app/

2024-08-28 02:12:36

由三体宇宙联合 PICO 出品的三体 VR 互动叙事作品《三体：远征》正式登陆 PICO 平台。玩家可以在 PICO 应用商店搜索《三体：远征》加入三体游戏，接收来自三体星系的的召唤，探索恒纪元、乱纪元的奥秘。

8月26日，高度还原《三体》原著中“三体游戏”内容的虚拟现实互动叙事作品《三体：远征》将上线。玩家将佩戴上“V装具”进入书中的三体游戏世界。据了解，《三体：远征》由PICO和三体宇宙出品，三体宇宙制作。

2024-08-28 13:05:31

新教材对一些表述的调整

2024-08-30 05:10:03

QQ手机客户端也内置了微信小程序基础库，可以直接运行微信小程序了

2024-08-30 05:12:47

国内对于基座大模型市场争夺，主要是各家云厂商提供便捷化配置型产品（比如appbuilder/百炼/元器），和提供自家和别家开源模型快捷部署服务等形式。

9月

2024-09-05 01:28:07

https://www.shapeof.ai

2024-09-07 01:19:57

Boeing‘s Starliner undocking from ISS without crew.

2024-09-09 17:15:19

Watch S10终于变薄了

2024-09-10 01:42:47

Watch S10国行版本不支持快充和呼吸暂停检测功能

2024-09-10 09:28:52

SpaceX launch the FIRST commercial spacewalk, Polaris Dawn https://www.youtube.com/watch?v=gWOYQ5Dto7c

2024-09-10 14:54:13

新华网新闻稿中出现的翻译：脸书母公司“元”（meta）；谷歌旗下公司“深层思维”（deepmind）；法国AI创企“米斯特拉尔人工智能”（Mistral AI）；

央视报道中出现的翻译：人工智能公司“抱抱脸”（huggingface）

2024-09-12 06:53:17

Endpoint，有翻译为「终结点」的，有翻译为「端点」的

2024-09-13 00:09:34

体验了OpenAI最新的大模型o1-preview（🍓），每次回答都会把推理/思考过程列出来，但实际效果并没有超出预期，不知道正式版会不会好一些。目前Plus用户限制每周30条（o1-preview）和50条（o1-mini）。

2024-09-14 01:43:09

多邻国终于不是感冒的绿鸟了😂

2024-09-15 12:47:00

微信开发者工具教育版提供基于混元大模型的AI编程助手，官方教程：https://developers.weixin.qq.com/community/business/course/00082803ba0ad06ce59d416545bc0d

2024-09-16 12:51:55

《中国计算机报》原执行总裁张永捷去世：生前患癌多年 https://m.cnbeta.com.tw/view/1445974.htm

2024-09-18 05:55:07

Microsoft 365（Office 365）Web版现在有3个域名：

office.com

microsoft365.com

m365.cloud.microsoft

2024-09-19 11:55:16

iOS18建议的壁纸挺不错

2024-09-21 15:16:29

玩了一下“Social AI”App，UI很像Threads，当你发布一条post之后，立即会有5条来自AI fans的评论，评论区继续往下滑会再来5条，评论风格各异，可以按照自己的喜好选择fans评论的风格。也算是另一种AI陪伴了😅

2024-09-23 05:28:05

继china.com邮箱之后，老牌电邮服务商tom.com邮箱本月27日清理免费邮箱数据，收费邮箱还会继续运营，最低是15元/月。

2024-09-25 04:11:40

在抖音刷到几个连麦听方言猜家乡的博主，通过听数字1-10、出去玩、外公外婆和一些关键词的方言说法，大部分都能精确到县，越是南方口音或者越是小众有特点的方言越被快速猜到。

2024-09-25 07:14:45

需要AI帮忙总结群聊内容

10月

2024-10-02 02:45:20

https://www.cnbeta.com.tw/articles/tech/1447696.htm

2024-10-02 02:46:48

https://m.cnbeta.com.tw/view/1447731.htm

2024-10-02 02:50:54

https://m.cnbeta.com.tw/view/1447744.htm

2024-10-02 02:51:46

https://m.cnbeta.com.tw/view/1447742.htm

2024-10-02 09:39:04

鸿蒙Next借鉴了许多iOS的优点，比如隐私控制和UI交互，这是智能手机和移动互联网发展15年来的一次规范重构的机会。

2024-10-04 02:14:24

power pages、glean、notebooklm、chatgpt canvas、claude artifacts都倾向于在一个workspace里完成辅助创作任务。

2024-10-04 15:12:22

Realtime API 两个Playground：

https://platform.openai.com/playground/realtime

https://playground.livekit.io

2024-10-09 12:43:49

诺贝尔化学奖应该直接颁给AlphaFold模型

2024-10-11 03:41:32

Cybercab、Robovan

2024-10-12 10:31:16

Flux Lora 模型「 Flux_小红书真实风格丨日常照片丨极致逼真」https://www.liblib.art/modelinfo/d9675e37370e493ab8bf52046827a2b0?from=search&versionUuid=7852ee527ca34d8b940d0749a75e4b67

2024-10-13 12:37:06

筷子夹助推器nb了我在看科幻片

2024-10-15 15:02:21

“即使强如火箭，也要抱抱”

2024-10-18 02:20:05

Ollama+OpenWebUI就是目前最好的本地大模型方案

2024-10-19 15:20:25

微信webview开始在标题栏显示网页域名。

2024-10-20 08:59:51

OneKey Card 服务逐步下线👋

2024 年 9 月 30 日起，将不再接受新的注册和充值。

2024 年 10 月 31 日，所有余额将安全转入您的钱包，并可随时提现。

2025 年 1 月 31 日，OneKey Card 服务将正式停止。

2024-10-21 02:18:39

人人网现在只剩关注页还能加载出数据了。。

2024-10-25 03:07:08

Cursor还能直接用来进行代码目录的语义化搜索，比如直接@codebase询问某模块的代码在哪里

2024-10-25 08:16:27

智谱开源端到端语音模型 https://github.com/THUDM/GLM-4-Voice

2024-10-28 00:36:48

崔永熙nba常规赛首秀替补登场2分钟，得分1分，加油！

2024-10-28 01:22:30

无论路上有没有车，在户外步行或骑行时都不要使用手机，要随时注意周围的情况。

2024-10-28 08:51:31

国行iPhone15 Pro系列、16系列、M芯片iPad Pro系列在iOS 18.2 Beta 使用Apple Intelligence的教程

https://t.me/s/TestFlightCN/28298

2024-10-29 01:58:33

神舟十九号任务有两位90后航天员，其中一位是女性。

2024-10-30 01:00:16

小米星辰无网通功能需在通话APP中使用，使用该功能前需插入SIM卡并登录小米账号;

数据来源于小米实验室，以上数据在内蒙古自治区乌兰察布市察哈尔右翼前旗草原(空旷、无遮挡、无干扰情况下)进行测试。

2024-10-30 11:11:11

鸿蒙AppGallery，迅雷和B站的更新记录里都提到了PC端，看起来全部鸿蒙应用都是Universal的

2024-10-30 11:23:11

https://www.nytimes.com/news-event/2024-election

https://decisiondeskhq.com/results/2024/General/President

https://www.politico.com/2024-election/results

https://edition.cnn.com/us

https://polymarket.com/elections

2024-10-31 12:07:03

在代码生成方面，Claude的口碑已经超过GPT

11月

2024-11-01 01:33:50

来自纽约的The Browser Company宣布停止Arc浏览器的开发。我其实也一直没有切到Arc做主力浏览器，试了几次又回到了Chrome。但真的很喜欢pin的常用webapp

2024-11-05 12:39:15

fox news在直播投票日情况了

2024-11-06 10:48:39

btc新的史高

2024-11-06 15:53:57

上古软件仓： https://skywind.me/wiki/%E4%B8%8A%E5%8F%A4%E8%BD%AF%E4%BB%B6%E4%BB%93

2024-11-07 03:31:00

万斯以前是作家，84年的，今年才40岁。这次川普万斯团队背后有硅谷投资人彼得蒂尔和马斯克的支持。传统上硅谷精英都是民主党的支持者，但也苦民主党久矣，这届川普政府感觉会是共和党内的新力量。

2024-11-08 11:06:48

微信收藏的搜索功能需要一个AI助手

2024-11-09 17:03:51

今年很多大型赛事的主色都用了紫色：钻石联赛、WTT、巴黎奥运会田径、WTA总决赛

2024-11-10 14:14:42

再次吹爆Claude，在软件和代码领域完全碾压ChatGPT

2024-11-11 14:41:03

多邻国的小听力练习做成了莉莉主持的podcast 有意思

2024-11-12 03:15:50

博通宣布 VMware Workstation 和 Fusion 彻底免费，支持商用

2024-11-13 01:36:04

DOGE起飞

2024-11-14 16:21:28

世预赛国足险胜巴林，两连胜小组排名第四

2024-11-17 06:37:47

SmartisanOS 8的字体实在是太好看了（翻出来再吸吸）

2024-11-21 03:22:58

Windsurf新王登基

2024-11-23 03:48:02

HBO Max登陆亚洲市场，有中文字幕了！

2024-11-24 15:08:05

还是在TL刷到了台湾今晚拿到的棒球世界冠军，大陆一点消息都看不到

2024-11-25 00:55:53

珍惜每一次btc回调机会，10万是共识

2024-11-25 07:42:08

Cursor更新到0.43

2024-11-25 08:21:25

多健康平安活一天就是多成功了一天

2024-11-26 08:10:12

Mate70系列出厂搭载鸿蒙4.3，到手不用申请可直接升级5.0，明年发布的手机出厂搭载5.0。

2024-11-27 02:59:30

网易小蜜蜂，像素级对齐小红书……

2024-11-27 05:54:11

真理是不会只属于一个人的，最终它会被每个人发现。

2024-11-29 14:59:59

今天大陆媒体报道马龙到访的是“台湾文化大学”😂 这个反而不敢叫本名“中国文化大学”了🧐

2024-11-30 08:51:01

ChatGPT上线两周年。

12月

2024-12-01 02:14:20

看机器人之梦看得好难过

2024-12-01 15:04:29

https://mp.weixin.qq.com/s/ORX9rk8bTwvZNI0GhxRuKg

2024-12-02 05:37:54

又要开始年度总结了。

2024-12-04 06:44:29

这个收藏单出圈了：https://neodb.social/collection/2lYCXSioZK0RbaS3PG0k0s

2024-12-06 00:43:57

200刀的ChatGPT订阅来了

2024-12-09 10:16:30

中国上一次实施“适度宽松的货币政策”，还是胡温时期。

2024-12-10 04:02:27

https://sora.com/explore/recent

看看这个效果，感觉跟2月份没太大区别，但有了Storyboard，更好控制生成了

2024-12-10 04:07:45

把Google Cloud和Google One订阅都取消了

2024-12-11 07:07:53

邪恶大鼠标这个名字有点可爱是怎么回事

2024-12-12 10:37:09

大部分时候要低能耗蛰伏，潜龙勿用

2024-12-13 02:00:39

不去使用世界最先进的产品，就会固步自封。

2024-12-13 03:51:30

OpenAI关于昨天的事故分析报告：https://status.openai.com/incidents/ctrsv3lwd797

2024-12-13 06:59:15

Google — Year in Search 2024

2024-12-13 07:48:15

https://cn.nytimes.com/books/20241213/best-books-2024

2024-12-17 02:05:00

iPhone屏幕的色温真是每一台都不一样……（都关掉TrueTone的情况下

2024-12-18 13:36:17

iOS18了都还不能应用分屏 emmm这很难评

2024-12-19 00:42:27

把MacBookPro升级到15.2，Surface升级到24H2

2024-12-20 08:18:15

我的 #2024年度产品：

Claude

ChatGPT macOS客户端

Cursor

NotebookLM+Google AI Studio

Ollama+OpenWebUI

fullmoon+pocketpal

macOS15 iPhone镜像

扣子

欧易 Web3钱包

凤凰秀

2024-12-20 16:43:10

2024-12-23 06:29:20

用fullmoon在6GB内存的iPhone上用上了llama3.2-3b

https://fullmoon.app

2024-12-23 07:46:53

Google/Deepmind还是没有掉队，甚至坐二望一：

Gemini 2.0 Flash

https://aistudio.google.com

Imagen 3

https://labs.google/fx/zh/tools/image-fx

Veo 2

https://labs.google/fx/zh/tools/video-fx

2024-12-24 14:02:41

微信-我-设置-个人信息收集清单-图片与视频/位置

这里相当于是“微信年度总结”了

（仅支持绑定中国大陆手机号的微信帐号，WeChat不支持）

2024-12-24 15:10:45

http://share.fengshows.com/video.html?id=0c7081cd-e116-4298-851b-76916e932d6f&channelID=r06

2024-12-24 16:27:45

https://www.bilibili.com/video/BV1ttk9YkEVx

2024-12-24 16:49:24

闪极A1眼镜的排产已经到25年11月了……

2024-12-27 02:22:51

https://movie.douban.com/annual/2024/?fullscreen=1

2024-12-30 03:09:23

有了AI生成代码之后，做的工具形态更多了，从网站/app到browser插件、userscript、bookmarklet……

jax

走在路上

月度归档：2025年02月

ollama常用命令

深度学习中的稠密架构与稀疏架构

【教程】基于DeepSeek-R1的个人AI知识库，全本地部署，可断网使用

DeepSeek-R1论文中文版（R1翻译）

2024年的碎碎念

2025 年 2 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28