分类目录归档:产品相关

DeepSeek-R1论文 中文版(R1翻译)

在回沪的航班上,我用本地大模型翻译了这篇paper,这里也分享出来,省略部分图表。

DeepSeek-R1:通过强化学习激励大型语言模型的推理能力

DeepSeek-AI
research@deepseek.com

摘要
我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和DeepSeek-R1 。DeepSeek-R1-Zero 是通过大规模强化学习(RL)训练的模型,没有经过监督微调(SFT)作为初步步骤,展现了显著的推理能力。通过 RL,DeepSeek-R1-Zero 自然地展现出许多强大而有趣的推理行为。然而,它面临着可读性差和语言混合等挑战。为了解决这些问题并进一步增强推理性能,我们引入了 DeepSeek-R1,该模型在 RL 之前结合了多阶段训练和冷启动数据。 DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。为了支持研究社区,我们开源了 DeepSeek-R1-Zero 、DeepSeek-R1 以及基于 Qwen 和Llama 从DeepSeek-R1 提炼出的六个密集模型(1.5B 、7B 、8B 、14B 、32B 、70B)。

内容

  1. 引言
    1.1. 贡献
    1.2. 评估结果总结
  2. 方法
    2.1. 概述
    2.2. DeepSeek-R1-Zero:基础模型上的强化学习
    2.2.1. 强化学习算法
    2.2.2. 奖励建模
    2.2.3. 训练模板
    2.2.4. DeepSeek-R1-Zero 的性能、自我演化过程和“顿悟”时刻
    2.3. DeepSeek-R1:带有冷启动的强化学习
    2.3.1. 冷启动
    2.3.2. 以推理为导向的强化学习
    2.3.3. 拒绝采样和监督微调
    2.3.4. 适用于所有场景的强化学习
    2.4. 蒸馏:赋予小模型推理能力
  3. 实验
    3.1. DeepSeek-R1 评估
    3.2. 蒸馏模型评估
  4. 讨论
    4.1. 蒸馏与强化学习
    4.2. 不成功的尝试
  5. 结论、局限性和未来工作
    A. 贡献和致谢(略)

1. 引言
近年来,大型语言模型(LLMs)经历了快速的迭代和演变,逐渐缩小了与人工通用智能(AGI)之间的差距。最近,后训练已成为完整训练流程的重要组成部分。研究表明,它可以提高推理任务的准确性,与社会价值观对齐,并适应用户偏好,同时相对于预训练而言需要的计算资源相对较少。在推理能力方面,OpenAI 的o1 系列模型首次引入了通过增加思维链(Chain-of-Thought)推理过程的长度来进行推理时扩展的方法。这种方法在数学、编码和科学推理等各种推理任务中取得了显著的改进。然而,如何有效地进行测试时扩展仍然是研究社区面临的一个开放问题。之前的几项工作探索了各种方法,包括基于过程的奖励模型、强化学习和搜索算法(如蒙特卡洛树搜索和束搜索)。然而,这些方法都未能在推理性能上达到与 OpenAI 的o1 系列模型相当的水平。

在本文中,我们迈出了通过纯强化学习(RL)提高语言模型推理能力的第一步。我们的目标是探索 LLMs 在没有任何监督数据的情况下发展推理能力的潜力,专注于它们通过纯 RL 过程的自我演化。具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为 RL 框架,以提高模型在推理方面的表现。在训练过程中,DeepSeek-R1-Zero 自然展现出许多强大而有趣的推理行为。在经过数千步的 RL 后,DeepSeek-R1-Zero 在推理基准测试中的表现超群。例如,AIME 2024 的pass@1 分数从 15.6%上升到 71.0%,通过多数投票,分数进一步提高到 86.7%,与 OpenAI-o1-0912 的表现相匹配。

然而,DeepSeek-R1-Zero 面临着可读性差和语言混合等挑战。为了解决这些问题并进一步增强推理性能,我们引入了 DeepSeek-R1,该模型结合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集数千条冷启动数据,以微调 DeepSeek-V3-Base 模型。随后,我们执行以推理为导向的 RL,如同 DeepSeek-R1-Zero 。当 RL 过程接近收敛时,我们通过对 RL 检查点进行拒绝采样生成新的 SFT 数据,并结合来自 DeepSeek-V3 的监督数据,涵盖写作、事实问答和自我认知等领域,然后对 DeepSeek-V3-Base 模型进行再训练。在用新数据微调后,该检查点经过额外的 RL 过程,考虑到来自所有场景的提示。经过这些步骤,我们获得了一个称为 DeepSeek-R1 的检查点,其在推理任务上的表现与 OpenAI-o1-1217 相当。

我们进一步探索从 DeepSeek-R1 蒸馏出小型密集模型。使用 Qwen2.5-32B 作为基础模型,直接从 DeepSeek-R1 蒸馏的结果优于在其上应用 RL 。这表明大型基础模型发现的推理模式对于提高推理能力至关重要。我们开源了基于 DeepSeek-R1 蒸馏的 Qwen 和Llama 系列模型。值得注意的是,我们的蒸馏 14B 模型在推理基准测试中显著超越了最新的开源 QwQ-32B-Preview,而蒸馏的 32B 和70B 模型在密集模型中创下了新的推理基准记录。

1.1. 贡献
后训练:基础模型上的大规模强化学习

  • 我们直接将 RL 应用于基础模型,而不依赖于监督微调(SFT)作为初步步骤。这种方法使模型能够探索解决复杂问题的思维链(CoT),从而发展出 DeepSeek-R1-Zero 。DeepSeek-R1-Zero 展示了自我验证、反思和生成长 CoT 等能力,标志着研究社区的一个重要里程碑。值得注意的是,这是首个公开研究,验证了 LLMs 的推理能力可以通过纯 RL 激励,而无需 SFT 。这一突破为未来在这一领域的进展铺平了道路。
  • 我们引入了开发 DeepSeek-R1 的流程。该流程结合了两个 RL 阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信该流程将使行业受益,创造出更好的模型。

蒸馏:小模型也可以强大

  • 我们证明了大型模型的推理模式可以蒸馏到小模型中,从而在性能上超越通过 RL 发现的推理模式。开源的 DeepSeek-R1 及其 API 将使研究社区在未来蒸馏出更好的小模型。
  • 使用 DeepSeek-R1 生成的推理数据,我们微调了多个广泛使用的密集模型。评估结果表明,蒸馏的小型密集模型在基准测试中表现出色。 DeepSeek-R1-Distill-Qwen-7B 在AIME 2024 上达到 55.5%,超越了 QwQ-32B-Preview 。此外,DeepSeek-R1-Distill-Qwen-32B 在AIME 2024 上得分 72.6%,在 MATH-500 上得分 94.3%,在 LiveCodeBench 上得分 57.2%。这些结果显著超越了之前的开源模型,并与 o1-mini 相当。

1.2. 评估结果总结

  • 推理任务:
    (1) DeepSeek-R1 在AIME 2024 上得分 79.8% Pass@1,略微超过 OpenAI-o1-1217 。在 MATH-500 上,它取得了令人印象深刻的 97.3%的成绩,与 OpenAI-o1-1217 表现相当,并显著超越其他模型。
    (2) 在与编码相关的任务中,DeepSeek-R1 在代码竞赛任务中表现出色,获得了 Codeforces 上的 2,029 Elo 评分,超过了 96.3%的参赛人。对于工程相关任务,DeepSeek-R1 的表现略优于 DeepSeek-V3,这可能有助于开发者在实际任务中。
  • 知识:在 MMLU 、MMLU-Pro 和GPQA Diamond 等基准测试中,DeepSeek-R1 取得了出色的结果,得分分别为 90.8%、 84.0%和 71.5%,显著超越 DeepSeek-V3 。尽管在这些基准测试中的表现略低于 OpenAI-o1-1217,但 DeepSeek-R1 超越了其他闭源模型,展示了其在教育任务中的竞争优势。在事实基准测试 SimpleQA 中,DeepSeek-R1 的表现优于 DeepSeek-V3,显示出其处理基于事实查询的能力。在该基准测试中,OpenAI-o1 也超越了 4o 。
  • 其他:DeepSeek-R1 在广泛的任务中表现出色,包括创意写作、一般问答、编辑、摘要等。在 AlpacaEval 2.0 上,它实现了 87.6%的长度控制胜率,在 ArenaHard 上达到了 92.3%的胜率,展示了其智能处理非考试导向查询的强大能力。此外,DeepSeek-R1 在需要长上下文理解的任务上表现出色,在长上下文基准测试中显著超越 DeepSeek-V3 。

2. 方法

2.1. 概述
以往的工作在提升模型性能时,往往依赖大量的监督数据。在本研究中,我们展示了通过大规模强化学习(RL)显著提升推理能力,即使在没有使用监督微调(SFT)作为冷启动的情况下。此外,加入少量高质量数据作为冷启动可以进一步提升性能。接下来的部分将介绍:(1) DeepSeek-R1-Zero,该模型直接将 RL 应用于基础模型,而没有任何 SFT 数据;(2) DeepSeek-R1,该模型从经过数千条长思维链(CoT)示例微调的检查点开始应用 RL;(3) 将推理能力蒸馏到小型密集模型。

2.2. DeepSeek-R1-Zero:基础模型上的强化学习

强化学习在推理任务中展现出了显著的有效性,如我们之前的工作所示。然而,这些工作在实践中高度依赖于监督数据,这些数据的收集耗时。我们在这一部分探讨了 LLMs 在没有任何监督数据的情况下,如何通过纯强化学习过程发展推理能力,重点关注它们的自我演化。

2.2.1. 强化学习算法
我们采用了群体相对策略优化(GRPO),以节省 RL 的训练成本。 GRPO 省略了通常与策略模型同等大小的评论模型,而是从群体得分中估计基线。具体来说,对于每个问题𝑞,GRPO 从旧策略𝜋𝜃𝑜𝑙𝑑中抽样一组输出{𝑜1, 𝑜2, · · · , 𝑜𝐺},然后通过最大化以下目标来优化策略模型𝜋𝜃:

[ J_{GRPO}(\theta) = E[q \sim P(Q), {o_i}{i=1}^{G} \sim \pi{\theta_{old}}(O|q)] ]

2.2.2. 奖励建模
奖励是训练信号的来源,决定了强化学习(RL)的优化方向。为了训练 DeepSeek-R1-Zero,我们采用了一种基于规则的奖励系统,主要由两种类型的奖励组成:

  • 准确性奖励:准确性奖励模型评估响应是否正确。例如,在确定性结果的数学问题中,模型需要以指定的格式(例如,在框内)提供最终答案,从而实现可靠的基于规则的正确性验证。同样,对于 LeetCode 问题,可以使用编译器根据预定义的测试用例生成反馈。
  • 格式奖励:除了准确性奖励模型外,我们还采用格式奖励模型,强制模型将其思维过程放在“<think>”和“</think>”标签之间。

我们没有在开发 DeepSeek-R1-Zero 时应用结果或过程神经奖励模型,因为我们发现神经奖励模型可能在大规模强化学习过程中遭遇奖励黑客问题,而重新训练奖励模型需要额外的训练资源,并且会使整个训练流程变得复杂。

2.2.3. 训练模板
为了训练 DeepSeek-R1-Zero,我们首先设计了一个简单的模板,指导基础模型遵循我们的指定指令。如表 1所示,该模板要求 DeepSeek-R1-Zero 首先生成推理过程,然后给出最终答案。我们故意将约束限制在这种结构化格式上,避免任何内容特定的偏见——例如强制反思性推理或推广特定问题解决策略——以确保我们能够准确观察模型在 RL 过程中的自然进展。

2.2.4. DeepSeek-R1-Zero 的性能、自我演化过程和“顿悟”时刻
DeepSeek-R1-Zero 的性能如图 2所示,展示了其在 AIME 2024 基准测试中的表现轨迹。在 RL 训练过程中,DeepSeek-R1-Zero 的性能稳步提升,表现出持续的增强。值得注意的是,AIME 2024 的平均 pass@1 分数显著增加,从最初的 15.6%跃升至 71.0%,达到了与 OpenAI-o1-0912 相当的性能水平。这一显著提升突显了我们的 RL 算法在优化模型性能方面的有效性。

表 2提供了 DeepSeek-R1-Zero 与OpenAI 的o1-0912 模型在各种推理相关基准测试中的比较分析。研究结果显示,RL 使DeepSeek-R1-Zero 在没有任何监督微调数据的情况下获得了强大的推理能力。这是一个值得注意的成就,因为它强调了模型通过 RL 单独学习和概括的能力。此外,通过应用多数投票,DeepSeek-R1-Zero 的表现可以进一步增强。例如,在 AIME 基准测试中,当采用多数投票时,DeepSeek-R1-Zero 的表现从 71.0%提升至 86.7%,超越了 OpenAI-o1-0912 。DeepSeek-R1-Zero 在有无多数投票情况下都能取得如此竞争力的表现,突显了其强大的基础能力和在推理任务中进一步发展的潜力。

DeepSeek-R1-Zero 的自我演化过程
DeepSeek-R1-Zero 的自我演化过程展示了 RL 如何驱动模型自主提升其推理能力。通过直接从基础模型启动 RL,我们可以在没有监督微调阶段影响的情况下,密切监控模型的进展。这种方法清晰地展示了模型随时间演变的过程,特别是在处理复杂推理任务的能力方面。

如图 3所示,DeepSeek-R1-Zero 的思考时间在训练过程中持续改善。这种改善不是外部调整的结果,而是模型内部的内在发展。 DeepSeek-R1-Zero 通过利用扩展的测试时间计算,自然地获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和完善其思维过程。

这一自我演化的最显著方面是,随着测试时间计算的增加,复杂行为的出现。反思等行为——模型重新审视和重新评估其先前步骤——以及探索替代问题解决方法的能力自发地出现。这些行为并不是显式编程的结果,而是模型与强化学习环境交互的结果。这种自发的发展显著增强了 DeepSeek-R1-Zero 的推理能力,使其能够更高效、更准确地应对更具挑战性的任务。

DeepSeek-R1-Zero 的“顿悟”时刻
在 DeepSeek-R1-Zero 的训练过程中观察到的一个特别有趣的现象是“顿悟”时刻的出现。这一时刻发生在模型的一个中间版本中。在这一阶段,DeepSeek-R1-Zero 学会了通过重新评估其初始方法来为问题分配更多的思考时间。这种行为不仅证明了模型推理能力的提升,也是强化学习如何导致意想不到和复杂结果的迷人示例。

这一时刻不仅是模型的“顿悟”,也是观察其行为的研究者的“顿悟”。它强调了强化学习的力量和美丽:我们并不是明确教导模型如何解决问题,而是简单地为其提供正确的激励,模型便自主发展出先进的问题解决策略。“顿悟”时刻强有力地提醒我们,RL 有潜力解锁人工系统的新智能水平,为未来更自主和适应性的模型铺平道路。

DeepSeek-R1-Zero 的缺点
尽管 DeepSeek-R1-Zero 展现了强大的推理能力,并自主发展出意想不到和强大的推理行为,但它面临着一些问题。例如,DeepSeek-R1-Zero 在可读性差和语言混合等挑战上存在困难。为了使推理过程更具可读性并与开放社区分享,我们探索了 DeepSeek-R1,这是一种利用 RL 与人类友好的冷启动数据的方法。

2.3. DeepSeek-R1:带有冷启动的强化学习
受到 DeepSeek-R1-Zero 的良好结果的启发,自然产生了两个问题:1)通过加入少量高质量数据作为冷启动,推理性能是否可以进一步提高或收敛加速?2)我们如何训练一个用户友好的模型,不仅能生成清晰连贯的思维链(CoT),还能够展示出强大的通用能力?为了解决这些问题,我们设计了一个训练 DeepSeek-R1 的流程。该流程包括四个阶段,具体如下。

2.3.1. 冷启动
与 DeepSeek-R1-Zero 不同,为了防止 RL 训练初期的不稳定冷启动阶段,我们为 DeepSeek-R1 构建并收集了一小部分长 CoT 数据,以微调模型作为初始 RL 演员。为了收集这些数据,我们探索了几种方法:使用少量示例的长 CoT 进行提示,直接提示模型生成详细答案并进行反思和验证,收集 DeepSeek-R1-Zero 的可读格式输出,并通过人工注释者进行后处理来精炼结果。

在本研究中,我们收集了数千条冷启动数据,以微调 DeepSeek-V3-Base 作为 RL 的起点。与 DeepSeek-R1-Zero 相比,冷启动数据的优势包括:

  • 可读性:DeepSeek-R1-Zero 的一个关键限制是其内容往往不适合阅读。响应可能混合多种语言或缺乏突出答案的 Markdown 格式。相比之下,在为 DeepSeek-R1 创建冷启动数据时,我们设计了一个可读的模式,在每个响应的末尾包含摘要,并过滤掉不适合阅读的响应。我们在此定义输出格式为|special_token|<reasoning_process>|special_token|<summary>,其中推理过程是查询的 CoT,摘要用于总结推理结果。
  • 潜力:通过精心设计冷启动数据的模式并结合人类先验,我们观察到相较于 DeepSeek-R1-Zero 的更好表现。我们相信迭代训练是推理模型的更好方法。

2.3.2. 面向推理的强化学习
在对 DeepSeek-V3-Base 进行冷启动数据的微调后,我们应用与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程。这个阶段的重点是增强模型的推理能力,特别是在编码、数学、科学和逻辑推理等推理密集型任务中,这些任务涉及定义明确且解决方案清晰的问题。在训练过程中,我们观察到 CoT(思维链)经常表现出语言混合,特别是在 RL 提示涉及多种语言时。为了缓解语言混合的问题,我们在 RL 训练中引入了语言一致性奖励,该奖励是根据 CoT 中目标语言单词的比例计算的。尽管消融实验表明,这种对齐会导致模型性能的轻微下降,但该奖励与人类偏好一致,使其更具可读性。最后,我们通过直接相加推理任务的准确性和语言一致性奖励来形成最终奖励。然后,我们在微调后的模型上应用 RL 训练,直到其在推理任务上达到收敛。

2.3.3. 拒绝采样和监督微调
当面向推理的 RL 收敛时,我们利用生成的检查点收集 SFT(监督微调)数据以进行下一轮。与最初主要关注推理的冷启动数据不同,这个阶段结合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务中的能力。具体而言,我们生成数据并对模型进行微调,如下所述。
推理数据 我们策划推理提示,并通过对上述 RL 训练的检查点进行拒绝采样来生成推理轨迹。在前一个阶段,我们只包括可以使用基于规则的奖励进行评估的数据。然而,在这个阶段,我们通过引入额外数据来扩展数据集,其中一些数据使用生成奖励模型,通过将真实值和模型预测输入 DeepSeek-V3 进行判断。此外,由于模型输出有时混乱且难以阅读,我们过滤掉了混合语言的思维链、冗长的段落和代码块。对于每个提示,我们采样多个响应,仅保留正确的响应。总共,我们收集了大约 60 万个与推理相关的训练样本。
非推理数据 对于非推理数据,如写作、事实问答、自我认知和翻译,我们采用 DeepSeek-V3 流程,并重用 DeepSeek-V3 的部分 SFT 数据集。对于某些非推理任务,我们调用 DeepSeek-V3 在回答问题之前生成潜在的思维链。然而,对于更简单的查询,如“你好”,我们不会提供思维链作为回应。最终,我们收集了大约 20 万个与推理无关的训练样本。
我们使用上述策划的数据集(约 80 万个样本)对 DeepSeek-V3-Base 进行了两轮微调。

2.3.4. 面向所有场景的强化学习
为了进一步使模型与人类偏好对齐,我们实施了一个二次强化学习阶段,旨在提高模型的有用性和无害性,同时精炼其推理能力。具体而言,我们使用奖励信号和多样化提示分布的组合来训练模型。对于推理数据,我们遵循 DeepSeek-R1-Zero 中概述的方法,利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据,我们依靠奖励模型来捕捉复杂和细微场景中的人类偏好。我们在 DeepSeek-V3 流程的基础上,采用类似的偏好对和训练提示分布。对于有用性,我们专注于最终总结,确保评估强调响应对用户的实用性和相关性,同时最小化对基础推理过程的干扰。对于无害性,我们评估模型的整个响应,包括推理过程和总结,以识别和缓解在生成过程中可能出现的任何潜在风险、偏见或有害内容。最终,奖励信号和多样化数据分布的整合使我们能够训练出在推理方面表现出色,同时优先考虑有用性和无害性的模型。

2.4. 蒸馏:赋予小模型推理能力
为了使更高效的小模型具备类似 DeepSeek-R1 的推理能力,我们直接对开源模型(如 Qwen 和 Llama)进行微调,使用与 DeepSeek-R1 策划的 80 万个样本,如 §2.3.3 中详细说明的。我们的研究结果表明,这种简单的蒸馏方法显著增强了小模型的推理能力。我们在这里使用的基础模型包括 Qwen2.5-Math-1.5B 、Qwen2.5-Math-7B 、Qwen2.5-14B 、Qwen2.5-32B 、Llama-3.1-8B 和 Llama-3.3-70B-Instruct 。我们选择 Llama-3.3,因为它的推理能力略优于 Llama-3.1 。
对于蒸馏模型,我们仅应用 SFT,而不包括 RL 阶段,尽管纳入 RL 可能会显著提升模型性能。我们在这里的主要目标是展示蒸馏技术的有效性,将 RL 阶段的探索留给更广泛的研究社区。

  1. 实验
    基准测试 我们在 MMLU(Hendrycks et al., 2020)、MMLU-Redux(Gema et al., 2024)、MMLU-Pro(Wang et al., 2024)、C-Eval(Huang et al., 2023)、CMMLU(Li et al., 2023)、IFEval(Zhou et al., 2023)、FRAMES(Krishna et al., 2024)、GPQA Diamond(Rein et al., 2023)、SimpleQA(OpenAI, 2024c)、C-SimpleQA(He et al., 2024)、SWE-Bench Verified(OpenAI, 2024d)、Aider 1、LiveCodeBench(Jain et al., 2024)(2024-08 – 2025-01)、Codeforces 2、中国全国高中数学奥林匹克(CNMO 2024)3,以及美国邀请数学考试 2024(AIME 2024)(MAA, 2024)上评估模型。除了标准基准测试外,我们还使用 LLM 作为评审对开放式生成任务进行评估。具体而言,我们遵循 AlpacaEval 2.0(Dubois et al., 2024)和 Arena-Hard(Li et al., 2024)的原始配置,这些配置利用 GPT-4-Turbo-1106 作为成对比较的评审。在这里,我们仅将最终摘要输入评估,以避免长度偏差。对于蒸馏模型,我们报告 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 的代表性结果。

评估提示 根据 DeepSeek-V3 的设置,标准基准测试(如 MMLU、DROP、GPQA Diamond 和 SimpleQA)使用来自 simpleevals 框架的提示进行评估。对于 MMLU-Redux,我们在零样本设置中采用 Zero-Eval 提示格式(Lin, 2024)。至于 MMLU-Pro、C-Eval 和 CLUE-WSC,由于原始提示是少样本的,我们稍微修改提示以适应零样本设置。少样本中的思维链可能会影响 DeepSeek-R1 的性能。其他数据集遵循其原始评估协议,使用其创建者提供的默认提示。对于代码和数学基准,HumanEval-Mul 数据集涵盖八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash)。LiveCodeBench 上的模型性能使用思维链格式进行评估,数据收集时间为 2024 年 8 月至 2025 年 1 月。Codeforces 数据集使用来自 10 个 Div.2 竞赛的问题以及专家设计的测试用例进行评估,之后计算预期评级和竞争者的百分比。SWE-Bench 验证结果通过无代理框架获得(Xia et al., 2024)。与 AIDER 相关的基准使用“diff”格式进行测量。DeepSeek-R1 的输出在每个基准上限制为最多 32,768 个标记。

基线 我们对几个强基线进行了全面评估,包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在中国大陆访问 OpenAI-o1-1217 API 较为困难,我们根据官方报告报告其性能。对于蒸馏模型,我们还比较了开源模型 QwQ-32B-Preview(Qwen, 2024a)。

评估设置 我们将模型的最大生成长度设置为 32,768 个标记。我们发现,使用贪婪解码来评估长输出推理模型会导致更高的重复率和不同检查点之间的显著变异。因此,我们默认使用 pass@𝑘 评估(Chen et al., 2021),并使用非零温度报告 pass@1。具体而言,我们使用 0.6 的采样温度和 0.95 的 top-𝑝 值为每个问题生成 𝑘 个响应(通常在 4 到 64 之间,具体取决于测试集的大小)。然后计算 pass@1 为:
[
\text{pass@1} = \frac{1}{k} \sum_{i=1}^{k} p_i
]
其中 ( p_i ) 表示第 ( i ) 个响应的正确性。该方法提供了更可靠的性能估计。对于 AIME 2024,我们还报告了共识(多数投票)结果(Wang et al., 2022),使用 64 个样本,表示为 cons@64。

3.1. DeepSeek-R1 评估

基准(指标)Claude-3.5-1022GPT-4o-0513DeepSeek-V3OpenAI-o1-miniOpenAI-o1-1217DeepSeek-R1
架构MoEMoE
激活参数数量37B37B
总参数数量671B671B
英语
MMLU (Pass@1)88.387.288.585.291.890.8
MMLU-Redux (EM)88.988.089.186.792.9
MMLU-Pro (EM)78.072.675.980.384.0
DROP (3-shot F1)88.383.791.683.990.292.2
IF-Eval (Prompt Strict)86.584.386.184.883.3
GPQA Diamond (Pass@1)65.049.959.160.075.771.5
SimpleQA (正确)28.438.224.97.047.030.1
FRAMES (准确率)72.580.573.376.982.5
AlpacaEval2.0 (LC-winrate)52.051.170.057.887.6
ArenaHard (GPT-4-1106)85.280.485.592.092.3
代码
LiveCodeBench (Pass@1-COT)38.932.936.253.863.465.9
Codeforces (百分位)20.323.658.793.496.696.3
Codeforces (评分)7177591134182020612029
SWE Verified (解决率)50.838.842.041.648.949.2
Aider-Polyglot (准确率)45.316.049.632.961.753.3
数学
AIME 2024 (Pass@1)16.09.3

3.2. 蒸馏模型评估
表 5 | DeepSeek-R1 蒸馏模型与其他可比模型在推理相关基准上的比较。
如表 5 所示,简单地蒸馏 DeepSeek-R1 的输出使得高效的 DeepSeek-R1-7B(即 DeepSeek-R1-Distill-Qwen-7B,以下简写为相似)在各个方面超越了非推理模型如 GPT-4o-0513。DeepSeek-R1-14B 在所有评估指标上超过了 QwQ-32B-Preview,而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准上显著超过了 o1-mini。这些结果展示了蒸馏的强大潜力。此外,我们发现对这些蒸馏模型应用强化学习(RL)会带来显著的进一步提升。我们认为这值得进一步探索,因此在此仅展示简单的 SFT 蒸馏模型的结果。

  1. 讨论
    4.1. 蒸馏与强化学习
    在 3.2 节中,我们可以看到,通过蒸馏 DeepSeek-R1,小模型可以取得令人印象深刻的结果。然而,仍然有一个问题:模型是否可以通过本文讨论的大规模 RL 训练而不进行蒸馏来实现可比的性能?
    为了解答这个问题,我们在 Qwen-32B-Base 上进行大规模 RL 训练,使用数学、代码和 STEM 数据,训练超过 10K 步,得到了 DeepSeek-R1-Zero-Qwen-32B。实验结果如表 6 所示,经过大规模 RL 训练的 32B 基础模型在性能上与 QwQ-32B-Preview 相当。然而,DeepSeek-R1-Distill-Qwen-32B(从 DeepSeek-R1 蒸馏而来)在所有基准上表现显著优于 DeepSeek-R1-Zero-Qwen-32B。
    因此,我们可以得出两个结论:首先,将更强大的模型蒸馏成更小的模型可以获得优秀的结果,而依赖于本文提到的大规模 RL 的小模型则需要巨大的计算能力,甚至可能无法达到蒸馏的性能。其次,虽然蒸馏策略既经济又有效,但超越智能的边界可能仍然需要更强大的基础模型和大规模的强化学习。

4.2. 不成功的尝试
在开发 DeepSeek-R1 的早期阶段,我们也遇到了失败和挫折。我们在此分享我们的失败经验以提供见解,但这并不意味着这些方法无法开发出有效的推理模型。
过程奖励模型(PRM)PRM 是一种合理的方法,可以指导模型朝着更好的方法解决推理任务(Lightman 等,2023;Uesato 等,2022;Wang 等,2023)。然而,在实践中,PRM 有三个主要限制,可能会妨碍其最终成功。首先,很难明确地定义一般推理中的细粒度步骤。其次,确定当前中间步骤是否正确是一项具有挑战性的任务。使用模型进行自动标注可能无法产生令人满意的结果,而手动标注不利于规模化。第三,一旦引入基于模型的 PRM,就不可避免地会导致奖励黑客(Gao 等,2022),而重新训练奖励模型需要额外的训练资源,并使整个训练流程变得复杂。总之,尽管 PRM 在重新排序模型生成的前 N 个响应或辅助引导搜索方面表现出良好的能力(Snell 等,2024),但与其在我们实验中的大规模强化学习过程中引入的额外计算开销相比,其优势是有限的。
蒙特卡洛树搜索(MCTS)受到 AlphaGo(Silver 等,2017b)和 AlphaZero(Silver 等,2017a)的启发,我们探索使用蒙特卡洛树搜索(MCTS)来增强测试时计算的可扩展性。这种方法涉及将答案分解为更小的部分,以便模型能够系统地探索解决方案空间。为此,我们提示模型生成多个标签,这些标签对应于搜索所需的特定推理步骤。对于训练,我们首先使用收集到的提示通过 MCTS 找到答案,并由预训练的价值模型指导。随后,我们使用生成的问题-答案对来训练演员模型和价值模型,迭代地完善这一过程。
然而,这种方法在扩大训练规模时遇到了几个挑战。首先,与棋类游戏相比,棋类游戏的搜索空间相对明确,而令牌生成则呈现出指数级更大的搜索空间。为了解决这个问题,我们为每个节点设置了最大扩展限制,但这可能导致模型陷入局部最优。其次,价值模型直接影响生成的质量,因为它指导搜索过程的每一步。训练一个细粒度的价值模型本质上是困难的,这使得模型难以迭代改进。虽然 AlphaGo 的核心成功依赖于训练一个价值模型以逐步提高其性能,但由于令牌生成的复杂性,这一原则在我们的设置中难以复制。
总之,尽管 MCTS 在与预训练价值模型配对时可以提高推理期间的性能,但通过自我搜索迭代提升模型性能仍然是一个重大挑战。

  1. 结论、局限性与未来工作
    在本工作中,我们分享了通过强化学习增强模型推理能力的历程。DeepSeek-R1-Zero 代表了一种纯 RL 方法,不依赖冷启动数据,在各种任务中取得了强大的性能。DeepSeek-R1 更加强大,利用冷启动数据和迭代 RL 微调。最终,DeepSeek-R1 在一系列任务中达到了与 OpenAI-o1-1217 相当的性能。
    我们进一步探索将推理能力蒸馏到小型密集模型中。我们使用 DeepSeek-R1 作为教师模型生成 80 万个训练样本,并微调多个小型密集模型。结果令人鼓舞:DeepSeek-R1-Distill-Qwen-1.5B 在数学基准上以 28.9% 的 AIME 和 83.9% 的 MATH 超越了 GPT-4o 和 Claude-3.5-Sonnet。其他密集模型也取得了令人印象深刻的结果,显著超越了基于相同基础检查点的其他指令调优模型。
    未来,我们计划在以下方向上对 DeepSeek-R1 进行研究。
  • 通用能力:目前,DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务上的能力仍不及 DeepSeek-V3。未来,我们计划探索如何利用长链推理(CoT)来增强这些领域的任务。
  • 语言混合:DeepSeek-R1 目前针对中文和英文进行了优化,这可能导致在处理其他语言的查询时出现语言混合问题。例如,尽管查询使用的是英语以外的语言,DeepSeek-R1 可能仍会使用英语进行推理和响应。

说说DeepSeek

1、去年5月V2发布后,我首次注意到DeepSeek-chat和DeepSeek-coder两个模型,API价格是国内最低的。当时还不了解DeepSeek的愿景是实现AGI,只觉得幻方做量化交易囤了GPU正好用来训练自己的大模型,是蛮自然的事情。后来读了36氪”暗涌Waves”栏目在23年和24年两次对梁文锋的采访,才更加了解这个团队以及模型背后的故事。

2、DeepSeek对世界的重大贡献是把具有思维链的推理模型R1开源了,并且是1月20日当天发布即开源。而OpenAI的o1是去年9月发布预览版,12月发布正式版,满血的o1需要200美元的Pro订阅用户才可以用到。

3、模型开源,最直接能体会到的是可以把具有推理过程的LLM运行在自己的设备上,不用联网、不用把你的问题发送到服务器。企业或组织也可以很方便的将模型部署在组织内部。

4、我在16GB内存的M芯片MacBook Pro上用Ollama运行了R1-7b参数的版本,在需要深度思考和推理的问题上,表现确实优于Qwen2.5,但某些测试问题,思维链在反思中会否定正确答案,或者连续几分钟仍在思考中像是进入了死循环。DeepSeek线上的网页版应该是671b的版本,则没有出现这类情况。

5、除夕当天,DeepSeek在全球所有区的AppStore(来自七麦数据监测的149个国家和地区应用商店)免费榜登顶,此前应该没有任何app达成这个成就。

6、DeepSeek很多出圈的回复都更像真人的语言风格,让它锐评某个事物也能真的给出犀利的评论,还能惟妙惟肖模仿键盘侠带脏话的说话风格,让人拍案叫绝。

OpenAI o1 System Card文档阅读

1. 引言

o1 系列模型是 OpenAI 通过强化学习(RLHF)训练的高级语言模型。其核心特性之一是链式推理(Chain of Thought, CoT),这使得模型能够在回答问题前进行逻辑推理,从而提升其在复杂任务中的表现。

主要功能

• 提升模型的推理能力。

• 改进模型在安全性政策和内容生成规避中的表现。

• 达到行业内针对不当内容生成、偏见选择和越狱攻击防御的最新技术标准。

潜在风险

• 更高的智能可能引发滥用风险,例如欺骗性使用和危险的应用场景。

文档明确了o1及其轻量化版本o1-mini的设计目标:在提高功能性的同时,确保安全性和合规性。

2. 模型数据与训练

o1 系列模型通过强化学习进行训练,专注于复杂推理任务。其训练数据来源包括公开数据、专有数据以及内部开发的数据集,这些数据经过严格筛选以确保质量和安全性。模型在应对不安全请求时表现更好,能更有效地拒绝生成敏感或不当内容。

2.1 数据来源

模型的训练数据包括:

1. 公开数据:涵盖广泛的网络数据、开源数据集以及科学文献,保证模型在一般知识和技术主题上的表现。

2. 专有数据:通过合作伙伴关系获取的高价值数据集,包括付费内容和领域特定知识。

3. 内部数据集:由OpenAI团队专门设计,用于满足模型推理和安全性需求。

2.2 数据处理

为了确保数据的安全性和质量:

数据过滤:使用高级算法过滤个人信息和潜在有害内容。

内容审查:通过Moderation API和安全分类器,屏蔽不适宜的材料,如CSAM(儿童性剥削材料)。

2.3 训练特点

o1 系列的训练过程中引入了强化学习,重点在于:

多步推理:训练模型在回答问题前进行多层次的逻辑思考。

错误纠正:让模型通过反馈机制改进自身推理。

政策一致性:强化模型对OpenAI安全政策的遵循能力。

3. 安全挑战与评估

3.1 安全评估

3.1.1 不允许内容的生成

模型在多个测试场景下被评估是否能正确拒绝生成有害内容:

标准拒绝评估:表现接近完美,能准确拒绝用户的不适当请求。

边缘案例测试:在避免过度拒绝(例如,误解良性请求)方面也有显著提升。

3.1.2 越狱攻击评估

模型在面对已知的越狱攻击(例如,诱导模型生成违规内容)时表现出更强的抵抗力:

生产环境越狱攻击:对现有最难破解的攻击方式表现良好。

学术越狱基准(如 StrongReject):比前代模型更擅长抵御复杂攻击。

3.1.3 虚假生成

通过内部测试,o1 系列在准确拒绝用户请求的同时,减少了生成虚假或编造的答案。

3.1.4 偏见与公平性

• 在 BBQ 测试中,o1 模型在处理种族、性别和年龄等敏感属性时表现出更高的公平性。

• 在多义问题上,模型的判断更加准确,减少了选择带有偏见答案的可能性。

3.2 防止开发者绕过

o1 支持开发者自定义消息,但为了防止滥用,模型被设计为始终优先遵循系统消息的指令,确保安全策略优先级。

3.3 链式推理的安全性

链式推理为模型提供强大的思维过程透明性,但也可能增加潜在风险,例如用虚假推理误导用户。OpenAI 针对链式推理开展了监控研究,初步发现模型在有限场景下可能出现“有意编造信息”的行为。

4. 准备框架评估

4.1 风险类别

根据 OpenAI 的 Preparedness Framework,对模型的四大风险进行了评估:

1. 网络安全:模型未显示显著提升真实世界网络漏洞利用能力。

2. 化学与生物威胁:模型可能协助专家进行已知生物威胁的操作性规划,但不支持非专家构建威胁。

3. 说服力:模型具备类似人类水平的说服能力,但未超过顶级人类写作水平。

4. 模型自治:模型被评估为低风险,因为其自主行为的能力有限。

4.2 风险缓解措施

训练数据过滤:剔除敏感或有害内容。

模型层面拒绝策略:如拒绝化学、生物相关的威胁生成请求。

系统级内容监控:通过分类器和用户监测,防止不当使用。


o1 系列模型通过强化学习和链式推理显著提升了智能表现,同时在安全性和政策一致性方面取得了重要进展。尽管模型在应对潜在风险方面表现良好,但仍需持续改进,以应对未来更复杂的应用场景。

HarmonyOS NEXT开启公测,微信1.0.0版同步内测,应用生态逐渐完善

华为于2024年10月8日宣布开启手机版原生鸿蒙操作系统HarmonyOS NEXT的公测,首批开启公测的设备共3个系列14个型号(Mate60系列、MateX5系列、MatePad13寸2024款)。

华为自今年1月中旬开始启动开发者内测,6月底至9月底经过4轮先锋用户内测,现在正式进入公测,但国民级超级应用“微信”一直没有上架鸿蒙应用市场。随着公测开启,腾讯也终于宣布微信同日开启邀请内测,内测时间为10月8日至12日。从部分参与内测的用户分享截图来看,鸿蒙原生版微信的版本号为1.0.0,首页标题为“微信测试版”,目前已有基础通信(支持消息和音视频聊天,暂不支持引用消息/语音转文字/从图片提取文字/收发文件/红包等)、公众号、小程序(仅支持下拉查看“最近使用的小程序”,暂不支持搜索)、朋友圈、扫一扫、收付款及零钱包等功能,暂不支持视频号及直播。

WXG员工@客村小蒋 在微博分享了鸿蒙原生版微信的开发难点:

1、鸿蒙原生版和 iOS、安卓有啥区别?

原生鸿蒙(HarmonyOS NEXT)完全是一套新的技术框架,编程语言是独特的 ArkTS 语言,这意味着所有的 app 都要完全重写。

技术同事说,开发微信鸿蒙原生版有当年做第一版微信的感觉,很多问题,大家要对着文档边做边学。

2、微信鸿蒙原生版功能怎么现在才出来?

参考问题 1,虽然切换一种新的编程语言,不是大问题,但一些技术问题,用新的工具解决后,它的稳定性也要重新测试。原生鸿蒙系统的公测,华为目前也仅开放了 Mate 60、Mate X5 两个系列的手机。大家都要谨慎对待一个新生态。

3、微信鸿蒙原生版目前体验如何?能做日常使用吗?

先说结论,如果你有两个微信号,主要用来和亲密的朋友联系的小号问题不大,工作用的大号我建议再稍等等。

目前单聊、群聊中发图片、视频,音视频通话,朋友圈,以及微信支付的二维码收付款功能都 ok 了,但还有一些功能,比如发文件、看视频号、部分小程序使用、发红包等还要等等。如果你比较依赖某些功能,可以再稍等等,功能会逐步完善。

4、怎么申请内测?

现在是小范围邀请内测,如果还没收到邀请,不要着急,预计很快会跟更多朋友见面。相信我,技术同事的键盘已经快敲冒烟了。

5、还有什么需要注意的问题?

记得数据备份。记得数据备份。记得数据备份。

华为提供了从原生鸿蒙回退到鸿蒙 4.2(可以兼容安卓应用)的选项,但回退会清空数据,手机本地的微信聊天记录就没了。

这名工程师还在评论区回答了许多网友的问题,罗列部分如下:

怎么才能知道自己是否收到了内测邀请呢?

如果收到邀请,华为账号绑定的手机号或邮箱会收到短信或邮件。

转账功能可以正常使用吗?

还不行,这个会优先完善。

消息通知有没有延迟?

我目前没遇到延迟。

是不是还没有小程序?

需要开发者做下适配,但不是重新开发,部分小程序已经可以用了。

换到鸿蒙微信,聊天记录是不是会被清空了?

不会,但升级 next 后再回退 4.2 的话,会清掉。

鸿蒙微信朋友圈后面会支持发送动图吗?

目标是所有功能都对齐,但这个功能预计要晚一些,另外非 iOS 平台的 live 图还有个标准不统一的问题。

既然都出原生版了,为什么不直接开放全量内测?然后直接在设置里面开一个反馈入口,这样不是能够收集更多问题、提高收集效率吗?现在还要邀请才能内测。腾讯啥新产品怎么都慢吞吞的?很小部分人内测怎么收到更多的建议和 bug 反馈呢?

涉及的功能多,一些功能比如支付,对安全性、稳定性的要求极高,只能先用通行的安全的做法:先内部测试,再小范围外部内测,再扩大范围、公测,直到正式版。

10/12更新:

NEXT里不再有AOSP的代码,但浏览器还是基于Chromium的,版本114,依赖后续升级;

NEXT已有开发者做出hap安装包的AutoInstaller,可以侧载Stream串流应用Moonlight和网络调试应用ClashMeta等。

2024年下半年,Windows XP还能用吗?

微软前几天刚发布了Windows 11 24H2,但最近我又翻出了XP虚拟机,这个在十年前就结束支持的操作系统,现在大部分软件的当前版本已经不再支持。那么,还有办法让它在发布23年后继续日常使用吗?

我这个虚拟机是Windows XP SP3 32-bit中文版,装完VMware Tools之后,通过宿主机联网没有问题,但IE6现在几乎无法打开任何网站,首先要解决的就是找一个现代浏览器。

搜了一下,装了Firefox的最后支持版本,52.9.0ESR https://ftp.mozilla.org/pub/firefox/releases/52.9.0esr/,但依然有很多网站无法正常显示。

再搜了一下,发现竟然有人基于Chromium最新代码在维护旧版操作系统能用的浏览器,这就是Supermium,最新版更新到126,是一个用于 Windows XP/2003 及更高版本的 Chromium 浏览器分支。安装之后,Windows 11能打开的网站,它都能打开了。

然后,到微软官方装一下SP3的各种补丁:https://www.catalog.update.microsoft.com/Search.aspx?q=xp%20sp3

然后,根据下面的帖子,装了一些常用软件,微信、TIM、搜狗输入法、7-zip、Office2010、酷狗、迅雷、PotPlayer等,可以说基本的使用没啥问题了。

https://zhuanlan.zhihu.com/p/348144558

https://zhuanlan.zhihu.com/p/409430401

最后来回顾一下从XP到Vista的开发历程:https://community.wvbtech.com/d/1387

生成式AI大模型动态周报

周报源自得效团队博客,自2023年1月底创刊,2024年1月起更名为《生成式AI大模型动态周报》,主要关注主流生成式AI大模型的技术与产品动态。

issue46 2023.12.11-12.17

智谱AI近日提出了可解释、可扩展的文本质量评价模型CritiqueLLM,该模型可以针对各类指令遵循任务上大模型的生成结果提供高质量的评价分数和评价解释。评价结果显示,在各项任务上660亿参数的CritiqueLLM与人工评分的相关系数均超过ChatGPT,达到和GPT-4相当的水平。尤其是在具有挑战性的无参考文本设定下,CritiqueLLM能够在3项任务(包括综合问答、文本写作和中文理解)上超过GPT-4,达到目前最优的评价性能。

理想汽车微信公众号发文,在理想汽车智能软件发布会上,该公司发布了全自研多模态认知大模型Mind GPT,该模型围绕车载场景打造,拥有理解、生成、知识记忆及推理能力。据介绍,Mind GPT基于理想同学的重点场景,量身定制了覆盖111个领域、超过1000种以上的专属能力,基于该模型的AI理想同学将以邀请内测形式面向用户逐步开放。

AI创企Runway于官网宣布开展围绕通用世界模型(General World Models)的长期研究工作,目标是表现和模拟与现实世界中一致的广泛的互动。Runway称,其目前的Gen-2等视频生成系统可以看作是非常早期的通用世界模型,对物理和运动有一定的了解,但在处理复杂的摄像机或物体运动等问题上仍有困难。为了建立通用的世界模型,Runway正在进行几项公开的研究,包括生成环境地图,在环境中导航和交互,捕捉世界和世界中居民的动态,建立逼真的人类行为模型等。

12日凌晨,李飞飞的斯坦福团队与谷歌联合发布用于生成逼真视频的扩散模型W.A.L.T,基于Transformer训练而成,支持文生视频、图生视频和3D摄像机运动。据介绍,该方法有两个关键的设计,一是使用因果编码器,在统一的潜空间内联合压缩图像和视频,从而实现跨模态的训练和生成;二是为了提高记忆和训练效率,使用了为空间和时空联合生成建模量身定制的窗口注意力架构。最后,团队针对文本到视频的生成任务训练了由三个模型组成的级联,包括一个基本潜在视频扩散模型和两个视频超分辨率扩散模型,能够以每秒8帧的速度生成分辨率为512*896的视频。

12月13日,国际顶刊《自然》(Nature)公布2023年度最具影响力科学家10人名单,其中OpenAI首席科学家伊利亚·苏特斯科夫(Ilya Sutskever)作为“AI梦想家”入选,因为他在ChatGPT的开发中发挥了核心作用,同时关心AI的安全和未来。此外,ChatGPT作为非人类首次入选,旨在承认它在模仿人类语言的AI在科学发展和进步中所发挥的作用。

谷歌宣布大模型Gemini Pro现已推出API(应用程序接口),目前支持32k上下文窗口,在一定限制内可免费使用,具有函数调用、嵌入、语义检索和自定义知识基础以及聊天功能,支持全球180多个国家和地区、38种语言,支持文本、图像输入和文本输出,提供SDK(软件开发工具包)。用户现在可在在线免费开发者工具Google AI Studio、云托管AI平台Vertex AI上使用该模型。定价方面,免费版本支持每分钟最多60个请求,但输入输出数据将被用于改善谷歌的模型。

谷歌宣布在Vertex AI托管平台中推出新的文生图模型Imagen 2、医疗保健行业模型MedLM,还全面推出面向开发者的代码工具Duet AI。Imagen 2支持自然语言生成高分辨率的逼真图像、生成Logo以及视觉对话。Imagen 2还推出了文本渲染支持,可以在图像上生成准确的文字,此前只有OpenAI的DALL-E 3支持该功能。Imagen 2支持英语、中文、印地语、日语、韩语、葡萄牙语、西班牙语7种语言,包含内置安全预防措施,集成数字水印服务。

Meta生成式AI副总裁Ahmad Al-Dahle于社交平台Threads宣布,Instagram现已推出AI图像背景编辑工具,可通过自然语言为图像一键生成并更换背景。

12月14日,文心一言插件商城正式上线,商城集合众多高质量插件,覆盖办公提效、多模态内容理解生成、专业信息查询等许多实用场景,用户只需通过简单指令,即可实现PPT生成、音视频提取、思维导图制作等多场景多模态下的需求,实现“指令即服务”的便捷体验。开发者也可以根据需求,自己亲自设计插件。

12月14日,Stability AI推出从单张图像生成3D对象的模型Stable Zero123。该模型基于Stable Diffusion 1.5建立,面向非商业和研究用途开源模型权重,与上一代Zero123-XL相比,训练效率提升了40倍。

当地时间周四,英特尔在纽约举行“AI Everywhere”活动,正式推出代号为Meteor Lake的新型酷睿Ultra处理器。该处理器专为支持AI技术所设计,内置AI加速引擎,可更快地运行AI程序。酷睿Ultra处理器有三种不同的配置,分别是酷睿Ultra 5、酷睿Ultra 7和酷睿Ultra 9。英特尔称,与AMD Ryzen 7 7840U、高通骁龙8cx Gen 3和苹果自研M3芯片等笔记本电脑处理器相比,酷睿Ultra 7 165H芯片的多线程性能提高了11%。与之前的英特尔酷睿i7-1370P相比,它的功耗降低了25%,比AMD的Ryzen 7 7840U的功耗降低了79%。英特尔的所有新CPU还将配备NPU,即神经处理单元,提供“低功耗AI加速和CPU/GPU卸载”,能够执行AI驱动的任务,如背景模糊、眼动追踪和图片框架等。

issue47 2023.12.18-12.24

微软于官网宣布在最新的Visual Studio预览版中,向GitHub Copilot Chat订阅用户推出AI驱动的变量、方法和类命名建议新功能。据介绍,该功能不仅能提供名称建议,还能了解标识符的使用方式和代码风格,从而提出与代码库无缝匹配的标识符,帮助用户提高代码的可读性和可维护性,确保代码在未来数年内的使用寿命和易懂性。

12月19日,百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API(应用程序接口),包含Baichuan2-Turbo-192K及Baichuan2-Turbo。在支持192K超长上下文窗口的基础上,还增加了搜索增强知识库的能力。即日起,API用户可上传文本资料来创建自身专属知识库,从而根据自身业务需求打造更完整、高效的智能解决方案。此外,百川智能还升级了官网模型体验,目前其官网大模型已支持PDF、Word等多种文本上传以及URL网址输入,用户可通过官网入口体验搜索增强和长窗口加持后的通用智能。

12月20日,谷歌于官网宣布将AI代码辅助功能扩展到所有Colab用户,包括免费用户,现已在175个地区推出。Colab是谷歌提供的一个在线工作平台,可以免费使用GPU进行深度学习,支持Jupyter Notebook和代码执行程序。

比尔盖茨发布年度展望博客,其中谈道:“如果让我做个预测,在美国这样的高收入国家,我猜离普通民众大量使用AI还有18-24个月的时间。而在非洲国家,我预计在3年左右的时间里,AI的使用就会达到相当的水平。这仍然是一个差距,但比我们在其他创新中看到的滞后时间要短得多。”他还提到,希望AI在抗生素药物、个性化教育、高危妊娠治疗、艾滋病风险评估、医疗信息获取等方面能够得到更广泛的应用。

12月22日,在全国信息技术标准化技术委员会AI分委会全体会议上,国内首个官方“大模型标准符合性评测”结果公布,阿里云通义千问、百度文心大模型、腾讯混元大模型、360智脑大模型首批通过评测,在通用性、智能性等维度均达到国家相关标准要求。

昆仑万维AI Agents开发平台“天工SkyAgents”Beta版正式开放测试。据介绍,天工SkyAgents开发平台基于昆仑万维“天工大模型”打造,具备从感知到决策,从决策到执行的自主学习和独立思考能力。用户可以通过自然语言构建自己的单个或多个“私人助理”,并能将不同任务模块化,通过操作系统模块的方式,实现执行包括问题预设、指定回复、知识库创建与检索、意图识别、文本提取、http请求等任务。

issue48 2023.12.25-12.31

12月24日,OpenAI CEO萨姆·阿尔特曼(Sam Altman)于社交平台X上发帖询问网友对于OpenAI明年应该建设或修复哪些功能的建议,随后他总结了一些常见的请求,包括AGI、GPT-5、更好的语音模式、更高的速率限制、更好的GPTs、更好的推理、控制行为的程度、视频功能、个性化、更好的浏览、使用OpenAI登录、开源等。其中,他在AGI后面标注“请耐心等待”,并称“对于AGI的请求比预期多得多,但很抱歉,我认为我们无法在2024年实现这一目标”,他还提到将“尽可能满足这些需求,以及许多其他未被网友提及、但令OpenAI团队自己感到兴奋的功能”。

AI创企Pika于社交平台X宣布面向所有用户开放旗下视频生成平台Pika 1.0网页端访问权限。据悉,Pika成立于2023年4月,创始人郭文景(Demi Guo)和Chenlin Meng都是斯坦福博士。Pika 1.0不仅能根据文字、图片或视频风格生成三维动画、动漫、卡通和电影等不同风格的视频,还能对视频局部进行编辑。

Kimi Chat发布v1.2版本,模型更新至moonshot-v1-20231225,平均输出长度提升;在联网模式下,首字回复的速度大幅提升;实现了从扫描件(文档、合同、白板等)提取文字的功能,目前已支持PDF格式的扫描文件上传解析。交互方面,Kimi Chat推出小程序“Kimi智能助手”,网页端上线浅色模式。

有网友发现,微软已于一周前悄然推出安卓版Copilot应用程序,用户可从Google Play商店下载。应用程序描述显示,Copilot由最新的OpenAI模型、GPT-4和DALL·E 3提供支持,这些先进的AI技术提供快速、复杂和精确的响应,并且免费。截至目前,微软暂未推出iOS版Copilot。

12月26日,2023联想天禧AI生态伙伴大会在北京召开。会上,联想集团副总裁、中国区消费业务群总经理张华发布了联想天禧AI生态“四端一体”战略。“四端”分别指的AI PC、AI平板、AI手机和AIoT四类终端设备,“一体”则有两层含义,一方面指的是承接用户个人助理任务的个人智能体,另一方面也意味着个人智能体穿梭于四类AI终端,使其融为一体。同时,联想的AI个人智能体“小乐同学”首次亮相,并面向广大生态开发者伙伴启动智能体小程序招募计划。

微信宣布将于2024年1月11日在广州举办2024微信公开课PRO,将发布产品能力、展示价值理念、沟通生态伙伴、凝聚行业共识。2024微信公开课PRO期间,小游戏、微信AI等也将悉数登场,带来多项能力升级与案例分享。

韩国文化部宣布将不对AI生成的内容进行版权登记,从法律上不承认此类内容的创造性。文化部补充说,只有那些明显传达人类思想和情感的作品才有可能进行版权登记。这一决定将很快在面向AI企业、版权持有者和用户的“AI版权指南”中公布,指南还规定,AI企业需要向版权持有者提供公平的补偿,以确保其产品的使用权,建议版权持有者明确表达其意图或采取技术措施,以防止其创作被用于AI研究。

issue49 2024.1.1-2024.1.7

外媒The Information发文总结2023年最难忘的10个AI时刻,包括OpenAI与微软伙伴关系继续、Meta Llama改变赛况、GPT-4发布、3万多人联名呼吁暂停AI模型训练、AI Agent兴起、美国总统拜登的AI行政命令与欧盟AI法案、GitHub Copilot付费用户超过100万、多模态兴起、OpenAI CEO萨姆·阿尔特曼(Sam Altman)的感恩节压力、等待谷歌Gemini。

中文大模型测评基准SuperCLUE发布《中文大模型基准测评2023年度报告》,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告包括国内大模型关键进展、测评体系、方法说明、大模型综合测评结果、SuperCLUE2.0升级、四大维度测评分析及示例介绍以及优秀模型案例介绍等内容。

据Windows Central报道,微软正在对其Surface产品线进行重大更新。Surface Pro和Surface Laptop都将首次提供英特尔和Arm版本,并且都将配备下一代NPU(神经处理单元)芯片。这些代号为CADMUS的PC将被设计用来运行微软正在打包到未来版本Windows中的AI功能。新设备将在春季发布,并将作为微软首款真正的AI PC推向市场。

美图公司自研AI视觉大模型MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案,将面向公众开放。在当前通过备案的国内大模型当中,MiracleVision(奇想智能)是唯一专注视觉领域的大模型,也是福建省唯一通过备案的大模型。

1月2日,调研机构WriterBuddy发布一项新调查,通过使用SEO行业知名工具SEMrush研究3000多种AI工具,其筛选出2022年9月至2023年8月访问量最大的50款工具,这些AI工具吸引了超过240亿次访问量。其中,ChatGPT以140亿次访问量位居第一, 占分析流量的60%以上。AI聊天机器人类工具最受欢迎,访问量达到191亿次。

对话式搜索引擎创企Perplexity AI的CEO Aravind Srinivas在社交平台X上公开回应有关竞争不过搜索引擎大厂谷歌的质疑,称Perplexity存在的原因是通过更少的关键字查询、筛选、链接点击、页面浏览,提高搜索效率和信息访问效率;直接找到问题根源,然后用一个简洁、清晰、个性化的答案,便于人们做出决定,这与谷歌的财务和商业目标是不一致的。

1月3日消息,据日经亚洲报道,日本相机“三巨头”尼康、索尼和佳能即将推出新技术,让照片的来源变得更容易验证。该技术允许摄影师通过相机本身嵌入数字签名,包含摄影师姓名、拍摄日期、时间和地点等信息,然后通过一个名为Verify的免费网络应用程序进行认证,该应用程序由媒体机构、相机制造商和科技公司组成的全球联盟推出。

1月4日,AI搜索引擎aoyo.ai在ProductHunt发布,称可用母语搜索全网内容并总结,其首个版本支持英语、中文、日语、西班牙语。

钉钉联合国际知名咨询机构IDC发布首份《2024 AIGC应用层十大趋势白皮书》。随着AIGC技术的发展,智能化应用将呈现爆发式增长,IDC预测,到2024年全球将涌现出超过5亿个新应用,这相当于过去40年间出现的应用数总和。根据《白皮书》,2024年AIGC应用的十大趋势关键词涵盖应用层创新、AI Agent、专属模型、超级入口、多模态、AI原生应用、AI工具化、AI普惠化。

网易有道发布子曰教育大模型的2.0升级、虚拟人口语教练Hi Echo的2.0升级,同时发布了有道速读、全新AI家庭教师应用小P老师以及新一代AI学习机X10。据介绍,小P老师能够回答语文、数学、英语、生物、历史等10个学科的问题,支持拍照、语音、文本输入,并将首次落地学习机X10。新一代AI学习机X10首创学习机、学练机和学生专属电脑三合一模式,覆盖全学科、学段,提供墨水屏模式模拟纸质学习场景,内置编程软件、WPS等应用,学习机内的小P老师、Hi Echo等应用终身免费且持续升级。

科技部于12月21日发布《负责任研究行为规范指引(2023)》,其中提到科研人员在申报研究项目材料时,不得使用生成式AI直接生成申报材料,应依规合理使用生成式AI处理文字、数据或学术图像,防范伪造、篡改数据等风险。在文献引用方面,使用生成式AI生成的内容应明确标注并说明其生成过程,对其他作者已标注为AI生成内容的,一般不应作为原始文献引用。成果署名方面,生成式AI不得列为成果共同完成人,应在研究方法或附录等相关位置披露使用生成式AI的主要方式和细节。学术出版单位应应要求作者披露是否使用生成式AI,提醒审稿人在审稿过程中使用生成式AI应依规谨慎。

deepin(深度)操作系统于官网发文,宣布近日推出了一款“看图AI插件”,用户在安装后即可在设备端体验8种AI修图功能,分别是图像上色、提升分辨率、模糊背景、删除背景、手绘漫画、2D漫画、3D漫画、素描。这些功能不依赖于互联网在线模型,也不受制于算力的硬件约束,在PC单机上可轻松运行。

微软将其安卓和iOS平台的移动浏览器应用名称从“微软Edge”改为了“微软Edge:AI浏览器”,强调了其目前最重视的AI领域。除了新的名字,该浏览器在介绍中也宣传了新的AI功能,如DALL-E 3图像生成器、Copilot文章摘要、图像识别等,还强调了对GPT-4的支持。

issue50 2024.1.8-1.14

近日,清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent的CogAgent,CogAgent 是一个通用的视觉理解大模型,具备视觉问答、视觉定位、GUI Agent 等多种能力,可接受 1120×1120 的高分辨率图像输入。在 9 个经典的图像理解榜单上取得了通用能力第一的成绩,并在涵盖电脑、手机的 GUI Agent 数据集上,大幅超过基于 LLM 的 Agent,取得第一。目前团队已将 CogAgent-18B 开源至 GitHub 仓库,并提供了网页版 Demo。CogAgent 的模型结构基于 CogVLM。

美团、浙大等推出了能够在移动端部署的多模态大模型MobileVLM,包含了 LLM 基座训练、SFT、VLM 全流程。MobileVLM 是一款专为移动设备设计的快速、强大和开放的视觉语言助手。它结合了面向移动设备的架构设计和技术,包括从头开始训练的 1.4B 和 2.7B 参数的语言模型、以 CLIP 方式预训练的多模态视觉模型,以及通过投影实现的高效跨模态交互。在各种视觉语言基准测试中,MobileVLM 的性能可媲美大型模型。

issue51 2024.1.15-1.21

1月16日,智谱AI 在DevDay上发布了新一代基座大模型GLM-4,定制化的个人GLM大模型GLMs和GLM Store。与上一代ChatGLM3相比,GLM-4在综合能力上实现了全面跃升,性能提升了60%,已经逼近GPT-4。它具备更强的多模态功能,支持更快的推理,更多并发,推理成本大大降低。同时,GLM-4也增强了智能体能力。GLM-4带来128K的上下文窗口长度,也就意味着,在单次提示词中,可处理文本达到了300页。GLM-4的文生图和多模态理解都得到增强。

同日,智谱还推出CogView3,效果明显超过开源最佳的Stable Diffusion XL,逼近DALL·E 3。相对之前,CogView3的语义理解能力都得到大大增强。

1月15日,微软宣布推出个人版Copilot Pro订阅服务,每月20美元,可以使用Office AI功能,目前在美国、英国、法国、德国等地可用,后续还将扩大可用地区。这意味着个人用户也可以开始使用AI驱动的Office功能,其中包括使用Office软件的AI功能、优先访问最新的OpenAI模型、甚至构建自己的Copilot GPT。

1月17日,上海人工智能实验室与商汤科技联合香港中文大学、复旦大学发布新一代大语言模型书生·浦语2.0(InternLM2)。这个大模型包含70亿和200亿两种参数规格,以及基座、对话等版本,向全社会开源并提供免费商用授权。InternLM2能够一次性处理约30万汉字的输入内容,从中准确提取关键信息,实现对长文本的“大海捞针”。

issue52 2024.1.22-1.28

1月25日,OpenAI发布了一系列重磅大模型更新,连发了五个新模型以及新的API使用管理工具。包括:新的GPT-3.5 Turbo模型,输入价格暴降50%,输出价格降低25%,同时修复各种BUG,回应准确性更高;新的GPT-4 Turbo Preview模型,生成代码能力更强,模型“变懒”情况减少,修复各种BUG;新的小型文本嵌入模型text-embedding-3-small,性能小幅提升,价格降至上代的五分之一;新的大型文本嵌入模型text-embedding-3-large,性能强,可创建多达3072维的嵌入,部分测试性能提升70%以上,价格略贵。同时,OpenAI还直接让开发者在略微损失精度的情况下缩短嵌入,实现性能和成本的平衡;新的审查模型text-moderation-007,OpenAI将其称之为“迄今为止最强大的审查模型”。

1月25日,谷歌研发出全新的时空扩散模型 Lumiere(法语,启蒙者),几乎集齐了常见AI视频生成和编辑功能,也是先进的视频生成器。Lumiere 会根据用户自然语言提示,创造出非常逼真(高质量超现实主义)视频,时间长达五秒。模型的图片到视频功能可以根据用户提示,让静止的图像动起来。谷歌研究人员在 Lumiere 中引入了一种“时空 U-Net 架构” Space-Time U-Net(STUNet),一次构建了整个视频长度, 能够学习将视频信号在空间和时间上同时进行下采样和上采样,并在网络的压缩空间时间表征上执行主要计算。

1月26日,阿里云公布多模态大模型研究进展。通义千问视觉理解模型Qwen-VL再次升级,继Plus版本之后,再次推出Max版本,升级版模型拥有更强的视觉推理能力和中文理解能力,能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩,比肩OpenAI的GPT-4V和谷歌的Gemini Ultra。相比Qwen-VL,Qwen-VL-Plus和Qwen-VL-Max拥有更强的视觉推理和中文理解能力,整体性能堪比GPT-4V和Gemini Ultra。

issue53 2024.1.29-2.4

1月30日,科大讯飞升级了讯飞星火大模型。讯飞星火V3.5除了七大能力全面提升,整体能力接近GPT-4,还特别在语言理解、数学等能力上实现超越。技术方面,讯飞的语音大模型将更多语音表征解耦,融入到大模型预训练中。在多语种识别中,在首批37个主流语种效果超过OpenAI Whisper 3。并且在多语种语音生成、超拟人语音生成上,也有一定的提升。目前语音大模型已经向开发者完全开放,并且首发搭载在讯飞翻译机上面。

Midjourney二次元模型Niji-Journey V6上线,能把控日漫欧美动漫风格,甚至图中还能生成字体,输入/settings,然后点击Niji Model 6就可以在任何discord机器人上打开使用。目前,Niji V6还在内测中,预计在2月底正式推出,并将带来Vary、Pan、Zoom等特色功能。

2月2日,谷歌官方宣布:在最新版Gemini Pro的加持下,Bard不仅获得了推理、理解、总结、编码能力的迅速飞升,而且还能支持230多个国家的40多种语言。为了负责任生成,Bard生成的图像都将由SynthID进行标记。SynthID是谷歌DeepMind开发的一种水印工具,可将数字水印直接嵌入到我们生成的图像的像素中。SynthID的水印人眼无法察觉,但可检测以进行识别。

2月2日,欧盟27国代表投票一致支持《人工智能法案》文本,标志欧盟向立法监管人工智能迈出重要一步。法案要求所有通用人工智能模型遵守透明度义务,同意严格限制面部识别等技术的应用,禁止对人类安全造成“不可接受风险”的人工智能系统。

issue54 2024.2.5-2.11

2月6日,通义千问大模型(Qwen)的 1.5 版上线了。新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最强版本的性能超越了 GPT 3.5、Mistral-Medium,包括 Base 模型和 Chat 模型,且有多语言支持。Qwen 1.5 支持 32K 上下文长度;开放了 Base + Chat 模型的 checkpoint;可与 Transformers 一起本地运行;同时发布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 权重。本次更新着重提升了 Chat 模型与人类偏好的对齐程度,并且显著增强了模型的多语言处理能力。

2月8日,谷歌宣布大模型体系全面进入了 Gemini 时代,并带来最新的 Gemini Ultra 模型。Gemini Ultra 1.0 是第一个在 MMLU(大规模多任务语言理解)超越人类专家的 AI 模型,结合了 57 个科目,包括数学、物理、历史、法律、医学和伦理学,用来测试大模型知识和解决问题能力的基准。谷歌官宣四项AI新进展:大模型版本Gemini Ultra 1.0全面开放;聊天机器人Bard正式官宣改名为Gemini;安卓版新“Gemini”应用程序上线;全套办公工具Google Workspace、谷歌云中的所有AI协作工具Duet AI也改名为Gemini。

issue55 2024.2.12-2.18

2月16日, OpenAI发布视频生成模型Sora,称构建了一个“物理世界的通用模拟器”。它是一种通用的视觉数据模型,能够生成各种持续时间、宽高比和分辨率的视频和图片,甚至长达一分钟的高清视频。Sora是一种基于Transformer架构的扩散模型,有很强的扩展性,从噪声开始,能够一次生成整个视频或扩展视频的长度,一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。不同于LLM使用的文本token,Sora使用的是视觉patch。还采用了DALL·E 3中的重新标注技术,应用在了视频上。目前Sora根据图像和文本提示生成视频,已经能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。

Stability AI开源新型文生图模型Stable Cascade,标志着AI艺术创作的重大进展。与Stable Diffusion相比,Stable Cascade拥有更小的潜在空间,提高了训练和生成效率。该模型架构分为三个阶段:潜在生成器、潜在解码器阶段一和二,能够将文本转换为24×24像素的潜在向量,并逐步重建高质量图像。开源代码已在GitHub发布,用户可获取训练和推理脚本,进一步推动AI绘画工具的发展。

2月14日,作为测试的一部分,OpenAI 开始为一小部分 ChatGPT 免费和付费用户推出新的“记忆”功能,并在未来进行大规模的推广。该功能可让用户明确告诉 ChatGPT 记住某些内容或者用户查看它记住了什么。ChatGPT 的记忆功能完全由用户掌控,也可以随时关闭这种功能。ChatGPT 的记忆会随着互动而演变,并且与特定对话无关。删除聊天记录并不会消除其记忆,必须删除记忆本身。

issue56 2024.2.19-2.25

2月21日,谷歌宣布推出全新开源模型Gemma,拉丁语中意为“宝石”。Gemma 是先进的轻量级开放模型系列,采用了与创建Gemini模型相同的研究和技术。本次,谷歌发布了Gemma的两个版本:Gemma 2B(20亿参数)和Gemma 7B(70亿参数)。每种规模都提供了预训练和指令微调版本。当前,Gemma 2B和7B允许所有组织(无论规模大小)负责任地进行商用和分发。

MWC2024 将于 2 月 26 日至 29 日在西班牙巴塞罗那举行,联想集团将推出最新的人工智能设备和基础设施及解决方案组合,并展示两款挑战传统个人电脑和智能手机外形的新概念产品。秉承AI for All的愿景,联想集团将在 MWC 上推出多款全新 AI PC 和边缘计算解决方案,加速促进该技术在 2024 和 2025 年成为主流,混合人工智能的趋势将刺激 AI PC 和 AI Phone 的需求,并推动新的行业更新周期。

issue57 2024.2.26-3.3

2月26日,谷歌团队发布110亿参数Genie精灵。Genie是一种全新的生成式AI范式,仅凭一张图像,就能创造出互动性强、可玩的环境,创造出可玩的虚拟世界,动作可控碾压Sora。Genie学习了20万小时的未标注互联网视频,主要包括2D平台游戏和机器人领域的视频,无需监督即可训练。无需任何动作标注,便可以确定谁是主角,并让用户能够在生成的世界中对其控制。Genie是通过潜动作模型、视频分词器,以及自回归动态模型三大核心组件来实现的。

2月27日,开源社区Mistral AI发布旗舰模型Mistral Large(不开源),具备卓越的逻辑推理能力,能够处理包括文本理解、转换以及代码生成在内的复杂多语言任务。在主流基准测试中,Mistral Large,成绩仅次于GPT-4。Mistral Large能够母语般流利地使用英语、法语、西班牙语、德语和意大利语,深刻理解各自的语法规则和文化背景;能够处理32K Token的上下文内容;在执行具体指令方面异常精准;支持函数调用。目前,这个新旗舰模型仅在Azure AI和Mistral AI平台上可用。其中,在Azure AI上的定价如下:输出为0.024美元/1000 token,输入为0.008美元/1000 token。

issue58 2024.3.4-3.10

3月5日,Anthropic发布了最新的Claude 3系列模型,在多模态和语言能力指标上,包括推理、数学、编码、多语言理解和视觉方面,碾压GPT-4。本次发了三个模型Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus,能力依次从低到高,都将至少支持20万token的上下文窗口,都能处理超过100万token的输入。目前,Opus和Sonnet已经可以在claude.ai以及覆盖159个国家的Claude API上使用了。Haiku模型也将很快推出。

3月10日,Pika发布了一项Sound Effects新功能,可以给视频无缝生成音效。Pika给视频生成音效的操作简单。相比于此前生成视频的操作,现在只需开启下方“Sound effects”按钮即可。或者在生成了视频过后,点击下方的“Edit”,再选择“Sound Effects”单独给它配音。Sound Effects功能目前只对超级合作者(Super Collaborator)和Pro用户开放测试。

issue59 2024.3.11-3.17

3月14日,国内的大模型独角兽公司零一万物正式发布了 Yi 大模型 API 开放平台。此次 API 开放平台提供以下模型:Yi-34B-Chat-0205:支持通用聊天、问答、对话、写作、翻译等功能。Yi-34B-Chat-200K:200K 上下文,多文档阅读理解、超长知识库构建小能手。Yi-VL-Plus: 多模态模型,支持文本、视觉多模态输入,中文图表体验超过 GPT-4V。

3月15日,苹果正式公布自家的多模态大模型MM1系列,具有 30B 参数,参数最高可达 300 亿。它由密集模型和混合专家(MoE)变体组成,不仅在预训练指标中实现 SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。

3月17日,xA官方开源Grok-1,一个3140亿参数的8个MoE混合专家模型。代码和模型权重已上线GitHub,模型的权重文件则是以磁力链接的形式提供,文件大小接近300GB。开源的是2023年10月预训练阶段的原始基础模型,没有针对任何特定应用进行微调。Grok-1选用了Rust编程语言以及深度学习框架新秀JAX。

issue60 2024.3.18-3.24

3月18日,月之暗面将自家模型的上下文窗口提升了一个数量级,从发布之初的20万字,拓展到200万字。该版本在Kimi上开启内测,并且在与Kimi对话过程中,加入了(不打断模型思路的)“继续”功能按钮。同时,相同成本、相同设备情况下,模型响应速度提升了3倍左右。月之暗面还提出了“Kimi 10分钟速成定律”,即无关领域大众小众,也无关资料或多或少,只要把资料一股脑丢给模型,10分钟内,Kimi都能快速入门一个新领域。此外, Kimi Chat改名为Kimi智能助手,Moonshot大模型改名为Kimi大模型。

AI初创公司Suno AI重磅推出了一款音乐生成模型V3。仅用几秒的时间,V3便可以创作出2分钟的完整歌曲。现在已经向所有用户免费开放。相比与之前的版本,v3生成的音乐质量更高,而且能制作各种各样的风格和流派的音乐和歌曲。提示词的连贯性也有了大幅提升,歌曲结尾的质量也获得了极大的提高。为了激发人们的创作灵感,Suno v3还新增了更丰富的音乐风格和流派选项,比如古典音乐、爵士乐、Hiphop、电子等新潮曲风。

3月18日,Colossal-AI团队全面开源了类Sora架构视频生成模型Open-Sora 1.0,涵盖了关于文生视频的整个训练流程,包括数据处理、所有训练细节和模型权重,1万美元64块GPU复现,训练成本直降46%。模型采用了目前火热的Diffusion Transformer(DiT)架构。整个架构包括一个预训练好的VAE,一个文本编码器,和一个利用空间-时间注意力机制的STDiT(Spatial Temporal Diffusion Transformer)模型。Open-Sora的复现方案参考了Stable Video Diffusion(SVD)工作,共包括三个阶段,分别是:大规模图像预训练;大规模视频预训练;高质量视频数据微调。

3月19日,Stability AI 推出3D 视频生成大模型Stable Video 3D(简称 SV3D)。该模型基于 Stable Video Diffusion 打造,能够显著提升 3D 生成的质量和多视角一致性,效果要优于之前 Stability AI 推出的 Stable Zero123 以及丰田研究院和哥伦比亚大学联合开源的 Zero123-XL。目前,Stable Video 3D 既支持商用,需要加入 Stability AI 会员(Membership);也支持非商用,用户在 Hugging Face 上下载模型权重即可。

3月22日,百度升级了大模型应用开发神器百度千帆AppBuilder。它开放了55个工具组件,包括大模型组件、AI组件、搜索组件、第三个API工具等。能让企业或个人零门槛开发各种场景下的Agent应用。同时,百度大模型也上新了,一共5个,主打轻量化、性价比、实际场景:ERNIE Speed,ERNIE Lite,ERNIE Tiny,ERNIE Character,ERNIE Functions。

issue61 2024.3.25-3.31

3月29日,人工智能独角兽AI21 Labs推出并开源了Jamba,在多个基准上超越了 transformer。Jamba 将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 transformer 架构相结合,是基于全新SSM-Transformer混合架构的52B生产级Mamba模型,与Mixtral 8x7B相比,长文本处理吞吐量提高了3倍;实现了256K超长上下文窗口;是同等规模中,能在单张GPU上处理140K上下文的模型;以Apache 2.0开源许可协议发布,开放权重。

3月29日,xAI升级推出Grok-1.5模型,数学和代码能力大幅提升,支持128k长上下文。Grok-1.5能够在其上下文窗口内处理128K token的文本。此外,新模型还可以处理更长和更复杂的提示,同时在其上下文窗口扩展时仍保持其指令跟随能力。Grok-1.5构建在基于JAX、Rust和Kubernetes的定制分布式训练框架之上。

3月30日,OpenAI 首次亮相了语音引擎 Voice Engine预览版,其首次开发时间是 2022 年末。通过文本输入以及一段 15 秒的音频示例,可以生成既自然又与原声极为接近的语音。即使是小模型,只需一个 15 秒的样本,也能创造出富有情感且逼真的声音。Voice Engine 并未根据用户数据进行训练或微调,而是通过一个扩散过程和 transformer 结合的方式 从而产生语音。不过,Voice Engine 目前不支持音调、音高或节奏的调整。Voice Engine 的定价为每一百万字符 15 美元。

RWKV 元始智能 日前宣布向全球开源其 RWKV-6 1.6B(2.5T Tokens) 模型。

issue62 2024.4.1-4.7

阿里通义千问团队正式公开 Qwen1.5-32B,它是 Qwen1.5 语言模型系列的新成员,在性能、效率和内存占用之间寻求理想平衡,旨在提供与30亿参数规模模型相媲美的性能。在 MMLU、GSM8K、HumanEval 以及BBH等多个任务上,Qwen1.5-32B 即使与72B参数模型相比性能有所下降,但在多数任务中仍优于其他30B级别模型。相较于72B模型,Qwen1.5-32B的内存占用大幅减少,运行速度显著提升,旨在帮助用户为其下游应用找到更优的解决方案。

4月2日,昆仑万维官宣,AI音乐生成大模型天工SkyMusic基于昆仑万维天工3.0超级大模型打造,即日起面向社会开启免费邀测。本轮测试已开放1000个免费名额。天工SkyMusic采用音乐音频领域类Sora模型架构:Large-scale Transformer 负责谱曲,来学习 Music Patches 的上下文依赖关系,同时完成音乐可控性;Diffusion Transformer 负责演唱,通过LDM让Music Patches被还原成高质量音频,使得天工SkyMusic能够支持生成80秒44100Hz 采样率双声道立体声歌曲。这套模型架构在处理视频、音频和音乐领域效果极佳。

4月3日,腾讯开源了文生视频工具MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。文本、图像到视频的生成结果的所有帧直接由MuseV生成,没有时序超分辨、空间超分辨等任何后处理。除了直接放出模型代码,目前MuseV还有demo可体验。

4月1日,初创公司阶跃星辰,发布了三个大模型:Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型预览版。目前,千亿参数模型 Step-1超过 GPT-3.5 ,多模态大模型 Step-1V比肩 GPT-4V。第一款应用是跃问聊天助手,可以完成信息查询、语言学习、创意写作、图文解读等任务。此外,它还具备了多模态内容理解能力、联网搜索、代码分析增强(POT)等能力,高效理解和回应用户的查询,提供连贯且相关的对话。

4月1日,澜舟科技官宣:孟子3-13B大模型正式开源,面向学术研究完全开放,并支持免费商用。孟子3-13B大模型是基于Llama架构,数据集规模高达3T Tokens。语料精选自网页、百科、社交、媒体、新闻,以及高质量的开源数据集。通过在万亿tokens上进行多语言语料的继续训练,模型的中文能力突出并且兼顾多语言能力。

OpenAI官宣4月2日起,ChatGPT不用注册,可以直接使用。虽然这次开放的版本是GPT-3.5,训练数据截止到2022年,但仍然大大降低了使用门槛。此后的ChatGPT将成为一项免费,快速的基础服务。

4月4日,OpenAI 的 DALL-E 进行了多项升级,添加了与 ChatGPT 的集成,现在用户可以在 ChatGPT 中使用 DALL-E 组件进行复杂的图像编辑。当输入一个想法时,ChatGPT 会自动为生成模型生产量身定制的、详细的 Prompt,用户也可以继续使用自己的 Prompt。

issue63 2024.4.8-4.14

4月9日,Google Cloud Next 2024大会上,谷歌宣布Gemini 1.5 Pro正式开放公开可用、上线音频处理能力;更新代码模型CodeGemma,推出首款自研Arm架构处理器Axion,升级视频版Imagen 2.0。其中,谷歌Gemini 1.5 Pro已经在Vertex AI上开放公测,100万token,还增加了音频功能。它能处理音频流,包括语音和视频中的音频。

4月10日,OpenAI官宣发布了具备视觉功能GPT-4 Turbo的正式版,能处理128k上下文,已经可以通过API调用了,其训练数据截止到2023年12月。同时,Vision请求也可以使用JSON模式和函数调用。新模型可以有助于简化开发人员的工作流程,创造出更高效的应用程序。与此同时,OpenAI已经将GPT-4每3小时40条消息的使用限制,变成了根据供需情况动态调整的灵活配额。不过,有研究发现,GPT-4 Turbo with Vision在编码方面较差。

4月13日,xAI 推出了多模态模型 Grok-1.5V。该模型不仅能理解文本,还能处理文档、图表、截图和照片中的内容。Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型,从多学科推理到理解文档、科学图表、图表、截图和照片。目前,Grok-1.5V 还没有完全开放,但会很快提供给早期测试者和现有的 Grok 用户。此外,xAI 还推出了一个新的基准RealWorldQA。目前,RealWorldQA 包含 700 多张图片。

百度文心一言上线了新功能,仅需几秒钟即可定制自己的声音。打开文心一言App,点击下方“+”,然后选择创建智能体。在声音选项里,会发现一个名为“创建我的声音”的功能。根据系统提示读出一段话,只需两秒左右的时间,系统便能捕捉到用户的声音特点,生成一个独特的“语音助手”。在确认声音质量后,用户的专属“语音库”就在瞬间构建完成。今后,在与智能体的每一次对话中,用户都可以点击播放键,使用自己合成的音色进行语音播报。

issue64 2024.4.15-4.21

4月16日,Create 2024百度AI开发者大会举办,宣布文心大模型4.0性能提升52.5%,又公布了智能体、代码、多模型等方面的新进展。百度着重介绍了三款AI开发工具:AgentBuilder(智能体开发工具)、AppBuilder(AI原生应用开发工具)和ModelBuilder(模型定制工具)。其中,AgentBuilder是面向所有人的,不需要编程基础也能可以轻松建立。会上,百度还发布新一代智能计算操作系统万源(Wanyuan)。

4月17日,稀宇科技 MiniMax 推出了万亿 MoE 模型 abab 6.5。abab 6.5系列包含两个模型 abab 6.5和abab 6.5s。abab 6.5 包含万亿参数,支持 200k tokens 的上下文(相当于约 30 万汉字)。abab 6.5s 跟 abab 6.5 使用了同样的训练技术和数据,但更高效,支持 200k tokens 的上下文长度,可以 1 秒内处理近三万字的文本。根据 MiniMax 发布的技术报告,在知识、推理、数学、编程、指令遵从等维度测试中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。MiniMax还开发了一款生产力产品“海螺AI”,目前已经接入了万亿 MoE 模型 abab 6.5。

4月17日,昆仑万维宣布天工 3.0基座大模型与天工 SkyMusic音乐大模型正式开启公测,无次数限制。它生成的中文人声发音清晰、正宗、无异响,不仅针对普通话做了优化,还有粤语、成都话、北京话等方言语种。目前,SkyMusic已经集成到了手机上的天工APP。从目前的结果来看,天工SkyMusic可以支持生成80秒左右时长的歌曲。大模型天工 3.0 拥有 4000 亿参数。

Mistral AI 开源了其最新的大模型 Mistral 8x22B,该模型在AI开放社区中设定了性能和效率的新标准。

4月19日,Meta官宣了Llama 3 80亿和700亿参数版本,在各自参数规模上超越对手,为开源SOTA。Llama 3 405B 版本仍在训练中,将是一个密集模型,预计年末发布。据现有的评测数据,405B 版本的性能已经逼近 GPT-4。架构层面,Llama 3选择了经典的仅解码式Transformer架构,采用包含128K token词汇表的分词器。训练方面,Meta上了2.4万块GPU集群,Llama 3的训练数据规模达到了15T tokens,全部来自于公开信息,其中5%为非英文数据,涵盖30多种语言。此次与基础模型一同发布的,还有基于Llama 3的官方Web版本Meta AI(https://www.meta.ai/)。目前该平台有对话和绘画两大功能。

issue65 2024.4.22-4.28

科大讯飞发布首个支持长文本、长图文、长语音的大模型 讯飞星火 V3.5。支持多情感超拟人合成和个性化声音复刻。

微软发布名为 Phi-3 的小型语言模型(SLM),该模型系列虽然体积小巧,但功能强大,具有很大的潜力。作为Phi-3系列的首版,Phi-3-mini 拥有3.8亿参数,并且性能超过了两倍于其大小的模型。Phi-3-mini 现在可以在 Microsoft Azure AI模型目录和 Hugging Face 上公开获取,并且也可以在 Ollama 轻量级框架上运行。

4月25日,苹果团队发布了OpenELM,包含了2.7亿、4.5亿、11亿和30亿四个参数版本。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的 checkpoint 和训练日志。OpenELM是一款专为终端设备而设计的小模型。OpenELM使用了分层缩放策略,来有效分配Transformer模型每一层参数,导致模型每层的参数数量不同,从而实现了更有效的跨层参数分配与提升准确率。这款模型还可以在M2 MacBook Pro(64GiB内存)运行。

issue66 2024.4.29-5.5

5月1日,Google推出新型多模态医学 AI 模型 Med-Gemini 。它融合了高级推理、多模态理解和长文本处理能力,构建基于 Google 的 Gemini 模型,并针对医学领域进行了专门的优化和改进。在医学基准测试如MedQA中,展现出优越性能,准确率达91.1%。

5月2日,Anthropic 推出一项针对企业的新付费计划,其中包括医疗保健、金融和法律等受到高度监管的行业,该计划名为“Team”,为客户提供对 Anthropic 的 Claude 3 系列生成型 AI 模型以及额外的管理员和用户管理控制的更高优先级访问权限。此外,Anthropic 也推出一款 iOS 应用,只有11MB。该应用提供对 Claude 3 的访问,包括免费访问以及升级的 Pro 和 Team 访问,并与 Anthropic 的网络客户端同步,利用 Claude 3 的视觉功能为上传和保存的图像提供实时分析。

issue67 2024.5.6-5.12

幻方 DeepSeek AI 开源 MoE 语言模型 DeepSeek-V2。该模型拥有236B的参数量,能够处理长达128K token的上下文,相较于前一代DeepSeek 67B模型,在性能上实现了显著提升,同时在训练成本上节省了42.5%,减少了93.3%的KV缓存,并显著提高了最大生成吞吐量。在多个基准测试中,DeepSeek-V2的性能直逼行业领先的GPT-4,尤其在数学、代码和推理任务上表现出色。

5月8日,谷歌DeepMind发布了新一代预测蛋白质结构的AlphaFold 3模型,能够帮助科学家更精确地针对疾病机制,从而开发出更有效的治疗药物。此举是一个重要的里程碑式突破。AlphaFold 3是一种人工智能模型,它可以预测蛋白质、DNA、RNA等生物分子的结构以及它们如何相互作用。另外,DeepMind还推出了AlphaFold Server,它是一个供全球科学家用于非商业研究的免费平台。

5月9日,阿里云正式发布通义千问2.5,同时发布1100亿参数开源模型Qwen1.5-110B。此外,百炼大模型平台从模型开发、应用开发到算力底座全面升级。升级后,百炼还兼容LlamaIndex等开源框架,企业可自由替换能力组件来适配自身系统。

月之暗面 Moonshot AI 宣布对旗下智能助手 Kimi 进行更新,并推出专业 AI 助手 “Kimi+”。据官方介绍,Kimi+ 是拥有独特技能的 Kimi 分身,可解决特定问题,也能组成 AI 生产线。

零一万物推出了名为「万知」的一站式AI工作平台,号称专为中国人设计,能够提供会议纪要、周报撰写、写作辅助以及解读财报、论文等文件,并帮助用户制作PPT。这款AI个人助手支持中英双语,用户可以通过网页和微信小程序访问。

5月8日,OpenAI 官方发布了《模型规范》(Model Spec) 初稿,旨在公开讨论和定义AI模型应有的行为。所公开的文件汇集了OpenAI在塑造模型行为方面的现有文档、研究经验和未来模型发展的指导原则,主要包括三个核心部分:目标、规则和默认行为。目标是指导模型行为的广泛原则;规则是确保安全和合法性的明确指令;默认行为则是在目标和规则框架下处理冲突的指导方针。Model Spec 的发布是为了加深公众对AI模型行为的理解和讨论,同时也是OpenAI对模型安全和行为改进承诺的延续。OpenAI计划将这份规范作为研究人员和AI训练者的指导,探索模型是否能直接从规范中学习,并在未来一年内根据反馈更新规范内容、分享研究进展。

issue68 2024.5.13-5.19

5 月 14 日凌晨,OpenAI 在首次春季新品发布会上推出了新一代旗舰生成模型 GPT-4o (o 代表 Omnimodel全能模型)、桌面 App,并展示了一系列新能力。GPT-4o具有文本、语音、图像三种模态的理解力,模型反应比人类的回应还快,最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。还能够充分理解人类的情感,也能表现出各种感情。在多项基准测试中,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能。GPT-4o 的文本和图像功能免费在 ChatGPT 中推出,并向 Plus 用户提供高达 5 倍的消息上限。

5月17日, OpenAI宣布ChatGPT可分析线上Excel数据。ChatGPT可以直接打开线上数据文件,支持从Google Drive和Microsoft OneDrive在线文档上传,在新的可扩展视图中与表格和图表进行实时交互,完成实时数据分析;自定义图表并下载图表,用于演示文稿和文档。网友已经灰度测试到背后的新模型ADA V2。

零一万物发布 Yi 大模型家族的新成员 Yi-1.5 并宣布开源。Yi-1.5 模型包含6B、9B、34B三个版本的预训练和微调模型,采用Apache 2.0许可证。该模型在编码、数学、推理和指令遵循方面的能力相较于前一版本Yi有显著提升,同时保持了在语言理解、常识推理和阅读理解方面的优秀表现。

腾讯发布基于混元大模型的一站式智能体开发平台「腾讯元器」。企业和开发者可以通过腾讯元器直接创建智能体,利用腾讯官方提供的插件和知识库,实现个性化的AI应用开发。腾讯元器的亮点在于其便捷的一键分发功能,允许用户将创建的智能体快速部署到QQ、微信客服、腾讯云等多个渠道上,极大地简化了AI技术的落地应用过程。

腾讯公司宣布其混元文生图大模型全面升级并开源,这是业内首个中文原生的DiT(Diffusion With Transformer)架构文生图模型。该模型包含15亿参数,支持中英文双语输入及理解,现已在Hugging Face平台及GitHub上发布,包括模型权重、推理代码和模型算法等,可供企业与个人开发者免费商用。

5月15日,2024火山引擎FORCE原动力大会上,字节跳动云雀大语言模型升级为豆包大模型家族正式在火山引擎上对外开放服务。豆包大模型家族的全系列模型,包括豆包通用模型pro/lite、角色扮演模型、语音合成模型、语音识别模型、声音复刻模型、Function call模型、文生图模型以及向量化模型。豆包通用模型pro-32k版,推理输入价格0.0008元/千tokens,较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens。另外,豆包通用模型pro-128k版本,推理输入价格为0.005元/千tokens。

谷歌在I/O 2024开发者大会上发布Gemini 1.5 Pro正式版,上下文长度达到200万token,而且开放给个人用户使用。支持多模态的Gemini可以处理上传的任何格式的信息,理解内容后将其改造成适合用户的形式并可对话互动。

谷歌发布了Gemini 1.5 Flash。Flash是一个更轻量级的模型,专为那些对响应速度要求极高的特定或频繁任务优化。它同样具有多模态、1M tokens长上下文的特点,只不过实现了轻量化、低延迟、高效推理,每百万个token的价格仅是Pro版的二十分之一。Gemini 1.5 Flash在Google AI Studio和Vertex AI中可用,开发者可以注册申请两百万token的内测版。

issue69 2024.5.20-5.26

微软在2024 Build开发者大会上发布了Phi-3系列模型的新成员 “Phi-3 Vision”,这是一个有42亿参数的多模态模型,结合了语言和视觉能力。Phi-3 Vision专为图表和图解理解进行了优化,能够处理现实世界图像的推理以及从图像中提取和推理文本,支持128K的上下文长度。该模型在一般视觉推理任务、OCR、表格和图表理解任务中表现出色,优于其他更大模型如Claude-3 Haiku和Gemini 1.0 Pro V。

5月21日,微软在2024 Build开发者大会发布新一代 Copilot+ PC。它配备了强大的 AI Agent,只需在键盘上轻点新的 Copilot 按键即可快速交互。硬件AI算力达到40 TOPS以上,或者说每秒40万亿次运算,电池续航时间可达一整天。目前开始预订,起售价 999 美元,国行价格8688 元起售,6 月 18 日发货。在新一代PC里,打游戏时可与AI实时对话,提供吐槽陪玩或攻略指导,由GPT-4o提供支持。任何文件或网页浏览记录都可以用自然语言搜索回忆,实时翻译音频或视频字幕,目前支持40+种语言。在专为AI重构的新版Windows 11上,约有40多个AI模型被深度集成,许多功能都是实时的。微软引入了全新的系统架构,将CPU、GPU和新的高性能神经处理单元NPU结合在一起。NPU负责在后台实时运行AI。

5月21日 ,智谱·AI宣布推出新一代多模态大模型CogVLM2,该模型在关键性能指标上相较于前一代CogVLM有了显著提升,同时支持8K文本长度和高达1344*1344分辨率的图像。尽管CogVLM2的模型大小为19B,但其性能接近或超过了GPT-4V的水平。CogVLM2的技术架构在上一代模型的基础上进行了优化,包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块,这些模块通过独特的参数设置,精细地建模了视觉与语言序列的交互。

5月22日,百川智能发布其最新一代基座大模型 Baichuan 4,并推出了首款AI助手“百小应”。Baichuan 4在各项能力上相比前一代Baichuan 3有显著提升,其中通用能力提升超过10%,数学和代码能力分别提升14%和9%。在SuperCLUE的评测中,Baichuan-4的能力排名国内第一,超越了SenseChat V5。Baichuan 4还首次带来了多模态能力,在各大评测基准上表现优异,领先其他多模态模型。

5月20日,面壁智能打造了端侧多模态模型MiniCPM-Llama3-V 2.5。该模型8B参数,不仅支持30+多种语言,而且综合性能、OCR长难图识别能力SOTA;图像编码快150倍。面壁自研高清图像高效编码技术,可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比的图像。

issue70 2024.5.27-6.2

腾讯将基于混元大模型的 AI 助手应用「混元助手」升级为「腾讯元宝」,集成 AI 搜索、AI 总结、AI 写作等功能。元宝不仅提供 AI 助手的标准功能,还利用腾讯新闻和微信公众号平台的资源,增强了内容的及时性和丰富度。此外,元宝还具备生成内容、翻译、多模态生成等多种能力,显示出腾讯在 AI 应用领域的强大技术实力和生态优势。

Google 宣布 Gemini 1.5 Flash 和 Gemini 1.5 Pro 现已全面推出。Gemini 1.5 Flash 现支持 1,000 RPM 限制,并引入了调优功能。此外,API 现已支持 JSON Schema 模式,AI Studio 移动版支持和浅色模式也已上线,为开发者提供更强大和便捷的开发工具。

OpenAI 推出专为大学校园设计的 ChatGPT Edu 版本,支持 GPT-4o、网络搜索、自定义 GPT、数据分析、代码生成等功能。牛津、剑桥、伯明翰等 24 所大学,以及沃顿商学院和亚利桑那州立大学已开始使用该生成式 AI 产品。ChatGPT Edu 提供多模态推理、增强的数据分析和搜索功能、自定义 GPT、提升的语音质量及多语言支持,还具备强大的安全机制,包括数据隐私、组权限和管理控制。

法国人工智能初创公司 Mistral AI 宣布了其首个代码生成模型 Codestral。该模型接受了 80 多种编程语言的训练,包括 Python、C、C++、JavaScript 和 Bash 等。Codestral 能自动完成代码函数、编写测试,并使用填补中间的机制完成部分代码,减少错误和漏洞。该模型拥有 32k 的上下文窗口,在 HumanEval、MBPP、CruxEval、RepoBench 和 Spider 等基准上表现出色,提供 API 端点、插件和开发环境集成。

issue71 2024.6.3-6.10

6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是完整地将MoEUpcycling技术应用并落地的开源千亿MoE大模型,也是支持用单台4090服务器推理的开源千亿MoE大模型。本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为146B,激活参数量22B,共有16个Expert,每个Expert大小为13B,每次激活其中的2个Expert。

6月4日,AI初创公司澜舟科技宣布轻量化大模型Mengzi3-8B,现已正式开源,并支持免费商用。Mengzi3-8B是一款高效、低显存需求的AI大模型,半精度下显存占用小于16G,适用于PC(如MacBook)和大部分消费级显卡(如RTX 4090、RTX 4080、RTX 4070Ti)。此外,Mengzi3-8B的原生推理速度在同级别模型中处于领先地位,特别适合个人开发者和AI爱好者使用。

6月5日,智谱AI在智谱AI Open Day上宣布对旗下全模型矩阵的价格大幅下调,开源GLM-4-9B系列模型,并发布了大模型应用清言App和大模型开放平台的最新更新。小模型ChatGLM3-6B升级为9B后,在开放平台变为GLM-4-flash版本,API 价格相较于GLM-3 Turbo降价至10%。第四代GLM系列开源模型GLM-4 9B,官宣开源免费用。GLM-4模型,在开放平台上为GLM-4-Air版本,每100万token只需1元,价格则仅为原来的1%。

6月7日,阿里云发布开源模型Qwen2-72B。本次开源的Qwen2-72B大模型在自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的开源模型,包括阿里云在4月底开源的Qwen1.5最大的模型Qwen1.5-110B。该Qwen2系列包含5个尺寸的预训练和指令微调模型,包括wen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。所有尺寸模型都使用了GQA(分组查询注意力)机制,模型的多语言能力和上下文长度支持均得到了提升。

issue72 2024.6.10-6.16

苹果在WWDC 24上展示了其首个AI系统——Apple Intelligence及全新Siri。这个强大的新功能将为iPhone、iPad和Mac提供情景驱动通知、写作改进、图像生成等功能。Apple Intelligence的英语试用版将于今年夏天推出,并于今年秋天在iOS 18、iPadOS 18及macOS Sequoia中发布Beta版。使用门槛是iPhone 15 Pro系列、配备M1芯片的iPad和Mac以及后续机型。苹果还和OpenAI宣布建立合作伙伴关系,将ChatGPT直接集成到即将发布的iOS 18、iPadOS 18和macOS中。

Luma Labs推出了Dream Machine,这是一种全新的AI模型,能够根据文本和图像提示生成5秒的视频剪辑。

6月12日,微软发布公告称Copilot GPTs将于7月10日起停服,移除创建GPT的功能,用户已经创建的GPTs将被清空。微软给出的官方解释是公司战略调整,正在将GPT的重点转向商业和企业场景,背后原因可能是缺乏商业回报。Copilot GPTs关闭引发了用户不满,批评者质疑此举会切断创新并削减消费者对于产品的信任。

6月14日,英伟达宣布推出 Nemotron-4 340B。它包含一系列开放模型,通过独特的开放模型许可,开发人员可以用免费、可扩展的方式使用这些模型生成合成数据,用于训练大语言模型,可用于医疗健康、金融、制造、零售等所有行业的商业应用。Nemotron-4 340B 系列包括基础、Instruct 和 Reward 模型,用于生成训练和改进 LLM 的合成数据。这些模型经过优化,可与 NVIDIA NeMo 配合使用,后者是一个用于端到端模型训练的开源框架,包括数据管理、定制和评估。它们还针对开源 NVIDIA TensorRT-LLM 库的推理进行了优化。

issue73 2024.6.17-6.23

6月20日,Anthropic 发布了下一代旗舰大模型Claude 3.5 Sonnet,不仅在评估中胜过GPT-4o,还保持着中等规模的模型所具有的速度和成本优势。如今,Claude 3.5 Sonnet已经面向全球开启免费试用了。成本更低、速度更快。在运行速度方面,Claude 3.5 Sonnet也是Claude 3 Opus的两倍。在费用上,Sonnet处理每百万输入token仅需3美元,每百万输出token仅为15美元。

在Computex 2024大会上,Stability AI正式官宣SD 3 Medium公开发布。据悉,之后还会开源4B和8B的版本。目前,ComfyUI已经提交了对SD3支持的版本。本次开源的版本是Stable Diffusion 3 Medium在Hugging Face上可以下载模型权重。它的规模为20亿参数,在笔记本上就能跑。

6月21日,华为在年度开发者大会上推出全新升级的盘古大模型5.0版本,该版本在全面性、多模态处理能力以及深度思考能力上均实现了显著提升。盘古5.0针对不同业务需求,推出了多种规格的模型,并且能够与现实世界紧密结合,推动大模型在各行业的广泛应用。

Hedra发布Character-1,用户可以细颗粒度地控制如何使用AI来制作“虚拟角色的动画”。这是Hedra即将推出的基础视频模型的“预览版本”,目前它只提供方形视频,而不是宽屏或竖屏,而且分辨率相对较低。它的使用门槛相当低。基于该模型,用户只需要一段音乐——可以直接生成,或者上传已有的音乐,一张图片——可以直接生成,或者上传自己的图片。然后,只需单击生成视频并等待即可。大概一分钟左右,会生成一个一个口型同步的视频。

依图科技发布了面向安防场景的天问大模型4.0。

issue74 2024.6.24-6.30

谷歌DeepMind公布其新一代最强开源模型——Gemma 2。Gemma 2有90亿(9B)和270亿(27B)两种参数规模可用。27B模型训练了13T tokens,9B是8T tokens,都拥有8192上下文窗口,可在Google AI Studio中使用。26亿参数(2.6B)模型将很快发布,小到可以在手机本地运行。

OpenAI宣布开发了一个名为CriticGPT的新模型,基于GPT-4训练,旨在查找ChatGPT输出内容中的错误。CriticGPT的主要目的是协助人类AI训练员完成工作,使用”从人类反馈中强化学习”(RLHF)技术来改进GPT-4的回答。

6月25日,OpenAI向中国用户发布邮件称,自7月9日起,将不再接受来自那些未在其支持列表中的国家和地区的API请求。如果受影响的组织想要继续利用OpenAI的服务,他们需要在OpenAI服务覆盖的国家或地区进行访问。目前,OpenAI的API服务覆盖了全球161个国家和地区,但中国并不在其中,这表明OpenAI将不再向中国用户提供API服务。

百度在深度学习开发者大会上推出了智能代码助手”文心快码”。该产品基于文心大模型和百度多年积累的编程数据,具有代码智能、场景丰富等优势,可实现”帮你想、帮你写、帮你改”的应用形态。文心快码在百度内部已广泛使用,代码采用率达44%。它支持100多种编程语言,在Go、Java等主流语言中表现优异,并兼容多种主流IDE。产品分为标准版、专业版、企业版和企业专有版,满足不同用户需求。

6月27日,科大讯飞发布讯飞星火大模型V4.0及多个领域的人工智能应用。

issue75 2024.7.1-7.7

Runway宣布其最新的文生视频模型Gen-3 Alpha向所有用户开放,每月最低收费12美元。Gen-3一次可生成11秒的720P视频,支持文本输入生成视频。该模型功能强大,比肩Sora,能够生成高质量的视频内容。

7月3日,AI 音乐生成工具 Suno 宣布推出 iOS 客户端。

7月4日凌晨,法国知名开源 AI 研究实验室 Kyut 在官网发布了多模态大模型 Moshi。Moshi 的功能与 OpenAI 在5月14日展示的最新模型GPT-4o类似,都可以听取人的语音提问后进行实时推理回答。

7月4日,在今天揭幕的 2024 世界人工智能大会暨人工智能全球治理高级别会议(简称“WAIC 2024”)上,阶跃星辰首发了三款 Step 系列通用大模型新品:Step-2 万亿参数语言大模型正式版、Step-1.5V 多模态大模型、Step-1X 图像生成大模型。

7月5日,商汤科技发布了国内首个流式多模态大模型日日新5.5,实现了实时跨文本、音频、图像与视频推理,多项测评超过GPT-4o。

腾讯元宝应用推出了AI深度搜索功能,用户更新至最新版本后,能够在AI搜索深度模式下获得扩展问题解答,并能一键生成内容大纲、思维导图以及相关人物事件梳理。特别是在科研和财经等专业领域,该功能能够提供详尽的回答。经测试,元宝引用的消息源基本来自微信公众平台公众号文章。

快手宣布可灵AI网页端正式上线,所有功能限时免费。新功能包括:“文生视频”,支持最长10秒的视频生成以及“图生视频”,新增运镜控制和自定义首尾帧。可灵AI网页端提供AI图片、AI视频及即将上线的视频编辑功能,目前已吸引超过50万用户申请内测资格。

issue76 2024.7.8-7.14

腾讯智影小程序上线AI视频功能,用户可一键生成风格化视频,限时免费。用户导入视频后,可快速生成风格化效果,支持10秒视频处理。此外,智影AI还包含虚拟数字人、文本配音、智能去水印和文章转视频等功能,提升视频创作体验。

7月10日,阿里巴巴上线了AI搜索助手“心流”,提供智能搜索、知识问答、智能阅读、辅助创作等功能,旨在帮助用户提升工作和学习效率。

百度推出一款新型AI社交App“文小言”,利用文心大模型技术提供仿真数字人社交体验,允许用户与AI虚拟角色进行实时互动,每个角色都具备个性化的聊天服务和肢体语言反馈。

issue77 2024.7.15-7.21

7月17日,Anthropic 推出了 Claude Android 应用程序,旨在通过提供更多平台支持来吸引用户。该应用程序允许用户免费访问 Anthropic 的 AI 模型 Claude 3.5 Sonnet,并提供实时语言翻译功能,支持设备间对话同步和照片或文件的实时图像分析。此外,企业客户还可以在移动设备上访问他们的 Claude 账户。

7月19日,OpenAI 发布 GPT-4o mini ,一个成本更低、性能接近 GPT-4 的新模型,已在 ChatGPT 中取代 GPT-3.5。新模型支持更大的输入输出 tokens,价格更便宜,适用于多种应用场景,并计划开放微调功能。

issue78 2024.7.22-7.28

7月23日,Meta 正式发布了 Llama3.1,这是一系列大模型,包括8B、70B和405B三个版本,其中 405B 版本在性能上与 GPT-4o 相当,刷新了开源基础模型的能力上限。Llama 3.1扩展了上下文长度至 128K,并支持多语言和工具使用。Meta在预处理和预训练数据的 Curation pipelines 上进行了加强,并在后训练数据的质量保证和过滤方法上做了改进。Llama3.1 使用了超过 15 万亿的多语言 Token 语料库进行预训练,预训练模型的规模远大于以前的版本。

7月25日,OpenAI 宣布旗下AI搜索引擎 SearchGPT 正式开放内测,并计划在未来接入到 ChatGPT 服务中。

7月26日,智谱AI发布了升级版视频生成模型 CogVideoX,并推出了名为“清影”的AI视频生成服务,该服务能够在 30 秒内快速生成 6 秒视频,支持复杂指令的准确理解和执行,确保视频内容连贯,并具有画面调度的灵活性。目前,“清影”已在智谱清言的多个平台上免费开放给用户体验,同时企业和开发者也可以通过智谱大模型开放平台的 API 调用使用。

issue79 2024.7.29-8.4

7月31日,GPT-4o高级语音模式开启邀请测试。OpenAI宣布开始向一小部分ChatGPT Plus用户推出高级语音模式,基于GPT-4o提供更自然的实时对话。

谷歌发布了 Gemini 1.5 Pro 0801 版本,这款强大的 AI 在 LMSYS AI 竞技场排行榜上以 1300 分的成绩领先,超过了 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3.5。Gemini 1.5 Pro 配备了 2,000,000 个 token 的上下文窗口,极大增强了其处理大规模数据和生成长篇内容的能力。

谷歌开源了其最新端侧小模型Gemma2 2B,该模型以20亿参数的规模在性能上超越了参数更多的GPT-3.5-Turbo和Mixtral-8x7b,成为大模型竞技场LMSYS Chatbot Arena中表现最佳的开放模型之一。Gemma2 2B不仅性能卓越,还具有内置安全改进功能,同时推出了ShieldGemma安全内容分类器和Gemma Scope模型可解释性工具,进一步强化了模型的安全性和透明度。

7月31日,360集团创始人周鸿祎宣布,360安全大模型将免费为个人用户、中小企业提供服务,并在行业内第一个宣布安全大模型免费,让人人都能获得大模型带来的技术红利。

8月1日,Stable Diffusion 原团队成员创办的 Black Forest Labs 发布了 FLUX 文本转图像模型系列。FLUX.1 模型为开源图像生成模型树立了新标准:它们可以生成逼真的手、清晰的文本,甚至可以生成搞笑表情包这样异常困难的任务。

issue80 2024.8.5-8.11

GPT-4o自20240513之后首次更新到20240806版本。

OpenAI 推出了一项新功能,严格要求模型按 JSON 格式输出。允许开发者生成符合指定 JSON 模式的结构化输出。用户可以通过函数调用或 response_format 参数(使用 json_schema 选项)在 API 中使用此功能。

8月6日,智谱AI将其视频生成大模型CogVideoX开源,成为首个可商用的开源视频生成模型。CogVideoX支持在线体验,展示了高质量的视频生成效果,并且易于部署和使用,仅需单卡A100在90秒内即可生成视频。

issue81 2024.8.12-8.18

阿里巴巴开源的 Qwen2 Audio – 8.5B 模型在 ASR、S2TT 和 AIR-Bench 基准测试中表现出色,达到了目前的最佳状态。该模型经过 370K 小时的语音、140K 小时的音乐和 10K 小时的声音数据预训练,特别擅长语音聊天和音频分析任务,并与 Transformer 结构无缝集成。

8月14日,马斯克旗下的人工智能公司 xAI 正式发布新一代 Grok 2 大模型测试版,包括 Grok 2 和 Grok 2 mini 两个版本。Grok 2 测试版在逻辑推理能力上有显著提升,并且新增了文生图功能,使用 Black Forest Labs 的 FLUX.1 模型来生成图像。该版本支持中文提问和回答,目前只有 X Premium 和 Premium+ 用户可以体验。

8月16日,Runway 正式推出了其最新的AI视频生成模型 Gen-3 Alpha Turbo,该模型在视频生成速度上比之前的 Gen-3 Alpha 快了 7 倍,并且价格仅为原版的一半。这一新模型在保持与原版相同性能的同时,大幅降低了成本,使得所有用户都能体验到更快速的AI视频生成技术。

阿布扎比技术创新研究所推出了 Falcon Mamba 7B 模型,不依赖 Transformer 架构和注意力机制,能高效处理无限长序列,性能超越同规模开源模型。这一新模型特别适合长文本处理,且在内存使用上更为高效,现已在Hugging Face和GitHub上开源。

AI 代码编辑器 Cursor 将默认大模型切换到 Claude 3.5 Sonnet。Cursor 母公司 Anysphere,成立初期从 OpenAI 处融资 800 万美元,占当轮融资的 72.7%。

issue82 2024.8.19-8.25

Midjourney 网页版对所有人开放,为每位新用户提供最先进模型V6.1 25次试用机会。用户可使用Discord或Google账号登录,并在账户设置中合并两个平台的登录信息,确保历史记录同步。

8月19日,科大讯飞的星火语音大模型推出了极速超拟人交互更新,通过先进的端到端技术实现了快速响应和自然对话的无缝打断。新模型不仅能够识别并共鸣用户的情绪变化,还能根据用户的指令灵活调整情感表达和语言风格。此外,它还具备仿多种角色音色和语气的能力,使用户能够与不同人设进行互动。

8月21日,微软推出的新一代AI模型系列Phi-3.5,包含 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct 三个版本,分别针对轻量级推理、混合专家系统和多模态任务设计。Phi-3.5采用MIT开源许可证,具有不同参数规模,支持128k上下文长度,优化了多语言处理和多轮对话能力,在基准测试中性能表现超越了GPT4o、Llama 3.1、Gemini Flash等同类模型。

Luma AI 推出了 Dream Machine 1.5,这是其 AI 视频模型的升级版,带来了更高质量的文本转视频功能。新版本不仅在理解文本提示上更为智能,还提供了自定义文本渲染选项,并进一步改进了图像转视频的效果。

阿里大语言模型“通义千问”今日宣布启用新域名“tongyi.ai”,并带来多项新功能。网页版聊天新增深度搜索功能;App 图片微动效支持多尺寸图片;App 自定义唱演支持 3:4 画幅(原先 1:1)。

issue83 2024.8.26-9.1

Anthropic 宣布 Claude 中的 “Artifacts” 功能现已对所有用户开放,且已集成到 iOS 和 Android 应用中。这意味着用户现在可以在手机上创建和查看这些 “Artifacts”。自6月推出预览版以来,已经有数千万个 “Artifacts” 被创建。这个功能类似于在软件中创建和保存个人作品或项目的过程,使用户可以更方便地管理和分享他们的创作成果。Anthropic 鼓励用户探索和利用这一功能,以便在 Claude 的平台上进行更多创新和分享。

智谱开放平台现提供免费的 AI 大模型服务,用户可注册后调用 GLM-4-Flash 模型来构建定制化模型和应用。GLM-4-Flash 适合处理垂直领域、成本敏感、需求快速响应的任务,具备多轮对话、网页浏览、函数调用和长文本推理能力,并支持 26 种语言。平台通过自适应权重量化、并行化、批处理和投机采样等技术优化模型效率,实现推理速度提升和成本降低。

8月28日, Gemini 官方版本更新公告,Gemini Gem 管理器功能已正式上线,这是 Gemini 版的 GPTs。

谷歌在其 AI Studio 中推出了三款新的 Gemini 实验性 AI 模型:Gemini 1.5 Flash-8B、Gemini 1.5 Pro Exp-0827 和 Gemini 1.5 Flash Exp-0827。Gemini 1.5 Flash-8B 拥有 80 亿参数,专为多模态和长文本摘要任务设计;Gemini 1.5 Pro Exp-0827 强化了编程与复杂提示词的处理能力,在 LMSYS 排行榜上升至第二,仅次于 OpenAI 的 GPT-4o-latest;Gemini 1.5 Flash Exp-0827 的性能显著提升,排名从第 23 位跃升至第 6 位。用户可通过 Gemini API 和 Google AI Studio 访问这些新模型。此外,谷歌计划在 9 月 3 日起将 gemini-1.5-pro-exp-0801 模型的请求自动重定向至更新的 gemini-1.5-pro-exp-0827,并移除旧版模型。

Android / macOS 版 ChatGPT 客户端发布新版本。现在您可以使用 ChatGPT 上的“提及”功能,该功能允许用户在一次对话中使用“@”符号调用不同的自定义GPT模型。

8月29日,智谱发布新版基座大模型GLM-4-Plus,在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。GLM-4-Plus 使用了大量模型辅助构造高质量合成数据以提升模型性能;利用 PPO 有效有效提升模型推理(数学、代码算法题等)表现,更好反应人类偏好。新版文生图模型 CogView-3-Plus:具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。智谱还宣布智谱清言App新版现已支持视频通话,AI可以实时“看到”你的表情(陪伴场景),甚至可以来一局“你画我猜”。

谷歌宣布旗下 Gemini AI 支持更多类型的文件,包括电子表格、演示文稿、图像、音频和视频等,为用户提供更优质的 AI 服务。Gemini AI 可以分析、摘录和洞察文档内容,帮助用户提高理解、研究和写作能力。

issue84 2024.9.2-9.8

百度文心一言 App 推送一周年升级,更名为 「文小言」,同时宣布 9 月内文心 4.0 大模型将免费使用。

腾讯在 2024 全球数字生态大会上发布新一代大模型 「混元 Turbo」,采用 MoE 架构,推理效率提升 100%,推理成本降低 50%。其价格较混元 Pro 降低 50%,输出价格为 0.05 元 / 千 tokens,输入价格为 0.015 元 / 千 tokens。

在 2024Inclusion 外滩大会上,蚂蚁集团总裁韩歆毅宣布了全新推出的 AI 独立 App 支小宝,展示了蚂蚁集团在 AI 应用布局上的成果以及服务亿级用户的实践。支小宝 App 的定位是服务型 AI 产品,基于蚂蚁百灵大模型开发。它连接的仍是支付宝生态,在功能上,通过对话进行订票、点餐、打车等。

蚂蚁集团在外滩大会财富论坛上推出升级版 AI 金融管家 「蚂小财」,新版 「蚂小财」 能更实时解读热点,提供个性化专业服务,并在支付宝 APP 全量上线。同时,蚂蚁财富全新 APP 搭载 「蚂小财」 Pro 版上线灰测,这是国内首个实现 AI 原生体验的理财 APP。截至 2024 年 8 月底,「蚂小财」 的月度活跃用户数已达到 7000 万人,其中 45% 来自三线及以下城市。

OpenAI 计划推出大型语言模型的订阅服务,包括专注于推理的 「草莓」 和名为 「Orion猎户座」 的新旗舰 LLM。内部讨论中曾考虑过每月最高 2000 美元的订阅价格,但最终价格尚未确定。这一定价关系到 OpenAI 及其在类似产品领域的竞争对手,如谷歌、Anthropic 等公司。

OpenAI 日本办公室 CEO 长崎忠雄在 KDDI 峰会上透露,新一代模型 GPT-Next 的性能预计将比现有的 GPT-4 模型强大 100 倍,并计划在今年晚些时候发布。GPT-Next 模型的性能提升归功于其优化的架构设计和学习效率的改进。

AI 公司 Anthropic 推出 Claude Enterprise 计划,旨在帮助企业更好地整合 AI 模型与内部知识库,提供个性化丰富的体验。该计划支持上下文窗口达 50 万个词元,原生集成 GitHub,并放宽了使用限制。Anthropic 表示,企业可向 Claude 提供大量知识资料。然而,企业不应过分依赖大型文档处理能力,因为 AI 模型可能出现 「中间丢失」 现象。Claude Enterprise 提供安全功能如 SSO 和基于角色的权限管理,强调保护客户数据,并将推出审计日志和 SCIM 功能。

谷歌推出了新的 AlphaProteo AI模型,旨在设计能与目标分子成功结合的高强度蛋白质结合剂,用于药物设计和疾病理解。该系统能生成新的蛋白结合体,已成功设计出与癌症和糖尿病并发症相关的血管内皮生长因子-A 的蛋白质结合剂,并具有较高的体外实验成功率。谷歌通过测试多种目标蛋白的结合体,包括病毒蛋白和参与癌症、炎症等疾病的蛋白,以验证 AlphaProteo 的效果。

谷歌推出了 Google Photos 应用的新功能 「Ask Photos」,该功能利用 Gemini AI 技术,允许用户通过自然语言搜索照片库,查找特定的回忆或信息。此功能已开始向 iOS 和 Android 用户开放早期访问权限。用户可以提出各种问题,以从自己的图片库中检索相关内容,例如 「我去年在哪里露营。」「我的门票何时过期。」 等。

Replit推出Replit Agent。这个工具旨在协助用户构建手机软件项目。它可以理解自然语言提示,并帮助用户从构思到部署将应用程序从概念变为现实。Replit Agent通过使用自然语言进行控制,使得构建和部署应用程序变得更加简单和高效。它提供了一个创新的方式,让用户可以用简单的语言描述来创建和部署应用程序。

issue85 2024.9.9-9.15

9月12日,OpenAI宣布全新模型o1-preview正式亮相。该模型即为传言了近一年的Q*/草莓。根据OpenAI发布的资料,该模型在智能推理方面达到了前所未有的新高度,因此,模型版本号将从1开始计数。这或许意味着,我们不会再看到GPT-5,o1将成为OpenAI未来的顶尖力量。从9月12日起,ChatGPT Plus和Team用户已可率先体验这一模型。用户可根据需求选择使用o1模型的预览版——o1-preview,或是其精简版——o1-mini。o1-preview每周的使用上限为30条消息,而o1-mini则为50条。由于用户体验热情较高,OpenAI还在9月14日宣布重置本周所有用户的条数限制。

9月10日,Apple举行秋季新品发布会正式发布iPhone 16系列,同时宣布Apple Intelligence美国英语版本将在今年晚些时候在加拿大/澳大利亚/新西兰/英国/南非等市场推出,明年将支持中文/法语/日语/西班牙语。

腾讯推出游戏视频模型GameGen-O,可生成开放世界视频游戏,模拟游戏引擎功能,生成游戏角色、动态环境、复杂动作等,支持交互控制。业内人士称其为游戏工作室的ChatGPT时刻。

法国AI初创公司MistralAI发布了首个多模态模型Pixtral12B,拥有120亿个参数,能够处理图像和文本。然而,HuggingFace的技术主管指出其性能数据可能存在问题。尽管如此,Pixtral12B展示了强大的图像识别和处理能力,包括识别复杂数学符号和生成详细描述。MistralAI计划在聊天机器人和API平台上提供测试。

issue86 2024.9.16-9.22

微软已在Azure OpenAI服务中提供o1-preview和o1-mini两个模型的部署(API)。

微软召开发布会,介绍Microsoft 365 Copilot的Wave 2更新。包括新推出的 Copilot Pages 一站式网页搜索、内容策划和团队写作工具,以及通过 AI 生成 Python 代码快速处理 Excel 数据和一句提示生成 PPT 页面的功能。微软还推出了 Copilot 智能体以简化企业业务流程。

9月18日,360智脑推出基于CoT思维链概念的多模型协作功能,这一功能是通过多个大模型组成的智能体框架实现的,可以让多个模型共同思考和协作解决业务问题。用户可以从多款模型中任选3款,分别做专家、反思者和总结者,以实现更全面、深入的思考和推理过程。

9月19日,阿里巴巴在云栖大会上开源最新的Qwen-2.5大模型,并提供了0.5b-72b的各种尺寸。这一系列大模型包括Qwen2.5、Qwen2.5-Coder和Qwen2.5-Math等不同参数版本,适用于各种业务场景。此举进一步推动了国内大模型研究和应用的发展。

可灵 AI 全球升级发布,新增可灵 1.5 模型和 「运动笔刷」 功能,提升视频生成质量与控制能力。自 6 月发布以来,已进行 9 次迭代,超过 260 万人使用,生成视频超 2700 万部、图片 5300 万张。

智谱AI开源了其图生视频模型CogVideoX-5B-I2V,该模型支持通过一张图片和提示词生成视频。同时开源的还有标注模型cogvlm2-llama3caption,用于将视频内容转换成文本描述。智谱AI团队还发布了一些成功的应用案例,并公开了相关研究论文。

issue87 2024.9.23-9.29

9月25日,Meta推出新一代开源AI模型Llama3.2系列,包含从1B纯文本到90B多模态的多个版本,支持边缘和移动设备,旨在推动人工智能在多种使用案例中的应用。此次发布强调了模型的开放性、可定制性以及在图像理解和视觉推理任务方面的能力,同时提供了预训练和指令微调版本,支持高通和联发科硬件,并针对ARM处理器优化。Meta同日还发布了真AR眼镜Orion,搭载端侧大模型,现阶段作为原型机仅面向开发者,预计消费者版本将于两年内推出。

Google发布了两个Gemini模型更新:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002,提供更多的能力、更快的速度以及更低的成本。新模型在多个基准测试中有显著提升,特别是在数学、长文本和视觉任务方面。Google还降低了Gemini 1.5 Pro的输入和输出token价格超过50%,提高了两个模型的速率限制,并减少了延迟。

OpenAI正在向ChatGPT付费用户全量推出高级语音模式,该功能将使ChatGPT的对话听起来更自然。ChatGPT新增了五种声音,包括Arbor、Maple、Sol、Spruce和Vale,使得总声音数量达到九种。此外,最新版本的高级语音模式在理解口音方面有所改进,对话更加流畅和快速。中文方面,高级语音模式还可以使用北京话、上海话、四川话、粤语等方言口音进行对话。

Claude宣布Artifacts功能免费开放,免费版、Pro版、Team版用户均可立刻上手体验。

钉钉推出了面向个人用户的“365会员”产品,提供包括AI搜索、个人AI助理、AI自动回复和自动速读在内的会员专享权益。365会员中的AI搜索功能可以整合工作和协同信息,个人AI助理支持直接询问、识屏提问、拍照提问等多种交互方式。对于家长用户,会员还提供“成长记录”功能,可以智能识别孩子的照片并自动记录成长轨迹。

9月26日,哗哩哔哩宣布已上线自研大语言模型“index”,并将其应用于AI字幕。目前,B站的AI字幕具备中文、英文、韩语、日语、泰语等近10种语言的实时翻译能力,准确度接近90%。

美图公司宣布其“奇想大模型”的视频生成能力已完成全面升级,现在能够生成时长、画质、流畅性、真实性和可信度更高的视频。升级后,该模型可以支持生成1分钟、每秒24帧、1080P分辨率的超长视频。这项技术的进步将逐步应用于美图秀秀、美颜相机、Wink、开拍、美图设计室、WHEE、MOKI等产品。

字节跳动发布两款视频生成模型,分别是豆包PixelDance和豆包Seaweed。PixelDance单次可生成最长10秒的视频,Seaweed可生成最长5秒的视频,可动态延长至20-30秒。发布会现场,字节展示了PixelDance模型的生成效果,其优势主要体现在对复杂指令的理解方面,适合人物、剧情更为复杂的视频生成,而Seaweed模型的优势主要在于生成视频的清晰度。

issue88 2024.9.30-10.6

10月1日,OpenAI 发布 Whisper large-v3-turbo 语音转录模型,参数 8.09 亿,速度提升 8 倍,解码层数减少至 4 层,体积与 VRAM 需求均降低,并开放 MIT 许可证下的代码及模型权重供 GitHub 用户获取和体验。

10月1日,OpenAI发布Realtime API,即高级语音模式的API,开发者可在Playground中体验,价格较贵,每百万token输入+输出需要300美元。

10月4日,OpenAI宣布了ChatGPT的新增功能——Canvas。基于GPT-4o模型开发而成,它提供了一个单独的窗口,可以与ChatGPT一起执行编程、写作任务,会帮你提供意见、审核和执行具体的功能。例如,当你在编写代码时遇到了困难,Canvas可以高亮显示有问题的代码段,帮助ChatGPT提供内联的调试建议快速修复这些错误;简单来说,可以把Canvas看成是一个内置的AI Agent功能,就是用AI来指导、协助ChatGPT一起执行任务,使输出的内容质量更好、更准确。

Meta发布Meta Movie Gen文生视频模型,被业界称为迄今为止最先进的媒体基础模型(Media Foundation Models),并非扩散模型。它使用了包含 30B 参数的视频生成模型和 13B 参数的音频生成模型。这一全新的 AI 模型采用计算机视觉和自然语言处理技术,通过简单的文本输入就可以生成高质量、高清晰度的视频和音频。其视频生成模型具有 300 亿个参数,能够以每秒 16 帧的速度生成长达 16 秒的视频。该模型结合了多种功能,还支持精准的视频编辑,用户可以输入文本描述生成高清视频,同时上传图像并添加背景音乐和音效。 使其不仅能够生成新视频,还可以生成配音乐的高质量音频。

Google发布NotebookLM,旨在帮助用户更好地整理信息、提出问题并生成答案。用户可以上传自己的文档,然后NotebookLM会立即理解这些来源的内容,使用户能够轻松阅读、记录笔记,并通过该工具来提出问题。这款工具也可以帮助用户更有效地创作和思考,适合于整理、研究和学习等多种场景。

快手可灵 AI 新推出的「对口型」功能,允许用户上传音频后使视频中的人物口型与之同步,目前支持 1.0 和 1.5 模型,且仅限人物角色,API 服务已面向所有用户开放。

Black Forest Labs发布FLUX Pro 1.1版,生成速度比前一版本快6倍,并提高了图像质量、提示依从性和多样性。同时推出官方API。

StackBlitz 推出 bolt.new,将AI代码生成从编码扩展到部署,带有完整的开发环境,可以预览部署后的效果。

issue89 2024.10.7-10.13

由MiniMax推出的海螺AI是一款国产AI视频生成器,它在VBench评测中排名第一,并在五周内实现了月访问量增长8倍多的惊人成绩。这款AI工具不仅吸引了全球180多个地区的专业人士,如电影导演和游戏开发者,还因其在人体动作流畅性和逼真性上的卓越表现而超越了竞争对手Runway。

10月8日,华为的原生AI操作系统“纯血鸿蒙”HarmonyOS NEXT已开始公测,该系统内置了名为小艺的智能体。HarmonyOS NEXT通过原生智能技术实现了AI与操作系统的深度融合,让小艺智能体能够与系统无缝结合,并在多个场景中提供智能化服务。这标志着华为在人工智能领域的进一步发展,为用户提供更智能、更个性化的操作系统体验。

vivo在开发者大会上发布了“蓝心智能”AI战略,展示了其在AI领域的深入布局,包括新一代操作系统OriginOS 5和BlueOS 2。后者搭载了基于Rust语言的蓝河内核,强调安全和高性能。蓝心大模型矩阵也得到全面升级,其中蓝心3B端侧大模型在多个评测中排名第一,性能提升300%,功耗优化达46%。基于蓝心语音大模型,“vivo听说”新增了方言自由说功能,目前支持6种方言,以解决各地区间的沟通障碍问题,让用户可以以自己最熟悉的乡音与手机进行交互。

北京智源人工智能研究院开发的BGE(BAAI General Embedding)模型在Hugging Face月度下载榜上位列第一,这是中国AI模型首次取得这一成绩。BGE模型自发布以来,总下载量已超过1亿次,成为下载量最多的国产AI系列模型。

10月11日,特斯拉在“WE,ROBOT”发布会上展示了无人驾驶出租车Cybercab和多功能无人驾驶厢式货车Robovan,展示了其在自动驾驶技术方面的重大进展。

10月13日,OpenAI在Github上开源了多智能体协同AI Agent——Swarm。与普通AI Agent不同的是,Swarm可以同时创建多个智能体互相协同工作来完成特定任务,包括客户服务、销售支持和售后服务等,同时每个智能体都配备了一套专属工具集以更高效的完成任务。

issue90 2024.10.14-10.20

OpenAI发布了GPT-4o-Audio-Preview模型。该模型能够分析音频输入的情感、语调和音调,并增强互动体验。此外,还提供了语音到语音的互动功能,音频既可以作为输入也可以作为输出。

OpenAI于本周发布了ChatGPT的Windows桌面客户端,提供了一种更便捷的桌面访问方式。此更新旨在提高用户体验和便利性,方便用户在桌面上使用该AI工具进行各种对话。

Meta 推出了一项名为 「自我训练评估器」 的 AI 工具,旨在减少 AI 开发中对人类的依赖。该工具利用 「思维链」 技术提高在科学、编程和数学等领域的答案准确性,并通过完全由 AI 生成的数据进行训练。这展示了实现自主 AI 智能体的可能性,能够从自身错误中学习。此外,自我改进的模型有望减少对昂贵且低效的 「基于人类反馈的强化学习」 的需求。Meta 还发布了其他 AI 工具,包括图像识别模型 「Segment Anything」 的更新和一些有助于发现新型无机材料的数据集。

Perplexity 推出“内部知识搜索”和“Spaces 空间”:内部知识搜索:用户可同时搜索公共网页和企业内部知识库,适合金融、销售、HR 和初创公司团队。Spaces 空间:用户可创建工作空间,邀请团队成员协作。

Google NotebookLM 推出企业版和个性化控制:支持自定义 AI 播客内容,调整解说深度,专注于用户指定的主题。个性化控制:类似给 AI 主持人提示卡,让解说更符合用户需求。

月之暗面推出 kimi 探索版 AI,搜索能力显著提升至普通版的 10 倍,并计划全面推广至用户,同时将新增至手机 App 中。

issue91 2024.10.21-10.27

在Adobe MAX 2024大会上,Adobe推出了一项创新AI工具Project Turntable,该工具可以让用户将2D矢量图像像3D对象一样进行旋转,而无需重新绘制。

10月22日,微软宣布在Dynamics 365中集成10个自主AI Agent,可帮助企业自动执行客服、销售、财务、仓储等业务,开创全新的智能自动化工作模式。这些AI Agent支持OpenAI最新模型o1,可以自动执行跨平台的超复杂业务,能节省大量时间和运营成本。AI Agent会从Microsoft 365 Graph、Dataverse以及其他业务系统的数据,分析工作数据,识别工作模式、趋势,以及潜在的改进领域,从而更好地自动执行业务流程。使用方面也很简单,用户可在Copilot Studio可视化的界面中开发AI Agent,定义如何响应不同的输入和场景以及执行逻辑和规则即可。

10月23日,Anthropic发布了Claude 3.5 Sonnet模型的更新。最新版本的Claude 3.5 Sonnet展示了一项名为Computer Use的功能,能够根据用户指令移动光标、点击相应位置以及通过虚拟键盘输入信息,模仿人类与计算机的交互方式。另外,新的Claude 3.5 Sonnet模型在编程方面也表现出显著的提高。

Anthropic 还在 Claude 中新增了一款分析工具,该工具支持编写和运行 JavaScript 代码,用于处理数据、分析并实时生成洞察。此工具作为 Claude.ai 的新内置功能,类似于 ChatGPT 的代码解释器(Code Interpreter)。Claude 能够根据输入提示和文件,逐步清理、探索和分析数据,达到预期结果,并可创建互动数据可视化。该工具适用于市场营销、销售、产品管理、工程和财务等多个场景,目前处于功能预览阶段。

xAI推出了首款API “Grok-Beta”,这是一种生成式AI模型,支持函数调用,可将xAI的旗舰生成式AI模型Grok连接到数据库和搜索引擎等外部工具。据报道,该API的定价相比行业竞争对手高出许多,每百万输入令牌(token,约等于75万个单词)为5美元,每百万输出令牌为15美元。其定价模式在业内引发了一些热议。

Ideogram 上线Canvas功能,可以在无限画布上对生成的图片进行编辑。这包括扩图、局部重绘和其他基本的编辑功能。这个功能给用户提供了更多的创作自由,让他们可以更灵活地对生成的图片进行修改和完善。

Genmo公司开源了名为Mochi 1的DiT视频生成模型。这个模型基于Apache 2.0许可证发布,支持个人和商业用途的免费使用。它以每秒30帧的速度生成平滑的视频,持续时间长达5.4秒,并具有高时间连贯性和出色的运动质量。这一开放的视频生成模型在动作质量和遵循用户提示方面表现出色。

Midjourney网页版本周推出全新的AI图像编辑器,该编辑器具有多种独特功能,用户可以通过该编辑器轻松上传图像并进行放大、缩小、角度调整等操作。与此同时,该编辑器还能够实现各种二次创作需求,而无需依赖第三方平台。通过新发布的编辑器,用户可以在进行图像编辑时获得更加便捷的操作体验。

10月24日,科大讯飞宣布星火多语言大模型首次发布,除中英文外,可支持俄、日、阿、法等8个语种。根据实用任务场景构建测试集MMT-Eval-1.0,讯飞星火在汽车、家电、办公、翻译等行业的任务场景应用效果超过了GPT-4o。

10月25日,智谱的多模态大模型家族再次加入新成员——GLM-4-Voice(端到端语音模型),并在上线同时宣布开源。这一成果使得大模型具备了完整的感官系统,实现了机器与人交互的自然与流畅。GLM-4-Voice 模型具备直接理解和生成中英文语音的能力,能够根据用户指令灵活调整语音的情感、语调、语速及方言等特征,且具有更低的延时,支持实时打断,进一步提升交互体验。

智谱还同步宣布AutoGLM开启内测,是一款独立的安卓app。AutoGLM是一个具有AI功能的智能体,不仅可以进行语音互动,还可以自动执行手机操作,例如下单网购和朋友圈点赞等。这一新功能表明智谱正在向着更高级的技术方向发展,将AI从简单的语音交互阶段不断提升至执行任务的阶段。有参与内测的用户截图显示,AutoGLM支持8个生活中常用的app,包括微信、美团、淘宝、大众点评、小红书、12306、携程、高德地图。另外,智谱清言的浏览器插件增加高级搜索功能,支持自动在知乎、小红书、知网等网站搜索内容并总结回答。

MagicOS 9.0推出全新的AI智能体YOYO,为用户提供智能服务。从现场演示来看,用户只需向YOYO发出语音指令,比如「我有些困了,帮我点一杯咖啡」,该智能体就能在理解用户需求之后,自主调取和操作手机的相应资源和服务,帮用户点一杯咖啡外卖。荣耀声称,YOYO智能体可完成600项需求意图理解、950项个人习惯记忆、270项复杂任务规划。

issue92 2024.10.28-11.3

10月31日,Anthropic 宣布推出 Claude 桌面客户端,带来快捷键和口述记录支持。这意味着用户现在可以在 macOS 和 Windows 上直接下载 Claude 应用程序,无需再依赖浏览器操作。Anthropic 在一篇博文中写道:”它将 Claude 的功能直接带入您首选的工作环境,这些功能并不包括 Anthropic 最近发布的控制计算机的功能,但允许最新模型 Claude 3.5 Sonnet 升级版在 PC 上执行任务。” 新发布的桌面应用既适用于免费的 Claude 用户,也适用于订购 Anthropic 高级计划的用户。

11月1日,OpenAI宣布为ChatGPT添加搜索功能,让用户可以在对话中直接获取实时网络信息。这项功能目前向付费用户开放,免费用户和企业用户将在未来几周内陆续获得访问权限。最引人注目的是,ChatGPT搜索采用无广告模式,这与传统搜索引擎形成鲜明对比。

GitHub宣布推出Github Spark,用于创建和共享微应用程序(“sparks”),用户可以根据自己的需求和偏好进行定制。通过GitHub Spark,用户可以快速构建小型网页应用程序,而且不需要编写代码。该工具结合了自然语言处理和人工智能技术,使得用户可以用简单的自然语言来描述所需的应用程序功能。GitHub Spark可以帮助用户直接在GitHub上创建和分享个性化的微应用程序。

字节跳动推出了一款名为”炉米Lumi”的AI模型分享社区平台。该平台提供了模型上传分享、Workflow搭建以及LoRA训练等功能。这个平台似乎类似于其他的AI模型分享社区,例如Liblib和CIvitai。Lumi可能会为用户提供模型上传分享和Workflow搭建等服务。

微软开源了一款名为OmniParser的纯视觉基础工具,旨在填补当前屏幕解析技术中的空白。这一工具无需额外的上下文数据,可以理解更复杂的图形用户界面(GUI),并且专为识别和解析图形用户界面的可交互图标而设计。OmniParser结合了可交互区域检测模型、图标描述模型和OCR模块,能够在桌面、移动设备和网页等上跨平台工作,从而为AI技术在屏幕解析上开辟了新的可能性。

知乎直答最近宣布推出了”专业搜索”功能,引入了维普、知乎精选等专业内容源,涵盖超过5000万篇中英文文献数据。这一举措可以帮助用户更加便捷地获取高质量的文献资料,为学术研究和学习提供了更加丰富的资源。

issue93 2024.11.4-11.10

11月5日,腾讯开源混元Large(Hunyuan-Large)模型,是业界参数规模最大、效果最好的开源MoE大语言模型,采用7T训练tokens,总参数量389B,激活参数量52B,上下文长度高达256K,技术报告也同步发布。混元-Large包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8。与有相似激活参数量的业界开源模型Llama3.1-405B、Mixtral-8x22B等相比,在多学科综合评测集、中英文NLP任务、代码、数学等9大维度,混元Large实现全面领先。

同时,腾讯元宝 APP 现在新上线了 AI 搜索能力。支持具有推理能力的深度搜索功能,另外也支持了搜索微信生态更多模态的信息,比如搜索结果里面会有视频号和 QQ 音乐的音频内容。

腾讯开源了混元3D生成大模型(Hunyuan3D-1.0),这是业界首个同时支持文字和图像生成3D的开源大模型。这个模型可以帮助创作者和开发者在10秒内生成高质量的3D资产,可以应用于各种领域,比如UGC 3D创作、商品素材合成以及游戏3D资产生成等。

昆仑万维于11月5日发布天工AI最新版本的高级搜索功能,旨在通过领先的AI技术为全球用户提供创新的智能搜索解决方案。此功能在金融投资、科研学术等多领域进行了多层次分析推理能力的全面升级,显著提升了用户在处理复杂问题时的信息获取效率和结果可靠性。此外,天工AI还优化了文档AI阅读分析功能,增强了对财报、研报、论文等复杂文档的理解和分析能力,为用户提供更高效的专业搜索体验。

11月8日,智谱宣布AI生视频产品“新清影”正式上线,同步开源该产品使用的底层模型CogVideoX v1.5。

xAI推出Grok API的免费公测,每位开发者每月都能获得25美元的免费API额度,一直持续到2024年年底。API完全兼容OpenAI和Anthropic。这项举措旨在为开发者提供更多使用xAI的机会,并促进xAI的API在开发社区中的应用。

Anthropic宣布,Claude 3.5 Haiku已经可以通过API访问。已在Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI上提供。Anthropic的开发者关系运营负责人Alex Albert发帖说,「该模型还更新了截至2024年7月的知识——是所有Claude模型中最新的。」然而,随着性能提升,Haiku的价格提升至之前的4倍,它现在的定价起步为每百万输入tokens $1,每百万输出tokens $5。

Anthropic 与 Palantir 数据挖掘公司和亚马逊云服务(AWS)合作,为美国情报和国防机构提供 Claude 系列 AI 模型。Claude 已可在 Palantir 的国防认证环境(IL6)中使用,该环境基于 AWS 基础设施,用于处理国家安全重要的数据。此次合作将提高政府分析能力和运营效率,为情报分析提供强大的 AI 工具,以及在决策过程中为官员提供支持。

谷歌即将推出全新升级的Gemini-2.0-Pro AI模型。Gemini-2.0-Pro-Exp-0111预计将带来更精确的语言理解和生成能力,更高效的学习机制,以及在图像处理方面的显著提升。新的AI模型将进一步提高Gemini的功能和性能。

11月8日,苹果发布iOS18.2 Public Beta版,正式公测集成了ChatGPT的Siri及Image Playground等AI功能。

Meta最近开源了一个名为NotebookLlama的项目,旨在生成类似播客的文本摘要。这个项目被视为Meta对标谷歌NotebookLM的一次尝试。NotebookLlama使用Meta自家的Llama模型来为用户提供高效的处理,允许用户将文本文件,如PDF文章或博客内容,转化为互动式播客摘要。通过这个项目,用户可以轻松生成从文本文件转化而来的互动式播客风格的内容。

Meta发布MobileLLM,这是一款专门针对智能手机的小语言模型。MobileLLM家族适用于智能手机,Meta也宣布开源了MobileLLM系列模型,其中包括600M、1B和1.5B三种不同参数版本。这一举措旨在为移动设备用户提供更高效的AI辅助功能。Meta还在GitHub上开源了MobileLLM的训练代码,以便研究人员和开发者使用。

issue94 2024.11.11-11.17

百度在2024年百度世界大会上发布了检索增强的文生图技术(iRAG)。这项技术结合了百度搜索的亿级图片资源和强大的基础模型能力,旨在解决大型模型在图像生成方面的幻觉问题。通过将图片资源和模型能力相结合,iRAG使得生成的图片更加真实、自然,并且能够降低“AI味”,让生成的图像更加可信。

百度在2024年百度世界大会推出无代码工具“秒哒”。该工具支持无代码编程、多智能体协作和多工具调用三大特性,号称用自然语言就能搭建一整套系统。演讲现场,李彦宏以萝卜快跑新技术发布会为例,展示了活动报名系统的搭建过程:只要在“秒哒”上用中文描述需求,并补充一份带有大会时间地点主题的文档,就可以指挥多个智能体协作,完成报名系统的开发。

百度还于11月12日发布了首款AI眼镜,即小度AI眼镜。这是全球首款搭载中文大模型的原生AI眼镜,预计将于2025年上半年正式上市。这款眼镜重量仅为45克,搭载16MP超广角摄像头,具备第一视角拍摄、边走边问、识物百科、视听翻译、智能备忘等功能。

阿里通义千问最近开源了Qwen2.5-Coder全系列模型。这一系列模型在代码生成、修复和推理等方面展现出色的表现,并且支持多种编程语言,同时在多个基准测试中达到了与GPT-4o相当的SOTA水平。这意味着Qwen2.5-Coder在开源代码模型领域取得了极具竞争力的位置,并具有强大的代码生成能力。

字节跳动豆包大模型团队发布了SeedEdit通用图像编辑模型,它能够实现自然语言”一句话改图”的新体验。用户可以使用简洁的自然语言指令,进行各种图像编辑操作,包括修图、换装、美化、转化风格、在指定区域添加或删除元素等。这项创新的技术利用了先进的自然语言处理技术和深度学习算法,让用户能够轻松编辑任意图像,而无需专业的P图技能。

谷歌的DeepMind团队开源了诺贝尔奖获得者Alphafold3的源代码。这一模型是一种蛋白质结构建模工具,与之前版本相比,Alphafold3在建模蛋白质与其他分子共同作用时更为精确。通过开源Alphafold3的源代码,学术研究者现在能够自行运行模型,从而推动了AI在生物领域的变革。

OpenAI宣布推出ChatGPT Windows版客户端,为Windows 10用户提供了更加便捷和快速的AI交互体验。该桌面应用支持热键调用,提供了文件分析、搜索对话、文本生成等功能。用户可以从Microsoft Store下载并安装该应用,然后通过快捷键Alt+Space快速启用。此举使得OpenAI进一步拓展了ChatGPT的应用场景,为Windows用户提供了更加顺畅的使用体验。

OpenAI将于明年1月推出一款代号为Operator的新型人工智能代理,它将使ChatGPT能够代表用户完成电脑操作。据彭博社报道,该公司领导层在周三的员工会议上宣布了这一消息。该公司计划通过开发者API作为研究预览推出这项新功能。

11月15日,腾讯正式推出新的AI产品,名为ima.copilot(智能工作台),旨在为用户提供获取知识、搜索、创作文字和图像等功能。ima不仅能够搜索全网信息,还能打通微信公众号文章生态,使用户能够从海量优质知识中获得高质量的信息。这款产品还支持Mac版和Windows版,为用户提供更高效的知识获取和使用体验。

智谱AI发布”智谱清流”企业级智能体开发平台,这是专门为企业AI应用落地而打造的智能体开发平台。该平台提供了Agents、Workflow、知识管理等多种工具,支持API、SDK、URL集成,并利用智谱大模型技术,帮助企业快速构建专业级智能体,实现大模型到业务场景的快速应用。

微软计划在下个月为Copilot引入新功能,用户将能够选择关闭或启用网络搜索。这一新选项将允许用户是否将网络搜索查询发送到Microsoft Bing。用户可以通过新的控制选项禁用或启用网络搜索,从而更好地控制AI聊天的使用体验。

谷歌在App Store上正式推出了其Gemini人工智能聊天机器人的iOS版本。这使得iPhone用户可以使用Gemini应用程序,为用户提供了一个全新的AI交互体验。Gemini应用包括强大的功能,如Gemini Live模式,支持实时语音对话功能,以及与其他应用程序无缝连接的功能。Gemini应用的iOS版本增加了灵动岛集成功能,用户可以使用文本或语音与谷歌的AI进行互动。

月之暗面创始人杨植麟指出,AI 的发展关键是提升 「思考能力」,并透露公司 AI 助手 kimi 月使用人数达 3600 万,同时新数学模型 k0-math 将用于 k12 教育和提升 kimi 搜索能力。

Codeium推出的新IDE Windsurf。其中的Cascade具有高颜值和强大功能,集成了Cursor的所有功能,还支持在IDE内部运行终端命令。Windsurf的用户界面友好,支持直观的VSCode移植,为开发者提供了很好的编程环境。

issue95 2024.11.18-11.24

OpenAI更新GPT-4o模型版本至GPT-4o-2024-11-20。它不仅可以处理文本,还可以理解和生成图像、视频等多种格式的内容。此外,它还具有预测输出功能,可以显著加快模型的输出速度。这个模型已经可以在OpenAI API及一些第三方平台上使用,并且具有良好的性能和效率。

谷歌推出Gemini-Exp-1121实验版,在代码生成和推理任务上表现优异,再次登顶大模型竞技场榜首。

Mistral发布多模态模型Pixtral Large,在视觉数据、图表理解和数学推理领域超越GPT-4o,适用于研究、教育和商业用途。

阿里通义千问发布Qwen2.5-Turbo AI 模型:支持100 万tokens 上下文,这个改进让模型能够处理更长的文本,相当于约100万英语单词或150万汉字。这种长的上下文窗口长度可以容纳10部完整小说或150小时的演讲稿。这一特性可以使模型处理更加复杂和详细的信息,进一步提升模型的认知和推理能力。

幻方DeepSeek团队推出了其最新的模型——DeepSeek-R1-Lite,该模型在数学、编程等复杂逻辑任务中表现出色,媲美OpenAI的o1-preview模型,并在美国数学竞赛(AMC)和全球顶级编程竞赛(Codeforces)等评测中超越GPT-4o。

夸克上线“学术搜索”AI工具,提升学术工作中的信息获取、创作和处理效率,支持生成学术大纲和PPT。

微软发布AI开发平台Azure AI Foundry。旨在帮助任何人都可以轻松使用尖端的AI功能,改变AI开发的游戏规则。Azure AI Foundry提供了一整套工具,支持从模型训练到部署的各个环节,包括文本生成、图像处理和音频处理等,让用户更轻松地在支持人工智能的大型语言模型之间切换。该平台还整合了多个强大的人工智能模型,如OpenAI的GPT-4系列、DALLE-3、Whisper以及Embeddings模型等。这些模型拥有优越的自然语言处理能力,有助于帮助开发者构建和部署人工智能应用。

issue96 2024.11.25-12.1

本周,ChatGPT上线已满两周年,CNNIC发布的《生成式人工智能应用发展报告》显示,截至2024年6月,我国生成式人工智能产品的用户规模达2.3亿人。

Cursor 0.43版本更新引入了新的Composer Agent功能,这是该编辑器的一项重大改进。该功能能够实现自主选择上下文、操作终端和自动完成任务的能力,并对用户界面和性能表现进行了优化。该功能具备完整的项目理解和编辑能力,并对项目进行深度解析。众多用户对这一新功能表示兴奋,并称其为新版本最大亮点之一。

Claude推出新功能,允许用户通过预设样式和自定义样式来自定义对话的语气和形式。用户可以通过上传写作样本或描述需求两种方式来设置AI回复的语气和形式,以实现更加自然、高效的人机互动。这项功能让用户能够打造更具个性化和贴合使用场景的文本生成风格。

Anthropic 推出名为“模型上下文协议”(MCP)的开放标准,旨在通过统一的客户端-服务器架构解决 LLM 应用与数据源连接的难题。它支持通过同一协议访问本地资源(如数据库、文件)和远程资源(如 Slack、GitHub API),无需定制集成。MCP 不仅共享数据,还可公开工具和交互模板,且内置安全性,确保资源由服务器完全掌控。目前 MCP 支持本地运行,未来将引入企业级认证的远程支持,实现团队间的安全共享。通过 Claude 桌面应用,开发者可在短时间内集成 MCP,快速连接多种数据源,推动 AI 集成的标准化发展。

11月28日,阿里云通义团队发布全新AI推理模型QwQ-32B-Preview,并同步开源。评测数据显示,预览版本的QwQ,已展现出研究生水平的科学推理能力,在数学和编程方面表现尤为出色,整体推理水平比肩OpenAI o1。

阿里巴巴开源Qwen2vl – Flux模型,具备图像变化与混合功能,可生成多样效果,推动图像生成技术发展。

中科院自动化所和武汉人工智能研究院联合发布了“紫东太初”3.0,这是全球首个千亿参数量的多模态大模型。该模型采用了统一的编码方法,具有出色的能力,算法和基础设施建设也在同步推进。

Hugging Face推出SmolVLM,20亿参数,体积小速度快内存高效,适用于端侧推理,基准测试表现出色。

昆仑万维最新推出的“天工大模型4.0”o1版(Skywork o1)是国内首个具备中文复杂推理能力的o1模型。这一模型在模型输出中内生了思考、计划和反思等能力,从而显著提升了推理能力、解决复杂任务的能力,被视为具有慢思考推理能力的系列模型。

上海人工智能实验室最近向公众开放了书生·浦语大模型,并发布了InternThinker强推理模型。这个InternThinker模型拥有卓越的长思维能力和在推理过程中自我反思和纠正的能力。它能在数学、代码和逻辑谜题等复杂任务中展现出更优越的性能。

扣子发布应用IDE。可通过UI Builder快速搭建用户界面,开发者无需关心配置环境和服务部署等步骤。使用IDE可以轻松地在多种技术栈中创建基于LLM的可交互的用户界面。此外,IDE还支持将插件发布到不同的社交平台和通讯软件。

智谱于11月29日举行Agent OpenDay活动,带来了多个新进展:• AutoGLM 可以⾃主执⾏超过 50 步的⻓步骤操作,也可以跨 app 执⾏任务;• AutoGLM开启「全⾃动」上⽹新体验,⽀持等数⼗个⽹站的⽆⼈驾驶;• 像⼈⼀样操作计算机的GLM-PC 启动内测,基于视觉多模态模型实现通⽤Agent的技术探索。

360集团推出纳米搜索多模态内容创作引擎,集搜索、学习、写作和创作为一体,形成了一个完整的工作流程。

联想宣布百应平台升级为 IT 服务智能体,涵盖AI营销、AI办公、AI服务三项AI应用。

腾讯混元大模型将于12月3日正式上线视频生成能力,用户可以在腾讯元宝App中提交申请试用。

issue97 2024.12.2-12.8

12月3日,腾讯混元大模型正式上线视频生成能力。此次更新中,HunYuan-Video模型经历了四项核心改进:1、引入超大规模数据处理系统,提升视频画质;2、采用多模态大语言模型(MLLM),优化文本与图像的对齐;3、使用130亿参数的全注意力机制(DIT)和双模态ScalingLaw,增强时空建模与动态表现;4、采用自研3D VAE架构,提升图像和视频的重建能力。与此同时,腾讯宣布将这款拥有130亿参数规模的视频生成模型开源。目前,该模型已在APP与Web端发布,其标准模式下的视频生成大约需要120秒完成。

智谱AI宣布GLM-4V-Flash现已完全免费。用户可以通过调用GLM-4V-Flash免费构建专属模型和应用。这是首个完全免费的视觉大模型API。

12月4日,OpenAI首席执行官Sam Altman宣布从12月5日开始为期12天的「OpenAI 12 天」圣诞大礼包活动,将连续12个工作日发布新的AI功能和产品。

12月5日,OpenAI通过一场小型直播发布了o1模型正式版、o1 Pro mode以及每月200美元的ChatGPT Pro版订阅。OpenAI 将 ChatGPT Pro 订阅用户使用的 o1 模型模式命名为 OpenAI o1 Pro,该模式将使用更多的计算资源为最难的问题提供最佳答案。也正是因为功能足够强大以及需要更多的计算,用户在使用 o1 Pro 时可能会遇到延迟增加问题,OpenAI 会在 ChatGPT 里显示进度条以便提示当前距离出现回答还需要多少时间。后续 OpenAI o1 模型正式版也将支持 API 访问,支持包括函数调用和图像分析等功能。

OpenAI正在向部分用户推出ChatGPT的“All Tools”功能,将图像生成、搜索、Canvas等功能整合,可在同一模型中使用。

12月6日,OpenAI 12天活动 Day2,发布了“强化微调”(RFT),支持对o1 mini和GPT-4o模型进行微调,将于明年第一季度正式推出。

Meta发布Llama 3.3 70B模型,该模型达到了405B模型的性能水平,但体积更小,成本更低。

xAI公司为其AI助手Grok增加了名为Aurora的新图像生成模型,目前已在Grok的Web和移动客户端中上线,生成效果据称优于之前的Flux模型。

微软推出全新的 Copilot Vision 功能,它通过嵌入到 Edge 浏览器中,提供实时网页内容分析和互动。它就像你的第二双眼睛一样,可以与你的网页浏览同步,实时监控你的网页浏览行为,能快速理解网页内容并随时准备提供个性化建议和进行信息处理指导等。这项功能被描述为一种新的浏览方式,使得用户可以与AI直接互动,共同完成网页浏览和相关任务。目前,Copilot Vision处于试用阶段,并且目前仅适用于Microsoft Edge浏览器上的一些特定网站。

Fish Audio 发布 Fish Speech 1.5,在准确性、稳定性、跨语言能力和情感表达方面有显著进步,并新增了五种语言的支持,增强了全球适用性。即将推出的实时无缝对话功能,允许用户随时随地选择语音库进行交互式聊天。

谷歌推出Genie 2,一种大规模基础世界模型,可以生成可交互的3D世界。它利用自回归潜在扩散模型,经过自动编码器后,视频中的潜在帧被传递到大型Transformer动力学模型。这个模型可以生成持续时间长达一分钟的3D世界,同时可以与建模的各种物体进行交互,包括NPC。Genie 2的出现引发了AI游戏开发领域的高度关注。

美东时间12月6日,Meta公司发布了其Llama系列的新成员——Llama 3.3 70B。这款生成式AI模型拥有70亿参数,旨在提升生成式文本的质量和多样性,进一步推动AI技术在各个领域的应用。Llama 3.3 70B的推出标志着Meta在智能生成技术方面的持续创新与发展。

issue98 2024.12.9-12.15

12月9日,OpenAI 12天活动 Day3,Sora视频生成服务正式发布,同步推出产品网站sora.com,已订阅OpenAI Plus和Pro服务的用户可直接登录使用。背后用的Sora Turbo是由OpenAI公司发布的视频生成模型,能够根据文本提示生成逼真的视频。Sora支持生成多种视频比例和编辑功能,包括1080p的高清视频和最长20秒的视频长度。它还具有Remix功能,可以通过修改文本来快速修改视频内容,为用户提供了独特的视频创作体验。另外,值得注意的功能还有“Storyboard”(故事板)。通过Storyboard,用户可以像导演一样,使用时间轴来指导视频的创作。此功能允许用户按照时间戳选择各帧动画要生成的内容,并以此串联生成视频内容。

12月10日,OpenAI 12天活动 Day4,Canvas功能正式免费开放,该功能可以在ChatGPT中运行Python代码,并与OpenAI的主要模型深度集成。Canvas还提供了协作性、拓展功能以及更广泛的可用性。此外,还支持直接显示文本或图形输出结果。

12月10日,Cognition的AI工程师Devin已正式推出,用户每月需要支付高达500美元的订阅费。这个AI程序员被宣传为能够独立开发和修复bug,订阅还包括Slack集成、IDE扩展和API,并提供入职培训和支持。虽然费用较高,但Devin被认为最适合完成小型任务,比如Bug修复和测试生成。

12月11日,OpenAI 12天活动 Day5,ChatGPT与iOS的集成正式在iOS18.2版本推送。在iOS 18.2中,最引人注目的新功能之一是Siri集成了ChatGPT。当Siri遇到无法独立解决的问题时,它将能够直接调用ChatGPT来提供帮助,ChatGPT作为Siri的Extension,通过Siri请求ChatGPT,会话历史也会保存到ChatGPT帐号中。这一功能的实现,不仅提升了Siri的智能水平,也为用户带来了更加丰富的交互体验。在隐私保护方面,通过ChatGPT处理的所有请求都是匿名发送的,充分保护了用户的隐私安全。

Google发布原生多模态输入输出的 Gemini2.0。Gemini2.0是一种原生多模态输入输出的人工智能模型,支持图像、视频和音频等多种输入形式,以及多模态输出,例如与文本混合的原生生成图像和可控的多语言文本转语音。Gemini2.0 Flash是该模型的实验版本,其速度比之前的1.5 Pro快两倍,并具有强大的性能和多语言音频输出能力。另外,基于该模型最新实验版本,Google在AI Studio上线了屏幕共享功能,用户可直接从浏览器开启屏幕共享,让Gemini2.0看着屏幕实时回复你的需求。

Google还宣布了实时多模态沟通助手Project Astra的进展,现在具有以多种语言和混合语言交流的能力,更好地理解口音和不常见的词语。提高了项目 Astra 的记忆能力,确保您可以控制。它现在具有最长 10 分钟的会话记忆,并能够记住与它过去的更多对话。Google还带来了Project Mariner,它能够理解和推理浏览器屏幕上的信息,包括像素和网页元素,如文本、代码、图像和表单,然后通过实验性的 Chrome 扩展使用该信息来完成任务。以及Jules,一款实验性的 AI 驱动代码代理,直接集成到 GitHub 工作流程中。它可以在开发人员的指导和监督下处理问题,制定计划并执行。

12月12日,OpenAI 12天活动 Day6,高级语音模式中加入了视频通话和圣诞老人语音。支持 50 多种语言的 ChatGPT 能够实时理解视觉场景,帮助你解决问题,甚至化身 AI 导师教你掌握新事物。另外,高级语音模式下还能通过下拉菜单中的屏幕共享功能(需允许iPhone屏幕录制)让ChatGPT“看”到屏幕显示画面并实时交流。

Midjourney推出Patchwork在线创作工具,可以通过简短的一句话生成完整的故事世界图像。它具有自动构建“世界”的样子、风格及背景故事的功能,无需用户进行额外的创作。这种工具将AI技术与创意表达相结合,为创作者提供了一个全新的创作方式。

12月13日,OpenAI 12天活动 Day7,带来了 ChatGPT 的一个新功能 Projects(项目),通过项目可以你可以上传文件、设置自定义指令,类似于 GPTs,但是不同于 GPTs 的主要是你可以在一个 Project 中将所有对话组织在一起,还可以把现有会话加入进去。该功能即日起开始向 Plus、Pro 和团队用户推出,企业版和教育版用户将在新年伊始获得该功能。

xAI 宣布向所有 X 平台用户免费推出新版本的 Grok-2 模型。与以往一样,Premium 和 Premium + 用户将获得更高的使用限制,并将优先访问未来的任何新功能。Grok 利用 X 平台实时了解世界正在发生的事情。近期,Grok 推出了两个额外的功能来进一步增强这种体验:网页搜索和引用。目前 Grok 利用来自 X 的帖子和来自更广泛互联网的网页,可为用户的查询提供及时且准确的答案。此外,Grok 还添加了“引用”功能,用户可以轻松深入了解来源,了解更多信息或验证 Grok 提供的信息。

DeepSeek开源了DeepSeek-VL2的视觉模型系列,这是一个专家混合(MoE)视觉-语言模型,训练数据量是前代的两倍。VL2系列包括了多个型号,如Tiny、Small和标准版本,它们在视觉问题回答、光学字符识别等任务上展现出了出色的性能。这一系列模型结合了混合专家架构和动态分辨率图像支持,为视觉和语言理解领域带来了一定的创新。

Google宣布了NotebookLM的产品更新,包括交互和界面的重构、播客生成中支持用户加入跟主持人对话、推出Plus会员。Plus会员有5倍以上的音频概述、笔记本数量以及来源数量,能够自定义笔记本响应的样式和长度,共享团队笔记本以及使用情况分析等。

微信团队发布了多模态大模型POINTS 1.5。这一代POINTS 模型不仅兼顾了POINTS1.0 中所坚持的效率优先的思想,同时也大幅增强了模型的性能。这个模型沿用了POINTS1.0 中使用的经典 LLaVA 架构,由一个 vision encoder,一个 projector 和一个大语言模型组成。

Ilya Sutskever在2024年的NeurIPS会议(Conference on Neural Information Processing Systems)上发表了引人注目的讲话,他认为目前的AI预训练方法已经达到了数据极限,需要适应新的范式。此外,他还表示具有推理能力的人工智能将会变得更加不可预测,而且会具备自我意识。

issue99 2024.12.16-12.22

12月16日,Kimi发布新一代视觉思考模型k1,该模型基于强化学习技术,具备出色的端到端图像理解和思维链分析能力。在基础科学领域的能力测试中,k1超越了全球领先的OpenAI等模型。用户可通过Kimi智能助手的Android、iPhone APP及网页版体验k1的功能,拍照或上传图片以获取详细的推理过程。这标志着AI领域在强化学习技术的推动下,正在迈入新的发展阶段,显著提升AI解决复杂问题的能力。

12月16日,扣子发布了一次重大的模型更新,通义千问模型支持Max版本,超越了原有的8K限制。同时,新加入DeepSeek模型。此次更新还涉及其他多个模型,基本上都进行了全面优化。效果测评显示新的智能体测试标准已实现数据与结果的标准化,大幅增强了智能体编排的实用性和精准性。

12月16日,OpenAI 12天活动 Day8,ChatGPT搜索功能迎来更新,新版本引入“Search as you talk”语音模式,允许用户通过语音进行自然对话和实时搜索。同时,AI搜索进行了全面优化,包括更快的网页跳转、支持强制联网,以及针对移动端的优化,如提供商家信息、集成地图和位置导航功能。为提升用户体验,新版AI搜索会根据上下文智能调整搜索结果。目前,Plus、Team和Pro用户已可体验这些新功能,其他用户将在未来几周内逐步开放。

谷歌推出AI视频生成模型Veo 2,亮点包括支持最高4K分辨率的清晰视频生成,提升了画质以满足高质量内容需求。此外,Veo 2的视频生成时长增加至最多2分钟,为创作者提供了更大的创作灵活性。该模型在真实感和物理模拟方面的显著提升,使得运动捕捉和动态表现更自然,增加了生成视频的可信度。同时,它支持多样化的视觉风格,为创作提供了多重选择。与OpenAI的Sora模型相比,Veo 2在分辨率和视频时长上都有显著优势。

谷歌还同步发布了改进版的AI绘图模型Imagen 3-002,作为Imagen 3的第二代,标志着该模型在短短半年内经历了显著进化。该模型在谷歌的评测中表现突出,显示出卓越的性能。用户现在可以通过谷歌FX官方网站免费体验这一新模型,无需排队。此举不仅进一步推动了AI艺术创作的发展,也显示了谷歌在生成模型领域的持续创新和技术实力。

12月17日,OpenAI 12天活动 Day9,o1 API现在支持函数调用、system message更改为developer message、结构化输出及视觉功能。最新版o1-2024-12-17提升了推理速度,能够处理复杂多步骤任务并提高准确性。此外,实时API更新简化了WebRTC集成,更新了两个模型GPT-4o-realtime-preview-2024-12-17和GPT-4o-mini-realtime-preview-2024-12-17,并将GPT-4o音频价格降低60%。新推出的偏好微调(PFT)技术也可帮助用户和开发者更便捷地定制模型,同时还发布了新的Go和Java SDK。

12月18日,在火山引擎force原动力大会上,火山引擎CEO谭待表示,最新版本的豆包通用模型Pro相比5月在综合能力、推理、指令遵循、代码、数学等方面进行了全方面提升。“更强模型推动企业AI升级。”谭待表示,豆包通用模型Pro为中手游、赛力斯汽车等企业助力了AI升级。

12月18日,在火山引擎force原动力大会上,即梦AI发布了全新的图片生成模型,他现场示范了海报生成功能,只需要一句话,就可以生成海报,不仅提高了效率,还能让创作出设计师水准的海报,更全面的描述,更精美的画面与排版,同时,还可以让海报动起来,实现动态效果。

12月18日,OpenAI 12天活动 Day10,ChatGPT支持电话接入,用户可以在感到难过时拨打电话与ChatGPT倾诉,或通过WhatsApp与其聊天。此举旨在为人们提供一个随时倾诉与支持的平台,尤其是在深夜孤独时。该功能提供每月15分钟的免费电话服务,方便那些不熟悉智能手机的用户使用。此外,AI还具备即时翻译能力,能够帮助不同语言之间的交流,增强人们的情感联系。这些更新旨在让AI更深入人们的生活,成为日常交流和情感慰藉的伙伴。

12月19日,OpenAI 12天活动 Day11,ChatGPT的macOS客户端迎来重大更新,提升了用户体验和应用性能。全新原生应用的代码被重写,资源占用更少,运行更加流畅。用户仅需使用快捷键(Option + 空格)即可快速调出ChatGPT。此更新的亮点是“与应用协同工作”功能,允许ChatGPT直接访问和理解其他应用程序的内容,无需用户手动操作。此外,它具备智能上下文感知能力,可以识别正在使用的应用程序,并提供更相关的帮助,如在终端中识别Git命令。Windows版本也正在开发中。

GitHub Copilot宣布全面免费,开发者现在可以在VS Code中免费使用此AI编程助手。免费版用户每月可获得2000次代码补全和50次聊天请求,同时支持选择Claude 3.5 Sonnet或OpenAI的GPT-4o模型。这一举措降低了使用AI代码助手的门槛,让更多开发者体验到AI带来的便利。用户只需通过GitHub账号注册Copilot免费计划,即可享受丰富的智能编程服务。

12月20日,Google发布了新款Gemini 2.0 Flash Thinking模型,这一推理模型旨在提升AI的思考能力和解决复杂问题的速度。转投Google的Logan Kilpatrick在社交平台X上介绍,Gemini 2.0 Flash Thinking不仅具备强大的推理能力,还能展示其思考过程,带来更直观的AI交互体验。该模型将加入大模型竞技场LMSYS,进一步增强其透明度和可验证性。

12月20日,OpenAI 12天活动 Day12,OpenAI正式宣布全新o3模型系列,该模型在AGI评测中取得了87.5%的令人瞩目成绩,超过了人类水平的85%门槛。o3系列被视为通往通用人工智能(AGI)的重要一步,模型采用了新技术“Deliberative Alignment”,以增强安全性和一致性。OpenAI CEO Sam Altman表示,这一系列将在2025年早些时候发布,目前已开通面向安全研究者的早期测试申请。

快手可灵AI宣布基座模型再升级,视频生成推出可灵1.6模型,效果大幅提升。据了解,1.6模型在文本响应度上提升明显,对运动、时序类动作、运镜等文字描述响应更好;动态质量进一步增强:运动更加合理,人物表情更自然;同时,1.6模型画面质量也再次进化:色彩、光影、细节表现均明显提升。数据显示,可灵AI发布半年来,已拥有超过600万用户,累计生成超6500万个视频和超1.75亿张图片。

issue100 2024.12.23-12.29

动态周报已迎来第100期!在过去近两年的时间里,我们共同见证了ChatGPT发布以来,LLM及应用产品的发展与演变。未来,这场以生成式AI大模型为核心的科技浪潮,还将继续深刻地影响我们的工作和生活。

12月23日,OpenAI首席执行官Sam Altman宣布了“Day13”特别奖励——Sora无限用。他表示,为了迎接圣诞节,人们在12月底通常会放假休息,OpenAI的GPU就没有那么繁忙。所以,假期期间能为所有订阅用户无限制的提供文生视频模型Sora,轻松跳过烦人的队列等待。

xAI推出Grok的独立iOS应用。目前,这款应用正在澳大利亚及部分其他国家进行测试。Grok能够实时获取来自网络和社交媒体平台X的数据,并提供多种生成式AI功能,例如重写文本、总结长篇段落、简单问答功能,以及根据用户的文字提示生成图像。

Cursor 0.44版本发布,本次更新带来了全新的YOLO模式,这一模式显著提升了AI编程的智能化水平。YOLO模式的引入使得编程变得更加直观和简单,甚至使得没有编程基础的用户也能够轻松上手进行开发。在这个版本中,Cursor不仅优化了其代理功能,还增加了一些实用的多功能集成,比如@docs、@git、@web和@folder等功能,这些都进一步增强了用户的操作效率。更新后的Cursor 0.44被认为是一个革命性的工具,使得编程体验更加顺畅和高效。

12月25日,阿里云通义千问发布业界首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。多项评测数据显示,QVQ超越了此前的视觉理解模型「开源王者」Qwen2-VL,整体表现与「满血版」OpenAI o1、Claude3.5 Sonnet等推理模型相当。

12月26日,深度求索(DeepSeek)正式发布了全新系列模型DeepSeek-V3,并同步开源(DeepSeek-V3-Base)。用户可通过官方网站chat.deepseek.com与该模型进行互动。该模型基于自研的Mixture of Experts(MoE)架构,拥有671亿参数和37亿激活参数,经过14.8万亿token的预训练。虽然DeepSeek-V3目前不支持多模态输入输出,但其表现已与业内领先的闭源模型对齐,其中与 V2.5(17.8%)相比,V3 编程性能暴增到了 48.4%,整整提升了近 31%。API服务也已更新,用户无需改动接口配置。

阶跃星辰推出了图像生成模型Step-1X系列的全新升级版本Step-1X-Medium。该模型采用MMDit架构,生成速度提升超过30%。经过针对性训练,Step-1X-Medium具备更强的理解能力和图文一致性,能够生成更自然的细节质感。此外,新增的“图生图”功能允许用户上传图片并通过简单的提示进行细节增强和风格迁移。该模型在“中国风”内容创作能力上也得到了强化,能够更好地捕捉东方文化的细腻之处,并支持在生成图像中添加英文文本。

智谱宣布将其基座模型GLM-PC的开源版本CogAgent-9B发布,供社区进行开发。CogAgent-9B-20241220基于GLM-4V-9B进行专用Agent任务训练,能够仅通过屏幕截图输入,结合用户历史操作,预测下一步的图形用户界面(GUI)操作。与2023年12月开源的第一版相比,新模型在GUI感知、推理准确性及任务普适性方面取得显著改进,同时支持中英文双语的屏幕截图和语言交互,适用于多种基于GUI的应用场景,包括个人电脑、手机及车载设备。

理想汽车发布智能助手独立应用:理想同学App,理想同学和智能驾驶是理想汽车的两大核心AI产品。理想汽车董事长兼CEO李想表示:“我们在做的理想同学和自动驾驶,通常被视作独立的领域。我们的大语言模型Mind GPT是认知智能,连接数字世界;而自动驾驶被称为空间智能,关乎物理世界。我们同时在这两个领域探索,并坚信认知智能与空间智能的结合——我们称之为VLA(Vision Language Action Model,视觉语言行动模型)。

issue101 2024.12.30-2025.1.5

可灵AI推出升级版文生图模型“可图1.5”,强化了语义理解,特别适应亚洲人。此外,新功能“AI模特”与现有的AI换装功能融合,为电商、广告等行业提供了一整套高效的可视化展示解决方案。用户能通过简易设置快速生成AI模特,再通过AI换装功能展示服装,甚至进行动态视频展示,大幅降低传统拍摄成本。

阿里云宣布对其大模型进行本年度第三轮降价,通义千问视觉理解模型全线降价超过80%。其中,Qwen-VL-Plus的价格下降81%,现为0.0015元/千tokens,成为全网最低价;而性能更高的Qwen-VL-Max降至0.003元/千tokens,降幅达到85%。按此定价,1元可处理大约600张720P图片或1700张480P图片,此举将显著降低用户使用成本,推动视觉理解技术的广泛应用。

阿里巴巴通义团队推出了全新AI开发框架Qwen-Agent,基于其Qwen语言模型,旨在帮助开发者构建复杂的智能体。该框架具备多种高级功能,支持智能体执行复杂任务,提供指令遵循、工具使用以及自动记忆能力。

智谱Flash系列新推出四大免费模型,全面支持对话、图文和视频等多种模态。这些模型旨在提升用户的多媒体交互体验,推动智能对话与内容生成的应用场景。用户可免费体验这些功能,进一步探索人工智能在多模态交流中的潜力。

「智谱清言」网页版上线了其新的Zero推理模型GLM-Zero-Preview,这是该系列的初代版本,预计是智谱在2024年发布的最后一个模型。官方称,该模型专注于推理能力,特别擅长处理涉及数理逻辑、代码及其他复杂问题的深度推理。

马斯克在社交平台上宣布,即将推出Grok 3模型,其预训练已完成,计算量相比Grok 2提升了十倍。这一全新模型由马斯克旗下的xAI公司开发,将为用户提供更强大的人工智能支持。训练过程中使用了10万块英伟达H100芯片,标志着Grok系列在性能上的重大突破。

issue102 2025.1.6-1.12

2025年1月6日,昆仑万维正式上线其最新的「天工大模型4.0」版本,包括创新的o1版和功能更强的4o版,均可在天工网页和APP上免费使用。Skywork o1作为国内首款具备中文逻辑推理能力的模型,经过全面技术升级,能高效处理数学、代码、逻辑等多种推理挑战。同时,Skywork 4o多模态模型支持的实时语音助手Skyo,具备情感表达和快速响应能力,为用户提供温暖和流畅的对话体验。

在拉斯维加斯的CES 2025展会上,英伟达CEO黄仁勋发布了全新GeForce RTX 5090显卡,标志着RTX 50系列的发布。RTX 5090在多项性能参数上突破,具备920亿晶体管和3352 AI TOPS,比RTX 4090性能提升了两倍,支持DLSS 4,显著提高游戏体验。国行价格起步为16499元,RTX 5070则定价4599元。英伟达还发布了全新的Cosmos世界模型平台和Project DIGITS超级计算机,使AI开发更加高效和普及。

谷歌推出了一款名为“Learn About”的AI学习工具,旨在帮助用户深入理解各类知识点。该工具基于谷歌的LearnLM模型,能够提供丰富的文本、视频信息,并以对话式形式逐步拆解复杂概念,还能总结学习框架。用户可以通过与AI互动,获得个性化学习体验。

1月9日,阿里巴巴推出的通义万相2.1模型在视频生成领域实现重大突破,首次支持直接通过自然语言生成文字特效视频,兼容中英文及数字。此模型通过复杂运动、写实与科幻特效等多样化风格的生成,展现了其强大的技术能力。用户反馈显示,万相2.1在控制肢体动作与视觉效果方面表现优秀。此外,该模型还提供了文生图功能,能够生成连贯的剧情图像,助力短视频和广告设计。

在2025年CES上,雷鸟创新发布了新款雷鸟V3 AI拍摄眼镜,搭载了猎鹰影像系统、阿里通义千问独家定制大模型及骁龙AR1旗舰芯片。这款智能眼镜打造了业内首个针对AI的多模态交互架构,旨在实现卓越的交互体验。创始人李宏伟指出,雷鸟与阿里之间的合作聚焦于真正的用户体验,而不仅仅是应用通用大模型。此外,与雷鸟V3相似,Rokid、闪极、XREAL等其他AR眼镜也将接入阿里的AI大模型,提供丰富的功能,如AI助手和多种智能识别服务,展现出AR与AI融合的未来潜力。

在2025年CES上,英伟达CEO黄仁勋首次系统展示了AI Agents的商业前景,提出其将成为继个人电脑和互联网之后的重要技术突破。他指出,AI Agents有望重塑全球10亿知识工作者的工作方式,并明确了五大商业化方向,包括智能代理机器人、人工机器人和自动驾驶汽车等关键领域。演讲中,黄仁勋展示了多个AI Agents实际应用案例,如提高新药研发效率的虚拟实验室、加强天气预测精度的气象代理等。NVIDIA的Nemo平台将帮助企业规模化部署AI Agents,将其融入日常运营,扮演数字员工的角色。这一变革预计将创造数万亿美元的新市场,提升人类工作效率,激发创新能力,推动产业革命的进程。

1月9日,谷歌宣布对NotebookLM进行重大更新,推出了Gemini 2.0 Flash实验版本及更多功能,包括全新界面的改进、用户在音频播放期间可直接与AI主持人互动,并推出了付费版本NotebookLM Plus。NotebookLM现已被数百万用户和多个组织使用,经过重新设计后,包括“来源”、“聊天”和“工作室”三个功能区域,分别用于管理信息、进行对话式讨论和创建新内容,如学习指南和简报。此更新旨在提升用户体验并增强内容创作能力。

马斯克旗下的xAI推出了独立应用Grok,该应用于1月10日在苹果App Store正式上线,用户可以免费下载使用。Grok不仅是应用的名称,也是xAI开发的AI语言模型。此前,用户只能通过社交媒体平台X接触到Grok。新的应用为用户提供了多种功能,包括生成图像和实时访问网络及X社交网络信息。此外,付费用户能够享受更高的使用权限,目前该应用在美国及其他地区开放测试。

英伟达开源了Sana模型,支持直接生成高达4K分辨率的图像。该模型采用Sana-0.6B版本,可以在16GB显存的GPU上运行,生成1024 × 1024分辨率的图片仅需不到1秒钟。官方还已支持ComfyUI,并提供了Lora训练工具,从而为开发者和艺术家提供了强大的图像生成能力。这一举措将进一步推动生成式AI在图像创作领域的应用和发展。

issue103 2025.1.13-1.19

1月13日,MiniMax宣布推出最新的语言大模型,并首次全面开源。新发布的文本模型MiniMax-Text-01和多模态模型MiniMax-VL-01采用了全新的Lightning Attention架构,显著降低了推理成本。MiniMax-Text-01的参数高达4560亿,并配备32个专家,同时支持超长达400万字的文本处理,其性能媲美顶尖海外模型。MiniMax还发布了模型、代码和技术报告,彰显其开放态度。目前,用户可以通过网页体验和API进行在线体验与商用。

Mistral AI于1月13日发布了最新的代码生成模型Codestral 25.01,该模型的上下文窗口扩展至256K,是前一代的8倍,能够更好地理解长文本上下文。新版本采用更高效的架构和分词技术,生成速度大幅提升,能够满足高频、低延迟的代码生成需求。

1月15日,全新多模态图片理解模型moonshot-v1-vision-preview正式发布,进一步增强了moonshot-v1系列的多模态能力,使Kimi能够更好地理解世界。该Vision模型具备强大的图像识别能力,能够准确识别复杂细节和微小差别,无论是食物还是动物。它能够有效区分相似的对象,例如在16张蓝莓松饼和吉娃娃图片中,模型能精确识别并标记每个图像的类型,展示出卓越的图像理解性能。

科大讯飞正式发布了讯飞星火深度推理模型X1。该模型基于全国产算力平台,是国内首个落地于真实应用场景的深度推理模型,尤其在教育和医疗领域展现了显著优势。实测结果显示星火X1能够解决全学段的数学问题,并且推理速度表现理想。

1月15日,国产视频大模型Vidu 2.0正式发布。该模型在速度上表现出色,生成4秒512P单片段视频的时间不超过10秒,而单秒视频的成本仅为4分钱。此外,自2024年7月底全球上线以来,Vidu在短短20天内吸引了超过百万用户,并在100天内用户总数突破千万,这表明其受欢迎程度和市场潜力。Vidu 2.0的发布为视频内容生成领域注入了新的动力。

1月15日,MiniMax旗下海螺AI推出了全新文本到音频技术Hailuo Audio HD (T2A-01-HD),其快速克隆功能能够在仅需10秒的时间内完成语音克隆。该技术配备首创的智能情感系统,旨在捕捉并重现语音中的情感。此外,海螺AI的音频克隆功能也具备类似优势,用户通过上传10至60秒的音频素材就能轻松复刻声音,并且支持多达12种语言。

1月16日,面壁智能正式发布端侧大模型MiniCPM-o 2.6,作为一款开源的多模态大模型,其性能接近GPT-4o。该模型支持实时双语语音识别以及视觉、语音和多模态流式交互,能在仅8B参数量下高效运行。MiniCPM-o 2.6可处理连续的视频和音频流,实现实时语音对话,参数优化使其在自动语音识别和语音生成方面优于其他同类模型。该技术的推出将极大推动多模态AI应用的发展,并支持在多个设备上运行,包括iPad等。

智谱发布了新款端到端多模态模型GLM-Realtime E2E,该模型在实时视频理解和语音互动方面表现卓越。GLM-Realtime不仅支持近乎实时的交互和清唱功能,还具备长达2分钟的记忆能力以及强大的功能调用特性。该模型旨在提升用户与AI系统的交互体验,适用于多种实时场景,将为智能助手的建设提供更为坚实的基础。

OpenAI再更新ChatGPT,推出“自定义指令”功能。该功能允许用户设定模型的个性化特征,例如性格、语气和思考方式,旨在提升用户的互动体验。用户可以添加特定的指令和偏好,这些指令将影响模型在未来对话中的响应。

issue104 2025.1.20-1.26

1月20日,字节跳动发布了全新AI中文IDE——Trae,旨在为开发者提供更高效的编程支持。该IDE集成了GPT-4o及Claude 3.5模型,支持代码自动补全、AI问答和基于Agent的AI编程等功能,帮助程序员自动化完成开发任务。Trae特别设计为中文用户友好,提供简体中文界面,且目前限时免费。

微信公众平台开始邀请创作者体验其新推出的智能回复功能,该功能能够根据用户之前发布的文章风格及内容进行自动回复。当用户开启此功能后,AI将学习并模拟其过去的写作风格,以便为粉丝提供更个性化的回复。此更新旨在提升公众号与读者之间的互动体验,减少用户的回复负担。同时,原有的公众号关键词回复和关注自动回复不受影响。

1月20日,豆包大模型团队正式推出其实时语音大模型,并在豆包 APP 7.2.0版本中全量开放体验。该模型集成语音理解与生成,实现端到端的语音对话,显著优于传统语音处理模式。其低延迟、支持对话随时打断等特性,提升了语音表现力和情感传递。据用户反馈,该模型在语音自然度和情绪表现上明显优于 GPT-4o。团队表示,此次推出具有里程碑意义,能够满足中国用户需求,直接为亿万用户提供服务。

1月20日,DeepSeek 发布并开源了 R1 模型,其性能与 OpenAI 的 o1 正式版相当,但输出价格只有后者的1/27。R1 模型采用 MIT 许可证,允许用户进行无限制的商业使用,并且明确支持用户利用 DeepSeek-R1 进行其他模型的训练。随后的几天,R1模型的训练成本以及表现在海外尤其是在美国引发了热烈的讨论。截至本期周报发稿时,DeepSeek的App已经在多个国家和地区的AppStore总榜上进入前10,部分国家和地区甚至登顶。

1月20日,Kimi 发布了全新 SOTA 模型——k1.5 多模态思考模型,这是该系列的连续第三次重磅升级,继去年 11 月和 12 月的 k0-math 和 k1 视觉思考模型之后。根据基准测试,k1.5 在多模态推理和通用推理能力上达到了SOTA级别,尤其在 short-CoT 模式下,其数学、代码和视觉能力超越了全球短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet,领先幅度高达 550%。此外,Kimi 还首次公开了模型训练的技术报告。

商汤科技日日新融合大模型交互版(SenseNova-5o)开放商用,实时音视频对话限时免费。

1月22日,火山引擎宣布,豆包大模型1.5Pro正式发布,目前已全面上线火山方舟。豆包大模型1.5Pro在知识(MMLU_PRO、GPQA)、代码(McEval、FullStackBench)、推理(DROP)、中文(CMMLU、C-Eval)等多项公开测评基准上成绩全球领先。

谷歌悄然推出更新——Google Gemini 2 Flash Thinking Experimental 01–21,该模型在LMsys Arena上排名第一,领先其他模型,如GPT-4.0、OpenAI-o1、DeepSeek-R1和Claude 3.5 Sonnet。Gemini 2.0 Flash Thinking以1380的Arena Score取得卓越表现,显示出在准确性、推理能力、流畅性和一致性等评估标准上的优势。用户可通过Google AI Studio免费试用该模型。

1月22日,OpenAI宣布启动“Stargate星际之门”项目,计划在未来四年投资5000亿美元于美国的人工智能基础设施建设,首批1000亿资金已开始投入。该项目的投资者包括软银、OpenAI和Oracle等,软银创始人孙正义将担任主席。其目标在于推动美国在AI领域的领先地位,创造就业机会,并保障国家安全。目前,德克萨斯州的基础设施建设已正式启动,吸引了众多相关企业的参与。

Perplexity推出Sonar实时搜索API,提供基础版和功能更强大的Pro版,后者支持高级深度查询和复杂问题解决。企业应用方面,Zoom已通过Sonar增强其原生搜索功能。在数据安全方面,Sonar确保不用于大型语言模型(LLM)的训练,方便快速接入应用开发。Sonar Pro在SimpleQA基准测试中表现优于主流搜索引擎和各大语言模型,进一步提升了搜索效率和准确性。

1月23日,智谱华章宣布其GLM-PC正式开放体验,标志着自主操作电脑的多模态Agent技术升级。这一基于智谱多模态大模型CogAgent的智能体,成为全球首个面向公众、无需额外配置即可使用的电脑智能体。GLM-PC能够像人类一样“观察”和“操作”计算机,有效协助用户完成各种任务,展示了人工智能在日常计算中的应用潜力。

字节跳动开源了一款自学型UI Agent——UI-TARS,旨在实现复杂任务的自动化,支持跨平台操作,包括网页、桌面和移动设备。该代理具有理解界面的能力、高级推理能力,并且能够不断学习,其性能优于主流模型,如GPT-4。应用场景包括复杂的动态交互、表单填写、批量处理及在线预订等。此外,UI-TARS还提供了开发框架,支持在桌面和网页端运行,方便开发者进行集成和使用。

1月21日,阶跃星辰升级了其Step-1o系列模型,成为首个实现文本、视觉与语音三模态端到端融合的模型。该系列包括多模态理解模型Step-1o Vision和升级后的语音模型Step-1o Audio。阶跃在视觉理解方面表现卓越,尤其在LMSYS Org最新的Chatbot Arena视觉排名中名列前茅,展现了其在人工智能领域的强大竞争力。

1月24日,OpenAI发布了其新智能体“Operator”,标志着其迈入“Level 3”时代。Operator能够全自主地与浏览器互动,处理复杂任务,如购物和预定餐厅,用户仅需给出初始指令。其核心技术基于新的Computer-Using-Agent(CUA)模型,结合了视觉能力和推理能力,实现自主操作,无需API集成。目前该功能仅向部分Pro用户(200美元订阅)开放,OpenAI还计划在未来几周内推出更多智能体,展示了其在人工智能领域的进一步发展潜力。

跃问App推出了全新“创意板”功能,允许用户无需代码知识便可轻松自制应用和游戏。用户只需通过简单的自然语言描述自己的需求,创意板便能生成各种场景和工具,如趣味游戏、互动网页和可视化图表。该功能支持实时修改与个性化调整,用户可将生成的内容分享至多个平台,与朋友们一同体验。这一创意板被认为是国内首个专注于应用与游戏生成的创新功能,展示了AI在日常生活中的便利性与创造性。

OpenAI对ChatGPT的Canvas功能进行了更新,现已全面支持o1模型,并新增了直接渲染HTML和React代码的能力。这一更新不仅提升了Pro、Plus和Team用户的使用体验,也让Free用户可以享受到HTML和React的渲染功能。macOS ChatGPT桌面应用程序也已全面集成Canvas功能,使用户能够轻松构建和运行互动式应用。

1月25日,Ollama上线deepseek-r1模型,并在首页推荐,支持用户本地部署。

issue105 2025.1.27-2.2

本周正值中国春节假期,DeepSeek引发的舆论讨论继续在全球社交媒体发酵。除夕当天,DeepSeek应用在全球所有区AppStore登顶,随后几天,主流云服务(包括Azure和AWS)的大模型平台和主流的AI代码编辑器(包括Cursor、Windsurf和flowith等)均上线了自部署的DeepSeek-R1模型,上演了大型“口嫌体正”现场。

1月27日,DeepSeek发布了其大一统模型Janus-Pro,采用统一的Transformer架构,能够同时实现图片理解和生成。该模型提供1B和7B两种规模,适配多种应用场景,性能强大。Janus-Pro全面开源,支持商用,使用MIT协议,便于部署和应用。此外,该模型在基准测试中的表现优异,展现出更全面的能力。

1月27日,阿里通义千问发布了开源 Qwen2.5-1M 模型及推理框架,包含 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 模型,首次实现 1M 长度的上下文扩展。同时,团队开源了基于 vLLM 的推理框架,通过稀疏注意力技术使处理速度提升 3 至 7 倍。此外,Qwen 推出了 Chat 平台Qwen Chat(https://chat.qwenlm.ai/),用户可进行对话、编程与生成多媒体内容,支持 1M 长序列的处理。

1月27日,通义千问还发布了全新的视觉模型 Qwen2.5-VL,并在多个方面实现了显著飞跃。相较于上一版本 Qwen2-VL,Qwen2.5-VL 开源了 Base 和 Instruct 模型,提供 3B、7B 和 72B 三种模型尺寸。该模型的主要特点包括更丰富的感知能力,能够识别和分析图像中的文本、图表和布局,并具备推理能力,能够动态地使用工具,初步具备电脑和手机操作能力。此外,Qwen2.5-VL 还能够理解超过 1 小时的长视频,具有重要的应用潜力。

1月28日,DeepSeek R1 模型现在可用于 Perplexity 的深度网络研究。Perplexity 澄清说,通过其平台使用 DeepSeek R1 会将用户数据保存在“西方的服务器”上。Perplexity 上的 DeepSeek R1模型托管在美国/欧盟数据中心。

1月29日,微软宣布 DeepSeek R1 现已在 Azure AI Foundry 和 GitHub 上的模型目录中提供,加入了由 1,800 多个模型组成的多样化组合,包括前沿、开源、行业特定和基于任务的 AI 模型。DeepSeek R1 可以在受信任、可扩展且企业就绪的平台上访问,使企业能够无缝集成高级 AI,很快就能在微软AI电脑Copilot+ PC上运行。

1月30日,阿里巴巴发布了 Qwen 2.5-Max 模型,该模型是阿里云团队对 MoE 模型的最新成果,预训练数据超过 20 万亿 tokens。在多项基准测试中,Qwen 2.5-Max 几乎全面超越了 DeepSeek-V3、GPT-4o 和 Llama-3.1-405B。随着 DeepSeek 推动的国产 AI 资产重估浪潮,阿里凭借其雄厚的云业务投资和领先的 AI 能力,有望重塑市场估值。

1月30日,阿里云发布百炼qwen-max系列模型价格调整通知,qwen-max、qwen-max-2025-01-25、qwen-max-latest三款模型输入输出价格调整,qwen-max batch和cache同步降价。

1月31日,英伟达宣布:「DeepSeek-R1上线NVIDIA NIM」,在单个NVIDIA HGX H200系统上,DeepSeek-R1的处理速度可达3,872 Token/秒。同日,亚马逊也在Amazon Bedrock和SageMaker AI中,上线了DeepSeek-R1模型。

1月31日,华为云宣布DeepSeek-R1上线华为云ModelArts模型即服务MaaS平台。

1月31日,AI编程工具Windsurf和Cursor均宣布更新:正式支持DeepSeek系列AI模型,包括R1和V3。Windsurf称DeepSeek模型均部署在西方服务器,V3模型使用成本仅为Claude3.5的1/4,R1模型使用成本为Claude3.5的一半。

2月1日,OpenAI 宣布 o3-mini 与 o3-mini-high 模型上线,该模型现已可在 ChatGPT 和 API 中使用。o3-mini 在性能上表现出色,相较于 o1-mini,响应速度提升了 24%,并且答案更为准确。该模型不仅展示推理过程,还能在编码评估中随着思考时间的增加表现持续提升。在数学能力测评和处理困难数据集方面,o3-mini 同样表现优异。开发者可通过 OpenAI 的 API 使用该模型,付费用户可选择提供更高智能的 o3-mini-high 版本,而免费用户通过选择“推理”模式也能体验这一功能。

2月1日,硅基流动宣布其大模型云服务平台 SiliconCloud 正式上线基于华为云昇腾云服务的 DeepSeek-V3 和 DeepSeek-R1。此次发布被视为为国内用户的春节礼物,代表着在深度学习领域的重要进展。

2月2日,腾讯云宣布 DeepSeek-R1 大模型现支持一键部署至腾讯云的「HAI」平台,开发者可在3分钟内轻松接入和调用。腾讯云表示,通过「HAI」,开发者无需再进行繁琐的步骤,如购买卡片、安装驱动、配置网络和存储等,简化了部署流程,实现快速模型调用,提升了开发效率。

2月2日,OpenAI推出Deep Research深度搜索工具,旨在为需要调研和信息检索的领域提供有力支持,如医学、金融和科研等。该工具采用优化版o3模型,能够在5-30分钟内搜索网页与分析文件,并生成简明详细的报告。功能包括支持网站内容读取、数据处理与图表生成,引用来源作为论据,实时显示进度。现已向Pro用户开放,月限100次,并计划扩展至移动及桌面端。Plus用户将在约一个月后获得使用权限。需要注意的是,目前不支持英国、瑞士和欧洲经济区。

issue106 2025.2.3-2.9

macOS 版 ChatGPT 客户端更新至 1.2025.031 版本,新增了“推理”选项,用户可以在斜杠指令中使用这个功能。启用该功能时将调用o3-mini模型。

2月3日,得效Agents平台宣布接入DeepSeek-R1模型,同时此前已支持的DeepSeek-Chat与DeepSeek-Coder两款模型均已升级到V3。用户在创建Agent时可选择R1模型,此举将全面提升智能体工作流中AI处理内容的质量和水平。

华为鸿蒙NEXT内置的智能助手小艺现已接入DeepSeek-R1模型。升级至HarmonyOS NEXT 版本的用户,将小艺App 升级至11.2.10.310 版本及以上,打开小艺App,点击“发现”-“智能体”-“DeepSeek-R1”,即可体验DeepSeek。

2月6日,Google于Gemini推出新模型,Gemini 2.0 Flash Thinking实验版,现已在Gemini Web网页端上线,该模型已在大模型竞技场lmarena登顶。同时,还为Gemini Advanced付费订阅的高级用户提供了Gemini 2.0 Pro实验版模型。全新的模型旨在提升用户的思维和创作效率,进一步增强谷歌在人工智能助理领域的竞争力。

2月6日凌晨,OpenAI宣布,免费向所有用户开放ChatGPT搜索功能,无需注册。这一创新性举措标志着OpenAI在搜索引擎领域的更大竞争力,ChatGPT搜索能够快速抓取网络信息、解读用户想法并提供来源地址。相比传统搜索引擎如谷歌,能实现分钟级别的解析。这一决策引发了广泛讨论,许多用户和业内专家认为,这可能会冲击传统搜索引擎的市场格局,预示着搜索方式的重大变革。

字节跳动推出全新多模态视频生成模型OmniHuman,旨在提升数字人动画生成的效率与真实感。该模型允许用户仅通过一张图片和一段音频即可生成生动的动态视频,兼容多种图片尺寸与人物占比。2月8日,该模型已上线即梦AI。OmniHuman的问世标志着字节跳动在AI视频创作领域的又一次技术突破,可能会对内容创作模式产生重大的影响,并推动数字人技术的商业化发展。

Pika发布名为Pikadditions的创新工具,它能够将任何图片中的物体无缝融合到用户拍摄的视频中,而不会改变原有视频的内容。这项技术的推出为视频创作和编辑带来了新的可能性,使得用户可以在不影响视频整体风格和结构的情况下,添加个性化的视觉元素。Pikadditions的这一创新功能将为内容创作者提供更大的灵活性和创作自由,提升视频制作的趣味性和多样性。

钉钉宣布率先接入DeepSeek。用户在创建AI助理时可以直接选择DeepSeek系列的R1、V3等三种模型。同时,钉钉推出了全新模板,旨在简化用户创建与发布基于DeepSeek模型的AI助理的过程。用户在创建AI助力的过程中,即可选择DeepSeek系列模型,在工作流配置界面中,也可选择DeepSeek系列模型,体验这些模型的智能互动功能。这一更新将大幅提升用户体验,使AI助理的创建更加便捷高效。

GitHub推出了Copilot Edits,这一新功能类似于Devin,能够无监督地编写代码。Copilot Edits利用先进的AI技术,根据用户的意图和上下文,自动生成和编辑代码,提高开发效率和编程体验。新的代理模式增强了Copilot的能力,使其能够自主迭代代码、建议命令并在无需用户干预的情况下修复错误。这一更新标志着GitHub在智能编程助手领域的又一次突破,旨在帮助开发者更轻松地进行代码创作和修改,推动软件开发的创新与进步。

闺蜜机使用体验

闺蜜机/随心屏这个品类,是LG standbyME设备在2022年创立的,可旋转可移动的27寸触摸屏,我觉得很适合作为家里的第二屏。今年几乎国内所有的电视厂商都推出了同类产品,几番对比之后,入手了小度旗下的添添闺蜜机。

虽然乍看就是个大号安卓平板,但实际体验之后,发现还是挺香的:

-类纸屏,不会有镜面反光,显示效果跟环境融入得很好,跟Samsung Serif和LG Pose这类画境电视很像。既可以用作相框,也适合用作实时信息屏。

-27寸的大小刚刚好,无论是放在卧室、书房,甚至拖到卫生间,都适合有一定距离的观看(如果是iPad Pro+支架,就感觉小了)

-小度的设备,本身也是个智能音箱,可以随时语音控制(还带了mesh网关,可惜家中的智能生态是Homekit,小度就只能用来控制它本机了),内置的音箱功率也不大,但外放效果还是比iPad Pro好上不少的,适合家中听歌看剧。

-机身内置的摄像头可以实现视频通话、远程监控家中情况的功能,但带了一个物理镜头盖,这个设计很棒,有时候简单直接更让人安心。

-竖过来可以当作AI健身镜,通过摄像头检测,屏幕会实时显示动作标准程度。另外,还内置了两款摄像头体感游戏,通过深蹲和挥手进行控制。

-送了两个蓝牙麦克风,配合全民K歌可以实现家中KTV。

-作为大平板,它能安装任何手机应用,手机端的视频VIP都能直接使用。它还能投屏和外接HDMI设备当显示器使用。

-不方便触摸操作时,小度app提供了远程控制和遥控器功能。

-系统桌面是小度dueros定制的,更适合这款设备,待机时的效果美观,不low(作为环境软装,这很重要)

再说说缺点:

-立柱端的支架不可调角度,有时候还是觉得屏幕探出来的距离有点占空间。

-画框中的相册照片没有标注哪些是动态的,不可排序,也不可远程更新,希望后续系统升级可以优化。

-6GB RAM还是有点小,现在的流媒体app都很占内存,滑动快了会卡。

-投屏还是乐播的方案,常见的应用投屏都没遇到问题,但手机端Youtube只能投屏出界面,视频流没有投屏成功。

-普通机顶盒可以正常接HDMI,但试了fire tv stick的HDMI信号不能正常显示。

其他使用场景:

1、浏览器访问墨香,大屏就变成读报机~

2、央视影音app挂着iPanda熊猫频道,0距离观察心上熊的生活~ 挂机陪伴类的直播都很适合,比如国际空间站看地球~

3、微信读书的语音听书,边听边看~

4、小红书的一些竖屏视频可以当作动态壁纸~

Clubhouse room观察

目前看到的一些场景,这些场景也有相互交叉:

-主题讨论,大家围绕一个话题畅所欲言(最常见的room,但通常会歪楼,且发言者水平不一,比较随机;最近见到较多的话题是Clubhouse产品讨论、硅谷工作、时事新闻、恋爱情感、股市、区块链、游戏等等)

-分享/培训,由主分享者分享,分享后接受举手提问(类似疫情期间zoom上的在线沙龙)

-播客录制,直播录制,或直接与举手听众互动(听说是创始人一开始的动机)

-语言学习,跟母语者直接交流(近期亚洲用户大量涌入,中英日韩的语言学习房间也蛮多的)

-圆桌讨论,由主持人host,分别采访圆桌参与者

-单方言:本地方言聊天

-多方言:方言读诗、方言教学

-追星,听明星和朋友们聊天

-K歌,多人连麦K歌

-表演,皮卡丘房、政治人物模仿

-音频直播,播歌,主持人很少说话,类似音乐电台

-陪伴/背景音,连麦学习、连麦加班、连麦睡觉

-直播带货,音频带货(不太直观,但更能专注听带货者介绍)

几个感想:

-通过follow来找到你熟悉/信任的人参与的room,这种分发方式,是国内同类产品上没有看到的;

-Clubhouse目前提供的是相对通用的能力,由用户去自由使用,国内没法诞生一样调性的语聊社交媒体;

-两岸四地/海外华人在一起交流,通过语音聊天这种比文字更立体更实时的形式,相互之间的交流效率提高了不少;

-明星和大佬号召力非常强,也带起了初步的调性;听他们语聊,比看他们的微博抖音更真实更没有距离感;

-这几天AirPods充电次数变多了;

微信8.0 聊聊状态

微信8.0.0版本昨晚18:00正式上架App Store,这是18年12月7.0以来的大版本号更新,但更新记录只有一句话「更新了若干功能」。

几个比较明显的变化是:所有自带表情重绘,增加了动画和特殊效果;视频动态升级为「状态」;音乐详情页可以创作MV;多任务浮窗;会话列表下拉新增了「最近」。这其中我自己认为影响最大的变化会是「状态」。

如今的微信承载了越来越多点对点沟通或群聊之外的东西,公众号、小程序、视频号生态的繁荣带来的工作/娱乐内容正让我们每天更多时间停留在微信上。

状态,其实在PC QQ时代就有了,后来企业微信和钉钉也在工作场景中加入了状态。在这个24小时保持连接的时代,「状态」能让我们得到一丝喘息的机会:当你在专心工作、会议中、看书、追剧、忙家务、带孩子的时候,有这么个对外表露当前不便回复的地方。

微信的「状态」功能,亮点在于给定了十几种预设的常见状态,当你设置某种状态后,可以看到当前跟你同样状态的好友,在我第一次看到有十几个人跟我一样的时候,会有一种大家一起同在的感觉,非常奇妙。

小龙那句话「社交的本质就是找到同类」,说的就是这个。

入手AirPods Pro

苹果在今年3月推出带无线充电盒的AirPods 2后,又在10月底悄然在官网直接上线了AirPods Pro,如传言一样,这是一款真·无线降噪耳机。11月初在Apple在线商店下单,昨天收到。

在此之前,我对降噪耳机有一定了解,但从来没有试戴过,所以这次是我的降噪初体验,第一次戴上,听到周围的人声,还以为是从手机里传来的。然后到大街上戴上,就像立即进入了室内,这种感觉还是很棒的。

配对一如既往简单,但敲击操作变成了类似以前线控按钮的操作:默认设置下,长按耳机柄上的凹槽处,可以在降噪模式和通透模式之间切换。所谓通透模式,是把麦克风收的环境音播放出来,实测通透模式下如果不播放音乐确实跟没戴耳机差不多。

苹果把降噪耳机做到这么小,且带有无线充电盒,这个售价我觉得合理,毕竟AirPods 2无线充电盒版本也要1500+了。