生成式AI大模型动态周报

周报源自得效团队博客，自2023年1月底创刊，2024年1月起更名为《生成式AI大模型动态周报》，主要关注主流生成式AI大模型的技术与产品动态。

issue46 2023.12.11-12.17

智谱AI近日提出了可解释、可扩展的文本质量评价模型CritiqueLLM，该模型可以针对各类指令遵循任务上大模型的生成结果提供高质量的评价分数和评价解释。评价结果显示，在各项任务上660亿参数的CritiqueLLM与人工评分的相关系数均超过ChatGPT，达到和GPT-4相当的水平。尤其是在具有挑战性的无参考文本设定下，CritiqueLLM能够在3项任务（包括综合问答、文本写作和中文理解）上超过GPT-4，达到目前最优的评价性能。

理想汽车微信公众号发文，在理想汽车智能软件发布会上，该公司发布了全自研多模态认知大模型Mind GPT，该模型围绕车载场景打造，拥有理解、生成、知识记忆及推理能力。据介绍，Mind GPT基于理想同学的重点场景，量身定制了覆盖111个领域、超过1000种以上的专属能力，基于该模型的AI理想同学将以邀请内测形式面向用户逐步开放。

AI创企Runway于官网宣布开展围绕通用世界模型（General World Models）的长期研究工作，目标是表现和模拟与现实世界中一致的广泛的互动。Runway称，其目前的Gen-2等视频生成系统可以看作是非常早期的通用世界模型，对物理和运动有一定的了解，但在处理复杂的摄像机或物体运动等问题上仍有困难。为了建立通用的世界模型，Runway正在进行几项公开的研究，包括生成环境地图，在环境中导航和交互，捕捉世界和世界中居民的动态，建立逼真的人类行为模型等。

12日凌晨，李飞飞的斯坦福团队与谷歌联合发布用于生成逼真视频的扩散模型W.A.L.T，基于Transformer训练而成，支持文生视频、图生视频和3D摄像机运动。据介绍，该方法有两个关键的设计，一是使用因果编码器，在统一的潜空间内联合压缩图像和视频，从而实现跨模态的训练和生成；二是为了提高记忆和训练效率，使用了为空间和时空联合生成建模量身定制的窗口注意力架构。最后，团队针对文本到视频的生成任务训练了由三个模型组成的级联，包括一个基本潜在视频扩散模型和两个视频超分辨率扩散模型，能够以每秒8帧的速度生成分辨率为512*896的视频。

12月13日，国际顶刊《自然》（Nature）公布2023年度最具影响力科学家10人名单，其中OpenAI首席科学家伊利亚·苏特斯科夫（Ilya Sutskever）作为“AI梦想家”入选，因为他在ChatGPT的开发中发挥了核心作用，同时关心AI的安全和未来。此外，ChatGPT作为非人类首次入选，旨在承认它在模仿人类语言的AI在科学发展和进步中所发挥的作用。

谷歌宣布大模型Gemini Pro现已推出API（应用程序接口），目前支持32k上下文窗口，在一定限制内可免费使用，具有函数调用、嵌入、语义检索和自定义知识基础以及聊天功能，支持全球180多个国家和地区、38种语言，支持文本、图像输入和文本输出，提供SDK（软件开发工具包）。用户现在可在在线免费开发者工具Google AI Studio、云托管AI平台Vertex AI上使用该模型。定价方面，免费版本支持每分钟最多60个请求，但输入输出数据将被用于改善谷歌的模型。

谷歌宣布在Vertex AI托管平台中推出新的文生图模型Imagen 2、医疗保健行业模型MedLM，还全面推出面向开发者的代码工具Duet AI。Imagen 2支持自然语言生成高分辨率的逼真图像、生成Logo以及视觉对话。Imagen 2还推出了文本渲染支持，可以在图像上生成准确的文字，此前只有OpenAI的DALL-E 3支持该功能。Imagen 2支持英语、中文、印地语、日语、韩语、葡萄牙语、西班牙语7种语言，包含内置安全预防措施，集成数字水印服务。

Meta生成式AI副总裁Ahmad Al-Dahle于社交平台Threads宣布，Instagram现已推出AI图像背景编辑工具，可通过自然语言为图像一键生成并更换背景。

12月14日，文心一言插件商城正式上线，商城集合众多高质量插件，覆盖办公提效、多模态内容理解生成、专业信息查询等许多实用场景，用户只需通过简单指令，即可实现PPT生成、音视频提取、思维导图制作等多场景多模态下的需求，实现“指令即服务”的便捷体验。开发者也可以根据需求，自己亲自设计插件。

12月14日，Stability AI推出从单张图像生成3D对象的模型Stable Zero123。该模型基于Stable Diffusion 1.5建立，面向非商业和研究用途开源模型权重，与上一代Zero123-XL相比，训练效率提升了40倍。

当地时间周四，英特尔在纽约举行“AI Everywhere”活动，正式推出代号为Meteor Lake的新型酷睿Ultra处理器。该处理器专为支持AI技术所设计，内置AI加速引擎，可更快地运行AI程序。酷睿Ultra处理器有三种不同的配置，分别是酷睿Ultra 5、酷睿Ultra 7和酷睿Ultra 9。英特尔称，与AMD Ryzen 7 7840U、高通骁龙8cx Gen 3和苹果自研M3芯片等笔记本电脑处理器相比，酷睿Ultra 7 165H芯片的多线程性能提高了11%。与之前的英特尔酷睿i7-1370P相比，它的功耗降低了25%，比AMD的Ryzen 7 7840U的功耗降低了79%。英特尔的所有新CPU还将配备NPU，即神经处理单元，提供“低功耗AI加速和CPU/GPU卸载”，能够执行AI驱动的任务，如背景模糊、眼动追踪和图片框架等。

issue47 2023.12.18-12.24

微软于官网宣布在最新的Visual Studio预览版中，向GitHub Copilot Chat订阅用户推出AI驱动的变量、方法和类命名建议新功能。据介绍，该功能不仅能提供名称建议，还能了解标识符的使用方式和代码风格，从而提出与代码库无缝匹配的标识符，帮助用户提高代码的可读性和可维护性，确保代码在未来数年内的使用寿命和易懂性。

12月19日，百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API（应用程序接口），包含Baichuan2-Turbo-192K及Baichuan2-Turbo。在支持192K超长上下文窗口的基础上，还增加了搜索增强知识库的能力。即日起，API用户可上传文本资料来创建自身专属知识库，从而根据自身业务需求打造更完整、高效的智能解决方案。此外，百川智能还升级了官网模型体验，目前其官网大模型已支持PDF、Word等多种文本上传以及URL网址输入，用户可通过官网入口体验搜索增强和长窗口加持后的通用智能。

12月20日，谷歌于官网宣布将AI代码辅助功能扩展到所有Colab用户，包括免费用户，现已在175个地区推出。Colab是谷歌提供的一个在线工作平台，可以免费使用GPU进行深度学习，支持Jupyter Notebook和代码执行程序。

比尔盖茨发布年度展望博客，其中谈道：“如果让我做个预测，在美国这样的高收入国家，我猜离普通民众大量使用AI还有18-24个月的时间。而在非洲国家，我预计在3年左右的时间里，AI的使用就会达到相当的水平。这仍然是一个差距，但比我们在其他创新中看到的滞后时间要短得多。”他还提到，希望AI在抗生素药物、个性化教育、高危妊娠治疗、艾滋病风险评估、医疗信息获取等方面能够得到更广泛的应用。

12月22日，在全国信息技术标准化技术委员会AI分委会全体会议上，国内首个官方“大模型标准符合性评测”结果公布，阿里云通义千问、百度文心大模型、腾讯混元大模型、360智脑大模型首批通过评测，在通用性、智能性等维度均达到国家相关标准要求。

昆仑万维AI Agents开发平台“天工SkyAgents”Beta版正式开放测试。据介绍，天工SkyAgents开发平台基于昆仑万维“天工大模型”打造，具备从感知到决策，从决策到执行的自主学习和独立思考能力。用户可以通过自然语言构建自己的单个或多个“私人助理”，并能将不同任务模块化，通过操作系统模块的方式，实现执行包括问题预设、指定回复、知识库创建与检索、意图识别、文本提取、http请求等任务。

issue48 2023.12.25-12.31

12月24日，OpenAI CEO萨姆·阿尔特曼（Sam Altman）于社交平台X上发帖询问网友对于OpenAI明年应该建设或修复哪些功能的建议，随后他总结了一些常见的请求，包括AGI、GPT-5、更好的语音模式、更高的速率限制、更好的GPTs、更好的推理、控制行为的程度、视频功能、个性化、更好的浏览、使用OpenAI登录、开源等。其中，他在AGI后面标注“请耐心等待”，并称“对于AGI的请求比预期多得多，但很抱歉，我认为我们无法在2024年实现这一目标”，他还提到将“尽可能满足这些需求，以及许多其他未被网友提及、但令OpenAI团队自己感到兴奋的功能”。

AI创企Pika于社交平台X宣布面向所有用户开放旗下视频生成平台Pika 1.0网页端访问权限。据悉，Pika成立于2023年4月，创始人郭文景（Demi Guo）和Chenlin Meng都是斯坦福博士。Pika 1.0不仅能根据文字、图片或视频风格生成三维动画、动漫、卡通和电影等不同风格的视频，还能对视频局部进行编辑。

Kimi Chat发布v1.2版本，模型更新至moonshot-v1-20231225，平均输出长度提升；在联网模式下，首字回复的速度大幅提升；实现了从扫描件（文档、合同、白板等）提取文字的功能，目前已支持PDF格式的扫描文件上传解析。交互方面，Kimi Chat推出小程序“Kimi智能助手”，网页端上线浅色模式。

有网友发现，微软已于一周前悄然推出安卓版Copilot应用程序，用户可从Google Play商店下载。应用程序描述显示，Copilot由最新的OpenAI模型、GPT-4和DALL·E 3提供支持，这些先进的AI技术提供快速、复杂和精确的响应，并且免费。截至目前，微软暂未推出iOS版Copilot。

12月26日，2023联想天禧AI生态伙伴大会在北京召开。会上，联想集团副总裁、中国区消费业务群总经理张华发布了联想天禧AI生态“四端一体”战略。“四端”分别指的AI PC、AI平板、AI手机和AIoT四类终端设备，“一体”则有两层含义，一方面指的是承接用户个人助理任务的个人智能体，另一方面也意味着个人智能体穿梭于四类AI终端，使其融为一体。同时，联想的AI个人智能体“小乐同学”首次亮相，并面向广大生态开发者伙伴启动智能体小程序招募计划。

微信宣布将于2024年1月11日在广州举办2024微信公开课PRO，将发布产品能力、展示价值理念、沟通生态伙伴、凝聚行业共识。2024微信公开课PRO期间，小游戏、微信AI等也将悉数登场，带来多项能力升级与案例分享。

韩国文化部宣布将不对AI生成的内容进行版权登记，从法律上不承认此类内容的创造性。文化部补充说，只有那些明显传达人类思想和情感的作品才有可能进行版权登记。这一决定将很快在面向AI企业、版权持有者和用户的“AI版权指南”中公布，指南还规定，AI企业需要向版权持有者提供公平的补偿，以确保其产品的使用权，建议版权持有者明确表达其意图或采取技术措施，以防止其创作被用于AI研究。

issue49 2024.1.1-2024.1.7

外媒The Information发文总结2023年最难忘的10个AI时刻，包括OpenAI与微软伙伴关系继续、Meta Llama改变赛况、GPT-4发布、3万多人联名呼吁暂停AI模型训练、AI Agent兴起、美国总统拜登的AI行政命令与欧盟AI法案、GitHub Copilot付费用户超过100万、多模态兴起、OpenAI CEO萨姆·阿尔特曼（Sam Altman）的感恩节压力、等待谷歌Gemini。

中文大模型测评基准SuperCLUE发布《中文大模型基准测评2023年度报告》，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。报告包括国内大模型关键进展、测评体系、方法说明、大模型综合测评结果、SuperCLUE2.0升级、四大维度测评分析及示例介绍以及优秀模型案例介绍等内容。

据Windows Central报道，微软正在对其Surface产品线进行重大更新。Surface Pro和Surface Laptop都将首次提供英特尔和Arm版本，并且都将配备下一代NPU（神经处理单元）芯片。这些代号为CADMUS的PC将被设计用来运行微软正在打包到未来版本Windows中的AI功能。新设备将在春季发布，并将作为微软首款真正的AI PC推向市场。

美图公司自研AI视觉大模型MiracleVision（奇想智能）通过《生成式人工智能服务管理暂行办法》备案，将面向公众开放。在当前通过备案的国内大模型当中，MiracleVision（奇想智能）是唯一专注视觉领域的大模型，也是福建省唯一通过备案的大模型。

1月2日，调研机构WriterBuddy发布一项新调查，通过使用SEO行业知名工具SEMrush研究3000多种AI工具，其筛选出2022年9月至2023年8月访问量最大的50款工具，这些AI工具吸引了超过240亿次访问量。其中，ChatGPT以140亿次访问量位居第一，占分析流量的60%以上。AI聊天机器人类工具最受欢迎，访问量达到191亿次。

对话式搜索引擎创企Perplexity AI的CEO Aravind Srinivas在社交平台X上公开回应有关竞争不过搜索引擎大厂谷歌的质疑，称Perplexity存在的原因是通过更少的关键字查询、筛选、链接点击、页面浏览，提高搜索效率和信息访问效率；直接找到问题根源，然后用一个简洁、清晰、个性化的答案，便于人们做出决定，这与谷歌的财务和商业目标是不一致的。

1月3日消息，据日经亚洲报道，日本相机“三巨头”尼康、索尼和佳能即将推出新技术，让照片的来源变得更容易验证。该技术允许摄影师通过相机本身嵌入数字签名，包含摄影师姓名、拍摄日期、时间和地点等信息，然后通过一个名为Verify的免费网络应用程序进行认证，该应用程序由媒体机构、相机制造商和科技公司组成的全球联盟推出。

1月4日，AI搜索引擎aoyo.ai在ProductHunt发布，称可用母语搜索全网内容并总结，其首个版本支持英语、中文、日语、西班牙语。

钉钉联合国际知名咨询机构IDC发布首份《2024 AIGC应用层十大趋势白皮书》。随着AIGC技术的发展，智能化应用将呈现爆发式增长，IDC预测，到2024年全球将涌现出超过5亿个新应用，这相当于过去40年间出现的应用数总和。根据《白皮书》，2024年AIGC应用的十大趋势关键词涵盖应用层创新、AI Agent、专属模型、超级入口、多模态、AI原生应用、AI工具化、AI普惠化。

网易有道发布子曰教育大模型的2.0升级、虚拟人口语教练Hi Echo的2.0升级，同时发布了有道速读、全新AI家庭教师应用小P老师以及新一代AI学习机X10。据介绍，小P老师能够回答语文、数学、英语、生物、历史等10个学科的问题，支持拍照、语音、文本输入，并将首次落地学习机X10。新一代AI学习机X10首创学习机、学练机和学生专属电脑三合一模式，覆盖全学科、学段，提供墨水屏模式模拟纸质学习场景，内置编程软件、WPS等应用，学习机内的小P老师、Hi Echo等应用终身免费且持续升级。

科技部于12月21日发布《负责任研究行为规范指引（2023）》，其中提到科研人员在申报研究项目材料时，不得使用生成式AI直接生成申报材料，应依规合理使用生成式AI处理文字、数据或学术图像，防范伪造、篡改数据等风险。在文献引用方面，使用生成式AI生成的内容应明确标注并说明其生成过程，对其他作者已标注为AI生成内容的，一般不应作为原始文献引用。成果署名方面，生成式AI不得列为成果共同完成人，应在研究方法或附录等相关位置披露使用生成式AI的主要方式和细节。学术出版单位应应要求作者披露是否使用生成式AI，提醒审稿人在审稿过程中使用生成式AI应依规谨慎。

deepin（深度）操作系统于官网发文，宣布近日推出了一款“看图AI插件”，用户在安装后即可在设备端体验8种AI修图功能，分别是图像上色、提升分辨率、模糊背景、删除背景、手绘漫画、2D漫画、3D漫画、素描。这些功能不依赖于互联网在线模型，也不受制于算力的硬件约束，在PC单机上可轻松运行。

微软将其安卓和iOS平台的移动浏览器应用名称从“微软Edge”改为了“微软Edge：AI浏览器”，强调了其目前最重视的AI领域。除了新的名字，该浏览器在介绍中也宣传了新的AI功能，如DALL-E 3图像生成器、Copilot文章摘要、图像识别等，还强调了对GPT-4的支持。

issue50 2024.1.8-1.14

近日，清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent的CogAgent，CogAgent 是一个通用的视觉理解大模型，具备视觉问答、视觉定位、GUI Agent 等多种能力，可接受 1120×1120 的高分辨率图像输入。在 9 个经典的图像理解榜单上取得了通用能力第一的成绩，并在涵盖电脑、手机的 GUI Agent 数据集上，大幅超过基于 LLM 的 Agent，取得第一。目前团队已将 CogAgent-18B 开源至 GitHub 仓库，并提供了网页版 Demo。CogAgent 的模型结构基于 CogVLM。

美团、浙大等推出了能够在移动端部署的多模态大模型MobileVLM，包含了 LLM 基座训练、SFT、VLM 全流程。MobileVLM 是一款专为移动设备设计的快速、强大和开放的视觉语言助手。它结合了面向移动设备的架构设计和技术，包括从头开始训练的 1.4B 和 2.7B 参数的语言模型、以 CLIP 方式预训练的多模态视觉模型，以及通过投影实现的高效跨模态交互。在各种视觉语言基准测试中，MobileVLM 的性能可媲美大型模型。

issue51 2024.1.15-1.21

1月16日，智谱AI 在DevDay上发布了新一代基座大模型GLM-4，定制化的个人GLM大模型GLMs和GLM Store。与上一代ChatGLM3相比，GLM-4在综合能力上实现了全面跃升，性能提升了60%，已经逼近GPT-4。它具备更强的多模态功能，支持更快的推理，更多并发，推理成本大大降低。同时，GLM-4也增强了智能体能力。GLM-4带来128K的上下文窗口长度，也就意味着，在单次提示词中，可处理文本达到了300页。GLM-4的文生图和多模态理解都得到增强。

同日，智谱还推出CogView3，效果明显超过开源最佳的Stable Diffusion XL，逼近DALL·E 3。相对之前，CogView3的语义理解能力都得到大大增强。

1月15日，微软宣布推出个人版Copilot Pro订阅服务，每月20美元，可以使用Office AI功能，目前在美国、英国、法国、德国等地可用，后续还将扩大可用地区。这意味着个人用户也可以开始使用AI驱动的Office功能，其中包括使用Office软件的AI功能、优先访问最新的OpenAI模型、甚至构建自己的Copilot GPT。

1月17日，上海人工智能实验室与商汤科技联合香港中文大学、复旦大学发布新一代大语言模型书生·浦语2.0（InternLM2）。这个大模型包含70亿和200亿两种参数规格，以及基座、对话等版本，向全社会开源并提供免费商用授权。InternLM2能够一次性处理约30万汉字的输入内容，从中准确提取关键信息，实现对长文本的“大海捞针”。

issue52 2024.1.22-1.28

1月25日，OpenAI发布了一系列重磅大模型更新，连发了五个新模型以及新的API使用管理工具。包括：新的GPT-3.5 Turbo模型，输入价格暴降50%，输出价格降低25%，同时修复各种BUG，回应准确性更高；新的GPT-4 Turbo Preview模型，生成代码能力更强，模型“变懒”情况减少，修复各种BUG；新的小型文本嵌入模型text-embedding-3-small，性能小幅提升，价格降至上代的五分之一；新的大型文本嵌入模型text-embedding-3-large，性能强，可创建多达3072维的嵌入，部分测试性能提升70%以上，价格略贵。同时，OpenAI还直接让开发者在略微损失精度的情况下缩短嵌入，实现性能和成本的平衡；新的审查模型text-moderation-007，OpenAI将其称之为“迄今为止最强大的审查模型”。

1月25日，谷歌研发出全新的时空扩散模型 Lumiere（法语，启蒙者），几乎集齐了常见AI视频生成和编辑功能，也是先进的视频生成器。Lumiere 会根据用户自然语言提示，创造出非常逼真（高质量超现实主义）视频，时间长达五秒。模型的图片到视频功能可以根据用户提示，让静止的图像动起来。谷歌研究人员在 Lumiere 中引入了一种“时空 U-Net 架构” Space-Time U-Net（STUNet），一次构建了整个视频长度, 能够学习将视频信号在空间和时间上同时进行下采样和上采样，并在网络的压缩空间时间表征上执行主要计算。

1月26日，阿里云公布多模态大模型研究进展。通义千问视觉理解模型Qwen-VL再次升级，继Plus版本之后，再次推出Max版本，升级版模型拥有更强的视觉推理能力和中文理解能力，能够根据图片识人、答题、创作、写代码，并在多个权威测评中获得佳绩，比肩OpenAI的GPT-4V和谷歌的Gemini Ultra。相比Qwen-VL，Qwen-VL-Plus和Qwen-VL-Max拥有更强的视觉推理和中文理解能力，整体性能堪比GPT-4V和Gemini Ultra。

issue53 2024.1.29-2.4

1月30日，科大讯飞升级了讯飞星火大模型。讯飞星火V3.5除了七大能力全面提升，整体能力接近GPT-4，还特别在语言理解、数学等能力上实现超越。技术方面，讯飞的语音大模型将更多语音表征解耦，融入到大模型预训练中。在多语种识别中，在首批37个主流语种效果超过OpenAI Whisper 3。并且在多语种语音生成、超拟人语音生成上，也有一定的提升。目前语音大模型已经向开发者完全开放，并且首发搭载在讯飞翻译机上面。

Midjourney二次元模型Niji-Journey V6上线，能把控日漫欧美动漫风格，甚至图中还能生成字体，输入/settings，然后点击Niji Model 6就可以在任何discord机器人上打开使用。目前，Niji V6还在内测中，预计在2月底正式推出，并将带来Vary、Pan、Zoom等特色功能。

2月2日，谷歌官方宣布：在最新版Gemini Pro的加持下，Bard不仅获得了推理、理解、总结、编码能力的迅速飞升，而且还能支持230多个国家的40多种语言。为了负责任生成，Bard生成的图像都将由SynthID进行标记。SynthID是谷歌DeepMind开发的一种水印工具，可将数字水印直接嵌入到我们生成的图像的像素中。SynthID的水印人眼无法察觉，但可检测以进行识别。

2月2日，欧盟27国代表投票一致支持《人工智能法案》文本，标志欧盟向立法监管人工智能迈出重要一步。法案要求所有通用人工智能模型遵守透明度义务，同意严格限制面部识别等技术的应用，禁止对人类安全造成“不可接受风险”的人工智能系统。

issue54 2024.2.5-2.11

2月6日，通义千问大模型（Qwen）的 1.5 版上线了。新版大模型包括六个型号尺寸：0.5B、1.8B、4B、7B、14B 和 72B，其中最强版本的性能超越了 GPT 3.5、Mistral-Medium，包括 Base 模型和 Chat 模型，且有多语言支持。Qwen 1.5 支持 32K 上下文长度；开放了 Base + Chat 模型的 checkpoint；可与 Transformers 一起本地运行；同时发布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 权重。本次更新着重提升了 Chat 模型与人类偏好的对齐程度，并且显著增强了模型的多语言处理能力。

2月8日，谷歌宣布大模型体系全面进入了 Gemini 时代，并带来最新的 Gemini Ultra 模型。Gemini Ultra 1.0 是第一个在 MMLU（大规模多任务语言理解）超越人类专家的 AI 模型，结合了 57 个科目，包括数学、物理、历史、法律、医学和伦理学，用来测试大模型知识和解决问题能力的基准。谷歌官宣四项AI新进展：大模型版本Gemini Ultra 1.0全面开放；聊天机器人Bard正式官宣改名为Gemini；安卓版新“Gemini”应用程序上线；全套办公工具Google Workspace、谷歌云中的所有AI协作工具Duet AI也改名为Gemini。

issue55 2024.2.12-2.18

2月16日， OpenAI发布视频生成模型Sora，称构建了一个“物理世界的通用模拟器”。它是一种通用的视觉数据模型，能够生成各种持续时间、宽高比和分辨率的视频和图片，甚至长达一分钟的高清视频。Sora是一种基于Transformer架构的扩散模型，有很强的扩展性，从噪声开始，能够一次生成整个视频或扩展视频的长度，一次生成多帧的预测，确保画面主体即使暂时离开视野也能保持不变。不同于LLM使用的文本token，Sora使用的是视觉patch。还采用了DALL·E 3中的重新标注技术，应用在了视频上。目前Sora根据图像和文本提示生成视频，已经能生成具有多个角色、包含特定运动的复杂场景，不仅能理解用户在提示中提出的要求，还了解这些物体在物理世界中的存在方式。Sora还可以在单个视频中创建多个镜头，并依靠对语言的深入理解准确地解释提示词，保留角色和视觉风格。

Stability AI开源新型文生图模型Stable Cascade，标志着AI艺术创作的重大进展。与Stable Diffusion相比，Stable Cascade拥有更小的潜在空间，提高了训练和生成效率。该模型架构分为三个阶段：潜在生成器、潜在解码器阶段一和二，能够将文本转换为24×24像素的潜在向量，并逐步重建高质量图像。开源代码已在GitHub发布，用户可获取训练和推理脚本，进一步推动AI绘画工具的发展。

2月14日，作为测试的一部分，OpenAI 开始为一小部分 ChatGPT 免费和付费用户推出新的“记忆”功能，并在未来进行大规模的推广。该功能可让用户明确告诉 ChatGPT 记住某些内容或者用户查看它记住了什么。ChatGPT 的记忆功能完全由用户掌控，也可以随时关闭这种功能。ChatGPT 的记忆会随着互动而演变，并且与特定对话无关。删除聊天记录并不会消除其记忆，必须删除记忆本身。

issue56 2024.2.19-2.25

2月21日，谷歌宣布推出全新开源模型Gemma，拉丁语中意为“宝石”。Gemma 是先进的轻量级开放模型系列，采用了与创建Gemini模型相同的研究和技术。本次，谷歌发布了Gemma的两个版本：Gemma 2B（20亿参数）和Gemma 7B（70亿参数）。每种规模都提供了预训练和指令微调版本。当前，Gemma 2B和7B允许所有组织（无论规模大小）负责任地进行商用和分发。

MWC2024 将于 2 月 26 日至 29 日在西班牙巴塞罗那举行，联想集团将推出最新的人工智能设备和基础设施及解决方案组合，并展示两款挑战传统个人电脑和智能手机外形的新概念产品。秉承AI for All的愿景，联想集团将在 MWC 上推出多款全新 AI PC 和边缘计算解决方案，加速促进该技术在 2024 和 2025 年成为主流，混合人工智能的趋势将刺激 AI PC 和 AI Phone 的需求，并推动新的行业更新周期。

issue57 2024.2.26-3.3

2月26日，谷歌团队发布110亿参数Genie精灵。Genie是一种全新的生成式AI范式，仅凭一张图像，就能创造出互动性强、可玩的环境，创造出可玩的虚拟世界，动作可控碾压Sora。Genie学习了20万小时的未标注互联网视频，主要包括2D平台游戏和机器人领域的视频，无需监督即可训练。无需任何动作标注，便可以确定谁是主角，并让用户能够在生成的世界中对其控制。Genie是通过潜动作模型、视频分词器，以及自回归动态模型三大核心组件来实现的。

2月27日，开源社区Mistral AI发布旗舰模型Mistral Large（不开源），具备卓越的逻辑推理能力，能够处理包括文本理解、转换以及代码生成在内的复杂多语言任务。在主流基准测试中，Mistral Large，成绩仅次于GPT-4。Mistral Large能够母语般流利地使用英语、法语、西班牙语、德语和意大利语，深刻理解各自的语法规则和文化背景；能够处理32K Token的上下文内容；在执行具体指令方面异常精准；支持函数调用。目前，这个新旗舰模型仅在Azure AI和Mistral AI平台上可用。其中，在Azure AI上的定价如下：输出为0.024美元/1000 token，输入为0.008美元/1000 token。

issue58 2024.3.4-3.10

3月5日，Anthropic发布了最新的Claude 3系列模型，在多模态和语言能力指标上，包括推理、数学、编码、多语言理解和视觉方面，碾压GPT-4。本次发了三个模型Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus，能力依次从低到高，都将至少支持20万token的上下文窗口，都能处理超过100万token的输入。目前，Opus和Sonnet已经可以在claude.ai以及覆盖159个国家的Claude API上使用了。Haiku模型也将很快推出。

3月10日，Pika发布了一项Sound Effects新功能，可以给视频无缝生成音效。Pika给视频生成音效的操作简单。相比于此前生成视频的操作，现在只需开启下方“Sound effects”按钮即可。或者在生成了视频过后，点击下方的“Edit”，再选择“Sound Effects”单独给它配音。Sound Effects功能目前只对超级合作者（Super Collaborator）和Pro用户开放测试。

issue59 2024.3.11-3.17

3月14日，国内的大模型独角兽公司零一万物正式发布了 Yi 大模型 API 开放平台。此次 API 开放平台提供以下模型：Yi-34B-Chat-0205：支持通用聊天、问答、对话、写作、翻译等功能。Yi-34B-Chat-200K：200K 上下文，多文档阅读理解、超长知识库构建小能手。Yi-VL-Plus: 多模态模型，支持文本、视觉多模态输入，中文图表体验超过 GPT-4V。

3月15日，苹果正式公布自家的多模态大模型MM1系列，具有 30B 参数，参数最高可达 300 亿。它由密集模型和混合专家（MoE）变体组成，不仅在预训练指标中实现 SOTA，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。

3月17日，xA官方开源Grok-1，一个3140亿参数的8个MoE混合专家模型。代码和模型权重已上线GitHub，模型的权重文件则是以磁力链接的形式提供，文件大小接近300GB。开源的是2023年10月预训练阶段的原始基础模型，没有针对任何特定应用进行微调。Grok-1选用了Rust编程语言以及深度学习框架新秀JAX。

issue60 2024.3.18-3.24

3月18日，月之暗面将自家模型的上下文窗口提升了一个数量级，从发布之初的20万字，拓展到200万字。该版本在Kimi上开启内测，并且在与Kimi对话过程中，加入了（不打断模型思路的）“继续”功能按钮。同时，相同成本、相同设备情况下，模型响应速度提升了3倍左右。月之暗面还提出了“Kimi 10分钟速成定律”，即无关领域大众小众，也无关资料或多或少，只要把资料一股脑丢给模型，10分钟内，Kimi都能快速入门一个新领域。此外， Kimi Chat改名为Kimi智能助手，Moonshot大模型改名为Kimi大模型。

AI初创公司Suno AI重磅推出了一款音乐生成模型V3。仅用几秒的时间，V3便可以创作出2分钟的完整歌曲。现在已经向所有用户免费开放。相比与之前的版本，v3生成的音乐质量更高，而且能制作各种各样的风格和流派的音乐和歌曲。提示词的连贯性也有了大幅提升，歌曲结尾的质量也获得了极大的提高。为了激发人们的创作灵感，Suno v3还新增了更丰富的音乐风格和流派选项，比如古典音乐、爵士乐、Hiphop、电子等新潮曲风。

3月18日，Colossal-AI团队全面开源了类Sora架构视频生成模型Open-Sora 1.0，涵盖了关于文生视频的整个训练流程，包括数据处理、所有训练细节和模型权重，1万美元64块GPU复现，训练成本直降46%。模型采用了目前火热的Diffusion Transformer（DiT）架构。整个架构包括一个预训练好的VAE，一个文本编码器，和一个利用空间-时间注意力机制的STDiT（Spatial Temporal Diffusion Transformer）模型。Open-Sora的复现方案参考了Stable Video Diffusion（SVD）工作，共包括三个阶段，分别是：大规模图像预训练；大规模视频预训练；高质量视频数据微调。

3月19日，Stability AI 推出3D 视频生成大模型Stable Video 3D（简称 SV3D）。该模型基于 Stable Video Diffusion 打造，能够显著提升 3D 生成的质量和多视角一致性，效果要优于之前 Stability AI 推出的 Stable Zero123 以及丰田研究院和哥伦比亚大学联合开源的 Zero123-XL。目前，Stable Video 3D 既支持商用，需要加入 Stability AI 会员（Membership）；也支持非商用，用户在 Hugging Face 上下载模型权重即可。

3月22日，百度升级了大模型应用开发神器百度千帆AppBuilder。它开放了55个工具组件，包括大模型组件、AI组件、搜索组件、第三个API工具等。能让企业或个人零门槛开发各种场景下的Agent应用。同时，百度大模型也上新了，一共5个，主打轻量化、性价比、实际场景：ERNIE Speed，ERNIE Lite，ERNIE Tiny，ERNIE Character，ERNIE Functions。

issue61 2024.3.25-3.31

3月29日，人工智能独角兽AI21 Labs推出并开源了Jamba，在多个基准上超越了 transformer。Jamba 将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 transformer 架构相结合，是基于全新SSM-Transformer混合架构的52B生产级Mamba模型，与Mixtral 8x7B相比，长文本处理吞吐量提高了3倍；实现了256K超长上下文窗口；是同等规模中，能在单张GPU上处理140K上下文的模型；以Apache 2.0开源许可协议发布，开放权重。

3月29日，xAI升级推出Grok-1.5模型，数学和代码能力大幅提升，支持128k长上下文。Grok-1.5能够在其上下文窗口内处理128K token的文本。此外，新模型还可以处理更长和更复杂的提示，同时在其上下文窗口扩展时仍保持其指令跟随能力。Grok-1.5构建在基于JAX、Rust和Kubernetes的定制分布式训练框架之上。

3月30日，OpenAI 首次亮相了语音引擎 Voice Engine预览版，其首次开发时间是 2022 年末。通过文本输入以及一段 15 秒的音频示例，可以生成既自然又与原声极为接近的语音。即使是小模型，只需一个 15 秒的样本，也能创造出富有情感且逼真的声音。Voice Engine 并未根据用户数据进行训练或微调，而是通过一个扩散过程和 transformer 结合的方式从而产生语音。不过，Voice Engine 目前不支持音调、音高或节奏的调整。Voice Engine 的定价为每一百万字符 15 美元。

RWKV 元始智能日前宣布向全球开源其 RWKV-6 1.6B（2.5T Tokens）模型。

issue62 2024.4.1-4.7

阿里通义千问团队正式公开 Qwen1.5-32B，它是 Qwen1.5 语言模型系列的新成员，在性能、效率和内存占用之间寻求理想平衡，旨在提供与30亿参数规模模型相媲美的性能。在 MMLU、GSM8K、HumanEval 以及BBH等多个任务上，Qwen1.5-32B 即使与72B参数模型相比性能有所下降，但在多数任务中仍优于其他30B级别模型。相较于72B模型，Qwen1.5-32B的内存占用大幅减少，运行速度显著提升，旨在帮助用户为其下游应用找到更优的解决方案。

4月2日，昆仑万维官宣，AI音乐生成大模型天工SkyMusic基于昆仑万维天工3.0超级大模型打造，即日起面向社会开启免费邀测。本轮测试已开放1000个免费名额。天工SkyMusic采用音乐音频领域类Sora模型架构：Large-scale Transformer 负责谱曲，来学习 Music Patches 的上下文依赖关系，同时完成音乐可控性；Diffusion Transformer 负责演唱，通过LDM让Music Patches被还原成高质量音频，使得天工SkyMusic能够支持生成80秒44100Hz 采样率双声道立体声歌曲。这套模型架构在处理视频、音频和音乐领域效果极佳。

4月3日，腾讯开源了文生视频工具MuseV，主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。文本、图像到视频的生成结果的所有帧直接由MuseV生成，没有时序超分辨、空间超分辨等任何后处理。除了直接放出模型代码，目前MuseV还有demo可体验。

4月1日，初创公司阶跃星辰，发布了三个大模型：Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型，以及Step-2万亿参数MoE语言大模型预览版。目前，千亿参数模型 Step-1超过 GPT-3.5 ，多模态大模型 Step-1V比肩 GPT-4V。第一款应用是跃问聊天助手，可以完成信息查询、语言学习、创意写作、图文解读等任务。此外，它还具备了多模态内容理解能力、联网搜索、代码分析增强（POT）等能力，高效理解和回应用户的查询，提供连贯且相关的对话。

4月1日，澜舟科技官宣：孟子3-13B大模型正式开源，面向学术研究完全开放，并支持免费商用。孟子3-13B大模型是基于Llama架构，数据集规模高达3T Tokens。语料精选自网页、百科、社交、媒体、新闻，以及高质量的开源数据集。通过在万亿tokens上进行多语言语料的继续训练，模型的中文能力突出并且兼顾多语言能力。

OpenAI官宣4月2日起，ChatGPT不用注册，可以直接使用。虽然这次开放的版本是GPT-3.5，训练数据截止到2022年，但仍然大大降低了使用门槛。此后的ChatGPT将成为一项免费，快速的基础服务。

4月4日，OpenAI 的 DALL-E 进行了多项升级，添加了与 ChatGPT 的集成，现在用户可以在 ChatGPT 中使用 DALL-E 组件进行复杂的图像编辑。当输入一个想法时，ChatGPT 会自动为生成模型生产量身定制的、详细的 Prompt，用户也可以继续使用自己的 Prompt。

issue63 2024.4.8-4.14

4月9日，Google Cloud Next 2024大会上，谷歌宣布Gemini 1.5 Pro正式开放公开可用、上线音频处理能力；更新代码模型CodeGemma，推出首款自研Arm架构处理器Axion，升级视频版Imagen 2.0。其中，谷歌Gemini 1.5 Pro已经在Vertex AI上开放公测，100万token，还增加了音频功能。它能处理音频流，包括语音和视频中的音频。

4月10日，OpenAI官宣发布了具备视觉功能GPT-4 Turbo的正式版，能处理128k上下文，已经可以通过API调用了，其训练数据截止到2023年12月。同时，Vision请求也可以使用JSON模式和函数调用。新模型可以有助于简化开发人员的工作流程，创造出更高效的应用程序。与此同时，OpenAI已经将GPT-4每3小时40条消息的使用限制，变成了根据供需情况动态调整的灵活配额。不过，有研究发现，GPT-4 Turbo with Vision在编码方面较差。

4月13日，xAI 推出了多模态模型 Grok-1.5V。该模型不仅能理解文本，还能处理文档、图表、截图和照片中的内容。Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型，从多学科推理到理解文档、科学图表、图表、截图和照片。目前，Grok-1.5V 还没有完全开放，但会很快提供给早期测试者和现有的 Grok 用户。此外，xAI 还推出了一个新的基准RealWorldQA。目前，RealWorldQA 包含 700 多张图片。

百度文心一言上线了新功能，仅需几秒钟即可定制自己的声音。打开文心一言App，点击下方“+”，然后选择创建智能体。在声音选项里，会发现一个名为“创建我的声音”的功能。根据系统提示读出一段话，只需两秒左右的时间，系统便能捕捉到用户的声音特点，生成一个独特的“语音助手”。在确认声音质量后，用户的专属“语音库”就在瞬间构建完成。今后，在与智能体的每一次对话中，用户都可以点击播放键，使用自己合成的音色进行语音播报。

issue64 2024.4.15-4.21

4月16日，Create 2024百度AI开发者大会举办，宣布文心大模型4.0性能提升52.5%，又公布了智能体、代码、多模型等方面的新进展。百度着重介绍了三款AI开发工具：AgentBuilder（智能体开发工具）、AppBuilder（AI原生应用开发工具）和ModelBuilder（模型定制工具）。其中，AgentBuilder是面向所有人的，不需要编程基础也能可以轻松建立。会上，百度还发布新一代智能计算操作系统万源（Wanyuan）。

4月17日，稀宇科技 MiniMax 推出了万亿 MoE 模型 abab 6.5。abab 6.5系列包含两个模型 abab 6.5和abab 6.5s。abab 6.5 包含万亿参数，支持 200k tokens 的上下文（相当于约 30 万汉字）。abab 6.5s 跟 abab 6.5 使用了同样的训练技术和数据，但更高效，支持 200k tokens 的上下文长度，可以 1 秒内处理近三万字的文本。根据 MiniMax 发布的技术报告，在知识、推理、数学、编程、指令遵从等维度测试中，abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。MiniMax还开发了一款生产力产品“海螺AI”，目前已经接入了万亿 MoE 模型 abab 6.5。

4月17日，昆仑万维宣布天工 3.0基座大模型与天工 SkyMusic音乐大模型正式开启公测，无次数限制。它生成的中文人声发音清晰、正宗、无异响，不仅针对普通话做了优化，还有粤语、成都话、北京话等方言语种。目前，SkyMusic已经集成到了手机上的天工APP。从目前的结果来看，天工SkyMusic可以支持生成80秒左右时长的歌曲。大模型天工 3.0 拥有 4000 亿参数。

Mistral AI 开源了其最新的大模型 Mistral 8x22B，该模型在AI开放社区中设定了性能和效率的新标准。

4月19日，Meta官宣了Llama 3 80亿和700亿参数版本，在各自参数规模上超越对手，为开源SOTA。Llama 3 405B 版本仍在训练中，将是一个密集模型，预计年末发布。据现有的评测数据，405B 版本的性能已经逼近 GPT-4。架构层面，Llama 3选择了经典的仅解码式Transformer架构，采用包含128K token词汇表的分词器。训练方面，Meta上了2.4万块GPU集群，Llama 3的训练数据规模达到了15T tokens，全部来自于公开信息，其中5%为非英文数据，涵盖30多种语言。此次与基础模型一同发布的，还有基于Llama 3的官方Web版本Meta AI（https://www.meta.ai/）。目前该平台有对话和绘画两大功能。

issue65 2024.4.22-4.28

科大讯飞发布首个支持长文本、长图文、长语音的大模型讯飞星火 V3.5。支持多情感超拟人合成和个性化声音复刻。

微软发布名为 Phi-3 的小型语言模型（SLM），该模型系列虽然体积小巧，但功能强大，具有很大的潜力。作为Phi-3系列的首版，Phi-3-mini 拥有3.8亿参数，并且性能超过了两倍于其大小的模型。Phi-3-mini 现在可以在 Microsoft Azure AI模型目录和 Hugging Face 上公开获取，并且也可以在 Ollama 轻量级框架上运行。

4月25日，苹果团队发布了OpenELM，包含了2.7亿、4.5亿、11亿和30亿四个参数版本。苹果这次发布了完整的框架，包括数据准备、训练、微调和评估程序，以及多个预训练的 checkpoint 和训练日志。OpenELM是一款专为终端设备而设计的小模型。OpenELM使用了分层缩放策略，来有效分配Transformer模型每一层参数，导致模型每层的参数数量不同，从而实现了更有效的跨层参数分配与提升准确率。这款模型还可以在M2 MacBook Pro（64GiB内存）运行。

issue66 2024.4.29-5.5

5月1日，Google推出新型多模态医学 AI 模型 Med-Gemini 。它融合了高级推理、多模态理解和长文本处理能力，构建基于 Google 的 Gemini 模型，并针对医学领域进行了专门的优化和改进。在医学基准测试如MedQA中，展现出优越性能，准确率达91.1%。

5月2日，Anthropic 推出一项针对企业的新付费计划，其中包括医疗保健、金融和法律等受到高度监管的行业，该计划名为“Team”，为客户提供对 Anthropic 的 Claude 3 系列生成型 AI 模型以及额外的管理员和用户管理控制的更高优先级访问权限。此外，Anthropic 也推出一款 iOS 应用，只有11MB。该应用提供对 Claude 3 的访问，包括免费访问以及升级的 Pro 和 Team 访问，并与 Anthropic 的网络客户端同步，利用 Claude 3 的视觉功能为上传和保存的图像提供实时分析。

issue67 2024.5.6-5.12

幻方 DeepSeek AI 开源 MoE 语言模型 DeepSeek-V2。该模型拥有236B的参数量，能够处理长达128K token的上下文，相较于前一代DeepSeek 67B模型，在性能上实现了显著提升，同时在训练成本上节省了42.5%，减少了93.3%的KV缓存，并显著提高了最大生成吞吐量。在多个基准测试中，DeepSeek-V2的性能直逼行业领先的GPT-4，尤其在数学、代码和推理任务上表现出色。

5月8日，谷歌DeepMind发布了新一代预测蛋白质结构的AlphaFold 3模型，能够帮助科学家更精确地针对疾病机制，从而开发出更有效的治疗药物。此举是一个重要的里程碑式突破。AlphaFold 3是一种人工智能模型，它可以预测蛋白质、DNA、RNA等生物分子的结构以及它们如何相互作用。另外，DeepMind还推出了AlphaFold Server，它是一个供全球科学家用于非商业研究的免费平台。

5月9日，阿里云正式发布通义千问2.5，同时发布1100亿参数开源模型Qwen1.5-110B。此外，百炼大模型平台从模型开发、应用开发到算力底座全面升级。升级后，百炼还兼容LlamaIndex等开源框架，企业可自由替换能力组件来适配自身系统。

月之暗面 Moonshot AI 宣布对旗下智能助手 Kimi 进行更新，并推出专业 AI 助手 “Kimi+”。据官方介绍，Kimi+ 是拥有独特技能的 Kimi 分身，可解决特定问题，也能组成 AI 生产线。

零一万物推出了名为「万知」的一站式AI工作平台，号称专为中国人设计，能够提供会议纪要、周报撰写、写作辅助以及解读财报、论文等文件，并帮助用户制作PPT。这款AI个人助手支持中英双语，用户可以通过网页和微信小程序访问。

5月8日，OpenAI 官方发布了《模型规范》(Model Spec) 初稿，旨在公开讨论和定义AI模型应有的行为。所公开的文件汇集了OpenAI在塑造模型行为方面的现有文档、研究经验和未来模型发展的指导原则，主要包括三个核心部分：目标、规则和默认行为。目标是指导模型行为的广泛原则；规则是确保安全和合法性的明确指令；默认行为则是在目标和规则框架下处理冲突的指导方针。Model Spec 的发布是为了加深公众对AI模型行为的理解和讨论，同时也是OpenAI对模型安全和行为改进承诺的延续。OpenAI计划将这份规范作为研究人员和AI训练者的指导，探索模型是否能直接从规范中学习，并在未来一年内根据反馈更新规范内容、分享研究进展。

issue68 2024.5.13-5.19

5 月 14 日凌晨，OpenAI 在首次春季新品发布会上推出了新一代旗舰生成模型 GPT-4o （o 代表 Omnimodel全能模型）、桌面 App，并展示了一系列新能力。GPT-4o具有文本、语音、图像三种模态的理解力，模型反应比人类的回应还快，最快可以在 232 毫秒的时间内响应音频输入，平均响应时长 320 毫秒，与人类相似。还能够充分理解人类的情感，也能表现出各种感情。在多项基准测试中，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能。GPT-4o 的文本和图像功能免费在 ChatGPT 中推出，并向 Plus 用户提供高达 5 倍的消息上限。

5月17日， OpenAI宣布ChatGPT可分析线上Excel数据。ChatGPT可以直接打开线上数据文件，支持从Google Drive和Microsoft OneDrive在线文档上传，在新的可扩展视图中与表格和图表进行实时交互，完成实时数据分析；自定义图表并下载图表，用于演示文稿和文档。网友已经灰度测试到背后的新模型ADA V2。

零一万物发布 Yi 大模型家族的新成员 Yi-1.5 并宣布开源。Yi-1.5 模型包含6B、9B、34B三个版本的预训练和微调模型，采用Apache 2.0许可证。该模型在编码、数学、推理和指令遵循方面的能力相较于前一版本Yi有显著提升，同时保持了在语言理解、常识推理和阅读理解方面的优秀表现。

腾讯发布基于混元大模型的一站式智能体开发平台「腾讯元器」。企业和开发者可以通过腾讯元器直接创建智能体，利用腾讯官方提供的插件和知识库，实现个性化的AI应用开发。腾讯元器的亮点在于其便捷的一键分发功能，允许用户将创建的智能体快速部署到QQ、微信客服、腾讯云等多个渠道上，极大地简化了AI技术的落地应用过程。

腾讯公司宣布其混元文生图大模型全面升级并开源，这是业内首个中文原生的DiT（Diffusion With Transformer）架构文生图模型。该模型包含15亿参数，支持中英文双语输入及理解，现已在Hugging Face平台及GitHub上发布，包括模型权重、推理代码和模型算法等，可供企业与个人开发者免费商用。

5月15日，2024火山引擎FORCE原动力大会上，字节跳动云雀大语言模型升级为豆包大模型家族正式在火山引擎上对外开放服务。豆包大模型家族的全系列模型，包括豆包通用模型pro/lite、角色扮演模型、语音合成模型、语音识别模型、声音复刻模型、Function call模型、文生图模型以及向量化模型。豆包通用模型pro-32k版，推理输入价格0.0008元/千tokens，较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens。另外，豆包通用模型pro-128k版本，推理输入价格为0.005元/千tokens。

谷歌在I/O 2024开发者大会上发布Gemini 1.5 Pro正式版，上下文长度达到200万token，而且开放给个人用户使用。支持多模态的Gemini可以处理上传的任何格式的信息，理解内容后将其改造成适合用户的形式并可对话互动。

谷歌发布了Gemini 1.5 Flash。Flash是一个更轻量级的模型，专为那些对响应速度要求极高的特定或频繁任务优化。它同样具有多模态、1M tokens长上下文的特点，只不过实现了轻量化、低延迟、高效推理，每百万个token的价格仅是Pro版的二十分之一。Gemini 1.5 Flash在Google AI Studio和Vertex AI中可用，开发者可以注册申请两百万token的内测版。

issue69 2024.5.20-5.26

微软在2024 Build开发者大会上发布了Phi-3系列模型的新成员 “Phi-3 Vision”，这是一个有42亿参数的多模态模型，结合了语言和视觉能力。Phi-3 Vision专为图表和图解理解进行了优化，能够处理现实世界图像的推理以及从图像中提取和推理文本，支持128K的上下文长度。该模型在一般视觉推理任务、OCR、表格和图表理解任务中表现出色，优于其他更大模型如Claude-3 Haiku和Gemini 1.0 Pro V。

5月21日，微软在2024 Build开发者大会发布新一代 Copilot+ PC。它配备了强大的 AI Agent，只需在键盘上轻点新的 Copilot 按键即可快速交互。硬件AI算力达到40 TOPS以上，或者说每秒40万亿次运算，电池续航时间可达一整天。目前开始预订，起售价 999 美元，国行价格8688 元起售，6 月 18 日发货。在新一代PC里，打游戏时可与AI实时对话，提供吐槽陪玩或攻略指导，由GPT-4o提供支持。任何文件或网页浏览记录都可以用自然语言搜索回忆，实时翻译音频或视频字幕，目前支持40+种语言。在专为AI重构的新版Windows 11上，约有40多个AI模型被深度集成，许多功能都是实时的。微软引入了全新的系统架构，将CPU、GPU和新的高性能神经处理单元NPU结合在一起。NPU负责在后台实时运行AI。

5月21日，智谱·AI宣布推出新一代多模态大模型CogVLM2，该模型在关键性能指标上相较于前一代CogVLM有了显著提升，同时支持8K文本长度和高达1344*1344分辨率的图像。尽管CogVLM2的模型大小为19B，但其性能接近或超过了GPT-4V的水平。CogVLM2的技术架构在上一代模型的基础上进行了优化，包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块，这些模块通过独特的参数设置，精细地建模了视觉与语言序列的交互。

5月22日，百川智能发布其最新一代基座大模型 Baichuan 4，并推出了首款AI助手“百小应”。Baichuan 4在各项能力上相比前一代Baichuan 3有显著提升，其中通用能力提升超过10%，数学和代码能力分别提升14%和9%。在SuperCLUE的评测中，Baichuan-4的能力排名国内第一，超越了SenseChat V5。Baichuan 4还首次带来了多模态能力，在各大评测基准上表现优异，领先其他多模态模型。

5月20日，面壁智能打造了端侧多模态模型MiniCPM-Llama3-V 2.5。该模型8B参数，不仅支持30+多种语言，而且综合性能、OCR长难图识别能力SOTA；图像编码快150倍。面壁自研高清图像高效编码技术，可以高效编码及无损识别180万高清像素图片，并且支持任意长宽比的图像。

issue70 2024.5.27-6.2

腾讯将基于混元大模型的 AI 助手应用「混元助手」升级为「腾讯元宝」，集成 AI 搜索、AI 总结、AI 写作等功能。元宝不仅提供 AI 助手的标准功能，还利用腾讯新闻和微信公众号平台的资源，增强了内容的及时性和丰富度。此外，元宝还具备生成内容、翻译、多模态生成等多种能力，显示出腾讯在 AI 应用领域的强大技术实力和生态优势。

Google 宣布 Gemini 1.5 Flash 和 Gemini 1.5 Pro 现已全面推出。Gemini 1.5 Flash 现支持 1,000 RPM 限制，并引入了调优功能。此外，API 现已支持 JSON Schema 模式，AI Studio 移动版支持和浅色模式也已上线，为开发者提供更强大和便捷的开发工具。

OpenAI 推出专为大学校园设计的 ChatGPT Edu 版本，支持 GPT-4o、网络搜索、自定义 GPT、数据分析、代码生成等功能。牛津、剑桥、伯明翰等 24 所大学，以及沃顿商学院和亚利桑那州立大学已开始使用该生成式 AI 产品。ChatGPT Edu 提供多模态推理、增强的数据分析和搜索功能、自定义 GPT、提升的语音质量及多语言支持，还具备强大的安全机制，包括数据隐私、组权限和管理控制。

法国人工智能初创公司 Mistral AI 宣布了其首个代码生成模型 Codestral。该模型接受了 80 多种编程语言的训练，包括 Python、C、C++、JavaScript 和 Bash 等。Codestral 能自动完成代码函数、编写测试，并使用填补中间的机制完成部分代码，减少错误和漏洞。该模型拥有 32k 的上下文窗口，在 HumanEval、MBPP、CruxEval、RepoBench 和 Spider 等基准上表现出色，提供 API 端点、插件和开发环境集成。

issue71 2024.6.3-6.10

6月3日，昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来，是完整地将MoEUpcycling技术应用并落地的开源千亿MoE大模型，也是支持用单台4090服务器推理的开源千亿MoE大模型。本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列，是其中的中档大小模型（Skywork-MoE-Medium），模型的总参数量为146B，激活参数量22B，共有16个Expert，每个Expert大小为13B，每次激活其中的2个Expert。

6月4日，AI初创公司澜舟科技宣布轻量化大模型Mengzi3-8B，现已正式开源，并支持免费商用。Mengzi3-8B是一款高效、低显存需求的AI大模型，半精度下显存占用小于16G，适用于PC（如MacBook）和大部分消费级显卡（如RTX 4090、RTX 4080、RTX 4070Ti）。此外，Mengzi3-8B的原生推理速度在同级别模型中处于领先地位，特别适合个人开发者和AI爱好者使用。

6月5日，智谱AI在智谱AI Open Day上宣布对旗下全模型矩阵的价格大幅下调，开源GLM-4-9B系列模型，并发布了大模型应用清言App和大模型开放平台的最新更新。小模型ChatGLM3-6B升级为9B后，在开放平台变为GLM-4-flash版本，API 价格相较于GLM-3 Turbo降价至10%。第四代GLM系列开源模型GLM-4 9B，官宣开源免费用。GLM-4模型，在开放平台上为GLM-4-Air版本，每100万token只需1元，价格则仅为原来的1%。

6月7日，阿里云发布开源模型Qwen2-72B。本次开源的Qwen2-72B大模型在自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的开源模型，包括阿里云在4月底开源的Qwen1.5最大的模型Qwen1.5-110B。该Qwen2系列包含5个尺寸的预训练和指令微调模型，包括wen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。所有尺寸模型都使用了GQA（分组查询注意力）机制，模型的多语言能力和上下文长度支持均得到了提升。

issue72 2024.6.10-6.16

苹果在WWDC 24上展示了其首个AI系统——Apple Intelligence及全新Siri。这个强大的新功能将为iPhone、iPad和Mac提供情景驱动通知、写作改进、图像生成等功能。Apple Intelligence的英语试用版将于今年夏天推出，并于今年秋天在iOS 18、iPadOS 18及macOS Sequoia中发布Beta版。使用门槛是iPhone 15 Pro系列、配备M1芯片的iPad和Mac以及后续机型。苹果还和OpenAI宣布建立合作伙伴关系，将ChatGPT直接集成到即将发布的iOS 18、iPadOS 18和macOS中。

Luma Labs推出了Dream Machine，这是一种全新的AI模型，能够根据文本和图像提示生成5秒的视频剪辑。

6月12日，微软发布公告称Copilot GPTs将于7月10日起停服，移除创建GPT的功能，用户已经创建的GPTs将被清空。微软给出的官方解释是公司战略调整，正在将GPT的重点转向商业和企业场景，背后原因可能是缺乏商业回报。Copilot GPTs关闭引发了用户不满，批评者质疑此举会切断创新并削减消费者对于产品的信任。

6月14日，英伟达宣布推出 Nemotron-4 340B。它包含一系列开放模型，通过独特的开放模型许可，开发人员可以用免费、可扩展的方式使用这些模型生成合成数据，用于训练大语言模型，可用于医疗健康、金融、制造、零售等所有行业的商业应用。Nemotron-4 340B 系列包括基础、Instruct 和 Reward 模型，用于生成训练和改进 LLM 的合成数据。这些模型经过优化，可与 NVIDIA NeMo 配合使用，后者是一个用于端到端模型训练的开源框架，包括数据管理、定制和评估。它们还针对开源 NVIDIA TensorRT-LLM 库的推理进行了优化。

issue73 2024.6.17-6.23

6月20日，Anthropic 发布了下一代旗舰大模型Claude 3.5 Sonnet，不仅在评估中胜过GPT-4o，还保持着中等规模的模型所具有的速度和成本优势。如今，Claude 3.5 Sonnet已经面向全球开启免费试用了。成本更低、速度更快。在运行速度方面，Claude 3.5 Sonnet也是Claude 3 Opus的两倍。在费用上，Sonnet处理每百万输入token仅需3美元，每百万输出token仅为15美元。

在Computex 2024大会上，Stability AI正式官宣SD 3 Medium公开发布。据悉，之后还会开源4B和8B的版本。目前，ComfyUI已经提交了对SD3支持的版本。本次开源的版本是Stable Diffusion 3 Medium在Hugging Face上可以下载模型权重。它的规模为20亿参数，在笔记本上就能跑。

6月21日，华为在年度开发者大会上推出全新升级的盘古大模型5.0版本，该版本在全面性、多模态处理能力以及深度思考能力上均实现了显著提升。盘古5.0针对不同业务需求，推出了多种规格的模型，并且能够与现实世界紧密结合，推动大模型在各行业的广泛应用。

Hedra发布Character-1，用户可以细颗粒度地控制如何使用AI来制作“虚拟角色的动画”。这是Hedra即将推出的基础视频模型的“预览版本”，目前它只提供方形视频，而不是宽屏或竖屏，而且分辨率相对较低。它的使用门槛相当低。基于该模型，用户只需要一段音乐——可以直接生成，或者上传已有的音乐，一张图片——可以直接生成，或者上传自己的图片。然后，只需单击生成视频并等待即可。大概一分钟左右，会生成一个一个口型同步的视频。

依图科技发布了面向安防场景的天问大模型4.0。

issue74 2024.6.24-6.30

谷歌DeepMind公布其新一代最强开源模型——Gemma 2。Gemma 2有90亿（9B）和270亿（27B）两种参数规模可用。27B模型训练了13T tokens，9B是8T tokens，都拥有8192上下文窗口，可在Google AI Studio中使用。26亿参数（2.6B）模型将很快发布，小到可以在手机本地运行。

OpenAI宣布开发了一个名为CriticGPT的新模型，基于GPT-4训练，旨在查找ChatGPT输出内容中的错误。CriticGPT的主要目的是协助人类AI训练员完成工作，使用”从人类反馈中强化学习”（RLHF）技术来改进GPT-4的回答。

6月25日，OpenAI向中国用户发布邮件称，自7月9日起，将不再接受来自那些未在其支持列表中的国家和地区的API请求。如果受影响的组织想要继续利用OpenAI的服务，他们需要在OpenAI服务覆盖的国家或地区进行访问。目前，OpenAI的API服务覆盖了全球161个国家和地区，但中国并不在其中，这表明OpenAI将不再向中国用户提供API服务。

百度在深度学习开发者大会上推出了智能代码助手”文心快码”。该产品基于文心大模型和百度多年积累的编程数据，具有代码智能、场景丰富等优势，可实现”帮你想、帮你写、帮你改”的应用形态。文心快码在百度内部已广泛使用，代码采用率达44%。它支持100多种编程语言，在Go、Java等主流语言中表现优异，并兼容多种主流IDE。产品分为标准版、专业版、企业版和企业专有版，满足不同用户需求。

6月27日，科大讯飞发布讯飞星火大模型V4.0及多个领域的人工智能应用。

issue75 2024.7.1-7.7

Runway宣布其最新的文生视频模型Gen-3 Alpha向所有用户开放，每月最低收费12美元。Gen-3一次可生成11秒的720P视频，支持文本输入生成视频。该模型功能强大，比肩Sora，能够生成高质量的视频内容。

7月3日，AI 音乐生成工具 Suno 宣布推出 iOS 客户端。

7月4日凌晨，法国知名开源 AI 研究实验室 Kyut 在官网发布了多模态大模型 Moshi。Moshi 的功能与 OpenAI 在5月14日展示的最新模型GPT-4o类似，都可以听取人的语音提问后进行实时推理回答。

7月4日，在今天揭幕的 2024 世界人工智能大会暨人工智能全球治理高级别会议（简称“WAIC 2024”）上，阶跃星辰首发了三款 Step 系列通用大模型新品：Step-2 万亿参数语言大模型正式版、Step-1.5V 多模态大模型、Step-1X 图像生成大模型。

7月5日，商汤科技发布了国内首个流式多模态大模型日日新5.5，实现了实时跨文本、音频、图像与视频推理，多项测评超过GPT-4o。

腾讯元宝应用推出了AI深度搜索功能，用户更新至最新版本后，能够在AI搜索深度模式下获得扩展问题解答，并能一键生成内容大纲、思维导图以及相关人物事件梳理。特别是在科研和财经等专业领域，该功能能够提供详尽的回答。经测试，元宝引用的消息源基本来自微信公众平台公众号文章。

快手宣布可灵AI网页端正式上线，所有功能限时免费。新功能包括:“文生视频”，支持最长10秒的视频生成以及“图生视频”，新增运镜控制和自定义首尾帧。可灵AI网页端提供AI图片、AI视频及即将上线的视频编辑功能，目前已吸引超过50万用户申请内测资格。

issue76 2024.7.8-7.14

腾讯智影小程序上线AI视频功能，用户可一键生成风格化视频，限时免费。用户导入视频后，可快速生成风格化效果，支持10秒视频处理。此外，智影AI还包含虚拟数字人、文本配音、智能去水印和文章转视频等功能，提升视频创作体验。

7月10日，阿里巴巴上线了AI搜索助手“心流”，提供智能搜索、知识问答、智能阅读、辅助创作等功能，旨在帮助用户提升工作和学习效率。

百度推出一款新型AI社交App“文小言”，利用文心大模型技术提供仿真数字人社交体验，允许用户与AI虚拟角色进行实时互动，每个角色都具备个性化的聊天服务和肢体语言反馈。

issue77 2024.7.15-7.21

7月17日，Anthropic 推出了 Claude Android 应用程序，旨在通过提供更多平台支持来吸引用户。该应用程序允许用户免费访问 Anthropic 的 AI 模型 Claude 3.5 Sonnet，并提供实时语言翻译功能，支持设备间对话同步和照片或文件的实时图像分析。此外，企业客户还可以在移动设备上访问他们的 Claude 账户。

7月19日，OpenAI 发布 GPT-4o mini ，一个成本更低、性能接近 GPT-4 的新模型，已在 ChatGPT 中取代 GPT-3.5。新模型支持更大的输入输出 tokens，价格更便宜，适用于多种应用场景，并计划开放微调功能。

issue78 2024.7.22-7.28

7月23日，Meta 正式发布了 Llama3.1，这是一系列大模型，包括8B、70B和405B三个版本，其中 405B 版本在性能上与 GPT-4o 相当，刷新了开源基础模型的能力上限。Llama 3.1扩展了上下文长度至 128K，并支持多语言和工具使用。Meta在预处理和预训练数据的 Curation pipelines 上进行了加强，并在后训练数据的质量保证和过滤方法上做了改进。Llama3.1 使用了超过 15 万亿的多语言 Token 语料库进行预训练，预训练模型的规模远大于以前的版本。

7月25日，OpenAI 宣布旗下AI搜索引擎 SearchGPT 正式开放内测，并计划在未来接入到 ChatGPT 服务中。

7月26日，智谱AI发布了升级版视频生成模型 CogVideoX，并推出了名为“清影”的AI视频生成服务，该服务能够在 30 秒内快速生成 6 秒视频，支持复杂指令的准确理解和执行，确保视频内容连贯，并具有画面调度的灵活性。目前，“清影”已在智谱清言的多个平台上免费开放给用户体验，同时企业和开发者也可以通过智谱大模型开放平台的 API 调用使用。

issue79 2024.7.29-8.4

7月31日，GPT-4o高级语音模式开启邀请测试。OpenAI宣布开始向一小部分ChatGPT Plus用户推出高级语音模式，基于GPT-4o提供更自然的实时对话。

谷歌发布了 Gemini 1.5 Pro 0801 版本，这款强大的 AI 在 LMSYS AI 竞技场排行榜上以 1300 分的成绩领先，超过了 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3.5。Gemini 1.5 Pro 配备了 2,000,000 个 token 的上下文窗口，极大增强了其处理大规模数据和生成长篇内容的能力。

谷歌开源了其最新端侧小模型Gemma2 2B，该模型以20亿参数的规模在性能上超越了参数更多的GPT-3.5-Turbo和Mixtral-8x7b，成为大模型竞技场LMSYS Chatbot Arena中表现最佳的开放模型之一。Gemma2 2B不仅性能卓越，还具有内置安全改进功能，同时推出了ShieldGemma安全内容分类器和Gemma Scope模型可解释性工具，进一步强化了模型的安全性和透明度。

7月31日，360集团创始人周鸿祎宣布，360安全大模型将免费为个人用户、中小企业提供服务，并在行业内第一个宣布安全大模型免费，让人人都能获得大模型带来的技术红利。

8月1日，Stable Diffusion 原团队成员创办的 Black Forest Labs 发布了 FLUX 文本转图像模型系列。FLUX.1 模型为开源图像生成模型树立了新标准：它们可以生成逼真的手、清晰的文本，甚至可以生成搞笑表情包这样异常困难的任务。

issue80 2024.8.5-8.11

GPT-4o自20240513之后首次更新到20240806版本。

OpenAI 推出了一项新功能，严格要求模型按 JSON 格式输出。允许开发者生成符合指定 JSON 模式的结构化输出。用户可以通过函数调用或 response_format 参数（使用 json_schema 选项）在 API 中使用此功能。

8月6日，智谱AI将其视频生成大模型CogVideoX开源，成为首个可商用的开源视频生成模型。CogVideoX支持在线体验，展示了高质量的视频生成效果，并且易于部署和使用，仅需单卡A100在90秒内即可生成视频。

issue81 2024.8.12-8.18

阿里巴巴开源的 Qwen2 Audio – 8.5B 模型在 ASR、S2TT 和 AIR-Bench 基准测试中表现出色，达到了目前的最佳状态。该模型经过 370K 小时的语音、140K 小时的音乐和 10K 小时的声音数据预训练，特别擅长语音聊天和音频分析任务，并与 Transformer 结构无缝集成。

8月14日，马斯克旗下的人工智能公司 xAI 正式发布新一代 Grok 2 大模型测试版，包括 Grok 2 和 Grok 2 mini 两个版本。Grok 2 测试版在逻辑推理能力上有显著提升，并且新增了文生图功能，使用 Black Forest Labs 的 FLUX.1 模型来生成图像。该版本支持中文提问和回答，目前只有 X Premium 和 Premium+ 用户可以体验。

8月16日，Runway 正式推出了其最新的AI视频生成模型 Gen-3 Alpha Turbo，该模型在视频生成速度上比之前的 Gen-3 Alpha 快了 7 倍，并且价格仅为原版的一半。这一新模型在保持与原版相同性能的同时，大幅降低了成本，使得所有用户都能体验到更快速的AI视频生成技术。

阿布扎比技术创新研究所推出了 Falcon Mamba 7B 模型，不依赖 Transformer 架构和注意力机制，能高效处理无限长序列，性能超越同规模开源模型。这一新模型特别适合长文本处理，且在内存使用上更为高效，现已在Hugging Face和GitHub上开源。

AI 代码编辑器 Cursor 将默认大模型切换到 Claude 3.5 Sonnet。Cursor 母公司 Anysphere，成立初期从 OpenAI 处融资 800 万美元，占当轮融资的 72.7%。

issue82 2024.8.19-8.25

Midjourney 网页版对所有人开放，为每位新用户提供最先进模型V6.1 25次试用机会。用户可使用Discord或Google账号登录，并在账户设置中合并两个平台的登录信息，确保历史记录同步。

8月19日，科大讯飞的星火语音大模型推出了极速超拟人交互更新，通过先进的端到端技术实现了快速响应和自然对话的无缝打断。新模型不仅能够识别并共鸣用户的情绪变化，还能根据用户的指令灵活调整情感表达和语言风格。此外，它还具备仿多种角色音色和语气的能力，使用户能够与不同人设进行互动。

8月21日，微软推出的新一代AI模型系列Phi-3.5，包含 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct 三个版本，分别针对轻量级推理、混合专家系统和多模态任务设计。Phi-3.5采用MIT开源许可证，具有不同参数规模，支持128k上下文长度，优化了多语言处理和多轮对话能力，在基准测试中性能表现超越了GPT4o、Llama 3.1、Gemini Flash等同类模型。

Luma AI 推出了 Dream Machine 1.5，这是其 AI 视频模型的升级版，带来了更高质量的文本转视频功能。新版本不仅在理解文本提示上更为智能，还提供了自定义文本渲染选项，并进一步改进了图像转视频的效果。

阿里大语言模型“通义千问”今日宣布启用新域名“tongyi.ai”，并带来多项新功能。网页版聊天新增深度搜索功能；App 图片微动效支持多尺寸图片；App 自定义唱演支持 3:4 画幅（原先 1:1）。

issue83 2024.8.26-9.1

Anthropic 宣布 Claude 中的 “Artifacts” 功能现已对所有用户开放，且已集成到 iOS 和 Android 应用中。这意味着用户现在可以在手机上创建和查看这些 “Artifacts”。自6月推出预览版以来，已经有数千万个 “Artifacts” 被创建。这个功能类似于在软件中创建和保存个人作品或项目的过程，使用户可以更方便地管理和分享他们的创作成果。Anthropic 鼓励用户探索和利用这一功能，以便在 Claude 的平台上进行更多创新和分享。

智谱开放平台现提供免费的 AI 大模型服务，用户可注册后调用 GLM-4-Flash 模型来构建定制化模型和应用。GLM-4-Flash 适合处理垂直领域、成本敏感、需求快速响应的任务，具备多轮对话、网页浏览、函数调用和长文本推理能力，并支持 26 种语言。平台通过自适应权重量化、并行化、批处理和投机采样等技术优化模型效率，实现推理速度提升和成本降低。

8月28日， Gemini 官方版本更新公告，Gemini Gem 管理器功能已正式上线，这是 Gemini 版的 GPTs。

谷歌在其 AI Studio 中推出了三款新的 Gemini 实验性 AI 模型：Gemini 1.5 Flash-8B、Gemini 1.5 Pro Exp-0827 和 Gemini 1.5 Flash Exp-0827。Gemini 1.5 Flash-8B 拥有 80 亿参数，专为多模态和长文本摘要任务设计；Gemini 1.5 Pro Exp-0827 强化了编程与复杂提示词的处理能力，在 LMSYS 排行榜上升至第二，仅次于 OpenAI 的 GPT-4o-latest；Gemini 1.5 Flash Exp-0827 的性能显著提升，排名从第 23 位跃升至第 6 位。用户可通过 Gemini API 和 Google AI Studio 访问这些新模型。此外，谷歌计划在 9 月 3 日起将 gemini-1.5-pro-exp-0801 模型的请求自动重定向至更新的 gemini-1.5-pro-exp-0827，并移除旧版模型。

Android / macOS 版 ChatGPT 客户端发布新版本。现在您可以使用 ChatGPT 上的“提及”功能，该功能允许用户在一次对话中使用“@”符号调用不同的自定义GPT模型。

8月29日，智谱发布新版基座大模型GLM-4-Plus，在语言理解、指令遵循、长文本处理等方面性能得到全面提升，保持了国际领先水平。GLM-4-Plus 使用了大量模型辅助构造高质量合成数据以提升模型性能；利用 PPO 有效有效提升模型推理（数学、代码算法题等）表现，更好反应人类偏好。新版文生图模型 CogView-3-Plus：具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。智谱还宣布智谱清言App新版现已支持视频通话，AI可以实时“看到”你的表情（陪伴场景），甚至可以来一局“你画我猜”。

谷歌宣布旗下 Gemini AI 支持更多类型的文件，包括电子表格、演示文稿、图像、音频和视频等，为用户提供更优质的 AI 服务。Gemini AI 可以分析、摘录和洞察文档内容，帮助用户提高理解、研究和写作能力。

issue84 2024.9.2-9.8

百度文心一言 App 推送一周年升级，更名为「文小言」，同时宣布 9 月内文心 4.0 大模型将免费使用。

腾讯在 2024 全球数字生态大会上发布新一代大模型「混元 Turbo」，采用 MoE 架构，推理效率提升 100%，推理成本降低 50%。其价格较混元 Pro 降低 50%，输出价格为 0.05 元 / 千 tokens，输入价格为 0.015 元 / 千 tokens。

在 2024Inclusion 外滩大会上，蚂蚁集团总裁韩歆毅宣布了全新推出的 AI 独立 App 支小宝，展示了蚂蚁集团在 AI 应用布局上的成果以及服务亿级用户的实践。支小宝 App 的定位是服务型 AI 产品，基于蚂蚁百灵大模型开发。它连接的仍是支付宝生态，在功能上，通过对话进行订票、点餐、打车等。

蚂蚁集团在外滩大会财富论坛上推出升级版 AI 金融管家「蚂小财」，新版「蚂小财」能更实时解读热点，提供个性化专业服务，并在支付宝 APP 全量上线。同时，蚂蚁财富全新 APP 搭载「蚂小财」 Pro 版上线灰测，这是国内首个实现 AI 原生体验的理财 APP。截至 2024 年 8 月底，「蚂小财」的月度活跃用户数已达到 7000 万人，其中 45% 来自三线及以下城市。

OpenAI 计划推出大型语言模型的订阅服务，包括专注于推理的「草莓」和名为「Orion猎户座」的新旗舰 LLM。内部讨论中曾考虑过每月最高 2000 美元的订阅价格，但最终价格尚未确定。这一定价关系到 OpenAI 及其在类似产品领域的竞争对手，如谷歌、Anthropic 等公司。

OpenAI 日本办公室 CEO 长崎忠雄在 KDDI 峰会上透露，新一代模型 GPT-Next 的性能预计将比现有的 GPT-4 模型强大 100 倍，并计划在今年晚些时候发布。GPT-Next 模型的性能提升归功于其优化的架构设计和学习效率的改进。

AI 公司 Anthropic 推出 Claude Enterprise 计划，旨在帮助企业更好地整合 AI 模型与内部知识库，提供个性化丰富的体验。该计划支持上下文窗口达 50 万个词元，原生集成 GitHub，并放宽了使用限制。Anthropic 表示，企业可向 Claude 提供大量知识资料。然而，企业不应过分依赖大型文档处理能力，因为 AI 模型可能出现「中间丢失」现象。Claude Enterprise 提供安全功能如 SSO 和基于角色的权限管理，强调保护客户数据，并将推出审计日志和 SCIM 功能。

谷歌推出了新的 AlphaProteo AI模型，旨在设计能与目标分子成功结合的高强度蛋白质结合剂，用于药物设计和疾病理解。该系统能生成新的蛋白结合体，已成功设计出与癌症和糖尿病并发症相关的血管内皮生长因子-A 的蛋白质结合剂，并具有较高的体外实验成功率。谷歌通过测试多种目标蛋白的结合体，包括病毒蛋白和参与癌症、炎症等疾病的蛋白，以验证 AlphaProteo 的效果。

谷歌推出了 Google Photos 应用的新功能「Ask Photos」，该功能利用 Gemini AI 技术，允许用户通过自然语言搜索照片库，查找特定的回忆或信息。此功能已开始向 iOS 和 Android 用户开放早期访问权限。用户可以提出各种问题，以从自己的图片库中检索相关内容，例如「我去年在哪里露营。」「我的门票何时过期。」等。

Replit推出Replit Agent。这个工具旨在协助用户构建手机软件项目。它可以理解自然语言提示，并帮助用户从构思到部署将应用程序从概念变为现实。Replit Agent通过使用自然语言进行控制，使得构建和部署应用程序变得更加简单和高效。它提供了一个创新的方式，让用户可以用简单的语言描述来创建和部署应用程序。

issue85 2024.9.9-9.15

9月12日，OpenAI宣布全新模型o1-preview正式亮相。该模型即为传言了近一年的Q*/草莓。根据OpenAI发布的资料，该模型在智能推理方面达到了前所未有的新高度，因此，模型版本号将从1开始计数。这或许意味着，我们不会再看到GPT-5，o1将成为OpenAI未来的顶尖力量。从9月12日起，ChatGPT Plus和Team用户已可率先体验这一模型。用户可根据需求选择使用o1模型的预览版——o1-preview，或是其精简版——o1-mini。o1-preview每周的使用上限为30条消息，而o1-mini则为50条。由于用户体验热情较高，OpenAI还在9月14日宣布重置本周所有用户的条数限制。

9月10日，Apple举行秋季新品发布会正式发布iPhone 16系列，同时宣布Apple Intelligence美国英语版本将在今年晚些时候在加拿大/澳大利亚/新西兰/英国/南非等市场推出，明年将支持中文/法语/日语/西班牙语。

腾讯推出游戏视频模型GameGen-O，可生成开放世界视频游戏，模拟游戏引擎功能，生成游戏角色、动态环境、复杂动作等，支持交互控制。业内人士称其为游戏工作室的ChatGPT时刻。

法国AI初创公司MistralAI发布了首个多模态模型Pixtral12B，拥有120亿个参数，能够处理图像和文本。然而，HuggingFace的技术主管指出其性能数据可能存在问题。尽管如此，Pixtral12B展示了强大的图像识别和处理能力，包括识别复杂数学符号和生成详细描述。MistralAI计划在聊天机器人和API平台上提供测试。

issue86 2024.9.16-9.22

微软已在Azure OpenAI服务中提供o1-preview和o1-mini两个模型的部署（API）。

微软召开发布会，介绍Microsoft 365 Copilot的Wave 2更新。包括新推出的 Copilot Pages 一站式网页搜索、内容策划和团队写作工具，以及通过 AI 生成 Python 代码快速处理 Excel 数据和一句提示生成 PPT 页面的功能。微软还推出了 Copilot 智能体以简化企业业务流程。

9月18日，360智脑推出基于CoT思维链概念的多模型协作功能，这一功能是通过多个大模型组成的智能体框架实现的，可以让多个模型共同思考和协作解决业务问题。用户可以从多款模型中任选3款，分别做专家、反思者和总结者，以实现更全面、深入的思考和推理过程。

9月19日，阿里巴巴在云栖大会上开源最新的Qwen-2.5大模型，并提供了0.5b-72b的各种尺寸。这一系列大模型包括Qwen2.5、Qwen2.5-Coder和Qwen2.5-Math等不同参数版本，适用于各种业务场景。此举进一步推动了国内大模型研究和应用的发展。

可灵 AI 全球升级发布，新增可灵 1.5 模型和「运动笔刷」功能，提升视频生成质量与控制能力。自 6 月发布以来，已进行 9 次迭代，超过 260 万人使用，生成视频超 2700 万部、图片 5300 万张。

智谱AI开源了其图生视频模型CogVideoX-5B-I2V，该模型支持通过一张图片和提示词生成视频。同时开源的还有标注模型cogvlm2-llama3caption，用于将视频内容转换成文本描述。智谱AI团队还发布了一些成功的应用案例，并公开了相关研究论文。

issue87 2024.9.23-9.29

9月25日，Meta推出新一代开源AI模型Llama3.2系列，包含从1B纯文本到90B多模态的多个版本，支持边缘和移动设备，旨在推动人工智能在多种使用案例中的应用。此次发布强调了模型的开放性、可定制性以及在图像理解和视觉推理任务方面的能力，同时提供了预训练和指令微调版本，支持高通和联发科硬件，并针对ARM处理器优化。Meta同日还发布了真AR眼镜Orion，搭载端侧大模型，现阶段作为原型机仅面向开发者，预计消费者版本将于两年内推出。

Google发布了两个Gemini模型更新：Gemini-1.5-Pro-002和Gemini-1.5-Flash-002，提供更多的能力、更快的速度以及更低的成本。新模型在多个基准测试中有显著提升，特别是在数学、长文本和视觉任务方面。Google还降低了Gemini 1.5 Pro的输入和输出token价格超过50%，提高了两个模型的速率限制，并减少了延迟。

OpenAI正在向ChatGPT付费用户全量推出高级语音模式，该功能将使ChatGPT的对话听起来更自然。ChatGPT新增了五种声音，包括Arbor、Maple、Sol、Spruce和Vale，使得总声音数量达到九种。此外，最新版本的高级语音模式在理解口音方面有所改进，对话更加流畅和快速。中文方面，高级语音模式还可以使用北京话、上海话、四川话、粤语等方言口音进行对话。

Claude宣布Artifacts功能免费开放，免费版、Pro版、Team版用户均可立刻上手体验。

钉钉推出了面向个人用户的“365会员”产品，提供包括AI搜索、个人AI助理、AI自动回复和自动速读在内的会员专享权益。365会员中的AI搜索功能可以整合工作和协同信息，个人AI助理支持直接询问、识屏提问、拍照提问等多种交互方式。对于家长用户，会员还提供“成长记录”功能，可以智能识别孩子的照片并自动记录成长轨迹。

9月26日，哗哩哔哩宣布已上线自研大语言模型“index”，并将其应用于AI字幕。目前，B站的AI字幕具备中文、英文、韩语、日语、泰语等近10种语言的实时翻译能力，准确度接近90%。

美图公司宣布其“奇想大模型”的视频生成能力已完成全面升级，现在能够生成时长、画质、流畅性、真实性和可信度更高的视频。升级后，该模型可以支持生成1分钟、每秒24帧、1080P分辨率的超长视频。这项技术的进步将逐步应用于美图秀秀、美颜相机、Wink、开拍、美图设计室、WHEE、MOKI等产品。

字节跳动发布两款视频生成模型，分别是豆包PixelDance和豆包Seaweed。PixelDance单次可生成最长10秒的视频，Seaweed可生成最长5秒的视频，可动态延长至20-30秒。发布会现场，字节展示了PixelDance模型的生成效果，其优势主要体现在对复杂指令的理解方面，适合人物、剧情更为复杂的视频生成，而Seaweed模型的优势主要在于生成视频的清晰度。

issue88 2024.9.30-10.6

10月1日，OpenAI 发布 Whisper large-v3-turbo 语音转录模型，参数 8.09 亿，速度提升 8 倍，解码层数减少至 4 层，体积与 VRAM 需求均降低，并开放 MIT 许可证下的代码及模型权重供 GitHub 用户获取和体验。

10月1日，OpenAI发布Realtime API，即高级语音模式的API，开发者可在Playground中体验，价格较贵，每百万token输入+输出需要300美元。

10月4日，OpenAI宣布了ChatGPT的新增功能——Canvas。基于GPT-4o模型开发而成，它提供了一个单独的窗口，可以与ChatGPT一起执行编程、写作任务，会帮你提供意见、审核和执行具体的功能。例如，当你在编写代码时遇到了困难，Canvas可以高亮显示有问题的代码段，帮助ChatGPT提供内联的调试建议快速修复这些错误；简单来说，可以把Canvas看成是一个内置的AI Agent功能，就是用AI来指导、协助ChatGPT一起执行任务，使输出的内容质量更好、更准确。

Meta发布Meta Movie Gen文生视频模型，被业界称为迄今为止最先进的媒体基础模型（Media Foundation Models），并非扩散模型。它使用了包含 30B 参数的视频生成模型和 13B 参数的音频生成模型。这一全新的 AI 模型采用计算机视觉和自然语言处理技术，通过简单的文本输入就可以生成高质量、高清晰度的视频和音频。其视频生成模型具有 300 亿个参数，能够以每秒 16 帧的速度生成长达 16 秒的视频。该模型结合了多种功能，还支持精准的视频编辑，用户可以输入文本描述生成高清视频，同时上传图像并添加背景音乐和音效。使其不仅能够生成新视频，还可以生成配音乐的高质量音频。

Google发布NotebookLM，旨在帮助用户更好地整理信息、提出问题并生成答案。用户可以上传自己的文档，然后NotebookLM会立即理解这些来源的内容，使用户能够轻松阅读、记录笔记，并通过该工具来提出问题。这款工具也可以帮助用户更有效地创作和思考，适合于整理、研究和学习等多种场景。

快手可灵 AI 新推出的「对口型」功能，允许用户上传音频后使视频中的人物口型与之同步，目前支持 1.0 和 1.5 模型，且仅限人物角色，API 服务已面向所有用户开放。

Black Forest Labs发布FLUX Pro 1.1版，生成速度比前一版本快6倍，并提高了图像质量、提示依从性和多样性。同时推出官方API。

StackBlitz 推出 bolt.new，将AI代码生成从编码扩展到部署，带有完整的开发环境，可以预览部署后的效果。

issue89 2024.10.7-10.13

由MiniMax推出的海螺AI是一款国产AI视频生成器，它在VBench评测中排名第一，并在五周内实现了月访问量增长8倍多的惊人成绩。这款AI工具不仅吸引了全球180多个地区的专业人士，如电影导演和游戏开发者，还因其在人体动作流畅性和逼真性上的卓越表现而超越了竞争对手Runway。

10月8日，华为的原生AI操作系统“纯血鸿蒙”HarmonyOS NEXT已开始公测，该系统内置了名为小艺的智能体。HarmonyOS NEXT通过原生智能技术实现了AI与操作系统的深度融合，让小艺智能体能够与系统无缝结合，并在多个场景中提供智能化服务。这标志着华为在人工智能领域的进一步发展，为用户提供更智能、更个性化的操作系统体验。

vivo在开发者大会上发布了“蓝心智能”AI战略，展示了其在AI领域的深入布局，包括新一代操作系统OriginOS 5和BlueOS 2。后者搭载了基于Rust语言的蓝河内核，强调安全和高性能。蓝心大模型矩阵也得到全面升级，其中蓝心3B端侧大模型在多个评测中排名第一，性能提升300%，功耗优化达46%。基于蓝心语音大模型，“vivo听说”新增了方言自由说功能，目前支持6种方言，以解决各地区间的沟通障碍问题，让用户可以以自己最熟悉的乡音与手机进行交互。

北京智源人工智能研究院开发的BGE（BAAI General Embedding）模型在Hugging Face月度下载榜上位列第一，这是中国AI模型首次取得这一成绩。BGE模型自发布以来，总下载量已超过1亿次，成为下载量最多的国产AI系列模型。

10月11日，特斯拉在“WE，ROBOT”发布会上展示了无人驾驶出租车Cybercab和多功能无人驾驶厢式货车Robovan，展示了其在自动驾驶技术方面的重大进展。

10月13日，OpenAI在Github上开源了多智能体协同AI Agent——Swarm。与普通AI Agent不同的是，Swarm可以同时创建多个智能体互相协同工作来完成特定任务，包括客户服务、销售支持和售后服务等，同时每个智能体都配备了一套专属工具集以更高效的完成任务。

issue90 2024.10.14-10.20

OpenAI发布了GPT-4o-Audio-Preview模型。该模型能够分析音频输入的情感、语调和音调，并增强互动体验。此外，还提供了语音到语音的互动功能，音频既可以作为输入也可以作为输出。

OpenAI于本周发布了ChatGPT的Windows桌面客户端，提供了一种更便捷的桌面访问方式。此更新旨在提高用户体验和便利性，方便用户在桌面上使用该AI工具进行各种对话。

Meta 推出了一项名为「自我训练评估器」的 AI 工具，旨在减少 AI 开发中对人类的依赖。该工具利用「思维链」技术提高在科学、编程和数学等领域的答案准确性，并通过完全由 AI 生成的数据进行训练。这展示了实现自主 AI 智能体的可能性，能够从自身错误中学习。此外，自我改进的模型有望减少对昂贵且低效的「基于人类反馈的强化学习」的需求。Meta 还发布了其他 AI 工具，包括图像识别模型「Segment Anything」的更新和一些有助于发现新型无机材料的数据集。

Perplexity 推出“内部知识搜索”和“Spaces 空间”：内部知识搜索：用户可同时搜索公共网页和企业内部知识库，适合金融、销售、HR 和初创公司团队。Spaces 空间：用户可创建工作空间，邀请团队成员协作。

Google NotebookLM 推出企业版和个性化控制：支持自定义 AI 播客内容，调整解说深度，专注于用户指定的主题。个性化控制：类似给 AI 主持人提示卡，让解说更符合用户需求。

月之暗面推出 kimi 探索版 AI，搜索能力显著提升至普通版的 10 倍，并计划全面推广至用户，同时将新增至手机 App 中。

issue91 2024.10.21-10.27

在Adobe MAX 2024大会上，Adobe推出了一项创新AI工具Project Turntable，该工具可以让用户将2D矢量图像像3D对象一样进行旋转，而无需重新绘制。

10月22日，微软宣布在Dynamics 365中集成10个自主AI Agent，可帮助企业自动执行客服、销售、财务、仓储等业务，开创全新的智能自动化工作模式。这些AI Agent支持OpenAI最新模型o1，可以自动执行跨平台的超复杂业务，能节省大量时间和运营成本。AI Agent会从Microsoft 365 Graph、Dataverse以及其他业务系统的数据，分析工作数据，识别工作模式、趋势，以及潜在的改进领域，从而更好地自动执行业务流程。使用方面也很简单，用户可在Copilot Studio可视化的界面中开发AI Agent，定义如何响应不同的输入和场景以及执行逻辑和规则即可。

10月23日，Anthropic发布了Claude 3.5 Sonnet模型的更新。最新版本的Claude 3.5 Sonnet展示了一项名为Computer Use的功能，能够根据用户指令移动光标、点击相应位置以及通过虚拟键盘输入信息，模仿人类与计算机的交互方式。另外，新的Claude 3.5 Sonnet模型在编程方面也表现出显著的提高。

Anthropic 还在 Claude 中新增了一款分析工具，该工具支持编写和运行 JavaScript 代码，用于处理数据、分析并实时生成洞察。此工具作为 Claude.ai 的新内置功能，类似于 ChatGPT 的代码解释器（Code Interpreter）。Claude 能够根据输入提示和文件，逐步清理、探索和分析数据，达到预期结果，并可创建互动数据可视化。该工具适用于市场营销、销售、产品管理、工程和财务等多个场景，目前处于功能预览阶段。

xAI推出了首款API “Grok-Beta”，这是一种生成式AI模型，支持函数调用，可将xAI的旗舰生成式AI模型Grok连接到数据库和搜索引擎等外部工具。据报道，该API的定价相比行业竞争对手高出许多，每百万输入令牌（token，约等于75万个单词）为5美元，每百万输出令牌为15美元。其定价模式在业内引发了一些热议。

Ideogram 上线Canvas功能，可以在无限画布上对生成的图片进行编辑。这包括扩图、局部重绘和其他基本的编辑功能。这个功能给用户提供了更多的创作自由，让他们可以更灵活地对生成的图片进行修改和完善。

Genmo公司开源了名为Mochi 1的DiT视频生成模型。这个模型基于Apache 2.0许可证发布，支持个人和商业用途的免费使用。它以每秒30帧的速度生成平滑的视频，持续时间长达5.4秒，并具有高时间连贯性和出色的运动质量。这一开放的视频生成模型在动作质量和遵循用户提示方面表现出色。

Midjourney网页版本周推出全新的AI图像编辑器，该编辑器具有多种独特功能，用户可以通过该编辑器轻松上传图像并进行放大、缩小、角度调整等操作。与此同时，该编辑器还能够实现各种二次创作需求，而无需依赖第三方平台。通过新发布的编辑器，用户可以在进行图像编辑时获得更加便捷的操作体验。

10月24日，科大讯飞宣布星火多语言大模型首次发布，除中英文外，可支持俄、日、阿、法等8个语种。根据实用任务场景构建测试集MMT-Eval-1.0，讯飞星火在汽车、家电、办公、翻译等行业的任务场景应用效果超过了GPT-4o。

10月25日，智谱的多模态大模型家族再次加入新成员——GLM-4-Voice（端到端语音模型），并在上线同时宣布开源。这一成果使得大模型具备了完整的感官系统，实现了机器与人交互的自然与流畅。GLM-4-Voice 模型具备直接理解和生成中英文语音的能力，能够根据用户指令灵活调整语音的情感、语调、语速及方言等特征，且具有更低的延时，支持实时打断，进一步提升交互体验。

智谱还同步宣布AutoGLM开启内测，是一款独立的安卓app。AutoGLM是一个具有AI功能的智能体，不仅可以进行语音互动，还可以自动执行手机操作，例如下单网购和朋友圈点赞等。这一新功能表明智谱正在向着更高级的技术方向发展，将AI从简单的语音交互阶段不断提升至执行任务的阶段。有参与内测的用户截图显示，AutoGLM支持8个生活中常用的app，包括微信、美团、淘宝、大众点评、小红书、12306、携程、高德地图。另外，智谱清言的浏览器插件增加高级搜索功能，支持自动在知乎、小红书、知网等网站搜索内容并总结回答。

MagicOS 9.0推出全新的AI智能体YOYO，为用户提供智能服务。从现场演示来看，用户只需向YOYO发出语音指令，比如「我有些困了，帮我点一杯咖啡」，该智能体就能在理解用户需求之后，自主调取和操作手机的相应资源和服务，帮用户点一杯咖啡外卖。荣耀声称，YOYO智能体可完成600项需求意图理解、950项个人习惯记忆、270项复杂任务规划。

issue92 2024.10.28-11.3

10月31日，Anthropic 宣布推出 Claude 桌面客户端，带来快捷键和口述记录支持。这意味着用户现在可以在 macOS 和 Windows 上直接下载 Claude 应用程序，无需再依赖浏览器操作。Anthropic 在一篇博文中写道：”它将 Claude 的功能直接带入您首选的工作环境，这些功能并不包括 Anthropic 最近发布的控制计算机的功能，但允许最新模型 Claude 3.5 Sonnet 升级版在 PC 上执行任务。” 新发布的桌面应用既适用于免费的 Claude 用户，也适用于订购 Anthropic 高级计划的用户。

11月1日，OpenAI宣布为ChatGPT添加搜索功能，让用户可以在对话中直接获取实时网络信息。这项功能目前向付费用户开放，免费用户和企业用户将在未来几周内陆续获得访问权限。最引人注目的是，ChatGPT搜索采用无广告模式，这与传统搜索引擎形成鲜明对比。

GitHub宣布推出Github Spark，用于创建和共享微应用程序（“sparks”），用户可以根据自己的需求和偏好进行定制。通过GitHub Spark，用户可以快速构建小型网页应用程序，而且不需要编写代码。该工具结合了自然语言处理和人工智能技术，使得用户可以用简单的自然语言来描述所需的应用程序功能。GitHub Spark可以帮助用户直接在GitHub上创建和分享个性化的微应用程序。

字节跳动推出了一款名为”炉米Lumi”的AI模型分享社区平台。该平台提供了模型上传分享、Workflow搭建以及LoRA训练等功能。这个平台似乎类似于其他的AI模型分享社区，例如Liblib和CIvitai。Lumi可能会为用户提供模型上传分享和Workflow搭建等服务。

微软开源了一款名为OmniParser的纯视觉基础工具，旨在填补当前屏幕解析技术中的空白。这一工具无需额外的上下文数据，可以理解更复杂的图形用户界面（GUI），并且专为识别和解析图形用户界面的可交互图标而设计。OmniParser结合了可交互区域检测模型、图标描述模型和OCR模块，能够在桌面、移动设备和网页等上跨平台工作，从而为AI技术在屏幕解析上开辟了新的可能性。

知乎直答最近宣布推出了”专业搜索”功能，引入了维普、知乎精选等专业内容源，涵盖超过5000万篇中英文文献数据。这一举措可以帮助用户更加便捷地获取高质量的文献资料，为学术研究和学习提供了更加丰富的资源。

issue93 2024.11.4-11.10

11月5日，腾讯开源混元Large（Hunyuan-Large）模型，是业界参数规模最大、效果最好的开源MoE大语言模型，采用7T训练tokens，总参数量389B，激活参数量52B，上下文长度高达256K，技术报告也同步发布。混元-Large包括三款模型：Hunyuan-A52B-Pretrain，Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8。与有相似激活参数量的业界开源模型Llama3.1-405B、Mixtral-8x22B等相比，在多学科综合评测集、中英文NLP任务、代码、数学等9大维度，混元Large实现全面领先。

同时，腾讯元宝 APP 现在新上线了 AI 搜索能力。支持具有推理能力的深度搜索功能，另外也支持了搜索微信生态更多模态的信息，比如搜索结果里面会有视频号和 QQ 音乐的音频内容。

腾讯开源了混元3D生成大模型（Hunyuan3D-1.0），这是业界首个同时支持文字和图像生成3D的开源大模型。这个模型可以帮助创作者和开发者在10秒内生成高质量的3D资产，可以应用于各种领域，比如UGC 3D创作、商品素材合成以及游戏3D资产生成等。

昆仑万维于11月5日发布天工AI最新版本的高级搜索功能，旨在通过领先的AI技术为全球用户提供创新的智能搜索解决方案。此功能在金融投资、科研学术等多领域进行了多层次分析推理能力的全面升级，显著提升了用户在处理复杂问题时的信息获取效率和结果可靠性。此外，天工AI还优化了文档AI阅读分析功能，增强了对财报、研报、论文等复杂文档的理解和分析能力，为用户提供更高效的专业搜索体验。

11月8日，智谱宣布AI生视频产品“新清影”正式上线，同步开源该产品使用的底层模型CogVideoX v1.5。

xAI推出Grok API的免费公测，每位开发者每月都能获得25美元的免费API额度，一直持续到2024年年底。API完全兼容OpenAI和Anthropic。这项举措旨在为开发者提供更多使用xAI的机会，并促进xAI的API在开发社区中的应用。

Anthropic宣布，Claude 3.5 Haiku已经可以通过API访问。已在Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI上提供。Anthropic的开发者关系运营负责人Alex Albert发帖说，「该模型还更新了截至2024年7月的知识——是所有Claude模型中最新的。」然而，随着性能提升，Haiku的价格提升至之前的4倍，它现在的定价起步为每百万输入tokens $1，每百万输出tokens $5。

Anthropic 与 Palantir 数据挖掘公司和亚马逊云服务（AWS）合作，为美国情报和国防机构提供 Claude 系列 AI 模型。Claude 已可在 Palantir 的国防认证环境（IL6）中使用，该环境基于 AWS 基础设施，用于处理国家安全重要的数据。此次合作将提高政府分析能力和运营效率，为情报分析提供强大的 AI 工具，以及在决策过程中为官员提供支持。

谷歌即将推出全新升级的Gemini-2.0-Pro AI模型。Gemini-2.0-Pro-Exp-0111预计将带来更精确的语言理解和生成能力，更高效的学习机制，以及在图像处理方面的显著提升。新的AI模型将进一步提高Gemini的功能和性能。

11月8日，苹果发布iOS18.2 Public Beta版，正式公测集成了ChatGPT的Siri及Image Playground等AI功能。

Meta最近开源了一个名为NotebookLlama的项目，旨在生成类似播客的文本摘要。这个项目被视为Meta对标谷歌NotebookLM的一次尝试。NotebookLlama使用Meta自家的Llama模型来为用户提供高效的处理，允许用户将文本文件，如PDF文章或博客内容，转化为互动式播客摘要。通过这个项目，用户可以轻松生成从文本文件转化而来的互动式播客风格的内容。

Meta发布MobileLLM，这是一款专门针对智能手机的小语言模型。MobileLLM家族适用于智能手机，Meta也宣布开源了MobileLLM系列模型，其中包括600M、1B和1.5B三种不同参数版本。这一举措旨在为移动设备用户提供更高效的AI辅助功能。Meta还在GitHub上开源了MobileLLM的训练代码，以便研究人员和开发者使用。

issue94 2024.11.11-11.17

百度在2024年百度世界大会上发布了检索增强的文生图技术（iRAG）。这项技术结合了百度搜索的亿级图片资源和强大的基础模型能力，旨在解决大型模型在图像生成方面的幻觉问题。通过将图片资源和模型能力相结合，iRAG使得生成的图片更加真实、自然，并且能够降低“AI味”，让生成的图像更加可信。

百度在2024年百度世界大会推出无代码工具“秒哒”。该工具支持无代码编程、多智能体协作和多工具调用三大特性，号称用自然语言就能搭建一整套系统。演讲现场，李彦宏以萝卜快跑新技术发布会为例，展示了活动报名系统的搭建过程：只要在“秒哒”上用中文描述需求，并补充一份带有大会时间地点主题的文档，就可以指挥多个智能体协作，完成报名系统的开发。

百度还于11月12日发布了首款AI眼镜，即小度AI眼镜。这是全球首款搭载中文大模型的原生AI眼镜，预计将于2025年上半年正式上市。这款眼镜重量仅为45克，搭载16MP超广角摄像头，具备第一视角拍摄、边走边问、识物百科、视听翻译、智能备忘等功能。

阿里通义千问最近开源了Qwen2.5-Coder全系列模型。这一系列模型在代码生成、修复和推理等方面展现出色的表现，并且支持多种编程语言，同时在多个基准测试中达到了与GPT-4o相当的SOTA水平。这意味着Qwen2.5-Coder在开源代码模型领域取得了极具竞争力的位置，并具有强大的代码生成能力。

字节跳动豆包大模型团队发布了SeedEdit通用图像编辑模型，它能够实现自然语言”一句话改图”的新体验。用户可以使用简洁的自然语言指令，进行各种图像编辑操作，包括修图、换装、美化、转化风格、在指定区域添加或删除元素等。这项创新的技术利用了先进的自然语言处理技术和深度学习算法，让用户能够轻松编辑任意图像，而无需专业的P图技能。

谷歌的DeepMind团队开源了诺贝尔奖获得者Alphafold3的源代码。这一模型是一种蛋白质结构建模工具，与之前版本相比，Alphafold3在建模蛋白质与其他分子共同作用时更为精确。通过开源Alphafold3的源代码，学术研究者现在能够自行运行模型，从而推动了AI在生物领域的变革。

OpenAI宣布推出ChatGPT Windows版客户端，为Windows 10用户提供了更加便捷和快速的AI交互体验。该桌面应用支持热键调用，提供了文件分析、搜索对话、文本生成等功能。用户可以从Microsoft Store下载并安装该应用，然后通过快捷键Alt+Space快速启用。此举使得OpenAI进一步拓展了ChatGPT的应用场景，为Windows用户提供了更加顺畅的使用体验。

OpenAI将于明年1月推出一款代号为Operator的新型人工智能代理，它将使ChatGPT能够代表用户完成电脑操作。据彭博社报道，该公司领导层在周三的员工会议上宣布了这一消息。该公司计划通过开发者API作为研究预览推出这项新功能。

11月15日，腾讯正式推出新的AI产品，名为ima.copilot（智能工作台），旨在为用户提供获取知识、搜索、创作文字和图像等功能。ima不仅能够搜索全网信息，还能打通微信公众号文章生态，使用户能够从海量优质知识中获得高质量的信息。这款产品还支持Mac版和Windows版，为用户提供更高效的知识获取和使用体验。

智谱AI发布”智谱清流”企业级智能体开发平台，这是专门为企业AI应用落地而打造的智能体开发平台。该平台提供了Agents、Workflow、知识管理等多种工具，支持API、SDK、URL集成，并利用智谱大模型技术，帮助企业快速构建专业级智能体，实现大模型到业务场景的快速应用。

微软计划在下个月为Copilot引入新功能，用户将能够选择关闭或启用网络搜索。这一新选项将允许用户是否将网络搜索查询发送到Microsoft Bing。用户可以通过新的控制选项禁用或启用网络搜索，从而更好地控制AI聊天的使用体验。

谷歌在App Store上正式推出了其Gemini人工智能聊天机器人的iOS版本。这使得iPhone用户可以使用Gemini应用程序，为用户提供了一个全新的AI交互体验。Gemini应用包括强大的功能，如Gemini Live模式，支持实时语音对话功能，以及与其他应用程序无缝连接的功能。Gemini应用的iOS版本增加了灵动岛集成功能，用户可以使用文本或语音与谷歌的AI进行互动。

月之暗面创始人杨植麟指出，AI 的发展关键是提升「思考能力」，并透露公司 AI 助手 kimi 月使用人数达 3600 万，同时新数学模型 k0-math 将用于 k12 教育和提升 kimi 搜索能力。

Codeium推出的新IDE Windsurf。其中的Cascade具有高颜值和强大功能，集成了Cursor的所有功能，还支持在IDE内部运行终端命令。Windsurf的用户界面友好，支持直观的VSCode移植，为开发者提供了很好的编程环境。

issue95 2024.11.18-11.24

OpenAI更新GPT-4o模型版本至GPT-4o-2024-11-20。它不仅可以处理文本，还可以理解和生成图像、视频等多种格式的内容。此外，它还具有预测输出功能，可以显著加快模型的输出速度。这个模型已经可以在OpenAI API及一些第三方平台上使用，并且具有良好的性能和效率。

谷歌推出Gemini-Exp-1121实验版，在代码生成和推理任务上表现优异，再次登顶大模型竞技场榜首。

Mistral发布多模态模型Pixtral Large，在视觉数据、图表理解和数学推理领域超越GPT-4o，适用于研究、教育和商业用途。

阿里通义千问发布Qwen2.5-Turbo AI 模型：支持100 万tokens 上下文，这个改进让模型能够处理更长的文本，相当于约100万英语单词或150万汉字。这种长的上下文窗口长度可以容纳10部完整小说或150小时的演讲稿。这一特性可以使模型处理更加复杂和详细的信息，进一步提升模型的认知和推理能力。

幻方DeepSeek团队推出了其最新的模型——DeepSeek-R1-Lite，该模型在数学、编程等复杂逻辑任务中表现出色，媲美OpenAI的o1-preview模型，并在美国数学竞赛（AMC）和全球顶级编程竞赛（Codeforces）等评测中超越GPT-4o。

夸克上线“学术搜索”AI工具，提升学术工作中的信息获取、创作和处理效率，支持生成学术大纲和PPT。

微软发布AI开发平台Azure AI Foundry。旨在帮助任何人都可以轻松使用尖端的AI功能，改变AI开发的游戏规则。Azure AI Foundry提供了一整套工具，支持从模型训练到部署的各个环节，包括文本生成、图像处理和音频处理等，让用户更轻松地在支持人工智能的大型语言模型之间切换。该平台还整合了多个强大的人工智能模型，如OpenAI的GPT-4系列、DALLE-3、Whisper以及Embeddings模型等。这些模型拥有优越的自然语言处理能力，有助于帮助开发者构建和部署人工智能应用。

issue96 2024.11.25-12.1

本周，ChatGPT上线已满两周年，CNNIC发布的《生成式人工智能应用发展报告》显示，截至2024年6月，我国生成式人工智能产品的用户规模达2.3亿人。

Cursor 0.43版本更新引入了新的Composer Agent功能，这是该编辑器的一项重大改进。该功能能够实现自主选择上下文、操作终端和自动完成任务的能力，并对用户界面和性能表现进行了优化。该功能具备完整的项目理解和编辑能力，并对项目进行深度解析。众多用户对这一新功能表示兴奋，并称其为新版本最大亮点之一。

Claude推出新功能，允许用户通过预设样式和自定义样式来自定义对话的语气和形式。用户可以通过上传写作样本或描述需求两种方式来设置AI回复的语气和形式，以实现更加自然、高效的人机互动。这项功能让用户能够打造更具个性化和贴合使用场景的文本生成风格。

Anthropic 推出名为“模型上下文协议”（MCP）的开放标准，旨在通过统一的客户端-服务器架构解决 LLM 应用与数据源连接的难题。它支持通过同一协议访问本地资源（如数据库、文件）和远程资源（如 Slack、GitHub API），无需定制集成。MCP 不仅共享数据，还可公开工具和交互模板，且内置安全性，确保资源由服务器完全掌控。目前 MCP 支持本地运行，未来将引入企业级认证的远程支持，实现团队间的安全共享。通过 Claude 桌面应用，开发者可在短时间内集成 MCP，快速连接多种数据源，推动 AI 集成的标准化发展。

11月28日，阿里云通义团队发布全新AI推理模型QwQ-32B-Preview，并同步开源。评测数据显示，预览版本的QwQ，已展现出研究生水平的科学推理能力，在数学和编程方面表现尤为出色，整体推理水平比肩OpenAI o1。

阿里巴巴开源Qwen2vl – Flux模型，具备图像变化与混合功能，可生成多样效果，推动图像生成技术发展。

中科院自动化所和武汉人工智能研究院联合发布了“紫东太初”3.0，这是全球首个千亿参数量的多模态大模型。该模型采用了统一的编码方法，具有出色的能力，算法和基础设施建设也在同步推进。

Hugging Face推出SmolVLM，20亿参数，体积小速度快内存高效，适用于端侧推理，基准测试表现出色。

昆仑万维最新推出的“天工大模型4.0”o1版（Skywork o1）是国内首个具备中文复杂推理能力的o1模型。这一模型在模型输出中内生了思考、计划和反思等能力，从而显著提升了推理能力、解决复杂任务的能力，被视为具有慢思考推理能力的系列模型。

上海人工智能实验室最近向公众开放了书生·浦语大模型，并发布了InternThinker强推理模型。这个InternThinker模型拥有卓越的长思维能力和在推理过程中自我反思和纠正的能力。它能在数学、代码和逻辑谜题等复杂任务中展现出更优越的性能。

扣子发布应用IDE。可通过UI Builder快速搭建用户界面，开发者无需关心配置环境和服务部署等步骤。使用IDE可以轻松地在多种技术栈中创建基于LLM的可交互的用户界面。此外，IDE还支持将插件发布到不同的社交平台和通讯软件。

智谱于11月29日举行Agent OpenDay活动，带来了多个新进展：• AutoGLM 可以⾃主执⾏超过 50 步的⻓步骤操作，也可以跨 app 执⾏任务；• AutoGLM开启「全⾃动」上⽹新体验，⽀持等数⼗个⽹站的⽆⼈驾驶；• 像⼈⼀样操作计算机的GLM-PC 启动内测，基于视觉多模态模型实现通⽤Agent的技术探索。

360集团推出纳米搜索多模态内容创作引擎，集搜索、学习、写作和创作为一体，形成了一个完整的工作流程。

联想宣布百应平台升级为 IT 服务智能体，涵盖AI营销、AI办公、AI服务三项AI应用。

腾讯混元大模型将于12月3日正式上线视频生成能力，用户可以在腾讯元宝App中提交申请试用。

issue97 2024.12.2-12.8

12月3日，腾讯混元大模型正式上线视频生成能力。此次更新中，HunYuan-Video模型经历了四项核心改进：1、引入超大规模数据处理系统，提升视频画质；2、采用多模态大语言模型（MLLM），优化文本与图像的对齐；3、使用130亿参数的全注意力机制（DIT）和双模态ScalingLaw，增强时空建模与动态表现；4、采用自研3D VAE架构，提升图像和视频的重建能力。与此同时，腾讯宣布将这款拥有130亿参数规模的视频生成模型开源。目前，该模型已在APP与Web端发布，其标准模式下的视频生成大约需要120秒完成。

智谱AI宣布GLM-4V-Flash现已完全免费。用户可以通过调用GLM-4V-Flash免费构建专属模型和应用。这是首个完全免费的视觉大模型API。

12月4日，OpenAI首席执行官Sam Altman宣布从12月5日开始为期12天的「OpenAI 12 天」圣诞大礼包活动，将连续12个工作日发布新的AI功能和产品。

12月5日，OpenAI通过一场小型直播发布了o1模型正式版、o1 Pro mode以及每月200美元的ChatGPT Pro版订阅。OpenAI 将 ChatGPT Pro 订阅用户使用的 o1 模型模式命名为 OpenAI o1 Pro，该模式将使用更多的计算资源为最难的问题提供最佳答案。也正是因为功能足够强大以及需要更多的计算，用户在使用 o1 Pro 时可能会遇到延迟增加问题，OpenAI 会在 ChatGPT 里显示进度条以便提示当前距离出现回答还需要多少时间。后续 OpenAI o1 模型正式版也将支持 API 访问，支持包括函数调用和图像分析等功能。

OpenAI正在向部分用户推出ChatGPT的“All Tools”功能，将图像生成、搜索、Canvas等功能整合，可在同一模型中使用。

12月6日，OpenAI 12天活动 Day2，发布了“强化微调”（RFT），支持对o1 mini和GPT-4o模型进行微调，将于明年第一季度正式推出。

Meta发布Llama 3.3 70B模型，该模型达到了405B模型的性能水平，但体积更小，成本更低。

xAI公司为其AI助手Grok增加了名为Aurora的新图像生成模型，目前已在Grok的Web和移动客户端中上线，生成效果据称优于之前的Flux模型。

微软推出全新的 Copilot Vision 功能，它通过嵌入到 Edge 浏览器中，提供实时网页内容分析和互动。它就像你的第二双眼睛一样，可以与你的网页浏览同步，实时监控你的网页浏览行为，能快速理解网页内容并随时准备提供个性化建议和进行信息处理指导等。这项功能被描述为一种新的浏览方式，使得用户可以与AI直接互动，共同完成网页浏览和相关任务。目前，Copilot Vision处于试用阶段，并且目前仅适用于Microsoft Edge浏览器上的一些特定网站。

Fish Audio 发布 Fish Speech 1.5，在准确性、稳定性、跨语言能力和情感表达方面有显著进步，并新增了五种语言的支持，增强了全球适用性。即将推出的实时无缝对话功能，允许用户随时随地选择语音库进行交互式聊天。

谷歌推出Genie 2，一种大规模基础世界模型，可以生成可交互的3D世界。它利用自回归潜在扩散模型，经过自动编码器后，视频中的潜在帧被传递到大型Transformer动力学模型。这个模型可以生成持续时间长达一分钟的3D世界，同时可以与建模的各种物体进行交互，包括NPC。Genie 2的出现引发了AI游戏开发领域的高度关注。

美东时间12月6日，Meta公司发布了其Llama系列的新成员——Llama 3.3 70B。这款生成式AI模型拥有70亿参数，旨在提升生成式文本的质量和多样性，进一步推动AI技术在各个领域的应用。Llama 3.3 70B的推出标志着Meta在智能生成技术方面的持续创新与发展。

issue98 2024.12.9-12.15

12月9日，OpenAI 12天活动 Day3，Sora视频生成服务正式发布，同步推出产品网站sora.com，已订阅OpenAI Plus和Pro服务的用户可直接登录使用。背后用的Sora Turbo是由OpenAI公司发布的视频生成模型，能够根据文本提示生成逼真的视频。Sora支持生成多种视频比例和编辑功能，包括1080p的高清视频和最长20秒的视频长度。它还具有Remix功能，可以通过修改文本来快速修改视频内容，为用户提供了独特的视频创作体验。另外，值得注意的功能还有“Storyboard”（故事板）。通过Storyboard，用户可以像导演一样，使用时间轴来指导视频的创作。此功能允许用户按照时间戳选择各帧动画要生成的内容，并以此串联生成视频内容。

12月10日，OpenAI 12天活动 Day4，Canvas功能正式免费开放，该功能可以在ChatGPT中运行Python代码，并与OpenAI的主要模型深度集成。Canvas还提供了协作性、拓展功能以及更广泛的可用性。此外，还支持直接显示文本或图形输出结果。

12月10日，Cognition的AI工程师Devin已正式推出，用户每月需要支付高达500美元的订阅费。这个AI程序员被宣传为能够独立开发和修复bug，订阅还包括Slack集成、IDE扩展和API，并提供入职培训和支持。虽然费用较高，但Devin被认为最适合完成小型任务，比如Bug修复和测试生成。

12月11日，OpenAI 12天活动 Day5，ChatGPT与iOS的集成正式在iOS18.2版本推送。在iOS 18.2中，最引人注目的新功能之一是Siri集成了ChatGPT。当Siri遇到无法独立解决的问题时，它将能够直接调用ChatGPT来提供帮助，ChatGPT作为Siri的Extension，通过Siri请求ChatGPT，会话历史也会保存到ChatGPT帐号中。这一功能的实现，不仅提升了Siri的智能水平，也为用户带来了更加丰富的交互体验。在隐私保护方面，通过ChatGPT处理的所有请求都是匿名发送的，充分保护了用户的隐私安全。

Google发布原生多模态输入输出的 Gemini2.0。Gemini2.0是一种原生多模态输入输出的人工智能模型，支持图像、视频和音频等多种输入形式，以及多模态输出，例如与文本混合的原生生成图像和可控的多语言文本转语音。Gemini2.0 Flash是该模型的实验版本，其速度比之前的1.5 Pro快两倍，并具有强大的性能和多语言音频输出能力。另外，基于该模型最新实验版本，Google在AI Studio上线了屏幕共享功能，用户可直接从浏览器开启屏幕共享，让Gemini2.0看着屏幕实时回复你的需求。

Google还宣布了实时多模态沟通助手Project Astra的进展，现在具有以多种语言和混合语言交流的能力，更好地理解口音和不常见的词语。提高了项目 Astra 的记忆能力，确保您可以控制。它现在具有最长 10 分钟的会话记忆，并能够记住与它过去的更多对话。Google还带来了Project Mariner，它能够理解和推理浏览器屏幕上的信息，包括像素和网页元素，如文本、代码、图像和表单，然后通过实验性的 Chrome 扩展使用该信息来完成任务。以及Jules，一款实验性的 AI 驱动代码代理，直接集成到 GitHub 工作流程中。它可以在开发人员的指导和监督下处理问题，制定计划并执行。

12月12日，OpenAI 12天活动 Day6，高级语音模式中加入了视频通话和圣诞老人语音。支持 50 多种语言的 ChatGPT 能够实时理解视觉场景，帮助你解决问题，甚至化身 AI 导师教你掌握新事物。另外，高级语音模式下还能通过下拉菜单中的屏幕共享功能（需允许iPhone屏幕录制）让ChatGPT“看”到屏幕显示画面并实时交流。

Midjourney推出Patchwork在线创作工具，可以通过简短的一句话生成完整的故事世界图像。它具有自动构建“世界”的样子、风格及背景故事的功能，无需用户进行额外的创作。这种工具将AI技术与创意表达相结合，为创作者提供了一个全新的创作方式。

12月13日，OpenAI 12天活动 Day7，带来了 ChatGPT 的一个新功能 Projects（项目），通过项目可以你可以上传文件、设置自定义指令，类似于 GPTs，但是不同于 GPTs 的主要是你可以在一个 Project 中将所有对话组织在一起，还可以把现有会话加入进去。该功能即日起开始向 Plus、Pro 和团队用户推出，企业版和教育版用户将在新年伊始获得该功能。

xAI 宣布向所有 X 平台用户免费推出新版本的 Grok-2 模型。与以往一样，Premium 和 Premium + 用户将获得更高的使用限制，并将优先访问未来的任何新功能。Grok 利用 X 平台实时了解世界正在发生的事情。近期，Grok 推出了两个额外的功能来进一步增强这种体验：网页搜索和引用。目前 Grok 利用来自 X 的帖子和来自更广泛互联网的网页，可为用户的查询提供及时且准确的答案。此外，Grok 还添加了“引用”功能，用户可以轻松深入了解来源，了解更多信息或验证 Grok 提供的信息。

DeepSeek开源了DeepSeek-VL2的视觉模型系列，这是一个专家混合（MoE）视觉-语言模型，训练数据量是前代的两倍。VL2系列包括了多个型号，如Tiny、Small和标准版本，它们在视觉问题回答、光学字符识别等任务上展现出了出色的性能。这一系列模型结合了混合专家架构和动态分辨率图像支持，为视觉和语言理解领域带来了一定的创新。

Google宣布了NotebookLM的产品更新，包括交互和界面的重构、播客生成中支持用户加入跟主持人对话、推出Plus会员。Plus会员有5倍以上的音频概述、笔记本数量以及来源数量，能够自定义笔记本响应的样式和长度，共享团队笔记本以及使用情况分析等。

微信团队发布了多模态大模型POINTS 1.5。这一代POINTS 模型不仅兼顾了POINTS1.0 中所坚持的效率优先的思想，同时也大幅增强了模型的性能。这个模型沿用了POINTS1.0 中使用的经典 LLaVA 架构，由一个 vision encoder，一个 projector 和一个大语言模型组成。

Ilya Sutskever在2024年的NeurIPS会议（Conference on Neural Information Processing Systems）上发表了引人注目的讲话，他认为目前的AI预训练方法已经达到了数据极限，需要适应新的范式。此外，他还表示具有推理能力的人工智能将会变得更加不可预测，而且会具备自我意识。

issue99 2024.12.16-12.22

12月16日，Kimi发布新一代视觉思考模型k1，该模型基于强化学习技术，具备出色的端到端图像理解和思维链分析能力。在基础科学领域的能力测试中，k1超越了全球领先的OpenAI等模型。用户可通过Kimi智能助手的Android、iPhone APP及网页版体验k1的功能，拍照或上传图片以获取详细的推理过程。这标志着AI领域在强化学习技术的推动下，正在迈入新的发展阶段，显著提升AI解决复杂问题的能力。

12月16日，扣子发布了一次重大的模型更新，通义千问模型支持Max版本，超越了原有的8K限制。同时，新加入DeepSeek模型。此次更新还涉及其他多个模型，基本上都进行了全面优化。效果测评显示新的智能体测试标准已实现数据与结果的标准化，大幅增强了智能体编排的实用性和精准性。

12月16日，OpenAI 12天活动 Day8，ChatGPT搜索功能迎来更新，新版本引入“Search as you talk”语音模式，允许用户通过语音进行自然对话和实时搜索。同时，AI搜索进行了全面优化，包括更快的网页跳转、支持强制联网，以及针对移动端的优化，如提供商家信息、集成地图和位置导航功能。为提升用户体验，新版AI搜索会根据上下文智能调整搜索结果。目前，Plus、Team和Pro用户已可体验这些新功能，其他用户将在未来几周内逐步开放。

谷歌推出AI视频生成模型Veo 2，亮点包括支持最高4K分辨率的清晰视频生成，提升了画质以满足高质量内容需求。此外，Veo 2的视频生成时长增加至最多2分钟，为创作者提供了更大的创作灵活性。该模型在真实感和物理模拟方面的显著提升，使得运动捕捉和动态表现更自然，增加了生成视频的可信度。同时，它支持多样化的视觉风格，为创作提供了多重选择。与OpenAI的Sora模型相比，Veo 2在分辨率和视频时长上都有显著优势。

谷歌还同步发布了改进版的AI绘图模型Imagen 3-002，作为Imagen 3的第二代，标志着该模型在短短半年内经历了显著进化。该模型在谷歌的评测中表现突出，显示出卓越的性能。用户现在可以通过谷歌FX官方网站免费体验这一新模型，无需排队。此举不仅进一步推动了AI艺术创作的发展，也显示了谷歌在生成模型领域的持续创新和技术实力。

12月17日，OpenAI 12天活动 Day9，o1 API现在支持函数调用、system message更改为developer message、结构化输出及视觉功能。最新版o1-2024-12-17提升了推理速度，能够处理复杂多步骤任务并提高准确性。此外，实时API更新简化了WebRTC集成，更新了两个模型GPT-4o-realtime-preview-2024-12-17和GPT-4o-mini-realtime-preview-2024-12-17，并将GPT-4o音频价格降低60%。新推出的偏好微调（PFT）技术也可帮助用户和开发者更便捷地定制模型，同时还发布了新的Go和Java SDK。

12月18日，在火山引擎force原动力大会上，火山引擎CEO谭待表示，最新版本的豆包通用模型Pro相比5月在综合能力、推理、指令遵循、代码、数学等方面进行了全方面提升。“更强模型推动企业AI升级。”谭待表示，豆包通用模型Pro为中手游、赛力斯汽车等企业助力了AI升级。

12月18日，在火山引擎force原动力大会上，即梦AI发布了全新的图片生成模型，他现场示范了海报生成功能，只需要一句话，就可以生成海报，不仅提高了效率，还能让创作出设计师水准的海报，更全面的描述，更精美的画面与排版，同时，还可以让海报动起来，实现动态效果。

12月18日，OpenAI 12天活动 Day10，ChatGPT支持电话接入，用户可以在感到难过时拨打电话与ChatGPT倾诉，或通过WhatsApp与其聊天。此举旨在为人们提供一个随时倾诉与支持的平台，尤其是在深夜孤独时。该功能提供每月15分钟的免费电话服务，方便那些不熟悉智能手机的用户使用。此外，AI还具备即时翻译能力，能够帮助不同语言之间的交流，增强人们的情感联系。这些更新旨在让AI更深入人们的生活，成为日常交流和情感慰藉的伙伴。

12月19日，OpenAI 12天活动 Day11，ChatGPT的macOS客户端迎来重大更新，提升了用户体验和应用性能。全新原生应用的代码被重写，资源占用更少，运行更加流畅。用户仅需使用快捷键（Option + 空格）即可快速调出ChatGPT。此更新的亮点是“与应用协同工作”功能，允许ChatGPT直接访问和理解其他应用程序的内容，无需用户手动操作。此外，它具备智能上下文感知能力，可以识别正在使用的应用程序，并提供更相关的帮助，如在终端中识别Git命令。Windows版本也正在开发中。

GitHub Copilot宣布全面免费，开发者现在可以在VS Code中免费使用此AI编程助手。免费版用户每月可获得2000次代码补全和50次聊天请求，同时支持选择Claude 3.5 Sonnet或OpenAI的GPT-4o模型。这一举措降低了使用AI代码助手的门槛，让更多开发者体验到AI带来的便利。用户只需通过GitHub账号注册Copilot免费计划，即可享受丰富的智能编程服务。

12月20日，Google发布了新款Gemini 2.0 Flash Thinking模型，这一推理模型旨在提升AI的思考能力和解决复杂问题的速度。转投Google的Logan Kilpatrick在社交平台X上介绍，Gemini 2.0 Flash Thinking不仅具备强大的推理能力，还能展示其思考过程，带来更直观的AI交互体验。该模型将加入大模型竞技场LMSYS，进一步增强其透明度和可验证性。

12月20日，OpenAI 12天活动 Day12，OpenAI正式宣布全新o3模型系列，该模型在AGI评测中取得了87.5%的令人瞩目成绩，超过了人类水平的85%门槛。o3系列被视为通往通用人工智能（AGI）的重要一步，模型采用了新技术“Deliberative Alignment”，以增强安全性和一致性。OpenAI CEO Sam Altman表示，这一系列将在2025年早些时候发布，目前已开通面向安全研究者的早期测试申请。

快手可灵AI宣布基座模型再升级，视频生成推出可灵1.6模型，效果大幅提升。据了解，1.6模型在文本响应度上提升明显，对运动、时序类动作、运镜等文字描述响应更好；动态质量进一步增强：运动更加合理，人物表情更自然；同时，1.6模型画面质量也再次进化：色彩、光影、细节表现均明显提升。数据显示，可灵AI发布半年来，已拥有超过600万用户，累计生成超6500万个视频和超1.75亿张图片。

issue100 2024.12.23-12.29

动态周报已迎来第100期！在过去近两年的时间里，我们共同见证了ChatGPT发布以来，LLM及应用产品的发展与演变。未来，这场以生成式AI大模型为核心的科技浪潮，还将继续深刻地影响我们的工作和生活。

12月23日，OpenAI首席执行官Sam Altman宣布了“Day13”特别奖励——Sora无限用。他表示，为了迎接圣诞节，人们在12月底通常会放假休息，OpenAI的GPU就没有那么繁忙。所以，假期期间能为所有订阅用户无限制的提供文生视频模型Sora，轻松跳过烦人的队列等待。

xAI推出Grok的独立iOS应用。目前，这款应用正在澳大利亚及部分其他国家进行测试。Grok能够实时获取来自网络和社交媒体平台X的数据，并提供多种生成式AI功能，例如重写文本、总结长篇段落、简单问答功能，以及根据用户的文字提示生成图像。

Cursor 0.44版本发布，本次更新带来了全新的YOLO模式，这一模式显著提升了AI编程的智能化水平。YOLO模式的引入使得编程变得更加直观和简单，甚至使得没有编程基础的用户也能够轻松上手进行开发。在这个版本中，Cursor不仅优化了其代理功能，还增加了一些实用的多功能集成，比如@docs、@git、@web和@folder等功能，这些都进一步增强了用户的操作效率。更新后的Cursor 0.44被认为是一个革命性的工具，使得编程体验更加顺畅和高效。

12月25日，阿里云通义千问发布业界首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力，在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。多项评测数据显示，QVQ超越了此前的视觉理解模型「开源王者」Qwen2-VL，整体表现与「满血版」OpenAI o1、Claude3.5 Sonnet等推理模型相当。

12月26日，深度求索（DeepSeek）正式发布了全新系列模型DeepSeek-V3，并同步开源（DeepSeek-V3-Base）。用户可通过官方网站chat.deepseek.com与该模型进行互动。该模型基于自研的Mixture of Experts（MoE）架构，拥有671亿参数和37亿激活参数，经过14.8万亿token的预训练。虽然DeepSeek-V3目前不支持多模态输入输出，但其表现已与业内领先的闭源模型对齐，其中与 V2.5（17.8％）相比，V3 编程性能暴增到了 48.4％，整整提升了近 31％。API服务也已更新，用户无需改动接口配置。

阶跃星辰推出了图像生成模型Step-1X系列的全新升级版本Step-1X-Medium。该模型采用MMDit架构，生成速度提升超过30%。经过针对性训练，Step-1X-Medium具备更强的理解能力和图文一致性，能够生成更自然的细节质感。此外，新增的“图生图”功能允许用户上传图片并通过简单的提示进行细节增强和风格迁移。该模型在“中国风”内容创作能力上也得到了强化，能够更好地捕捉东方文化的细腻之处，并支持在生成图像中添加英文文本。

智谱宣布将其基座模型GLM-PC的开源版本CogAgent-9B发布，供社区进行开发。CogAgent-9B-20241220基于GLM-4V-9B进行专用Agent任务训练，能够仅通过屏幕截图输入，结合用户历史操作，预测下一步的图形用户界面（GUI）操作。与2023年12月开源的第一版相比，新模型在GUI感知、推理准确性及任务普适性方面取得显著改进，同时支持中英文双语的屏幕截图和语言交互，适用于多种基于GUI的应用场景，包括个人电脑、手机及车载设备。

理想汽车发布智能助手独立应用：理想同学App，理想同学和智能驾驶是理想汽车的两大核心AI产品。理想汽车董事长兼CEO李想表示：“我们在做的理想同学和自动驾驶，通常被视作独立的领域。我们的大语言模型Mind GPT是认知智能，连接数字世界；而自动驾驶被称为空间智能，关乎物理世界。我们同时在这两个领域探索，并坚信认知智能与空间智能的结合——我们称之为VLA（Vision Language Action Model，视觉语言行动模型）。

阿里巴巴通义实验室的语音团队12月26日宣布了其2.0版本的全面升级。CosyVoice 2.0在自然流畅的语音生成体验上实现了多个突破，具有超低延迟、提升音质和高准确度等特点。新版本提供离线和流式一体化建模，合成延迟可缩短至150ms，发音错误减少30%~50%，并显著改善跨语言合成的音色一致性。同时，韵律、音质和情感匹配能力也得到提升，使得用户能够更精确地控制生成音频的情感与方言口音。

issue101 2024.12.30-2025.1.5

可灵AI推出升级版文生图模型“可图1.5”，强化了语义理解，特别适应亚洲人。此外，新功能“AI模特”与现有的AI换装功能融合，为电商、广告等行业提供了一整套高效的可视化展示解决方案。用户能通过简易设置快速生成AI模特，再通过AI换装功能展示服装，甚至进行动态视频展示，大幅降低传统拍摄成本。

阿里云宣布对其大模型进行本年度第三轮降价，通义千问视觉理解模型全线降价超过80%。其中，Qwen-VL-Plus的价格下降81%，现为0.0015元/千tokens，成为全网最低价；而性能更高的Qwen-VL-Max降至0.003元/千tokens，降幅达到85%。按此定价，1元可处理大约600张720P图片或1700张480P图片，此举将显著降低用户使用成本，推动视觉理解技术的广泛应用。

阿里巴巴通义团队推出了全新AI开发框架Qwen-Agent，基于其Qwen语言模型，旨在帮助开发者构建复杂的智能体。该框架具备多种高级功能，支持智能体执行复杂任务，提供指令遵循、工具使用以及自动记忆能力。

智谱Flash系列新推出四大免费模型，全面支持对话、图文和视频等多种模态。这些模型旨在提升用户的多媒体交互体验，推动智能对话与内容生成的应用场景。用户可免费体验这些功能，进一步探索人工智能在多模态交流中的潜力。

「智谱清言」网页版上线了其新的Zero推理模型GLM-Zero-Preview，这是该系列的初代版本，预计是智谱在2024年发布的最后一个模型。官方称，该模型专注于推理能力，特别擅长处理涉及数理逻辑、代码及其他复杂问题的深度推理。

马斯克在社交平台上宣布，即将推出Grok 3模型，其预训练已完成，计算量相比Grok 2提升了十倍。这一全新模型由马斯克旗下的xAI公司开发，将为用户提供更强大的人工智能支持。训练过程中使用了10万块英伟达H100芯片，标志着Grok系列在性能上的重大突破。

issue102 2025.1.6-1.12

2025年1月6日，昆仑万维正式上线其最新的「天工大模型4.0」版本，包括创新的o1版和功能更强的4o版，均可在天工网页和APP上免费使用。Skywork o1作为国内首款具备中文逻辑推理能力的模型，经过全面技术升级，能高效处理数学、代码、逻辑等多种推理挑战。同时，Skywork 4o多模态模型支持的实时语音助手Skyo，具备情感表达和快速响应能力，为用户提供温暖和流畅的对话体验。

在拉斯维加斯的CES 2025展会上，英伟达CEO黄仁勋发布了全新GeForce RTX 5090显卡，标志着RTX 50系列的发布。RTX 5090在多项性能参数上突破，具备920亿晶体管和3352 AI TOPS，比RTX 4090性能提升了两倍，支持DLSS 4，显著提高游戏体验。国行价格起步为16499元，RTX 5070则定价4599元。英伟达还发布了全新的Cosmos世界模型平台和Project DIGITS超级计算机，使AI开发更加高效和普及。

谷歌推出了一款名为“Learn About”的AI学习工具，旨在帮助用户深入理解各类知识点。该工具基于谷歌的LearnLM模型，能够提供丰富的文本、视频信息，并以对话式形式逐步拆解复杂概念，还能总结学习框架。用户可以通过与AI互动，获得个性化学习体验。

1月9日，阿里巴巴推出的通义万相2.1模型在视频生成领域实现重大突破，首次支持直接通过自然语言生成文字特效视频，兼容中英文及数字。此模型通过复杂运动、写实与科幻特效等多样化风格的生成，展现了其强大的技术能力。用户反馈显示，万相2.1在控制肢体动作与视觉效果方面表现优秀。此外，该模型还提供了文生图功能，能够生成连贯的剧情图像，助力短视频和广告设计。

在2025年CES上，雷鸟创新发布了新款雷鸟V3 AI拍摄眼镜，搭载了猎鹰影像系统、阿里通义千问独家定制大模型及骁龙AR1旗舰芯片。这款智能眼镜打造了业内首个针对AI的多模态交互架构，旨在实现卓越的交互体验。创始人李宏伟指出，雷鸟与阿里之间的合作聚焦于真正的用户体验，而不仅仅是应用通用大模型。此外，与雷鸟V3相似，Rokid、闪极、XREAL等其他AR眼镜也将接入阿里的AI大模型，提供丰富的功能，如AI助手和多种智能识别服务，展现出AR与AI融合的未来潜力。

在2025年CES上，英伟达CEO黄仁勋首次系统展示了AI Agents的商业前景，提出其将成为继个人电脑和互联网之后的重要技术突破。他指出，AI Agents有望重塑全球10亿知识工作者的工作方式，并明确了五大商业化方向，包括智能代理机器人、人工机器人和自动驾驶汽车等关键领域。演讲中，黄仁勋展示了多个AI Agents实际应用案例，如提高新药研发效率的虚拟实验室、加强天气预测精度的气象代理等。NVIDIA的Nemo平台将帮助企业规模化部署AI Agents，将其融入日常运营，扮演数字员工的角色。这一变革预计将创造数万亿美元的新市场，提升人类工作效率，激发创新能力，推动产业革命的进程。

1月9日，谷歌宣布对NotebookLM进行重大更新，推出了Gemini 2.0 Flash实验版本及更多功能，包括全新界面的改进、用户在音频播放期间可直接与AI主持人互动，并推出了付费版本NotebookLM Plus。NotebookLM现已被数百万用户和多个组织使用，经过重新设计后，包括“来源”、“聊天”和“工作室”三个功能区域，分别用于管理信息、进行对话式讨论和创建新内容，如学习指南和简报。此更新旨在提升用户体验并增强内容创作能力。

马斯克旗下的xAI推出了独立应用Grok，该应用于1月10日在苹果App Store正式上线，用户可以免费下载使用。Grok不仅是应用的名称，也是xAI开发的AI语言模型。此前，用户只能通过社交媒体平台X接触到Grok。新的应用为用户提供了多种功能，包括生成图像和实时访问网络及X社交网络信息。此外，付费用户能够享受更高的使用权限，目前该应用在美国及其他地区开放测试。

英伟达开源了Sana模型，支持直接生成高达4K分辨率的图像。该模型采用Sana-0.6B版本，可以在16GB显存的GPU上运行，生成1024 × 1024分辨率的图片仅需不到1秒钟。官方还已支持ComfyUI，并提供了Lora训练工具，从而为开发者和艺术家提供了强大的图像生成能力。这一举措将进一步推动生成式AI在图像创作领域的应用和发展。

issue103 2025.1.13-1.19

1月13日，MiniMax宣布推出最新的语言大模型，并首次全面开源。新发布的文本模型MiniMax-Text-01和多模态模型MiniMax-VL-01采用了全新的Lightning Attention架构，显著降低了推理成本。MiniMax-Text-01的参数高达4560亿，并配备32个专家，同时支持超长达400万字的文本处理，其性能媲美顶尖海外模型。MiniMax还发布了模型、代码和技术报告，彰显其开放态度。目前，用户可以通过网页体验和API进行在线体验与商用。

Mistral AI于1月13日发布了最新的代码生成模型Codestral 25.01，该模型的上下文窗口扩展至256K，是前一代的8倍，能够更好地理解长文本上下文。新版本采用更高效的架构和分词技术，生成速度大幅提升，能够满足高频、低延迟的代码生成需求。

1月15日，全新多模态图片理解模型moonshot-v1-vision-preview正式发布，进一步增强了moonshot-v1系列的多模态能力，使Kimi能够更好地理解世界。该Vision模型具备强大的图像识别能力，能够准确识别复杂细节和微小差别，无论是食物还是动物。它能够有效区分相似的对象，例如在16张蓝莓松饼和吉娃娃图片中，模型能精确识别并标记每个图像的类型，展示出卓越的图像理解性能。

科大讯飞正式发布了讯飞星火深度推理模型X1。该模型基于全国产算力平台，是国内首个落地于真实应用场景的深度推理模型，尤其在教育和医疗领域展现了显著优势。实测结果显示星火X1能够解决全学段的数学问题，并且推理速度表现理想。

1月15日，国产视频大模型Vidu 2.0正式发布。该模型在速度上表现出色，生成4秒512P单片段视频的时间不超过10秒，而单秒视频的成本仅为4分钱。此外，自2024年7月底全球上线以来，Vidu在短短20天内吸引了超过百万用户，并在100天内用户总数突破千万，这表明其受欢迎程度和市场潜力。Vidu 2.0的发布为视频内容生成领域注入了新的动力。

1月15日，MiniMax旗下海螺AI推出了全新文本到音频技术Hailuo Audio HD (T2A-01-HD)，其快速克隆功能能够在仅需10秒的时间内完成语音克隆。该技术配备首创的智能情感系统，旨在捕捉并重现语音中的情感。此外，海螺AI的音频克隆功能也具备类似优势，用户通过上传10至60秒的音频素材就能轻松复刻声音，并且支持多达12种语言。

1月16日，面壁智能正式发布端侧大模型MiniCPM-o 2.6，作为一款开源的多模态大模型，其性能接近GPT-4o。该模型支持实时双语语音识别以及视觉、语音和多模态流式交互，能在仅8B参数量下高效运行。MiniCPM-o 2.6可处理连续的视频和音频流，实现实时语音对话，参数优化使其在自动语音识别和语音生成方面优于其他同类模型。该技术的推出将极大推动多模态AI应用的发展，并支持在多个设备上运行，包括iPad等。

智谱发布了新款端到端多模态模型GLM-Realtime E2E，该模型在实时视频理解和语音互动方面表现卓越。GLM-Realtime不仅支持近乎实时的交互和清唱功能，还具备长达2分钟的记忆能力以及强大的功能调用特性。该模型旨在提升用户与AI系统的交互体验，适用于多种实时场景，将为智能助手的建设提供更为坚实的基础。

OpenAI再更新ChatGPT，推出“自定义指令”功能。该功能允许用户设定模型的个性化特征，例如性格、语气和思考方式，旨在提升用户的互动体验。用户可以添加特定的指令和偏好，这些指令将影响模型在未来对话中的响应。

issue104 2025.1.20-1.26

1月20日，字节跳动发布了全新AI中文IDE——Trae，旨在为开发者提供更高效的编程支持。该IDE集成了GPT-4o及Claude 3.5模型，支持代码自动补全、AI问答和基于Agent的AI编程等功能，帮助程序员自动化完成开发任务。Trae特别设计为中文用户友好，提供简体中文界面，且目前限时免费。

微信公众平台开始邀请创作者体验其新推出的智能回复功能，该功能能够根据用户之前发布的文章风格及内容进行自动回复。当用户开启此功能后，AI将学习并模拟其过去的写作风格，以便为粉丝提供更个性化的回复。此更新旨在提升公众号与读者之间的互动体验，减少用户的回复负担。同时，原有的公众号关键词回复和关注自动回复不受影响。

1月20日，豆包大模型团队正式推出其实时语音大模型，并在豆包 APP 7.2.0版本中全量开放体验。该模型集成语音理解与生成，实现端到端的语音对话，显著优于传统语音处理模式。其低延迟、支持对话随时打断等特性，提升了语音表现力和情感传递。据用户反馈，该模型在语音自然度和情绪表现上明显优于 GPT-4o。团队表示，此次推出具有里程碑意义，能够满足中国用户需求，直接为亿万用户提供服务。

1月20日，DeepSeek 发布并开源了 R1 模型，其性能与 OpenAI 的 o1 正式版相当，但输出价格只有后者的1/27。R1 模型采用 MIT 许可证，允许用户进行无限制的商业使用，并且明确支持用户利用 DeepSeek-R1 进行其他模型的训练。随后的几天，R1模型的训练成本以及表现在海外尤其是在美国引发了热烈的讨论。截至本期周报发稿时，DeepSeek的App已经在多个国家和地区的AppStore总榜上进入前10，部分国家和地区甚至登顶。

1月20日，Kimi 发布了全新 SOTA 模型——k1.5 多模态思考模型，这是该系列的连续第三次重磅升级，继去年 11 月和 12 月的 k0-math 和 k1 视觉思考模型之后。根据基准测试，k1.5 在多模态推理和通用推理能力上达到了SOTA级别，尤其在 short-CoT 模式下，其数学、代码和视觉能力超越了全球短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet，领先幅度高达 550%。此外，Kimi 还首次公开了模型训练的技术报告。

商汤科技日日新融合大模型交互版（SenseNova-5o）开放商用，实时音视频对话限时免费。

1月22日，火山引擎宣布，豆包大模型1.5Pro正式发布，目前已全面上线火山方舟。豆包大模型1.5Pro在知识(MMLU_PRO、GPQA)、代码(McEval、FullStackBench)、推理(DROP)、中文(CMMLU、C-Eval)等多项公开测评基准上成绩全球领先。

谷歌悄然推出更新——Google Gemini 2 Flash Thinking Experimental 01–21，该模型在LMsys Arena上排名第一，领先其他模型，如GPT-4.0、OpenAI-o1、DeepSeek-R1和Claude 3.5 Sonnet。Gemini 2.0 Flash Thinking以1380的Arena Score取得卓越表现，显示出在准确性、推理能力、流畅性和一致性等评估标准上的优势。用户可通过Google AI Studio免费试用该模型。

1月22日，OpenAI宣布启动“Stargate星际之门”项目，计划在未来四年投资5000亿美元于美国的人工智能基础设施建设，首批1000亿资金已开始投入。该项目的投资者包括软银、OpenAI和Oracle等，软银创始人孙正义将担任主席。其目标在于推动美国在AI领域的领先地位，创造就业机会，并保障国家安全。目前，德克萨斯州的基础设施建设已正式启动，吸引了众多相关企业的参与。

Perplexity推出Sonar实时搜索API，提供基础版和功能更强大的Pro版，后者支持高级深度查询和复杂问题解决。企业应用方面，Zoom已通过Sonar增强其原生搜索功能。在数据安全方面，Sonar确保不用于大型语言模型（LLM）的训练，方便快速接入应用开发。Sonar Pro在SimpleQA基准测试中表现优于主流搜索引擎和各大语言模型，进一步提升了搜索效率和准确性。

1月23日，智谱华章宣布其GLM-PC正式开放体验，标志着自主操作电脑的多模态Agent技术升级。这一基于智谱多模态大模型CogAgent的智能体，成为全球首个面向公众、无需额外配置即可使用的电脑智能体。GLM-PC能够像人类一样“观察”和“操作”计算机，有效协助用户完成各种任务，展示了人工智能在日常计算中的应用潜力。

字节跳动开源了一款自学型UI Agent——UI-TARS，旨在实现复杂任务的自动化，支持跨平台操作，包括网页、桌面和移动设备。该代理具有理解界面的能力、高级推理能力，并且能够不断学习，其性能优于主流模型，如GPT-4。应用场景包括复杂的动态交互、表单填写、批量处理及在线预订等。此外，UI-TARS还提供了开发框架，支持在桌面和网页端运行，方便开发者进行集成和使用。

1月21日，阶跃星辰升级了其Step-1o系列模型，成为首个实现文本、视觉与语音三模态端到端融合的模型。该系列包括多模态理解模型Step-1o Vision和升级后的语音模型Step-1o Audio。阶跃在视觉理解方面表现卓越，尤其在LMSYS Org最新的Chatbot Arena视觉排名中名列前茅，展现了其在人工智能领域的强大竞争力。

1月24日，OpenAI发布了其新智能体“Operator”，标志着其迈入“Level 3”时代。Operator能够全自主地与浏览器互动，处理复杂任务，如购物和预定餐厅，用户仅需给出初始指令。其核心技术基于新的Computer-Using-Agent（CUA）模型，结合了视觉能力和推理能力，实现自主操作，无需API集成。目前该功能仅向部分Pro用户（200美元订阅）开放，OpenAI还计划在未来几周内推出更多智能体，展示了其在人工智能领域的进一步发展潜力。

跃问App推出了全新“创意板”功能，允许用户无需代码知识便可轻松自制应用和游戏。用户只需通过简单的自然语言描述自己的需求，创意板便能生成各种场景和工具，如趣味游戏、互动网页和可视化图表。该功能支持实时修改与个性化调整，用户可将生成的内容分享至多个平台，与朋友们一同体验。这一创意板被认为是国内首个专注于应用与游戏生成的创新功能，展示了AI在日常生活中的便利性与创造性。

OpenAI对ChatGPT的Canvas功能进行了更新，现已全面支持o1模型，并新增了直接渲染HTML和React代码的能力。这一更新不仅提升了Pro、Plus和Team用户的使用体验，也让Free用户可以享受到HTML和React的渲染功能。macOS ChatGPT桌面应用程序也已全面集成Canvas功能，使用户能够轻松构建和运行互动式应用。

1月25日，Ollama上线deepseek-r1模型，并在首页推荐，支持用户本地部署。

issue105 2025.1.27-2.2

本周正值中国春节假期，DeepSeek引发的舆论讨论继续在全球社交媒体发酵。除夕当天，DeepSeek应用在全球所有区AppStore登顶，随后几天，主流云服务（包括Azure和AWS）的大模型平台和主流的AI代码编辑器（包括Cursor、Windsurf和flowith等）均上线了自部署的DeepSeek-R1模型，上演了大型“口嫌体正”现场。

1月27日，DeepSeek发布了其大一统模型Janus-Pro，采用统一的Transformer架构，能够同时实现图片理解和生成。该模型提供1B和7B两种规模，适配多种应用场景，性能强大。Janus-Pro全面开源，支持商用，使用MIT协议，便于部署和应用。此外，该模型在基准测试中的表现优异，展现出更全面的能力。

1月27日，阿里通义千问发布了开源 Qwen2.5-1M 模型及推理框架，包含 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 模型，首次实现 1M 长度的上下文扩展。同时，团队开源了基于 vLLM 的推理框架，通过稀疏注意力技术使处理速度提升 3 至 7 倍。此外，Qwen 推出了 Chat 平台Qwen Chat(https://chat.qwenlm.ai/)，用户可进行对话、编程与生成多媒体内容，支持 1M 长序列的处理。

1月27日，通义千问还发布了全新的视觉模型 Qwen2.5-VL，并在多个方面实现了显著飞跃。相较于上一版本 Qwen2-VL，Qwen2.5-VL 开源了 Base 和 Instruct 模型，提供 3B、7B 和 72B 三种模型尺寸。该模型的主要特点包括更丰富的感知能力，能够识别和分析图像中的文本、图表和布局，并具备推理能力，能够动态地使用工具，初步具备电脑和手机操作能力。此外，Qwen2.5-VL 还能够理解超过 1 小时的长视频，具有重要的应用潜力。

1月28日，DeepSeek R1 模型现在可用于 Perplexity 的深度网络研究。Perplexity 澄清说，通过其平台使用 DeepSeek R1 会将用户数据保存在“西方的服务器”上。Perplexity 上的 DeepSeek R1模型托管在美国/欧盟数据中心。

1月29日，微软宣布 DeepSeek R1 现已在 Azure AI Foundry 和 GitHub 上的模型目录中提供，加入了由 1,800 多个模型组成的多样化组合，包括前沿、开源、行业特定和基于任务的 AI 模型。DeepSeek R1 可以在受信任、可扩展且企业就绪的平台上访问，使企业能够无缝集成高级 AI，很快就能在微软AI电脑Copilot+ PC上运行。

1月30日，阿里巴巴发布了 Qwen 2.5-Max 模型，该模型是阿里云团队对 MoE 模型的最新成果，预训练数据超过 20 万亿 tokens。在多项基准测试中，Qwen 2.5-Max 几乎全面超越了 DeepSeek-V3、GPT-4o 和 Llama-3.1-405B。随着 DeepSeek 推动的国产 AI 资产重估浪潮，阿里凭借其雄厚的云业务投资和领先的 AI 能力，有望重塑市场估值。

1月30日，阿里云发布百炼qwen-max系列模型价格调整通知，qwen-max、qwen-max-2025-01-25、qwen-max-latest三款模型输入输出价格调整，qwen-max batch和cache同步降价。

1月31日，英伟达宣布：「DeepSeek-R1上线NVIDIA NIM」，在单个NVIDIA HGX H200系统上，DeepSeek-R1的处理速度可达3,872 Token/秒。同日，亚马逊也在Amazon Bedrock和SageMaker AI中，上线了DeepSeek-R1模型。

1月31日，华为云宣布DeepSeek-R1上线华为云ModelArts模型即服务MaaS平台。

1月31日，AI编程工具Windsurf和Cursor均宣布更新：正式支持DeepSeek系列AI模型，包括R1和V3。Windsurf称DeepSeek模型均部署在西方服务器，V3模型使用成本仅为Claude3.5的1/4，R1模型使用成本为Claude3.5的一半。

2月1日，OpenAI 宣布 o3-mini 与 o3-mini-high 模型上线，该模型现已可在 ChatGPT 和 API 中使用。o3-mini 在性能上表现出色，相较于 o1-mini，响应速度提升了 24%，并且答案更为准确。该模型不仅展示推理过程，还能在编码评估中随着思考时间的增加表现持续提升。在数学能力测评和处理困难数据集方面，o3-mini 同样表现优异。开发者可通过 OpenAI 的 API 使用该模型，付费用户可选择提供更高智能的 o3-mini-high 版本，而免费用户通过选择“推理”模式也能体验这一功能。

2月1日，硅基流动宣布其大模型云服务平台 SiliconCloud 正式上线基于华为云昇腾云服务的 DeepSeek-V3 和 DeepSeek-R1。此次发布被视为为国内用户的春节礼物，代表着在深度学习领域的重要进展。

2月2日，腾讯云宣布 DeepSeek-R1 大模型现支持一键部署至腾讯云的「HAI」平台，开发者可在3分钟内轻松接入和调用。腾讯云表示，通过「HAI」，开发者无需再进行繁琐的步骤，如购买卡片、安装驱动、配置网络和存储等，简化了部署流程，实现快速模型调用，提升了开发效率。

2月2日，OpenAI推出Deep Research深度搜索工具，旨在为需要调研和信息检索的领域提供有力支持，如医学、金融和科研等。该工具采用优化版o3模型，能够在5-30分钟内搜索网页与分析文件，并生成简明详细的报告。功能包括支持网站内容读取、数据处理与图表生成，引用来源作为论据，实时显示进度。现已向Pro用户开放，月限100次，并计划扩展至移动及桌面端。Plus用户将在约一个月后获得使用权限。需要注意的是，目前不支持英国、瑞士和欧洲经济区。

issue106 2025.2.3-2.9

macOS 版 ChatGPT 客户端更新至 1.2025.031 版本，新增了“推理”选项，用户可以在斜杠指令中使用这个功能。启用该功能时将调用o3-mini模型。

2月3日，得效Agents平台宣布接入DeepSeek-R1模型，同时此前已支持的DeepSeek-Chat与DeepSeek-Coder两款模型均已升级到V3。用户在创建Agent时可选择R1模型，此举将全面提升智能体工作流中AI处理内容的质量和水平。

华为鸿蒙NEXT内置的智能助手小艺现已接入DeepSeek-R1模型。升级至HarmonyOS NEXT 版本的用户，将小艺App 升级至11.2.10.310 版本及以上，打开小艺App，点击“发现”-“智能体”-“DeepSeek-R1”，即可体验DeepSeek。

2月6日，Google于Gemini推出新模型，Gemini 2.0 Flash Thinking实验版，现已在Gemini Web网页端上线，该模型已在大模型竞技场lmarena登顶。同时，还为Gemini Advanced付费订阅的高级用户提供了Gemini 2.0 Pro实验版模型。全新的模型旨在提升用户的思维和创作效率，进一步增强谷歌在人工智能助理领域的竞争力。

2月6日凌晨，OpenAI宣布，免费向所有用户开放ChatGPT搜索功能，无需注册。这一创新性举措标志着OpenAI在搜索引擎领域的更大竞争力，ChatGPT搜索能够快速抓取网络信息、解读用户想法并提供来源地址。相比传统搜索引擎如谷歌，能实现分钟级别的解析。这一决策引发了广泛讨论，许多用户和业内专家认为，这可能会冲击传统搜索引擎的市场格局，预示着搜索方式的重大变革。

字节跳动推出全新多模态视频生成模型OmniHuman，旨在提升数字人动画生成的效率与真实感。该模型允许用户仅通过一张图片和一段音频即可生成生动的动态视频，兼容多种图片尺寸与人物占比。2月8日，该模型已上线即梦AI。OmniHuman的问世标志着字节跳动在AI视频创作领域的又一次技术突破，可能会对内容创作模式产生重大的影响，并推动数字人技术的商业化发展。

Pika发布名为Pikadditions的创新工具，它能够将任何图片中的物体无缝融合到用户拍摄的视频中，而不会改变原有视频的内容。这项技术的推出为视频创作和编辑带来了新的可能性，使得用户可以在不影响视频整体风格和结构的情况下，添加个性化的视觉元素。Pikadditions的这一创新功能将为内容创作者提供更大的灵活性和创作自由，提升视频制作的趣味性和多样性。

钉钉宣布率先接入DeepSeek。用户在创建AI助理时可以直接选择DeepSeek系列的R1、V3等三种模型。同时，钉钉推出了全新模板，旨在简化用户创建与发布基于DeepSeek模型的AI助理的过程。用户在创建AI助力的过程中，即可选择DeepSeek系列模型，在工作流配置界面中，也可选择DeepSeek系列模型，体验这些模型的智能互动功能。这一更新将大幅提升用户体验，使AI助理的创建更加便捷高效。

GitHub推出了Copilot Edits，这一新功能类似于Devin，能够无监督地编写代码。Copilot Edits利用先进的AI技术，根据用户的意图和上下文，自动生成和编辑代码，提高开发效率和编程体验。新的代理模式增强了Copilot的能力，使其能够自主迭代代码、建议命令并在无需用户干预的情况下修复错误。这一更新标志着GitHub在智能编程助手领域的又一次突破，旨在帮助开发者更轻松地进行代码创作和修改，推动软件开发的创新与进步。

issue107 2025.2.10-2.16

2月10日，OpenAI首席执行官山姆·奥特曼（Sam Altman）发布了对人工智能发展的最新预测，指出AI正进入一个全新阶段。他提出三大核心趋势，预示着全球经济、科技格局和个人能力的重大变革：首先，AI智能与算力之间呈对数关系，投入十倍算力带来的智能提升有限；其次，AI使用成本预计每年下降十倍，使得AI服务普及，但可能导致更多岗位被取代；最后，AI经济增长超指数级，将推动全球财富的爆炸式增长，但也可能进一步加大贫富差距。奥特曼强调，AGI（通用人工智能）将成为前所未有的生产力工具，其影响将超越以往的科技革命。

2月10日，豆包大模型团队与北京交通大学、中国科学技术大学联合推出的视频生成实验模型“VideoWorld”现已开源。该模型的独特之处在于其能够仅依赖视觉信息进行世界认知，首次在业界实现无需依赖语言模型的能力。这一进展与Sora、DALL-E和Midjourney等主流多模态模型形成鲜明对比，标志着视频生成领域的重大创新。相关代码和模型已公开，供研究者和开发者使用。

为期两天的人工智能行动峰会11日在法国巴黎闭幕。法国、中国、欧盟等60个国家和国际组织签署了《关于发展包容、可持续的人工智能造福人类与地球的声明》。声明表示，本次峰会凸显了加强人工智能生态系统多样性的重要性，各方表示应促进人工智能的可及性以缩小数字鸿沟，应确保人工智能开放、包容、安全、可靠，并加强国际协调治理。美国和英国没有签署这一声明。

2月12日，字节跳动豆包大模型团队提出了全新的稀疏模型架构UltraMem，该架构有效解决了MoE推理时高额的访存问题，推理速度较MoE架构提升2-6倍，推理成本最高可降低83%。该研究还揭示了新架构的Scaling Law，证明其不仅具备优异的Scaling特性，更在性能上超越了MoE。实验结果表明，训练规模达2000万value的UltraMem模型，在同等计算资源下，可同时实现业界领先的推理速度和模型性能，为构建数十亿规模value或expert开辟了新路径。

2月13日，OpenAI公布产品路线图：GPT4.5将是最后一个非CoT思维链模型。未来，所有的LLM都是带CoT的模型。比如GPT-5，将集成o3，并基于GPT-4o升级而成。

2月13日，腾讯主力AI应用“元宝”宣布接入DeepSeek-R1满血版，用户现在可以在模型选择框中自由切换混元模型和满血版DeepSeek-R1。该版本支持联网搜索，并整合了微信公众号、视频号等腾讯生态信息源，增强了信息获取的多样性和实用性。这一升级使得“元宝”成为一款支持双模型、具备联网搜索能力的强大AI助手。

2月14日，百度宣布将在未来几个月中陆续推出文心大模型4.5系列，并于6月30日起正式开源。此前，李彦宏曾表示开源模型不如闭源模型。“当你理性地去想，大模型能够带来什么价值，以什么样的成本带来价值的时候，就会发现，你永远应该选择闭源模型。今天无论是ChatGPT、还是文心一言等闭源模型，一定比开源模型更强大，推理成本更低。”

2月15日，微信灰度上线了“AI搜索”功能，并接入DeepSeek-R1提供的“深度思考”服务。根据腾讯的确认，部分用户已可以在微信对话框顶部看到“AI搜索”入口，点击后可以免费使用DeepSeek-R1满血版模型，享受更为丰富的搜索体验。尚未看到此入口的用户则可能需要耐心等待后续的开放。此举标志着微信在AI搜索领域的进一步深化。

2月16日，百度搜索官宣将全面接入DeepSeek和文心大模型深度搜索功能。

issue108 2025.2.17-2.23

2月17日，腾讯元宝开始灰度上线Hunyuan T1推理模型，用户在使用元宝时，开启深度思考即可启用最新的T1模型。

2月18日，字节跳动的AI代码编辑器“Trae”正式上线Windows版本，支持Windows 10和Windows 11系统。该工具由字节跳动旗下的新加坡公司SPRING PTE开发，除了提供AI问答功能，还具备多种编程辅助特性，旨在提升开发效率。“Trae”被视为国产版Cursor，吸引了众多开发者的关注。

2月18日，xAI举行直播发布活动，Grok3正式发布，推出了两款模型：Grok-3和Grok-3 Reasoning，均有mini版。这两个模型的测试成绩均领先于OpenAI，展现出强大的性能。此次模型的训练耗费了20万块GPU，历时半年。此外，Grok还发布了名为Grok DeepSearch的Agent工具，提供类似于DeepResearch的功能。付费会员将很快能够使用Grok-3，并且未来Grok应用将推出专属会员服务。用户只需同意数据共享即可获得150美元的API额度，详细配置可在x.ai的控制台进行。

2月18日，Mistral AI宣布推出其首个专业区域语言模型“Mistral Saba”，该模型专为中东与南亚市场设计，拥有240亿参数。Saba经过高品质数据集的训练，能够高效理解和生成阿拉伯语及多种南亚语言。此模型经过优化，支持本地部署，旨在满足特定区域客户的需求。

2月18日，OpenAI联合创始人兼首席执行官Sam Altman在社交媒体上讨论了公司下一个开源项目，提出构建一个类似o3-mini级别的小型模型或专为手机优化的模型的可行性。他表示，相较于小型模型，打造能够在手机上高效运行的高级模型可能更有价值，旨在探索如何在不同设备上实现AI技术的广泛应用。

2月18日，昆仑万维发布了中国首个针对AI短剧创作的视频生成模型SkyReels-V1及其表情动作可控算法SkyReels-A1。这些创新模型以“以人为中心”为设计理念，支持从文本和图像生成视频，达到与市场上知名闭源模型如快手可灵、MiniMax海螺AI相媲美的性能。SkyReels-V1基于混元大模型训练，能够实现微表情还原与专业运镜，用户可通过昆仑万维的AI短剧平台进行体验，迅速获得各种好莱坞风格的视频创作。

2月19日，DeepSeek推出了NSA（Native Sparse Attention）架构，旨在通过硬件对齐实现高效的长上下文建模。这一创新应对了标准注意力机制在长上下文处理中的高计算成本问题，通过稀疏注意力减少不必要的计算，从而提高效率。NSA结合了动态分层稀疏策略，兼顾全局和局部上下文，显著优化了大型语言模型的性能，与OpenAI的o系列模型和Gemini 1.5 Pro相比，进一步推动了长上下文建模的进步。

2月19日，月之暗面发布了新注意力架构MoBA（Mixture of Block Attention），该架构由创始人兼CEO杨植麟参与署名。MoBA将混合专家（MoE）原理应用于注意力机制，强调“更少结构”，让模型自主选择关注的位置。此发布正赶上DeepSeek的NSA架构引发关注，MoBA不仅发布论文，还公开了经过一年实际部署验证的代码，确保了有效性和稳健性。这一系列进展突显了长上下文建模领域的激烈竞争。

2月19日，阶跃星辰一次开源Step-Video-T2V和Step-Audio两款多模态大模型，前者300亿参数，可生成204帧540P高质量视频，位列开源视频模型第一；Step-Video-T2V具备强大运镜、人物运动生成和形象表现能力，采用创新的Video-VAE架构，实现16×16空间压缩比，效率提升64倍；Step-Audio支持多种情绪、方言和歌声生成，在五大公开测试集上性能领先，能完成语音识别、语义理解、对话等一体化功能。

2月20日，马斯克宣布Grok-3现已免费提供，吸引了广泛关注。此前，用户需通过X（推特）的Premium+会员或Grok APP的SuperGrok会员（每月30美元、每年300美元）才能访问。此次宣布免费引发了巨大的用户流量，导致服务器一度崩溃。

2月20日，微软发布了名为Muse的生成式人工智能模型，旨在革新视频游戏场景的制作方式。该模型由微软机器学习研究团队开发，能够自动生成游戏视觉内容和控制器动作，为游戏创作带来革命性变化。Muse的开发得益于微软游戏智能与可教学人工智能体验（Tai X）团队与Xbox游戏工作室旗下Ninja Theory的紧密合作。

2月20日，阿里巴巴正式上线全模态模型Qwen-Omni，具备多模态数据处理能力，支持视频、音频、图片和文本输入，并能输出音频与文本。与Qwen-VL和Qwen-Audio模型相比，Qwen-Omni能够深入理解视频中的视觉和音频信息，且在多模态数据理解方面表现优秀。这一创新使得用户能够更方便地进行多种数据格式的交互，提升了视觉和听觉理解的整体性能，为人工智能应用提供了更广泛的可能性。

2月21日，美国人形机器人公司Figure推出了通用视觉-语言-行动（VLA）模型Helix，该模型控制的机器人能够根据自然语言提示“拿起任何物件”，甚至是此前未曾接触过的数千种家用物品。在演示中，两名机器人展示了其分拣杂货的能力，准确将物品放置于橱柜、冰箱等特定位置。Helix模型的关键突破在于其“灵巧手”技术，使机器人能够通过头部摄像头平滑跟踪双手动作，并精准控制抓握，克服了人形机器人开发中的多项挑战。这一进展展示了人形机器人在动作精确性和自主操作能力上的新高度。有媒体称我们已经迎来了具身智能的ChatGPT时刻。

阿里巴巴本周悄然发布了ComfyUI Copilot，一款旨在提升AI开发效率的智能助理。该工具通过AI智能节点推荐，能够自动解析用户需求并快速搭建工作流；同时，ComfyUI Copilot还具备自动优化参数的能力，取代传统的手动调试方法。它支持一键模型查询，帮助用户迅速找到合适的预训练模型，并能智能诊断代码错误，提供修复建议，显著提升开发精准度和效率。ComfyUI Copilot被誉为AI开发者的“专属助理”，提升AIGC开发效率。

issue109 2025.2.24-3.2

2月24日，DeepSeek启动了“开源周”，首个开源项目是FlashMLA，一个针对Hopper GPU优化的高效MLA解码内核，专门用于处理可变长度序列。FlashMLA的设计灵感源于FlashAttention 2&3和cutlass项目，旨在提升深度学习模型的性能。该项目需要Hopper GPU、CUDA 12.3及以上版本及PyTorch 2.0及以上版本。

2月25日，Anthropic发布了Claude 3.7 Sonnet混合推理模型，赋予用户在实时响应与逐步推理思考之间自由切换的能力。Claude 3.7 Sonnet在编码和前端开发方面表现优异，并推出了Claude Code工具，使开发者能够直接从终端将复杂的工程任务委托给Claude。该模型在所有Claude计划及Anthropic API平台上均可使用，延长思考模式在免费版外的所有版本均可用。Claude 3.7 Sonnet通过优化响应和推理能力的整合，为用户提供更顺畅的使用体验，取得了在真实编码任务中的显著成绩，提高了代码的质量和设计美感。

2月25日晚，阿里巴巴宣布全面开源其视频生成模型万相2.1（https://github.com/Wan-Video），采用Apache2.0协议。此次开放的14B参数版本在指令遵循、复杂运动生成和物理建模等方面表现出色，在Vbench评测中以86.22%的得分遥遥领先其他模型。1.3B版本则能在消费级显卡上运行，仅需8.2GB显存，适合二次开发和学术研究。万相2.1具备优秀的文字特效生成功能，满足广告和短视频创作需求，助力创作者和企业用户实现高质量视频生成。

2月25日，DeepSeek在开源周Day2发布了DeepEP，这是一个专为混合专家模型（MoE）和专家并行（EP）设计的通信库。DeepEP提供高吞吐量、低延迟的全对全GPU内核，支持包括FP8在内的低精度操作。为与DeepSeek-V3提出的组限制门控算法一致，该库提供了针对非对称域带宽转发优化的内核，适用于训练和推理任务。同时，针对延迟敏感的推理解码任务，DeepEP引入了纯RDMA的低延迟内核和基于钩子的通信-计算重叠方法，以提高系统效率。

2月25日，阿里巴巴发布了基于Qwen2.5-Max的推理模型QwQ-Max-Preview。虽然QwQ-Max目前仅为预览版本，但阿里巴巴表示，正式版本将很快推出，并将基于Apache 2.0许可证全面开源，类似于DeepSeek的做法。Qwen团队还计划推出更小的版本如QwQ-32B，以便在本地设备上部署。这一变化意味着AI应用将更具普及性。同时，根据LiveCodeBench评估，QwQ-Max-Preview的性能表现优于DeepSeek R1，达到o1-medium水平。

2月25日，阿里巴巴的Qwen团队在Qwen Chat（qwen.ai）上线了基于Qwen2.5-Max的推理模型——深度思考（QwQ）。作为预览版，QwQ在数学理解、编程和AI智能体等领域表现出色，显示出较Qwen2.5-Max更高的智能和创造力。预览版同时支持深度思考与联网搜索，拥有类似Claude Artifacts的界面设计，创建的内容以独立模块形式展示在主聊天窗口之外。

2月25日，豆包开始小范围测试上线自己的推理模型。部分豆包用户已经可体验到豆包推理模型，会输出思考过程。

2月26日，DeepSeek开源周Day3，DeepGEMM正式发布，这是一个支持密集矩阵与混合专家（MoE）矩阵乘法的FP8 GEMM库，旨在提升V3/R1的训练与推理效率。其核心代码仅约300行，使用极简设计实现高达1350+ FP8 TFLOPS的性能，采用CUDA核心的两级累加策略解决FP8精度问题。DeepGEMM还优化了MoE模型的布局和数据传输效率，为开发者提供了简洁易用的接口，无需繁重依赖。通过开源，DeepSeek展示了推动AI发展与高性能计算的决心。

2月27日，DeepSeek开源周Day4，团队发布了三大优化策略，进一步推动了V3/R1的训练效率。这三大开源项目包括DualPipe、EPLB和profile-data。DualPipe采用双向流水线并行算法，实现计算与通信的重叠，有效减少训练空闲时间；EPLB则用于专家并行负载均衡，确保GPU在训练过程中几乎没有闲置。此外，梁文峰参与了DualPipe的开发。

2月27日，Kimi的最新模型K1.6-IOI-High在LiveCodeBench上曝光。

2月27日，Grok 3 免费用户已可体验 Grok Voice语音模式。

2月27日，微软宣布推出两款新模型：Phi-4-multimodal和Phi-4-mini，进一步增强其Phi-4家族的功能。Phi-4多模态是其首款整合语音、视觉和文本处理的模型，参数达到56亿，并在多项基准测试中超越谷歌的Gemini 2.0 Flash，特别是在自动语音识别和视觉推理方面表现卓越。Phi-4迷你专注于文本任务，参数为38亿，展现出在编程和指令遵循等领域的优异表现。新模型已经上线Azure AI Foundry和Hugging Face，支持跨平台使用，并确保了安全性与可靠性。

2月27日，腾讯正式发布了新一代快思考模型Turbo S，与DeepSeek R1和混元T1等慢思考模型相比，Turbo S“秒回”响应，输出速度提升一倍，首字时延降低44%。该模型在知识、数学和创作等领域展现出色表现，结合了快思考的直觉反应与慢思考的深入推理能力，使其能够更智能高效地解决问题。通过融合长短思维链，Turbo S在多个公开基准测试中与业界领先模型如DeepSeek V3、GPT-4o和Claude等展开竞争，显著提升了理科推理能力和整体性能。

2月28日，OpenAI举行直播发布会，正式发布GPT-4.5。OpenAI 表示，GPT-4.5 在扩展预训练和后训练方面向前迈出了一步。通过扩展无监督学习，GPT-4.5 提高了识别模式、建立联系和产生创造性见解的能力，而无需推理。28日起，ChatGPT Pro 用户可以在网页版、手机版和桌面版使用 GPT-4.5。下周将向 Plus 和 Team 用户开放，再下周向企业和 Edu 用户开放。现在，GPT-4.5 只支持搜索、上传文件和图片和画布功能，还不支持语音模式、视频和屏幕共享等多模态功能。OpenAI 表示，未来会持续更新，让产品变得更容易使用。

2月28日，DeepSeek开源周迎来了最后一天，推出了支撑V3/R1模型全生命周期数据访问需求的核心基础设施——Fire-Flyer File System (3FS)及其基础上的Smallpond数据处理框架。3FS是一种高效的并行文件系统，利用现代SSD和RDMA网络，180节点集群实现了6.6 TiB/s的聚合读取吞吐量，25节点的GraySort测试中达到了3.66 TiB/分钟的吞吐量，并在KVCache查找中为每个客户端节点提供40+ GiB/s的峰值吞吐量。Smallpond是基于3FS构建的轻量级数据处理框架，因其高性能、可扩展性和易用性而受到关注。

3月1日，DeepSeek在开源周的周六发布“OneMoreThing”，公布了其顶尖的DeepSeek-V3/R1推理系统，带来了全面的优化和性能提升。该系统通过高效并行处理和智能负载均衡，实现了跨节点的批处理扩展能力，使每个H800节点每秒能够处理73,700个输入token和14,800个输出token，成本利润率高达545%。DeepSeek希望分享的技术洞见能够为开源社区创造价值，并共同推动通用人工智能的发展目标。

3月1日，腾讯元宝正式推出电脑版应用，支持Windows和macOS系统，进一步扩展其在桌面端的服务能力。新版本专为工作和学习场景设计，旨在减轻用户的工作负担并提升效率。电脑版保留了移动端和网页版的核心功能，用户可体验智能对话能力，通过DeepSeek-R1和混元T1进行深度思考，同时利用DeepSeek-V3和腾讯混元Turbo S快速获取答案，满足多样化的需求。

issue110 2025.3.3-3.9

3月3日，AI集成开发环境（AI IDE）Trae 国内版正式上线，配置Doubao-1.5-pro，并支持DeepSeek R1与V3模型的切换，从而大幅提升编程效率。Trae强调人机协同，打造全新开发体验，适应国内开发者习惯，帮助其应对复杂技术挑战。通过智能化的”思想到代码”能力，用户可便捷生成应用框架并调优代码，缩短项目筹备时间。Trae希望成为值得信赖的“AI 工程师”，全力支持开发者实现高效开发与创新。

3月3日，OpenAI计划将其AI视频生成工具Sora整合进ChatGPT，并推出更强大的Sora Turbo。根据OpenAI高管Rohan Sahai的透露，Sora目前通过专用网页应用提供，允许用户生成最长20秒的短视频。未来，OpenAI还拟将Sora的生成能力扩展至图像领域，开发由Sora驱动的AI图像生成器，可能会增强用户创建逼真照片的能力。

谷歌Gemini推出“全局记忆”功能，该功能使得AI能够记住用户与其之间的所有对话。这一创新旨在提供更个性化的服务，用户在与AI交流时不再需要特意回顾过去的对话记录，AI能够自然地承接之前的对话内容。目前，这一功能主要面向订阅用户开放，免费的用户尚未能体验到相关功能。谷歌表示，用户可以随时通过Gemini应用管理自己的聊天记录，以确保隐私安全。未来，谷歌计划将该功能扩展到支持其他语言，以便更多用户能够享受到这项便利。

豆包大模型团队宣布开源SuperGPQA，这是一个涵盖285个研究生级学科的评估基准，包含了26529道专业问题。SuperGPQA旨在全面评估大型语言模型（LLMs）在各个学科领域的知识和推理能力。这一项目通过严谨的问题设计和评估机制，能够有效测试模型的表现，并揭示当前LLMs在知识领域中仍存在的提升空间。

xAI团队宣布，Grok语音模式正式上线，现已在Grok应用程序中提供11种模式功能（包含NSFW模式），并自带字幕（文本转录），成为英语学习的新利器。Grok3的早期测试版本给予用户自然语言对话的体验，虽然可能存在一些问题，但总体表现受到好评。此项更新旨在提供更智能的交互方式，吸引用户在学习和交流中更为便捷。Grok3目前可免费使用，X Premium+和SuperGrok用户可享受更多高级功能。

3月5日晚，Monica团队新产品Manus正式开启小范围邀请内测，Manus称自己是全球首款通用Agent产品，旨在解决各种复杂多变的任务。Manus可以深度参与市场调研、文件批量处理、个性化旅行规划和数据分析等多个领域。该产品通过独立思考和系统规划，灵活调用工具，实现编写和执行代码、智能浏览网页以及操作网页应用，直接交付完整的任务成果。与传统的建议和答案提供方式不同，Manus致力于为用户带来更高效的工作体验。

Manus官方发布了40个use case，展示了其在多个领域的应用能力。这款通用Agent能够进行个性化旅行规划、股票分析、教育课程开发、保险政策比较等任务。通过整合信息、深入研究和分析，Manus为用户提供决策支持，并可创建可视化和定制化工具，助力财务报告分析、在线商店运营分析等。其灵活性和多功能性使其在B2B采购、候选人面试安排和新闻发布会提词器制作等方面表现出色，为用户提供更加智能的解决方案。

3月6日，阿里巴巴发布了全新推理模型通义千问QwQ-32B正式版并开源。该模型拥有320亿个参数，其数学运算和编程能力表现接近6710亿参数的DeepSeek-R1。通过大规模强化学习技术优化，QwQ-32B显著降低了运行门槛，允许在普通显卡上本地化运行。QwQ-32B已在Hugging Face和ModelScope上发布，用户可通过Qwen Chat进行体验。

Hunyuan I2V（图生视频）模型于3月6日正式发布。该模型由腾讯混元团队开发，能够将静态图像转化为动态视频，用户只需上传一张图片并描述希望的视频效果，系统便可根据要求生成视频。该模型还支持对口型与动作驱动功能，并能够生成背景音效及高达2K的高质量视频。Hunyuan I2V发布即开源，开发者可以基于此模型进行进一步的探索和应用开发。

阿里巴巴发布新的文本转语音系统Spark-TTS，以Qwen2.5模型为基础，支持零样本语音克隆和细粒度语音控制能力。该系统优化了音频生成流程，并支持多语言输出，非常适合用于有声读物制作。用户可通过文本描述调整语音风格，甚至创建全新的虚拟声音。Spark-TTS在跨语言和代码切换场景下表现出色，能够轻松生成符合不同需求的自然语音。

Google宣布将其Data Science Agent开放给Colab用户，开启了数据分析的新可能性。该功能使用Gemini模型，实现了自动化的数据处理与分析，用户只需描述分析目标，系统便可生成完整的Colab notebook，降低繁琐的设置工作。该Agent被报告在多步骤推理基准测试中表现优越，超越了多种领先的AI Agent。用户可以通过上传数据并描述分析目标，轻松开始数据分析工作。

ChatGPT的最新桌面版本允许用户直接在Mac电脑上编辑的文件中进行修改。用户只需通过聊天或语音指令告知GPT需要的修改，GPT便可以自动完成这些任务，极大提高了工作效率。该功能特别优化了对集成开发环境（IDE）的支持，能够实时查看屏幕内容并根据用户需求自动修改代码。

Mistral AI近期推出了Mistral OCR，一款被誉为“世界上最好的OCR模型”的光学字符识别API。该产品具备卓越的多模态文档处理能力，能从复杂文档中精准提取文本，并将结果以Markdown格式输出。Mistral OCR以极具竞争力的价格发布，允许用户仅以7美元扫描千页文档。目前，它已被整合为Le Chat上的默认文档理解模型，开发者可通过API进行试用。

智谱发布并开源了其最新的文生图模型CogView4，成为首个能够生成汉字的开源AI绘图模型。该模型具备60亿参数，支持中英双语输入，能够准确理解和遵循中文提示，生成高质量的图像。CogView4在复杂语义对齐与指令跟随方面表现优异，满足广告和短视频创作等领域的需求。

issue111 2025.3.10-3.16

3月10日，智元机器人发布首个通用具身基座大模型Genie Operator-11(GO-1)。模型基于创新的Vision-Language-Latent-Action(ViLLA)架构，融合多模态大模型(VLM)和混合专家系统(MoE)，通过预测隐式动作标记，弥合图像-文本输入与机器人动作执行之间的差距。

3月12日，OpenAI发布了一系列新工具和API，专门用于构建AI智能体（Agent），以帮助开发者更轻松地创建能够自动完成任务的智能体。这些新工具包括Responses API，结合了聊天完成和助手API的功能，以便简化开发过程；Web搜索、文件搜索和基于CUA模型的计算机使用工具，分别用于获取最新信息、从文档中检索内容和自动化计算机操作。OpenAI还开源了Agents SDK，以改善多智能体工作流程。

Trae国际版发布新版本，上线Claude3.7Sonnet模型，同步更新支持Remote-SSH，开发者可在本地通过Trae访问和操作远程主机文件夹，享受代码补全、调试等AI辅助功能。Trae还新增自定义模型配置，用户可自行接入火山引擎、DeepSeek、硅基流动、阿里云、腾讯云等服务商的模型资源，满足个性化需求。

谷歌推出新一代开源模型Gemma3，是Gemma模型家族的最新版本。谷歌博客中说，这是其迄今为止最先进、最便携、最负责任开发的开放式模型，是“世界上最好的单GPU模型”。Gemma3支持多模态输入，包括视觉语言输入和文本输出，能处理长达128k令牌的上下文窗口，涵盖超过140种语言。在数学、推理和对话能力上都有显著提升，并提供结构化输出和函数调用功能。

阿里开源R1-Omni模型，是首个应用可验证奖励的强化学习（RLVR）于全模态大语言模型的项目，专注于情感识别。研究表明，R1-Omni在推理、理解和泛化能力上显著优于传统模型。该项目开源了基础模型及训练数据，提供了情感识别的性能数据，并详细说明了环境设置与推理步骤。R1-Omni在情感识别任务中表现出色，能够有效处理视频和音频数据。

通义万相上线国际版独立网站（wan.video），视频生成模型全面启用Wan2.1，同步国内版本也更新为新版UI。该工具能够将文字转化为电影级画面，并将静态图片动态化，每天登录还赠送免费额度。

腾讯元宝与腾讯文档正式实现互通，用户可以轻松上传腾讯文档至腾讯元宝，利用AI进行总结和要点提炼。同时，用户还可以将腾讯元宝中的对话内容一键导出到腾讯文档，方便进行修改、分享和创作。这一新功能已在元宝的移动端和网页端上线，为用户提供了更加高效的工作体验，进一步提升了两款产品的整合性能。

3月13日，谷歌更新了其全模态模型Gemini 2.0 Flash Exp，抢先于OpenAI的同类产品，吸引了广泛关注，被称为“用嘴P图神器”。Gemini 2.0 Flash Exp 模型不仅能够通过自然语言生成图片，还能将图像与文本混合输出，甚至支持多轮对话，逐步调整和优化图像。所有开发者均可通过Gemini API和Google AI Studio实验版本进行使用。

谷歌同时宣布Gemini Deep Research功能现在对更多用户免费开放，允许他们快速生成全面的多页报告，从而节省大量的研究时间。新模型提升了Gemini在研究过程中各个阶段的推理能力，包括规划、搜索和报告。通过进一步优化Deep Research，谷歌旨在实现其将全球信息组织、普遍可访问和实用的使命。

3月16日，更新升级后的 Gemini 2.0 Flash Thinking (experimental) 模型，以及可根据你的搜索记录提供个性化回答的 Personalization (experimental) 选项，现已在 Gemini app 中可用。

3月16日，百度正式推出文心大模型4.5和X1，这两款模型现已在文心一言官网上免费提供给用户。文心大模型4.5作为原生多模态基础模型，具备出色的多模态理解能力和增强的语言能力，进一步提升了逻辑、记忆和代码生成能力。企业用户和开发者可以通过百度智能云千帆平台调用4.5的API，X1也将随后上线。此外，百度搜索和文小言APP等产品将逐步接入这两款新模型，进一步丰富用户体验。

issue112 2025.3.17-3.23

3月17日，可灵宣布DeepSeek R1正式接入并整合到AI视频和图像功能中。用户只需点击DeepSeek按钮，输入想法即可自动生成提示词，并实时同步，无需手动编写。这一功能旨在简化操作流程，使小白用户也能轻松制作AI视频，轻松实现一键生成，提升了用户创作的便捷性和智能性。

3月17日，腾讯混元宣布推出5个全新开源3D生成模型，这些模型具备更快的生成速度、更丰富的细节和更逼真的材质表达。同时，混元的自研3D AI创作引擎也得到升级，新增多视图输入、模型智能减面和格式全兼容等能力，全面面向C端用户开放，提升了3D创作体验。

谷歌云在伦敦DeepMind总部推出高清语音模型Chirp 3，并通过Vertex AI平台向开发者开放。该模型支持248种声音和31种语言，可应用于多种智能应用中。为了保障安全，谷歌对语音克隆功能进行访问权限限制。在发布会上，谷歌还介绍了多款新产品，并宣布提升英国AI技能计划，支持初创企业，同时重申数据驻留承诺，强调工具在隐私与合规方面的重要性。

Anthropic发布了MCP（模型上下文协议）的重大更新，引入了“Streamable HTTP”方案。这一新方案替代了HTTP+SSE，旨在优化MCP的传输，提升其灵活性、兼容性和易用性。新协议支持流式传输但非强制，兼容标准HTTP，并支持无状态服务器，打破了SSE长连接的限制。这一创新将为开发者和用户在远程模型交互中提供更多便利。

3月18日，Gemini正式发布Canvas功能。Canvas是Gemini中新增的交互式工作空间，旨在简化用户创建、完善和分享工作的流程，无论是文档还是代码。它的目标是提供一个一体化的环境，实现快速迭代，无需在多个工具之间切换。

在英伟达GTC大会上，黄仁勋推出了全新一代核弹级AI芯片，成为发布会的焦点。不同于传统的科技发布会，这场活动充满了真实感，甚至出现黄仁勋因线缆问题而被卡住的有趣插曲，体现出与会的自然互动。发布会的主线围绕推理成本效率展开，强调AI行业未来的竞争将取决于模型的推理成本和效率，而非单纯的计算能力提升。新发布的Blackwell Ultra芯片，包括GB300 AI芯片，预计将显著提升AI的学习和推理速度，助力英伟达向成为AI工厂的目标迈进。

字节跳动的SeedEdit模型正式上线，旨在满足用户日常的图像编辑需求。用户能够在豆包的“图像生成-参考图”以及即梦的“图片生成-智能参考”中轻松使用这一功能。SeedEdit的操作简便，无需复杂的提示词，用户只需简单说明修改需求即可。这一创新工具将为用户提供更便捷的图像编辑体验，满足个性化创作的需要。

Cursor推出了全新Claude Max模式（MAX代表最大智能），为开发者提供强大的编程支持。Claude Max在处理大规模代码和复杂逻辑时表现尤为出色，适合于硬核开发和大型项目。作为Claude 3.7的增强版，它具备超强创造力，并能解决更复杂的任务。最大上下文窗口达200K，支持输入更大块的代码，同时工具调用限制增至200次，可进行大量编辑。然而，使用Claude Max的费用为按需计算，每次请求和工具调用各需0.05美元，可能会对用户的预算造成压力，需谨慎使用。

3月20日，OpenAI推出了迄今为止最昂贵的o1-pro API。该模型相比于o1，增加了计算资源，以提供更稳定和高质量的回答。现阶段，该模型面向Tier 1-5的特定开发者开放，支持视觉处理、函数调用及结构化输出，并兼容Responses API和Batch API。值得注意的是，o1-pro的使用成本显著增加：输入每百万token收费150美元，输出每百万token则需600美元，成为OpenAI的高端产品，价格为GPT-4.5输入费用的两倍。

阶跃星辰于3月20日开源了新款图生视频模型Step-Video-TI2V，该模型基于30B参数的Step-Video-T2V训练而成，支持生成102帧、5秒长的540P分辨率视频。Step-Video-TI2V的核心特点包括运动幅度可控和镜头运动可控，具备特效生成能力，使其在开源图生视频领域中具有更高的研究潜力。相较于现有模型，该技术在动态性和稳定性之间提供了更佳平衡，为创作者带来更灵活的视频生成体验。

字节跳动昨日推出了开源的多模态AI Agent——Agent TARS，Agent TARS支持MCP（模型上下文协议），具备更强的可扩展性。用户可以利用该Agent自行浏览网页、进行命令行操作和文件管理，能够规划和执行复杂任务，如深度研究和电脑操作。其集成了多种工具，提供macOS桌面客户端，以实现浏览器操作、会话管理及模型配置等功能。

3月21日，OpenAI发布了新的语音生成模型以及体验网站OpenAI.fm。新推出的语音转文本（STT）模型包括gpt-4o-transcribe和gpt-4o-mini-transcribe，这两款模型在处理口音、噪音和不同语速方面性能显著优于之前的Whisper，同时价格更具竞争力。此外，OpenAI还发布了具备高度可控性的文本转语音（TTS）模型gpt-4o-mini-tts，用户可以指定语调和内容。新功能支持时间戳和流式转录，便于用户实时获取转录结果，详细文档已在OpenAI官方网站上发布。

3月21日，Claude宣布现已具备网页搜索功能，可为每个响应提供即时引用，使用户可以方便地核实来源。这一新特性增强了信息的真实性和可靠性，用户可以通过引用快速找到相关资料并进一步探讨所提及的信息。

3月21日晚间，腾讯混元大模型团队举行线上直播，发布深度思考模型T1正式版。该模型具备快速吐字和秒回的特点，并且擅长处理超长文本，已上线腾讯云，将在腾讯元宝进行灰度测试。混元T1通过大规模强化学习，特别优化了在数学、逻辑推理、科学和代码等领域的表现，在常见benchmark如MMLU-PRO中取得87.2的高分，仅次于领先模型。此外，混元T1在对齐任务、指令跟随和工具利用等方面展现出强适应性，采用创新的Hybrid-Mamba-Transformer架构，降低了计算复杂度和内存占用，显著降低了训练和推理成本，展示出其在推理能力上的领先地位。

在AWE 2025展会上，多家家电品牌推出AI相关产品，重点展示AI驱动的智能家居设备与个性化服务。老板电器推出“食神大模型”，通过AI生成个性化菜谱并联动智能厨电设备，重新定义未来厨房场景。

issue113 2025.3.24-3.30

3月24日晚间，DeepSeek在huggingface上发布了V3-0324模型更新，显著提升了编程能力，并采用了更宽松的MIT开源许可证。此版本的模型具备6850亿参数，依托新的32KGPU集群进行改进，目前已经在官方网页、APP和小程序上可用。用户反馈显示，该模型在前端编码和上下文理解能力方面表现出色，接近当前编码能力顶尖的Claude 3.7。此外，V3的开源协议便利了商业应用，吸引了全球用户积极测试。

3月25日，阿里云发布了更小尺寸的视觉理解模型Qwen2.5-VL-32B-Instruct，主要优势体现在三个方面：调整后的输出风格使其答案更加详细和规范；具备应对复杂数学问题的推理能力；在图像解析和视觉逻辑推导等任务上提供更准确的细粒度分析。该模型基于1月底开源的Qwen2.5-VL系列持续优化，采用Apache 2.0协议开源。

3月26日，iOS版Grok应用进行了更新，新增多项功能。用户现在可以在语音模式下进行图像编辑，同时引入了近期历史快捷方式和更新的人物卡片选项。

Gemini 2.5 Pro实验版模型现已在Google AI Studio上线，单次可处理百万token，用户可以进行体验和试用。它在多个基准测试中达到了SOTA水平，并且以显著的优势在LMArena上排名第一。现在，Gemini 2.5 Pro已经登顶了Arena排行榜的第一位，而且创下了历史最大分数。

3月26日，OpenAI发布GPT-4o生图功能，显著提升了图像生成的质量与细节表现。用户通过对话能够实现多轮生成和精准指令遵循，能够处理复杂场景并进行细致修改，如生成菜单、婚礼邀请等。同时，该模型还可根据现实知识生成相关图像，但在长图像、非拉丁文本渲染等方面仍存在缺陷。GPT-4o的推出已取代DALL·E3成为默认的图像生成器，目前Plus和Pro订阅用户已可在ChatGPT和Sora中使用，预计近期将进一步推广至Team和Enterprise订阅用户。

腾讯元宝宣布DeepSeek模型已升级到V3-0324。字节跳动的AI IDE Trae国际版也已上线DeepSeek-V3-0324模型。

昆仑万维于3月26日推出首款音乐推理大模型Mureka O1及其V6版本。继去年8月上线的Mureka平台后，新发布的模型具备CoT（思维链）能力，成为首个提供开放API和模型微调服务的音乐生成平台。Mureka的名称源于希腊语“Eureka”，意为“我发现了”，旨在帮助用户记录音乐灵感，创造个性化作品。Mureka O1在多项评测中已超越竞争对手Suno，并瞄准全球市场。用户可通过官方网站体验。

3月27日，Qwen团队开源了最新的多模态模型Qwen2.5-Omni-7B，该模型实现了文本、图像、音频和视频的端到端处理。其核心技术包括全新Thinker-Talker架构，支持分块输入与即时输出，解决了视频与音频时间戳同步问题。该模型具备实时语音和视频交互能力，生成的语音在自然度上超越现有技术，并在单模态和多模态任务上表现出色，达到SOTA水平。用户可在Qwen官网试用这个强大的新模型。

美团创始人王兴透露，公司已自主研发了名为LongCat的大模型，并投入数十亿元用于GPU资源的建设。LongCat模型旨在提升员工的工作效率，包括AI编程、会议助手及多媒体制作等功能。

3月27日凌晨2点，OpenAI对Agent SDK进行了重要更新，新增支持MCP（Multi-Component Processor）服务，旨在统一接口标准，解锁无限工具。此更新允许开发者快速集成多种工具，如网络搜索、专业分析、和本地查询，从而显著提升复杂自动化智能体的开发效率。例如，开发者可通过MCP服务器有效整合文件处理、数据查询和网络信息收集功能。OpenAI首席执行官Sam Altman对此表示高度赞赏，强调了MCP在智能体开发中的关键作用。

清华大学研究团队开源了新视频生成技术Video-T1，采用测试时缩放（Test-Time Scaling, TTS）方法，旨在提升AI生成视频的质量，无需重新训练模型。该技术通过在推理阶段增加计算，实现了视频生成的显著提升，测试表明在VBench上最高可提升5.86%的总分。Video-T1不仅优化了生成过程的质量和一致性，还有助于AI更好地理解和模拟现实世界。

3月28日凌晨，阿里巴巴发布新的AI视觉模型QVQ-Max，作为QVQ-72B-Preview的正式升级版，专注于优化视觉信息处理。QVQ-Max实现了从视觉感知到认知推理的跨越，支持图像、视频和文本的联合推理。在MathVision benchmark测试中，该模型表现出thinking长度与准确率之间的正相关关系，显示出其强大潜力。该模型目前已上线Qwen Chat。

Ideogram发布了全新文生图模型Ideogram 3.0，有着惊人的真实感、创意设计和一致的风格。该模型在图像提示对齐、逼真度和文本呈现等方面取得了显著进展，在人类评估中表现优于其他同类模型。它引入了风格参考功能，允许用户上传多张图像以定制生成内容风格，同时通过随机风格功能探索独特组合。Ideogram 3.0还具备强大的文本和布局生成能力，能够快速制作专业品质的设计作品，极大提高了设计的效率和可接近性。

3月28日，豆包正式开启新版深度思考功能的测试，新的功能结合了推理过程中的思维链与深度搜索，支持边思考边搜索信息。这一改进使得豆包能够在思考过程中多次调用工具和搜索信息，以提供更全面、准确的结果。新功能适用于多种场景，如制定方案和规划。例如，在清明旅游的案例中，豆包通过三轮搜索，综合各类情况，撰写出了一份详尽的旅游方案。

3月28日，快手可灵AI进行了双重升级，推出了新版本1.6，图生视频在Artificial Analysis竞技场中排名第一，超越了Google Veo 2。同时，Elements（尾帧）功能也进行了优化，视频生成速度显著提升，且对提示词的理解更加精准，生成效果与用户需求更加贴合。这一系列更新不仅提升了生成效率，还增强了用户在视频创作中的体验，进一步巩固了可灵AI在图生视频领域的领先地位。

3月30日，Manus发布了两个重要更新，感谢早期用户的支持。首先，推出了Manus会员（测试版），提供更多的使用积分、同时运行多个任务的能力、通过专用资源提升的稳定性，以及扩展的上下文长度。作为对早期用户的感谢，系统已为每个账户添加了1000个免费积分，并将定期提供更多奖励积分。其次，Manus的移动应用现已上线，用户可以随时随地创建任务和查看结果，提升了使用的便利性。

issue114 2025.3.31-4.6

3月31日，智谱在中关村论坛推出了最新的Agent产品——AutoGLM「沉思」。该产品的显著特点在于其能够有效应对开放性和复杂问题，通过边推理边搜索的方式，生成条理清晰、内容详实的长文报告。与传统的联网搜索AI工具不同，「沉思」在推理过程中主动拆解问题，并调用本地浏览器实时进行信息搜索，在确认所需信息后再进行推理，最终输出完整报告。目前该产品已在智谱清言PC端开放使用。

Runway正式发布其最新的视频生成模型Gen-4，号称是迄今为止最高保真度的AI视频生成工具。Gen-4在画面真实感、动态流畅度及创作可控性等方面实现了重大突破，解决了AI视频长期存在的角色与场景连贯性问题。用户只需输入简单提示词和几张参考图，就能生成高品质的电影级大片，并且保持一致的视觉风格。该模型的推出将为视频创作带来前所未有的自由和灵活性。

4月2日，OpenAI在其iOS应用中推出了全新的语音“Shade”，目前正在逐步推送给部分用户。用户反馈显示，“Shade”语音表现出更具个性化的“丧”与EMO风格，呈现出更自然的语调和丰富情感。分析人士指出，此次更新在语速、语气和场景适应性上进行了优化。

4月2日，一款名为 Quasar Alpha 的模型上线 OpenRouter，具备高达 100 万个 token 的上下文处理能力，响应速度快，每秒可处理约 136 个 token。用户测试发现其表现出色，有人怀疑它为 OpenAI 的开源模型，因其自称基于 GPT-4。Quasar Alpha 为全能型模型，尤其擅长编码任务，支持多模态能力，并在 aider 多语言编码基准中得分约 55%，优于 GPT-4o，现已在 OpenRouter 免费开放使用。

Hugging Face推出了一项新功能，用户可以轻松查看其计算机硬件支持运行的AI模型。用户只需在个人设置中输入硬件信息，系统将智能分析并显示可运行的模型。这一功能旨在简化模型选择过程，为开发者和AI爱好者提供便利，提升了使用体验，帮助他们更高效地利用计算资源。

谷歌的NotebookLM推出了新的“Discover sources”功能，旨在帮助用户快速获取网络上的相关信息。用户只需输入感兴趣的主题，系统便会迅速找到相关网页并进行总结，用户可一键将这些来源添加到笔记本中，便于后续查阅。这一功能提高了信息获取的效率，优化了用户的学习和研究体验。

4月3日，前百度集团副总裁景鲲创立的Genspark推出了全新的自动化AI代理“Super Agent”，凭借其强大的自主思考和任务执行能力而备受瞩目。该系统采用创新的多智能体混合设计，能够高效处理从日常事务到复杂研究的多种任务，展现出巨大潜力。尽管其实用性令人印象深刻，但仍需关注系统透明度和数据隐私等问题，以确保安全性和用户信任。

4月3日，Midjourney正式启动其备受期待的V7图像模型的Alpha测试，标志着AI图像生成技术的一次重大进步。创始人大卫·霍尔茨称该模型为“迄今为止最智能、最美观、最连贯的版本”，并承诺未来两个月每隔一到两周推出更新。V7引入了草稿模式，提升渲染速度和降低成本，同时实现了更高的图像质量和个性化功能，这些特性为创意工作者提供了更高效的工具。Midjourney也在扩展其技术野心，计划开发视频和3D对象生成模型。

加州大学圣地亚哥分校的一项研究显示，OpenAI的GPT-4.5在图灵测试中表现出色，73%的时间被判定为人类。这项测试通过让参与者同时与一名人类和一个AI进行5分钟对话，然后判断哪一方是人类。GPT-4.5的表现显著优于其他AI系统和真实人类，首次提供了实验证据证明某个人工智能系统能够通过标准三方图灵测试。这一突破引发了关于AI未来和其对人类社会影响的广泛讨论。

MiniMax Audio推出两款新语音模型——speech-02-turbo和speech-02-hd，支持声音克隆及18种语言，包括中文、英语、粤语、日语等。用户还可以选择7种情绪模式：开心、难过、生气、害怕、厌恶、惊讶和中立。从智能助手到有声读物，再到在线课堂和电影配音，MiniMax Audio的应用场景广泛，为用户提供高度定制化的语音体验。

谷歌宣布测试名为“AI Mode”的全新人工智能搜索模式，允许用户提出更复杂的多部分问题，并能整合多个查询结果，提供连贯、深入的答案。与传统关键词搜索不同，AI Mode可在后台同时运行多个相关搜索，预测用户兴趣点，生成全面的整合性回答。该功能将在主搜索页面之外的独立标签页运行，特别适用于处理复杂查询。

4月2日，字节即梦推出了3.0版本的AI绘图模型，用户反馈表明其出图质量和生成汉字的能力有了显著提升，尤其是在细节上，小字的生成稳定性大幅改善。该模型被认为是目前最强的中文AI绘图模型，能直出商用级的海报，出图质量和生成汉字的能力效果非常好。次日，豆包宣布文生图能力升级，全面搭载新模型。

4月6日凌晨，Meta 发布了 Llama 4 系列模型，包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth（预览）。这些模型采用混合专家（MoE）架构，并且是原生多模态训练。其中，Llama 4 Scout 是性能最强的小尺寸模型，Llama 4 Maverick 是同级别中最佳的多模态模型，Llama 4 Behemoth 是 Meta 迄今最强模型。这些模型在多个基准测试中表现出色，具有业界领先的多模态上下文窗口，首次将上下文长度扩展到千万token级。

issue115 2025.4.7-4.13

4月7日，Gemini Live现已在Gemini安卓客户端上线，新增实时读取屏幕内容功能，并能通过语音快速回答用户提问。此外，ChatGPT iOS客户端也已支持类似功能，用户可通过开启高级语音模式并选择“共享屏幕”来体验。此更新显示了人工智能在增强实时互动与信息获取方面的进展。

4月8日，Runway正式推出Gen-4 Turbo，视频生成速度大幅提升至仅需30秒即可创作10秒视频，比前代Gen-4快5倍。同时，成本也显著减少至Gen-4的一半，使用户能够实现高效且低成本的视频创作。

ElevenLabs推出了MCP服务器，旨在简化AI与其文本转语音（TTS）、声音克隆等语音功能的接入。该平台不仅支持在Claude中启动语音代理，用户还可以利用其执行外拨电话等任务。

4月9日，阿里云百炼上线全生命周期MCP服务，无需用户管理资源、开发部署、工程运维等工作，5分钟即可快速搭建一个连接MCP服务的 Agent（智能体）。百炼平台首批上线了高德、无影、Fetch、Notion等50多款阿里巴巴集团和三方MCP服务，覆盖生活信息、浏览器、信息处理、内容生成等领域，可满足不同场景的Agent应用开发需求。

4月9日，英伟达开源了一款新模型Llama-3.1-Nemotron-Ultra-253B-v1，该模型基于Meta的Llama-3.1-405B-Instruct开发，拥有2530亿个参数。值得注意的是，该模型在多项第三方基准测试中表现出色，其性能接近于6710亿参数的DeepSeek R1，但参数量仅为其一半。测试结果显示，Llama-3.1-Nemotron-Ultra在GPQA、指令遵循和编码任务中均优于DeepSeek R1，且推理吞吐量高出4倍。

4月9日，Google Gemini的“Deep Research”功能已升级至Gemini 2.5 Pro实验模型，提供更强大的研究支持。该功能通过AI驱动的深度分析，帮助用户快速整理复杂信息并生成详尽报告。最初仅限订阅用户使用，现已向免费用户开放，并且性能得到提升。

4月10日，Google Cloud举行Next25大会，发布多个更新。Gemini 2.0 Flash 001 模型现已在 AI Studio 上线。它取代了之前发布的 2.0 Flash Experimental 模型。新发布的Firebase Studio是一个基于Web浏览器的AI编程工具，允许用户无限调用Gemini模型进行“vibe coding”。该平台提供不同的工作区选项来满足用户需求：普通用户可以使用3个工作区，而加入Google开发者计划的免费用户则可获得10个工作区，成为Google开发者Premium计划的用户则可享受30个工作区。

谷歌推出新的Agent 2 Agent（A2A）协议，用于实现Agent之间的无缝协作。A2A协议相比Anthropic的模型上下文协议（MCP）更侧重于让客户端Agent与远程Agent进行联动，实现任务的制定、传达和执行。A2A协议允许Agent之间互相发送消息，传达上下文信息和回复，连接可以持续保持直到任务完成。

Google推出Veo 2 API，用户现在可以通过Gemini API访问这一新工具。Veo 2支持多种功能，包括将文本转化为视频、将图片转化为视频及通过多模态提示（文字、图像和风格描述）生成高质量短视频。费用方面，每秒钟的生成费用为0.35美元，视频时长通常在5到8秒之间，因此每次调用的费用介于1.75美元至2.80美元之间，并支持每次生成最多2个视频版本。

Google同步推出Chirp 3，这是其音频理解与生成模型的最新版本，现已更新至Vertex AI。Chirp 3支持超过35种语言（包括中文），并提供八种音色选项。用户只需提供10秒的语音样本，即可生成逼真的自定义语音。尽管当前仅能通过API调用，但这一特性允许用户利用游戏、动漫角色的音频，创造个性化的虚拟人语音。业界对这一技术的潜在应用前景表示期待，同时呼吁Google加强相关的安全措施，以防止不当使用。

Anthropic推出Claude Max订阅计划，分为每月100美元和200美元两个版本，速率限制分别为Claude Pro的5倍和20倍。这一计划被视为对OpenAI ChatGPT Pro的竞争，旨在为高端用户提供更多功能和优先权。同时，Anthropic也在探索教育等新领域的收入渠道，并不排除未来推出更高端订阅计划的可能性。

商汤发布了其最新的多模态大模型“日日新SenseNova V6”，旨在赋予人形机器人更高的智能，实现“真听、真看、真思考”。该具身智能模型具备6000亿参数，支持长达64K的思维链、多模态深度推理及10分钟视频理解，提升了机器人在互动及感知上的能力。新一代的人形机器人如GRx和“飞燕”能主动与人交流，分析环境，甚至提供个性化建议。此外，商汤还推出了升级的SenseCore 2.0，强调将AI技术应用于日常生活。

The Browser Company推出了全新AI浏览器Dia，现正进行邀请码制公测。Dia浏览器侧重于AI驱动的原生浏览体验，其搜索框支持自然语言提问，并能够轻松添加网页链接。此外，Dia具备高效的文档处理能力，能够在限制为100MB的情况下，清晰总结长达10万字的文档。

4月11日，ChatGPT推出了记忆功能的升级，使其能够参考用户过往所有的历史聊天记录，提供更个性化的回应。新功能允许AI根据用户的偏好和兴趣，提供更贴心和实用的帮助，无论是在写作、咨询还是学习方面。升级后的ChatGPT不仅能引用过去的对话内容，还能更流畅地进行互动，符合用户的个性与风格。此外，用户可以调整AI的理解，或选择临时对话模式以避免影响记忆功能。该升级将逐步推送给所有Plus和Pro用户。

issue116 2025.4.14-4.20

4月15日凌晨，OpenAI推出了三款新型GPT-4.1系列模型，专为API使用而非直接集成在ChatGPT中。该系列包括旗舰模型GPT-4.1，具备卓越的编码和指令遵循能力；高效的GPT-4.1 mini，显著降低延迟和成本；以及超小型的GPT-4.1 nano，针对低延迟任务设计。尽管命名逻辑引发网友吐槽，但OpenAI声称，此系列模型在多项基准测试中表现优异，特别提升了编码、前端开发和上下文理解能力。GPT-4.1还允许使用高达32,768个tokens的输出，适应更复杂的编程任务。

4月15日，智谱宣布开源32B/9B系列GLM模型，包括基座、推理和沉思模型，均遵循MIT许可协议。新平台Z.ai已免费开放体验，并与智谱MaaS平台同步上线。其中，推理模型GLM-Z1-32B-0414的推理速度可达200 Tokens/秒，表现不逊于DeepSeek-R1，且售价仅为其1/30，成为国内商业模型中速度最快的选择。Z.ai将整合三类GLM模型，后续将作为智谱最新模型的交互体验入口。

4月15日，可灵发布了重磅更新版本可灵2.0，其中包括全新的视频生成能力和可图2.0文生图模型。这次更新通过自研技术的结合，实现了动态画面的显著提升，支持精准的复杂运动模拟和交互响应。新增加的多模态编辑功能允许用户在视频基础上通过文字或图片进行灵活修改，提升了创作体验。同时，新引入的AI音效生成可为影像内容创造适合的音效片段，更加丰富了视觉表达。整体上，该更新构建了一个多模态视觉语言（MVL），使得与AI的互动更加精确和丰富。

4月15日，马斯克旗下xAI正式发布Grok Studio的首个版本，新增代码执行功能与Google云端硬盘支持。Grok现已支持生成文档、代码、报告及网页游戏。Grok Studio会将用户的内容在独立窗口打开，让用户和Grok可以共同协作处理内容。

4月16日，Anthropic推出Claude的重大更新，新增“Research”功能并实现与Google Workspace的深度集成。这一新功能使Claude能够主动进行多轮搜索，从而快速检索网络及内部文件，精准回答复杂问题，极大提升工作效率。与ChatGPT的Deep Research类似，Claude的Research功能也可以多角度深入探讨问题，为用户提供系统性的答案。

4月16日，Trae国际版宣布新增Gemini 2.5 Pro和GPT-4.1模型，均免费提供，提升了用户的AI编程体验。

4月16日，上海人工智能实验室升级并开源了通用多模态大模型书生·万象3.0（InternVL3）。该模型采用创新的多模态预训练和后训练方法，显著提升了其基础能力。在专家级基准测试以及多模态性能全面测试中，10亿到780亿参数的全量级版本在开源模型中表现卓越，荣获第一。同时，InternVL3在图形用户界面（GUI）智能体、建筑场景图纸理解、空间感知推理和通识学科推理等方面的能力也得到了大幅提升。

腾讯推出的AI助手“元宝”现可添加为微信好友，用户可以直接与其对话，并发送链接和文件，甚至支持置顶功能。元宝基于混元和DeepSeek双模引擎，能够一键解析公众号文章及任何图片和文档，提供详细解读和短评。

4月17日，OpenAI正式发布了其最新的推理模型——o3和o4-mini。这些模型显著优于第一代o1模型，尤其在解决复杂问题和Agent能力方面。o3模型首次支持在思维链中使用图像进行推理，并展现出强大的自主调用工具能力，曾连续调用约600次工具以解决难题。同时，它全面支持网页搜索、文件分析、Python代码执行和图像生成等功能，且在成本效率上优于前代产品。o3现已在模型选择器上取代o1，ChatGPT Plus、Pro和Team用户立即可用，企业和教育用户将在一周后获得访问权限，o3-pro预计数周内发布。

4月17日，OpenAI发布了轻量级编码智能体Codex CLI，该工具现已在GitHub开源。Codex CLI旨在增强o3和o4-mini模型的推理能力，并即将支持GPT-4.1等追加API。用户可以通过命令行进行多模态推理，接受截图或草图，同时访问本地代码，为开发者提供了ChatGPT级别的推理能力。它具备零配置功能，可以直接使用OpenAI API密钥，并通过网络禁用和目录沙箱化确保安全。Codex CLI兼容macOS、Ubuntu和Windows的WSL2，最低要求4GB内存，建议使用8GB。

4月17日，火山引擎举办活动，发布豆包1.5深度思考模型、豆包·文生图模型3.0、豆包·视觉理解模型升级版等，并推出OSAgent解决方案及AI云原生推理套件，帮助企业更快、更省地构建和部署Agent应用。豆包1.5深度思考模型总参数达到200B，但激活参数仅为20B，兼具性能与效率。在数学推理 AIME 2024 测试得分中，该模型追平OpenAI o3-mini-high，编程竞赛和科学推理测试成绩也接近 o1。

4月18日凌晨，Google 正式推出 Gemini 2.5 Flash 预览版大模型，基于 Gemini 2.0 Flash 打造，其在推理能力方面进行了较大升级，同时保持了速度和成本的优势。据 Gemini 产品经理 Tulsee Doshi 表示，Gemini 2.5 Flash 与 2.5 Pro 一样，支持动态思考：根据输入的复杂程度自动调整生成的工作量。在 2.5 Flash 上，开发者可以进一步控制模型思考。另外，Google 将优化性能，计划推出正式版，或支持更长上下文（200 万 Tokens）和更低延迟。

4月18日，扣子空间（Coze Space）启动内测，旨在成为用户与AI Agent协同办公的理想平台。它提供多项功能，包括自动需求分析和任务拆解，让用户能够高效完成工作。平台支持自主调用工具，生成网页、PPT、飞书文档等结果报告。专家Agent生态提供专业化服务，如华泰A股观察助手和用户研究专家，能有效支持各类项目。同时，探索模式和规划模式帮助用户根据任务复杂性优化协作方式，此外，MCP扩展集成功能可进一步拓展Agent的能力，支持多种工具使用，提升办公效率。

阿里通义万相开源了业界首个“首尾帧生视频模型”，参数量达到14B。该模型能够根据用户提供的开始和结束图片生成720p高清的视频，实现首尾画面的无缝衔接，满足用户对视频生成的更高控制和定制化需求。

issue117 2025.4.21-4.27

4月22日，Fellou AI推出了全球首个Agentic（行动型）浏览器Fellou，它整合了传统浏览器的信息浏览功能与AI智能体，旨在自动化复杂任务，提升用户生产力。用户可以使用Fellou通过简单的语句自动填充表单、管理标签页以及跨网站执行繁琐操作，极大地简化了工作流程。该浏览器采用基于智能代理架构的新型模式，彰显了浏览器的进一步智能化趋势，为用户提供更加高效的深度搜索与自动化体验。

4月22日，Trae发布新版本新增四项功能，进一步提升用户体验。首先，智能体创建功能允许用户基于提示词和MCP工具自定义智能体，使用时只需@即可，无需重复输入复杂指令。其次，智能工具（MCP）支持内置常用工具，使点击即可使用更加便捷。此外，Trae增强了联网搜索及文档集的上下文理解能力，帮助AI在处理复杂编码框架时提供更精准的搜索结果。最后，个人和项目规则配置功能的引入，使得用户无需反复强调基础编码要求，进一步提高了工作效率。

4月22日，AI视频生成初创公司生数科技推出了全新的Vidu Q1视频大模型，该模型在多个权威的文生视频和图生视频基准测试中荣登榜首。Vidu Q1支持生成1080p分辨率、5秒长度的视频，效果清晰稳定，现已在网页端和手机端发布。与前一版本相比，Vidu Q1在语义理解、画质、动作和美学等方面有所提升，首尾帧衔接更加顺畅，并可通过上传两张图片生成自然流畅的镜头。其性价比极高，1080p 5秒视频的最低价格为1.34元，低至0.3元/秒，显著低于同类产品，展现了卓越的动态表现能力和特效处理性能。

4月23日，Kortix-AI 正式发布开源通用 AI 智能体平台 Suna，定位为热门 AI 工具 Manus 的开源替代品。Suna 集成了浏览器自动化、文件管理、网络爬虫、扩展搜索、命令行执行、网站部署及 API 集成等功能，通过自然语言对话实现复杂任务的自动化处理。

4月23日，Veo 2视频生成模型在iOS版Gemini应用中正式上线。这一全新模型旨在提升用户的视频创作体验，凭借改进的算法和性能，Veo 2能够生成质量更高、风格更加多样化的视频内容。Gemini应用用户现在可以利用Veo 2的功能，轻松创建引人入胜的视频作品，享受更流畅的编辑过程。

4月23日，OpenAI Platform正式上线了GPT-4o的图片生成API，名为gpt-image-1。该API具有两个主要功能：一是“Generations”，可以根据文本提示从零开始生成全新图像；二是“Edit”，允许用户通过新的提示词对现有图像进行部分或全部修改。同时，gpt-image-1支持用户自定义图像的尺寸和质量，并且提供alpha通道输出，进一步扩展了创作者在视觉内容生成和编辑方面的灵活性和创新可能性。

4月23日，xAI推出了其旗舰AI助手Grok的新功能——Grok Vision。该功能利用智能手机摄像头进行实时视觉分析，能够识别物体、解读文本并理解环境，为用户提供即时信息。Grok Vision还支持多种语言的语音交互，包括西班牙语、法语等，打破语言障碍，增强用户体验。此外，用户可以通过语音命令进行实时搜索，获取最新信息。该功能的发布引起了全球AI社区的广泛关注和讨论。

纳米AI最新推出的电脑客户端MCP万能工具箱集成了超过100个MCP配置，用户可以直接调用。该工具箱还内置了常用的18个API密钥，免去了去各个网站寻找密钥的麻烦。用户可以轻松调用高德地图、MiniMax生图、生音频和生视频等功能。

4月24日，扣子宣布智能体和工作流应用可发布为扣子空间的MCP工具。

4月25日，百度Create开发者大会现场，百度创始人李彦宏正式发布文心大模型4.5 Turbo和文心大模型X1 Turbo，具备多模态、强推理、低成本三大特性。他表示，当下的部分模型，仍然存在模态单一、幻觉高、速度慢和价格贵等问题。百度发布这两款新模型，正是为了解决这些问题。

4月25日，百度在Create2025大会上推出了首个移动端通用超级智能体App——心响，并宣布免费开放使用，目前安卓版已上线。心响App具有多个子智能体，能够理解用户意图，拆解任务，协作完成指令，实现一站式服务。例如，可以生成有声的试题讲解视频等。

4月25日，OpenAI推出了“深度研究”的轻量版，由o4-mini驱动，现已向所有用户免费开放。该版本的特点是回复更加简洁，但依然保持深度与质量。当用户的标准“深度研究”配额用尽时，系统将自动切换到这一轻量版，确保用户在不同需求下仍能获得高效的回答，进一步提升了服务的灵活性和可用性。

即梦3.0海外版本正式发布，提供卓越的英文排版理解与控制，用户反馈效果优于中文。新版本具备电影级画面品质和2K分辨率输出，展现超逼真的材质与纹理。此外，英文文本的生成能力被评价为极其准确，保证了精准、干净的字体排版。

开源项目Magi-1在北京推出后迅速引起关注，仅在两天内便在GitHub上获得了1.7k个Star。这是全球首个高质量自回归视频模型，其物理真实性测试结果超过了谷歌的VideoPoet。Magi-1被誉为现实世界的模拟器。

4月27日，Qwen海外版App已在Google Play上架。

issue118 2025.4.28-5.4

4月29日凌晨，通义千问团队宣布推出 Qwen3，这是 Qwen 系列大型语言模型的最新成员。旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比，表现出极具竞争力的结果。此外，小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%，表现更胜一筹，甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。此外，六个 Dense 模型也已开源，包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B，均在 Apache 2.0 许可下开源。

OpenAI更新了ChatGPT的搜索功能，新增了在线购物体验。用户可以通过自然语言搜索产品，ChatGPT会提供推荐、图片、评论和直接购买链接。目前支持时尚、美容、家居用品和电子产品等类别，功能已在GPT-4o中上线，适用于所有用户。未来还将提供个性化的购物推荐。

在4月30日的首届LlamaCon开发者大会上，Meta发布了其对标ChatGPT的智能助手Meta AI App，并推出了官方Llama API服务的预览版本。该应用基于Llama模型，能够通过社交媒体账号获取用户偏好并记住上下文，与ChatGPT类似，支持文本和语音交互。值得一提的是，Meta AI App还增加了全双工语音交互功能，允许用户在接收语音的同时进行回应，支持边听边说和实时打断。

4月30日，豆包AI推出了最新灰度测试版本“超能创意1.0”，首次支持一次生成多达20张风格统一的艺术写真图。该版本大幅提升了画面细节和光感，特别适合职场写真和古风风格。这一技术的出现为那些因时间和费用限制而难以拍摄精致个人写真的人们带来了福音。

4月30日，小米大模型微信公众号称，小米于周三开源首个为推理而生的大模型“Xiaomi MiMo”。MiMo推理能力的提升，由预训练和后训练阶段中数据和算法等多层面的创新联合驱动。

4月30日，DeepSeek低调在Hugging Face上开源了全新671B参数的模型“deepseek-ai/DeepSeek-Prover-V2-671B”，专注于数学问题的Prover系列。相比前一代DeepSeek-Prover-V1.5，V2在参数规模上显著提升，从7B增至671B，预示着巨大的性能提升潜力。该模型经过在DeepSeekMath-Base上预训练，并在形式化数学语言上进行监督微调，同时利用基于证明辅助反馈的强化学习进行进一步优化。

Sam Altman在社交平台X上宣布，由于发现GPT-4o存在“过于谄媚”的问题，将于周一晚上开始对其最新更新进行回滚。目前，免费用户已实现100%回滚，而付费用户也将在完成回滚后进行更新。此外，团队正在对模型个性进行进一步修复，并计划在未来几天分享更多信息。OpenAI随即发表博客，详细解释了事件经过及其应对模型“拍马屁”现象的措施。

5月1日，Qwen团队宣布推出全新型号Qwen2.5-Omni-3B，这是一款为适应开发者需求而设计的轻量级多模态模型。相比此前的Qwen2.5-Omni-7B，3B版本在处理长上下文序列时的显存消耗减少超过50%，能够在普通24GB消费级GPU上支持长达30秒的音视频交互。同时，Qwen2.5-Omni-3B保留了7B模型90%以上的多模态理解能力，其语音输出的自然度和稳定性与7B版本保持一致。目前，该模型已在魔搭社区和Hugging Face上开源。

NotebookLM最新版本的音频概览（播客生成）功能现已支持中文，并宣布手机端App预计于5月20日推出。

issue119 2025.5.5-5.11

Suno发布了全新版本v4.5，为AI音乐创作带来重大升级。新版本支持更多音乐风格和智能风格混搭，增强了人声表现力和情感表达能力，呈现出更复杂的音色和细节。同时，提示理解能力显著提升，并新增“提示增强助手”功能，帮助用户更精确地构建创作提示。此外，翻唱和角色功能的强化，提供了更具沉浸感的个性化音乐体验。音质全面提升，单曲生成长度最长可达8分钟，让AI音乐进入“可听、可用、可分享”的新阶段。

微软发布了Phi-4-Reasoning，展现了小模型在复杂推理中的新潜力。通过独特的多阶段训练方法，这款仅有3.8亿参数的Phi-4-Mini在数学、科学等高难度任务中具备了接近大模型的推理能力，推动了“小体量大脑袋”的概念。相较于动辄数十亿参数的大模型，Phi-4-Reasoning在边缘计算设备、移动端及企业本地系统等低资源环境中更具适应性，响应更快且部署更灵活。在AIME 2025等推理基准测试中，它的表现超越了Llama-70B和DeepSeek-R1，甚至在某些任务中胜过671B级别模型。

5月6日，Gemini 2.5 Pro更新0506版本（I/O Preview），提升了编码能力，尤其在前端Web开发、编辑和转换方面表现显著改进。此外，针对用户反馈的问题，相关函数调用已得到修复，系统的可靠性也有所增强。

5月7日，腾讯元宝的文生图功能迎来升级，新增了混元和DeepSeek模型的图像生成能力。用户只需输入一句话指令，系统便能自动扩写为更完整的提示词，生成高质量、富有想象力的图像。这项功能已在全平台上线，支持多种风格的创作，如童年漫画风格、莫奈风格等。此外，用户可生成饮食宣传图、产品设计图等，图文一致性和画质进一步提升。

5月8日，Figma在Config2025上宣布推出多个新功能，其中Figma Sites是一款全新的全能工具，旨在让用户能设计和构建定制的响应式网站，而无需切换工具。此功能旨在简化网站设计流程，提供一站式解决方案，提升用户体验。

5月9日，腾讯混元宣布正式推出并开源全新的多模态定制化视频生成工具HunyuanCustom。该模型基于混元视频生成大模型（HunyuanVideo）打造，主体一致性效果超过现有的开源方案。HunyuanCustom融合了文本、图像、音频、视频等多模态输入生视频的能力，是一款具备高度控制力和生成质量的智能视频创作工具。

5月9日，腾讯元宝现已支持对话分组，用户跟元宝的每一条对话，都可以根据不同主题、类型、任务，做“文件夹”式分组归类，方便集中管理大批量对话，快速定位查找。在每个单独分组中，用户还可设定“独立指令”，定制元宝在该分组中的回答方式和风格。

Anthropic宣布推出Claude的新网络搜索功能API，显著提升Claude在信息获取方面的能力。开发者可以通过API使Claude访问最新的网络信息，进行多次渐进式搜索，整合不同来源的信息，从而提供更全面的答案。

Cursor已更新至0.50.x版本。此次更新主要包括简化定价和增强功能，如推出统一的基于请求的定价和Max模式，支持并行任务的后台代理。此外，改进了上下文管理，支持@folders功能，加快文件编辑速度，增强了聊天功能（支持导出和复制），并使用本地终端仿真替代模拟终端。同时，新增了上下文状态图标，可显示文件的包含情况。

Google AI Mode在Labs的推出受到了广泛欢迎，现已取消等待名单，所有美国用户可立即使用。该模式允许用户提出更复杂和具体的问题，帮助他们找到新的网站和商业信息。接下来，该模式将增加视觉产品和地点卡片功能，用户可快速获取评分、评论、营业时间等信息，及实时产品价格和库存。例如，寻找复古家具商店时，AI Mode将提供相关商家的实时数据，便于用户作出决策并轻松获取联系方式或导航。

issue120 2025.5.12-5.18

谷歌宣布开发者现在可以通过Gemini API接入其最新图像生成模型Imagen 3。最初该模型仅面向付费用户，未来也将向免费用户开放。Imagen 3擅长生成丰富多样且无伪影的图像，包括超现实主义、印象派和动漫等风格，能够高效将创意转化为高质量图像。在各项基准测试中表现卓越。使用Gemini API调用Imagen 3的费用为每张图像0.03美元，用户可自定义图像的宽高比及生成数量等参数。

QwenChat推出网页开发功能，用户只需一句自然语言指令即可自动生成美观且结构清晰的网站页面，无需编写代码或设计。输入示例如“写一个水果电商网站”，QwenChat会即时生成完整的网页代码并支持直接预览。此外，该功能还可用于创建播放器、单词记忆卡等多种应用。用户可以通过QwenChat（chat.qwen.ai）体验这一便捷的网页开发服务。

VS Code正式发布新版本1.100，带来多项增强功能，显著提升开发者的编程体验。此次更新的亮点包括：增强的智能Chat功能，支持自定义指令和可重用提示；改善的多窗口和浮动窗口设置，提升编辑效率；MCP服务器新增图像及可流式传播的HTTP支持；以及Github Copilot的集成增强。

字节跳动开源了基于节点的流程构建引擎FlowGram，该引擎已在Coze和飞书工作流等产品中应用。FlowGram结合节点式设计与AI增强功能，提供直观的可视化工作流构建体验，支持固定和自由布局，允许用户轻松拖拽和连接节点。新的工具利用AI自动化任务，适合需要明确输入输出的工作流场景。其核心功能包括AI能力接入、丰富的交互体验（如节点配置、状态高亮）及强大的扩展性，旨在简化工作流开发，提升自动化能力。

5月12日，Perplexity.ai发布了一款AI浏览器Comet，并正式开启内测。用户可以通过访问https://www.perplexity.ai/comet申请内测资格。Comet旨在结合AI技术提升浏览体验。

5月12日，Lovart.ai正式发布，被称为首款设计AI Agent，表现出色并获得多位KOL分享体验。其官网简洁明了，定位为“Auto-Design —— The design agent who creates by your side”。用户通过自然语言与其交互，它能准确理解意图并生成高质量设计作品，如Logo、VI等。Lovart利用多种外部大模型（如GPT-Image-1）进行任务处理，在灵感不足时还会自动搜索相关设计作为参考。

5月13日，OpenAI宣布为ChatGPT添加了SharePoint和Microsoft OneDrive作为新的数据连接器。这些新功能将使用户能够更方便地访问和利用存储在这些平台上的文件和数据，从而进行更深入的研究。目前对Plus、Pro和Team订阅用户开放，但不包括欧洲经济区（EEA）、瑞士和英国的用户。另外，Deep Research还支持将研究报告下载为精美的PDF文档。

5月13日，通义千问的Qwen团队宣布推出“Deep Research”（深入研究），旨在帮助用户高效处理复杂的科研任务。用户只需输入一句提示，系统将自动分析并制定多步骤研究计划，从互联网上搜索、分析信息，最终生成详尽的研究报告，包括完整的引用来源。Deep Research的推出标志着Qwen在AI助理领域的新进展，适用于多种情境，如市场分析、教育咨询等。该功能已在QwenChat上免费开放，用户可以立刻体验。

5月14日，阿里巴巴开源通义万相Wan2.1-VACE（Video All-in-one Creation and Editing model）模型，Wan2.1-VACE是一款融合多种视频生成与编辑能力的AI模型，标志着该技术的重大突破。Wan2.1-VACE具备六大核心功能：通过文本生成视频、图像参考生成、视频重绘、局部编辑、背景延展和时长延展，支持用户灵活组合多项功能。该模型还支持多模态输入，包括文本、图像和视频等，使用户可以精确控制视频的布局、运动和风格，为创新的视频制作提供了无限可能。

5月15日，GPT-4.1 系列模型官宣上线ChatGPT，Plus、Pro 和 Team 用户可直接使用 GPT-4.1 模型，免费用户可使用 GPT-4.1-mini，以替代以前的 GPT-4o-mini。

5月16日，Manus宣布推出图像生成功能。据介绍，Manus不仅是生成图像，它了解用户的意图，规划解决方案，并知道如何有效地使用图像生成和其他工具来完成用户的任务。例如，上传家居照片，它能识别风格并从宜家自动搭配合适家具；上传产品图，它能基于市场趋势设计品牌、制定上市方案、生成商品页和销售网站。

5月16日消息，MiniMax发布新一代语音大模型Speech-02。该模型在两项国际权威语音评测榜单Artificial Analysis和Hugging Face TTS Arena 上，超越OpenAI、ElevenLabs的TTS模型。

5月16日，腾讯发布了全新的实时图片生成模型Hunyuan Image2.0，该模型以超高压缩倍率的图像编解码器和全新的扩散架构为基础，具备超快的推理速度和高质量的图像生成能力。用户在输入提示时，Hunyuan Image2.0可在毫秒内生成3-4张图片，甚至在Prompt输入完成的瞬间即可输出最终图像，创造了实时生图的全新体验。此外，Hunyuan Image2.0通过RL后训练和美学后训练，确保生成图像具有真实感，消除AI常见的虚假感，尤其在怀旧风格和胶片效果上表现出色。

Google发布了全新的AI编码Agent，AlphaEvolve，该Agent具备算法优化和科学发现的能力。AlphaEvolve能够自动编写、测试和改进代码，支持整段程序级别的优化。其独特之处在于可以根据问题的复杂性灵活切换策略，采用搜索或构造方法高效求解。

5月17日，OpenAI推出了基于云的智能软件工程Agent——Codex的预览版。Codex能够并行处理多项任务，包括编程、解答代码库问题、修复错误以及提交拉取请求等。该智能体由codex-1模型支持，为针对软件工程优化的版本。目前，Codex面向ChatGPT Pro、Team和Enterprise用户上线，Plus用户也将很快获得访问权限。此外，OpenAI还发布了codex-1的精简版，基于o4-mini，为轻量级开源编码Agent“Codex CLI”设计，API定价为1.5美元/100万 tokens输入与6美元/100万 tokens输出，并提供即时缓存折扣。

5月17日，纳米AI上线了一个全新的功能——“超级搜索”。该功能不仅打破了传统的数据界限，能够搜索小红书、大众点评、地图、B站、腾讯视频、PDF等多种格式，还融合了多模态能力。超级搜索旨在提供结果而非单纯的答案，通过整合MCP工具，能够深入理解用户意图。

5月17日，开源大语言模型服务工具Ollama推出了自主研发的多模态AI引擎，脱离了对llama.cpp框架的直接依赖。近期，llama.cpp项目通过libmtmd库实现了全面的视觉支持，引发社区讨论。Ollama团队在Hacker News上澄清称，该引擎是使用Golang独立开发，并未采纳llama.cpp的C++实现。Ollama表示，随着Meta的Llama 4、Google的Gemma 3等模型复杂性不断上升，现有架构已难以满足需求。

5月17日，Flowith在上海举行了闭门活动，正式推出其全新AI Agent产品——Neo，强调其在知识创造和AI应用领域的突破。Neo具备“无限上下文”和“无限能动性”，能够处理超长的上下文信息，动态生成和调用工具，甚至自主规划复杂任务。它的强大知识整合能力让它能够处理多来源的信息，并生成高质量的文本、图像和代码。此外，Neo还有自我反思与迭代能力，能够分析并调整策略以应对失败，使其在长期任务中表现得更加智能可靠。Neo支持长期任务的执行，例如可以设置长达一年的任务计划，并且能够定期更新任务进度和结果。这种能力使得Neo可以用于长期的项目管理和信息跟踪，例如为用户提供每日更新的行业动态、社交媒体内容创作等。

issue121 2025.5.19-5.25

本周有微软Build、Google I/O、Code with Claude等多个活动，各家都带来了重磅的发布。

5月19日，字节跳动Seed团队公开了以模型为中心的代码预训练数据构建流水线（Model-centric Data Pipeline），验证了利用大型语言模型（LLM）对代码数据进行评分和过滤的有效性。这一方法不仅提升了语言模型的潜力，减少了人工干预，还增强了模型在代码相关任务上的表现。经过实验，基于该流水线训练的8B代码模型系列Seed-Coder在代码生成和补全等任务中取得了良好效果。为推动相关领域的发展，Seed团队将Seed-Coder系列开源，并分享了其预训练数据构建的详细方案。

5月19日，微软 VS Code团队宣布将GitHub Copilot Chat扩展代码以MIT协议开源，并重构AI功能至编辑器核心，正式向”开源AI编辑器”转型。大语言模型迭代降低闭源依赖，统一AI交互UI标准，响应数据隐私需求，依托开源社区强化安全防御。未来几周内完成代码开源与组件重构，同步开源提示测试基础设施，确保社区贡献高效验证，持续聚焦性能、扩展性与用户体验。此举被视为AI编码工具领域的”开源宣言”，或引发行业对编辑器AI化、透明化的新一轮竞争。

GitHub Copilot新版将帮助开发者执行日常任务，如重构代码、提升测试覆盖率、修复漏洞甚至实现新功能。现在，GitHub Copilot可在夜间自动发现内存泄漏问题，生成诊断报告，并将修复任务分派给Copilot。最终，Copilot会完成代码修复、提交PR，让开发者睡个踏实觉。微软CEO纳德拉现场演示，当想使用Copilot为社区页面添加筛选器，它不仅能够准确理解指令，还会主动提出优化建议，比如增加小、中、大的筛选项，或按照类别进行分组分类。

微软在Build 2025开发者大会上推出多项关键更新，其中备受关注的是原生支持模型上下文协议（MCP）。MCP可视为”AI应用的USB-C端口”，统一AI模型获取信息和使用工具的”数字连接”，让各种不同的AI应用或智能Agent更方便地接入Windows生态，从而调用系统资源、访问文件、高效通信。为加快生态建设，微软已与OpenAI、Anthropic、Perplexity、Figma等开发者展开合作，将MCP能力逐步集成进更多应用程序中。

微软还推出了名为NLWeb的开源项目，旨在简化网站自然语言交互界面开发，轻松将任意网站转化为具备AI功能的智能应用平台。微软CEO Satya Nadella表示：”NLWeb允许用户使用自然语言与任何网站进行交互。我们可以把它想象成智能体化web世界的HTML。”由于NLWeb原生支持MCP，因此人类和智能体可以使用相同的自然语言API。相比传统搜索，NLWeb更便宜且使用简便，仅需几行代码、任选AI模型，并输入特定数据，即可为用户提供对话式交互界面。

5月19日，腾讯发布AI浏览器，这是一款基于AI技术的全新浏览器产品，旨在提供更智能、更个性化的网络浏览体验。该浏览器集成了腾讯混元大模型的能力，能够理解用户意图，提供智能搜索、内容摘要、智能翻译等功能，大幅提升用户的信息获取效率。同时，AI浏览器还支持跨平台使用，无论是PC端还是移动端都能获得一致的体验。

腾讯混元游戏视觉生成平台（简称”混元游戏”）正式发布，这是依托混元大模型打造的首个工业级AIGC游戏内容生产引擎，大幅优化了游戏资产生成与游戏制作流程。面向游戏工业级内容生产，混元游戏可以为游戏美术设计师提供一系列AI工具，帮助游戏设计厂商快速生成符合创作意图的高质量游戏素材/概念草案，让游戏美术设计效率提升数十倍。基于跨领域采集的百万级游戏与动漫视频多模态精品数据集，混元游戏创新性地构建了多个核心算法模型矩阵，每个模型均针对游戏研发中的关键痛点进行专项优化。

5月20日，Google在I/O 2025大会上发布Gemini 2.5系列模型重大升级，引入高阶推理模式Deep Think，推理深度与上下文理解显著增强。支持原生音频交互与多语言语音生成，实现自然语音对话。Gemini 2.5 Pro的Deep Think在2025年美国数学奥林匹克（USAMO）以及LiveCodeBench（编程基准）排名领先，并在MMMU（测试多模态推理）中获得了84.0%的分数。同样得到升级的还有注重效率的Gemini 2.5 Flash，在推理、多模态、代码和长上下文等关键基准上都有了改进，同时在效率上更高，评估中使用的tokens减少了20%至30%。Google还展示了Project Mariner，具备电脑操作能力，AI可直接控制桌面执行任务。

Google发布最新的视频生成模型Veo 3，是一款支持音频的视频生成模型，能在城市街景中模拟交通、鸟鸣，甚至角色对话，显著提升沉浸感。该模型不仅在文本和图像提示的基础上生成视频，还能精确实现物理环境与口型同步，极大提升了视频创作的真实感。

Google发布AI电影创作平台Flow，Flow平台由Veo 3、Imagen 4、Lyria 2与Gemini驱动，支持用自然语言创作电影级画面。超越传统视频生成工具，Flow可理解故事逻辑、镜头语言与视觉风格，真正服务于叙事创作，具备可控镜头、剪辑、角色统一等电影工业级能力，助力专业创作者高效构建作品。

Google AI Ultra全功能旗舰订阅计划上线，月费$250美元，为创作者、开发者、研究者量身打造。提供对Gemini 2.5 Pro、Veo 3等顶级模型的完整与早期访问权限，集成视频生成、写作辅助、内容创作、云存储、YouTube Premium等全线AI与服务资源。

Google Search正式切换至AI Mode，迈入智能搜索时代。搭载Gemini 2.5，赋予搜索更强的推理、互动、个性化分析与任务处理能力。不再只是信息检索，而是实时理解+主动响应+智能执行的新型搜索助手。AI Mode已在美国全面上线，无需Labs即可使用。后续功能如Deep Search、Search Live、智能代理将陆续开放，Labs用户优先体验。可在Google App或搜索页面直接切换”AI Mode”标签。

Google推出编程智能体Jules，这是一位可在云端运行的虚拟开发搭档，远超传统代码助手。它不仅给建议，更可自主完成项目任务、管理流程、执行开发计划，标志着”Agentic Development（代理式开发）”从实验迈向落地实用。Google还推出全新AI UI设计工具Stitch，一句话生成完整UI+前端代码，大幅加速产品开发流程。基于Gemini与Imagen模型，支持内容生成+视觉设计个性化，支持多语言本地化、一键导出干净代码，实现从草图到部署的全链路自动化。

Google发布全新的AI UI设计工具——Stitch，能够通过一句话快速生成完整的用户界面和前端代码，从而显著加速产品开发流程。Stitch基于Gemini和Imagen模型，不仅支持内容生成，还提供视觉设计个性化选项。此外，该工具具备多语言本地化功能，并且允许用户一键导出干净的代码，实现从草图到部署的全链路自动化，推动UI设计的智能化进程。

Google发布Gemini in Chrome，将AI直接内置于浏览器中。无需切换标签页，点击Gemini图标即可获取网页摘要、解释复杂概念、对网页内容提问等。未来还将支持同时分析多个标签，并能根据用户指令自动浏览和操作网站。目前仅对Google AI Pro和Ultra的英文订阅用户开放。

Google发布轻量级多模态AI模型Gemma 3n，响应速度提升约1.5倍，2GB内存手机也能运行。支持文本、图像、音频，视频模态即将上线。为移动设备量身打造，是下一代Gemini Nano系列的技术基础。Google还展示Android XR智能眼镜原型机，支持实时语音交互+长时记忆+上下文感知辅助，利用摄像头+麦克风+地理信息，理解用户所处场景并提供建议。无需唤醒词，随时对话，具备导航、翻译、拍照、查资料等多种实时辅助能力，深度融合Gemini，实现真正意义上的视觉AI助手，让智能眼镜成为个人信息中枢。

Google推出实验产品Sparkify，文本一键生成动画短视频。基于Gemini和Veo模型，将问题或创意转化为可视化短动画，支持多模态输入，结合文本、图像、视频生成个性化内容。

Google推出虚拟试衣工具，上传自拍照，几秒内生成穿上商品的真实试衣图。基于全新图像生成模型，专为时尚领域打造，利用全球500亿商品数据，支持比价、搜索、推荐、自动支付等完整购物流程，从试穿、选品到下单一气呵成，AI成为用户的时尚搭配顾问与购物助手。

5月20日，火山引擎正式推出豆包·语音播客模型，作为豆包大模型语音语言技术的重大场景化升级成果，该模型基于流式模型构建，实现了从文本创作到双人对话式播客的秒级转化，为用户带来”低成本、高时效、强互动”的全新创作体验。无需复杂剪辑，热点内容就能瞬间转化为生动播客，让创意落地快人一步。该模型针对传统AI播客创作存在的内容重复废话连篇、不够口语化、听感机械且缺乏互动等问题进行了重点攻克，带来了双人对话自然流畅、播客创作高效快捷、时事热点跟随三大核心优势。

5月20日，海螺MiniMax悄悄开启智能体测试，无需广告、邀请码。该智能体支持视频生成、语音配音、游戏开发等多种功能。用户可通过自然语言输入，系统会自动规划任务、生成代码并执行。还支持网页游戏开发和地图信息生成，体验地址为https://agent.minimax.io/ ，需使用Google邮箱注册。

5月21日，飞书发布最新AI功能飞书知识问答，它是基于企业知识的企业专属AI问答工具，提供B端场景的AI价值。当用户在工作中遇到问题时，可随时向它提问，它能访问所有消息、文档、知识库、文件等信息，直接给出精准答案。飞书知识问答是一个可以将企业和个人信息聚合到一起，并理解这些信息的AI工具，能基于所有在用户飞书消息、文档、知识库、妙记、服务台中的文件和文字信息进行深度理解，然后为用户提供相当准确的相关反馈。

5月23日，Anthropic 发布 Claude 4 系列模型，包括 Opus 4 和 Sonnet 4，在编程能力上实现重大突破，例如在 SWE-bench 测试中表现出色，能处理复杂代码库和长时间编程任务。新模型引入“工具辅助的延伸思考”、增强的记忆能力和编程助手 Claude Code，以及 API 和 MCP 接入更新。Claude 4 具备替代人类程序员的条件，目标是普及 Agents，最终实现 AGI。Opus 4 在代码生成与理解、纠错、架构建议和记忆能力方面显著提升。Claude Code 正式发布并深度集成，实现 AI 独立完成复杂任务。

天工超级智能体——Skywork Super Agents正式发布，无需邀请码，注册即可使用。Skywork在GAIA评测中超越genspark、manus和openai deep research，登顶榜首。支持多种模态任务，能一站式生成Word文档、PPT演示文稿、Excel表格图表、Web网页等，所有产出均自带精准溯源，能标记到文档内容来源材料的原始位置。Skywork内置docs、sheets、slides，可直接在虚拟环境里生成Excel、PPT和Word文档并操作，支持”交互确认+在线编辑+多版本自动存储+多格式导出”功能。在表格生成模式下，还能让AI生成数据表格和图表。

Mistral与开源初创公司All Hands AI合作，推出了一款名为Devstral的新型开源语言模型。Devstral拥有2400万参数，虽然相较于许多竞争对手的模型参数较少，但其专为编程而设计，表现优异，适用于代码浏览、多文件编辑和自动化测试等任务。此模型通过Apache 2.0许可证开放使用，旨在为开发者提供更加高效的工具，加速编程工作。

Suno上线Remix混音功能，开启音乐二创新纪元。三种模式支持：Cover（翻唱）、Extend（续写）、Reuse Prompt（提示词复用），每首Remix保留溯源链，创作关系透明可查。

xAI推出实时搜索API：Live Search，实时搜索X平台、互联网和新闻等多数据源，当前为免费Beta阶段。

NVIDIA在COMPUTEX2025上推出Project R2X，一款基于RTX平台的AI数字人助手，能够在本地运行并具有人类般的外观与语音交互能力。该项目结合了RTX Neural Faces、Audio2Face和ACE 2.4技术，实现了逼真的视觉和语音互动。R2X支持文件扫描、设置优化、游戏模组管理等多项功能，并可通过语音与用户互动。同时，它兼容OpenAI的GPT-4o和xAI的Grok模型，支持Python自定义开发。用户还可以根据个人喜好定制助手的外观、声音和性格。

issue122 2025.5.26-6.1

OpenAI宣布扩展其Responses API，以支持远程连接MCP服务器、图像生成、Code Interpreter及优化文件搜索等功能，旨在帮助开发者构建更智能的应用。Responses API是OpenAI提供的状态化API，允许开发者以更灵活的方式与模型互动，并支持多种新工具。此次扩展中，开发者可以简便地通过几行代码连接Cloudflare、HubSpot、Stripe等MCP服务器，全面支持GPT-4o和GPT-4.1系列推理模型。这一改进将显著提升用户访问数据源的便捷性。

Black Forest Labs推出FLUX.1 Kontext，一款新一代多模态图像生成与编辑模型，具有与GPT-4o相当的图像处理能力。这款模型结合了Photoshop和GPT的操作体验，实现了自然的图文混合控制，提供高效灵活的图像操作方式。FLUX.1 Kontext的发布标志着图像生成技术的又一重大进展，旨在为用户提供更加直观和强大的创作工具。

字节跳动发布图像创作Agent“小云雀AI”，旨在提供类似Lovart的智能创作体验。用户只需一句话即可生成图片和热门视频，实现灵感的快速转化。小云雀AI具备主动思考、智能执行和快速交付的能力，为创作者提供了一种便捷而高效的工具，将创意轻松变为现实。

腾讯发布了混元开源项目HunyuanVideo-Avatar，该项目允许用户仅通过一张人物图像和一段音频，便可生成自然生动的虚拟人动画视频。HunyuanVideo-Avatar还支持多个角色在同一场景中各自响应不同音频，从而实现“群像对话”效果。这项技术不仅提升了虚拟人创作的便捷性与灵活性，更为内容制作提供了全新的可能性，推动了虚拟技术的应用进程。

Claude推出了全新语音助手，增强了智能助理的实用性。该助手支持访问用户的日历、Gmail、Google Drive等个人信息源，方便用户管理日常事务。此外，它还具备联网搜索功能，能够根据搜索结果提供智能回答。此项功能的推出不仅提高了个人信息管理的效率，也扩展了用户与智能助手之间的互动方式，为智能生活增添了更多可能。

5月28日，Anthropic宣布，其AI助手Claude的网页搜索功能现已向免费计划用户全面开放。此前，该功能仅限美国付费用户使用，此次更新标志着Claude在全球范围内的功能普惠。

5月28日，DeepSeek官方宣布R1模型完成了小版本试升级，用户可通过官方网站、APP和小程序进行体验。社区用户的测试表明，R1在编程能力上显著增强，其在生成动态天气卡片时表现出色，设计细节与交互动画明显改善。这次更新基于DeepSeek-V3-0324进行后训练，参数达到685B，标志着DeepSeek在编程能力上可以与新发布的Claude 4一较高下。

5月30日，DeepSeek团队推出了全新模型DeepSeek-R1-0528-Qwen3-8B，该模型通过蒸馏DeepSeek-R1-0528的思维链后训练Qwen3 8B Base，表现出色。在AIME 2024上，该模型已达开源模型中的最先进水平（SOTA），相较于Qwen3 8B提升了10%。此外，它的性能表现已匹配更大规模的Qwen3-235B-thinking，显示出DeepSeek-R1-0528思维链在推理模型研究及小规模模型开发中的重要性。

5月29日，腾讯元宝宣布与微信读书和起点读书实现了打通，用户在使用腾讯元宝时可通过下划线链接直接跳转到这两个阅读平台。在进行书籍、作者或关键词搜索时，结果页面将新增相关入口，使用户无需跳转至其他应用或者网页，就能在元宝界面内直接阅读书籍。这一升级旨在提升用户的阅读体验和便利性，进一步整合腾讯的多项服务。

5月28日，Opera公司发布了其首款“AI代理”浏览器—Opera Neon，该浏览器深度整合了人工智能技术，旨在重新定义浏览器在网络中的角色。Opera Neon具备上下文感知能力，可以理解用户的意图，自动化执行多项任务，包括代码编写和网站创建。此外，其AI引擎支持离线多任务处理，并为用户提供个性化的浏览体验。

昆仑万维开源了全球首个基于自回归强制扩散框架的无限时长电影生成模型SkyReels-V2。该模型能够理论上无限制地生成视频，包含三种子模型：SkyReels-V2-I2V（图片生成视频），SkyReels-V2-T2V（文本生成视频）和SkyReels-V2-DF（扩散引导模型）。特别是SkyReels-V2-DF突破了传统视频生成模型时长的限制，提供了1.3B和14B两种参数选项。

5月29日，快手可灵AI宣布推出全新的2.1系列模型，旨在提高视频生成的性价比与效率。新模型支持720p和1080p画质，其中5秒视频的生成成本分别为20灵感值和35灵感值，极具吸引力。升级后的2.1大师版在语义响应和运动表现方面有显著提升，能够迅速生成高品质内容，满足更高端的创作需求。

小米开源了其全新多模态模型Xiaomi MiMo-VL-7B，展示了在图像、视频和语言等任务上的卓越表现，该模型在多模态推理任务中以仅7B参数规模大幅超越标杆模型Qwen2.5-VL-7B。此外，MiMo-VL-7B在多个数学竞赛中表现出色，领先于参数达到72B的阿里Qwen-2.5-VL和QVQ-72B-Preview，甚至在小米内部大模型竞技场中超越了闭源模型GPT-4o，成为开源模型中的领军者。

Google悄然发布了一款应用程序，让用户可以在手机上运行来自 Hugging Face 的一系列公开 AI 模型。这款名为Google AI Edge Gallery 的应用目前适用于 Android 系统，并将很快登陆 iOS 系统。

issue123 2025.6.2-6.8

6月2日，微软面向Windows 11 24H2用户推出更新，用户现在可以在运行Windows 11 Build 26100.4202+的设备上，通过自定义键盘上的Copilot键或Win+C组合键，可选择将其默认设置为唤起ChatGPT。不过，目前该自定义选项相对有限，仅支持Copilot、ChatGPT和Microsoft 365 Copilot，无法绑定到其他应用程序。

Cursor正式发布了1.0版本，带来了诸多功能更新。其中，Bugbot功能能够自动检查并一键修复GitHub中的代码缺陷。此外，Beta版的记忆（Memories）功能使Cursor能够从用户的交互中学习代码库的规律，提升团队协作效率。MCP插件实现了一键安装，方便用户扩展功能。后台智能体（Background Agent）现已上线，支持Slack集成并新增Jupyter Notebooks支持，旨在服务研究人员和数据科学家。同时，Cursor还增强了并行编辑、聊天互动及管理界面。

6月4日，OpenAI宣布其ChatGPT应用的最新更新：记录模式。更新后，Mac版ChatGPT应用中新增了“录音”按钮，用户点击后可录制音频并实时转录。转录内容将被整理为结构化笔记，包括摘要、关键点等。这一功能的创新之处在于其不需参与会议，只需通过设备监听生成笔记。此外，OpenAI还推出了对多种云存储服务的集成功能，支持Google Drive、Dropbox等平台。

6月5日，Qwen正式推出Qwen3-Embedding与Qwen3-Reranker系列，多语言文本嵌入模型和相关性重排模型。该系列提供0.6B、4B和8B等多个版本，支持119种语言，并在MMTEB、MTEB和MTEB-Code上 achieved SOTA级别。同时，这些模型已在Hugging Face、GitHub和ModelScope上开源，并可通过阿里云百炼平台的API使用。此系列可应用于文档检索、RAG、分类、情感分析、代码搜索等多种场景，用于替代上一代嵌入和重排模型。

6月5日，Google发布Gemini-2.5-Pro（06-05）模型，并在AI Studio中上线，再次在各项竞技中夺得第一名。该模型在文本、视觉和Web开发领域均位列首位，并在困难、编码、数学、创意、多轮对话、指令遵循和长查询等多个类别中取得优异成绩。

ElevenLabs正式发布最新文本转语音模型Eleven v3（Alpha版），被誉为迄今最具表现力的AI语音模型。该模型在语音合成的自然度和情感表达能力上实现了革命性提升，支持70多种语言，并处理多角色对话，模拟真实交谈中的语气变化和情感起伏。此外，新增的音频标签功能，如[sad]、[angry]或[laughs]，使用户可精确控制语音的情感表达，为内容创作者提供了极大的灵活性，特别适用于电影配音和音频书制作。

即梦的“图片3.0”再度重磅更新，带来了智能参考功能，允许用户一键垫图。此功能不仅能高效处理设计师的参考图，还具备强大的图像变换能力，比如将北京的字体设计轻松转换为上海风格。用户只需上传图像并简单指示，如“变成上海”，AI便会自动调整地标和设计元素，展现出惊人的细节。这次更新为普通用户和设计师提供了前所未有的便利。

6月6日，字节跳动的Seed团队发布了图像编辑模型SeedEdit 3.0，目前已在即梦网页端进行测试，并将于豆包App上线。新版本基于Seedream 3.0，通过多样化数据融合和特定奖惩机制，显著提升图像主体、背景及细节的保持能力，尤其在人像编辑和背景更改方面表现突出。SeedEdit 3.0可以处理生成4K图像，精确识别并去除不必要的元素，例如场景内的行人及其影子。此外，模型在光影变化和细节处理上也展现出高级的渲染能力，进一步提高了图片编辑的实用性。

issue124 2025.6.9-6.15

6月11日，OpenAI正式发布了其最新模型o3-pro，现已在ChatGPT Pro和Team账户中开放，企业用户预计将在6月17日获得访问权限。作为o3系列的高阶版本，o3-pro专为复杂的科学、数学和编程问题优化，具备超高可靠性和显著的学术性能，特别在基准测试中比前代模型o1-pro和标准版o3表现更佳，误差率下降37%。此外，o3-pro支持多种专业工具的深度整合，包括实时网页检索和代码执行。另一方面，该模型的响应时间较长，约为o1-pro的2.8倍，且API调用成本为o3的2.3倍。

6月11日，法国人工智能公司Mistral推出了其首个推理模型系列Magistral，旨在与OpenAI和DeepSeek等竞争对手展开竞争。该模型专注于欧洲语言逻辑推理，尤其擅长数学和编码方面的问题。Magistral包括两个版本，通过逐步推理的方法提高在数学和物理等主题上的一致性和可靠性。Mistral的CEO亚瑟·门施表示，Magistral将助力欧洲在人工智能领域追赶全球领先者。

6月11日，在火山引擎Force原动力大会上，豆包大模型正式升级至1.6版本，提升了其推理、数学、指令遵循和Agent等多项能力。豆包1.6-thinking模型在多个权威测评集上达到全球第一梯队水平：GPQA Diamond测试成绩达到81.5分；数学测评AIME25成绩达到86.3分，相比豆包1.5深度思考模型大幅提升12.3分。豆包大模型1.6系列均支持深度思考、多模态理解、256k长上下文、图形界面操作等能力，能够更好地支持复杂Agent的构建，促进AI生产力的提升。目前，豆包大模型1.6系列已在火山引擎上线，企业和开发者可调用API体验。

6月11日，在火山引擎Force原动力大会上，Seedance 1.0 pro视频生成模型正式发布。该模型支持文字和图片输入，能够生成多镜头无缝切换的1080p高质量视频。Seedance 1.0 pro专注于满足影视创作者的需求，特别是在指令遵循、运动稳定性和画面质量等方面。同时，模型在动态图像生成及推理速度上表现出色，现已在火山引擎、豆包App和即梦AI等平台对外开放。此外，会议还发布了新的豆包·语音播客模型，文本秒转双人对话播客，从测试效果看，附和、插话都表现得非常自然。

Figma推出了官方的MCP服务，旨在简化设计与代码之间的交互。该服务采用SSE连接，免除用户繁琐的配置。与非官方的MCP相比，官方版本能够获取更多详细的设计信息和素材。该MCP可以传输组件、变量、样式等元数据，减少大型语言模型（LLM）的搜索与推理负担，提高代码生成的准确性与效率。此外，它还提供高层次的设计截图，帮助LLM理解网页结构与响应式布局。

Windsurf推出了一款嵌入AI的浏览器，旨在提升开发者的工作效率。该浏览器能够自动感知用户在浏览器中的操作和上下文，简化信息流通，弥补在查阅文档和调试过程中的信息断层。Windsurf强调“流意识”，使AI与用户共享操作时间线，彼此了解每一步操作。浏览器的特色功能包括全流程协同，AI可以访问所有打开的标签页，自动获取页面内容、日志和DOM信息，实现与编辑器及终端的无缝对接。此外，作为Chromium分支，Windsurf保持了常规浏览器的所有功能，开发者能够像使用普通浏览器一样进行操作。

ChatGPT Projects新增多项功能以增强用户体验。首先，平台引入了语音模式与文件上传，支持更丰富的交互方式。此外，新上线的记忆功能允许用户在项目中引用历史对话内容，提升了对话的一致性和连贯性。用户还可以轻松进行模型切换、项目转化，并生成独立分享链接，以便于协作和共享。另外，GPTs也正式支持了模型选择功能，支持选择所有在线的模型。

Imagen 4模型登陆Gemini网页版，用户可在Gemini聊天中通过最新的生图模型实时生成图像。

Manus宣布接入Veo3视频生成模型，并推出了一项全免费的AI聊天模式，用户可以无限制地使用该服务，只需不切换到Agent模型即可。这项功能使得用户在进行对话时可以自由获取答案，并在完成初步聊天后，选择切换到Agent模式继续执行任务，从而有效节省积分。

Genspark发布了一款全新的AI浏览器，官方声称该产品具备极速浏览、广告拦截、全能智能体以及自动驾驶模式等特点。此外，浏览器还提供了MCP商店，为用户带来更多智能功能和应用选择。

周鸿祎在纳米AI超级智能体的发布会上透露了纳米AI Note，这款AI智能录音硬件能够与个人知识库联接，适用于工作会议、商务拜访等多个高频场景。此外，纳米AI还与Rokid推出联名款AI眼镜，扩展了纳米AI在智能穿戴领域的应用。

美团发布了其首款AI编程工具”NoCode”，这是一款对话式AI编码智能体。用户可以通过自然语言与该工具进行多轮交互，实现自动编码和部署，适用于网站、小程序等应用的开发，特别为零基础用户设计。NoCode集成了美团自研的LongCat模型，旨在简化编码流程，使用户能够轻松处理数据分析、原型设计等任务。

腾讯正式发布并全面开源了混元3D 2.1模型。该模型支持PBR物理渲染，能高精度还原真实材质，单张图生成3D模型仅需30秒。得益于其高效架构，用户在单张消费级GPU上即可完成部署和推理，极大降低了使用门槛，为游戏、动漫、电商等行业带来革命性的效率提升。

issue125 2025.6.16-6.22

6月17日，通义大模型团队宣布Qwen3全系模型已全面适配MLX框架，并推出32款量化模型，以满足AI开发者的需求。MLX是一个专为苹果芯片深度优化的开源机器学习框架，能高效训练和部署AI大模型。新发布的Qwen3模型提供4bit、6bit、8bit和BF16四种不同精度的量化版本，能在从Mac Pro、Mac Studio到Mac mini和MacBook等多种设备中轻松部署，甚至支持内存更小的iPhone。此举实现了全场景覆盖，兼顾性能和低功耗部署。

6月17日，月之暗面推出全新开源代码大模型Kimi-Dev-72B，该模型在软件工程任务的SWE-bench Verified编程基准测试中取得了全球最高的开源模型成绩，以72B参数量超越了参数量高达671B的DeepSeek-R1，得分60.4%，创下SOTA记录。Kimi-Dev-72B通过大规模强化学习优化，能自主修复Docker中的真实存储库，并确保解决方案的正确性与稳健性。该模型现已在Hugging Face和GitHub上开放下载，附带模型权重和源代码，技术报告也将推出。

6月17日，MiniMax发布了全球首个开源大规模混合架构的推理模型MiniMax-M1，参数规模为4560亿，其性能超越DeepSeek-R1。M1支持高达100万上下文输入和8万token推理输出，在复杂任务上表现卓越。模型训练使用了512块H800，成本约为385万元，远低于预期。MiniMax-M1在APP和Web上无限量免费使用，并推出了多档API定价，旨在为开发者提供更具性价比的选择。技术报告也已公开，进一步支持社区应用。

6月18日，MiniMax发布了新一代视频生成模型海螺02。海螺02能够实现复杂运动和逼真物理效果，适用于高难度杂技表演等多种场景。该模型新增加了1080p原生视频创作功能，支持在Web、APP及开放平台API中使用。通过噪声感知算力重分配架构（NCR），海螺02的训练和推理效率提升了2.5倍，迅速在视频生成市场占据了第二位。

6月18日，Google发布了Gemini 2.5系列的更新，包括Flash和Pro模型的正式上线，以及全新的Flash-Lite预览版。这一更新为用户提供了更广泛的选择，覆盖从高性价比到顶级性能的需求。Flash-Lite是最具成本效益的版本，适合高频任务，价格为输入$0.10/百万token，输出$0.40/百万token。Flash模型则是日常任务的理想选择，而Pro模型专为复杂任务设计，价格为输入$1.25/百万token，输出$10.00/百万token。所有版本现已在Google AI Studio上可用。

6月18日，Google在其Android和iOS应用中推出了“实时搜索”功能，支持语音输入，目前在美国对参与AI Mode内测的用户开放。用户现在可以与搜索进行自然流畅的对话，并探索来自网络的链接，非常适合在出行或多任务处理中使用，例如打包时。用户只需打开谷歌应用，点击新的“实时”图标，口头询问，例如：“有什么技巧可以防止亚麻裙在行李箱中皱起？”系统会提供AI生成的语音回应，用户也可以轻松跟进提问，比如：“如果还是皱了该怎么办？”屏幕上还会显示易于访问的链接，方便用户更深入地了解相关内容。

6月18日，腾讯发布AI歌唱模型LeVo，支持3秒音频克隆声音特征，在歌词对齐能力上超越Suno4.5，实现高保真音乐生成。

6月19日，Midjourney宣布正式推出其首个视频模型V1，用户可将生成的图像通过“Animate”功能转化为动画。此次更新支持自动和手动动画设定，并提供高、低动态模式以适应不同视觉需求。此外，用户还能上传外部图片进行动画生成，每段视频初始为5秒，可延长至20秒。该服务当前为网页端专属，生成成本约为图像的8倍，远低于行业平均，为实时模拟和3D互动系统铺路。

6月19日，MiniMax发布了其全新通用智能体产品——MiniMax Agent。该AI Agent具备卓越的长程复杂任务处理能力，设计初衷是成为“靠谱的数字员工”。MiniMax Agent的核心功能包括强大的编程能力、领先的多模态输出能力和开放的MCP生态，这使得它能高效理解复杂需求并完成多维任务。此外，MiniMax Agent采用分层协作架构和长程记忆机制，能够在多项长时间任务中自我反思和调整策略，展现了超强的交付能力，正在积极赋能“超级个体”。

6月19日，通义APP翻译功能全面升级，成为“最强翻译综合体”，覆盖文字、同传、文档、图片四大核心场景，支持119种语言和方言，准确率与交互体验大幅提升。同传翻译支持10大语种，不限时免费使用；图片翻译可保留排版结构，文档翻译能自动生成总结与脑图。

6月20日，Google在安卓和iOS的谷歌应用程序中推出了带语音输入的实时搜索功能。美国的实验室注册用户可以体验这一新特性，通过口头提问与AI进行流畅的对话，极大便利了旅途中或多任务处理的用户。例如，用户可以询问“防止亚麻连衣裙在手提箱中起皱的技巧是什么？”并收到AI生成的音频回应。同时，屏幕上也会显示相关链接，方便用户深入探索网络内容。

6月20日，ChatGPT正在灰度测试深度整合谷歌的Gmail和日历功能。该更新使得ChatGPT能够分析用户收到的邮件内容并自动生成回复，甚至整理出大纲和代办事项清单。目前，该功能已接入Gmail，但用户仅在深度研究中可以调用。未来，用户能通过自然语言要求AI总结邮件内容和创建日历事件，实现信息的高效管理。据悉，此功能可能将在2-3个月内正式上线，旨在将ChatGPT打造成更具上下文理解和协作能力的智能助手。

6月20日，MiniMax发布了Hailuo Video Agent，这是一个分阶段的视频生成智能体。第一阶段允许用户通过上传图片或输入文字，轻松生成高质量视频，覆盖多种创意模板，如广告、动态写真等。上传图片后，Hailuo会自动分析并生成视频内容。未来的第二阶段将实现用户在视频制作中的自由编辑，最终阶段则是完全自动化生成视频。初步体验显示，Hailuo Video Agent在保持图像一致性及生成多样性方面表现出色，极大降低了创作门槛，适合社交媒体内容创作者和电商等多种场景。

6月21日，MiniMax发布了一款语音设计（Voice Design）工具。该工具基于最新语音设计模型，由用户在“Prompt”文本框中输入任意提示词，便可生成可定制的多种语言声音。用户还能在“Text to Preview”框中输入最多300个字符的文本，生成多达3种不同音色和风格的语音。语音注册页面允许填写名称、选择性别与语言（中文或英文），生成的语音可复制分享。此外，用户也可以进行进一步编辑，支持输入最多5000个字符。MiniMax展示了多种特定角色的成功语音生成样例。

6月21日，华为云发布盘古大模型5.5，全面升级自然语言处理、计算机视觉等五大基础模型，显著提升知识推理和行业解决方案能力。

issue126 2025.6.23-6.29

6月23日，月之暗面的首个智能体Kimi-Researcher启动小范围测试。该智能体基于端到端自主强化学习技术，专为深度研究任务设计。Kimi-Researcher能自主规划执行流程，首先通过主动反问澄清问题，再进行平均23步推理。同时，系统会规划74个关键词并访问206个网址，仅筛选出最高3.2%质量的信息。为了确保输出质量，Kimi-Researcher采用异步执行，充分进行推理与数据处理。月之暗面还计划逐步开源其基础预训练模型与强化学习后的模型。

6月25日，百度发布了文心快码Comate Al IDE，这是行业首个支持多模态和多智能体协同的AI集成开发环境。该IDE包含了一键转换设计稿为代码的功能，可以将Figma设计稿精准转化为高可用代码，显著提高开发效率，节省多达80%的重复劳动。

6月25日，微软发布了创新的小参数模型Mu，该模型仅包含3.3亿个参数，但其性能可以媲美微软的Phi-3.5-mini模型，且体积小约10倍。Mu在配备NPU的笔记本电脑上表现出色，响应速度超过每秒100个tokens。

6月26日，蚂蚁百灵团队开源了轻量级推理模型Ring-lite，该模型在AIME24/25和LiveCodeBench等多个推理基准上达到了同级别的SOTA。Ring-lite的性能表现令人瞩目，甚至可以与参数量达到三倍的Dense模型相媲美。

6月26日，谷歌推出了开源的AI编程智能体Gemini CLI，这是一款集成于终端的轻量级工具，旨在提升开发者的工作效率。Gemini CLI支持通过自然语言进行代码编写、问题调试和工作流优化，同时能够生成内容、解决问题和管理任务。其核心功能包括联网搜索、协议扩展、指令定制和脚本集成，全面辅助开发者的整个工作流程。该工具采用Apache 2.0开源协议，全球开发者可以在GitHub上使用和参与社区建设。个体开发者可通过谷歌账号免费获取Gemini Code Assist许可，享受高频率访问和功能。

6月26日，谷歌更新了其AI模型Gemini 2.5，新增了原生音频能力。这一更新旨在增强Gemini在理解和生成音频内容方面的能力，为多模态应用开辟新的可能性。用户将能享受到更自然的语音交互体验，同时也为音频内容的分析和创作提供了更多选择。

6月27日，Black Forest Labs发布了FLUX.1 Kontext [dev]模型，这是其图像编辑模型FLUX.1 Kontext [pro]的开源开发版本，拥有12B参数，具备接近专有工具的图像编辑能力，能够在消费级硬件上运行。该模型定位于图像编辑，强调局部精准控制与角色一致性，旨在为用户提供与闭源专有模型相当的免费工具，摆脱了GPT 4o与Gemini模型在图像编辑方面的垄断。FLUX.1 Kontext [dev]在FLUX.1非商业许可下开源，支持研究与非商业用途，并提供云端或本地推理支持。

6月27日，腾讯混元发布并开源了混元-A13B模型，作为基于专家混合（MoE）架构的大型模型，该模型总参数达到800亿，激活参数为130亿。它以低推理延迟和计算开销为特点，极大地方便了个人开发者和中小企业的部署。混元-A13B模型可在低至1张中低端GPU上运行，支持高效的智能体应用，并在多个数学、科学和逻辑推理任务上表现优异。模型在Github和HuggingFace等技术社区可供下载，同时其API已在腾讯云上线，推动了开源生态的繁荣。

6月28日，通义千问团队发布了QwenVLo，一款全新的AI创意引擎。它能够从草图或文字提示转化为高分辨率图像，支持实时编辑，让用户通过简单指令优化产品展示和调整布局或样式。QwenVLo还提供全球化支持，可用多种语言生成和本地化图像，具备渐进式生成能力，逐步构建复杂场景。特别适合设计师、营销人员、教育者及任何希望将创意变为现实的人士。

issue127 2025.6.30-7.6

6月30日，通义千问团队宣布Qwen-TTS模型现已通过百炼API上线，为用户提供自然度极高、情感丰富的语音合成体验。该模型基于数百万小时的语音数据训练，支持三种中文方言：北京话、上海话和四川话。此外，还提供七种双语语音，包括Cherry、Ethan、Chelsie、Serena、Dylan、Jada和Sunny，满足多样化的需求。

6月30日，华为宣布开源其首个大模型，包括70亿参数的“盘古Embedded 7B”和720亿参数的“盘古Pro MoE”，同时推出基于昇腾NPU的模型推理技术。盘古Pro MoE在多个基准测试中，其性能超越了主流开源模型如Qwen3-32B和GLM-Z1-32B，且在昇腾800I A2单卡推理时达到1528 tokens/s的高吞吐性能。该模型权重和推理代码现已上线开源平台。

6月30日，百度正式开源文心大模型4.5系列，推出10款模型，涵盖47B和3B参数的混合专家（MoE）模型以及0.3B的稠密型模型，实现了预训练权重和推理代码的完整开源。这些模型现可在飞桨星河社区和Hugging Face下载使用，并在百度智能云的千帆大模型平台提供API服务。此举标志着百度加入国内开源大模型的行列，推动其在AI领域的应用发展。值得注意的是，文心大模型4.5 Turbo系列并未包含在此次开源列表中。

7月1日，Lovable宣布推出“Agent Mode”（Beta版），允许其平台实现自主思考、规划和执行操作。用户将在接下来的几天内逐步获得该功能的访问权限，一旦启用，可通过项目设置中的下拉菜单进行开启。测试数据显示，该模式已将构建错误率降低了90%，减少了不必要的变更，并提升了Lovable帮助用户实现目标的能力。

7月1日，谷歌推出Gemini的新功能“Scheduled Actions”（定时任务），用户可通过简单的提示词设置未来或定期任务，例如输入“每天早上5点给我美股分析报告”，Gemini会在指定时间自动执行并反馈结果。此功能支持单次和定期任务，最多可同时设置10个活跃任务，提升了任务管理的灵活性。与传统数字助理相比，Gemini的操作更为简便，且与Gmail、Google日历等产品紧密配合，无需复杂配置，适用于自动生成日程总结和市场报告。该功能目前先面向Pro和Ultra订阅用户推出。

7月2日，百度推出自研视频生成模型MuseSteamer，并同时上线了AI创作平台“绘想”，目前正进行限时免费公测。MuseSteamer的亮点在于其首个实现中英文音视频一体化生成的能力，与Veo3等其他视频模型类似，倡导声音和视频的紧密结合。这一创新将简化创作流程，将AI绘图、音频设计和对口型等环节整合为一步工作流。

7月3日，Cursor发布了1.2正式版。本次更新中，Cursor引入了智能任务清单（Agent To-dos），AI可以将复杂任务分解为可操作的步骤，提高项目透明度。此外，新版支持直接在编辑器中使用自然语言搜索和索引GitHub的Pull Request，提升团队协作效率。同时，消息队列功能允许用户在当前任务进行时提交新的指令，交互更加流畅。最后，Tab键的代码补全反应速度得到优化，整体编码体验显著提升。其他改进还包括合并冲突解决和更稳定的记忆功能。

7月3日，Lovart正式推出中文版本：星流 Agent，该应用在国内使用更加便捷，充值方式新增支付宝和微信，且价格大幅降低。用户可利用最新的FLUX.1 Kontext模型，一键批量处理图片，极大提升了修图效率。

7月3日，腾讯元器正式接入微信支付MCP，支持开发者在智能体上实现下单、赞赏和查询订单等功能，从而推动智能体商业化进程。微信支付MCP是为AI智能体生态创建的安全、便捷且可靠的支付解决方案，腾讯元器成为首个接入该系统的智能体开发平台，将利用腾讯生态的强大连接能力，为智能体开发带来丰富的用户体验。

7月4日，智谱AI推出GLM-4.1V-Thinking，这是GLM-4系列的升级版，专注于多模态推理能力。其轻量版本GLM-4.1V-9B-Thinking仅具备10亿参数，在28项评测中领导同级模型，且在18项测试中超越了72亿参数的Qwen-2.5-VL，展现出卓越的性能。

7月4日，Anthropic编程助手Claude Code新增Hooks功能，允许开发者自动执行特定操作，提供更精确的控制和高效开发体验。

7月4日，字节跳动旗下的AI IDE Trae正式开源其核心组件Trae-Agent。这个智能开发工具支持自然语言驱动的编程任务自动化，极大提升了开发效率。Trae-Agent的核心亮点包括对OpenAI、Anthropic等多种大语言模型的多模型支持，内置文件编辑和脚本执行等功能，能够满足复杂编程场景的多轮交互需求。此外，它还自动记录操作日志，便于调试和提高开发透明度，并兼容Python3.12，确保与现代开发环境无缝衔接。

7月5日，阿里通义实验室宣布其首个音频生成模型ThinkSound已正式开源，旨在打破“静音画面”的局限。此模型首次将思维链（CoT）应用于音频生成，使AI能够逐步理解画面事件与声音之间的关系，从而实现高保真、强同步的空间音频生成。为了支持链式推理，通义实验室构建了多模态音频数据集AudioCoT，包含2531.8小时的高质量样本，确保模型具备结构化推理能力。ThinkSound包括多模态大语言模型和音频生成模型，能够在理解画面后生成精准音频效果。

issue128 2025.7.7-7.13

Google Gemini CLI更新：新增音视频处理、Markdown嵌套导入与表格渲染；推出隐私管理命令；升级React19框架并支持VSCodium/Neovim编辑器；优化历史记录存储。该工具已集成100万token上下文窗口，由51位开发者贡献，致力于提升开发者效率。

7月7日，阿里开源网页浏览智能体WebSailor，登顶BrowseComp评测榜。该模型通过多步推理和交叉验证处理复杂网页检索任务，支持国产芯片加速（如Ascend910B），推理速度提升20%。其”高难度任务合成+小规模冷启动”策略具备跨领域应用潜力。

7月7日，腾讯发布升级版混元3D-PolyGen模型，成为业内首个能生成“美术级”3D内容的AI工具。该模型通过自研BPT技术，可快速创建细节丰富、面数超万的复杂模型，且支持游戏行业常用的三边面和四边面结构，直接适配专业工作流程。目前，该技术已应用于腾讯混元3D创作引擎及多款游戏开发管线，帮助美术师将建模效率提升70%以上，大幅降低复杂模型（如角色、场景）的创作门槛。腾讯表示，此举主要解决3D生成中“布线粗糙”“细节不足”等痛点，让AI成为美术师的高效助手。

7月7日，B站开源动漫视频生成模型AniSora V3，支持4秒视频2.5分钟生成。新增时空掩码模块、多任务学习及RLHF框架，优化角色一致性和动作流畅度。对比V2减少15%伪影，支持单图转视频、漫画改编等场景，硬件兼容性扩展至华为昇腾910B。

7月8日，阿里通义实验室发布了HumanOmniV2，这是一款旨在深化AI多模态理解能力的模型。该模型通过“上下文总结+逻辑推理”创新机制，克服传统模型在全局上下文理解和捷径推理中的不足。HumanOmniV2要求结构化输出，先全面理解输入，再进行推理，从而提升模型的逻辑思维。同时，引入GRPO优化及双重奖励机制，进一步增强推理能力。

7月9日，昆仑万维发布了其最新的多模态推理模型Skywork-R1V 3.0，该模型参数规模为38B，取得了开源最佳（SOTA）性能。在处理高考物理选择题时，Skywork-R1V 3.0仅需15秒就能给出正确答案，推理速度较前代提升6倍，思维链从4000token压缩至700token。该模型在权威基准测试MMMU中的表现接近人类专家水平，超越了Claude-3.7-Sonnet和GPT-4.5等闭源模型，展现出跨模态推理和跨学科泛化的能力。

阿里通义实验室的语音团队宣布推出CosyVoice 3，这是一款零样本TTS（文本到语音）模型，旨在复杂环境下实现高质量语音合成。CosyVoice 3通过扩大训练数据至百万小时和将模型参数增加至15亿，结合多任务监督训练的语音分词器及可微分奖励优化技术，显著提升了内容一致性、说话人相似度和韵律自然度，相较于前一版本CosyVoice 2表现更为卓越。同时，该模型支持9种语言及18种汉语方言，拓宽了应用范围。

Hugging Face发布小型语言模型SmolLM3，参数仅为30亿，但其性能大幅超过了同类开源模型如Llama-3.2-3B和Qwen2.5-3B。SmolLM3专为推动小型模型的极限设计，支持双模式推理、6种语言以及长文本处理，标志着小参数的语言模型在性能和效率上的重大突破。

7月9日，马斯克旗下的人工智能公司xAI直播发布了Grok 4，标志着其自2023年推出首代大模型以来的第四次重要迭代。Grok 4包含单代理和多代理版本，支持四个代理同时工作，最大上下文窗口高达256k tokens。根据内部测试，Grok 4在涵盖多学科的考试中达到了约25%的正确率，与OpenAI的Deep Research工具相近。新增的五种声音模式和显著提升的反应速度，使其更具优势。此外，Grok 4还引入了编程模型Grok 4 Code，以提升开发者在代码生成和调试方面的效率，并尝试多模态信息处理，增强社交媒体内容的时效性和文化敏感性。

7月11日，月之暗面正式发布并开源了Kimi K2模型。这款基于MoE架构的基础模型具备更强的代码能力和通用Agent任务处理能力，总参数达到1T，激活参数为32B。在多个基准测试中，Kimi K2展现出在代码、Agent和数学推理任务上的领先表现。通过采用MuonClip优化器，Kimi K2在预训练阶段实现了稳定高效的训练，显著提高了Token利用效率。未来，Kimi K2将进一步扩展至更高级的思考和视觉理解能力。同时，该模型的API服务已上线，用户可轻松切换至Kimi K2体验其强大的功能。

阿里通义千问推出Qwen Chat桌面应用程序，现已在macOS平台上线。用户可以通过一键唤起MCP，便捷地调用各种功能，提升工作效率。

issue129 2025.7.14-7.20

7月14日，美图公司发布了AI影像Agent产品“RoboNeo”，集成了图片精修、品牌设计和网页制作等多项功能，为用户提供一站式影像处理解决方案。RoboNeo支持用户通过简单的“一句话指令”满足复杂的影像需求，覆盖电商运营、品牌推广和产品营销等场景。该产品旨在通过AI技术提升影像生产效率，有效降低中小商家和创业团队在视觉内容制作方面的门槛。

7月15日，xAI的Grok推出了“虚拟伙伴”功能，新增了动漫角色Ani和熊猫Rudy，致力于为用户提供个性化的AI交互体验。这些虚拟伙伴支持NSFW内容，旨在探索更深层次的人机互动，扩大用户的互动选择和趣味性。通过这一功能，Grok希望能够增强用户的参与感和沉浸感。

7月15日，亚马逊宣布推出AI编程工具Kiro的预览版，与传统的AI编程工具不同，Kiro能与程序员协作，在编写代码前共同定义需求、系统设计和任务。这一功能使其直接与GitHub、谷歌Gemini Code Assist等现有工具展开竞争。Kiro在预览期间将免费提供，后续将推出三种定价层级。亚马逊CEO安迪·杰西表示，Kiro“有机会改变开发者构建软件的方式”。

7月15日，ima copilot网页版正式上线，用户无需下载，打开浏览器即可使用。访问 ima.qq.com 并登录账号，可基于全网或知识库内容提问，能逛知识库广场、加入感兴趣的知识库。

7月16日，百度上线全新AI搜索App“Tizzy.ai”，定位为无广告的AI智能搜索助手。应用基于百度多个大模型能力开发，界面简洁，无弹窗和信息流推荐，仅设“搜索”和“资源库”两个核心入口。TizzyAI支持自动和深度搜索模式，能快速回答问题并提供深度分析。

7月17日，Kimi开放平台宣布正式上线Kimi Playground，为开发者提供一站式工具调用能力体验。平台支持直观的工具调用界面和便捷的调试体验，可快速选择不同工具并实时调整参数，体验K2模型强大的工具调用能力。

7月17日，MiniMax Agent发布全栈开发功能，用户仅需一句话即可生成复杂全栈应用，无需编程基础。功能支持Supabase后端托管、Stripe支付、定时任务等，可快速开发演唱会选座系统、实时金融看板、出海独立站、企业数据看板等应用。

7月18日，OpenAI创始人Sam Altman与研究团队在直播中介绍了ChatGPT Agent模式。该模式允许用户直接向ChatGPT提出复杂需求，如购物、设计、信息查找等，ChatGPT可以在虚拟机中自动完成这些任务。演示中，复杂任务的完成度高，通常需时约10分钟。Agent模式可调用各种工具，包括文本和可视化浏览器、终端，从而实现更丰富的功能。此次更新不再仅限于Pro用户，Plus和Team用户也可参与，每月可用40次。Altman指出，这标志着一种全新的人机交互范式。

issue130 2025.7.21-7.27

本周，2025世界人工智能大会在上海世博片区和西岸片区举办。

7月21日，字节跳动AI IDE TRAE正式推出全新SOLO模式，提供AI主导的全流程自动化开发体验。SOLO模式覆盖从需求输入到部署交付的完整开发链路，区别于传统助手在代码补全阶段的局限，前置AI能力于项目起点，具备生成项目规范文档、前后端开发等功能。TRAE团队称这一模式为“上下文工程”的实际应用，标志着AI在项目理解和开发环节中的提升。SOLO模式目前仅面向TRAE国际版Pro用户开放体验，首月定价为3美元。

7月22日，旗舰版Qwen3模型迎来更新，推出非思考模式的Qwen3-235B-A22B-Instruct-2507版本。该模型的通用能力显著提升，涵盖指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等领域，尤其在多个测评中表现优异，超越了Kimi-K2、DeepSeek-V3等顶级开源模型。新版本在多语言知识覆盖、用户偏好契合及长文本理解能力上也取得显著进步，支持长达256K的上下文。此次更新标志着Qwen3在提升AI助手性能方面的重要进展。

7月22日，腾讯发布了首个全栈AI集成开发环境（IDE）——CodeBuddy IDE。与之前的插件版本不同，CodeBuddy实现了产品、设计与研发的全流程一体化。其亮点包括：可免费使用Claude4，支持一键生成产品文档（PRD、TRD、DRD）并生成网页，集成Figma设计稿转网页功能，和常用设计组件库。同时，它还允许用户对HTML元素进行自然语言样式调整，并集成腾讯云开发平台，降低了开发门槛，尤其适合独立开发者。CodeBuddy为非传统开发者带来了更直观的开发体验。

7月23日，Google Gemini宣布发布Gemini 2.5 Flash-Lite的稳定版本，成为该系列中最快且成本最低的型号。Gemini 2.5 Flash-Lite专为在苛刻应用场景下优化而设计，具备原生推理能力，并能根据需求灵活切换。此版本在Gemini 2.5 Pro和2.5 Flash的基础上进一步提升。

7月23日，阿里巴巴Qwen团队宣布开源其最新旗舰编程模型——Qwen3-Coder-480B-A35B-Instruct。这一模型是迄今为止最强大的开源智能编程模型，参数达到480B，激活参数为35B，原生支持256K上下文并可扩展至100万上下文，最大输出可达6.5万token。基准测试显示，Qwen3-Coder在编程、智能体编程、浏览器使用和工具调用等任务上表现出色，超越了Kimi K2、DeepSeek V3等开源模型以及GPT-4.1，其性能可与Claude Sonnet 4相媲美。此模型将为初学者带来更高的工作效率，帮助他们在短时间内完成复杂任务。26日，阿里宣布Qwen3-Coder模型在通义灵码IDE及插件中免费开放不限量使用。

7月23日，GitHub正式推出了面向Copilot Pro+订阅用户的GitHub Spark公共预览。该工具旨在将用户从想法迅速引导至部署应用，节省开发时间。用户只需描述想法，Spark便能自动构建包括前端和后端的完整智能应用，所有功能都由Claude Sonnet 4驱动。无需额外设置，数据处理、LLM推理、托管和GitHub认证都已开箱即用。此外，Spark允许用户随时添加AI功能，支持一键部署应用，并可通过自然语言、可视化编辑或代码与GitHub Copilot进行互动，轻松创建和同步代码库。

7月24日，字节跳动Seed团队正式发布了其端到端同声传译模型——Seed LiveInterpret 2.0。该系统实现了中英语音翻译质量的业界领先水平，具备接近人类水平的延迟与准确率。基于全双工端到端语音生成理解框架，Seed LiveInterpret 2.0不仅支持中英互译，实时处理多人语音，还能在“边听边说”的情况下，低延迟地输出目标语言的翻译。创新的0样本声音复刻功能使得沟通更加自然流畅。测试显示，该系统在面对长达40秒的中文表达时，能够顺畅地输出同款音色的英语翻译。

7月24日，阿里巴巴Qwen宣布推出新的机器翻译模型Qwen-MT，开发者可以通过Qwen API（qwen-mt-turbo）直接体验其快速且精准的翻译能力。该模型基于Qwen3，引入了大规模多语言和翻译数据的训练，显著提升了翻译的准确性和流畅度。Qwen-MT支持92种语言互译，覆盖95%以上的全球人口，满足广泛的语言需求。其专业翻译功能包括术语干预与领域提示，允许用户自定义翻译提示，适用于复杂场景。此外，轻量级的MoE架构使其在保证性能的同时，响应快且成本低，每百万输出token仅需2元，适合高并发和实时应用需求。

7月24日，谷歌推出AI智能体编排工具Opal，支持通过文本指令创建网页应用并可视化调整工作流程，整合多模型能力降低开发门槛。

7月25日，阶跃星辰在WAIC大会前召开发布会正式发布并开源全新基座模型Step3。

7月25日，阿里通义千问开源Qwen3-235B-A22B-Thinking-2507，提升推理性能与通用能力，性能对标顶尖闭源模型。

7月26日，上海人工智能实验室正式开源了书生科学多模态大模型Intern-S1。这款模型拥有241亿参数，具备强大的多模态混合推理能力，能够处理和理解多种形式的信息。Intern-S1的发布将为科研和应用领域提供新的机遇，进一步推动人工智能技术的发展，并为研究人员和开发者提供一个有力的工具来探索和创新。

7月26日，上海人工智能实验室发布了具身全栈引擎Intern-Robotics，并向全球开发者开放。该引擎通过虚拟仿真建模、虚实数据贯通及训测一体化技术体系，实现了多项创新突破。其“一脑多形”能力可适配10余种机器人形态，且通过融合真实采集与虚拟合成数据，将数采成本降至0.06%。

7月27日，在2025世界人工智能大会上，腾讯正式发布了混元3D世界模型1.0并全面开源。该模型是业界首个允许用户沉浸漫游、交互和仿真的世界生成模型，极大地拓展了游戏开发、VR和数字内容创作等领域的可能性。混元3D世界模型1.0结合了全景视觉生成与分层3D重建技术，支持文字和图片输入，仅需几分钟便可生成高质量、风格多样的可漫游3D场景，原本需要专业建模团队数周才能完成的任务，现在可通过简单的输入快速实现。

issue131 2025.7.28-8.3

7月28日，阿里巴巴开源了其视频生成模型通义万相Wan2.2，包括三款新模型：文生视频Wan2.2-T2V-A14B、图生视频Wan2.2-I2V-A14B和统一视频生成Wan2.2-IT2V-5B。文生和图生视频模型是业内首个采用MoE架构的视频生成模型，参数总量达到27亿，激活参数为14亿，实现计算资源消耗减半，并在复杂运动生成和人物交互等方面表现显著提升。此外，统一视频生成模型支持文图结合，可在消费级显卡上部署，具备24帧每秒、720P的快速生成能力。

7月28日，智谱发布了新一代旗舰模型GLM-4.5，并在Hugging Face上同步开源。该模型在内测中表现出众，融合了推理、代码及多种能力，被定位为“Agent基座模型”。GLM-4.5在12个评测基准中的平均分位列全球第三、国产第一，达到了开源领域的SOTA（水准），展示了其强大的性能和应用潜力。用户可通过智谱清言或Z.ai体验。

7月29日，在世界人工智能大会（WAIC）期间，快手可灵AI推出了全新创意工作台功能“灵动画布”。该功能支持最多5人同时协作，允许创作者在同一画布上共享素材、实时互动并一键导出，形成更流畅的创作闭环。灵动画布特别适合团队项目，可以有效激发创意、提升效率。创作者能够将零散的创意迅速转化为文本、图像或视频节点，形成完整的视觉作品，大大提高了创作效率。

7月29日，京东云宣布开源JoyAgent智能体，成为行业首个100%开源的企业级智能体，涵盖前端、后端、框架、引擎及核心子智能体，允许用户进行本地独立部署。经过京东内部多场景验证，该智能体具备高可用性和多智能体协同能力，弥补了AI落地的“最后一公里”，助力企业快速应用智能体于生产场景。JoyAgent提供了多种预置子智能体，支持不同文件格式的交付，让开发者能迅速实现定制化功能。

7月29日，豆包官宣图片理解能力升级，加入视觉推理，图片分析支持深度思考。

7月30日，CAMEL-AI团队宣布推出全球首个桌面端多智能体团队系统Eigent，基于开源项目CAMEL和OWL构建。Eigent不仅是单一AI工具，更像是一个专属的AI工作团队，能够高效处理复杂流程。用户可根据行业需求自定义多位智能体，并实现并行执行，显著提升工作效率。同时，Eigent具备人类随时介入的能力，确保执行过程稳妥。此外，用户能够灵活接入超过200种MCP工具，且系统支持100%开源与本地部署，以保障隐私和可控性。

Midjourney 7 AI视频生成推出更新，增强了视频创作的多样性。新的无缝视频循环功能使用户能够连续播放视频而不出现中断，非常适合艺术和沉浸式项目。此外，用户可以自定义启动和结束框架，从而实现更具凝聚力的叙述。动态过渡功能为项目增添了深度，而视频扩展工具则允许用户添加新的结尾框架，灵活延展内容。此外，改进的情绪板组织简化了资产管理，提高了创意参考的分类和访问效率。

Midjourney 还在探索页面左上角推出 “为您精选” 按钮，用户可迅速获取一系列符合自己创意偏好的内容，点击该按钮，系统会综合考量用户过往的交互记录，包括图片评分、点赞历史以及上传的心情板等内容，从而生成专属于用户的定制化图片和视频推荐列表。

7月30日，阿里通义千问宣布Qwen3-30B-A3B模型推出新版本：Qwen3-30B-A3B-Instruct-2507。据介绍，这是一个非思考模式（non-thinking mode）的新模型，长文本理解能力提升至256K，仅激活3B参数，就能取得可媲美Gemini 2.5-Flash（non-thinking）、GPT-4o等闭源模型的性能。

7月30日，昆仑万维开源多模态统一模型Skywork-UniPic-1.5B。实现图像理解、文本到图像生成、图像编辑三大核心能力。

7月31日，Manus推出一项名为Wide Research的新功能，这将是平台自3月发布以来最大的更新。该功能可通过并行处理多个AI智能体，实现大规模数据的同步运算，预计本周内上线，首发版本将面向月费199美元的高级订阅用户。Wide Research的核心在于“智能体集群协作”，用户可以指派数十个智能体协作完成复杂任务，例如生成海报设计、评选全球前100 MBA项目或分析股票表现等，这些通常是现有工具难以实现的。

7月31日，字节跳动Seed团队发布了实验性扩散语言模型Seed Diffusion Preview，旨在通过结构化代码生成功能验证离散扩散技术作为下一代语言模型基础框架的可行性。该模型引入了两阶段扩散训练、约束顺序学习和强化高效并行解码等关键技术，实验表明其代码推理速度可达2146 tokens/s，相比同规模的自回归模型提升了5.4倍。在多个代码生成基准测试中，Seed Diffusion Preview表现出与自回归模型相当的性能，尤其在需要全局视野规划的任务中展现出更优优势，为解决复杂的结构化推理问题提供了新思路。

8月1日，阿里通义千问团队发布了新升级的Qwen3-30B-A3B-Thinking-2507 MoE模型，增强了256K长上下文理解能力。Thinking模型在逻辑推理、数学、科学以及编码等专业任务上表现出色，加强了指令执行和工具使用的能力。

8月1日，阿里通义千问Qwen团队还推出了另一个编程模型Qwen3-Coder-Flash，全名为Qwen3-Coder-30B-A3B-Instruct，旨在提供卓越的编程体验。该模型在性能和效率上表现突出，拥有人类代理式编程、浏览器使用和工具调用等领域的超强Agent能力，仅次于顶配版Qwen3-Coder-480B-A35B-Instruct及其它闭源领先模型。Qwen3-Coder-Flash还优化了长上下文理解，原生支持256K tokens，并可扩展至1M tokens，解决了代码上下文断层的问题，为开发者提供了更为便捷高效的编程工具。

8月1日，Augment正式推出全新命令行界面（CLI）工具Auggie。Auggie旨在增强开发者在终端环境中的工作效率，通过强大的上下文引擎深度理解代码库，并与Visual Studio Code及JetBrains IDE等主流环境深度整合。开发者可以使用简单命令快速登录，提升工作效率。该工具的Unix风格设计便于与现有脚本集成，支持CI管道中的代码审查和自动化测试，还能生成GitHub Actions配置，简化Pull Request流程，为软件开发带来更高效的解决方案。

腾讯发布多模态 AI 模型 X-Omni，解决了传统 AI 图像生成中文字渲染不准确的问题。其采用创新强化学习框架，结合多种评估工具提供实时反馈，实现图像生成与理解的统一建模。在性能测试中，该模型中英文长文本渲染准确率高，超越 GPT-4o 等主流模型，在文本到图像生成、图像理解等任务中表现优异，验证了统一多模态建模的可行性，AI辅助内容创作的效率和质量都将得到提升。

8月2日，谷歌推出其最新推理模型Gemini 2.5 Deep Think，这是今年国际数学奥林匹克（IMO）金牌模型的改进版。该模型在IMO中解答了6道题中的5道，总分达35分（满分42分），展现出卓越的数学推理能力。新版本相较于旧版在速度和易用性上有显著提升，内部评估显示在2025年IMO测试中可达到铜牌水平。此外，Gemini 2.5 Deep Think在挑战性的编程和科学基准测试中，同其他模型相比表现最佳。

Kimi发布了其高速版模型Kimi K2 Turbo API，输出速度从每秒10 Tokens提升至每秒40 Tokens，模型参数与原版Kimi K2一致。该高速版现正限时提供5折特惠，折扣价格为每百万 tokens输入（缓存命中）¥2.00、（缓存未命中）¥8.00，以及输出价格¥32.00。特惠活动将于9月1日结束，届时恢复原价。

issue132 2025.8.4-8.10

BFL发布了FLUX.1 Krea [dev]，这是一个新型开放式权重FLUX模型，旨在实现照片级真实感。该模型是BFL与krea ai合作开发，专注于生成具有独特美学的图像，能够有效消除常见的“AI感”，避免过曝的高光，呈现自然细节。

8月4日，腾讯混元发布了四款小尺寸开源模型，参数分别为0.5B、1.8B、4B和7B，均可在消费级显卡上运行。Hunyuan 7B模型在数学能力上超越了OpenAI的o1-mini和Qwen3-8B，并在多项测试中领先。此模型原生支持256k上下文，能够一次读取三本《哈利波特》。这四款模型已在微信读书、腾讯会议等应用中落地，适合于笔记本电脑、手机及智能家居等低功耗场景，同时支持低成本微调。模型已在Github和Hugging Face等平台发布，并得到多款消费级芯片的支持。

8月4日，马斯克宣布xAI进入AI视频生成领域，推出名为Grok Imagine的AI工具。该工具目前正处于测试阶段，用户只需输入文字描述，就能生成带声音的动画视频片段，马斯克形容这一功能为“AI版的Vine”。Grok Imagine将逐步向每月支付30美元的SuperGrok高级订阅用户开放，其他X平台用户也可以注册成为候补用户。

8月5日，阿里巴巴开源了Qwen-Image，这是通义千问系列中的首个图像生成基础模型。Qwen-Image专注于复杂文本渲染能力，能够在多种场景下精准生成不同语言和风格的文字，包括毛笔字书法。此外，该模型还具备生成带有文本和图像的PPT页面的功能。除了文本处理，Qwen-Image在通用图像生成方面支持了多种艺术风格。从照片级写实场景到印象派绘画，从动漫风格到极简设计都掌握了。Qwen-Image是一个20B的模型，使用了MMDiT（多模态扩散Transformer）架构，其中“MM”代表的是模型生成图像、文本等多模态内容的能力，“DiT”则代表了这是一个扩散Transformer。

8月5日，华为宣布CANN（Compute Architecture for Neural Networks）全面开源，旨在提升其昇腾AI芯片在AI任务处理时的效率。与此同时，华为还开源了三款盘古模型，参数规模分别为1B、7B和718B，其中718B的盘古Ultra MoE模型自发布以来备受关注。

8月6日，Anthropic发布了Claude Opus 4.1，针对Agent任务、真实世界编码和推理进行了显著升级。该新版本现已向Claude用户开放，并上线了API，定价与Opus 4相同。Anthropic表示，相较于Opus 4，Claude Opus 4.1在大多数能力上有所提升，特别是在多文件代码重构方面表现突出，进一步增强了其在AI应用领域的实力。

8月6日凌晨，OpenAI发布了开源大模型GPT-OSS，该模型包括1200亿和200亿两种参数版本，并支持Apache 2.0商业化。gpt-oss针对AI Agent进行特别训练，具备函数调用、网络搜索和Python执行等功能，方便用户快速开发安全且高效的智能体。gpt-oss-120b在性能上可与o4-mini相媲美，但需80GB GPU运行，而gpt-oss-20b则可在16GB配置下使用。OpenAI联合创始人Sam Altman表示，此次发布标志着最先进的开放权重推理模型的推出，期待其在促进研究和创新方面带来重大影响。

8月6日，谷歌DeepMind宣布推出第三代通用的世界模型Genie 3 ，可以生成前所未有的多样化交互式环境，给出文本提示，Genie 3可以生成动态世界，可以以每秒24帧的速度实时导航，并以720p的分辨率保持几分钟的一致性。与前代模型（如 Genie 1/2）和视频生成模型（如 Veo 2，Veo 3对直觉物理学的深刻理解）相比，Genie 3是第一个允许实时交互的世界模型，同时 Genie 相比，其一致性和真实感也得到了提升。

8月6日，谷歌上线了Gemini的新功能“Storybook”，用户只需简短描述故事内容，即可生成一本包含插图的图文书。这本书共10页，每页包括一段朗读文字和配图，用户还可以根据偏好选择故事风格，如黏土动画或漫画风格。支持图片上传功能后，家长可上传孩子的画作并围绕其创作故事。目前，Storybook已在全球上线，支持多种语言和设备，但仍存在页面主角外形一致性不足的问题。

8月6日，Qwen发布了全新API，包括Qwen-Flash和升级版的Qwen3-Coder-Flash，同时还更新了Qwen-Plus，支持达1M超长上下文。这三款API针对不同用户需求，适合AI开发者、企业应用、科研人员及内容创作者。其中，Qwen-Flash提供极速响应，适合高效任务处理；Qwen3-Coder-Flash则专为编程需求设计，提升代码处理能力。API现已上线阿里云百炼平台。

8月7日，Qwen发布了新的小尺寸语言模型系列——Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507，性能显著提升。Qwen3-4B-Instruct-2507在通用能力上已超越闭源模型GPT-4.1-Nano，且在主观任务中更能满足人类需求，支持256K上下文理解，适合长文本处理。Qwen3-4B-Thinking-2507则在推理方面表现卓越，在数学测评AIME25中获得81.3分，接近中等规模的Qwen3-30B-Thinking。新模型已在魔搭社区和Hugging Face开源。

8月7日，小红书hi lab（人文智能实验室）发布并开源其首款多模态大模型dots.vlm1。该模型基于DeepSeek V3构建，并搭载小红书自研的12亿参数视觉编码器NaViT，具备出色的多模态理解与推理能力。hi lab表示，dots.vlm1在主要视觉评测上的表现已接近领先模型，如Gemini 2.5 Pro和Seed-VL1.5 thinking，特别是在MMMU、MathVision和OCR Reasoning等基准测试中，展现出强劲的图文理解与推理能力。

8月7日，MiniMax推出了新一代语音生成模型Speech 2.5，较5月发布的Speech 02有三大显著提升：多语种表现更加自然，音色复刻更加逼真，同时覆盖的语种数量增加到40个。该模型现已在全球上线，用户可通过MiniMax开放平台或MiniMax Audio官网进行体验。

8月8日，OpenAI发布了全新旗舰模型GPT-5系列，向所有免费、Plus、Pro和Team用户开放，企业和教育用户将在一周内获得访问权限。GPT-5在文本、编程和数学等多个领域表现出色，成为大模型领域的领军产品。其独特之处在于“按需思考”能力，并拥有四种不同的“人格”角色。OpenAI CEO Sam Altman表示，GPT-5的智能水平已达博士级，能够完成日常任务。模型家族包括GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro，且API服务定价竞争力强，预计将淘汰旧模型。

issue133 2025.8.11-8.17

8月11日，智谱发布新一代开源视觉推理模型GLM-4.5V，该模型以106亿参数引领全球100B级效果，成为通向人工通用智能（AGI）的重要里程碑。GLM-4.5V在保持高精度的同时，还优化了推理速度与部署成本，为企业和开发者提供了高性价比的多模态AI解决方案。该模型现已在魔搭社区和Hugging Face开源，API调用价格为输入2元/M tokens，输出6元/M tokens，响应速度可达60-80 tokens/s。

8月11日，小米宣布开源其新一版多模态大模型Xiaomi MiMo-VL-7B-2508，包含监督微调（SFT）和强化学习（RL）两个模型。更新优化了输出模式，并增强了RL训练过程的稳定性，提升了多项功能表现。此次发布为研究者和开发者提供了更强大的工具，推动了多模态AI的发展。模型已在Hugging Face社区上线，相关资源可供下载。

8月12日，OpenAI对GPT-5进行了更新，新增“自动”、“快速”和“思考”三种模式，让用户可以灵活选择。此外，付费用户可在“旧版模型”中使用GPT-4o、4.1、o3和o4-mini，但GPT-4.5模型仅限Pro用户访问。

8月12日，Anthropic宣布Claude Sonnet 4现已支持多达100万令牌的上下文，较之前大幅提升5倍，使用户能够在单个请求中处理超过75,000行代码的完整代码库或多个研究论文。目前，这一长上下文支持功能在Anthropic API和Amazon Bedrock上处于公开测试阶段，Google Cloud的Vertex AI也将在近期推出相关功能。

8月12日，昆仑万维发布了Matrix-Game 2.0，这是一个国产开源的游戏生成系统，类似于Genie 3。新版本在低延迟和高帧率交互性能方面进行了优化，能够以25 FPS的速度实时生成复杂场景中的长序列视频内容，生成时长可扩展至数分钟。该系统还支持用户通过键盘和鼠标进行帧级控制，采用少步长自回归扩散模型，进一步提升了用户的交互体验。

8月14日，字节跳动Seed宣布开源VeOmni框架，推动全模态大模型（同时具备文本、图像、语音和视频处理能力）的研究与应用。VeOmni基于PyTorch原生训练，采用以模型为中心的分布式训练方案，简化复杂的并行逻辑，使得研究人员能够高效组合和设置训练方案。实验表明，基于VeOmni，300亿参数的MoE模型在训练效率上有显著提升，吞吐量超过2800 tokens/sec/GPU，且可扩展至超长上下文序列。相关论文和代码已公开发布。

8月14日，香港大学XLANG Lab与其他机构联合发表论文，推出开源框架OpenCUA，用于构建和扩展计算机使用Agent（CUA）。该项目由助理教授余涛主导，旨在降低用户开发自主操作电脑Agent的门槛。OpenCUA支持无缝捕获人类计算机使用演示，包含跨3个操作系统与200多个应用的数据集AgentNet，以及将演示转换为“状态-动作”对的工作流程。旗舰模型OpenCUA-32B在CUA基准测试中的成功率达到34.8%，刷新开源模型的记录，超越OpenAI的CUA（GPT-4o）。月之暗面创始人、CEO杨植麟在作者名单之列。

8月14日，谷歌发布了Gemma 3 270M模型，文件大小为241MB，具备2.7亿个参数。该模型专为特定任务微调设计，具备出色的指令跟踪和文本结构化能力，并在IFEval基准测试中表现出色。Gemma 3允许用户在短时间内完成微调，其性能超越同级别的Qwen 2.5模型。由于其小巧高效的特性，该模型可在浏览器本地运行，已有人利用其开发OCR应用。

8月15日，Anthropic为其Claude Code和Claude应用推出了新学习功能，将AI转变为编程导师。Claude现在支持通过/output-style命令切换到不同的交流风格。其中，Explanatory（解释型）模式提供深入的技术解释，分享架构决策和最佳实践。另一方面，Learning（学习型）模式则更具互动性，Claude会暂停并在代码中添加TODO(human)标记，鼓励用户完成一些任务。这样的设计不仅提升了用户的编码体验，也为编程学习提供了实用的支持。

8月16日，腾讯在Hugging Face上发布了Hunyuan-GameCraft-1.0，这是一种高动态互动游戏视频生成模型。经过广泛实验，Hunyuan-GameCraft在游戏的真实感与可玩性方面显著优于现有模型。这一创新为为游戏开发者提供了更强的工具，提升了玩家的体验。研究者们建议在高性能的A100或H100显卡上运行该模型，以便充分利用其功能。

8月17日，Qwen3系列迎来小更新，支持高达100万tokens上下文。新版本包括Qwen3-30B-A3B-2507和Qwen3-235B-A22B-2507，全面升级采用双块注意力（DCA）和稀疏注意力（MInference）机制，使长文本处理更加稳定且速度提高至3倍。此外，新模型兼容vLLM和SGLang等高性能部署框架，简化了部署流程。

8月17日，OpenAI在ChatGPT中更新语音模式功能，用户现在可通过滑块调节语音速度，范围从0.5倍速到2.0倍速。此外，OpenAI还引入了“自定义指令前缀”功能，使ChatGPT能够记住用户特定指令，避免重复输入。

issue134 2025.8.18-8.24

8月18日，百度文库与网盘联合发布全球首个全端通用智能体GenFlow2.0，可3分钟内并行完成5项以上复杂任务，速度领先主流产品10倍。系统基于100+专家Agent并行协作，支持PPT、研报、视频、代码等多模态内容分钟级生成，并具备过程干预、记忆追溯、个性交付能力。已接入荣耀MagicOS，用户无需邀请即可在Web及App端直接使用，同时开放MCP协议对接第三方生态。

8月19日，Qwen图像编辑模型Qwen-Image-Edit正式推出。该模型基于20B的Qwen-Image，扩展了其文本渲染能力至图像编辑，能够精准编辑图片中的文字。Qwen-Image-Edit结合了视觉语义控制和视觉外观控制，支持低级外观编辑（如元素修改）和高级语义编辑（如物体旋转、风格迁移）。此外，模型支持中英文双语的文字编辑，确保在保留原字体、字号和风格的同时进行增、删、改等操作。Qwen-Image-Edit在多项基准测试中展现出卓越的性能，成为强大的图像编辑工具。用户可以在Qwen Chat体验这一新功能。

8月19日晚间，DeepSeek宣布官网及App的模型版本已更新到V3.1，上下文长度拓展至128k。8月21日，DeepSeek正式开源V3.1版本。新版本引入混合推理架构，支持思考模式与非思考模式，同时提升思考效率，能更快速地给出答案。其Agent能力也通过后训练优化显著增强，提升了工具使用和智能任务的表现。DeepSeek API也同步进行了版本更新，支持扩展上下文至128K，新增strict模式的Function Calling，以及对Anthropic API格式的支持，使DeepSeek-V3.1能够无缝接入Claude Code框架。

英伟达推出采用Mamba-Transformer混合架构的Nemotron Nano 9B，参数压缩至90亿（原120亿），单张A10G GPU可运行。相比Qwen3-8B，推理吞吐量最高提升6.3倍（8k输入/16k输出场景），在数学、代码、长上下文任务中表现相当或更优，模型体验网址已开放。

腾讯AI Lab推出了多模态音频生成引擎AudioGenie，该引擎支持视频、文本和图像输入，用户可以一键生成音效、语音、音乐及混合音频，达到电影级品质且无需额外训练。AudioGenie采用“生成-监督”双层智能体架构，通过专家混合和自我纠错机制实现高保真输出。在官方MA-Bench测试中，AudioGenie在9项指标中表现优异，领先于竞争对手Claude和Gemini，为影视、游戏和虚拟现实提供了高效的创作工具，显著提升了内容制作的效率。

8月20日，智谱正式发布了AutoGLM 2.0，这是全球首个手机Agent。该技术开创了Agent与云手机/云电脑的全新范式，用户无需担心手机和电脑的资源占用，突破了硬件限制，能够在任何设备和场景下运行，帮助用户进行代理操作。AutoGLM 2.0由国产模型GLM-4.5和GLM-4.5V驱动，支持推理、代码和多模态处理，标志着Agent技术的新进展。

8月20日，字节跳动Seed联合浙江大学推出M3-Agent，具备长期记忆能力，以实体为中心记录“事件记忆”与“语义记忆”，通过图结构组织多模态信息。同步发布M3-Bench基准（含1020个长视频），实验显示其准确率比Gemini、GPT-4o等商业模型最高提升7.7%，代码与论文已开源。

8月20日，即梦AI发布了全新的智能多帧功能。用户只需上传最多10张关键帧图片，即可一键生成54秒的连贯长镜头视频。该功能通过精准控制画面过渡，用户可设置提示词和时长，AI自动生成流畅的画面，比如从“日出”到“帆船”之间的连贯叙事。此外，该技术支持复杂镜头运用，实现电影级视觉效果。操作流程简化为三步，用户可轻松创建高质量视频。

阿里NLP团队开源多模态深度研究智能体WebWatcher，集成网页浏览、图像搜索、代码解释器及OCR，可处理复杂图文任务。通过自动数据生成与强化学习框架，在BrowseComp-VL、HLE-VL、MMSearch三大基准上全面超越GPT-4o、Gemini2.5-flash等闭源模型，Pass@1最高达55.3%。

8月21日，字节跳动开源Seed-OSS-36B大语言模型，支持512K的原生长文本窗口和新思考预算机制，刷新多项推理能力记录。

8月21日，腾讯云宣布，AI一站式工作台CodeBuddy IDE国内版正式开启公测，支持DeepSeek-V3.1-Think、DeepSeek-V3-0324、DeepSeek-R1-0528、hunyuan-turbos等最新模型，且内置腾讯云EdgeOne Pages等工具，可帮助开发者快速构建、部署站点和无服务器应用。

8月21日，百度蒸汽机MuseSteamer音视频一体化模型升级至2.0版本，首次实现多人有声视频一体化生成，支持运镜和电影级表演。

8月21日，谷歌发布全新Pixel 10系列智能手机，Nano Banana模型正式登陆谷歌手机，该模型在LMArena上线后，表现出了极佳的人物和物品一致性，广受社区好评。

8月22日，阿里巴巴面向全球用户发布了编程平台Qoder。Qoder集成了全球顶尖的编程模型，基于强大的编程智能体，可实现AI自主研发，大幅提升真实软件的开发效率。

8月22日，腾讯元宝正式接入DeepSeek V3.1最新版本，用户可在电脑版和网页版提前体验。此次升级实现了两大重要改进：首先，DeepSeek V3.1-Think在响应速度上显著提升，使用户能够更快速地获取反馈，捕捉灵感，进一步提高工作效率；其次，新版模型在工具调用和智能体任务处理能力方面表现更加出色，帮助用户更轻松地应对复杂任务。

8月22日，Genspark发布AI Designer功能，为每一位用户带来全新的设计Agent，让人人都能完成品牌设计工作。

钉钉、通义实验室语音团队宣布，联手推出新一代语音识别大模型Fun-ASR，能听懂家装、畜牧等十大行业黑话，并支持企业专属模型定制训练。基于双方深度共建，Fun-ASR能够准确转写各种语音信号，具备识别多行业术语、不同语言与口音的能力，也能结合上下文信息实现更精准的转录，并支持企业专属模型定制训练，让模型更懂企业场景。目前，Fun-ASR已被集成进钉钉的多个功能模块，包括会议字幕与同传、智能纪要、语音助手等。

ElevenLabs推出Eleven v3 Alpha API，支持70多种语言的文本转语音，引入多角色对话模式和高级音频标签控制。

Liquid AI推出LFM2-VL视觉语言基础模型系列，包括450M和1.6B参数版本，优化低延迟和设备适应性，支持原始分辨率图像处理。

阿里发布GUI智能体框架Mobile-Agent-v3，在AndroidWorld和OSWorld基准测试中成功率分别达73.3%和37.7%，并开源GUI-Owl模型。

8月23日，月之暗面Kimi K2将高速版模型输出速度提升至每秒60 Tokens，最高可达100 Tokens，采用MoE架构，总参数量1万亿。

8月24日，马斯克在社交平台X上宣布，xAI去年推出的Grok 2.5模型已正式开源，称这是团队最先进的模型。他透露，下一代Grok 3将在约6个月后开源，标志着xAI致力于推动核心模型开放化，增强在全球AI开源大模型领域的竞争力。此外，Grok App v1.1.58新版本同步上线，更新了Imagine功能和Companions互动，加入未公开的新特性，用户可通过更新体验新彩蛋。

issue135 2025.8.25-8.31

8月26日，多模态视频生成模型通义万相「Wan2.2-S2V」正式开源。该模型允许用户仅用一张静态图片和一段音频，生成面部表情自然、口型一致、肢体动作流畅的电影级数字人视频，单次生成可达业界领先的分钟级时长。这一突破大幅提升了数字人直播、影视制作及AI教育等行业的视频创作效率。Wan2.2-S2V支持多种类型图片，能够让主体形象进行说话、唱歌和表演，并可通过文本控制丰富视频内容。目前，该模型已在通义万相官网上线。

当地时间8月26日，谷歌发布了其最新图像生成和编辑模型Gemini 2.5 Flash Image，迅速在多个图像排行榜中登顶，成为新晋性能冠军。该模型之前以“nano-banana”身份在大模型竞技场中悄然接受用户体验，投票数超250万。在文生图和图像编辑场景中，Gemini 2.5表现卓越，尤其在图像编辑方面以1362分高居榜首，领先第二名有171分差距。核心亮点在于其图像编辑能力，能够高效混合多图像、保持角色一致性，并支持自然语言修改。

8月26日，昆仑万维全面开源了「Skywork UniPic 2.0」模型，这是一个面向统一多模态建模的高效训练和推理框架。该模型专注于生成和编辑模块的轻量化，并支持连接多模态理解模型的联合训练，旨在构建具有理解、生图和编辑一体化的核心能力，实现“高效、高质、统一”的多模态生成模型。目前，「Skywork UniPic 2.0」及其系列模型已全面开源，提供模型权重、推理代码和强化策略，助力开发者及研究者快速开发多模态应用。

8月27日，微软开源了其新款语音生成模型VibeVoice-1.5B，该模型采用next-token diffusion机制，旨在实现高质量的长达90分钟的自然对话，支持最多四位说话人的互动。VibeVoice在训练过程中逐步扩展上下文长度，从4K到65K tokens，以确保语音的连贯性和说话人一致性。该模型的核心创新在于双Tokenizer设计，使得其在超长、多人的对话场景中具备强大的压缩性能。

8月27日，面壁智能宣布正式开源其8B参数的多模态旗舰模型MiniCPM-V4.5。该模型是行业首个具备高刷视频理解能力的多模态模型，具有精准、快速和长时的理解能力。MiniCPM-V4.5在高刷视频理解、长视频理解、OCR和文档解析等方面达到了同级SOTA水平，其性能还超过了Qwen2.5-VL 72B，被誉为最强端侧多模态模型。

8月27日，PixVerse正式上线其自研视频生成大模型PixVerse V5。PixVerse V5在生成速度、美学效果和用户提示理解能力上都有显著提升，能够在5秒内生成便于社交分享的短片，并提供更真实自然的视觉效果。为了验证其技术实力，团队进行了覆盖多个场景的全面测试，考察其在模型技术和应用场景的实际表现。

8月27日，Anthropic推出了浏览器端AI Agent工具“Claude for Chrome”，允许用户在Chrome中直接调用Claude来执行浏览、点击和填表等操作。该插件目前处于“研究预览”阶段，限量向1000名Claude Max用户开放，同时接受候补名单登记。尽管这一功能被视为AI与日常软件生态接入的“下一步”，Anthropic强调其中存在安全挑战，特别是指令注入攻击风险。

8月28日，NVIDIA发布Jet-Nemotron语言模型，包含2亿和4亿参数版本，生成速度提升53.6倍，采用PostNAS技术改造现有模型，降低训练成本和计算内存需求。

8月29日，OpenAI 发布了全新的 GPT Realtime 大模型。这是一个 Speech-to-Speech（S2S）模型，能通过单个模型与 API完成从音频输入到音频输出的全流程，显著降低交互延迟并充分保留语音细节。 GPT Realtime 以“端到端语音理解—推理—合成”为核心路径，解决了传统“识别—推理—合成”多阶段带来的延迟与风格割裂问题。

8月29日，Gemini 上线了增强版图片编辑功能，现在可以最多上传3张图片并融合多种创意元素，轻松创作更神奇的图片。同时也已上线了“临时对话”选项。

8月29日，xAI 宣布推出高效推理模型Grok Code Fast 1，该模型专注于智能化编程。Grok Code Fast 1将在多种主流编程平台（如Cursor、GitHub Copilot、Cline、Windsurf、Roo Code和Kilo Code等）上限时免费开放。xAI表示，该模型以经济实惠的精简架构实现强劲性能，适合快速、低成本地处理常见编码任务，从而成为开发者的灵活选择。这一新模型有望提升编程效率，助力开发者简化工作流程。

8月30日，微软在Copilot Labs推出全新AI语音生成工具Copilot Audio Expressions。该工具提供Emotive（情感表达）和Story（故事创作）两种模式，能够生成更具情感表现力的英文语音，使输出音频更接近真人发声。用户无需注册即可体验，输入文本后可选多种音色与风格，生成最长90秒的MP3格式音频。在Emotive模式下，系统可自动调整措辞、增添细节；Story模式则支持多角色叙事，并可自动区分口音和对话风格。目前该工具仅支持英文，微软尚未公布多语言支持计划。

issue136 2025.9.1-9.7

本周，Google DeepMind发布了名为SynthID的工具，为AI生成的内容添加数字水印，提升生成式AI的透明度与信任度。该工具可将水印直接嵌入图像、音频、文本及视频中，水印对人眼或耳朵不可感知，但可通过SynthID的技术进行检测。该功能已集成至Google的多个生成式AI产品中，包括广受欢迎的Gemini 2.5 Flash Image (Nano Banana)。SynthID的推出旨在确保用户能够更可靠地识别和验证AI生成的内容来源。

9月1日，美团正式发布其首款开源大模型LongCat-Flash，这是一款拥有5600亿参数的混合专家模型（MoE）。该模型以其快捷的推理速度为最大特色，具备每秒超过100个token的输出能力，推理时间相比DeepSeek-V3降低近50%。LongCat-Flash目前不支持多模态内容上传，并提供联网搜索功能，但尚未启用深度思考功能。美团创始人兼CEO王兴表示，LongCat模型在推理与非推理模式间无缝切换，性能接近GPT-4o。

9月1日，腾讯混元宣布将旗下刚刚获得国际翻译比赛冠军（在ACL WMT2025比赛中获30个语种第一名）的模型开源，供开发者免费下载部署。该模型命名为Hunyuan-MT-7B，总参数量仅7B，支持33个语种、5种民汉语言/方言互译，是一个能力全面的轻量级翻译模型。同时开源的还有一个翻译集成模型Hunyuan-MT-Chimera-7B （奇美拉），是业界首个翻译集成模型，它能够根据原文和多个翻译模型给出的不同内容，再生成一个更优的翻译结果，不仅原生支持Hunyuan-MT-7B，也支持接入 Deepseek 等模型，对于一些有专业翻译需求的用户和场景，可以提供更加准确的回复。

9月1日，阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini，支持语音原生Tool Calling能力，包括联网搜索。

9月2日，混元3D世界模型系列最新成员HunyuanWorld-Voyager（混元Voyager）正式发布，成为首个支持原生3D重建的超长漫游世界模型。该模型专注于AI在空间智能领域的应用，将推动虚拟现实、物理仿真和游戏开发等领域的高保真3D场景漫游能力。

9月3日，Midoo.AI今日发布全球首个语言学习Agent，旨在革新语言学习市场。创始人Mark曾推出Talk AI，开启了AI口语练习领域，此次与前Fellou.AI联合创始人Leo合作，立志打造全球领先的AI语言学习产品。Midoo.AI的目标不仅是争夺两千亿美元的市场份额，更希望破解教育行业长期存在的难题，推动学习方式的变革。通过创新的AI技术，该公司期望给语言学习者提供更有效的学习体验和解决方案。

9月4日，OpenAI宣布正式向免费用户开放ChatGPT Projects服务。这一功能于去年年底发布，整合了Canvas和ChatGPT Search，帮助用户将不同类别的对话整理至专用主题文件夹，提升检索效率，创建个性化的“对话空间”。用户可以在进行论文讨论等项目时启用此功能，命名主题并设置图标，在对话中添加文件和自定义指令，同时限制对话记忆以避免跨领域干扰。

9月5日，谷歌宣布开源一款新型开放式嵌入模型EmbeddingGemma。该模型以3.08亿个参数为基础，专为端侧AI设计，能够在笔记本、手机等设备上部署检索增强生成（RAG）和语义搜索等应用。EmbeddingGemma的一个显著特点是能够生成高质量的隐私性嵌入向量，即使在无网络环境下也能正常运行，并且其性能与尺寸翻倍的Qwen-Embedding-0.6B相当，为移动设备上的AI应用提供了强有力的支持。

9月5日，在Anthropic宣布禁止中资企业使用其服务后，国内智谱、商汤日日新等模型厂商宣布推出兼容计划，方便开发者快速迁移。智谱在本周还推出了20元包月的GLM Coding Plan可接入Claude Code使用。

9月5日，字节跳动Seed宣布Seedream4.0上线，并同步新增扣子空间的设计模式，支持多图融合、组图生成、画面修改等。

9月5日，Kimi团队发布了Kimi K2模型的最新版本0905，显著提升了其在真实编程任务中的表现。新版本在Agentic Coding能力上取得进步，并优化了前端编程体验，增强了代码的美观性和实用性。此外，模型的上下文长度从128K扩展至256K，适应更复杂的长线任务。新版继续提供高速API，输出速度达到60-100 Token/s。在针对真实软件工程任务的基准测试中表现优秀。用户可通过Kimi应用或官网体验新版，API已在开放平台上线，兼容性和性能均得到提升。

9月6日，Qwen3-Max-Preview (Instruct)模型正式上线，参数量超过1万亿。该模型在多项权威基准测试中表现出全球领先的性能，包括通用知识、数学推理、编程以及人类偏好对齐等领域，超过多款竞争对手如Claude-Opus 4和Kimi-K2。内部测试和早期用户反馈显示，Qwen3-Max-Preview不仅具备更强的智能水平和更广的知识面，还在对话能力以及Agent任务和指令遵循方面展现出卓越性能。

腾讯ARC实验室公开了AudioStory项目，实现了基于大语言模型（LLM）的长时叙事音频生成。该系统通过LLM将复杂指令拆解为带时间顺序的子任务，在视频配音、音频续写、长音频合成等应用中保持情节的连贯性与情感的一致性。

Cursor正式发布了Background Agents API，目前处于Beta阶段。该接口允许开发者以编程方式创建并管理可在GitHub仓库中自主工作的AI编码Agent，这些Agent能够自动响应用户反馈、修复缺陷、更新文档等。

issue137 2025.9.8-9.14

9月9日，Bilibili宣布开源自研语音生成大模型IndexTTS-2.0，成为首个支持精确时长控制（Duration Control）的自回归文本转语音（TTS）系统。IndexTTS-2.0相较于传统逐token生成的TTS系统，首次在自回归架构中实现了精准的时长控制，这一创新设计特别适合需要严格音画同步的视频配音应用场景。

9月9日，通义正式推出最新语音识别模型Qwen3-ASR-Flash。该模型以Qwen3基座为基础，经过海量多模态数据与千万小时的自动语音识别（ASR）数据训练而成。Qwen3-ASR-Flash具备高精度、高鲁棒性的语音识别性能，支持11种语言及多种口音。创新之处在于，用户可以以任意格式提供文本上下文，以获得个性化的ASR结果，并且该模型还特别具备歌声识别能力，进一步拓宽了应用场景。

9月9日，字节跳动的Seed团队正式推出新一代图像创作模型Seedream 4.0。该模型整合了文生图与通用编辑能力，结合常识与推理能力，与前代模型相比在多模态效果、速度和可用性上实现了显著突破。Seedream 4.0支持文本与图像的灵活组合输入，允许多种创作模式如文生图和图像编辑，同时提升了艺术风格的自由度与表现力。推理速度提升超过10倍，支持最高4K分辨率输出。用户可通过即梦、豆包、火山方舟等平台体验。

9月9日，腾讯发布了全新AI CLI工具CodeBuddy Code，旨在让90%以上的代码通过AI生成。此外，CodeBuddy IDE国际版也正式开启公测，面向所有用户免费开放，无需邀请码。这使得腾讯云成为业内首家同时支持插件、IDE和CLI三种形态的AI编程工具提供商，能够满足专业开发者和零基础用户的多样化需求。用户可以免费使用CodeBuddy国内版的全系列产品，并无缝调用DeepSeek等大模型，而国际版则支持GPT和Gemini等主流模型，IDE与CLI共用额度。

9月9日晚间，腾讯混元最新的生图模型“混元图像2.1（HunyuanImage 2.1）”正式发布，支持最长达1000个tokens的提示词，支持原生2K生图。此外，腾讯混元方面透露，“混元原生多模态图像生成模型，也在路上了。”本次，混元还开源中英文改写模型——混元文本改写模型（PromptEnhancer），能够对用户的文本指令进行结构化优化。

9月10日，阿布扎比穆罕默德·本·扎耶德人工智能大学（MBZUAI）与AI创企G42联合推出了新低成本推理模型K2-Think，该模型在Hugging Face和GitHub上已开源。K2-Think含320亿个参数，基于阿里巴巴的开源模型Qwen 2.5构建，其性能超越了参数规模是其20倍的OpenAI和DeepSeek旗舰推理模型。在复杂数学任务基准测试中，K2-Think在多个测试中得分表现优异，超越了GPT-OSS、DeepSeek V3.1及Qwen3 235B-A22B等众多开源模型。相关论文已在arXiv平台发表。

Anthropic更新Claude应用，现在可在会话中创建编辑Excel、Word、PPT和PDF并输出可用格式。

在2025年WAVE SUMMIT深度学习开发者大会上，百度正式发布了文心大模型X1.1，强调其在事实性、指令遵循和智能体能力方面的显著提升，分别提高34.8%、12.5%和9.6%。新模型基于文心大模型4.5构建，采用了迭代式混合强化学习训练框架，能够自动拆分复杂任务并逐步执行，严格遵循业务规则。用户可以通过文心一言官网和文小言APP体验X1.1的增强功能。

9月11日，腾讯优图实验室宣布开源图检索增强生成框架Youtu-GraphRAG。

9月12日，阿里通义千问Qwen3-Next-80B-A3B模型发布。在性能上击败Qwen3-32B，在推理和长上下文上击败Qwen3-235B。Qwen3-Next-80B-A3B-Instruct接近235B旗舰。Qwen3-Next-80B-A3B-Thinking的表现优于Gemini-2.5-Flash-Thinking。

9月12日，美团正式发布了AI生活助手小美APP，全面接入外卖、旅游、酒店预订等核心业务。用户可通过语音或文字指令完成诸如查询高评分川菜馆或预约故宫门票等操作，系统会提供实时数据推荐最佳方案。

百度推出的文心思考模型ERNIE-4.5-21B-A3B-Thinking，在Hugging Face全球模型趋势榜中跃升至第一，综合榜单第三。该模型以其21亿个总参数和仅3亿个激活参数实现接近SOTA效果，并支持128K超长上下文，能够有效处理复杂推理和长文本任务。此外，ERNIE-4.5在逻辑推理、数学和代码生成等多个场景中表现优秀，并新增工具调用能力。

OpenAI开始为ChatGPT带来“开发者模式”，Plus/Pro订阅用户可配置接入MCP客户端，支持读取和写入外部数据，与外部系统进行双向交互。

Replit发布第三代AI开发助手Agent3，自主性能大幅提升，连续运行时间从2分钟增至200分钟，基于“动态智能”技术，具备增强的上下文理解和迭代推理能力。

9月12日，字节跳动旗下AI创意Agent小云雀推出了图片Agent 2.0，标志着这款在电商营销中表现出色的工具正式走向公众。得益于Seedream 4.0的接入，图片Agent 2.0强化了其应用范畴。

微信上线公众号智能回复功能，腾讯混元大模型助力创作者高效互动。

issue138 2025.9.15-9.21

9月15日，阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块显著优化了“幻觉”和“串语种”等问题，在高噪声场景中，幻觉率从78.5%降至10.7%。FunAudio-ASR融合了数千万小时的音频数据与大语言模型的语义理解能力，提升了语音识别的上下文一致性和跨语言切换能力。该模型在测试中表现优异，超越了Seed-ASR等业内知名模型。

9月16日凌晨，OpenAI发布了新模型GPT-5-Codex，这是在GPT-5基础上专门为软件工程领域优化的版本。该模型具备动态计算能力，能够根据任务复杂度实时调整思考时间，并在编程基准测试中展现出色表现。GPT-5-Codex的推出旨在提升智能体编程（Agentic Coding）的效率，为软件开发者提供更为强大的编程工具。

9月16日，在2025腾讯全球数字生态大会上，腾讯混元3D 3.0模型正式发布。腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生介绍，混元3D 3.0模型建模精度比上一版提升了3倍，人物、复杂细节的生成效果大幅提升。

9月16日，Teable 2.0正式发布，成为首个AI数据库Agent。这一更新将最优质的开源无代码数据库转变为强大的智能工具，让用户能够在几秒内组织、分析、自动化和批量生成数据。Teable 2.0旨在让数据处理变得更加轻松和智能，实现人人都能便捷利用数据的目标。

9月17日，豆包开始内测Agent“超能模式”，支持多轮搜索、深度推理、浏览器操作和富媒体生成四大核心能力。

即梦推出Agent模式，实现了自动提示词生成和视频一键生成的新功能。该模式的智能多帧功能允许连续生成多张图像，并自动衔接首尾帧以合成视频。用户还可以批量生成图像和视频，一次最多可生成40张图像和8个视频，并能自动整理成完整视频。

MiniMax海螺AI音乐模型1.5正式发布。该模型能够生成长达4分钟的完整歌曲，且结构清晰且不重复。它支持多层次的编曲，允许用户对中西乐器、风格、情绪和场景进行精细控制，从而为创作提供了更大的灵活性和创意空间。

9月17日，阿里开源旗下首个深度研究Agent模型——通义DeepResearch。该模型在HLE、BrowseComp-zh、GAIA等多个权威评测集上取得SOTA成绩（State-of-the-art），超越OpenAI Deep Research、DeepSeek-V3.1等Agent模型。目前，通义DeepResearch的模型、框架和方案均已全面开源，用户可在Github、Hugging Face和魔搭社区社区下载模型和代码。

Claude和ChatGPT已同步进驻Xcode 26，原生支持AI编码功能。开发者现在可以直接在Xcode 26中登录Claude或ChatGPT账户，利用各自的模型进行编程辅助。这一集成使得开发者能够在IDE中更方便地使用AI，提高代码编写的效率。

Figma开始内测AI设计和编辑功能，允许用户通过简单的评论来对选中的画布进行智能修改。该功能旨在提升设计效率与协作体验，目前用户需要提交申请才能体验这一创新的设计工具。

9月18日，微软Copilot宣布将推出记忆管理功能，并新增对Google Drive的集成功能。用户将能够直接通过Copilot查找和读取Google Drive中的文件，提升协作和文档管理的便利性。此外，这项更新将使得AI与用户的互动更加个性化和持久，未来还计划支持更多第三方应用。

9月18日，Google宣布推出Agent支付协议(AP2)，这是一个开放共享的协议，旨在为代理商与商家之间的安全合规交易提供通用语言。AP2可以作为现有A2A协议和MCP的扩展，促进更加高效和安全的支付流程。

YouTube推出AI聊天机器人Ask Studio，集成在YouTube Studio中，可用于获取视频表现分析、趋势洞察和优化建议。

9月19日，腾讯元宝全量上线公众号和视频号评论区，具备对用户情绪的感知与回应能力，洞察用户提问背后的情绪倾向，从用户视角出发给出回应。

9月19日，腾讯宣布混元3D Studio正式发布。据了解，基于混元美术级3D生成模型PolyGen，混元3D Studio升级低模拓扑功能，新增低、中、高三档面数控制，满足用户对模型面数的多样化需求。

9月19日，小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio，它基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于ICL的少样本泛化，并在预训练观察到明显的“涌现”行为。据介绍，在通用语音理解及对话等多项标准评测基准中，MiMo-Audio大幅超越了同参数量的开源模型，取得7B最佳性能；在音频理解基准MMAU的标准测试集上，MiMo-Audio超过Google闭源语音模型Gemini-2.5-Flash。

9月19日，通义万相发布Wan2.2-Animate模型，是一种统一的角色动画与替换框架，能够将角色图像与参考视频相结合，实现高保真度的角色动画。该系统能够精确复制视频中角色的表情和动作，生成动态角色视频，或将动画角色无缝替换原视频中的角色，保持场景的光照和色调一致。Wan-Animate基于Wan模型，采用了修改的输入范式以区分生成条件和区域，使用空间对齐的骨架信号和源图像的隐式面部特征，显著提升了角色视频的可控性和表现力。此外，辅助重照明模块（Relighting LoRA）进一步增强了角色替换时的环境整合能力。

9月20日，xAI发布了新一代高性价比AI模型——Grok 4 Fast，旨在打破智能与成本之间的界限。根据Artificial Analysis的报告，Grok 4 Fast在众多智能基准测试中表现出色，与Gemini 2.5 Pro相当，仅次于GPT-5，得分为60分。该模型的突出特点是其极低的使用成本，API层面每百万输入Token仅需0.2美元，每百万输出Token仅需0.5美元，相较于Gemini 2.5 Pro等领先模型便宜约25倍。此外，Grok 4 Fast在执行同样任务时消耗Tokens显著减少，为6100万，远低于竞争对手。

issue139 2025.9.22-9.28

9月22日，DeepSeek发布了V3.1-Terminus版本，进行了多项重要更新。此次升级在保持原有功能的基础上，针对用户反馈进行改善，增强了语言一致性，缓解了中英文混杂及偶发字符问题。同时，Code Agent和Search Agent的表现也得到了优化。新版模型在各领域的输出效果更加稳定，现已在官方App、网页端、小程序及DeepSeek API中同步更新。用户可在Hugging Face和ModelScope平台上下载开源版本。

9月22日，美团发布高效推理模型 LongCat-Flash-Thinking。美团表示，基于AIME25实测数据，LongCat-Flash-Thinking在该框架下展现出更高效的智能体工具调用能力，在确保90%准确率的前提下，相较于不使用工具调用节省了64.5%的Tokens。目前， LongCat-Flash-Thinking已在HuggingFace、Github全面开源，并在官网可体验。

9月23日，阿里推出了全球首个全模态AI模型Qwen3-Omni，该模型能够统一处理文本、图像、音频和视频四种模态的输入，并实时生成文本或自然语音输出。与以往需要不同模型分别处理各类数据的模式不同，Qwen3-Omni以端到端的方式提供解决方案，大大提高了处理效率，并支持多语言和方言。同时，该模型展现了强大的拟人声音色。

9月23日，字节跳动旗下火山引擎发布全新通用翻译大模型Doubao-Seed-Translation，支持28种语言互译。

9月23日，Meta开源MobileLLM-R1系列小语言AI模型：参数量不到10亿，专攻数学编程科学问题。

9月23日，通义千问团队更新了3个大模型，分别是开源的端到端全模态大模型Qwen3-Omni、开源的图像编辑大模型Qwen3-Image-Edit和不开源的语音识别大模型Qwen3-TTS。本次发布的3个模型均为多模态大模型。Qwen3-TTS是一个文本转语音（TTS）模型，拥有多种功能和特性。该模型提供了17种不同的语音选项，并支持多种语言和方言。

9月24日，通义千问团队在云栖大会期间继续发布了Qwen系列的六项更新。最引人关注的是开源的Qwen3-VL-235B-A22B模型，该模型在多模态推理任务上获得SOTA，超越了竞争对手Gemini-2.5-Pro。其他更新包括：升级版的Qwen3-Coder增强了终端任务能力并支持图像输入；Qwen3-Max正式上线，提升编码和工具调用能力；多模态实时翻译工具Qwen3-LiveTranslate-Flash；内容安全审核模型QwenGuard；以及个人AI旅行规划师，可帮助用户进行国庆出游规划。

9月24日，通义万相团队发布了Wan 2.5 Preview视频生成模型，在生成带音频的视频方面，支持多种音效类型及语言，与谷歌的Veo3竞争。该版本能够生成10秒1080P的视频，较之前的5秒限制有所提升。新系统在动态表现力、叙事能力和指令遵循上有显著增强，同时引入了图像编辑和文本生成图像功能。

9月24日，快手可灵AI基座模型升级至可灵2.5 Turbo，提升文本理解、动态效果和美学效果，5秒1080p视频生成成本降低近30%。

9月24日，智元机器人开源通用具身基座大模型GO-1，采用ViLLA架构，旨在降低技术门槛并推动具身智能应用。

9月25日，生数科技正式发布了新一代图生视频大模型Vidu Q2。该模型解决了以往AI生成视频中表情假、动作不自然等问题，实现了从“视频生成”到“演技生成”的转变，追求更真实的情感表达。Vidu Q2不仅可以处理复杂的表情变化和多人打斗场景，还能完美呈现高质量的特效，预计将为内容创作、影视产业和广告营销等领域带来全新升级。

9月25日，Kimi推出了全新的Agent模式“OK Computer”，该模式基于“模型即Agent”的理念，旨在充分发挥Kimi K2模型的优势。目前，该模式已经进入灰度测试阶段。

9月25日，Meta发布了其首款开源代码世界模型（Code World Model, CWM），得到了图灵奖得主Yann LeCun的支持。CWM以32B的参数量创新性地模拟程序员的思考模式，先在“脑海”中预测代码执行效果，从而反向规划出高质量的代码，走出传统语言模型逐词预测的盲写逻辑。在真实开源项目缺陷修复评测SWE-bench Verified中，CWM以65.8%的成绩表现出色，位列开源模型第一梯队。此外，它在多项基准测试中也取得了高分。Meta同时开放了3个不同用途的模型Checkpoint供用户使用。

9月26日，OpenAI推出新功能“ChatGPT Pulse”，现已向移动端Pro用户开放预览。该功能基于用户的聊天记录和反馈，以及已连接的应用（如Gmail、Google日历），每天早晨自动生成个性化研究更新，以卡片形式呈现。这一功能与传统的提问-回答模式不同，强调主动性，能够在夜间进行异步研究，提供更具针对性的建议，如健康晚餐食谱或会议议程草案。需要注意的是，Pulse更新信息仅当日有效，未查看将不会长期保留。

9月26日，混元3D生成模型家族迎新——混元3D-Omni、混元3D-Part发布并开源。这是腾讯混元在可控3D生成上的新突破，让AI 3D建模更具实用性，加速3D生成模型在游戏、打印和AR/VR 等实际生产流程中的落地应用。混元3D-Omni、混元3D-Part将完整开放推理代码和权重，全面开源、免费使用，便于学术研究和工业部署，助力可控3D生成的社区探索。

9月27日，谷歌发布了 Gemini 2.5 Flash 和2.5 Flash-Lite 的更新版本，可在Google AI Studio和Vertex AI上获得，旨在继续提供更好的质量，同时提高效率。

9月28日，腾讯混元发布并开源原生多模态生图模型“混元图像3.0（HunyuanImage 3.0）”，参数规模高达80B。这是首个开源工业级原生多模态生图模型。

issue140 2025.9.29-10.5

9月29日，DeepSeek正式发布了实验性版本新模型DeepSeek-V3.2-Exp，这是其向新一代架构迈进的中间步骤。该版本在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention稀疏注意力机制，旨在优化长文本的训练和推理效率。官方App、网页端和小程序已同步更新为DeepSeek-V3.2-Exp版本，同时API价格大幅降低，开发者调用DeepSeek API的成本将降低50%以上。

9月30日，Anthropic推出Claude Sonnet 4.5的新一代前沿模型。该公司称，这款模型在编码基准测试中展现出顶尖性能，不仅能构建 “可投入生产使用” 的应用程序（而非仅停留在原型阶段），其可靠性较此前的AI模型也实现了质的飞跃。该模型在编码、计算机操作及满足实际业务需求方面能力更强，同时在网络安全、金融、科研等专业领域表现突出。Anthropic称，依据SWE-bench Verified（一项衡量AI系统软件编码能力的测试标准）等行业基准，Claude Sonnet 4.5堪称 “全球最佳编码模型”。

9月30日，智谱推出了GLM 4.6版本，标志着其在真实编程领域的显著进步，不仅在性能上超越了国外竞争对手Claude Sonnet 4，还实现了与国产芯片生态的深度融合。新版本在多个权威基准测试中表现突出，且在真实编程任务中平均token消耗较前代减少30%以上，提高了成本效益。同时，上下文窗口长度从128K扩展至200K，能够处理更复杂的任务。GLM 4.6还首次在寒武纪和摩尔线程等国产芯片上实现FP8+Int4混合量化部署，全面提升了国产代码模型的能力。

9月30日，豆包大模型正式发布了Doubao-Seed-1.6-vision，这是一款视觉深度思考模型，具备基于工具调用的VisualCoT能力，能够将图像融入思维链中，进行裁剪、放大和旋转等处理，从而提升视觉推理能力。这款模型的输出可解释性更高，且其功能原生化，无需依赖其他模型。

9月30日，即梦推出最新的数字人模型OmniHuman 1.5。该模型显著提升了数字人的互动能力和表现力，能够根据音频中的情绪和语义进行自然的角色演绎，支持多人角色互动，实现灵活的运动和镜头切换。与之前的版本相比，OmniHuman 1.5打破了固定姿势的限制，让数字人能够跑、跳、演戏，提供更逼真的表现。用户通过即梦4.0图像模型与OmniHuman 1.5结合，创造出高品质的MV效果，展示了其多样化而生动的应用潜力。

10月1日，OpenAI宣布推出Sora 2及其专属应用Sora App，这一迭代被称为“有史以来最强大的想象力引擎”。Sora 2旨在让AI深入理解和模拟真实世界的物理规律，标志着通用人工智能（AGI）迈出重要一步。与前一版本Sora 1相比，Sora 2不仅在像素层面模仿，更关注于真实感的物理交互。发布会中展示了其惊人的能力，包括模拟复杂的动态动作，如滑板翻转等，这一突破实现了用户对Sora 1的期望，展现出更自然的AI生成效果。

10月3日，Sora App在App Store免费榜登顶，OpenAI继续推出Sora 2 Pro，进一步提升了AI视频生成的能力，支持生成长达15秒的高分辨率视频，成为Sora的高保真版本。该版本目前仅面向ChatGPT Pro用户，虽然提升了灵活性并支持不同的分辨率和时长选择，但生成一段15秒的视频仍需20-30分钟，效率较低。多段示例视频展示了其强大的画面稳定性和细节表现，激发了业界对AI商业电影的期待。

10月4日，通义千问开源了新的模型Qwen3-VL-30B-A3B-Instruct与Thinking，体积更小但性能依然卓越。该模型仅需30亿激活参数，能够在STEM、视觉问答（VQA）、光学字符识别（OCR）、视频理解及智能体任务等多个领域展现出媲美GPT-5-Mini和Claude4-Sonnet的能力，甚至在某些方面表现更优。此外，千问还发布了FP8版本以及超大规模模型Qwen3-VL-235B-A22B的FP8版本，进一步扩展了应用的可能性。

issue141 2025.10.6-10.12

Claude Code推出了包括Claude Code 2.0在内的新功能。其中最引人注意的是官方版VS Code聊天插件的发布，与其他插件相比，它在设计上有了显著不同：聊天区域被置于文件编辑区，使可用空间大幅增加。这一变动为习惯“Vibe Coding”的用户带来了更为舒适的编程体验，因其AI编程占比超过90%，而不再需要为传统的文件编辑区域占据过多空间。

10月7日，OpenAI DevDay 2025在旧金山举办。在Keynote上，Sam Altman强调了如何让人们更好地利用AI进行创作，推出了多个新内容。其中包括App inside ChatGPT和Agent Kit。此外，Codex正式版也发布。会议上还发布了GPT-5 Pro、Sora、Real-Time Mini的API，此外新模型gpt-image-1-mini API也同步发布。

10月9日，xAI推出视频生成模型Grok Imagine v0.9，具备原生音画同步能力，支持静态图像转动态视频，并免费集成至Grok所有产品。

10月10日，Sand.ai正式发布视频生成产品gaga.art及GAGA-1视频生成模型。GAGA-1是一款先进的全息AI演员模型，旨在实现语音、唇动和表演的完美结合。与人类演员一样，GAGA-1通过共生成视频和音频，创造出整体数字演员，确保每个细节都完美对齐，包括手势动作。用户只需上传照片和剧本，即可体验这一未来的AI视频创作工具，生成的作品不仅包括细腻的微表情和强有力的声音传递，还能展现出真实而一致的表演效果。

10月11日，亚马逊AWS推出机器人聊天工具和AI agent Quick Suite，具备销售数据、产品报告、总结网络内容的分析功能。

issue142 2025.10.13-10.19

10月13日，LiblibAI 2.0正式推出，官方称该产品为AI专业创作工作室。该平台不仅聚合了多种模型和工具，为创作者提供了无缝的工作体验。用户可以在一个界面上完成视频与图像生成，零学习成本。同时，LiblibAI 2.0整合了多个顶级开源与闭源模型，涵盖图像、视频，还提供500多种专业视觉特效，提高创作质量。此外，平台支持AI工作流批量处理，大幅提升工作效率。

10月14日，Google最新推出的Speech-to-Retrieval（S2R）技术实现了语音搜索的重大突破，直接从声音中获取用户意图，省略了传统的语音转文字步骤。S2R技术通过音频编码器将语音转化为语义向量，与文档向量在同一空间进行比对，从而避免了以前ASR（自动语音识别）过程中的错误传播。该技术使语音搜索能够更像人类一样理解意图，而非简单拼写。目前，该技术已在多语言环境中上线，其效果接近理想的转录系统。

10月14日，阿里云Qwen团队推出两个多模态理解大模型——Qwen3-VL-4B和Qwen3-VL-8B，专为消费级硬件（如手机和PC）设计。这两个参数规模为40亿和80亿的稠密架构模型，在保持高性能的同时显著降低了资源需求，其VRAM使用降低超过50%，最低仅需4G显存。它们支持标准指令与推理优化版本，旨在提升视觉理解与复杂推理能力。根据阿里官方数据，Qwen3-VL-8B在多模态理解方面的表现已超越Google的Gemini 2.5 Flash Lite及OpenAI的GPT-5 Nano。

10月14日，腾讯云开源Youtu-Embedding，一个针对企业级应用设计的通用文本表示模型。该模型旨在克服通用大模型在智能客服和知识库管理中常出现的“负迁移”问题，即在特定领域表现不佳的情况。Youtu-Embedding支持文本检索、意图理解等六大主流任务，既避免了性能下降，又具备即插即用的通用性。开发者可直接利用该模型构建语义检索系统，或在其框架基础上根据自身业务数据进行训练，以适应特定应用场景。

10月15日，Sora 发布更新，现在所有用户都可以在 Sora 应用程序和 Web 端生成长达 15 秒的视频，ChatGPT Pro 用户则可以在 Web 端生成长达 25 秒的视频。

10月15日，谷歌正式发布了视频生成模型Veo3.1，升级了今年5月推出的Veo3版本。新版本在音频输出、编辑控制粒度和图像转视频质量等方面均有显著改进，能生成更真实的最长60秒的视频片段，并更准确地遵循用户指令。Veo3.1允许用户向视频中添加新对象，并能自动融入原有画面风格。此外，编辑工具Flow将支持从视频中移除现有对象，增强编辑灵活性。

10月16日，Anthropic发布轻量级模型Claude Haiku 4.5，突出了更低的成本和更快的速度。该模型的编码性能可与5个月前推出的中高端模型Claude Sonnet 4相媲美，但每百万个输入token的成本仅为1美元，输出token的成本为5美元，分别是Sonnet 4的三分之一，同时推理速度提升超过一倍。在某些任务中，Claude Haiku 4.5的性能甚至超越了Sonnet 4，比如在OSWorld基准测试中得分为50.7%，AIME 2025数学推理测试中得分高达96.3%。该模型主要面向实时、低延迟应用，极大提升了聊天助手和协同编程等场景的用户体验。

10月16日，阿里云正式推出AI编程工具Qoder CLI，这是专为命令行环境设计的AI Coding Agent。Qoder CLI集成了业界领先的编程模型，采用轻量级Agent框架，旨在提高代码生成和理解能力的同时有效降低内存消耗和命令响应时间。官方声明，Qoder CLI在空闲状态下内存使用量比类似工具低70%，常见命令的响应时间也控制在200ms以内，大幅提升开发效率，适用于普通笔记本和云端沙箱等多种场景。

10月16日，豆包大模型1.6全面升级，新增Minimal、Low、Medium和High四种思考长度，旨在平衡企业在不同应用场景下的模型效果、时延和成本需求。这一创新使得豆包模型成为国内首个原生支持“分档调节思考长度”的AI模型。例如，低思考长度模模式下，升级后模型的总输出tokens减少了77.5%，思考时间减少了84.6%，而模型效果依旧保持稳定。与此同时，火山引擎还推出了轻量版豆包大模型1.6 lite，具备更快的推理速度，以满足企业多样化的需求。

10月16日，火山引擎升级了豆包语音合成模型2.0（Doubao-Seed-TTS2.0）和声音复刻模型2.0（Doubao-Seed-ICL2.0），新模型基于豆包大语言模型研发，具备深度语义和上下文理解能力，使得声音合成和复刻不仅限于文本朗读，而能够实现“理解后的精准情感表达”。此外，2.0模型针对教育场景进行了专项优化，达到全科复杂公式符号合成平均准确率约90%。

10月16日，Manus发布全新版本Manus 1.5。该版本带来了显著的速度、可靠性和质量提升，其中任务完成速度平均缩短至不到4分钟，比之前快近四倍。同时，复杂任务处理能力增强，对推理时间和计算能力进行了优化，内部基准测试显示任务质量提高15%，用户满意度上升6%。Manus 1.5的一个主要新功能是全栈Web应用程序开发，用户可以通过与其对话便捷地构建和部署复杂的Web应用，无需离开平台。

10月16日，PaddleOCR-VL发布，是一款适用于文档解析的先进模型。其核心组件PaddleOCR-VL-0.9B结合了NaViT风格的动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型，实现了准确的元素识别。该模型支持109种语言，能够识别文本、表格、公式和图表等复杂元素，同时资源消耗极低。经多项公共基准和内部评测，PaddleOCR-VL在页面级文档解析和元素级识别上均表现出色，击败众多现有解决方案，并具备快速推理速度，适用于实际应用场景。

10月17日，微软宣布，OpenAI的新一代多模态视频生成模型Sora 2现已在Azure AI Foundry（国际版）上线，进入公共预览阶段。即日起，Sora 2可通过Standard Global API在Azure AI Foundry（国际版）上开启使用，定价0.1美元/秒。

10月18日，Qwen Chat现已支持跨会话的记忆功能，用户可以向AI询问过往的对话内容。

10月18日，Claude引入“Skills”概念并发布了开源仓库，这些Skills是动态加载的指令、脚本和资源文件夹，旨在提升在特定任务上的表现。通过技能，Claude可以以可重复的方式完成特定任务，例如按照公司品牌指南创建文档、使用组织的特定工作流程分析数据或自动化个人任务。

issue143 2025.10.20-10.26

10月20日，商汤科技更新其AI视频Agent——Seko，推出了多人对口型功能，使得制作复杂的视频场景变得更加便捷。Seko以其完善的功能和用户友好的体验受到广泛关注，此次更新解决了在生成对话场景时的操作繁琐问题，用户无需再反复导出素材进行编辑。新上线的对口型算法SekoTalk，使得用户可以轻松制作双人或三人对话的小短剧，显著提升了视频创作的效率和便利性。

10月20日，DeepSeek团队发布了《DeepSeek-OCR：Contexts Optical Compression》论文，推出了新型的OCR模型DeepSeek-OCR，该模型能够利用视觉模态有效压缩长文本上下文，参数量仅3B。DeepSeek-OCR由DeepEncoder核心编码器和解码器DeepSeek3B-MoE-A570M组成，设计目标是低计算激活和高压缩比，实验显示，当视觉token数量在可管理范围内时，模型的OCR准确率保持高达97%。新模型应用在大模型上下文压缩中有极大的实际意义，有望推动AI Agent领域的发展。

10月21日，Claude Code网页版正式发布，为开发者提供了新的便利。用户无需复杂的本地部署，只需在浏览器中即可轻松完成编写代码、修复错误和提交代码审查请求。Web版Claude Code支持与GitHub仓库连接，用户可描述需求，让Claude自动生成代码，并可同时并行处理多个任务，实时查看进度。完成后，Claude会自动创建PR，并附上更改说明。此外，iOS版本正在预览中，方便用户在手机上使用。

10月22日，OpenAI 发布 AI 浏览器ChatGPT Atlas，从今天起向 macOS 用户抢先推出，Windows、iOS 和 Android 版本即将推出。

10月22日，百川智能发布循证增强医疗大模型Baichuan-M2 Plus，同步升级配套应用百小应并开放API。评测显示，M2 Plus的医疗幻觉率较通用大模型显著降低，相比DeepSeek低约3倍，优于美国最火医疗产品OpenEvidence，可信度比肩资深临床医生水准。

10月23日，快手StreamLake推出“工具+模型+平台”三位一体的AI编程产品矩阵，包括智能开发工具CodeFlicker、多个自研大模型KAT-Coder以及大模型平台快手万擎（Vanchin），其中KAT-Coder-Pro V1在SWE-bench Verified测试中以73.4%的解决率超越GPT-5与Claude Sonnet 4，展现出一定代码理解与生成能力。同时，KAT-Coder-Air V1版本将面向所有用户免费使用。

10月23日，腾讯在IMA开放日上推出了IMA 2.0。从单一的笔记与知识管理，转向可执行的智能任务。新版本引入了核心的任务模式（Task Mode），用户只需输入简单指令，如“帮我写一份新能源市场报告”，系统即可自动拆解任务、规划步骤并生成结果。此外，腾讯还新增了播客（Podcast）生成功能，允许用户根据输入主题生成多角色对话音频节目，并自定义声音风格、语速和语气。

10月24日，豆包宣布编程功能全新升级，由TRAE提供技术支持，不需要撰写复杂的需求文档，直接通过多模态输入，并可分别上传功能、布局、配色的参考图，可对生成的应用进行在线可视化修改，让任何人都能用自然语言来创造应用。

10月24日，微软发布 Copilot 一系列重磅更新，全面拓展其在生产力、协作、学习和健康领域的功能。通过 Connectors，用户可以用自然语言跨多平台搜索文件与信息，打通个人数字生态；Groups 引入实时协作机制，让团队沟通更加顺畅；Edge Copilot 模式则让浏览器变成智能助理，可自动整理和操作网页内容。在教育方面，Learn Live 将 Copilot 打造成语音引导的互动学习导师，强调理解而非死记硬背。在医疗领域，Copilot for Health 提供基于权威资料的健康建议与医生搜索服务。全新角色 Mico 增添了情感化交互体验，使 AI 更具“人性化”；而 Windows Copilot 则将 AI 深度整合至系统，帮助用户随时进行语音交互、文件访问与任务指导。

10月24日，月之暗面发布Kimi CLI技术预览版，采用 Shell-like 的 UI 作为产品的原生形态，通过 Ctrl-K 在 Agent 模式和 Shell 命令模式之间随时切换。同时通过支持 ACP 协议，Kimi CLI 可以更好地适配潜在的各类 ACP 客户端，以提供更符合图形界面开发习惯的 UI 体验。

10月24日，谷歌正式宣布NotebookLM的新功能——视频概览（Video Overviews）现已全面开放，并整合了“Nano Banana”图像生成模型。这一简短更新标志着NotebookLM的重要转变，从单纯的“阅读理解”向更丰富的“视觉表达”迈进。

10月25日，美团开源了AI长视频模型LongCat-Video，这一基础级视频生成大模型拥有136亿参数，能够同时执行文字生成视频、图像生成视频和视频续写三类任务。LongCat-Video的创新之处在于采用统一架构，打破了传统视频生成模型的任务壁垒，实现知识共享，提升了生成的稳定性和一致性。此模型能够生成分钟级的视频，并在长时序中保持合理的色彩、光线和运动逻辑。

issue144 2025.10.27-11.2

10月27日，MiniMax稀宇极智发布并开源了其新一代文本大模型MiniMax-M2。这款模型在全球权威测评榜单Artificial Analysis (AA)中总分位列全球前五、开源第一，跻身全球第一梯队，与OpenAI、Anthropic、Google等硅谷巨头同台竞技。值得一提的是，这个价格是Claude Sonnet 4.5 的8%，推理速度快了接近一倍。

10月28日，Flowith正式发布了本地智能体操作系统Flowith OS，该系统专为其Agent Neo设计，以浏览器形态存在，支持macOS和Windows系统。Flowith OS采用自研的“代码+视觉”双模态理解框架，能够自主跨越多个网页进行搜索，并理解用户屏幕画面以完成点击、编辑和发送等操作。该系统还引入上下文改进系统和双层记忆系统，通过在线强化学习持续优化性能。在Online – Mind2Web Benchmark测试中，Flowith OS平均准确率达95.4%，在Easy和Medium任务中分别达到96.3%和97.7%，超越竞争对手ChatGPT Atlas（61.3%）和Gemini 2.5（69%）。

10月28日，MiniMax发布Hailuo 2.3视频生成模型，在 Hailuo 02 模型的基础上进一步升级动态表现力，画面更加真实、稳定。Hailuo 2.3 模型在肢体动作呈现、风格化以及人物微表情方面实现了显著的效果提升，同时对运动指令响应做进一步优化。

10月30日，Cursor推出了2.0重大升级，包括自家训练的编码模型Composer、全新设计的界面以及Agent并发功能。Composer是一个高效的编码模型，速度是同类模型的四倍，旨在低延迟响应，能够在30秒内完成大多数任务。用户反馈指出其在处理多步骤编码时表现出色，具备强大的语义搜索能力。新的多智能体界面设计使多个模型能同时解决同一问题，提高结果质量。同时，Cursor 2.0还新增了语音控制功能，用户可以通过语音指令操控Agent，进一步提升工作效率。

10月31日，Kimi开源了其新架构Kimi Linear，旨在解决AI在长文本推理中的速度和记忆效率问题。该架构结合了“快但糙”的线性注意力和精准的全局注意力，采用3:1的搭配模式：三份KDA（快速处理）与一份“专家”级注意力，确保在快速计算的同时不漏掉关键信息。Kimi Linear经过1.4万亿条数据的训练，表现优越，处理速度提升6倍，内存占用减少四分之三。

10月31日，Google在Chrome浏览器中推出了由Gemini AI驱动的强大新功能，最新版Chrome Canary的新标签页下方新增了“Nano Banana”和“深度搜索”两个按钮。这些功能允许用户直接在搜索框中进行图像生成和主题调研，旨在提升用户体验，帮助他们在无需离开标签页的情况下快速启动创作和信息检索任务，进一步融入AI技术以提升效率。

11月1日，百度 AI 应用「文小言」升级至 5.0 版本，名称重新变更为「文心」，增强搜索与创作功能。

11月2日，通义千问Qwen3-Max-Thinking“深度思考”模式正式发布，提升复杂任务效率，在测评中表现出众。

issue145 2025.11.3-11.9

11月3日，美团开源全模态模型LongCat-Flash-Omni，官方App同步上线公测，可体验模型的联网搜索、语音通话等功能。据了解，新模型是业界首个实现“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大语言模型，在开源范畴内实现了对标闭源模型的全模态能力，并凭借创新的架构设计与工程优化，让大参数模型在多模态任务中实现毫秒级响应。

11月5日，通义大模型团队更新AgentScope1.0，新增开源智能体Alias-Agent，具有任务规划和相应的处理能力，可在四种专业模式之间智能切换。新增开源智能体Data-Juicer Agent，一个多智能体系统。

11月5日，由于Anthropic模型供应政策变化，字节跳动AI IDE TRAE宣布下架Claude系列模型。此前，腾讯CodeBuddy也已下架Claude系列模型。

11月6日，Gemini 3 Pro预览版已在Gemini CLI和Vertex泄露，模型名称为：gemini-3-pro-preview-11-2025。但在不久后，该模型的权限被收回，Google目前尚未正式宣布模型的发布。

11月6日，即梦AI正式推出全新“无限画布”功能，全方位提升创作自由度。用户可以在同一画布上完成生成与编辑，并支持Agent智能共创和多会话并行，允许多模态创作。这项功能现已在即梦AI网页版全面上线，旨在为用户带来全新的创作体验。

11月6日，腾讯云代码助手CodeBuddy国内版宣布上线GLM-4.6模型，已在IDE、插件、CLI三端全面内置。

11月6日，月之暗面发布并开源Kimi-K2-Thinking模型，这是一款具备通用Agentic能力和深度推理能力的思考模型，支持256K上下文及高速API输出。kimi-k2-thinking的定价为每百万tokens输入4元、输出16元，而高速版Kimi-k2-thinking-turbo则为8元和58元，适合深度推理和快速响应需求的场景。

11月7日，科大讯飞发布星火X1.5深度推理大模型。星火X1.5采用MoE架构，总参数量293B、激活30B，推理效率相比星火X1提升100%。

issue146 2025.11.10-11.16

11月10日，美团旗下首款AI IDE产品Meituan CatPaw进入公测。该产品是以Agent与人协作为核心，通过Agent智能驱动编程，支持代码补全、项目预览调试等功能。用户在官网下载安装后，在官方公众号领取邀请码体验，初始账号默认能发起500次对话，使用完可申请获取新额度。

11月11日，火山引擎正式发布豆包编程模型（Doubao-Seed-Code）：专为 Agentic 编程任务深度优化，在 SWE-Bench-Verified 官方榜单中刷新 SOTA，并兼容 Anthropic API 等主流开发环境。同时，此次发布的编程模型价格进一步降低。

11月12日，字节跳动TRAE宣布SOLO模式正式上线，所有用户可以免邀请使用。通过多项智能体能力升级与响应机制强化，SOLO正式版在响应速度、交付质量、任务复杂度处理能力上全面提升，更加贴合专业研发团队的实际工作流，成为面向未来的开发者新型 AI 助手。

11月12日，Lovart 发布了其「Edit Elements｜元素拆分」功能，能够自动识别并分离图片中的不同元素，如人物、背景和物体，并将每个元素转换为独立的可编辑图层。这意味着用户可以自由拖动和编辑这些元素，大大简化了修改工作。

11月13日，2025百度世界大会上，百度正式对外发布原生全模态大模型文心大模型5.0。模型参数量达2.4万亿，采用原生全模态统一建模技术，具备全模态理解与生成能力，支持文本、图像、音频、视频等多种信息的输入与输出。

11月13日，在百度世界大会上，小度科技正式推出其升级版的多模态 AI 助手 “超能小度”。此次发布标志着公司在人机交互技术上的重要进步，数千万台已售的小度设备也将获得免费升级，让用户体验更智能的生活方式。

11月13日，动画制作Agent OiiOii 发布，内置艺术总监、编剧等 7 个智能体，以团队协作模式取代繁琐工具链。用户仅需输入文本或参考图，即可一站式完成剧本、角色设计、镜到剪辑全过程，大幅提升二创及原创 IP 动画制作效率。

11月13日，李飞飞的World Labs推出Marble正式版，支持通过文本、照片等多种方式生成持久化3D环境，兼容Apple Vision Pro和Meta Quest 3。

11月13日，OpenAI发布GPT-5.1系列模型，新增GPT-5.1 Instant和GPT-5.1 Thinking两个架构，即日起开始灰度，逐步向用户推送。

11月14日，ChatGPT 宣布上线群聊模式，可以在同一对话中拉不同的用户参与群聊，目前已在日本、新西兰、韩国、中国台湾地区面向所有 ChatGPT 用户开放，其他地区后续会开放，且支持移动端和网页端。

11月14日，Google宣布旗下AI笔记与研究助手NotebookLM新增”Deep Research”工具，可自动完成复杂在线调研，并扩展支持Google Sheets、Drive链接、PDF及Microsoft Word等文件类型，全部功能将于一周内面向所有用户推送。

11月15日，阿里旗下通义App名称已变更为千问App，版本号由3.59.1升级为5.0.0。

百度正式发布了其最新的多模态思考模型 ——ERNIE-4.5-VL-28B-A3B-Thinking。这个新模型不仅具备强大的语言处理能力，还引入了 “图像思考” 的创新功能，意味着它在理解和处理图像方面有了显著提升。百度介绍，ERNIE-4.5-VL 模型采用了仅有3B 的激活参数，展现出优秀的计算效率和灵活性。这一设计使得模型在处理多种任务时，能够迅速响应并保持高效，充分满足日益增长的 AI 应用需求。

Qwen Code v0.2.1版本正式发布。本次更新的亮点包括：用户可享每日2000次免费网络搜索，增强代码编辑精度和精细控制，支持temperature、top_p和max tokens参数配置，增加Zed IDE集成以提升开发流效率，简化输出格式，并增强搜索功能，支持.gitignore过滤和智能筛选。此外，还进行了整体性能优化，包括零开销匹配和Unicode处理。

issue147 2025.11.17-11.23

11月17日，xAI正式发布Grok 4.1，推动对话智能和情感理解的新标准。此版本在所有主要排行榜中占据领先位置，思考模式获得1483的Elo分数，非思考模式也高达1465。Grok 4.1于grok.com及移动应用中向所有用户（包括免费用户）开放，并在Auto模式下默认启用。更新后，该模型在速度、质量和情感智能方面实现全方位升级，同时显著降低了幻觉率。

11月18日，谷歌正式发布Gemini 3，标志着通往通用人工智能（AGI）的重要一步。作为全球领先的多模态理解模型，Gemini 3被称为最强大的Agent和Coding模型，能够提供更丰富的可视化效果和深度交互体验。这一新模型建立在先进的推理能力之上，现已推出Gemini 3 Pro预览版（gemini-3-pro-preview），并整合到谷歌的全栈产品中，供用户在日常生活中学习和规划。同时，Gemini 3 Deep Think模式增强了推理性能，未来将向Google AI Ultra订阅用户开放。

11月18日，谷歌宣布推出Google Antigravity，这是一个新的代理式开发平台，旨在将软件开发带入“智能体时代”。Antigravity与Gemini 3紧密集成，允许开发者通过管理工作区中的智能代理（Agents）来进行跨界面自主操作，包括编辑器、终端和浏览器的任务自动化。该平台具备独特的Artifacts机制，为开发过程提供透明的可审查任务记录，帮助开发者进行反馈和调整。

11月18日，蚂蚁集团推出“灵光”应用，标志着其在通用人工智能（AGI）战略中的重要一步。该应用首批上线三大核心功能：“灵光对话”、“灵光闪应用”和“灵光开眼”，目前已在安卓和苹果应用商店上线。特别是“灵光闪应用”功能，用户可以通过自然语言在30秒内生成小应用，迅速将创意转化为程序，支持多模态内容输出，包括3D模型和音频等。上线两天内，该应用已吸引超过50万次下载，上线4天，用户破百万。

11月20日，OpenAI发布了其最新的智能体编程模型GPT‑5.1‑Codex‑Max，这一模型基于OpenAI最新的推理模型打造，专门面向软件工程、研究、数学等复杂任务进行训练。与此同时，OpenAI还将GPT-5 Pro升级为GPT-5.1 Pro，这一模型在写作、数据分析等方面的能力比前一代模型更强。不过，OpenAI并未披露更多GPT-5.1 Pro的细节。

11月20日，谷歌正式推出了全新图像生成与编辑模型 Nano Banana Pro (Gemini 3 Pro Image)。该模型基于 Gemini 3 Pro 架构构建，号称能以“前所未有的控制力、完美的文字渲染效果以及增强的世界知识储备”，将用户的构想转化为“工作室级（studio-quality）”的设计作品。相比今年 9 月发布、因生成超写实 3D 手办而走红的初代模型，此次更新代表了谷歌在图像生成领域的又一次重要跃升。

11月21日，Manus 推出 Browser Operator 功能，让你能在现有的 Chrome 浏览器里直接完成 agent 任务。

11月22日，腾讯元宝官宣推出了“一句话生视频”能力，为用户带来了“人人都是视频创作者”的全新体验。用户现在无需任何视频剪辑基础，通过元宝就能将脑海中的一句话构思，或手机里的一张静态照片，快速转化为一段生动的视频，该能力底层技术基于腾讯混元最新开源的 HunyuanVideo 1.5 模型。

11月22日，Cursor 发布 2.1 版本，推出了多个旨在提升编码体验的新功能。更新中包括改进的计划模式，帮助开发者更好地组织编码任务，以及直接集成在编辑器中的 AI 代码审查工具，实时提供代码质量反馈。此外，Instant Grep 功能使用户能够快速搜索和获取代码片段，简化了开发过程，提升了程序员的工作效率。

issue148 2025.11.24-11.30

小米发布具身大模型MiMo-Embodied，并宣布全面开源。该模型是业界首个成功打通自动驾驶与具身智能的跨域基座模型，旨在解决机器人与车辆之间的认知与能力互通问题，促进室内外智能作业的协同。MiMo-Embodied支持可供性推理、任务规划和空间理解等三大具身智能核心任务，以及环境感知、状态预测和驾驶规划等三大自动驾驶关键任务，为未来智能设备的连接与协作提供了新的可能性。

11月24日，Meta推出WorldGen，一款革命性的工具，用户只需输入一句话即可生成50米×50米的可交互3D世界。该技术结合多项AI创新，能够创建高质量、全纹理的三维场景，确保建筑、地形等元素在风格和结构上的一致性。这种生成内容可直接导入Unity，为游戏开发和模拟仿真等领域带来了新的便利，显著提升了生成质量和一致性，相较于现有方法具备明显优势。

11月24日，微软宣布推出7B参数AI模型Fara-7B，定位为“计算机使用代理（Computer Use Agent， CUA）”，可直接在用户本地设备上运行复杂任务。Fara-7B不仅实现了同等规模下的最佳性能，还使AI代理摆脱了对庞大云端模型的依赖，可在资源有限的系统上实现低延时与更强的数据隐私保障。

11月24日，腾讯混元推出全新开源模型HunyuanOCR，参数仅为1B，依托于混元原生多模态架构打造，获得多项业界OCR应用榜单SOTA（最先进水平）成绩。

11月25日，Anthropic推出最新AI模型Claude Opus 4.5，该模型在编码测试中首次超越人类工程师。根据国际公认的AI编程评估基准SWE-bench，Opus 4.5在“代理式编程”方面的表现超过了谷歌的Gemini 3 Pro和OpenAI的GPT-5.1，成为该领域的新标杆。这一模型旨在更好地自动化编码和办公任务，Anthropic希望通过此技术在与OpenAI和谷歌的竞争中占据优势。Opus 4.5的发布标志着AI技术在专业领域的显著进步。

11月25日，ChatGPT 语音模式现已直接集成到聊天界面中。用户可在语音对话期间查看所有消息和其他内嵌组件。已面向所有移动端和网页端用户推出。

11月25日，OpenAI正式在ChatGPT内上线“shopping research”购物研究功能，为用户提供针对具体需求的商品研究与对比能力。该功能基于强化学习特别训练的GPT-5 mini版本，能够抓取零售网站的商品信息、整理对比，并生成个性化购买指南。

11月26日，黑森林实验室正式推出FLUX.2模型，目前已在fal平台上线。这一版本标志着在一致场景生成、超现实角色创建和精确色彩控制（可精确到HEX代码）的重大进展。

11月28日，DeepSeek推出新型数学推理模型DeepSeekMath-V2，采用可自我验证的训练框架。该模型基于DeepSeek-V3.2-Exp-Base构建，通过LLM验证器自动审查生成的数学证明，并利用高难度样本持续优化性能。在IMO 2025和CMO 2024中均达到金牌水平，Putnam 2024获118/120分。团队表示，该成果验证了自验证推理路径的可行性，为构建可靠数学智能系统提供新方向。模型代码与权重已开源，发布于Hugging Face及GitHub平台。

11月28日，腾讯混元正式推出混元3D Studio 1.1，并正式接入全新美术级3D生成大模型hunyuan 3D PolyGen 1.5，支持AI直接生成具备专业布线结构的原生四边形网格3D资产。

Lovart更新了名为Touch Edit的独特功能，这一功能允许用户通过简单的点击操作实现精准的图像修改。用户只需按住Cmd/Ctrl并点击要修改的元素，系统便能自动理解上下文，提供直观的互动体验。Touch Edit的目标是支持用户在图像处理过程中进行局部精准修改，而不仅仅是简单的抠图或涂抹。这一创新功能显著提升了图像编辑的便捷性，使得设计过程更为高效。

issue149 2025.12.1-12.7

本周，ChatGPT发布三周年了。

12月1日，DeepSeek宣布同时发布两个正式版模型：DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。DeepSeek-V3.2 的目标是平衡推理能力与输出长度，适合日常使用，例如问答场景和通用 Agent 任务场景。DeepSeek-V3.2-Speciale 的目标是将开源模型的推理能力推向极致，探索模型能力的边界。后者目前仅通过API提供。

12月1日，豆包手机助手连同体验设备nubia M153发布技术预览版。豆包手机助手是一款基于豆包App的AI助手软件，旨在通过与手机厂商的操作系统合作，为用户提供便捷的交互体验。该助手依托豆包大模型，具备国际一流水平的推理、视觉理解、图像创作、视频生成和语音能力，并在图形界面操作中表现卓越，能够高效完成复杂手机任务。豆包不计划自研手机，目前正与多家厂商洽谈生态合作，以将手机助手整合进不同品牌机型中，相关进展将陆续公布。

12月1日，可灵AI发布全新的创作工具“可灵O1”，定位为首个大一统的多模态创作平台。这款工具整合了文字、视频、图片及主体等多种输入，旨在解决AI视频生成中的角色和场景一致性问题，为影视、自媒体及广告电商等行业提供深度适配的一站式解决方案。可灵O1依托统一模型的深层语义理解，用户通过简单的对话即可精准生成内容，并实现多视角下主体特征的稳定性，确保画面连贯流畅。

12月1日，爱诗科技正式推出PixVerse V5.5模型，其国内版本为拍我AI V5.5。实现了音频与多镜头画面的同步生成，用户仅需简单的文本提示便可生成包含镜头推进和人物对白的连贯叙事视频，时长可选为5秒、8秒或10秒。此外，拍我AI平台整合了图像生成至视频制作的完整工作流，新增的Swap、Remix和Modify功能更提升了用户的创作自由度。

12月2日，阶跃星辰开源GELab-Zero ，将GUI Agent模型与完整配套基建同步开放，支持一键部署。其中4B GUI Agent模型在多个GUI榜单上刷新同尺寸模型性能纪录，取得SOTA成绩。此外，阶跃星辰还开源了基于真实业务场景的自建评测标准AndroidDaily。

12月2日，昆仑万维发布Mureka V7.6和Mureka O2模型，开启AI音乐创作黄金时代。

12月2日，生数科技发布了Vidu Q2更新，新增了文生图与图像编辑功能，旨在兼顾创意与可控性，提升AI多模态创作的效率。这次更新以“超强一致性”为核心，整合了参考生图、文生图及图像编辑三项核心能力，帮助创作者轻松解决内容生产中的痛点。

12月2日，阿里发布了图片生成及编辑模型Qwen-Image的更新。新模型在图像编辑中维持了更高的一致性，并在多视角转换、多图像融合、多模态推理等方面取得进展。目前，新版本Qwen-Image已首发接入千问APP。此前，Qwen-Image基础版在用于通用图像生成的GenEval、DPG和OneIG-Bench，以及用于图像编辑的GEdit、ImgEdit和GSO等多个基准测试中均取得了最先进的性能。

12月3日，阿里千问面向学习场景发布拍题答疑、作业批改两项更新。通过接入基于Qwen3训练的最强学习大模型Qwen3-Learning，千问APP解题与批改能力实现了提升。据了解，Qwen3-Learning模型基于万亿级教育数据训练，是迄今阿里最强学习大模型。依托于模型能力，千问在SAT美国高考、注册会计师（CPA）等多类高难度考试中取得突破性成绩。

12月4日，可灵AI推出可灵视频2.6版本，核心创新在于首个“音画同出（Audio-Visual Co-generation）”模型。该模型能够直接生成声音，无需依赖外部配音或后期合成，极大提升了创作效率。新版本具备中英双语多人物对话、环境音效（如风声、脚步声及碰撞声）以及情绪化声音（如紧张、轻松和神秘等氛围声效）的生成功能。

12月4日，火山引擎正式发布豆包图像创作模型 Doubao-Seedream-4.5，面向用户开启公测。新一代模型在主体一致性、指令遵循精准度、空间逻辑理解及美学表现力等方面实现迭代，进一步提升了图像生成的整体质量与稳定性。与 Seedream 4.0 对比，Seedream 4.5 指令遵循、一致性、美学表现等多个核心维度表现全面提升。

12月5日，腾讯混元最新版语言模型Tencent HY 2.0 Think和Tencent HY 2.0 Instruct正式发布。HY 2.0采用混合专家（MoE）架构，总参数406B，激活参数32B，支持256K上下文窗口，推理能力与效率居国内顶尖行列，且在文本创作与复杂指令遵循等实用场景上表现突出。相比上一版本（Hunyuan-T1-20250822）模型， HY 2.0 Think显著改进了预训练数据和强化学习策略，在数学、科学、代码、指令遵循等复杂推理场景的综合表现稳居国内第一梯队，泛化性大幅提升。

阿里巴巴通义实验室正式开源了Z-Image，一个强大且高效的图像生成模型，具有6B参数。该模型现有两个版本。Z-Image-Turbo是其蒸馏版，能够在仅8次函数评估的情况下达到或超过领先模型的性能，具备亚秒级的推理延迟，可在16G显存的消费级GPU上运行，尤其在照片级真实感生成和双语文本渲染上表现出色。另一版本Z-Image-Edit则针对图像编辑进行了微调，支持创意图像生成和精准自然语言指令的编辑。

Google正式发布了Gemini 3 Deep Think模式，这一增强版在Gemini 3 Pro的基础上提升了算力与新技术，旨在增强复杂数学、科学和逻辑推理能力。该模式现已向AI Ultra订阅用户开放，标志着又一重大进展。据悉，该版本能够有效提升推理表现，进一步推进人工智能在高难度任务中的应用。

亚马逊正式推出全新的Nova2模型系列，包括四款新模型及其相关服务，旨在提升推理和多模态处理能力。Nova2Lite是一款经济型推理模型，专为日常工作负载设计，能处理文本、图像和视频，并在多个基准测试中表现优于竞争对手。Nova2Pro则是智能推理模型，适合处理复杂任务，具备网页查找和代码执行功能。另一系列Nova2Sonic和Nova2Omni也同步上市，已吸引数万企业使用，助力内容生成和AI Agent的研发。

issue150 2025.12.8-12.14

本周智谱连续开源多个模型，有点看头。

Lovart推出Touch Edit触控功能，强调“Mark & Edit”核心理念。用户可以通过Mac的Cmd+Click或Windows的Ctrl+Click，自动识别并锁定发丝、服饰、文本等元素。借助自然语言输入，如“换一件复古旗袍”，模型能在4K分辨率下即时完成图像融合，无需手动调整。此外，Select & Remix功能允许用户同时上传多张照片，轻松拖拽重组元素，生成印刷级成品。平台还开放了Edit Elements扩展，方便进行字体、纹理和颜色的细微调整。

12月8日，豆包各端正式接入Seedream 4.5模型，免费开放。人像P图、精修写真等场景质感更真实，海报设计排版更专业，多图复杂任务更能精准识别和锁定编辑主体。

12月9日，智谱宣布开源其核心AI Agent模型AutoGLM，这一模型被认为是全球首个具备“Phone Use”能力的AI Agent，能够高效完成长达数十步的复杂操作，如外卖点单和机票预订。开源内容涵盖了训练好的核心模型（AutoGLM-Phone-9B）、Phone Use能力框架（Open-AutoGLM）与工具链、覆盖50多款高频中文App的可运行Demo、针对Android的适配层和示例工程，以及详细的文档和快速上手指南。模型将以MIT开源许可证开放，所有代码则以Apache-2.0许可证托管在GitHub上。

12月9日，智谱正式上线并开源了GLM-4.6V系列多模态大模型，包括基础版GLM-4.6V（106B-A12B）和轻量版GLM-4.6V-Flash（9B）。这一重要迭代提升了训练时上下文窗口至128k tokens，在视觉理解方面达到同参数规模的SOTA水平。创新之处在于首次将Function Call工具调用能力原生整合进视觉模型，实现了从视觉感知到可执行行动的无缝连接，为多模态Agent提供了统一的技术基础。这将有助于推动真实业务场景中的应用。

12月10日，智谱正式发布并开源了GLM-ASR系列语音识别模型，并推出基于该系列开发的桌面端智谱AI输入法。此次发布的模型包括全球领先的云端语音识别模型GLM-ASR-2512，以及参数量仅1.5B的开源SOTA端侧语音模型GLM-ASR-Nano-2512。此外，智谱还发布了智谱AI输入法，将语音识别与大模型深度融合，旨在提升用户效率，实现“动动嘴，活就干了”的目标，从而让用户通过语音直接完成任务，而不仅仅是将话转为文字。

12月11日，Adobe宣布Photoshop、Acrobat和Express现已在ChatGPT上免费提供，让每个人都能尽情发挥创造力。所有ChatGPT用户都能直接通过聊天对话来使用。此举是OpenAI将更多第三方应用引入ChatGPT的举措之一，今年10月首批加入的包括Spotify、Zillow和Figma等。

12月11日，Google宣布将对其 AI 驱动的搜索功能“AI 模式”（AI Mode）进行更新，在回答中加入更多内嵌来源链接，并由 AI 生成简短说明，解释这些来源为何与当前问题相关。Google展示的示例中，AI 模式在搜索结果页顶部给出一段概括性文字，紧接着在其下方以轮播形式列出相关网站链接，例如在回答“如何用低预算打造复古家居风格”时，系统会先用一段话总结这些文章主要提供的二手淘货建议、建筑细节改造思路（如线条、五金更换）以及 DIY 项目等内容，然后再呈现各家媒体的链接入口。

12月11日，腾讯混元发文称，之前有不少用户反馈腾讯混元英文名（Tencent Hunyuan）不好识别和发音。经过慎重考虑，我们决定把腾讯混元英文名称从Tencent Hunyuan简化为Tencent HY。从混元2.0开始，我们将使用这一名称，最新推出的模型为：Tencent HY 2.0 Think 和 Tencent HY 2.0 Instruct。为了方便使用，此前已经发布的模型和API名称暂不变更。

12月12日，智谱发布工业级语音合成系统GLM-TTS，该系统在仅用10万小时数据训练的条件下，实现了“3秒”音色复刻和卓越的文本理解能力，字错误率和情感表达在多个开源测试集上达到SOTA水平。GLM-TTS采用两阶段生成范式，结合自回归文本到token生成和Token到wav的扩散方法，同时基于GRPO算法融合了CER、相似度、情感与笑声四个维度的正则化奖励机制。模型权重已在Hugging Face和ModelScope上开源，用户可以在Z.ai、智谱清言及开放平台BigModel体验和调用API。

12月12日，商汤发布Seko 2.0版本，新增多剧集创作功能，支持用户一次性创作最高100集短剧，且仅需30分钟完成一集。整个流程实现自动化，确保剧本到成片的高效转化。该系统的核心优势在于能够保持资产库的主体和场景一致性，自动将每集与前情相连，降低数据采集成本至真机遥操方案的10%。

12月12日，腾讯元宝AI助手推出QQ群智能未读消息总结功能，该功能利用AI技术将群聊记录提炼成结构清晰、要点明确的总结报告。主要功能包括热聊话题归类（标注讨论时间段和参与成员）、精准信息追踪（筛选@提及消息）、群文件整合以及原文直达索引。用户可将元宝添加为QQ好友进行一对一对话，并且该功能现已在电脑版、浏览器插件和移动APP上全面上线，提升了群聊管理的效率。

12月14日，谷歌翻译推出基于Gemini AI技术的实时耳机翻译功能，提升了翻译质量，支持70多种语言。据悉，该功能应用了谷歌最新的Gemini 2.5 Flash Native Audio模型。用户可通过耳机实时收听翻译结果，而该功能能够保留说话者的语气。当前，该测试版功能已经在美国、墨西哥和印度上线，用户可以将任意耳机转化为实时单向翻译设备，增强了沟通便利性。谷歌计划将Gemini技术进一步整合进其文本翻译功能中，持续改善用户体验。

issue151 2025.12.15-12.21

12月15日，阿里通义宣布开源Fun-CosyVoice3-0.5B，该版本提供了zero-shot音色克隆能力，只需要你提供一段3秒以上的参考音频，即可复刻其音色并合成新语音，并且支持本地部署和二次开发。此外，通义推出轻量化版本Fun-ASR-Nano模型，总参数量压缩到0.8B，推理成本更低，现已开源，支持本地部署与定制化微调。

12月16日，阿里发布新一代通义万相Wan2.6系列模型，该系列模型面向专业影视制作和图像创作场景进行了升级，是国内首个支持角色扮演功能的视频模型。新发布的万相2.6同时支持音画同步、多镜头生成及声音驱动等功能。

12月16日，Manus应用宣布了自3月发布以来最大的一次更新，首次引入Max模式。Max模式使Manus表现得更加耐心和富于创造力，能够更灵活地解决复杂问题。此外，1.6版本还新增了Beta测试的移动App开发模式，并优化了设计视图（画布），以提升用户在图像创作任务中的便利性。

12月17日，Gemini宣布推出Gemini 3 Flash，作为新默认模型，它为用户的日常体验带来了显著升级。Gemini 3 Flash相较于前代Gemini 2.5 Flash在推理能力和多模态理解方面实现了重大进步，支持图像、音频和文本的问答功能。用户可选择“快速”模式获取迅速回答，或使用“思考”模式来处理复杂问题。此外，Gemini 3 Pro仍然可用于高级数学和编码任务。

12月17日，谷歌推出实验性AI浏览器Disco，Disco的核心是由Gemini 3驱动的GenTabs功能，能把你的浏览行为直接生成一个可交互的定制化Web应用。查度假自动生成带地图的行程单，看食谱汇总成膳食计划等等。

12月17日，OpenAI 最新的 GPT Image 1.5 图像模型已正式在 ChatGPT 上线，以更快的速度创建更优质的图片。

12月17日，腾讯混元世界模型1.5（Tencent HY WorldPlay)正式发布。混元世界模型1.5（WorldPlay）首次开源了业界最系统、最全面的实时世界模型框架，涵盖数据、训练、流式推理部署等全链路、全环节，并提出了重构记忆力、长上下文蒸馏、基于3D的自回归扩散模型强化学习等算法模块。

12月17日，小米开源其最新的多模态大模型MiMo-V2-Flash，该模型专注于“设备间协作”，能够在手机和智能家居硬件上流畅运行。MiMo-V2-Flash支持跨设备的指令自动拆解与执行，例如用户通过手机语音命令控制电视，自动进行视频搜索和剪辑。此举使MiMo-V2-Flash成为了强力的端侧Agent竞品，推动智能家居和个人设备的智能化进程。

12月17日，谷歌现已为 Gemini 推出 NotebookLM 集成，用户能够将笔记本作为对话的附加上下文。

12月18日，ChatGPT应用商店正式上线，用户可以在其中找到多款应用，包括Adobe Photoshop、Apple Music和Canva等，按“精选/生活方式/工作效率”分类展示。用户可以通过@应用名或应用栏直接触发功能，以便在对话中执行实际操作，如订购或生成幻灯片。尽管目前处于Beta阶段，连接速度有所延迟且不够稳定，但开发者已可以提交应用进行审核，OpenAI也提供了相关开发资源，以支持高质量应用的创建。在确保安全和隐私的前提下，应用将根据用户兴趣和习惯进行智能推荐，推动AI生态系统的建立。

12月18日，火山引擎冬季原动力大会上，火山引擎总裁谭待正式发布豆包大模型1.8。该模型具备更强多模态Agent能力，256K超长上下文、原生API上下文管理，擅长复杂多步任务。

12月18日，在火山引擎冬季FORCE原动力大会上，最新一代豆包视频生成模型“Seedance 1.5 Pro”正式亮相。该模型实现了音画高精同步，涵盖多个音效场景，以全球领先的音画同步率提供更自然的对白和更准确的运动捕捉。Seedance 1.5 Pro在视频生成与音频质量评估中均表现出色，领先于同类产品，如Veo 3.1和Kling 2.6，并在文本生成视频的对齐度及画面美感等指标上排名前列，进一步提升了视频生成的整体表现力和细腻度。该模型目前已接入即梦。

12月19日，在火山引擎冬季原动力大会开发者主论坛上，扣子开发平台宣布正式升级为扣子编程。负责人乔屿强调其初心是让不具备编程能力的用户也能创造出有用的程序和应用。自23年推出以来，扣子经历多次迭代，致力于提升大模型的逻辑理解与推理能力，并完善其Agent IDE和Workflow IDE，以满足用户需求。

12月19日，OpenAI正式发布针对开发者优化的GPT-5.2-Codex，标志着GPT-5系列的进一步发展。该模型引入了“长程代码库感知”技术，能够在超过50万行的项目中进行精准的代码重构和架构迁移。此外，GPT-5.2-Codex显著增强了网络安全防御能力，并启动了针对受信任安全专家的特许访问计划，旨在提升软件系统的安全性和稳定性。

12月19日，Qwen-Image-Layered模型正式发布并开源。其核心亮点包括PS级的专业图层管理，能将图像拆解为独立的RGBA图层，实现原生可编辑性。用户可利用Prompt掌控结构化布局，显式指定3-10层分解，精确定义从宏观构图到微观细节的需求。此外，该模型支持深度拆解，允许用户像“剥洋葱”一样深入编辑大图层内的小图层，解锁无穷的细节编辑可能性。

issue152 2025.12.22-12.28

12月23日，智谱AI发布并开源了GLM-4.7，显著增强了其在编码能力、长程任务规划及工具协同方面的表现。该模型在多个主流基准测试中取得开源模型的领先地位。同时，在z.ai全栈开发模式中上线的新Skills模块支持多模态任务的统一规划与协作。GLM-4.7在编程、推理及前端生成质量上均有显著提升，在专业编码评估系统Code Arena中位列开源第一，更在多项测试中超越了竞争对手Claude Sonnet 4.5。

12月23日，钉钉发布为AI打造的工作智能操作系统——Agent OS，开启“人与AI协同”的新工作方式。钉钉创始人、CEO陈航表示，“未来钉钉上所有AI Agent都基于Agent OS搭建和运行，让AI直连物理世界。”

12月23日，通义大模型发布新一代端到端语音交互模型Fun-Audio-Chat，并已开源8B模型权重、推理代码、Function Call接入示例。

12月24日，阿里升级语音模型家族Qwen3-TTS，发布音色创造Qwen3-TTS-VD（VoiceDesign）和音色克隆Qwen3-TTS-VC（VoiceClone）两款全新模型。Qwen3-TTS新模型可实现DIY声音设计和像素级音色模仿，甚至让动物“原生”开口说人话，音色自然、效果稳定、生成高效，可加速语音大模型在有声小说、AI漫剧、影视配音等多专业领域落地。

12月24日，Qwen-Image-Edit-2511正式开源发布。该模型通过深度融合视觉编码器与语言模型，能够精准识别图像中的语义对象，并在修改的过程中最大程度保留原图的光影、纹理和背景一致性。此外，模型还集成了多种流行的LoRA能力，显著提升了角色一致性、工业设计和几何推理能力。用户现在可在QwenChat及魔搭AIGC专区免费体验这一强大工具的图像编辑功能。

12月25日，MiniMax正式发布了其最新旗舰级开源模型MiniMax-M2.1，该版本在前代基础上进行了全面升级。M2.1在复杂、多步编程任务处理过程中展现出极高的细腻度和一致性，是同类模型中的罕见之作。此模型特别增强了对多种编程语言（如Rust、Java和Golang）的支持，旨在优化真实世界的复杂任务表现。同时，该模型提供高质量的推理能力和深度上下文感知，使其在编程和办公场景中表现更加出色。

12月25日，百度在AI开放日活动上披露，其自研的智能体系统“伐谋”（Famo）已成功在多个真实产业场景中完成落地验证，展现出在交通、制造、能源及科研等领域的可规模化应用能力。该系统旨在服务复杂工程与科研场景，目前已吸引超过2000家企业申请试用，涵盖农业供应链、高校AI科研、制造业排产调度等多个领域。

12月26日，腾讯元宝上线“定时任务”功能。据介绍，用户把元宝App、电脑版更新至最新版本，直接把时间安排、自律习惯、任务计划一句话告诉元宝，到点就能准时提醒，此外还能提前测试任务、手动管理任务、自定义提醒。

12月26日，智谱推出轻量级AI代码编辑器“Z Code”，目前该工具正处于Alpha测试阶段，支持Mac和Windows系统。Z Code旨在降低使用命令行AI编程工具的门槛，通过一个统一的可视化桌面整合多种AI编程工具功能，使用户只需输入API密钥即可轻松操作。这一创新工具有望引领编程新潮流，为开发者提供更加便捷高效的编程体验。

12月26日，阿里云通义实验室发布Qwen Code v0.5.0版本，国产AI编程工具从命令行工具升级为全链路开发生态平台。新版本强化核心编码能力，并突破插件集成、工程上下文理解和开发者协作支持，引入多工具协同架构，构建开发者“数字工作台”。

issue153 2025.12.29-2026.1.4

12月29日，京东悄然上线了名为“京东AI购”的AI原生应用，当前处于内测阶段，用户需输入邀请码才能体验。该应用集成了外卖点单、商品导购和AI试穿等功能，旨在成为用户的智能购物助手。底层技术使用京东自研的“言犀大模型”，具备强大的自然语言理解和商品识别能力。京东AI购通过对话方式替代传统的浏览和筛选，用户只需表达需求，如“我想吃红烧排骨”，即可获得相应推荐。

12月30日，腾讯混元宣布推出并开源翻译模型1.5，共包含两个模型：Tencent-HY-MT1.5-1.8B 和 Tencent-HY-MT1.5-7B，两个模型均支持 33 个语种互译以及5种民汉/方言，除了中文、英语、日语等常见语种，也包含捷克语、马拉地语、爱沙尼亚语、冰岛语等小语种。模型已在腾讯混元官网上线，通过开源社区也可以直接下载使用。

12月30日，蚂蚁集团与上海交通大学研究者联合提出了对比代码大语言模型C2LLM，该模型包括0.5B和7B两种规模，以Qwen-2.5-Coder为基础架构。C2LLM采用多头注意力池化（PMA）模块，有效整合了因果表示，打破了传统序列嵌入的信息瓶颈，并支持灵活调整嵌入维度。经过三百万公开数据的训练，C2LLM在代码检索（MTEB-Code）任务中表现出色，C2LLM-7B在总排行榜中位列第一，刷新了同类模型的纪录。

12月31日，Qwen Code更新v0.6.0版本，全面免费开放Skills功能，开发者每天可以零成本调用2000次API请求。这一更新简化了AI技能集成的流程，用户通过Qwen OAuth认证登录后，无需付费订阅即可使用该功能。版本更新还包含使用方法与最佳实践指南，以及个人和团队Skills的存储与共享机制。

12月31日，据通义大模型消息，Qwen-Image-2512开源发布。相较于8月发布的Qwen-Image基础模型，Qwen-Image-2512聚焦于三大核心能力的飞跃式提升：更真实的人物质感、更细腻的自然纹理、更复杂的文字渲染，让生成的图像无限接近真实世界。

1月2日，字节跳动在海外推出全新的AI协作平台AnyGen。与传统生成式工具聚焦快速生成不同，AnyGen强调“人与AI协作”的工作模式，旨在提高工作效率。在功能层面上，AnyGen 支持幻灯片生成、文档撰写、数据调研、网页创建、音频转写等多种功能，同时，AI会根据用户需求生成调整选项，支持用户补充信息、校准方向，并基于上下文持续打磨内容，真正实现人机协作完成任务。

1月2日，小米推出了全新的AI聊天服务MiMo Studio，旨在为用户提供免费、强大的AI工具。该平台允许用户进行深度搜索、代码生成，以及文本生成等功能，极大降低了AI工具的使用门槛。MiMo Studio基于MiMo-V2-Flash模型，具备领先的代码处理能力，用户无需充会员或记忆复杂指令，便可轻松上手。

1月4日，腾讯混元团队开源了HY-Motion1.0模型，该模型拥有10亿参数，能够通过自然语言描述生成高精度的3D角色骨骼动画。HY-Motion1.0覆盖了200多种动作，兼容主流的3D创作平台，旨在大幅提升游戏NPC的动画制作效率。同时，该模型也可广泛应用于影视和虚拟现实等领域。这一创新将为开发者提供更便捷的工具，推动动画制作的自动化和智能化进程。

issue154 2026.1.5-1.11

1月5日，TRAE宣布中国版SOLO模式已全面免费向所有用户开放，用户不仅可以自由选择内置模型，还能接入定制模型。当前内置模型包括Doubao、Seed-CodeGLM-4.7、GLM-4.6、MiniMax-M2.1、MiniMax-M2和Kimi-K2-0905，用户可根据需求进行选择和使用。该平台还自动根据模型效果和速度调整最佳的上下文窗口大小，用户可通过简单的步骤添加自定义模型，进一步提升个性化的使用体验。

1月5日，字节跳动宣布其海外AI助手应用Dola的日活跃用户数已突破1000万。该应用专注于对话式问答、写作、翻译和图像生成，定位为“集写作、思考和创意于一体的助手”。最初名为Cici，于2023年8月推出，主要服务菲律宾、印尼和拉丁美洲等新兴市场，并于2025年底改名为Dola。近几个月，该应用在印尼、马来西亚和墨西哥实现了显著增长，10月以来在多个国家的Google Play下载量持续攀升，尤其在墨西哥一度成为每日下载量第一。

1月6日，千问App上线教育功能：一句话找卷子，千问 App 题库已收录数亿道题目，涵盖全国各地名校的期末真题、模拟卷。只需「一句话」下达指令，就能精准获取所需资料。例如，搜索「上海中学高一物理模拟卷」或「杭州学军小学六年级语文试卷」，千问都能迅速给到 PDF 和 Word 版本，并支持一键下载打印。

1月6日，在CES 2026展会上，英伟达发布了全球首个专为自动驾驶设计的思考与推理模型Alpamayo，并宣布其开源。该模型采用基于推理的VLA架构，具备100亿参数的因果链推理能力，使自动驾驶汽车能够处理复杂的交通场景。黄仁勋强调，Alpamayo不仅能够接收传感器数据，还能推理出即将采取的行动及其原因，显著提升了自动驾驶的决策能力和可解释性。此技术将推动L4级自动驾驶的发展，满足无人类干预的需求。

1月7日，腾讯AI工作台ima.copilot（简称ima）迎来更新：正式上线“生成PPT”功能。用户只需进入“任务模式”，即可调用个人知识库中的素材，一键生成幻灯片。

1月8日，OpenAI正式推出ChatGPT Health，以回应用户对健康咨询的需求。现在每周已有超过2.3亿用户向ChatGPT咨询健康问题，该功能并未作为独立应用推出，而是内嵌于主应用中。为保护用户隐私，OpenAI设计了专门的加密与隔离机制，确保所有健康对话记录和数据与通用模型的训练数据物理隔离。新功能还兼容Apple Health、MyFitnessPal等主流健康应用，能够直接获取用户的运动数据和健康指标，使得ChatGPT Health不仅能“听”症状，还能“看”到用户的健康状况。

1月8日，Anthropic发布了Claude Code v2.1.0。此次更新增强了代理生命周期控制、技能开发、会话可移植性和多语言输出能力，旨在为用户提供更加灵活和高效的编程体验。Claude Code v2.1.0包含了1096次提交，新增多行输入、智能权限管理等功能。v2.1.0发布之后，Claude Code继续保持着快速迭代，到1月11日已更新到v2.1.4。

1月8日，DeepSeek官方手机应用近日迎来了实用更新，正式在前端交互层引入语音输入（ASR）功能。此次更新主要针对用户体验，没有对模型底层架构进行更改。用户可通过点击APP对话框的麦克风图标或长按对话框区域进行语音输入，系统会实时将语音转录为文本，随后将文本发送给DeepSeek模型进行处理。

1月9日，Qwen3-VL-Embedding和Qwen3-VL-Reranker正式开源，标志着多模态检索与跨模态理解领域的新突破。这些模型基于Qwen3-VL基础模型，支持文本、图片、截图、视频等多种输入方式，涵盖30多种语言，具备全球应用能力。它们在MMEB-V2和MMTEB等权威榜单上刷新了当前最佳表现（SOTA）。这两阶段的检索架构中，Embedding模型用于生成统一的语义向量，支持快速大规模召回（RAG），而Reranker模型则进行精细打分，显著提升排序准确率。目前，这些模型已在Hugging Face、ModelScope和GitHub上线，阿里云API也即将推出，便于集成到生产环境中。

1月10日，OpenCode官方发布v1.1.11版本更新，新增/connect命令，支持用户直接绑定和使用ChatGPT Plus及Pro套餐。这一功能免去了复杂的API密钥配置流程，使开发者能够无缝接入OpenAI的先进模型。

issue155 2026.1.12-1.18

1月12日，Midjourney推出面向动漫领域的图像生成模型Niji V7。该模型由Midjourney与Spellbrush合作开发，在动漫的连贯性、对提示词的理解、文本渲染以及sref性能方面均得到了提升，为动漫创作者提供了更专业的生成工具。
1月12日，千寻Spirit v1.5具身智能模型发布，并登顶RoboChallenge榜单。这是首个在该榜单上成功率超过50%的具身智能模型，终结了Pi0.5的领跑时代，标志着具身智能领域的重要突破。
1月13日，Anthropic发布Claude医疗版，对标OpenAI的ChatGPT for Health。用户可通过Anthropic从苹果健康和Function Health等应用导出健康数据，更高效地整理医疗记录并与医疗服务提供方共享，能读取5万家医院的病历数据。
1月13日，Adobe宣布Firefly AI创作平台已上线OpenAI GPT-Image 1.5模型。Pro和Premium订阅用户在1月15日前可不限量生成图片，该平台已整合多家厂商的AI模型，采用点数订阅制。
1月13日，Anthropic发布面向所有人版本的Claude Code助手，命名为Cowork。该助手完成任务时更为自主，可以帮助用户整理电脑中的文件，支持任务队列和并行处理，让人与AI的交互更类似于向真实的同事留言。
1月14日，百川智能发布开源医疗大模型Baichuan-M3。该模型在问诊能力、幻觉控制及多项评测中均排名第一，超越GPT-5.2及人类医生表现，创始人王小川称AI医疗已进入应用阶段。
1月14日，谷歌发布通用商业协议UCP并开源，旨在推动”对话即交易”的智能电商时代，使AI能够直接比价下单并帮助用户领优惠券。亚马逊拒绝加入该协议，而阿里则积极拥抱。
1月14日，通义千问推出一站式AIGC创意生产力平台”呜哩”（Wuli）。该平台定位为帮助用户把创意做成可交付的图片和视频素材，面向自媒体人、设计师、电商、营销人员及普通创意用户，主打输入描述、快速生成、多场景落地的极简路径。
1月14日，谷歌推出Veo 3.1视频模型，提升”图像要素”生成能力，故事表达更丰富，能在不同场景切换中保持角色和叙事一致性。模型支持素材复用与融合，并针对移动端优化，支持9:16竖屏比例生成，适配短视频平台。
1月14日，智谱宣布联合华为开源新一代图像生成模型GLM-Image。该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程，是首个在国产芯片上完成全程训练的SOTA多模态模型。
1月14日，爱诗科技推出全球首个实时生成世界模型PixVerse R1。该模型支持最高1080P分辨率，可实现即时响应，是一种能够对画面、声音等内容进行实时生成和交互建模的人工智能系统，使数字场景能够持续演化并即时响应用户操作。
1月14日，Vidu上线AI一键生成MV功能。用户仅需提交音乐、参考图像与文本指令，系统即可全自动输出叙事连贯、音画同步的高完成度MV。该工具是一个深度协同的多智能体系统，被称为”虚拟制片厂”。
1月14日，面壁智能与清华大学自然语言处理实验室、中国人民大学及OpenBMB开源社区联合研发AgentCPM-Explore智能体模型。该模型基于仅4B参数，有望让大模型的长程任务处理能力部署于端侧。
1月15日，谷歌发布轻量化医疗AI模型MedGemma 1.5 4B及语音识别模型MedASR。前者可本地部署，能分析文本、图像及CT、MRI等三维医疗数据，准确率提升；后者专攻医疗术语，转录错误率低至5.2%。
1月15日，阶跃星辰原生语音推理模型Step-Audio-R1.1登顶Artificial Analysis Speech Reasoning榜单。该榜单是目前业界评估”原生语音模型”第三方基准之一，核心考量模型直接处理音频并进行复杂逻辑推理的能力，主要考察维度包括准确率、首包延迟等。
1月15日，阿里千问App宣布全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务，在全球首先实现点外卖、买东西、订机票等AI购物功能，并向所有用户开放测试。
1月15日，谷歌发布Gemini”个人智能”功能。该功能可以整合Gmail、谷歌相册等应用中的信息，帮助Gemini在无需明确指引的情况下理解上下文关系，让聊天机器人能够跨应用理解用户数据，从而给出更贴近个人情境的回答。
1月16日，谷歌基于Gemma 3架构推出TranslateGemma开放翻译模型系列，共有4B、12B和27B三种参数规模，支持55种核心语言及多模态图像翻译，目前已在Kaggle和Hugging Face开放下载。
1月16日，腾讯内测”上头蛙”应用。该应用的核心逻辑是交互叙事，把故事拆解成无数个充满变数的分支，用户一边读一边在关键节点做选择，每一个念头都会让剧情瞬间偏转，使读者从局外人变为推动剧情发展的操盘手。
1月16日，美团LongCat团队开源全新升级的LongCat-Flash-Thinking-2601模型。该模型在编程、数学推理、智能体工具调用和搜索等多项评测中达到开源SOTA水平，其独特的”重思考”模式能同时启动8个大脑并行思考，确保决策可靠。

issue156 2026.1.19-1.25

1月19日，字节跳动旗下AI Agent平台”扣子”宣布2.0品牌升级。此次升级推出Agent Skills和Agent Plan等新功能，同时优化Agent Office，并将开发平台升级为扣子编程，为用户提供更强大的智能体构建能力。

1月19日，阶跃星辰推出Windows版桌面助手。该助手是对其电脑端Agent产品”阶跃AI桌面伙伴”的升级，跨平台支持让更多用户能够体验AI辅助办公。

1月20日，智谱发布并开源GLM-4.7-Flash模型。这是一个混合思考模型，总参数量30B，激活参数量3B，宣称达到同级别SOTA水平，为轻量化部署提供了兼顾性能与效率的新选择，用户可免费调用。

1月20日，阶跃星辰开源10B多模态模型Step3-VL-10B。仅10B参数的模型在多项基准测试中达到同规模SOTA，甚至媲美或超越规模大10-20倍的模型。该模型通过全参数联合训练、大规模强化学习及并行协调推理机制，实现了视觉感知、逻辑推理等能力的跃升，有望推动复杂多模态推理下沉至终端设备。

1月21日，MiniMax Agent推出桌面端版本。该产品具备深度整合本地文件功能，用户可选择工作空间让AI读取、分析并批量处理数据。新增的全浏览器控制功能使用户只需描述任务，AI即可自动导航、点击并提交。用户还可将偏好配置保存为可重用模板，涵盖指令、模型偏好和代理行为。

1月21日，Qoder发布v0.3.1版本。该版本主要解决了三个痛点——更高效的协作方式、更顺手的交互方式、更强的智能体执行能力，进一步提升用户体验。

1月22日，LightOnOCR发布1B参数端到端OCR模型。在OlmOCR-Bench测试中，该模型超越90亿参数的Chandra模型1.5个百分点，速度快3.3倍，采用Apache 2.0协议开源。该模型支持Transformers和vLLM生态系统，适用于文档处理、PDF转Markdown等场景。

1月22日，百度发布文心大模型5.0正式版。该模型拥有2.4万亿参数，具备全模态理解与生成能力。百度方面称，在40余项权威基准的综合评测中，文心5.0正式版的语言与多模态理解能力超越Gemini-2.5-Pro、GPT-5-High等模型。

1月22日，百川智能发布Baichuan-M3 Plus医疗大模型。该模型首创”证据锚定”技术，让AI生成的每句医学结论都能精确对应原始论文证据段落，幻觉率降至2.6%。同时推出「海纳百川」计划，向中国医疗服务机构免费开放API。

1月22日，微软开源VibeVoice-ASR语音识别模型。该模型能够在一次处理过程中处理长达60分钟的音频，并生成结构化的转录内容，包括发言者、时间戳和具体内容。模型还支持自定义热词功能，为长时间音频记录提供了高效的解决方案。

1月22日，阿里千问宣布开源Qwen3-TTS语音生成模型全家桶。该系列包含1.7B和0.6B两种尺寸，支持10种主流语言及方言音色，具备音色克隆、创造与控制能力，端到端合成延迟低至97ms，首包音频仅需等待一个字符。

1月23日，基于Claude Code的UI设计画布应用Pencil上线。该应用内置设计组件库，使用Claude按组件库风格生成前端代码，方便手动修改，并支持导入Figma文件。

1月23日，谷歌DeepMind发布D4RT 4D世界模型。该模型彻底颠覆了动态4D重建范式，抛弃复杂的传统流水线，用统一的”时空查询”接口同时搞定全像素追踪、深度估计与相机位姿。不仅精度屠榜，速度更比现有SOTA快出300倍，是具身智能与自动驾驶以及AR的新基石。

1月24日，OpenAI编程工具Codex登陆JetBrains全家桶。开发者无需离开IDE即可完成规划、编码、测试等全流程，支持Rider、IDEA、PyCharm等编辑器。支持ChatGPT账号、API Key等多种方式接入，目前限时免费。

1月24日，字节跳动Seed团队与华中科技大学发布Stable-DiffCoder-8B代码大语言模型。该研究成功解决了扩散语言模型在代码领域长期性能弱于传统自回归模型的问题，在同等参数规模和训练预算下，实现了对自回归模型的超越。

1月24日，微软发布医疗时序基座模型。该模型使用4540亿数据预训练，能够解决不规则采样问题，开启医疗AI的”通用基座”时代。

1月24日，MiniMax发布M2-her大型语言模型。该模型专为沉浸式角色扮演、人设驱动的聊天以及富有表现力的多轮对话而打造，支持丰富的消息角色，并能通过示例对话进行学习，特别适用于故事创作、虚拟伴侣等追求自然流畅度和生动交互感的应用场景。

issue157 2026.1.26-2.1

1月26日，7×24h”全职AI员工”Clawdbot引发全网关注。Clawdbot是一个运行在本地设备上的个人AI助手，通过多种通信渠道（WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage等）与用户交互，提供本地、快速和持久在线的AI助手体验。该项目包含Gateway网关控制平面、Pi代理运行时、多渠道支持、语音唤醒、Canvas可视化工作区等功能，支持macOS、iOS、Android等多个平台。
1月26日，腾讯混元发布图像3.0图生图模型。该模型总参数量80亿（激活参数约13亿），采用混合专家（MoE）架构，基于混元图像3.0的原生多模态架构基础模型，引入图生图的多任务数据，通过指令微调和后训练，实现了对用户输入图像和编辑指令的深度理解与处理，一句话即可P图。
1月27日，阿里发布千问旗舰推理模型Qwen3-Max-Thinking。该模型总参数超万亿，在事实知识、复杂推理、指令遵循、人类偏好对齐以及智能体能力等多个关键维度实现显著提升，号称性能媲美GPT-5.2。
1月27日，DeepSeek发布DeepSeek-OCR 2文档识别模型。该模型引入”视觉因果流”概念，通过DeepEncoder V2编码器动态重排视觉token顺序，更贴近人类阅读逻辑。在OmniDocBench v1.5测试中整体得分达91.09%，识别性能提升3.73%，让AI像人一样”读懂”复杂文档。
1月27日，Kimi发布并开源K2.5模型。这是Kimi迄今最智能的模型，在Agent、代码、图像、视频及一系列通用智能任务上取得开源state-of-the-art表现。它也是Kimi迄今最全能的模型，采用原生多模态架构设计，同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务。
1月28日，OpenAI推出Prism。这是一个由GPT-5.2驱动的免费AI原生科研协作空间，将初稿撰写、润色修订、团队协作、投稿准备整合于统一的云端LaTeX原生工作空间中，旨在帮助科研团队从琐碎的文件管理中解脱出来。
1月28日，阿里云通义开源6B参数Z-Image基座模型。该模型为非蒸馏基座模型，保留全量权重分布，原生支持CFG引导机制，为LoRA、ControlNet等微调任务提供训练底座，生成图片拒绝AI”大众脸”。
1月28日，Hyper3D公布Rodin Gen-2 Edit AI模型。该模型实现文字/图像生成3D内容，并整合编辑功能，形成完整商用工作流，支持一键照片”手办化”。现已开放免费体验，支持导入现有模型进行二次创作，提升专业用户效率。
1月28日，昆仑万维发布Mureka V8音乐大模型。该模型综合能力超越Suno V5，AI Studio与API同步开放，号称”全球AI音乐之王易主”。
1月29日，MiniMax稀宇科技发布Music 2.5模型。该模型宣称在”段落级强控制”与”物理级高保真”两大技术难题上实现突破——让创作更准，让音乐更真，还宣称格莱美级创作”不再需要录音棚”。
1月29日，蚂蚁集团旗下灵波科技宣布全面开源世界模型LingBot-World。该模型对标Genie 3，是蚂蚁在具身智能领域的重要布局。
1月29日，阿里千问团队正式开源Qwen3-ASR系列语音识别模型。该系列包括1.7B和0.6B两个版本，支持52种语种与方言的识别，其中1.7B模型在中文、英文及歌唱识别等场景达到SOTA水平。0.6B模型效率惊人，10秒可处理5小时音频。
1月30日，谷歌发布Gemini版Chrome。该版本直接在浏览器中集成AI辅助功能，用户可在任何网页上轻松了解更多资讯、加快工作速度，并激发崭新想法。
1月30日，生数科技发布Vidu Q3 Pro视频生成模型。该模型支持16秒声画同出，号称硬刚马斯克，超越Sora 2，是国产AI视频模型的又一重大突破。
1月31日，快手推出新一代视频生成模型可灵3.0系列。该系列包含图片3.0、视频3.0和视频3.0 Omni，图片模型支持2K/4K组图生成，视频模型最长可生成15秒，新增智能分镜、音画同步及多语言口型匹配等功能。目前处于超前内测阶段。
1月31日，Moltbook Agent社交网络上线。该网站界面类似美国版贴吧Reddit，有发帖、评论、点赞等功能，目前已有150万个AI Agent入驻。

issue158 2026.2.2-2.8

2月2日，阶越星辰开源Step 3.5 Flash。该模型定位为”为Agent而生”的开源基座模型，主打推理速度、Agent能力和长链条任务稳定性。
2月2日，马斯克旗下xAI发布Grok Imagine 1.0视频生成模型。新版本解锁10秒视频、720p分辨率和大幅提升的音频质量。官方数据显示，仅过去30天就已生成12.45亿个视频。
2月2日，Agents开发者社区AGDN发布上线。AGDN类似Moltbook，但可无门槛入驻，并聚焦技术讨论。
2月3日，OpenAI推出Codex桌面版macOS应用。该应用支持多智能体并行编程，并提升付费用户速率限制，直接对标Claude Code。
2月3日，Google发布Conductor。这是一个面向Gemini CLI的开源预览版扩展，旨在将AI代码生成从随机对话转变为结构化、上下文驱动的工作流，告别聊天式编程。
2月4日，阿里通义实验室开源80B编程模型Qwen3-Coder-Next。该模型专攻智能体能力，让个人电脑也能跑出顶级编程智能体。
2月4日，昆仑万维发布”天工Skywork桌面版”。AI首次真正走进桌面办公现场，直接在本地执行任务，无需上传文件到云端，能跨文件、跨格式理解内容，并主动响应工作需求。
2月5日，上海AI实验室发布书生Intern-S1-Pro。该模型是全球开源参数规模最大的科学多模态模型，基于混合专家（MoE）架构，共拥有512个专家，总参数达1T，每次调用仅激活8个专家、22B参数。
2月5日，智谱GLM-OCR开源。仅0.9B参数的轻量级身躯，便以94.6分登顶OmniDocBench V1.5，并在公式识别、表格识别、信息抽取的多项主流基准中均取得SOTA表现。
2月5日，Mistral AI发布Voxtral Transcribe 2系列语音转文字模型。该模型延迟不足0.2秒，其中Voxtral Mini Transcribe V2拥有目前性价比最高的转录API，准确率表现优于GPT-4o mini Transcribe、Gemini 2.5 Flash。
2月5日，OpenAI发布Frontier平台。该平台为智能体提供了人们在工作中所需的技能：共享上下文、入职培训、反馈式动手学习以及明确的权限和边界，让团队能够超越孤立的使用案例，成为”跨业务的AI合作伙伴”。
2月5日，面壁智能开源全模态模型MiniCPM-o4.5。该模型首次引入全双工（Full-Duplex）多模态实时流机制，可以一边持续接收视频和音频输入，一边同步生成语音或文本输出，两条信息流并行运行，互不阻塞。
2月6日，OpenAI发布GPT-5.3-Codex。这是一款原生的Codex智能体，将前沿的编程性能与通用推理能力相结合，以支持真实世界中长周期的技术工作。该模型将GPT-5.2-Codex的编程性能与GPT-5.2的推理及专业知识能力整合于一身，且运行速度提升25%。
2月6日，Claude Opus 4.6发布。这是Anthropic对其旗舰人工智能模型的重大升级，规划更加谨慎，能够维持更长时间的自主工作流程，并在关键的企业基准测试中超越了包括GPT-5.2在内的竞争对手。
2月6日，商汤开源SenseNova-SI-1.3。该模型在八大空间智能榜单综合评分登顶，初探空间智能尺度效应。
2月6日，美团发布LongCat-Flash-Lite轻量化MoE模型。这是一款拥有685亿参数，每次推理仅激活29亿~45亿参数的模型，在智能体与代码任务上表现突出。
2月7日，小米MiMo推出HySparse混合稀疏注意力架构。7B Dense和80B MoE两种规模均可带来提升，面向Agent时代。
2月8日，Claude Code推出”快速模式”预览版。通过优化Opus 4.6的API配置，在保持模型质量不变的前提下显著降低响应延迟。该模式适用于Pro、Team等订阅用户，目前定价为每百万Token输入30美元、输出150美元。
2月8日，字节跳动Seedance 2.0发布。该AI视频生成模型已在即梦和小云雀平台上线，会员用户可直接使用。它支持文本生成视频、图片生成视频，也支持视频和音频作为参考素材输入，支持自分镜和运镜、多模态思考等。

issue159 2026.2.9-2.15

2月10日，千问发布Qwen-Image-2.0图像生成模型。该模型支持1k token指令直出专业信息图，2k分辨率细腻刻画写实场景，实现理解生成一体化。
2月10日，字节图像生成模型Seedream 5.0上线。该模型对标Nano Banana Pro，可在即梦、剪映、小云雀等平台免费体验。
2月10日，腾讯混元开源”极小”模型HY-1.8B-2Bit。面向消费级硬件场景，实际存储仅占用600MB，实现端侧部署新突破。
2月11日，智谱发布新一代旗舰模型GLM-5。在Coding与Agent能力上取得开源SOTA表现，真实编程场景的使用体感逼近Claude Opus 4.5，擅长复杂系统工程与长程Agent任务。
2月11日，科大讯飞发布星火X2大模型。基于全国产算力训练，通用能力对标国际顶尖，在数学、推理、语言理解等方面表现突出。
2月11日，蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0。支持语音、音效、音乐同轨生成，用户可通过自然语言精细控制音色、语速、情绪等参数，在视觉理解和图像编辑方面表现突出。
2月12日，面壁智能发布MiniCPM-SALA。这是行业首个大规模训练的稀疏-线性注意力混合架构，在长文本理解与生成评测中优势明显，且保持与同规模全注意力模型相当的推理能力。
2月12日，字节跳动视频生成模型Seedance 2.0接入豆包。支持原声音画同步、多镜头长叙事，用户可输入提示词生成5秒或10秒视频。
2月12日，MiniMax M2.5正式上线。作为全球首个为Agent场景原生设计的生产级模型，编程与智能体性能比肩国际顶尖模型，直接对标Claude Opus 4.6，激活参数量仅10B，支持100 TPS超高吞吐量。
2月13日，小红书开源图像编辑新SOTA模型FireRed-Image-Edit。创新OCR奖励机制，解决海报改字场景下的稳定性问题。
2月13日，谷歌Gemini 3 Deep Think重大升级。聚焦复杂科学与工程推理，成本降低幅度高达280至420倍。
2月13日，OpenAI与Cerebras推出GPT-5.3-Codex-Spark模型。用晶圆级引擎实现每秒1000 tokens超高速推理，解决AI编程等待延迟问题。
2月13日，蚂蚁集团开源Ring-2.5-1T。这是首个混合线性架构的万亿参数思考模型，在IMO、CMO等数学竞赛中达到金牌水平，长程推理与智能体任务执行表现优异，生成效率提升3倍。
2月13日，字节跳动发布Seedream 5.0 Lite。在理解、推理和生成方面全面提升。
2月14日，豆包大模型2.0系列发布。包含Pro、Lite、Mini三款通用Agent模型和Code模型，灵活适配各类业务场景。
2月15日，京东开源JoyAI-LLM-Flash大模型。总参数48B，激活参数3B，在20万亿文本Token上预训练，擅长前沿知识理解、推理和编程。

issue160 2026.2.16-2.22

2月16日，Moonshot正式推出Kimi Claw。通过 Kimi 极速部署 OpenClaw，打造拥有个性人设与长期记忆的 7×24 小时在线 AI 助手，支持主动执行定时任务。
2月16日，阿里Qwen3.5-Plus/Qwen3.5-397B-A17B新模型上线，后者定位”开源旗舰”。
2月18日，Anthropic宣布推出中型模型Sonnet的最新版本Sonnet 4.6。在代码编写、指令遵循以及计算机操作等方面均有明显提升，将立即成为免费和付费Pro用户的默认模型。
2月18日，谷歌AI搜索功能升级，更突出展示信息来源链接。在AI概览和AI模式中加入悬停弹窗、链接图标和文章简介，旨在回应外界对其AI搜索导致网站流量下滑的担忧。
2月18日，Manus Agent发布，支持连接Telegram。用户可直接在消息应用中访问和使用 Manus Agents，Telegram是首个支持的渠道。
2月19日，谷歌发布Lyria 3模型，可一键生成30秒高保真AI音乐。免费向18岁以上用户开放，可根据文本、图片、音频或视频提示生成音轨，并自动创作歌词、生成专辑封面。
2月19日，Cursor 2.5发布，Cursor Marketplace上线。推出用于扩展Cursor的插件、对核心Agent功能的改进，以及针对沙箱命令的细粒度网络控制。
2月20日，Gemini 3.1 Pro发布。在测试模型解决全新逻辑模式能力的ARC-AGI-2基准上拿下77.1%，是上代3 Pro的两倍多，同时压过了Anthropic的Opus 4.6和OpenAI的GPT-5.2。
2月22日，Anthropic推出安全工具Claude Code Security。能像老练的网安工程师一样理清组件交互与数据流动的方式，捕获业务逻辑缺陷、访问控制失效等复杂漏洞。

issue161 2026.2.23-3.1

2月25日，Perplexity Computer上线。整合Claude、Gemini、ChatGPT等多模型，支持自主执行搜索、文档生成、数据处理等完整工作流程，月费200美元。
2月25日，Anthropic推出企业插件Cowork & Plugins。让Claude直接嵌入Excel、PowerPoint、Slack等办公软件，实现跨程序无缝操作，无需复制粘贴。
2月25日，Anthropic为Claude Code引入远程控制模式。支持通过iPhone或安卓手机远程同步并控制电脑本地的命令行编程任务。
2月25日，谷歌开放ProducerAI平台。深度融合Gemini、Lyria 3、Veo等大模型，为音乐人提供从作词、编曲到混音的全链路创作支持。
2月25日，阿里千问开源Qwen3.5-Flash系列中等规模模型。包含35B-A3B、122B-A10B、27B三款，在复杂代理场景中表现优异，性能超越前代更大规模模型。
2月26日，Adobe Firefly上线视频粗剪功能。用户通过自然语言描述视频目标，系统自动筛选关键片段、拼接镜头并生成过渡效果。
2月26日，Minimax推出Agent Expert 2.0与云端AI助手MaxClaw。用户用自然语言描述任务，Agent自动完成SOP梳理、工具编排与能力配置，支持飞书、钉钉等多渠道协作。
2月26日，华为云码道代码智能体公测版发布。基于千亿级代码库沉淀与华为云算力底座打造，开放免费体验。
2月27日，谷歌宣布Android系统Gemini自动化升级。AI可执行叫Uber、订外卖等多步骤任务，即将在Pixel 10和三星Galaxy S26上实现。
2月27日，谷歌推出Nano Banana 2图像AI模型。基于Gemini 3.1 Flash Image构建，输出分辨率从2K升至4K，修复中文字符乱码问题。
2月27日，谷歌翻译引入Gemini AI功能。不仅能翻译，还能解释习语、提供同义替换，并说明不同表达的使用场景。
2月27日，Figma推出Codex对接功能。通过MCP服务器实现设计稿与可运行代码双向同步，提升从设计到开发的效率。
2月27日，DeepSeek发布DualPath推理系统。通过双路径加载机制消除KV缓存I/O瓶颈，显著提升系统吞吐量。
2月28日，阿里云开源桌面Agent工具CoPaw。可自由接入本地模型，适配钉钉、飞书、QQ等多软件平台。
2月28日，昆仑天工发布多模态视频模型SkyReels-V4。支持最高1080p分辨率、32FPS帧率、最长15秒输出，实现音频与画面精准同步。

issue162 2026.3.2-3.8

3月2日，美团旗下光年之外发布AI浏览器Tabbit。集浏览、搜索、对话与智能执行于一体，支持自动执行复杂网页操作任务。
3月2日，阿里通义实验室发布两款语音生成模型。Fun-CosyVoice3.5与Fun-AudioGen-VD支持用自然语言指令直接控制语音生成效果。
3月2日，阿里千问开源四款Qwen3.5小尺寸模型。覆盖0.8B到9B参数，满足从IoT设备到服务器端的多样化部署需求。
3月3日，阿里QoderWorker桌面Agent全面开放。支持Mac/Windows，集成顶尖模型与Agent框架，内置沙盒环境保障隐私。
3月4日，谷歌发布Gemini 3.1 Flash-Lite模型。输出速度363 token/s，价格仅0.25美元/百万Token。
3月4日，蚂蚁集团携手清华大学开源AReaL强化学习系统。通过解耦生成与训练流程，训练AI推理最高提速2.77倍。
3月4日，字节Seedance 2.0视频生成模型公布API定价。纯视频生成46元/百万tokens，含视频输入28元/百万tokens。
3月4日，OpenAI推出GPT-5.3 Instant。幻觉率降低26.8%，回答风格更自然，不再”说教”。
3月5日，微软发布Phi-4-Reasoning-Vision-15B开源模型。结合高分辨率视觉感知与选择性推理，能自主决定何时启动深度思考。
3月6日，OpenAI正式发布GPT-5.4。包括Thinking和Pro两个版本，支持100万Token长上下文与Computer-Use，推动大模型向AI代理演化。
3月6日，FlashAttention-4正式发布。算法流水线大幅改进，实现矩阵乘法级速度，兼顾灵活性与高性能。
3月7日，谷歌开源Google Workspace CLI。内置超40项Agent Skills，让OpenClaw等AI智能体直接操作Gmail、Drive云盘等核心办公数据。
3月7日，谷歌NotebookLM新增”电影化视频概览”功能。调用Gemini 3、Nano Banana Pro及Veo 3等模型，将研究笔记自动生成动态视频。
3月7日，腾讯QQ开放OpenClaw”小龙虾”官方接入。支持一键创建机器人，单个QQ号最多可创建5个，支持多媒体交互。

issue163 2026.3.9-3.15

3月9日，字节跳动火山引擎上线ArkClaw。开箱即用的云上SaaS版OpenClaw，支持网页端及飞书等主流通讯App。
3月9日，腾讯云正式发布全场景AI智能体WorkBuddy。完全兼容OpenClaw技能，支持多窗口并行，可无缝切换混元、DeepSeek等国内大模型。
3月9日，MiniMax为OpenClaw推出语音与音乐新技能。支持定制音色、创作完整歌曲与纯音乐，让AI助手更全能。
3月9日，小红书发布FireRed-Image-Edit图像编辑模型1.1版。大幅提升人像一致性，支持原生ComfyUI节点，仅需30GB显存。
3月9日，华为小艺开放平台新增OpenClaw模式。支持通过小艺App连接7×24个人专属智能体。
3月10日，智谱AI上线AutoClaw”澳龙”工具。支持本地电脑一键部署OpenClaw，内置深度优化的Pony-Alpha-2模型。
3月10日，阿里”无影JVS”更名为”JVS Claw”开启内测。阿里版OpenClaw应用，提供独立App和网页版，内测期每位用户免费获8000Credits额度。
3月10日，腾讯电脑管家推出基于OpenClaw的本地AI助手QClaw。支持Mac与Windows双端，通过微信远程操控电脑，数据全部留在本地。
3月11日，谷歌发布首个原生多模态嵌入模型Gemini Embedding 2。可将文本、图像、视频和文档映射到同一嵌入空间。
3月11日，百度智能云发布零部署OpenClaw服务DuClaw。面向零基础用户，无需配置API Key，网页端直接开用。
3月10日，腾讯混元开源世界模型强化学习后训练框架WorldCompass。作为混元世界模型1.5官方扩展模块，提升交互准确性与体验。
3月12日，英伟达发布最强开源权重模型Nemotron 3 Super。120B参数，吞吐量较前代飙升5倍。
3月12日，Perplexity推出Personal Computer服务。基于Mac mini的全天候AI管家，能自动拆解复杂任务并委派子智能体执行。
3月12日，腾讯龙虾技能社区SkillHub上线。专为中国用户优化，已收录超13000个龙虾技能。
3月13日，ChatGPT与Claude双双支持交互式可视化图表。从纯文本聊天进化为支持交互式可视化的学习工具，开启AI交互式图表时代。

issue164 2026.3.16-3.22

3月16日，腾讯宣布”元宝派”正式支持接入OpenClaw。用户可将自己的龙虾拉到派内，实现多人与AI协同与社交互动。
3月16日，英伟达在GTC 2026大会上全面扩展开源模型家族。发布Nemotron 3 Ultra，吞吐量效率提升5倍，推动智能体与物理AI发展。
3月17日，阿里发布全球首个企业级AI原生工作平台”悟空”，定位企业级Agent平台。
3月18日，哩布哩布上线LibTV视频创作平台。首个同时面向人与Agent的专业视频创作平台，首发搭载最强视频模型。
3月18日，OpenAI发布GPT-5.4 mini与nano。号称迄今能力最强小型模型，GPT-5.4 mini较前代速度提升两倍以上，nano为最轻量快速版本。
3月18日，Manus推出”My Computer”系统。实现本地化AI智能体操作，对标OpenClaw与Perplexity的Personal Computer。
3月18日，MiniMax发布M2.7模型。能自行构建复杂Agent Harness，基于Agent Teams、Skills等能力完成高度复杂任务，开启模型自我进化。
3月19日，小米深夜上线三大自研MiMo-V2系列模型。包括旗舰Pro、全模态基座Omni和语音合成TTS，已登陆多个平台并支持OpenClaw接入。
3月19日，谷歌更新UI设计工具Stitch。引入”氛围设计”理念，用户可直接从抽象概念出发开启设计流程，打破线框图起步的传统限制。
3月19日，Adobe FireFly解锁新技能。支持使用用户自己的画作训练AI模型，确保风格一致性，面向高频内容生产场景。
3月20日，千问发布Qwen3.5-Max-Preview旗舰模型预览版。在LMArena取得1464分，冲进全球前五、中国第一。
3月20日，Perplexity推出AI健康助手Health服务。可读取病历、手环等健康数据，提供个性化医疗建议，数据加密且不用于训练。
3月20日，微软发布第二代图像生成模型MAI-Image-2。在LMArena图像生成排行榜跻身第三名。
3月20日，Cursor基于Kimi-K2.5后训练推出Composer 2编程模型。具备20万Token上下文窗口，主打长周期智能体编程，输入输出价格降低86%。
3月20日，Claude Code新增Channels功能。支持手机远程控制AI编程，凌晨床上发条消息即可驱动Mac Mini编程。
3月20日，美图广告视频Agent产品Advivi发布上线，支持一句话生成专业广告视频并提供在线视频编辑器供人工修改，大幅提升视频广告制作效率。
3月21日，马斯克宣布Grok Computer智能体即将上线。预计将以Grok智能体身份登场，为”巨硬（Macrohard）”铺路。
3月22日，微信推出官方龙虾插件ClawBot。支持接入OpenClaw，用户扫码即可将OpenClaw接入微信，通过聊天快速调用龙虾。

issue165 2026.3.23-3.29

3月24日，阿里通义实验室发布PrismAudio视频生成音频框架。采用强化学习与分解式思维链，仅5.18亿参数即可精准匹配视频环境音，生成9秒音频仅需0.63秒。
3月24日，Claude Cowork上线Dispatch新功能。用户可通过手机远程指挥电脑Agent，开启本地工作流自动化。
3月25日，腾讯元宝派电脑版上线。支持多端消息同步、文件拖拽，可边共享屏幕边实时交流。
3月26日，谷歌推出压缩算法TurboQuant。AI运行内存占用锐降至1/6，有望解决大模型KV Cache内存瓶颈。
3月26日，谷歌发布最先进音乐生成模型Lyria 3 Pro。可创作近3分钟完整音轨，内置SynthID数字水印，已集成至Gemini等多个产品。
3月26日，OpenClaw 3.24发布。解决Skills安装障碍，控制台界面大改，修复文件访问安全漏洞及多平台频道bug。
3月27日，谷歌发布Gemini 3.1 Flash Live音频模型。专为实时语音交互设计，在ComplexFuncBench Audio中得分90.8%，向开发者全面开放。
3月27日，谷歌Gemini支持一键导入ChatGPT、Claude记忆与聊天记录，实现AI助手无缝切换。
3月27日，趣丸科技Tunee上线MV Agent，支持接入OpenClaw。强调全流程可编辑，创意、角色、脚本、分镜每个环节可单独调整。
3月27日，阿里QoderWork打通钉钉、微信、飞书。手机端可直接召唤桌面AI助手，远程完成文件整理、数据处理等任务。
3月27日，美团发布开源原生多模态大模型LongCat-Next。将文字、图像、语音统一为离散Token，实现跨模态统一预测。
3月27日，OpenAI为Codex推出插件服务。开发者可将Skills、MCP服务器配置等打包成可安装工作流，目前已集成Slack、Figma等工具，用户量超百万。
3月27日，智谱GLM-5.1面向所有Coding Plan用户开放，覆盖Lite、Pro、Max全部层级。
3月27日，钉钉CLI开源，首批开放10项核心产品能力，原生支持Claude Code等。
3月27日，谷歌内部AI工具Agent Smith曝光。可自动处理编程等多项任务，因使用人数激增被迫限制访问权限。
3月28日，Anthropic未公开博客草稿泄露，曝光正在研发的下一代AI模型Claude Mythos。官方证实其为公司迄今”最强模型”，但警告称其可能增加网络攻击风险。
3月28日，Suno发布v5.5音乐生成大模型。全面聚焦个性化定制，推出”声音”、”自定义模型”与”我的品味”三大核心功能。

issue166 2026.3.30-4.5

3月30日，飞书、企微相继开源CLI，为用户提供面向Agent友好的Interface。
3月30日，阿里千问发布全模态大模型Qwen3.5-Omni。可无缝理解文本、图片、音频及音视频输入，在多项任务中超越Gemini 3.1 Pro。
3月31日，阿里云旗舰级大模型Qwen 3.6 Plus Preview在OpenRouter免费开放。推理能力和Agent行为可靠性显著提升，支持100万token上下文窗口。
3月31日，蚂蚁灵波科技正式开源大规模RGB-D深度数据集LingBot-Depth-Dataset。
4月1日，谷歌DeepMind发布最实惠视频生成模型Veo 3.1 Lite。720p画质每秒仅需0.05美元，成本不到Fast版本一半。
4月1日，阿里通义实验室发布Wan2.7-Image图像生成模型。让人更真、字更稳、色更准，支持深度自定义虚拟形象。
4月1日，Anthropic因构建失误致Claude Code完整TypeScript源代码意外泄露，系一周内第二起安全事件，已撤下问题版本并启动内部审计。
4月1日，字节跳动TRAE推出新版SOLO独立客户端，不只能用来编程，需求、设计、数据、运营等岗位的人也都能用来提高办公效率。
4月2日，Anthropic推出永久在线AI Conway，Claude获得”永久在线”能力，终结被动聊天时代。
4月2日，美团发布LongCat-AudioDiT音频生成模型。直接于波形潜空间进行文本转语音，3.5B版本说话人相似度超越多个知名模型，现已开源。
4月2日，智谱发布多模态Coding基座模型GLM-5V-Turbo。原生理解图片、视频、设计稿等多模态输入，上下文窗口扩展至200k。
4月3日，谷歌发布Gemma 4开源大模型，31B参数性能达头部水准。全系原生支持多模态处理与超长上下文，E2B/E4B模型专为端侧优化。
4月3日，阿里发布Wan2.7-Video新一代视频创作大模型。提供生成、编辑、复刻、重塑、驱动与剧情续写等全流程能力。
4月3日，微软推出全球最精准转录AI模型MAI-Transcribe-1，平均字错误率仅3.9%。
4月3日，Cursor发布Cursor 3。核心功能允许开发者创建并部署AI编程智能体，以全自动方式完成复杂开发任务。
4月3日，OpenClaw 3.31至4.2三大版本接连更新，加入QQ机器人支持，持久化任务流上线。

issue167 2026.4.6-4.12

4月7日，谷歌上线AI语音转写工具Google AI Edge Eloquent，完全免费无限用且支持本地运行，保护用户隐私。
4月7日，Coze 2.5发布，支持独立身份、工具链和Agent World，成为Agent互联网络。
4月8日，PixVerse发布首个影视行业大模型C1，运镜效果惊艳。
4月8日，Anthropic启动Project Glasswing计划，发布前沿模型Claude Mythos Preview，联合苹果、微软等11家科技巨头用于网络防御，已自动发现数千高危漏洞。
4月8日，阿里神秘视频生成模型HappyHorse-1.0登顶AI视频测评榜首，在多镜头视频拍摄和指令遵循方面表现突出。
4月8日，智谱正式开源GLM-5.1模型，可独立持续工作超8小时，自主规划执行并交付完整工程级成果。
4月8日，微软GitHub推出Copilot CLI实验性功能Rubber Duck，引入跨模型审查机制，AI性能提升近75%。
4月8日，DeepSeek V4灰度测试曝光全新界面，多模态版本确认，正式版发布在即。
4月8日，Adobe推出免费AI学习平台Acrobat Student Spaces，内置7×24小时AI助教。
4月9日，京东开源图像模型JoyAI-Image-Edit，业内首个深度集成空间智能的图像模型，支持视角变换和三维空间重塑。
4月9日，Meta推出超级智能实验室首款AI模型Muse Spark，强调高效与多任务竞争力。
4月9日，MiniMax发布面向AI Agent的命令行工具MMX-CLI，解决传统命令行在自动化流程中的多项痛点。
4月9日，DeepSeek专家模式已支持上传文件，App和网页端均已上线，最多支持50个文件。
4月9日，字节跳动Seed发布原生全双工语音大模型Seeduplex，基于”边听边说”框架，对话流畅度提升12%，已全量上线豆包App。
4月9日，阿里云百炼上线Agent记忆库，可通过OpenClaw等Agent产品一键安装，让应用更懂用户。
4月9日，微信支付发布面向AI的支付接入Skill，涵盖技能包、AI友好文档和API三大工具。
4月9日，腾讯云发布QClaw V2大版本，上线多Agent、跨应用直连，业内首发”龙虾管家”。
4月10日，谷歌Gemini AI更新，可生成交互式图表和3D模型，以更直观方式理解复杂概念。
4月10日，MiniMax发布新一代音乐生成模型Music 2.6，可理解国风演奏细节，支持结构化音乐生成。

issue168 2026.4.13-4.19

4月13日，港科大开源StarVLA乐高式架构。统一VLA范式，解决碎片化问题，复现成本大幅降低。
4月14日，Netflix首次开源AI视频模型VOID，视频物件与互动删除模型，以Apache 2.0许可证发布，可免费商用。
4月14日，Nous Research更新Hermes Agent v0.9.0。首次支持Web管理界面和Android手机运行，覆盖16个通讯平台。
4月14日，MiniMax龙虾上线Pocket与Computer Use两项新功能。支持微信飞书远程操控，看屏幕点鼠标更溜。
4月14日，英伟达发布全球首个开源量子误差校正AI模型ISING。旨在帮助科研人员、企业构建实际应用的量子处理器，重点解决误差校正与处理器校准两大痛点。
4月15日，微软推出MAI-Image-2-Efficient文生图模型。生成速度提升22%，效率提升4倍，成本降低41%，现已商用。
4月15日，Claude Code重构上线Routine功能。支持定时、API、GitHub三路触发，变身”云端员工”7×24小时工作。
4月15日，Chrome为Gemini上线”技能库”。用户可将复杂AI提示词固化为可复用”技能”，实现跨网页一键调用。
4月15日，百度文心开源文生图模型ERNIE-Image。基于单流DiT架构，仅8B参数，消费级显卡即可顶级渲染与高密度文本绘图。
4月15日，李飞飞World Labs推出Spark 2.0。把亿级3DGS（3D高斯泼溅）世界搬进浏览器，开源渲染神器。
4月15日，北大联合Llama-Factory推出DataFlex。工业级数据动态训练系统，构筑支撑下一代AI应用的数据基础设施。
4月15日，OpenAI发布GPT-5.4-Cyber。无需源码就能找漏洞，但目前仅限定向邀请使用。
4月16日，谷歌推出Mac原生Gemini应用。100% Swift开发，支持Option+Space快捷键唤起、屏幕共享及多语音播报。
4月16日，Adobe发布Firefly AI Assistant。具备自主决策能力的智能体工具，可跨应用编排工作，加速创意落地。
4月16日，腾讯开源混元3D世界模型2.0。可根据文字、图片或视频生成完整3D世界，直接输出可编辑资产，无缝对接Unity、UE引擎。
4月16日，阿里ATH事业群发布世界模型产品Happy Oyster。主打实时世界创建与交互，可生成动态三维环境，现已开启内测。
4月16日，DeepL推出实时语音翻译功能。Slator独立盲测中，96%语言学家更青睐DeepL Voice而非谷歌、微软、Zoom的原生翻译方案。
4月16日，阿里千问开源Qwen3.6-35B-A3B。总参数量350亿激活参数30亿，在智能体编程和多模态任务上超越前代及部分稠密模型。
4月16日，Seedance 2.0上线1080P。比720P贵约1.5倍，首72小时仅限”抢先体验计划”核心用户使用。
4月17日，OpenAI升级Mac版Codex。新增桌面应用操作能力，接入90+插件，支持多智能体并行运行和长期任务执行。
4月17日，Anthropic发布Claude Opus 4.7。胜任更长任务、支持自主检查，视觉能力大幅拉满。
4月17日，OpenAI下一代GPT Image 2泄露测试。已在ChatGPT A/B测试中现身，预计4月底至5月中正式发布，AI生图从”艺术”走向”生产力”。
4月18日，Anthropic Labs推出”Figma杀手”Claude Design。通过与Claude对话来创建设计、交互式原型、演示文稿等。
4月19日，谷歌发布A2UI 0.9生成式UI标准。为AI智能体构建用户界面而生，提供共享Web核心库、官方React渲染器，并支持Flutter、Lit等框架，同步推出全新Agent SDK。

issue169 2026.4.20-4.26

4月20日，月之暗面Kimi K2.6发布并开源。通用Agent、代码与视觉理解能力全面精进，HLE、SWE-Bench Pro、DeepSearchQA等基准持平或优于GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro等闭源模型。
4月20日，灵光App开启”Wish Coding”新范式。一句话生成应用，累计创建超3000万个”闪应用”，1亿元创作者激励计划同步启动。
4月20日，阿里千问发布Qwen3.6-Max-Preview。世界知识与指令遵循能力增强，多项基准上智能体编程表现显著提升，模型仍在积极迭代。
4月21日，OpenAI为Codex推出Chronicle功能。AI通过”窥屏”读取并记住用户工作习惯，让Codex真正”看懂”你的屏幕。
4月21日，小米Xiaomi miclaw开启PC、Mac、有屏音箱多终端封测。小米龙虾产品矩阵正式从手机走向桌面与家居。
4月22日，阿里千问开源Qwen3.6-27B。稠密架构无需MoE路由即可部署，智能体编程达旗舰级表现，全面超越前代开源旗舰Qwen3.5-397B-A17B。
4月22日，DeepSeek API更新百万Token上下文，与App/网页版看齐。知识库刷新至2025年5月，梁文锋透露旗舰DeepSeek V4将于4月下旬发布。
4月22日，谷歌升级自主研究智能体，推出Deep Research与Deep Research Max。基于Gemini 3.1 Pro，可连接专有数据源生成专业图表，从摘要引擎升级为企业级工作流基座。
4月22日，商汤绝影发布端侧多模态智能体基座大模型Sage。PinchBench实测94%任务完成率，领跑主流大模型。
4月22日，蚂蚁百灵发布Ling-2.6-flash。总参数104B激活7.4B的Instruct模型，匿名上线一周日均tokens调用即达100B级。
4月22日，OpenAI推出ChatGPT Images 2.0生图工具。基于GPT Image 2模型，引入”思考能力”，支持联网搜索与单次生成8张连贯图像。
4月23日，腾讯发布并开源混元Hy3 preview。快慢思考融合的MoE架构，总参数295B激活21B，256K上下文，主打全面实用性，Agent能力大幅提升。
4月23日，字节跳动Seed发布Seed3D 2.0。几何及纹理材质生成均达SOTA表现，精度与可用性双双提升。
4月23日，小米深夜官宣MiMo-V2.5系列。旗舰推理MiMo-V2.5、全模态Agent V2.5-Pro开启公测并即将开源，V2.5-TTS与ASR紧随其后，比Kimi K2.6省42% Token。
4月23日，OpenAI在ChatGPT中推出Workspace Agents。团队可创建协作智能体，7×24小时在线自动化处理复杂任务和长周期工作流。
4月23日，OpenAI在美国推出ChatGPT临床医生版本。认证后免费使用，辅助文档与医学研究，数据显示72%美国医生已在临床中使用AI。
4月24日，DeepSeek发布V4预览版，迈入百万上下文普惠时代。Pro与Flash双版本同步上线，Agent、世界知识与推理性能领跑国内与开源阵营，API改model_name即可调用。
4月24日，OpenAI推出GPT-5.5。迄今最智能、最直观的AI模型，相比GPT-5.4完成相同任务的Token成本降至1/35、输出提速50倍，Agentic Coding、计算机使用与科研表现卓越。
4月24日，Claude开放生活服务接口Connector。Uber等15款应用率先接入，直接在对话中完成日常生活场景调用。
4月26日，OpenClaw 2026.4.24版本发布。DeepSeek V4 Flash升为默认大模型，V4 Pro同步上线，重磅接入Google Meet实时语音通话，会议变成可被Agent调用与管理的工作节点。

jax

走在路上

生成式AI大模型动态周报

发表回复取消回复

2026 年 6 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

发表回复 取消回复

发表回复取消回复