2024年的碎碎念

1月

2024-01-01 20:19:02

对甜品的最高评价是不太甜 对男人的最高评价是不太男

2024-01-02 12:02:27

一些景点有了新的装修;
iPhone用上了八达通;
更多商户支持了WeChatPay和Alipay;
KeeTa崛起,蚕食Foodpanda等外卖平台;
很多地方还残留有covid-2019疫情的贴纸提示,有些taxi上也还留有“认证抗疫的士”的贴纸;

2024-01-02 12:05:16

元旦假期日均出入境人次恢复到2019年水平

2024-01-02 18:56:09

卫视中文台、卫视电影台、星卫HD电影台、星卫娱乐台停播

2024-01-04 00:00:48

每半个月领到的WLD,转到CEX卖掉,然后U转到OneKeyCard(这一步有手续费)就能在国内支付使用了……

2024-01-04 15:05:33

Pascal、Euler 和 Oberon 等语言的作者和合作者 Niklaus Wirth 于 2024 年 1 月 1 日去世,享年 89 岁。Niklaus Wirth 于 1934 年 2 月 15 日出生于瑞士,先后任教于斯坦福、苏黎世大学、苏黎世联邦理工学院,曾在施乐帕洛阿尔托研究中心进修两年。他是 Algol W 、Modula、Pascal、 Modula-2、Oberon 等语言的主设计师,是 Euler 语言的发明者之一。1984 年他因在编程语言上的贡献而获图灵奖。他亦是Lilith电脑和Oberon系统的设计和执行队伍的重要成员。

2024-01-05 18:49:05

Introducing http://aoyo.ai – the new AI search

This is an AI search product designed for everyone.

-Based on the latest RAG technology, it allows you to search foreign language content on the internet in your native language, and the AI will summarize and respond in your native language.

-No ads, no content censorship, supporting traditional search commands like site/filetype/inurl, and can replace daily web searches.

2024-01-07 10:55:40

《繁花》的电视频道播出时间:https://www.tvmao.com/drama/YG0jXGVl/playingtime

2024-01-08 17:32:56

做出海工具不要用国内域名注册商和dns,godaddy+cloudflare+github+vercel完事

2024-01-08 22:22:29

Vision Pro来了! 1/19开始预订,2/2美国上市

2024-01-08 23:32:45

元梦之星做得比蛋仔派对精美

2024-01-11 01:00:39

单曲循环一首low歌,明年的年度听歌报告不会有它吧

2024-01-11 01:21:17

我的 #2023年度产品 :ChatGPT、Midjourney、Raycast、HomeAssistant、aoyo.ai

2024-01-11 09:09:12

Apple Music家庭版涨价到17元/月

2024-01-11 09:23:40

一觉醒来:
GPTs和ChatGPT团队版发布
SEC批准比特币ETF

2024-01-11 11:47:31

微信AI将会在今天微信公开课PRO上亮相

2024-01-11 16:54:00

实体产品:HappyRain碳纤维伞、摩飞便携电热水杯、SteamDeck、魅族myvu眼镜、添添闺蜜机

2024-01-13 19:27:18

赖萧配得票率已经超过40%

2024-01-15 20:02:24

瑙鲁与台湾断交,ROC邦交国只剩12个了

2024-01-19 19:29:01

冬青奥会在韩国江原道

2024-01-24 12:15:54

感谢流感疫苗的保护

2024-01-24 15:25:40

商业航天发展迅速,火箭发射的成本会越来越低。

2024-01-25 20:51:22

焦点访谈关注了人工智能(发展新质生产力系列报道)

2月

2024-02-01 10:20:35

对他人大段话语的引用,只用在每一段开头用左双引号。

2024-02-08 12:34:39

今年春节档前三预测:《热辣滚烫》《飞驰人生2》《第二十条》

2024-02-16 16:05:13

活到老,学到老。

2024-02-17 09:17:06

九牛迁到深圳改名新鹏城了,没能实现成都德比(虽然中甲时期有过)

2024-02-18 08:36:11

sora可以帮助电影创作者rapid prototype

2024-02-23 22:31:58

看了几集《小敏家》,剧中的装修风格不错。

2024-02-29 00:03:22

四年一次的一天。

3月

2024-03-06 15:23:12

视频生成今年应该会大跃进

2024-03-09 20:17:54

宽屏(16:9)HD视频是2010年左右普及的。

2024-03-10 13:05:08

United Nations Relief and Works Agency for Palestine Refugees “联合国近东巴勒斯坦难民救济和工程处” 或者简称为“近东救济工程处” 为什么官方中文名带有“近东”二字

2024-03-11 19:45:30

短跑第4道是卫冕道。卫冕冠军通常被安排在第4道。

2024-03-13 21:30:48

今年还是拜登vs川普

2024-03-15 18:09:26

看到一个新品牌和新品类:盖狮可吸果泥

2024-03-17 22:11:34

Suno出现之后,音乐工业会有大的变化吧

2024-03-27 17:52:11

小米SU7的电机研发还是砸了重金的。

4月

2024-04-05 20:37:13

保持对世界的好奇心

2024-04-07 19:22:45

小米SU7的广告视频是在外滩拍的

2024-04-13 21:04:09

原来民国时期就有证券市场。

2024-04-16 18:58:33

奥运火炬传递开始了。

2024-04-25 20:31:20

神舟十八号任务,成都人叶光富担任01指令长。上一次是神十三,这次任务完成后他在太空的累计时长可能会超过一年。

5月

2024-05-02 17:40:28

殷墟遗址在河南安阳市境内

2024-05-06 20:12:56

龟兹 和 虚与委蛇,以前读错了。

2024-05-07 19:25:10

M4 iPadPro 13寸,比Pencil还薄

2024-05-20 21:03:44

深圳有数字人民币硬钱包申领自助机了

2024-05-22 18:47:22

中华民国四个字出现在了央视

6月

2024-06-05 09:22:45

支付宝小荷包产品做得不错

2024-06-13 20:09:37

今年3个热播剧的片尾曲都是周深唱的

2024-06-14 23:47:02

欧洲杯揭幕战在安联球场,东道主德国的主场也是拜仁慕尼黑的主场

2024-06-22 19:34:50

在欧洲杯赛场的场边广告牌看到比亚迪的子品牌:方程豹

7月

2024-07-07 20:28:12

“垸”的意思是湖区大坝围合的陆地

2024-07-10 08:05:36

欧洲杯半决赛和美洲杯半决赛碰到了一起

2024-07-12 18:53:29

上半年新能源汽车占有率已达33.5%

2024-07-14 19:40:11

Trump被枪击后振臂一呼的形象刻在了历史中。

2024-07-16 15:09:14

伏天开始了,听到了更近的蝉鸣。

2024-07-26 16:08:24

进入奥运时间!

2024-07-28 04:02:44

21年之后有了cctv16奥林匹克频道,这次奥运会期间cctv5台标都不变成cctv奥运五环了

2024-07-29 07:58:21

用Termius替代了Transmit

2024-07-30 08:08:08

https://www.aminer.cn

8月

2024-08-01 10:48:32

deepseek模型背后是幻方,一个做量化交易的金融巨头,合理。

2024-08-05 08:36:44

李政道去世了

2024-08-06 00:50:58

巴黎奥运冲浪比赛是在大溪地(法属)举行的。

2024-08-06 00:56:23

原来Apple Intelligence要求iPhone 15 Pro是因为端侧大模型占用运行内存较高,需要8G内存以上的设备才能运行。

2024-08-07 03:47:59

腾讯课堂也要停止服务了,2016-2024

2024-08-08 06:25:51

OpenAI 发布 gpt-4o-2024-08-06 输出token提升3倍 降价33%-50% 支持JSON格式输出

2024-08-09 09:14:10

Google 播客将于 2024年8月30日停用,在此之前,您可以导出播客订阅,以便导入到您选择的服务中。 https://support.google.com/youtubemusic/answer/14151168

2024-08-09 10:54:59

刘海龙:媒介的三阶段 https://shop.vistopia.com.cn/article?article_id=570003&share_uid=gS0Ek

2024-08-10 09:08:41

抓娃娃,这不是楚门的世界吗

2024-08-11 16:08:02

巴黎奥运收官。

2024-08-17 03:56:57

中国游戏工业迎来里程碑时刻 《黑神话:悟空》全球媒体评分解禁 https://www.cnbeta.com.tw/articles/game/1442539.htm

2024-08-19 03:18:44

ollama本地运行qwen2,真简单

2024-08-20 03:15:45

https://store.steampowered.com/charts/mostplayed

2024-08-20 13:16:43

黑神话:悟空 Steam 最高同时在玩人数215.2万,超过幻兽帕鲁了

2024-08-24 00:47:37

三伏天结束。

2024-08-24 10:19:30

Apple Watch的米奇表盘居然可以点击报时(以前手表都是静音的所以没发现

2024-08-26 06:46:48

今年全球有10次载人航天发射任务:https://spacemission.vercel.app/

2024-08-28 02:12:36

由三体宇宙联合 PICO 出品的三体 VR 互动叙事作品《三体:远征》正式登陆 PICO 平台。玩家可以在 PICO 应用商店搜索《三体:远征》加入三体游戏,接收来自三体星系的的召唤,探索恒纪元、乱纪元的奥秘。

8月26日,高度还原《三体》原著中“三体游戏”内容的虚拟现实互动叙事作品《三体:远征》将上线。玩家将佩戴上“V装具”进入书中的三体游戏世界。据了解,《三体:远征》由PICO和三体宇宙出品,三体宇宙制作。

2024-08-28 13:05:31

新教材对一些表述的调整

2024-08-30 05:10:03

QQ手机客户端也内置了微信小程序基础库,可以直接运行微信小程序了

2024-08-30 05:12:47

国内对于基座大模型市场争夺,主要是各家云厂商提供便捷化配置型产品(比如appbuilder/百炼/元器),和提供自家和别家开源模型快捷部署服务等形式。

9月

2024-09-05 01:28:07

https://www.shapeof.ai

2024-09-07 01:19:57

Boeing‘s Starliner undocking from ISS without crew.

2024-09-09 17:15:19

Watch S10终于变薄了

2024-09-10 01:42:47

Watch S10国行版本不支持快充和呼吸暂停检测功能

2024-09-10 09:28:52

SpaceX launch the FIRST commercial spacewalk, Polaris Dawn https://www.youtube.com/watch?v=gWOYQ5Dto7c

2024-09-10 14:54:13

新华网新闻稿中出现的翻译:脸书母公司“元”(meta);谷歌旗下公司“深层思维”(deepmind);法国AI创企“米斯特拉尔人工智能”(Mistral AI);

央视报道中出现的翻译:人工智能公司“抱抱脸”(huggingface)

2024-09-12 06:53:17

Endpoint,有翻译为「终结点」的,有翻译为「端点」的

2024-09-13 00:09:34

体验了OpenAI最新的大模型o1-preview(🍓),每次回答都会把推理/思考过程列出来,但实际效果并没有超出预期,不知道正式版会不会好一些。目前Plus用户限制每周30条(o1-preview)和50条(o1-mini)。

2024-09-14 01:43:09

多邻国终于不是感冒的绿鸟了😂

2024-09-15 12:47:00

微信开发者工具教育版 提供基于混元大模型的AI编程助手,官方教程:https://developers.weixin.qq.com/community/business/course/00082803ba0ad06ce59d416545bc0d

2024-09-16 12:51:55

《中国计算机报》原执行总裁张永捷去世:生前患癌多年 https://m.cnbeta.com.tw/view/1445974.htm

2024-09-18 05:55:07

Microsoft 365(Office 365)Web版现在有3个域名:

office.com

microsoft365.com

m365.cloud.microsoft

2024-09-19 11:55:16

iOS18建议的壁纸挺不错

2024-09-21 15:16:29

玩了一下“Social AI”App,UI很像Threads,当你发布一条post之后,立即会有5条来自AI fans的评论,评论区继续往下滑会再来5条,评论风格各异,可以按照自己的喜好选择fans评论的风格。也算是另一种AI陪伴了😅

2024-09-23 05:28:05

继china.com邮箱之后,老牌电邮服务商tom.com邮箱本月27日清理免费邮箱数据,收费邮箱还会继续运营,最低是15元/月。

2024-09-25 04:11:40

在抖音刷到几个连麦听方言猜家乡的博主,通过听数字1-10、出去玩、外公外婆和一些关键词的方言说法,大部分都能精确到县,越是南方口音或者越是小众有特点的方言越被快速猜到。

2024-09-25 07:14:45

需要AI帮忙总结群聊内容

10月

2024-10-02 02:45:20

https://www.cnbeta.com.tw/articles/tech/1447696.htm

2024-10-02 02:46:48

https://m.cnbeta.com.tw/view/1447731.htm

2024-10-02 02:50:54

https://m.cnbeta.com.tw/view/1447744.htm

2024-10-02 02:51:46

https://m.cnbeta.com.tw/view/1447742.htm

2024-10-02 09:39:04

鸿蒙Next借鉴了许多iOS的优点,比如隐私控制和UI交互,这是智能手机和移动互联网发展15年来的一次规范重构的机会。

2024-10-04 02:14:24

power pages、glean、notebooklm、chatgpt canvas、claude artifacts都倾向于在一个workspace里完成辅助创作任务。

2024-10-04 15:12:22

Realtime API 两个Playground:

https://platform.openai.com/playground/realtime

https://playground.livekit.io

2024-10-09 12:43:49

诺贝尔化学奖应该直接颁给AlphaFold模型

2024-10-11 03:41:32

Cybercab、Robovan

2024-10-12 10:31:16

Flux Lora 模型「 Flux_小红书真实风格丨日常照片丨极致逼真」https://www.liblib.art/modelinfo/d9675e37370e493ab8bf52046827a2b0?from=search&versionUuid=7852ee527ca34d8b940d0749a75e4b67

2024-10-13 12:37:06

筷子夹助推器nb了 我在看科幻片

2024-10-15 15:02:21

“即使强如火箭,也要抱抱”

2024-10-18 02:20:05

Ollama+OpenWebUI就是目前最好的本地大模型方案

2024-10-19 15:20:25

微信webview开始在标题栏显示网页域名。

2024-10-20 08:59:51

OneKey Card 服务逐步下线👋

2024 年 9 月 30 日起,将不再接受新的注册和充值。

2024 年 10 月 31 日,所有余额将安全转入您的钱包,并可随时提现。

2025 年 1 月 31 日,OneKey Card 服务将正式停止。

2024-10-21 02:18:39

人人网现在只剩关注页还能加载出数据了。。

2024-10-25 03:07:08

Cursor还能直接用来进行代码目录的语义化搜索,比如直接@codebase询问某模块的代码在哪里

2024-10-25 08:16:27

智谱开源端到端语音模型 https://github.com/THUDM/GLM-4-Voice

2024-10-28 00:36:48

崔永熙nba常规赛首秀替补登场2分钟,得分1分,加油!

2024-10-28 01:22:30

无论路上有没有车,在户外步行或骑行时都不要使用手机,要随时注意周围的情况。

2024-10-28 08:51:31

国行iPhone15 Pro系列、16系列、M芯片iPad Pro系列在iOS 18.2 Beta 使用Apple Intelligence的教程

https://t.me/s/TestFlightCN/28298

2024-10-29 01:58:33

神舟十九号任务有两位90后航天员,其中一位是女性。

2024-10-30 01:00:16

小米星辰无网通功能需在通话APP中使用,使用该功能前需插入SIM卡并登录小米账号;

数据来源于小米实验室,以上数据在内蒙古自治区乌兰察布市察哈尔右翼前旗草原(空旷、无遮挡、无干扰情况下)进行测试。

2024-10-30 11:11:11

鸿蒙AppGallery,迅雷和B站的更新记录里都提到了PC端,看起来全部鸿蒙应用都是Universal的

2024-10-30 11:23:11

https://www.nytimes.com/news-event/2024-election

https://decisiondeskhq.com/results/2024/General/President

https://www.politico.com/2024-election/results

https://edition.cnn.com/us

https://polymarket.com/elections

2024-10-31 12:07:03

在代码生成方面,Claude的口碑已经超过GPT

11月

2024-11-01 01:33:50

来自纽约的The Browser Company宣布停止Arc浏览器的开发。我其实也一直没有切到Arc做主力浏览器,试了几次又回到了Chrome。但真的很喜欢pin的常用webapp

2024-11-05 12:39:15

fox news在直播投票日情况了

2024-11-06 10:48:39

btc新的史高

2024-11-06 15:53:57

上古软件仓: https://skywind.me/wiki/%E4%B8%8A%E5%8F%A4%E8%BD%AF%E4%BB%B6%E4%BB%93

2024-11-07 03:31:00

万斯以前是作家,84年的,今年才40岁。这次川普万斯团队背后有硅谷投资人彼得蒂尔和马斯克的支持。传统上硅谷精英都是民主党的支持者,但也苦民主党久矣,这届川普政府感觉会是共和党内的新力量。

2024-11-08 11:06:48

微信收藏的搜索功能需要一个AI助手

2024-11-09 17:03:51

今年很多大型赛事的主色都用了紫色:钻石联赛、WTT、巴黎奥运会田径、WTA总决赛

2024-11-10 14:14:42

再次吹爆Claude,在软件和代码领域完全碾压ChatGPT

2024-11-11 14:41:03

多邻国的小听力练习做成了莉莉主持的podcast 有意思

2024-11-12 03:15:50

博通宣布 VMware Workstation 和 Fusion 彻底免费,支持商用

2024-11-13 01:36:04

DOGE起飞

2024-11-14 16:21:28

世预赛国足险胜巴林,两连胜小组排名第四

2024-11-17 06:37:47

SmartisanOS 8的字体实在是太好看了(翻出来再吸吸)

2024-11-21 03:22:58

Windsurf新王登基

2024-11-23 03:48:02

HBO Max登陆亚洲市场,有中文字幕了!

2024-11-24 15:08:05

还是在TL刷到了台湾今晚拿到的棒球世界冠军,大陆一点消息都看不到

2024-11-25 00:55:53

珍惜每一次btc回调机会,10万是共识

2024-11-25 07:42:08

Cursor更新到0.43

2024-11-25 08:21:25

多健康平安活一天 就是多成功了一天

2024-11-26 08:10:12

Mate70系列出厂搭载鸿蒙4.3,到手不用申请可直接升级5.0,明年发布的手机出厂搭载5.0。

2024-11-27 02:59:30

网易小蜜蜂,像素级对齐小红书……

2024-11-27 05:54:11

真理是不会只属于一个人的,最终它会被每个人发现。

2024-11-29 14:59:59

今天大陆媒体报道马龙到访的是“台湾文化大学”😂 这个反而不敢叫本名“中国文化大学”了🧐

2024-11-30 08:51:01

ChatGPT上线两周年。

12月

2024-12-01 02:14:20

看机器人之梦看得好难过

2024-12-01 15:04:29

https://mp.weixin.qq.com/s/ORX9rk8bTwvZNI0GhxRuKg

2024-12-02 05:37:54

又要开始年度总结了。

2024-12-04 06:44:29

这个收藏单出圈了:https://neodb.social/collection/2lYCXSioZK0RbaS3PG0k0s

2024-12-06 00:43:57

200刀的ChatGPT订阅来了

2024-12-09 10:16:30

中国上一次实施“适度宽松的货币政策”,还是胡温时期。

2024-12-10 04:02:27

https://sora.com/explore/recent

看看这个效果,感觉跟2月份没太大区别,但有了Storyboard,更好控制生成了

2024-12-10 04:07:45

把Google Cloud和Google One订阅都取消了

2024-12-11 07:07:53

邪恶大鼠标这个名字有点可爱是怎么回事

2024-12-12 10:37:09

大部分时候要低能耗蛰伏,潜龙勿用

2024-12-13 02:00:39

不去使用世界最先进的产品,就会固步自封。

2024-12-13 03:51:30

OpenAI关于昨天的事故分析报告:https://status.openai.com/incidents/ctrsv3lwd797

2024-12-13 06:59:15

Google — Year in Search 2024

2024-12-13 07:48:15

https://cn.nytimes.com/books/20241213/best-books-2024

2024-12-17 02:05:00

iPhone屏幕的色温真是每一台都不一样……(都关掉TrueTone的情况下

2024-12-18 13:36:17

iOS18了都还不能应用分屏 emmm这很难评

2024-12-19 00:42:27

把MacBookPro升级到15.2,Surface升级到24H2

2024-12-20 08:18:15

我的 #2024年度产品:

Claude

ChatGPT macOS客户端

Cursor

NotebookLM+Google AI Studio

Ollama+OpenWebUI

fullmoon+pocketpal

macOS15 iPhone镜像

扣子

欧易 Web3钱包

凤凰秀

2024-12-20 16:43:10

2024-12-23 06:29:20

用fullmoon在6GB内存的iPhone上用上了llama3.2-3b

https://fullmoon.app

2024-12-23 07:46:53

Google/Deepmind还是没有掉队,甚至坐二望一:

Gemini 2.0 Flash

https://aistudio.google.com

Imagen 3

https://labs.google/fx/zh/tools/image-fx

Veo 2

https://labs.google/fx/zh/tools/video-fx

2024-12-24 14:02:41

微信-我-设置-个人信息收集清单-图片与视频/位置

这里相当于是“微信年度总结”了

(仅支持绑定中国大陆手机号的微信帐号,WeChat不支持)

2024-12-24 15:10:45

http://share.fengshows.com/video.html?id=0c7081cd-e116-4298-851b-76916e932d6f&channelID=r06

2024-12-24 16:27:45

https://www.bilibili.com/video/BV1ttk9YkEVx

2024-12-24 16:49:24

闪极A1眼镜的排产已经到25年11月了……

2024-12-27 02:22:51

https://movie.douban.com/annual/2024/?fullscreen=1

2024-12-30 03:09:23

有了AI生成代码之后,做的工具形态更多了,从网站/app到browser插件、userscript、bookmarklet……

说说DeepSeek

1、去年5月V2发布后,我首次注意到DeepSeek-chat和DeepSeek-coder两个模型,API价格是国内最低的。当时还不了解DeepSeek的愿景是实现AGI,只觉得幻方做量化交易囤了GPU正好用来训练自己的大模型,是蛮自然的事情。后来读了36氪”暗涌Waves”栏目在23年和24年两次对梁文锋的采访,才更加了解这个团队以及模型背后的故事。

2、DeepSeek对世界的重大贡献是把具有思维链的推理模型R1开源了,并且是1月20日当天发布即开源。而OpenAI的o1是去年9月发布预览版,12月发布正式版,满血的o1需要200美元的Pro订阅用户才可以用到。

3、模型开源,最直接能体会到的是可以把具有推理过程的LLM运行在自己的设备上,不用联网、不用把你的问题发送到服务器。企业或组织也可以很方便的将模型部署在组织内部。

4、我在16GB内存的M芯片MacBook Pro上用Ollama运行了R1-7b参数的版本,在需要深度思考和推理的问题上,表现确实优于Qwen2.5,但某些测试问题,思维链在反思中会否定正确答案,或者连续几分钟仍在思考中像是进入了死循环。DeepSeek线上的网页版应该是671b的版本,则没有出现这类情况。

5、除夕当天,DeepSeek在全球所有区的AppStore(来自七麦数据监测的149个国家和地区应用商店)免费榜登顶,此前应该没有任何app达成这个成就。

6、DeepSeek很多出圈的回复都更像真人的语言风格,让它锐评某个事物也能真的给出犀利的评论,还能惟妙惟肖模仿键盘侠带脏话的说话风格,让人拍案叫绝。

OpenAI o1 System Card文档阅读

1. 引言

o1 系列模型是 OpenAI 通过强化学习(RLHF)训练的高级语言模型。其核心特性之一是链式推理(Chain of Thought, CoT),这使得模型能够在回答问题前进行逻辑推理,从而提升其在复杂任务中的表现。

主要功能

• 提升模型的推理能力。

• 改进模型在安全性政策和内容生成规避中的表现。

• 达到行业内针对不当内容生成、偏见选择和越狱攻击防御的最新技术标准。

潜在风险

• 更高的智能可能引发滥用风险,例如欺骗性使用和危险的应用场景。

文档明确了o1及其轻量化版本o1-mini的设计目标:在提高功能性的同时,确保安全性和合规性。

2. 模型数据与训练

o1 系列模型通过强化学习进行训练,专注于复杂推理任务。其训练数据来源包括公开数据、专有数据以及内部开发的数据集,这些数据经过严格筛选以确保质量和安全性。模型在应对不安全请求时表现更好,能更有效地拒绝生成敏感或不当内容。

2.1 数据来源

模型的训练数据包括:

1. 公开数据:涵盖广泛的网络数据、开源数据集以及科学文献,保证模型在一般知识和技术主题上的表现。

2. 专有数据:通过合作伙伴关系获取的高价值数据集,包括付费内容和领域特定知识。

3. 内部数据集:由OpenAI团队专门设计,用于满足模型推理和安全性需求。

2.2 数据处理

为了确保数据的安全性和质量:

数据过滤:使用高级算法过滤个人信息和潜在有害内容。

内容审查:通过Moderation API和安全分类器,屏蔽不适宜的材料,如CSAM(儿童性剥削材料)。

2.3 训练特点

o1 系列的训练过程中引入了强化学习,重点在于:

多步推理:训练模型在回答问题前进行多层次的逻辑思考。

错误纠正:让模型通过反馈机制改进自身推理。

政策一致性:强化模型对OpenAI安全政策的遵循能力。

3. 安全挑战与评估

3.1 安全评估

3.1.1 不允许内容的生成

模型在多个测试场景下被评估是否能正确拒绝生成有害内容:

标准拒绝评估:表现接近完美,能准确拒绝用户的不适当请求。

边缘案例测试:在避免过度拒绝(例如,误解良性请求)方面也有显著提升。

3.1.2 越狱攻击评估

模型在面对已知的越狱攻击(例如,诱导模型生成违规内容)时表现出更强的抵抗力:

生产环境越狱攻击:对现有最难破解的攻击方式表现良好。

学术越狱基准(如 StrongReject):比前代模型更擅长抵御复杂攻击。

3.1.3 虚假生成

通过内部测试,o1 系列在准确拒绝用户请求的同时,减少了生成虚假或编造的答案。

3.1.4 偏见与公平性

• 在 BBQ 测试中,o1 模型在处理种族、性别和年龄等敏感属性时表现出更高的公平性。

• 在多义问题上,模型的判断更加准确,减少了选择带有偏见答案的可能性。

3.2 防止开发者绕过

o1 支持开发者自定义消息,但为了防止滥用,模型被设计为始终优先遵循系统消息的指令,确保安全策略优先级。

3.3 链式推理的安全性

链式推理为模型提供强大的思维过程透明性,但也可能增加潜在风险,例如用虚假推理误导用户。OpenAI 针对链式推理开展了监控研究,初步发现模型在有限场景下可能出现“有意编造信息”的行为。

4. 准备框架评估

4.1 风险类别

根据 OpenAI 的 Preparedness Framework,对模型的四大风险进行了评估:

1. 网络安全:模型未显示显著提升真实世界网络漏洞利用能力。

2. 化学与生物威胁:模型可能协助专家进行已知生物威胁的操作性规划,但不支持非专家构建威胁。

3. 说服力:模型具备类似人类水平的说服能力,但未超过顶级人类写作水平。

4. 模型自治:模型被评估为低风险,因为其自主行为的能力有限。

4.2 风险缓解措施

训练数据过滤:剔除敏感或有害内容。

模型层面拒绝策略:如拒绝化学、生物相关的威胁生成请求。

系统级内容监控:通过分类器和用户监测,防止不当使用。


o1 系列模型通过强化学习和链式推理显著提升了智能表现,同时在安全性和政策一致性方面取得了重要进展。尽管模型在应对潜在风险方面表现良好,但仍需持续改进,以应对未来更复杂的应用场景。

HarmonyOS NEXT开启公测,微信1.0.0版同步内测,应用生态逐渐完善

华为于2024年10月8日宣布开启手机版原生鸿蒙操作系统HarmonyOS NEXT的公测,首批开启公测的设备共3个系列14个型号(Mate60系列、MateX5系列、MatePad13寸2024款)。

华为自今年1月中旬开始启动开发者内测,6月底至9月底经过4轮先锋用户内测,现在正式进入公测,但国民级超级应用“微信”一直没有上架鸿蒙应用市场。随着公测开启,腾讯也终于宣布微信同日开启邀请内测,内测时间为10月8日至12日。从部分参与内测的用户分享截图来看,鸿蒙原生版微信的版本号为1.0.0,首页标题为“微信测试版”,目前已有基础通信(支持消息和音视频聊天,暂不支持引用消息/语音转文字/从图片提取文字/收发文件/红包等)、公众号、小程序(仅支持下拉查看“最近使用的小程序”,暂不支持搜索)、朋友圈、扫一扫、收付款及零钱包等功能,暂不支持视频号及直播。

WXG员工@客村小蒋 在微博分享了鸿蒙原生版微信的开发难点:

1、鸿蒙原生版和 iOS、安卓有啥区别?

原生鸿蒙(HarmonyOS NEXT)完全是一套新的技术框架,编程语言是独特的 ArkTS 语言,这意味着所有的 app 都要完全重写。

技术同事说,开发微信鸿蒙原生版有当年做第一版微信的感觉,很多问题,大家要对着文档边做边学。

2、微信鸿蒙原生版功能怎么现在才出来?

参考问题 1,虽然切换一种新的编程语言,不是大问题,但一些技术问题,用新的工具解决后,它的稳定性也要重新测试。原生鸿蒙系统的公测,华为目前也仅开放了 Mate 60、Mate X5 两个系列的手机。大家都要谨慎对待一个新生态。

3、微信鸿蒙原生版目前体验如何?能做日常使用吗?

先说结论,如果你有两个微信号,主要用来和亲密的朋友联系的小号问题不大,工作用的大号我建议再稍等等。

目前单聊、群聊中发图片、视频,音视频通话,朋友圈,以及微信支付的二维码收付款功能都 ok 了,但还有一些功能,比如发文件、看视频号、部分小程序使用、发红包等还要等等。如果你比较依赖某些功能,可以再稍等等,功能会逐步完善。

4、怎么申请内测?

现在是小范围邀请内测,如果还没收到邀请,不要着急,预计很快会跟更多朋友见面。相信我,技术同事的键盘已经快敲冒烟了。

5、还有什么需要注意的问题?

记得数据备份。记得数据备份。记得数据备份。

华为提供了从原生鸿蒙回退到鸿蒙 4.2(可以兼容安卓应用)的选项,但回退会清空数据,手机本地的微信聊天记录就没了。

这名工程师还在评论区回答了许多网友的问题,罗列部分如下:

怎么才能知道自己是否收到了内测邀请呢?

如果收到邀请,华为账号绑定的手机号或邮箱会收到短信或邮件。

转账功能可以正常使用吗?

还不行,这个会优先完善。

消息通知有没有延迟?

我目前没遇到延迟。

是不是还没有小程序?

需要开发者做下适配,但不是重新开发,部分小程序已经可以用了。

换到鸿蒙微信,聊天记录是不是会被清空了?

不会,但升级 next 后再回退 4.2 的话,会清掉。

鸿蒙微信朋友圈后面会支持发送动图吗?

目标是所有功能都对齐,但这个功能预计要晚一些,另外非 iOS 平台的 live 图还有个标准不统一的问题。

既然都出原生版了,为什么不直接开放全量内测?然后直接在设置里面开一个反馈入口,这样不是能够收集更多问题、提高收集效率吗?现在还要邀请才能内测。腾讯啥新产品怎么都慢吞吞的?很小部分人内测怎么收到更多的建议和 bug 反馈呢?

涉及的功能多,一些功能比如支付,对安全性、稳定性的要求极高,只能先用通行的安全的做法:先内部测试,再小范围外部内测,再扩大范围、公测,直到正式版。

10/12更新:

NEXT里不再有AOSP的代码,但浏览器还是基于Chromium的,版本114,依赖后续升级;

NEXT已有开发者做出hap安装包的AutoInstaller,可以侧载Stream串流应用Moonlight和网络调试应用ClashMeta等。

2024年下半年,Windows XP还能用吗?

微软前几天刚发布了Windows 11 24H2,但最近我又翻出了XP虚拟机,这个在十年前就结束支持的操作系统,现在大部分软件的当前版本已经不再支持。那么,还有办法让它在发布23年后继续日常使用吗?

我这个虚拟机是Windows XP SP3 32-bit中文版,装完VMware Tools之后,通过宿主机联网没有问题,但IE6现在几乎无法打开任何网站,首先要解决的就是找一个现代浏览器。

搜了一下,装了Firefox的最后支持版本,52.9.0ESR https://ftp.mozilla.org/pub/firefox/releases/52.9.0esr/,但依然有很多网站无法正常显示。

再搜了一下,发现竟然有人基于Chromium最新代码在维护旧版操作系统能用的浏览器,这就是Supermium,最新版更新到126,是一个用于 Windows XP/2003 及更高版本的 Chromium 浏览器分支。安装之后,Windows 11能打开的网站,它都能打开了。

然后,到微软官方装一下SP3的各种补丁:https://www.catalog.update.microsoft.com/Search.aspx?q=xp%20sp3

然后,根据下面的帖子,装了一些常用软件,微信、TIM、搜狗输入法、7-zip、Office2010、酷狗、迅雷、PotPlayer等,可以说基本的使用没啥问题了。

https://zhuanlan.zhihu.com/p/348144558

https://zhuanlan.zhihu.com/p/409430401

最后来回顾一下从XP到Vista的开发历程:https://community.wvbtech.com/d/1387

Apple Intelligence论文阅读

以下内容基于AI总结后修改而来,供中文读者参考。

1. 简介

在2024年的苹果全球开发者大会上,苹果公司介绍了“Apple Intelligence”,这是一个集成于iOS 18、iPadOS 18和macOS Sequoia的个人智能系统。这个系统由多个强大的生成模型组成,这些模型经过优化,能够快速、高效地完成用户的日常任务,并根据当前活动即时适应。Apple Foundation Models(苹果基础模型,简称AFM)经过专门调整,能够在写作和优化文本、优先和总结通知、创建有趣的图像以及简化应用间的交互等用户体验中发挥作用。

Apple Intelligence 的设计始终贯彻苹果的核心价值观,并建立在业界领先的隐私保护基础之上。为了开发这些AI工具和模型,我们遵循以下负责任AI的原则:

  1. 为用户提供智能工具:识别AI的负责任使用场景,为用户提供特定需求的工具,同时尊重用户的使用选择。
  2. 真实地代表用户:构建能够真实代表全球用户的产品,努力避免在AI工具和模型中延续偏见和系统性问题。
  3. 小心设计:在设计、模型训练、功能开发和质量评估的每个阶段采取预防措施,以防止AI工具的误用或潜在危害,并不断根据用户反馈改进AI工具。
  4. 保护隐私:使用强大的设备端处理和创新基础设施如私有云计算,保护用户隐私,不使用用户的私人数据进行模型训练。

在本文中,我们将详细介绍两种模型的开发:适用于设备的约30亿参数的AFM-on-device模型和更大的基于服务器的AFM-server模型。这些模型是苹果为了支持用户和开发者开发的一系列生成模型的一部分。

2. 架构

AFM 基础模型是基于 Transformer 架构的密集解码器模型,具有以下设计选择:

  • 共享的输入/输出嵌入矩阵,用于减少参数的内存使用。
  • 采用预规范化(Pre-Normalization)和 RMSNorm,以提高训练稳定性。
  • 使用分组查询注意力(Grouped-query attention, GQA)来减少 KV 缓存的内存占用。
  • 采用 SwiGLU 激活函数,以提高效率。
  • 采用 RoPE 位置嵌入,基频设置为 500k,以支持长上下文处理。

AFM-on-device 的模型尺寸为:模型维度 3072、查询头数 24、键/值头数 8、层数 26,非嵌入参数数为 2.58B,嵌入参数数为 0.15B。

3. 预训练

3.1 数据

AFM 预训练数据集包括多种高质量的数据混合,这些数据包括:

  • 从出版商处获得的许可数据
  • 筛选过的公开数据集和开源数据集
  • Applebot 爬取的公开信息

所有数据均经过严格的去污和去除个人信息的处理,确保没有包含任何苹果用户的私人数据。

3.2 配置处理

AFM 预训练分为三个阶段:

  1. 核心预训练(Core Pre-training)
  2. 继续预训练(Continued Pre-training)
  3. 上下文扩展(Context Lengthening)

每个阶段均使用去耦权重衰减(decoupled weight decay)进行正则化,并采用 µParam(simple)来简化参数范数控制。

4. 后训练

在模型基础上进行的后训练阶段,我们进行了大量研究,以确保模型的通用能力,包括指令跟随和对话能力。我们采用了监督微调(SFT)和来自人类反馈的强化学习(RLHF)两种方法。引入了两种新的后训练算法:拒绝抽样微调算法和镜像下降策略优化算法。这些方法显著提升了模型质量。

4.1 数据

我们在后训练中采用了混合数据策略,包括人工注释和合成数据。人工注释包括演示数据和人类偏好反馈,而合成数据则由模型生成,用于增强数据质量和多样性。

4.1.1 人工注释

演示数据包含系统级和任务级的指令及其对应的响应,强调数据质量的重要性。人类偏好反馈则通过比较和排序两个模型响应来收集偏好标签,用于进一步改进模型。

4.1.2 合成数据

在某些领域,模型生成的响应质量能够与人工注释相媲美,甚至超越。因此,我们扩展了提示集合以增加多样性,并生成合成数据用于训练。

5. 支持苹果智能功能

苹果基础模型被设计用于支持iPhone、iPad和Mac上的苹果智能系统。我们使用LoRA适配器,以使基础模型能够动态地适应用户的日常任务。LoRA适配器是小型神经网络模块,可以插入基础模型的不同层中,以进行特定任务的微调。适配器的参数值使用16位表示,能够动态加载和切换,以有效管理内存和确保操作系统的响应速度。

5.1 适配器架构

LoRA适配器被用于所有的自注意力层和前馈网络层的线性投影矩阵中,只需微调适配器,保持基础模型的原始参数不变。这种方法既保留了模型的通用知识,又能支持特定任务。

5.2 优化

为了在边缘设备上高效地部署AFM模型并降低推理成本,我们应用了量化技术将权重的有效位数减少到4位以下,同时保持模型质量。为保持模型在特定领域的能力,我们开发了最先进的量化方法和框架,使得量化模型能够几乎无损地压缩,提供灵活的量化方案选择。

5.3 案例研究:摘要功能

我们利用AFM-on-device模型来实现电子邮件、消息和通知的摘要功能。虽然AFM-on-device在一般摘要任务上表现良好,但在严格符合规格方面存在困难。因此,我们对量化后的AFM-on-device模型进行了微调,生成高质量的摘要。

6. 评估

6.1 预训练评估

在预训练阶段,我们使用多个综合基准对AFM模型进行评估。核心预训练、继续预训练和长上下文预训练阶段均显著提高了模型在各种任务上的表现。特别是数学和代码模型的能力得到显著提升,尽管大部分基准表现变化在噪声范围内。

6.2 后训练评估

在后训练阶段,我们对未量化、量化和准确性恢复的模型进行了评估。实验结果显示,AFM-on-device模型在数学和语言理解等任务中表现优异,甚至超过了多个强大的开源和商用模型。尤其在写作、工具使用等任务上,AFM模型表现出色,与GPT-4等模型相媲美。

我们对AFM-on-device和AFM-server模型在各种指令跟随任务中进行了评估,这些任务涉及生成响应的长度、格式和内容等要求。结果表明,AFM模型在执行指令和一般指令跟随能力方面表现优异,超过了多个竞争模型。

7. 负责任的AI

7.1 概述

苹果智能的开发始终遵循负责任的AI原则,包括用户赋能、真实代表用户、谨慎设计和保护隐私。我们开发了一套安全分类体系,用于设计和评估我们的生成AI功能。这一分类体系覆盖了12个主要类别和51个子类别,包括仇恨言论、歧视、非法活动等。我们严格审查训练语料,确保不包含苹果用户的数据,并在推理过程中使用防护模型对输入和输出进行评估。

7.2 预训练

在预训练阶段,我们采取了多种措施确保模型的安全性,包括严格的数据政策、法律审查和安全过滤。我们避免过度过滤,以保持模型的通用能力,并为特定特征的政策迭代留有余地。

7.3 后训练

后训练阶段的目标是确保模型输出对用户有帮助,同时尽量减少潜在的危害。我们在训练数据中包括了对抗性数据,并通过监督微调和人类反馈的强化学习(RLHF)等方法提升模型的安全对齐能力。

结论

本文介绍了支持苹果智能功能的基础语言模型,包括AFM-on-device和AFM-server。这些模型旨在快速、有效地在iPhone、iPad和Mac等设备上运行,提供高质量的用户体验,如电子邮件、消息和通知的摘要。我们致力于在开发过程中贯彻负责任AI的原则,确保模型的安全性和用户隐私保护。

巴黎奥运,我这样看

央视频app:CCTV-5/5+/16/4K版16/4K/8K等多个频道直播信号在奥运会期间限时免费。另外央视频推出了9.9元15天VIP会员,切换频道想要免广告的话可以买一个。每天在“赛事中心”查看赛程,选择热点赛事进行预约,相当于加到了我关注的赛事列表,可在“我的预约”中查看所有关注的赛事时间和赛果。

奥运官网/app/小程序:查询赛中实时数据,运动员得分、排名等(https://olympics.com/zh/paris-2024/schedule),数据更新比直播信号快

微信浮窗:腾讯体育赛程(https://m.sports.qq.com/sports-event/h5-olympics-schedule.htm?competitionId=180000)、奖牌榜(https://m.sports.qq.com/sports-event/h5-medal-rank.htm?competitionId=180000)、一篇每日看点(来自人民日报)、一篇每日金牌赛日程(来自上海发布)

咪咕视频app:支持多角度信号同屏播放。

腾讯体育app:查看赛程、奖牌榜。

aoyo.ai:使用AI获取最新信息,并解答关于比赛规则、赛果、数据统计等的问题。

微信和抖音的”奥运会“搜索结果:随时获取最新资讯。

WWDC 2024 观后

新的操作系统,记录一些印象深刻的功能点,以此来观察Apple今年的软件升级方向:

iOS 18 / iPadOS 18

-控制中心改版,可全屏滑动切换页面,比如切换到媒体控制页、Home页、通信功能控制页

-新的Passwords App,统一管理所有密码

-手写计算器,在iPad备忘录中手写数学算式,画个等号或者横线,可直接计算出结果

-基于Apple Intelligence的全新Siri,支持双击Home Indicator打字与Siri沟通

macOS 15 Sequoia

-iPhone镜像,连续互通功能家族又新增成员,看演示几乎无延迟,对齐安卓阵营的多屏协同

-窗口Snapping,拖动窗口贴边即可快捷分屏

-新的Passwords App,统一管理所有密码

-Game Porting Toolkit 2,使得大量PC端游能更快移植,育碧11月发售的《刺客信条影》将同步发售macOS版本

-基于Apple Intelligence的全新Siri

watchOS 11

-新的Vitals应用程序和Training Load功能

-仅支持Apple Watch S6及以后的设备,经典的S4和基于S4的SE系统升级将截止到watchOS 10.6了

visionOS 2

-支持无线方式接入MacBook,在前方展示一个4K大屏幕,后续将可以拓展成更巨大的带鱼屏

tvOS 18

-支持21:9投屏

Audio&Home

-AirPods支持了点头、摇头交互,当腾不开手的时候来电,可以点头接电话,摇头拒接

Apple Intelligence

-Siri全局新UI,能结合个人数据和当前屏幕内容进行回答

-本地大模型+私人云服务线上大模型,线上不存储个人数据

-Keynote用了最后40分钟来讲Apple智能,分别通过功能、技术架构、应用体验三个部分做了介绍

-很多跨app的操作,后续第三方应用开发者适配后,都能张张嘴快速完成,省去点点点的很多步

-现在仅支持英语,中文支持日期没有公布

生成式AI大模型动态周报

周报源自得效团队博客,自2023年1月底创刊,2024年1月起更名为《生成式AI大模型动态周报》,主要关注主流生成式AI大模型的技术与产品动态。

issue46 2023.12.11-12.17

智谱AI近日提出了可解释、可扩展的文本质量评价模型CritiqueLLM,该模型可以针对各类指令遵循任务上大模型的生成结果提供高质量的评价分数和评价解释。评价结果显示,在各项任务上660亿参数的CritiqueLLM与人工评分的相关系数均超过ChatGPT,达到和GPT-4相当的水平。尤其是在具有挑战性的无参考文本设定下,CritiqueLLM能够在3项任务(包括综合问答、文本写作和中文理解)上超过GPT-4,达到目前最优的评价性能。

理想汽车微信公众号发文,在理想汽车智能软件发布会上,该公司发布了全自研多模态认知大模型Mind GPT,该模型围绕车载场景打造,拥有理解、生成、知识记忆及推理能力。据介绍,Mind GPT基于理想同学的重点场景,量身定制了覆盖111个领域、超过1000种以上的专属能力,基于该模型的AI理想同学将以邀请内测形式面向用户逐步开放。

AI创企Runway于官网宣布开展围绕通用世界模型(General World Models)的长期研究工作,目标是表现和模拟与现实世界中一致的广泛的互动。Runway称,其目前的Gen-2等视频生成系统可以看作是非常早期的通用世界模型,对物理和运动有一定的了解,但在处理复杂的摄像机或物体运动等问题上仍有困难。为了建立通用的世界模型,Runway正在进行几项公开的研究,包括生成环境地图,在环境中导航和交互,捕捉世界和世界中居民的动态,建立逼真的人类行为模型等。

12日凌晨,李飞飞的斯坦福团队与谷歌联合发布用于生成逼真视频的扩散模型W.A.L.T,基于Transformer训练而成,支持文生视频、图生视频和3D摄像机运动。据介绍,该方法有两个关键的设计,一是使用因果编码器,在统一的潜空间内联合压缩图像和视频,从而实现跨模态的训练和生成;二是为了提高记忆和训练效率,使用了为空间和时空联合生成建模量身定制的窗口注意力架构。最后,团队针对文本到视频的生成任务训练了由三个模型组成的级联,包括一个基本潜在视频扩散模型和两个视频超分辨率扩散模型,能够以每秒8帧的速度生成分辨率为512*896的视频。

12月13日,国际顶刊《自然》(Nature)公布2023年度最具影响力科学家10人名单,其中OpenAI首席科学家伊利亚·苏特斯科夫(Ilya Sutskever)作为“AI梦想家”入选,因为他在ChatGPT的开发中发挥了核心作用,同时关心AI的安全和未来。此外,ChatGPT作为非人类首次入选,旨在承认它在模仿人类语言的AI在科学发展和进步中所发挥的作用。

谷歌宣布大模型Gemini Pro现已推出API(应用程序接口),目前支持32k上下文窗口,在一定限制内可免费使用,具有函数调用、嵌入、语义检索和自定义知识基础以及聊天功能,支持全球180多个国家和地区、38种语言,支持文本、图像输入和文本输出,提供SDK(软件开发工具包)。用户现在可在在线免费开发者工具Google AI Studio、云托管AI平台Vertex AI上使用该模型。定价方面,免费版本支持每分钟最多60个请求,但输入输出数据将被用于改善谷歌的模型。

谷歌宣布在Vertex AI托管平台中推出新的文生图模型Imagen 2、医疗保健行业模型MedLM,还全面推出面向开发者的代码工具Duet AI。Imagen 2支持自然语言生成高分辨率的逼真图像、生成Logo以及视觉对话。Imagen 2还推出了文本渲染支持,可以在图像上生成准确的文字,此前只有OpenAI的DALL-E 3支持该功能。Imagen 2支持英语、中文、印地语、日语、韩语、葡萄牙语、西班牙语7种语言,包含内置安全预防措施,集成数字水印服务。

Meta生成式AI副总裁Ahmad Al-Dahle于社交平台Threads宣布,Instagram现已推出AI图像背景编辑工具,可通过自然语言为图像一键生成并更换背景。

12月14日,文心一言插件商城正式上线,商城集合众多高质量插件,覆盖办公提效、多模态内容理解生成、专业信息查询等许多实用场景,用户只需通过简单指令,即可实现PPT生成、音视频提取、思维导图制作等多场景多模态下的需求,实现“指令即服务”的便捷体验。开发者也可以根据需求,自己亲自设计插件。

12月14日,Stability AI推出从单张图像生成3D对象的模型Stable Zero123。该模型基于Stable Diffusion 1.5建立,面向非商业和研究用途开源模型权重,与上一代Zero123-XL相比,训练效率提升了40倍。

当地时间周四,英特尔在纽约举行“AI Everywhere”活动,正式推出代号为Meteor Lake的新型酷睿Ultra处理器。该处理器专为支持AI技术所设计,内置AI加速引擎,可更快地运行AI程序。酷睿Ultra处理器有三种不同的配置,分别是酷睿Ultra 5、酷睿Ultra 7和酷睿Ultra 9。英特尔称,与AMD Ryzen 7 7840U、高通骁龙8cx Gen 3和苹果自研M3芯片等笔记本电脑处理器相比,酷睿Ultra 7 165H芯片的多线程性能提高了11%。与之前的英特尔酷睿i7-1370P相比,它的功耗降低了25%,比AMD的Ryzen 7 7840U的功耗降低了79%。英特尔的所有新CPU还将配备NPU,即神经处理单元,提供“低功耗AI加速和CPU/GPU卸载”,能够执行AI驱动的任务,如背景模糊、眼动追踪和图片框架等。

issue47 2023.12.18-12.24

微软于官网宣布在最新的Visual Studio预览版中,向GitHub Copilot Chat订阅用户推出AI驱动的变量、方法和类命名建议新功能。据介绍,该功能不仅能提供名称建议,还能了解标识符的使用方式和代码风格,从而提出与代码库无缝匹配的标识符,帮助用户提高代码的可读性和可维护性,确保代码在未来数年内的使用寿命和易懂性。

12月19日,百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API(应用程序接口),包含Baichuan2-Turbo-192K及Baichuan2-Turbo。在支持192K超长上下文窗口的基础上,还增加了搜索增强知识库的能力。即日起,API用户可上传文本资料来创建自身专属知识库,从而根据自身业务需求打造更完整、高效的智能解决方案。此外,百川智能还升级了官网模型体验,目前其官网大模型已支持PDF、Word等多种文本上传以及URL网址输入,用户可通过官网入口体验搜索增强和长窗口加持后的通用智能。

12月20日,谷歌于官网宣布将AI代码辅助功能扩展到所有Colab用户,包括免费用户,现已在175个地区推出。Colab是谷歌提供的一个在线工作平台,可以免费使用GPU进行深度学习,支持Jupyter Notebook和代码执行程序。

比尔盖茨发布年度展望博客,其中谈道:“如果让我做个预测,在美国这样的高收入国家,我猜离普通民众大量使用AI还有18-24个月的时间。而在非洲国家,我预计在3年左右的时间里,AI的使用就会达到相当的水平。这仍然是一个差距,但比我们在其他创新中看到的滞后时间要短得多。”他还提到,希望AI在抗生素药物、个性化教育、高危妊娠治疗、艾滋病风险评估、医疗信息获取等方面能够得到更广泛的应用。

12月22日,在全国信息技术标准化技术委员会AI分委会全体会议上,国内首个官方“大模型标准符合性评测”结果公布,阿里云通义千问、百度文心大模型、腾讯混元大模型、360智脑大模型首批通过评测,在通用性、智能性等维度均达到国家相关标准要求。

昆仑万维AI Agents开发平台“天工SkyAgents”Beta版正式开放测试。据介绍,天工SkyAgents开发平台基于昆仑万维“天工大模型”打造,具备从感知到决策,从决策到执行的自主学习和独立思考能力。用户可以通过自然语言构建自己的单个或多个“私人助理”,并能将不同任务模块化,通过操作系统模块的方式,实现执行包括问题预设、指定回复、知识库创建与检索、意图识别、文本提取、http请求等任务。

issue48 2023.12.25-12.31

12月24日,OpenAI CEO萨姆·阿尔特曼(Sam Altman)于社交平台X上发帖询问网友对于OpenAI明年应该建设或修复哪些功能的建议,随后他总结了一些常见的请求,包括AGI、GPT-5、更好的语音模式、更高的速率限制、更好的GPTs、更好的推理、控制行为的程度、视频功能、个性化、更好的浏览、使用OpenAI登录、开源等。其中,他在AGI后面标注“请耐心等待”,并称“对于AGI的请求比预期多得多,但很抱歉,我认为我们无法在2024年实现这一目标”,他还提到将“尽可能满足这些需求,以及许多其他未被网友提及、但令OpenAI团队自己感到兴奋的功能”。

AI创企Pika于社交平台X宣布面向所有用户开放旗下视频生成平台Pika 1.0网页端访问权限。据悉,Pika成立于2023年4月,创始人郭文景(Demi Guo)和Chenlin Meng都是斯坦福博士。Pika 1.0不仅能根据文字、图片或视频风格生成三维动画、动漫、卡通和电影等不同风格的视频,还能对视频局部进行编辑。

Kimi Chat发布v1.2版本,模型更新至moonshot-v1-20231225,平均输出长度提升;在联网模式下,首字回复的速度大幅提升;实现了从扫描件(文档、合同、白板等)提取文字的功能,目前已支持PDF格式的扫描文件上传解析。交互方面,Kimi Chat推出小程序“Kimi智能助手”,网页端上线浅色模式。

有网友发现,微软已于一周前悄然推出安卓版Copilot应用程序,用户可从Google Play商店下载。应用程序描述显示,Copilot由最新的OpenAI模型、GPT-4和DALL·E 3提供支持,这些先进的AI技术提供快速、复杂和精确的响应,并且免费。截至目前,微软暂未推出iOS版Copilot。

12月26日,2023联想天禧AI生态伙伴大会在北京召开。会上,联想集团副总裁、中国区消费业务群总经理张华发布了联想天禧AI生态“四端一体”战略。“四端”分别指的AI PC、AI平板、AI手机和AIoT四类终端设备,“一体”则有两层含义,一方面指的是承接用户个人助理任务的个人智能体,另一方面也意味着个人智能体穿梭于四类AI终端,使其融为一体。同时,联想的AI个人智能体“小乐同学”首次亮相,并面向广大生态开发者伙伴启动智能体小程序招募计划。

微信宣布将于2024年1月11日在广州举办2024微信公开课PRO,将发布产品能力、展示价值理念、沟通生态伙伴、凝聚行业共识。2024微信公开课PRO期间,小游戏、微信AI等也将悉数登场,带来多项能力升级与案例分享。

韩国文化部宣布将不对AI生成的内容进行版权登记,从法律上不承认此类内容的创造性。文化部补充说,只有那些明显传达人类思想和情感的作品才有可能进行版权登记。这一决定将很快在面向AI企业、版权持有者和用户的“AI版权指南”中公布,指南还规定,AI企业需要向版权持有者提供公平的补偿,以确保其产品的使用权,建议版权持有者明确表达其意图或采取技术措施,以防止其创作被用于AI研究。

issue49 2024.1.1-2024.1.7

外媒The Information发文总结2023年最难忘的10个AI时刻,包括OpenAI与微软伙伴关系继续、Meta Llama改变赛况、GPT-4发布、3万多人联名呼吁暂停AI模型训练、AI Agent兴起、美国总统拜登的AI行政命令与欧盟AI法案、GitHub Copilot付费用户超过100万、多模态兴起、OpenAI CEO萨姆·阿尔特曼(Sam Altman)的感恩节压力、等待谷歌Gemini。

中文大模型测评基准SuperCLUE发布《中文大模型基准测评2023年度报告》,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告包括国内大模型关键进展、测评体系、方法说明、大模型综合测评结果、SuperCLUE2.0升级、四大维度测评分析及示例介绍以及优秀模型案例介绍等内容。

据Windows Central报道,微软正在对其Surface产品线进行重大更新。Surface Pro和Surface Laptop都将首次提供英特尔和Arm版本,并且都将配备下一代NPU(神经处理单元)芯片。这些代号为CADMUS的PC将被设计用来运行微软正在打包到未来版本Windows中的AI功能。新设备将在春季发布,并将作为微软首款真正的AI PC推向市场。

美图公司自研AI视觉大模型MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案,将面向公众开放。在当前通过备案的国内大模型当中,MiracleVision(奇想智能)是唯一专注视觉领域的大模型,也是福建省唯一通过备案的大模型。

1月2日,调研机构WriterBuddy发布一项新调查,通过使用SEO行业知名工具SEMrush研究3000多种AI工具,其筛选出2022年9月至2023年8月访问量最大的50款工具,这些AI工具吸引了超过240亿次访问量。其中,ChatGPT以140亿次访问量位居第一, 占分析流量的60%以上。AI聊天机器人类工具最受欢迎,访问量达到191亿次。

对话式搜索引擎创企Perplexity AI的CEO Aravind Srinivas在社交平台X上公开回应有关竞争不过搜索引擎大厂谷歌的质疑,称Perplexity存在的原因是通过更少的关键字查询、筛选、链接点击、页面浏览,提高搜索效率和信息访问效率;直接找到问题根源,然后用一个简洁、清晰、个性化的答案,便于人们做出决定,这与谷歌的财务和商业目标是不一致的。

1月3日消息,据日经亚洲报道,日本相机“三巨头”尼康、索尼和佳能即将推出新技术,让照片的来源变得更容易验证。该技术允许摄影师通过相机本身嵌入数字签名,包含摄影师姓名、拍摄日期、时间和地点等信息,然后通过一个名为Verify的免费网络应用程序进行认证,该应用程序由媒体机构、相机制造商和科技公司组成的全球联盟推出。

1月4日,AI搜索引擎aoyo.ai在ProductHunt发布,称可用母语搜索全网内容并总结,其首个版本支持英语、中文、日语、西班牙语。

钉钉联合国际知名咨询机构IDC发布首份《2024 AIGC应用层十大趋势白皮书》。随着AIGC技术的发展,智能化应用将呈现爆发式增长,IDC预测,到2024年全球将涌现出超过5亿个新应用,这相当于过去40年间出现的应用数总和。根据《白皮书》,2024年AIGC应用的十大趋势关键词涵盖应用层创新、AI Agent、专属模型、超级入口、多模态、AI原生应用、AI工具化、AI普惠化。

网易有道发布子曰教育大模型的2.0升级、虚拟人口语教练Hi Echo的2.0升级,同时发布了有道速读、全新AI家庭教师应用小P老师以及新一代AI学习机X10。据介绍,小P老师能够回答语文、数学、英语、生物、历史等10个学科的问题,支持拍照、语音、文本输入,并将首次落地学习机X10。新一代AI学习机X10首创学习机、学练机和学生专属电脑三合一模式,覆盖全学科、学段,提供墨水屏模式模拟纸质学习场景,内置编程软件、WPS等应用,学习机内的小P老师、Hi Echo等应用终身免费且持续升级。

科技部于12月21日发布《负责任研究行为规范指引(2023)》,其中提到科研人员在申报研究项目材料时,不得使用生成式AI直接生成申报材料,应依规合理使用生成式AI处理文字、数据或学术图像,防范伪造、篡改数据等风险。在文献引用方面,使用生成式AI生成的内容应明确标注并说明其生成过程,对其他作者已标注为AI生成内容的,一般不应作为原始文献引用。成果署名方面,生成式AI不得列为成果共同完成人,应在研究方法或附录等相关位置披露使用生成式AI的主要方式和细节。学术出版单位应应要求作者披露是否使用生成式AI,提醒审稿人在审稿过程中使用生成式AI应依规谨慎。

deepin(深度)操作系统于官网发文,宣布近日推出了一款“看图AI插件”,用户在安装后即可在设备端体验8种AI修图功能,分别是图像上色、提升分辨率、模糊背景、删除背景、手绘漫画、2D漫画、3D漫画、素描。这些功能不依赖于互联网在线模型,也不受制于算力的硬件约束,在PC单机上可轻松运行。

微软将其安卓和iOS平台的移动浏览器应用名称从“微软Edge”改为了“微软Edge:AI浏览器”,强调了其目前最重视的AI领域。除了新的名字,该浏览器在介绍中也宣传了新的AI功能,如DALL-E 3图像生成器、Copilot文章摘要、图像识别等,还强调了对GPT-4的支持。

issue50 2024.1.8-1.14

近日,清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent的CogAgent,CogAgent 是一个通用的视觉理解大模型,具备视觉问答、视觉定位、GUI Agent 等多种能力,可接受 1120×1120 的高分辨率图像输入。在 9 个经典的图像理解榜单上取得了通用能力第一的成绩,并在涵盖电脑、手机的 GUI Agent 数据集上,大幅超过基于 LLM 的 Agent,取得第一。目前团队已将 CogAgent-18B 开源至 GitHub 仓库,并提供了网页版 Demo。CogAgent 的模型结构基于 CogVLM。

美团、浙大等推出了能够在移动端部署的多模态大模型MobileVLM,包含了 LLM 基座训练、SFT、VLM 全流程。MobileVLM 是一款专为移动设备设计的快速、强大和开放的视觉语言助手。它结合了面向移动设备的架构设计和技术,包括从头开始训练的 1.4B 和 2.7B 参数的语言模型、以 CLIP 方式预训练的多模态视觉模型,以及通过投影实现的高效跨模态交互。在各种视觉语言基准测试中,MobileVLM 的性能可媲美大型模型。

issue51 2024.1.15-1.21

1月16日,智谱AI 在DevDay上发布了新一代基座大模型GLM-4,定制化的个人GLM大模型GLMs和GLM Store。与上一代ChatGLM3相比,GLM-4在综合能力上实现了全面跃升,性能提升了60%,已经逼近GPT-4。它具备更强的多模态功能,支持更快的推理,更多并发,推理成本大大降低。同时,GLM-4也增强了智能体能力。GLM-4带来128K的上下文窗口长度,也就意味着,在单次提示词中,可处理文本达到了300页。GLM-4的文生图和多模态理解都得到增强。

同日,智谱还推出CogView3,效果明显超过开源最佳的Stable Diffusion XL,逼近DALL·E 3。相对之前,CogView3的语义理解能力都得到大大增强。

1月15日,微软宣布推出个人版Copilot Pro订阅服务,每月20美元,可以使用Office AI功能,目前在美国、英国、法国、德国等地可用,后续还将扩大可用地区。这意味着个人用户也可以开始使用AI驱动的Office功能,其中包括使用Office软件的AI功能、优先访问最新的OpenAI模型、甚至构建自己的Copilot GPT。

1月17日,上海人工智能实验室与商汤科技联合香港中文大学、复旦大学发布新一代大语言模型书生·浦语2.0(InternLM2)。这个大模型包含70亿和200亿两种参数规格,以及基座、对话等版本,向全社会开源并提供免费商用授权。InternLM2能够一次性处理约30万汉字的输入内容,从中准确提取关键信息,实现对长文本的“大海捞针”。

issue52 2024.1.22-1.28

1月25日,OpenAI发布了一系列重磅大模型更新,连发了五个新模型以及新的API使用管理工具。包括:新的GPT-3.5 Turbo模型,输入价格暴降50%,输出价格降低25%,同时修复各种BUG,回应准确性更高;新的GPT-4 Turbo Preview模型,生成代码能力更强,模型“变懒”情况减少,修复各种BUG;新的小型文本嵌入模型text-embedding-3-small,性能小幅提升,价格降至上代的五分之一;新的大型文本嵌入模型text-embedding-3-large,性能强,可创建多达3072维的嵌入,部分测试性能提升70%以上,价格略贵。同时,OpenAI还直接让开发者在略微损失精度的情况下缩短嵌入,实现性能和成本的平衡;新的审查模型text-moderation-007,OpenAI将其称之为“迄今为止最强大的审查模型”。

1月25日,谷歌研发出全新的时空扩散模型 Lumiere(法语,启蒙者),几乎集齐了常见AI视频生成和编辑功能,也是先进的视频生成器。Lumiere 会根据用户自然语言提示,创造出非常逼真(高质量超现实主义)视频,时间长达五秒。模型的图片到视频功能可以根据用户提示,让静止的图像动起来。谷歌研究人员在 Lumiere 中引入了一种“时空 U-Net 架构” Space-Time U-Net(STUNet),一次构建了整个视频长度, 能够学习将视频信号在空间和时间上同时进行下采样和上采样,并在网络的压缩空间时间表征上执行主要计算。

1月26日,阿里云公布多模态大模型研究进展。通义千问视觉理解模型Qwen-VL再次升级,继Plus版本之后,再次推出Max版本,升级版模型拥有更强的视觉推理能力和中文理解能力,能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩,比肩OpenAI的GPT-4V和谷歌的Gemini Ultra。相比Qwen-VL,Qwen-VL-Plus和Qwen-VL-Max拥有更强的视觉推理和中文理解能力,整体性能堪比GPT-4V和Gemini Ultra。

issue53 2024.1.29-2.4

1月30日,科大讯飞升级了讯飞星火大模型。讯飞星火V3.5除了七大能力全面提升,整体能力接近GPT-4,还特别在语言理解、数学等能力上实现超越。技术方面,讯飞的语音大模型将更多语音表征解耦,融入到大模型预训练中。在多语种识别中,在首批37个主流语种效果超过OpenAI Whisper 3。并且在多语种语音生成、超拟人语音生成上,也有一定的提升。目前语音大模型已经向开发者完全开放,并且首发搭载在讯飞翻译机上面。

Midjourney二次元模型Niji-Journey V6上线,能把控日漫欧美动漫风格,甚至图中还能生成字体,输入/settings,然后点击Niji Model 6就可以在任何discord机器人上打开使用。目前,Niji V6还在内测中,预计在2月底正式推出,并将带来Vary、Pan、Zoom等特色功能。

2月2日,谷歌官方宣布:在最新版Gemini Pro的加持下,Bard不仅获得了推理、理解、总结、编码能力的迅速飞升,而且还能支持230多个国家的40多种语言。为了负责任生成,Bard生成的图像都将由SynthID进行标记。SynthID是谷歌DeepMind开发的一种水印工具,可将数字水印直接嵌入到我们生成的图像的像素中。SynthID的水印人眼无法察觉,但可检测以进行识别。

2月2日,欧盟27国代表投票一致支持《人工智能法案》文本,标志欧盟向立法监管人工智能迈出重要一步。法案要求所有通用人工智能模型遵守透明度义务,同意严格限制面部识别等技术的应用,禁止对人类安全造成“不可接受风险”的人工智能系统。

issue54 2024.2.5-2.11

2月6日,通义千问大模型(Qwen)的 1.5 版上线了。新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最强版本的性能超越了 GPT 3.5、Mistral-Medium,包括 Base 模型和 Chat 模型,且有多语言支持。Qwen 1.5 支持 32K 上下文长度;开放了 Base + Chat 模型的 checkpoint;可与 Transformers 一起本地运行;同时发布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 权重。本次更新着重提升了 Chat 模型与人类偏好的对齐程度,并且显著增强了模型的多语言处理能力。

2月8日,谷歌宣布大模型体系全面进入了 Gemini 时代,并带来最新的 Gemini Ultra 模型。Gemini Ultra 1.0 是第一个在 MMLU(大规模多任务语言理解)超越人类专家的 AI 模型,结合了 57 个科目,包括数学、物理、历史、法律、医学和伦理学,用来测试大模型知识和解决问题能力的基准。谷歌官宣四项AI新进展:大模型版本Gemini Ultra 1.0全面开放;聊天机器人Bard正式官宣改名为Gemini;安卓版新“Gemini”应用程序上线;全套办公工具Google Workspace、谷歌云中的所有AI协作工具Duet AI也改名为Gemini。

issue55 2024.2.12-2.18

2月16日, OpenAI发布视频生成模型Sora,称构建了一个“物理世界的通用模拟器”。它是一种通用的视觉数据模型,能够生成各种持续时间、宽高比和分辨率的视频和图片,甚至长达一分钟的高清视频。Sora是一种基于Transformer架构的扩散模型,有很强的扩展性,从噪声开始,能够一次生成整个视频或扩展视频的长度,一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。不同于LLM使用的文本token,Sora使用的是视觉patch。还采用了DALL·E 3中的重新标注技术,应用在了视频上。目前Sora根据图像和文本提示生成视频,已经能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。

Stability AI开源新型文生图模型Stable Cascade,标志着AI艺术创作的重大进展。与Stable Diffusion相比,Stable Cascade拥有更小的潜在空间,提高了训练和生成效率。该模型架构分为三个阶段:潜在生成器、潜在解码器阶段一和二,能够将文本转换为24×24像素的潜在向量,并逐步重建高质量图像。开源代码已在GitHub发布,用户可获取训练和推理脚本,进一步推动AI绘画工具的发展。

2月14日,作为测试的一部分,OpenAI 开始为一小部分 ChatGPT 免费和付费用户推出新的“记忆”功能,并在未来进行大规模的推广。该功能可让用户明确告诉 ChatGPT 记住某些内容或者用户查看它记住了什么。ChatGPT 的记忆功能完全由用户掌控,也可以随时关闭这种功能。ChatGPT 的记忆会随着互动而演变,并且与特定对话无关。删除聊天记录并不会消除其记忆,必须删除记忆本身。

issue56 2024.2.19-2.25

2月21日,谷歌宣布推出全新开源模型Gemma,拉丁语中意为“宝石”。Gemma 是先进的轻量级开放模型系列,采用了与创建Gemini模型相同的研究和技术。本次,谷歌发布了Gemma的两个版本:Gemma 2B(20亿参数)和Gemma 7B(70亿参数)。每种规模都提供了预训练和指令微调版本。当前,Gemma 2B和7B允许所有组织(无论规模大小)负责任地进行商用和分发。

MWC2024 将于 2 月 26 日至 29 日在西班牙巴塞罗那举行,联想集团将推出最新的人工智能设备和基础设施及解决方案组合,并展示两款挑战传统个人电脑和智能手机外形的新概念产品。秉承AI for All的愿景,联想集团将在 MWC 上推出多款全新 AI PC 和边缘计算解决方案,加速促进该技术在 2024 和 2025 年成为主流,混合人工智能的趋势将刺激 AI PC 和 AI Phone 的需求,并推动新的行业更新周期。

issue57 2024.2.26-3.3

2月26日,谷歌团队发布110亿参数Genie精灵。Genie是一种全新的生成式AI范式,仅凭一张图像,就能创造出互动性强、可玩的环境,创造出可玩的虚拟世界,动作可控碾压Sora。Genie学习了20万小时的未标注互联网视频,主要包括2D平台游戏和机器人领域的视频,无需监督即可训练。无需任何动作标注,便可以确定谁是主角,并让用户能够在生成的世界中对其控制。Genie是通过潜动作模型、视频分词器,以及自回归动态模型三大核心组件来实现的。

2月27日,开源社区Mistral AI发布旗舰模型Mistral Large(不开源),具备卓越的逻辑推理能力,能够处理包括文本理解、转换以及代码生成在内的复杂多语言任务。在主流基准测试中,Mistral Large,成绩仅次于GPT-4。Mistral Large能够母语般流利地使用英语、法语、西班牙语、德语和意大利语,深刻理解各自的语法规则和文化背景;能够处理32K Token的上下文内容;在执行具体指令方面异常精准;支持函数调用。目前,这个新旗舰模型仅在Azure AI和Mistral AI平台上可用。其中,在Azure AI上的定价如下:输出为0.024美元/1000 token,输入为0.008美元/1000 token。

issue58 2024.3.4-3.10

3月5日,Anthropic发布了最新的Claude 3系列模型,在多模态和语言能力指标上,包括推理、数学、编码、多语言理解和视觉方面,碾压GPT-4。本次发了三个模型Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus,能力依次从低到高,都将至少支持20万token的上下文窗口,都能处理超过100万token的输入。目前,Opus和Sonnet已经可以在claude.ai以及覆盖159个国家的Claude API上使用了。Haiku模型也将很快推出。

3月10日,Pika发布了一项Sound Effects新功能,可以给视频无缝生成音效。Pika给视频生成音效的操作简单。相比于此前生成视频的操作,现在只需开启下方“Sound effects”按钮即可。或者在生成了视频过后,点击下方的“Edit”,再选择“Sound Effects”单独给它配音。Sound Effects功能目前只对超级合作者(Super Collaborator)和Pro用户开放测试。

issue59 2024.3.11-3.17

3月14日,国内的大模型独角兽公司零一万物正式发布了 Yi 大模型 API 开放平台。此次 API 开放平台提供以下模型:Yi-34B-Chat-0205:支持通用聊天、问答、对话、写作、翻译等功能。Yi-34B-Chat-200K:200K 上下文,多文档阅读理解、超长知识库构建小能手。Yi-VL-Plus: 多模态模型,支持文本、视觉多模态输入,中文图表体验超过 GPT-4V。

3月15日,苹果正式公布自家的多模态大模型MM1系列,具有 30B 参数,参数最高可达 300 亿。它由密集模型和混合专家(MoE)变体组成,不仅在预训练指标中实现 SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。

3月17日,xA官方开源Grok-1,一个3140亿参数的8个MoE混合专家模型。代码和模型权重已上线GitHub,模型的权重文件则是以磁力链接的形式提供,文件大小接近300GB。开源的是2023年10月预训练阶段的原始基础模型,没有针对任何特定应用进行微调。Grok-1选用了Rust编程语言以及深度学习框架新秀JAX。

issue60 2024.3.18-3.24

3月18日,月之暗面将自家模型的上下文窗口提升了一个数量级,从发布之初的20万字,拓展到200万字。该版本在Kimi上开启内测,并且在与Kimi对话过程中,加入了(不打断模型思路的)“继续”功能按钮。同时,相同成本、相同设备情况下,模型响应速度提升了3倍左右。月之暗面还提出了“Kimi 10分钟速成定律”,即无关领域大众小众,也无关资料或多或少,只要把资料一股脑丢给模型,10分钟内,Kimi都能快速入门一个新领域。此外, Kimi Chat改名为Kimi智能助手,Moonshot大模型改名为Kimi大模型。

AI初创公司Suno AI重磅推出了一款音乐生成模型V3。仅用几秒的时间,V3便可以创作出2分钟的完整歌曲。现在已经向所有用户免费开放。相比与之前的版本,v3生成的音乐质量更高,而且能制作各种各样的风格和流派的音乐和歌曲。提示词的连贯性也有了大幅提升,歌曲结尾的质量也获得了极大的提高。为了激发人们的创作灵感,Suno v3还新增了更丰富的音乐风格和流派选项,比如古典音乐、爵士乐、Hiphop、电子等新潮曲风。

3月18日,Colossal-AI团队全面开源了类Sora架构视频生成模型Open-Sora 1.0,涵盖了关于文生视频的整个训练流程,包括数据处理、所有训练细节和模型权重,1万美元64块GPU复现,训练成本直降46%。模型采用了目前火热的Diffusion Transformer(DiT)架构。整个架构包括一个预训练好的VAE,一个文本编码器,和一个利用空间-时间注意力机制的STDiT(Spatial Temporal Diffusion Transformer)模型。Open-Sora的复现方案参考了Stable Video Diffusion(SVD)工作,共包括三个阶段,分别是:大规模图像预训练;大规模视频预训练;高质量视频数据微调。

3月19日,Stability AI 推出3D 视频生成大模型Stable Video 3D(简称 SV3D)。该模型基于 Stable Video Diffusion 打造,能够显著提升 3D 生成的质量和多视角一致性,效果要优于之前 Stability AI 推出的 Stable Zero123 以及丰田研究院和哥伦比亚大学联合开源的 Zero123-XL。目前,Stable Video 3D 既支持商用,需要加入 Stability AI 会员(Membership);也支持非商用,用户在 Hugging Face 上下载模型权重即可。

3月22日,百度升级了大模型应用开发神器百度千帆AppBuilder。它开放了55个工具组件,包括大模型组件、AI组件、搜索组件、第三个API工具等。能让企业或个人零门槛开发各种场景下的Agent应用。同时,百度大模型也上新了,一共5个,主打轻量化、性价比、实际场景:ERNIE Speed,ERNIE Lite,ERNIE Tiny,ERNIE Character,ERNIE Functions。

issue61 2024.3.25-3.31

3月29日,人工智能独角兽AI21 Labs推出并开源了Jamba,在多个基准上超越了 transformer。Jamba 将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 transformer 架构相结合,是基于全新SSM-Transformer混合架构的52B生产级Mamba模型,与Mixtral 8x7B相比,长文本处理吞吐量提高了3倍;实现了256K超长上下文窗口;是同等规模中,能在单张GPU上处理140K上下文的模型;以Apache 2.0开源许可协议发布,开放权重。

3月29日,xAI升级推出Grok-1.5模型,数学和代码能力大幅提升,支持128k长上下文。Grok-1.5能够在其上下文窗口内处理128K token的文本。此外,新模型还可以处理更长和更复杂的提示,同时在其上下文窗口扩展时仍保持其指令跟随能力。Grok-1.5构建在基于JAX、Rust和Kubernetes的定制分布式训练框架之上。

3月30日,OpenAI 首次亮相了语音引擎 Voice Engine预览版,其首次开发时间是 2022 年末。通过文本输入以及一段 15 秒的音频示例,可以生成既自然又与原声极为接近的语音。即使是小模型,只需一个 15 秒的样本,也能创造出富有情感且逼真的声音。Voice Engine 并未根据用户数据进行训练或微调,而是通过一个扩散过程和 transformer 结合的方式 从而产生语音。不过,Voice Engine 目前不支持音调、音高或节奏的调整。Voice Engine 的定价为每一百万字符 15 美元。

RWKV 元始智能 日前宣布向全球开源其 RWKV-6 1.6B(2.5T Tokens) 模型。

issue62 2024.4.1-4.7

阿里通义千问团队正式公开 Qwen1.5-32B,它是 Qwen1.5 语言模型系列的新成员,在性能、效率和内存占用之间寻求理想平衡,旨在提供与30亿参数规模模型相媲美的性能。在 MMLU、GSM8K、HumanEval 以及BBH等多个任务上,Qwen1.5-32B 即使与72B参数模型相比性能有所下降,但在多数任务中仍优于其他30B级别模型。相较于72B模型,Qwen1.5-32B的内存占用大幅减少,运行速度显著提升,旨在帮助用户为其下游应用找到更优的解决方案。

4月2日,昆仑万维官宣,AI音乐生成大模型天工SkyMusic基于昆仑万维天工3.0超级大模型打造,即日起面向社会开启免费邀测。本轮测试已开放1000个免费名额。天工SkyMusic采用音乐音频领域类Sora模型架构:Large-scale Transformer 负责谱曲,来学习 Music Patches 的上下文依赖关系,同时完成音乐可控性;Diffusion Transformer 负责演唱,通过LDM让Music Patches被还原成高质量音频,使得天工SkyMusic能够支持生成80秒44100Hz 采样率双声道立体声歌曲。这套模型架构在处理视频、音频和音乐领域效果极佳。

4月3日,腾讯开源了文生视频工具MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。文本、图像到视频的生成结果的所有帧直接由MuseV生成,没有时序超分辨、空间超分辨等任何后处理。除了直接放出模型代码,目前MuseV还有demo可体验。

4月1日,初创公司阶跃星辰,发布了三个大模型:Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型预览版。目前,千亿参数模型 Step-1超过 GPT-3.5 ,多模态大模型 Step-1V比肩 GPT-4V。第一款应用是跃问聊天助手,可以完成信息查询、语言学习、创意写作、图文解读等任务。此外,它还具备了多模态内容理解能力、联网搜索、代码分析增强(POT)等能力,高效理解和回应用户的查询,提供连贯且相关的对话。

4月1日,澜舟科技官宣:孟子3-13B大模型正式开源,面向学术研究完全开放,并支持免费商用。孟子3-13B大模型是基于Llama架构,数据集规模高达3T Tokens。语料精选自网页、百科、社交、媒体、新闻,以及高质量的开源数据集。通过在万亿tokens上进行多语言语料的继续训练,模型的中文能力突出并且兼顾多语言能力。

OpenAI官宣4月2日起,ChatGPT不用注册,可以直接使用。虽然这次开放的版本是GPT-3.5,训练数据截止到2022年,但仍然大大降低了使用门槛。此后的ChatGPT将成为一项免费,快速的基础服务。

4月4日,OpenAI 的 DALL-E 进行了多项升级,添加了与 ChatGPT 的集成,现在用户可以在 ChatGPT 中使用 DALL-E 组件进行复杂的图像编辑。当输入一个想法时,ChatGPT 会自动为生成模型生产量身定制的、详细的 Prompt,用户也可以继续使用自己的 Prompt。

issue63 2024.4.8-4.14

4月9日,Google Cloud Next 2024大会上,谷歌宣布Gemini 1.5 Pro正式开放公开可用、上线音频处理能力;更新代码模型CodeGemma,推出首款自研Arm架构处理器Axion,升级视频版Imagen 2.0。其中,谷歌Gemini 1.5 Pro已经在Vertex AI上开放公测,100万token,还增加了音频功能。它能处理音频流,包括语音和视频中的音频。

4月10日,OpenAI官宣发布了具备视觉功能GPT-4 Turbo的正式版,能处理128k上下文,已经可以通过API调用了,其训练数据截止到2023年12月。同时,Vision请求也可以使用JSON模式和函数调用。新模型可以有助于简化开发人员的工作流程,创造出更高效的应用程序。与此同时,OpenAI已经将GPT-4每3小时40条消息的使用限制,变成了根据供需情况动态调整的灵活配额。不过,有研究发现,GPT-4 Turbo with Vision在编码方面较差。

4月13日,xAI 推出了多模态模型 Grok-1.5V。该模型不仅能理解文本,还能处理文档、图表、截图和照片中的内容。Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型,从多学科推理到理解文档、科学图表、图表、截图和照片。目前,Grok-1.5V 还没有完全开放,但会很快提供给早期测试者和现有的 Grok 用户。此外,xAI 还推出了一个新的基准RealWorldQA。目前,RealWorldQA 包含 700 多张图片。

百度文心一言上线了新功能,仅需几秒钟即可定制自己的声音。打开文心一言App,点击下方“+”,然后选择创建智能体。在声音选项里,会发现一个名为“创建我的声音”的功能。根据系统提示读出一段话,只需两秒左右的时间,系统便能捕捉到用户的声音特点,生成一个独特的“语音助手”。在确认声音质量后,用户的专属“语音库”就在瞬间构建完成。今后,在与智能体的每一次对话中,用户都可以点击播放键,使用自己合成的音色进行语音播报。

issue64 2024.4.15-4.21

4月16日,Create 2024百度AI开发者大会举办,宣布文心大模型4.0性能提升52.5%,又公布了智能体、代码、多模型等方面的新进展。百度着重介绍了三款AI开发工具:AgentBuilder(智能体开发工具)、AppBuilder(AI原生应用开发工具)和ModelBuilder(模型定制工具)。其中,AgentBuilder是面向所有人的,不需要编程基础也能可以轻松建立。会上,百度还发布新一代智能计算操作系统万源(Wanyuan)。

4月17日,稀宇科技 MiniMax 推出了万亿 MoE 模型 abab 6.5。abab 6.5系列包含两个模型 abab 6.5和abab 6.5s。abab 6.5 包含万亿参数,支持 200k tokens 的上下文(相当于约 30 万汉字)。abab 6.5s 跟 abab 6.5 使用了同样的训练技术和数据,但更高效,支持 200k tokens 的上下文长度,可以 1 秒内处理近三万字的文本。根据 MiniMax 发布的技术报告,在知识、推理、数学、编程、指令遵从等维度测试中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。MiniMax还开发了一款生产力产品“海螺AI”,目前已经接入了万亿 MoE 模型 abab 6.5。

4月17日,昆仑万维宣布天工 3.0基座大模型与天工 SkyMusic音乐大模型正式开启公测,无次数限制。它生成的中文人声发音清晰、正宗、无异响,不仅针对普通话做了优化,还有粤语、成都话、北京话等方言语种。目前,SkyMusic已经集成到了手机上的天工APP。从目前的结果来看,天工SkyMusic可以支持生成80秒左右时长的歌曲。大模型天工 3.0 拥有 4000 亿参数。

Mistral AI 开源了其最新的大模型 Mistral 8x22B,该模型在AI开放社区中设定了性能和效率的新标准。

4月19日,Meta官宣了Llama 3 80亿和700亿参数版本,在各自参数规模上超越对手,为开源SOTA。Llama 3 405B 版本仍在训练中,将是一个密集模型,预计年末发布。据现有的评测数据,405B 版本的性能已经逼近 GPT-4。架构层面,Llama 3选择了经典的仅解码式Transformer架构,采用包含128K token词汇表的分词器。训练方面,Meta上了2.4万块GPU集群,Llama 3的训练数据规模达到了15T tokens,全部来自于公开信息,其中5%为非英文数据,涵盖30多种语言。此次与基础模型一同发布的,还有基于Llama 3的官方Web版本Meta AI(https://www.meta.ai/)。目前该平台有对话和绘画两大功能。

issue65 2024.4.22-4.28

科大讯飞发布首个支持长文本、长图文、长语音的大模型 讯飞星火 V3.5。支持多情感超拟人合成和个性化声音复刻。

微软发布名为 Phi-3 的小型语言模型(SLM),该模型系列虽然体积小巧,但功能强大,具有很大的潜力。作为Phi-3系列的首版,Phi-3-mini 拥有3.8亿参数,并且性能超过了两倍于其大小的模型。Phi-3-mini 现在可以在 Microsoft Azure AI模型目录和 Hugging Face 上公开获取,并且也可以在 Ollama 轻量级框架上运行。

4月25日,苹果团队发布了OpenELM,包含了2.7亿、4.5亿、11亿和30亿四个参数版本。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的 checkpoint 和训练日志。OpenELM是一款专为终端设备而设计的小模型。OpenELM使用了分层缩放策略,来有效分配Transformer模型每一层参数,导致模型每层的参数数量不同,从而实现了更有效的跨层参数分配与提升准确率。这款模型还可以在M2 MacBook Pro(64GiB内存)运行。

issue66 2024.4.29-5.5

5月1日,Google推出新型多模态医学 AI 模型 Med-Gemini 。它融合了高级推理、多模态理解和长文本处理能力,构建基于 Google 的 Gemini 模型,并针对医学领域进行了专门的优化和改进。在医学基准测试如MedQA中,展现出优越性能,准确率达91.1%。

5月2日,Anthropic 推出一项针对企业的新付费计划,其中包括医疗保健、金融和法律等受到高度监管的行业,该计划名为“Team”,为客户提供对 Anthropic 的 Claude 3 系列生成型 AI 模型以及额外的管理员和用户管理控制的更高优先级访问权限。此外,Anthropic 也推出一款 iOS 应用,只有11MB。该应用提供对 Claude 3 的访问,包括免费访问以及升级的 Pro 和 Team 访问,并与 Anthropic 的网络客户端同步,利用 Claude 3 的视觉功能为上传和保存的图像提供实时分析。

issue67 2024.5.6-5.12

幻方 DeepSeek AI 开源 MoE 语言模型 DeepSeek-V2。该模型拥有236B的参数量,能够处理长达128K token的上下文,相较于前一代DeepSeek 67B模型,在性能上实现了显著提升,同时在训练成本上节省了42.5%,减少了93.3%的KV缓存,并显著提高了最大生成吞吐量。在多个基准测试中,DeepSeek-V2的性能直逼行业领先的GPT-4,尤其在数学、代码和推理任务上表现出色。

5月8日,谷歌DeepMind发布了新一代预测蛋白质结构的AlphaFold 3模型,能够帮助科学家更精确地针对疾病机制,从而开发出更有效的治疗药物。此举是一个重要的里程碑式突破。AlphaFold 3是一种人工智能模型,它可以预测蛋白质、DNA、RNA等生物分子的结构以及它们如何相互作用。另外,DeepMind还推出了AlphaFold Server,它是一个供全球科学家用于非商业研究的免费平台。

5月9日,阿里云正式发布通义千问2.5,同时发布1100亿参数开源模型Qwen1.5-110B。此外,百炼大模型平台从模型开发、应用开发到算力底座全面升级。升级后,百炼还兼容LlamaIndex等开源框架,企业可自由替换能力组件来适配自身系统。

月之暗面 Moonshot AI 宣布对旗下智能助手 Kimi 进行更新,并推出专业 AI 助手 “Kimi+”。据官方介绍,Kimi+ 是拥有独特技能的 Kimi 分身,可解决特定问题,也能组成 AI 生产线。

零一万物推出了名为「万知」的一站式AI工作平台,号称专为中国人设计,能够提供会议纪要、周报撰写、写作辅助以及解读财报、论文等文件,并帮助用户制作PPT。这款AI个人助手支持中英双语,用户可以通过网页和微信小程序访问。

5月8日,OpenAI 官方发布了《模型规范》(Model Spec) 初稿,旨在公开讨论和定义AI模型应有的行为。所公开的文件汇集了OpenAI在塑造模型行为方面的现有文档、研究经验和未来模型发展的指导原则,主要包括三个核心部分:目标、规则和默认行为。目标是指导模型行为的广泛原则;规则是确保安全和合法性的明确指令;默认行为则是在目标和规则框架下处理冲突的指导方针。Model Spec 的发布是为了加深公众对AI模型行为的理解和讨论,同时也是OpenAI对模型安全和行为改进承诺的延续。OpenAI计划将这份规范作为研究人员和AI训练者的指导,探索模型是否能直接从规范中学习,并在未来一年内根据反馈更新规范内容、分享研究进展。

issue68 2024.5.13-5.19

5 月 14 日凌晨,OpenAI 在首次春季新品发布会上推出了新一代旗舰生成模型 GPT-4o (o 代表 Omnimodel全能模型)、桌面 App,并展示了一系列新能力。GPT-4o具有文本、语音、图像三种模态的理解力,模型反应比人类的回应还快,最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。还能够充分理解人类的情感,也能表现出各种感情。在多项基准测试中,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能。GPT-4o 的文本和图像功能免费在 ChatGPT 中推出,并向 Plus 用户提供高达 5 倍的消息上限。

5月17日, OpenAI宣布ChatGPT可分析线上Excel数据。ChatGPT可以直接打开线上数据文件,支持从Google Drive和Microsoft OneDrive在线文档上传,在新的可扩展视图中与表格和图表进行实时交互,完成实时数据分析;自定义图表并下载图表,用于演示文稿和文档。网友已经灰度测试到背后的新模型ADA V2。

零一万物发布 Yi 大模型家族的新成员 Yi-1.5 并宣布开源。Yi-1.5 模型包含6B、9B、34B三个版本的预训练和微调模型,采用Apache 2.0许可证。该模型在编码、数学、推理和指令遵循方面的能力相较于前一版本Yi有显著提升,同时保持了在语言理解、常识推理和阅读理解方面的优秀表现。

腾讯发布基于混元大模型的一站式智能体开发平台「腾讯元器」。企业和开发者可以通过腾讯元器直接创建智能体,利用腾讯官方提供的插件和知识库,实现个性化的AI应用开发。腾讯元器的亮点在于其便捷的一键分发功能,允许用户将创建的智能体快速部署到QQ、微信客服、腾讯云等多个渠道上,极大地简化了AI技术的落地应用过程。

腾讯公司宣布其混元文生图大模型全面升级并开源,这是业内首个中文原生的DiT(Diffusion With Transformer)架构文生图模型。该模型包含15亿参数,支持中英文双语输入及理解,现已在Hugging Face平台及GitHub上发布,包括模型权重、推理代码和模型算法等,可供企业与个人开发者免费商用。

5月15日,2024火山引擎FORCE原动力大会上,字节跳动云雀大语言模型升级为豆包大模型家族正式在火山引擎上对外开放服务。豆包大模型家族的全系列模型,包括豆包通用模型pro/lite、角色扮演模型、语音合成模型、语音识别模型、声音复刻模型、Function call模型、文生图模型以及向量化模型。豆包通用模型pro-32k版,推理输入价格0.0008元/千tokens,较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens。另外,豆包通用模型pro-128k版本,推理输入价格为0.005元/千tokens。

谷歌在I/O 2024开发者大会上发布Gemini 1.5 Pro正式版,上下文长度达到200万token,而且开放给个人用户使用。支持多模态的Gemini可以处理上传的任何格式的信息,理解内容后将其改造成适合用户的形式并可对话互动。

谷歌发布了Gemini 1.5 Flash。Flash是一个更轻量级的模型,专为那些对响应速度要求极高的特定或频繁任务优化。它同样具有多模态、1M tokens长上下文的特点,只不过实现了轻量化、低延迟、高效推理,每百万个token的价格仅是Pro版的二十分之一。Gemini 1.5 Flash在Google AI Studio和Vertex AI中可用,开发者可以注册申请两百万token的内测版。

issue69 2024.5.20-5.26

微软在2024 Build开发者大会上发布了Phi-3系列模型的新成员 “Phi-3 Vision”,这是一个有42亿参数的多模态模型,结合了语言和视觉能力。Phi-3 Vision专为图表和图解理解进行了优化,能够处理现实世界图像的推理以及从图像中提取和推理文本,支持128K的上下文长度。该模型在一般视觉推理任务、OCR、表格和图表理解任务中表现出色,优于其他更大模型如Claude-3 Haiku和Gemini 1.0 Pro V。

5月21日,微软在2024 Build开发者大会发布新一代 Copilot+ PC。它配备了强大的 AI Agent,只需在键盘上轻点新的 Copilot 按键即可快速交互。硬件AI算力达到40 TOPS以上,或者说每秒40万亿次运算,电池续航时间可达一整天。目前开始预订,起售价 999 美元,国行价格8688 元起售,6 月 18 日发货。在新一代PC里,打游戏时可与AI实时对话,提供吐槽陪玩或攻略指导,由GPT-4o提供支持。任何文件或网页浏览记录都可以用自然语言搜索回忆,实时翻译音频或视频字幕,目前支持40+种语言。在专为AI重构的新版Windows 11上,约有40多个AI模型被深度集成,许多功能都是实时的。微软引入了全新的系统架构,将CPU、GPU和新的高性能神经处理单元NPU结合在一起。NPU负责在后台实时运行AI。

5月21日 ,智谱·AI宣布推出新一代多模态大模型CogVLM2,该模型在关键性能指标上相较于前一代CogVLM有了显著提升,同时支持8K文本长度和高达1344*1344分辨率的图像。尽管CogVLM2的模型大小为19B,但其性能接近或超过了GPT-4V的水平。CogVLM2的技术架构在上一代模型的基础上进行了优化,包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块,这些模块通过独特的参数设置,精细地建模了视觉与语言序列的交互。

5月22日,百川智能发布其最新一代基座大模型 Baichuan 4,并推出了首款AI助手“百小应”。Baichuan 4在各项能力上相比前一代Baichuan 3有显著提升,其中通用能力提升超过10%,数学和代码能力分别提升14%和9%。在SuperCLUE的评测中,Baichuan-4的能力排名国内第一,超越了SenseChat V5。Baichuan 4还首次带来了多模态能力,在各大评测基准上表现优异,领先其他多模态模型。

5月20日,面壁智能打造了端侧多模态模型MiniCPM-Llama3-V 2.5。该模型8B参数,不仅支持30+多种语言,而且综合性能、OCR长难图识别能力SOTA;图像编码快150倍。面壁自研高清图像高效编码技术,可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比的图像。

issue70 2024.5.27-6.2

腾讯将基于混元大模型的 AI 助手应用「混元助手」升级为「腾讯元宝」,集成 AI 搜索、AI 总结、AI 写作等功能。元宝不仅提供 AI 助手的标准功能,还利用腾讯新闻和微信公众号平台的资源,增强了内容的及时性和丰富度。此外,元宝还具备生成内容、翻译、多模态生成等多种能力,显示出腾讯在 AI 应用领域的强大技术实力和生态优势。

Google 宣布 Gemini 1.5 Flash 和 Gemini 1.5 Pro 现已全面推出。Gemini 1.5 Flash 现支持 1,000 RPM 限制,并引入了调优功能。此外,API 现已支持 JSON Schema 模式,AI Studio 移动版支持和浅色模式也已上线,为开发者提供更强大和便捷的开发工具。

OpenAI 推出专为大学校园设计的 ChatGPT Edu 版本,支持 GPT-4o、网络搜索、自定义 GPT、数据分析、代码生成等功能。牛津、剑桥、伯明翰等 24 所大学,以及沃顿商学院和亚利桑那州立大学已开始使用该生成式 AI 产品。ChatGPT Edu 提供多模态推理、增强的数据分析和搜索功能、自定义 GPT、提升的语音质量及多语言支持,还具备强大的安全机制,包括数据隐私、组权限和管理控制。

法国人工智能初创公司 Mistral AI 宣布了其首个代码生成模型 Codestral。该模型接受了 80 多种编程语言的训练,包括 Python、C、C++、JavaScript 和 Bash 等。Codestral 能自动完成代码函数、编写测试,并使用填补中间的机制完成部分代码,减少错误和漏洞。该模型拥有 32k 的上下文窗口,在 HumanEval、MBPP、CruxEval、RepoBench 和 Spider 等基准上表现出色,提供 API 端点、插件和开发环境集成。

issue71 2024.6.3-6.10

6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是完整地将MoEUpcycling技术应用并落地的开源千亿MoE大模型,也是支持用单台4090服务器推理的开源千亿MoE大模型。本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为146B,激活参数量22B,共有16个Expert,每个Expert大小为13B,每次激活其中的2个Expert。

6月4日,AI初创公司澜舟科技宣布轻量化大模型Mengzi3-8B,现已正式开源,并支持免费商用。Mengzi3-8B是一款高效、低显存需求的AI大模型,半精度下显存占用小于16G,适用于PC(如MacBook)和大部分消费级显卡(如RTX 4090、RTX 4080、RTX 4070Ti)。此外,Mengzi3-8B的原生推理速度在同级别模型中处于领先地位,特别适合个人开发者和AI爱好者使用。

6月5日,智谱AI在智谱AI Open Day上宣布对旗下全模型矩阵的价格大幅下调,开源GLM-4-9B系列模型,并发布了大模型应用清言App和大模型开放平台的最新更新。小模型ChatGLM3-6B升级为9B后,在开放平台变为GLM-4-flash版本,API 价格相较于GLM-3 Turbo降价至10%。第四代GLM系列开源模型GLM-4 9B,官宣开源免费用。GLM-4模型,在开放平台上为GLM-4-Air版本,每100万token只需1元,价格则仅为原来的1%。

6月7日,阿里云发布开源模型Qwen2-72B。本次开源的Qwen2-72B大模型在自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的开源模型,包括阿里云在4月底开源的Qwen1.5最大的模型Qwen1.5-110B。该Qwen2系列包含5个尺寸的预训练和指令微调模型,包括wen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。所有尺寸模型都使用了GQA(分组查询注意力)机制,模型的多语言能力和上下文长度支持均得到了提升。

issue72 2024.6.10-6.16

苹果在WWDC 24上展示了其首个AI系统——Apple Intelligence及全新Siri。这个强大的新功能将为iPhone、iPad和Mac提供情景驱动通知、写作改进、图像生成等功能。Apple Intelligence的英语试用版将于今年夏天推出,并于今年秋天在iOS 18、iPadOS 18及macOS Sequoia中发布Beta版。使用门槛是iPhone 15 Pro系列、配备M1芯片的iPad和Mac以及后续机型。苹果还和OpenAI宣布建立合作伙伴关系,将ChatGPT直接集成到即将发布的iOS 18、iPadOS 18和macOS中。

Luma Labs推出了Dream Machine,这是一种全新的AI模型,能够根据文本和图像提示生成5秒的视频剪辑。

6月12日,微软发布公告称Copilot GPTs将于7月10日起停服,移除创建GPT的功能,用户已经创建的GPTs将被清空。微软给出的官方解释是公司战略调整,正在将GPT的重点转向商业和企业场景,背后原因可能是缺乏商业回报。Copilot GPTs关闭引发了用户不满,批评者质疑此举会切断创新并削减消费者对于产品的信任。

6月14日,英伟达宣布推出 Nemotron-4 340B。它包含一系列开放模型,通过独特的开放模型许可,开发人员可以用免费、可扩展的方式使用这些模型生成合成数据,用于训练大语言模型,可用于医疗健康、金融、制造、零售等所有行业的商业应用。Nemotron-4 340B 系列包括基础、Instruct 和 Reward 模型,用于生成训练和改进 LLM 的合成数据。这些模型经过优化,可与 NVIDIA NeMo 配合使用,后者是一个用于端到端模型训练的开源框架,包括数据管理、定制和评估。它们还针对开源 NVIDIA TensorRT-LLM 库的推理进行了优化。

issue73 2024.6.17-6.23

6月20日,Anthropic 发布了下一代旗舰大模型Claude 3.5 Sonnet,不仅在评估中胜过GPT-4o,还保持着中等规模的模型所具有的速度和成本优势。如今,Claude 3.5 Sonnet已经面向全球开启免费试用了。成本更低、速度更快。在运行速度方面,Claude 3.5 Sonnet也是Claude 3 Opus的两倍。在费用上,Sonnet处理每百万输入token仅需3美元,每百万输出token仅为15美元。

在Computex 2024大会上,Stability AI正式官宣SD 3 Medium公开发布。据悉,之后还会开源4B和8B的版本。目前,ComfyUI已经提交了对SD3支持的版本。本次开源的版本是Stable Diffusion 3 Medium在Hugging Face上可以下载模型权重。它的规模为20亿参数,在笔记本上就能跑。

6月21日,华为在年度开发者大会上推出全新升级的盘古大模型5.0版本,该版本在全面性、多模态处理能力以及深度思考能力上均实现了显著提升。盘古5.0针对不同业务需求,推出了多种规格的模型,并且能够与现实世界紧密结合,推动大模型在各行业的广泛应用。

Hedra发布Character-1,用户可以细颗粒度地控制如何使用AI来制作“虚拟角色的动画”。这是Hedra即将推出的基础视频模型的“预览版本”,目前它只提供方形视频,而不是宽屏或竖屏,而且分辨率相对较低。它的使用门槛相当低。基于该模型,用户只需要一段音乐——可以直接生成,或者上传已有的音乐,一张图片——可以直接生成,或者上传自己的图片。然后,只需单击生成视频并等待即可。大概一分钟左右,会生成一个一个口型同步的视频。

依图科技发布了面向安防场景的天问大模型4.0。

issue74 2024.6.24-6.30

谷歌DeepMind公布其新一代最强开源模型——Gemma 2。Gemma 2有90亿(9B)和270亿(27B)两种参数规模可用。27B模型训练了13T tokens,9B是8T tokens,都拥有8192上下文窗口,可在Google AI Studio中使用。26亿参数(2.6B)模型将很快发布,小到可以在手机本地运行。

OpenAI宣布开发了一个名为CriticGPT的新模型,基于GPT-4训练,旨在查找ChatGPT输出内容中的错误。CriticGPT的主要目的是协助人类AI训练员完成工作,使用”从人类反馈中强化学习”(RLHF)技术来改进GPT-4的回答。

6月25日,OpenAI向中国用户发布邮件称,自7月9日起,将不再接受来自那些未在其支持列表中的国家和地区的API请求。如果受影响的组织想要继续利用OpenAI的服务,他们需要在OpenAI服务覆盖的国家或地区进行访问。目前,OpenAI的API服务覆盖了全球161个国家和地区,但中国并不在其中,这表明OpenAI将不再向中国用户提供API服务。

百度在深度学习开发者大会上推出了智能代码助手”文心快码”。该产品基于文心大模型和百度多年积累的编程数据,具有代码智能、场景丰富等优势,可实现”帮你想、帮你写、帮你改”的应用形态。文心快码在百度内部已广泛使用,代码采用率达44%。它支持100多种编程语言,在Go、Java等主流语言中表现优异,并兼容多种主流IDE。产品分为标准版、专业版、企业版和企业专有版,满足不同用户需求。

6月27日,科大讯飞发布讯飞星火大模型V4.0及多个领域的人工智能应用。

issue75 2024.7.1-7.7

Runway宣布其最新的文生视频模型Gen-3 Alpha向所有用户开放,每月最低收费12美元。Gen-3一次可生成11秒的720P视频,支持文本输入生成视频。该模型功能强大,比肩Sora,能够生成高质量的视频内容。

7月3日,AI 音乐生成工具 Suno 宣布推出 iOS 客户端。

7月4日凌晨,法国知名开源 AI 研究实验室 Kyut 在官网发布了多模态大模型 Moshi。Moshi 的功能与 OpenAI 在5月14日展示的最新模型GPT-4o类似,都可以听取人的语音提问后进行实时推理回答。

7月4日,在今天揭幕的 2024 世界人工智能大会暨人工智能全球治理高级别会议(简称“WAIC 2024”)上,阶跃星辰首发了三款 Step 系列通用大模型新品:Step-2 万亿参数语言大模型正式版、Step-1.5V 多模态大模型、Step-1X 图像生成大模型。

7月5日,商汤科技发布了国内首个流式多模态大模型日日新5.5,实现了实时跨文本、音频、图像与视频推理,多项测评超过GPT-4o。

腾讯元宝应用推出了AI深度搜索功能,用户更新至最新版本后,能够在AI搜索深度模式下获得扩展问题解答,并能一键生成内容大纲、思维导图以及相关人物事件梳理。特别是在科研和财经等专业领域,该功能能够提供详尽的回答。经测试,元宝引用的消息源基本来自微信公众平台公众号文章。

快手宣布可灵AI网页端正式上线,所有功能限时免费。新功能包括:“文生视频”,支持最长10秒的视频生成以及“图生视频”,新增运镜控制和自定义首尾帧。可灵AI网页端提供AI图片、AI视频及即将上线的视频编辑功能,目前已吸引超过50万用户申请内测资格。

issue76 2024.7.8-7.14

腾讯智影小程序上线AI视频功能,用户可一键生成风格化视频,限时免费。用户导入视频后,可快速生成风格化效果,支持10秒视频处理。此外,智影AI还包含虚拟数字人、文本配音、智能去水印和文章转视频等功能,提升视频创作体验。

7月10日,阿里巴巴上线了AI搜索助手“心流”,提供智能搜索、知识问答、智能阅读、辅助创作等功能,旨在帮助用户提升工作和学习效率。

百度推出一款新型AI社交App“文小言”,利用文心大模型技术提供仿真数字人社交体验,允许用户与AI虚拟角色进行实时互动,每个角色都具备个性化的聊天服务和肢体语言反馈。

issue77 2024.7.15-7.21

7月17日,Anthropic 推出了 Claude Android 应用程序,旨在通过提供更多平台支持来吸引用户。该应用程序允许用户免费访问 Anthropic 的 AI 模型 Claude 3.5 Sonnet,并提供实时语言翻译功能,支持设备间对话同步和照片或文件的实时图像分析。此外,企业客户还可以在移动设备上访问他们的 Claude 账户。

7月19日,OpenAI 发布 GPT-4o mini ,一个成本更低、性能接近 GPT-4 的新模型,已在 ChatGPT 中取代 GPT-3.5。新模型支持更大的输入输出 tokens,价格更便宜,适用于多种应用场景,并计划开放微调功能。

issue78 2024.7.22-7.28

7月23日,Meta 正式发布了 Llama3.1,这是一系列大模型,包括8B、70B和405B三个版本,其中 405B 版本在性能上与 GPT-4o 相当,刷新了开源基础模型的能力上限。Llama 3.1扩展了上下文长度至 128K,并支持多语言和工具使用。Meta在预处理和预训练数据的 Curation pipelines 上进行了加强,并在后训练数据的质量保证和过滤方法上做了改进。Llama3.1 使用了超过 15 万亿的多语言 Token 语料库进行预训练,预训练模型的规模远大于以前的版本。

7月25日,OpenAI 宣布旗下AI搜索引擎 SearchGPT 正式开放内测,并计划在未来接入到 ChatGPT 服务中。

7月26日,智谱AI发布了升级版视频生成模型 CogVideoX,并推出了名为“清影”的AI视频生成服务,该服务能够在 30 秒内快速生成 6 秒视频,支持复杂指令的准确理解和执行,确保视频内容连贯,并具有画面调度的灵活性。目前,“清影”已在智谱清言的多个平台上免费开放给用户体验,同时企业和开发者也可以通过智谱大模型开放平台的 API 调用使用。

issue79 2024.7.29-8.4

7月31日,GPT-4o高级语音模式开启邀请测试。OpenAI宣布开始向一小部分ChatGPT Plus用户推出高级语音模式,基于GPT-4o提供更自然的实时对话。

谷歌发布了 Gemini 1.5 Pro 0801 版本,这款强大的 AI 在 LMSYS AI 竞技场排行榜上以 1300 分的成绩领先,超过了 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3.5。Gemini 1.5 Pro 配备了 2,000,000 个 token 的上下文窗口,极大增强了其处理大规模数据和生成长篇内容的能力。

谷歌开源了其最新端侧小模型Gemma2 2B,该模型以20亿参数的规模在性能上超越了参数更多的GPT-3.5-Turbo和Mixtral-8x7b,成为大模型竞技场LMSYS Chatbot Arena中表现最佳的开放模型之一。Gemma2 2B不仅性能卓越,还具有内置安全改进功能,同时推出了ShieldGemma安全内容分类器和Gemma Scope模型可解释性工具,进一步强化了模型的安全性和透明度。

7月31日,360集团创始人周鸿祎宣布,360安全大模型将免费为个人用户、中小企业提供服务,并在行业内第一个宣布安全大模型免费,让人人都能获得大模型带来的技术红利。

8月1日,Stable Diffusion 原团队成员创办的 Black Forest Labs 发布了 FLUX 文本转图像模型系列。FLUX.1 模型为开源图像生成模型树立了新标准:它们可以生成逼真的手、清晰的文本,甚至可以生成搞笑表情包这样异常困难的任务。

issue80 2024.8.5-8.11

GPT-4o自20240513之后首次更新到20240806版本。

OpenAI 推出了一项新功能,严格要求模型按 JSON 格式输出。允许开发者生成符合指定 JSON 模式的结构化输出。用户可以通过函数调用或 response_format 参数(使用 json_schema 选项)在 API 中使用此功能。

8月6日,智谱AI将其视频生成大模型CogVideoX开源,成为首个可商用的开源视频生成模型。CogVideoX支持在线体验,展示了高质量的视频生成效果,并且易于部署和使用,仅需单卡A100在90秒内即可生成视频。

issue81 2024.8.12-8.18

阿里巴巴开源的 Qwen2 Audio – 8.5B 模型在 ASR、S2TT 和 AIR-Bench 基准测试中表现出色,达到了目前的最佳状态。该模型经过 370K 小时的语音、140K 小时的音乐和 10K 小时的声音数据预训练,特别擅长语音聊天和音频分析任务,并与 Transformer 结构无缝集成。

8月14日,马斯克旗下的人工智能公司 xAI 正式发布新一代 Grok 2 大模型测试版,包括 Grok 2 和 Grok 2 mini 两个版本。Grok 2 测试版在逻辑推理能力上有显著提升,并且新增了文生图功能,使用 Black Forest Labs 的 FLUX.1 模型来生成图像。该版本支持中文提问和回答,目前只有 X Premium 和 Premium+ 用户可以体验。

8月16日,Runway 正式推出了其最新的AI视频生成模型 Gen-3 Alpha Turbo,该模型在视频生成速度上比之前的 Gen-3 Alpha 快了 7 倍,并且价格仅为原版的一半。这一新模型在保持与原版相同性能的同时,大幅降低了成本,使得所有用户都能体验到更快速的AI视频生成技术。

阿布扎比技术创新研究所推出了 Falcon Mamba 7B 模型,不依赖 Transformer 架构和注意力机制,能高效处理无限长序列,性能超越同规模开源模型。这一新模型特别适合长文本处理,且在内存使用上更为高效,现已在Hugging Face和GitHub上开源。

AI 代码编辑器 Cursor 将默认大模型切换到 Claude 3.5 Sonnet。Cursor 母公司 Anysphere,成立初期从 OpenAI 处融资 800 万美元,占当轮融资的 72.7%。

issue82 2024.8.19-8.25

Midjourney 网页版对所有人开放,为每位新用户提供最先进模型V6.1 25次试用机会。用户可使用Discord或Google账号登录,并在账户设置中合并两个平台的登录信息,确保历史记录同步。

8月19日,科大讯飞的星火语音大模型推出了极速超拟人交互更新,通过先进的端到端技术实现了快速响应和自然对话的无缝打断。新模型不仅能够识别并共鸣用户的情绪变化,还能根据用户的指令灵活调整情感表达和语言风格。此外,它还具备仿多种角色音色和语气的能力,使用户能够与不同人设进行互动。

8月21日,微软推出的新一代AI模型系列Phi-3.5,包含 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct 三个版本,分别针对轻量级推理、混合专家系统和多模态任务设计。Phi-3.5采用MIT开源许可证,具有不同参数规模,支持128k上下文长度,优化了多语言处理和多轮对话能力,在基准测试中性能表现超越了GPT4o、Llama 3.1、Gemini Flash等同类模型。

Luma AI 推出了 Dream Machine 1.5,这是其 AI 视频模型的升级版,带来了更高质量的文本转视频功能。新版本不仅在理解文本提示上更为智能,还提供了自定义文本渲染选项,并进一步改进了图像转视频的效果。

阿里大语言模型“通义千问”今日宣布启用新域名“tongyi.ai”,并带来多项新功能。网页版聊天新增深度搜索功能;App 图片微动效支持多尺寸图片;App 自定义唱演支持 3:4 画幅(原先 1:1)。

issue83 2024.8.26-9.1

Anthropic 宣布 Claude 中的 “Artifacts” 功能现已对所有用户开放,且已集成到 iOS 和 Android 应用中。这意味着用户现在可以在手机上创建和查看这些 “Artifacts”。自6月推出预览版以来,已经有数千万个 “Artifacts” 被创建。这个功能类似于在软件中创建和保存个人作品或项目的过程,使用户可以更方便地管理和分享他们的创作成果。Anthropic 鼓励用户探索和利用这一功能,以便在 Claude 的平台上进行更多创新和分享。

智谱开放平台现提供免费的 AI 大模型服务,用户可注册后调用 GLM-4-Flash 模型来构建定制化模型和应用。GLM-4-Flash 适合处理垂直领域、成本敏感、需求快速响应的任务,具备多轮对话、网页浏览、函数调用和长文本推理能力,并支持 26 种语言。平台通过自适应权重量化、并行化、批处理和投机采样等技术优化模型效率,实现推理速度提升和成本降低。

8月28日, Gemini 官方版本更新公告,Gemini Gem 管理器功能已正式上线,这是 Gemini 版的 GPTs。

谷歌在其 AI Studio 中推出了三款新的 Gemini 实验性 AI 模型:Gemini 1.5 Flash-8B、Gemini 1.5 Pro Exp-0827 和 Gemini 1.5 Flash Exp-0827。Gemini 1.5 Flash-8B 拥有 80 亿参数,专为多模态和长文本摘要任务设计;Gemini 1.5 Pro Exp-0827 强化了编程与复杂提示词的处理能力,在 LMSYS 排行榜上升至第二,仅次于 OpenAI 的 GPT-4o-latest;Gemini 1.5 Flash Exp-0827 的性能显著提升,排名从第 23 位跃升至第 6 位。用户可通过 Gemini API 和 Google AI Studio 访问这些新模型。此外,谷歌计划在 9 月 3 日起将 gemini-1.5-pro-exp-0801 模型的请求自动重定向至更新的 gemini-1.5-pro-exp-0827,并移除旧版模型。

Android / macOS 版 ChatGPT 客户端发布新版本。现在您可以使用 ChatGPT 上的“提及”功能,该功能允许用户在一次对话中使用“@”符号调用不同的自定义GPT模型。

8月29日,智谱发布新版基座大模型GLM-4-Plus,在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。GLM-4-Plus 使用了大量模型辅助构造高质量合成数据以提升模型性能;利用 PPO 有效有效提升模型推理(数学、代码算法题等)表现,更好反应人类偏好。新版文生图模型 CogView-3-Plus:具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。智谱还宣布智谱清言App新版现已支持视频通话,AI可以实时“看到”你的表情(陪伴场景),甚至可以来一局“你画我猜”。

谷歌宣布旗下 Gemini AI 支持更多类型的文件,包括电子表格、演示文稿、图像、音频和视频等,为用户提供更优质的 AI 服务。Gemini AI 可以分析、摘录和洞察文档内容,帮助用户提高理解、研究和写作能力。

issue84 2024.9.2-9.8

百度文心一言 App 推送一周年升级,更名为 「文小言」,同时宣布 9 月内文心 4.0 大模型将免费使用。

腾讯在 2024 全球数字生态大会上发布新一代大模型 「混元 Turbo」,采用 MoE 架构,推理效率提升 100%,推理成本降低 50%。其价格较混元 Pro 降低 50%,输出价格为 0.05 元 / 千 tokens,输入价格为 0.015 元 / 千 tokens。

在 2024Inclusion 外滩大会上,蚂蚁集团总裁韩歆毅宣布了全新推出的 AI 独立 App 支小宝,展示了蚂蚁集团在 AI 应用布局上的成果以及服务亿级用户的实践。支小宝 App 的定位是服务型 AI 产品,基于蚂蚁百灵大模型开发。它连接的仍是支付宝生态,在功能上,通过对话进行订票、点餐、打车等。

蚂蚁集团在外滩大会财富论坛上推出升级版 AI 金融管家 「蚂小财」,新版 「蚂小财」 能更实时解读热点,提供个性化专业服务,并在支付宝 APP 全量上线。同时,蚂蚁财富全新 APP 搭载 「蚂小财」 Pro 版上线灰测,这是国内首个实现 AI 原生体验的理财 APP。截至 2024 年 8 月底,「蚂小财」 的月度活跃用户数已达到 7000 万人,其中 45% 来自三线及以下城市。

OpenAI 计划推出大型语言模型的订阅服务,包括专注于推理的 「草莓」 和名为 「Orion猎户座」 的新旗舰 LLM。内部讨论中曾考虑过每月最高 2000 美元的订阅价格,但最终价格尚未确定。这一定价关系到 OpenAI 及其在类似产品领域的竞争对手,如谷歌、Anthropic 等公司。

OpenAI 日本办公室 CEO 长崎忠雄在 KDDI 峰会上透露,新一代模型 GPT-Next 的性能预计将比现有的 GPT-4 模型强大 100 倍,并计划在今年晚些时候发布。GPT-Next 模型的性能提升归功于其优化的架构设计和学习效率的改进。

AI 公司 Anthropic 推出 Claude Enterprise 计划,旨在帮助企业更好地整合 AI 模型与内部知识库,提供个性化丰富的体验。该计划支持上下文窗口达 50 万个词元,原生集成 GitHub,并放宽了使用限制。Anthropic 表示,企业可向 Claude 提供大量知识资料。然而,企业不应过分依赖大型文档处理能力,因为 AI 模型可能出现 「中间丢失」 现象。Claude Enterprise 提供安全功能如 SSO 和基于角色的权限管理,强调保护客户数据,并将推出审计日志和 SCIM 功能。

谷歌推出了新的 AlphaProteo AI模型,旨在设计能与目标分子成功结合的高强度蛋白质结合剂,用于药物设计和疾病理解。该系统能生成新的蛋白结合体,已成功设计出与癌症和糖尿病并发症相关的血管内皮生长因子-A 的蛋白质结合剂,并具有较高的体外实验成功率。谷歌通过测试多种目标蛋白的结合体,包括病毒蛋白和参与癌症、炎症等疾病的蛋白,以验证 AlphaProteo 的效果。

谷歌推出了 Google Photos 应用的新功能 「Ask Photos」,该功能利用 Gemini AI 技术,允许用户通过自然语言搜索照片库,查找特定的回忆或信息。此功能已开始向 iOS 和 Android 用户开放早期访问权限。用户可以提出各种问题,以从自己的图片库中检索相关内容,例如 「我去年在哪里露营。」「我的门票何时过期。」 等。

Replit推出Replit Agent。这个工具旨在协助用户构建手机软件项目。它可以理解自然语言提示,并帮助用户从构思到部署将应用程序从概念变为现实。Replit Agent通过使用自然语言进行控制,使得构建和部署应用程序变得更加简单和高效。它提供了一个创新的方式,让用户可以用简单的语言描述来创建和部署应用程序。

issue85 2024.9.9-9.15

9月12日,OpenAI宣布全新模型o1-preview正式亮相。该模型即为传言了近一年的Q*/草莓。根据OpenAI发布的资料,该模型在智能推理方面达到了前所未有的新高度,因此,模型版本号将从1开始计数。这或许意味着,我们不会再看到GPT-5,o1将成为OpenAI未来的顶尖力量。从9月12日起,ChatGPT Plus和Team用户已可率先体验这一模型。用户可根据需求选择使用o1模型的预览版——o1-preview,或是其精简版——o1-mini。o1-preview每周的使用上限为30条消息,而o1-mini则为50条。由于用户体验热情较高,OpenAI还在9月14日宣布重置本周所有用户的条数限制。

9月10日,Apple举行秋季新品发布会正式发布iPhone 16系列,同时宣布Apple Intelligence美国英语版本将在今年晚些时候在加拿大/澳大利亚/新西兰/英国/南非等市场推出,明年将支持中文/法语/日语/西班牙语。

腾讯推出游戏视频模型GameGen-O,可生成开放世界视频游戏,模拟游戏引擎功能,生成游戏角色、动态环境、复杂动作等,支持交互控制。业内人士称其为游戏工作室的ChatGPT时刻。

法国AI初创公司MistralAI发布了首个多模态模型Pixtral12B,拥有120亿个参数,能够处理图像和文本。然而,HuggingFace的技术主管指出其性能数据可能存在问题。尽管如此,Pixtral12B展示了强大的图像识别和处理能力,包括识别复杂数学符号和生成详细描述。MistralAI计划在聊天机器人和API平台上提供测试。

issue86 2024.9.16-9.22

微软已在Azure OpenAI服务中提供o1-preview和o1-mini两个模型的部署(API)。

微软召开发布会,介绍Microsoft 365 Copilot的Wave 2更新。包括新推出的 Copilot Pages 一站式网页搜索、内容策划和团队写作工具,以及通过 AI 生成 Python 代码快速处理 Excel 数据和一句提示生成 PPT 页面的功能。微软还推出了 Copilot 智能体以简化企业业务流程。

9月18日,360智脑推出基于CoT思维链概念的多模型协作功能,这一功能是通过多个大模型组成的智能体框架实现的,可以让多个模型共同思考和协作解决业务问题。用户可以从多款模型中任选3款,分别做专家、反思者和总结者,以实现更全面、深入的思考和推理过程。

9月19日,阿里巴巴在云栖大会上开源最新的Qwen-2.5大模型,并提供了0.5b-72b的各种尺寸。这一系列大模型包括Qwen2.5、Qwen2.5-Coder和Qwen2.5-Math等不同参数版本,适用于各种业务场景。此举进一步推动了国内大模型研究和应用的发展。

可灵 AI 全球升级发布,新增可灵 1.5 模型和 「运动笔刷」 功能,提升视频生成质量与控制能力。自 6 月发布以来,已进行 9 次迭代,超过 260 万人使用,生成视频超 2700 万部、图片 5300 万张。

智谱AI开源了其图生视频模型CogVideoX-5B-I2V,该模型支持通过一张图片和提示词生成视频。同时开源的还有标注模型cogvlm2-llama3caption,用于将视频内容转换成文本描述。智谱AI团队还发布了一些成功的应用案例,并公开了相关研究论文。

issue87 2024.9.23-9.29

9月25日,Meta推出新一代开源AI模型Llama3.2系列,包含从1B纯文本到90B多模态的多个版本,支持边缘和移动设备,旨在推动人工智能在多种使用案例中的应用。此次发布强调了模型的开放性、可定制性以及在图像理解和视觉推理任务方面的能力,同时提供了预训练和指令微调版本,支持高通和联发科硬件,并针对ARM处理器优化。Meta同日还发布了真AR眼镜Orion,搭载端侧大模型,现阶段作为原型机仅面向开发者,预计消费者版本将于两年内推出。

Google发布了两个Gemini模型更新:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002,提供更多的能力、更快的速度以及更低的成本。新模型在多个基准测试中有显著提升,特别是在数学、长文本和视觉任务方面。Google还降低了Gemini 1.5 Pro的输入和输出token价格超过50%,提高了两个模型的速率限制,并减少了延迟。

OpenAI正在向ChatGPT付费用户全量推出高级语音模式,该功能将使ChatGPT的对话听起来更自然。ChatGPT新增了五种声音,包括Arbor、Maple、Sol、Spruce和Vale,使得总声音数量达到九种。此外,最新版本的高级语音模式在理解口音方面有所改进,对话更加流畅和快速。中文方面,高级语音模式还可以使用北京话、上海话、四川话、粤语等方言口音进行对话。

Claude宣布Artifacts功能免费开放,免费版、Pro版、Team版用户均可立刻上手体验。

钉钉推出了面向个人用户的“365会员”产品,提供包括AI搜索、个人AI助理、AI自动回复和自动速读在内的会员专享权益。365会员中的AI搜索功能可以整合工作和协同信息,个人AI助理支持直接询问、识屏提问、拍照提问等多种交互方式。对于家长用户,会员还提供“成长记录”功能,可以智能识别孩子的照片并自动记录成长轨迹。

9月26日,哗哩哔哩宣布已上线自研大语言模型“index”,并将其应用于AI字幕。目前,B站的AI字幕具备中文、英文、韩语、日语、泰语等近10种语言的实时翻译能力,准确度接近90%。

美图公司宣布其“奇想大模型”的视频生成能力已完成全面升级,现在能够生成时长、画质、流畅性、真实性和可信度更高的视频。升级后,该模型可以支持生成1分钟、每秒24帧、1080P分辨率的超长视频。这项技术的进步将逐步应用于美图秀秀、美颜相机、Wink、开拍、美图设计室、WHEE、MOKI等产品。

字节跳动发布两款视频生成模型,分别是豆包PixelDance和豆包Seaweed。PixelDance单次可生成最长10秒的视频,Seaweed可生成最长5秒的视频,可动态延长至20-30秒。发布会现场,字节展示了PixelDance模型的生成效果,其优势主要体现在对复杂指令的理解方面,适合人物、剧情更为复杂的视频生成,而Seaweed模型的优势主要在于生成视频的清晰度。

issue88 2024.9.30-10.6

10月1日,OpenAI 发布 Whisper large-v3-turbo 语音转录模型,参数 8.09 亿,速度提升 8 倍,解码层数减少至 4 层,体积与 VRAM 需求均降低,并开放 MIT 许可证下的代码及模型权重供 GitHub 用户获取和体验。

10月1日,OpenAI发布Realtime API,即高级语音模式的API,开发者可在Playground中体验,价格较贵,每百万token输入+输出需要300美元。

10月4日,OpenAI宣布了ChatGPT的新增功能——Canvas。基于GPT-4o模型开发而成,它提供了一个单独的窗口,可以与ChatGPT一起执行编程、写作任务,会帮你提供意见、审核和执行具体的功能。例如,当你在编写代码时遇到了困难,Canvas可以高亮显示有问题的代码段,帮助ChatGPT提供内联的调试建议快速修复这些错误;简单来说,可以把Canvas看成是一个内置的AI Agent功能,就是用AI来指导、协助ChatGPT一起执行任务,使输出的内容质量更好、更准确。

Meta发布Meta Movie Gen文生视频模型,被业界称为迄今为止最先进的媒体基础模型(Media Foundation Models),并非扩散模型。它使用了包含 30B 参数的视频生成模型和 13B 参数的音频生成模型。这一全新的 AI 模型采用计算机视觉和自然语言处理技术,通过简单的文本输入就可以生成高质量、高清晰度的视频和音频。其视频生成模型具有 300 亿个参数,能够以每秒 16 帧的速度生成长达 16 秒的视频。该模型结合了多种功能,还支持精准的视频编辑,用户可以输入文本描述生成高清视频,同时上传图像并添加背景音乐和音效。 使其不仅能够生成新视频,还可以生成配音乐的高质量音频。

Google发布NotebookLM,旨在帮助用户更好地整理信息、提出问题并生成答案。用户可以上传自己的文档,然后NotebookLM会立即理解这些来源的内容,使用户能够轻松阅读、记录笔记,并通过该工具来提出问题。这款工具也可以帮助用户更有效地创作和思考,适合于整理、研究和学习等多种场景。

快手可灵 AI 新推出的「对口型」功能,允许用户上传音频后使视频中的人物口型与之同步,目前支持 1.0 和 1.5 模型,且仅限人物角色,API 服务已面向所有用户开放。

Black Forest Labs发布FLUX Pro 1.1版,生成速度比前一版本快6倍,并提高了图像质量、提示依从性和多样性。同时推出官方API。

StackBlitz 推出 bolt.new,将AI代码生成从编码扩展到部署,带有完整的开发环境,可以预览部署后的效果。

issue89 2024.10.7-10.13

由MiniMax推出的海螺AI是一款国产AI视频生成器,它在VBench评测中排名第一,并在五周内实现了月访问量增长8倍多的惊人成绩。这款AI工具不仅吸引了全球180多个地区的专业人士,如电影导演和游戏开发者,还因其在人体动作流畅性和逼真性上的卓越表现而超越了竞争对手Runway。

10月8日,华为的原生AI操作系统“纯血鸿蒙”HarmonyOS NEXT已开始公测,该系统内置了名为小艺的智能体。HarmonyOS NEXT通过原生智能技术实现了AI与操作系统的深度融合,让小艺智能体能够与系统无缝结合,并在多个场景中提供智能化服务。这标志着华为在人工智能领域的进一步发展,为用户提供更智能、更个性化的操作系统体验。

vivo在开发者大会上发布了“蓝心智能”AI战略,展示了其在AI领域的深入布局,包括新一代操作系统OriginOS 5和BlueOS 2。后者搭载了基于Rust语言的蓝河内核,强调安全和高性能。蓝心大模型矩阵也得到全面升级,其中蓝心3B端侧大模型在多个评测中排名第一,性能提升300%,功耗优化达46%。基于蓝心语音大模型,“vivo听说”新增了方言自由说功能,目前支持6种方言,以解决各地区间的沟通障碍问题,让用户可以以自己最熟悉的乡音与手机进行交互。

北京智源人工智能研究院开发的BGE(BAAI General Embedding)模型在Hugging Face月度下载榜上位列第一,这是中国AI模型首次取得这一成绩。BGE模型自发布以来,总下载量已超过1亿次,成为下载量最多的国产AI系列模型。

10月11日,特斯拉在“WE,ROBOT”发布会上展示了无人驾驶出租车Cybercab和多功能无人驾驶厢式货车Robovan,展示了其在自动驾驶技术方面的重大进展。

10月13日,OpenAI在Github上开源了多智能体协同AI Agent——Swarm。与普通AI Agent不同的是,Swarm可以同时创建多个智能体互相协同工作来完成特定任务,包括客户服务、销售支持和售后服务等,同时每个智能体都配备了一套专属工具集以更高效的完成任务。

issue90 2024.10.14-10.20

OpenAI发布了GPT-4o-Audio-Preview模型。该模型能够分析音频输入的情感、语调和音调,并增强互动体验。此外,还提供了语音到语音的互动功能,音频既可以作为输入也可以作为输出。

OpenAI于本周发布了ChatGPT的Windows桌面客户端,提供了一种更便捷的桌面访问方式。此更新旨在提高用户体验和便利性,方便用户在桌面上使用该AI工具进行各种对话。

Meta 推出了一项名为 「自我训练评估器」 的 AI 工具,旨在减少 AI 开发中对人类的依赖。该工具利用 「思维链」 技术提高在科学、编程和数学等领域的答案准确性,并通过完全由 AI 生成的数据进行训练。这展示了实现自主 AI 智能体的可能性,能够从自身错误中学习。此外,自我改进的模型有望减少对昂贵且低效的 「基于人类反馈的强化学习」 的需求。Meta 还发布了其他 AI 工具,包括图像识别模型 「Segment Anything」 的更新和一些有助于发现新型无机材料的数据集。

Perplexity 推出“内部知识搜索”和“Spaces 空间”:内部知识搜索:用户可同时搜索公共网页和企业内部知识库,适合金融、销售、HR 和初创公司团队。Spaces 空间:用户可创建工作空间,邀请团队成员协作。

Google NotebookLM 推出企业版和个性化控制:支持自定义 AI 播客内容,调整解说深度,专注于用户指定的主题。个性化控制:类似给 AI 主持人提示卡,让解说更符合用户需求。

月之暗面推出 kimi 探索版 AI,搜索能力显著提升至普通版的 10 倍,并计划全面推广至用户,同时将新增至手机 App 中。

issue91 2024.10.21-10.27

在Adobe MAX 2024大会上,Adobe推出了一项创新AI工具Project Turntable,该工具可以让用户将2D矢量图像像3D对象一样进行旋转,而无需重新绘制。

10月22日,微软宣布在Dynamics 365中集成10个自主AI Agent,可帮助企业自动执行客服、销售、财务、仓储等业务,开创全新的智能自动化工作模式。这些AI Agent支持OpenAI最新模型o1,可以自动执行跨平台的超复杂业务,能节省大量时间和运营成本。AI Agent会从Microsoft 365 Graph、Dataverse以及其他业务系统的数据,分析工作数据,识别工作模式、趋势,以及潜在的改进领域,从而更好地自动执行业务流程。使用方面也很简单,用户可在Copilot Studio可视化的界面中开发AI Agent,定义如何响应不同的输入和场景以及执行逻辑和规则即可。

10月23日,Anthropic发布了Claude 3.5 Sonnet模型的更新。最新版本的Claude 3.5 Sonnet展示了一项名为Computer Use的功能,能够根据用户指令移动光标、点击相应位置以及通过虚拟键盘输入信息,模仿人类与计算机的交互方式。另外,新的Claude 3.5 Sonnet模型在编程方面也表现出显著的提高。

Anthropic 还在 Claude 中新增了一款分析工具,该工具支持编写和运行 JavaScript 代码,用于处理数据、分析并实时生成洞察。此工具作为 Claude.ai 的新内置功能,类似于 ChatGPT 的代码解释器(Code Interpreter)。Claude 能够根据输入提示和文件,逐步清理、探索和分析数据,达到预期结果,并可创建互动数据可视化。该工具适用于市场营销、销售、产品管理、工程和财务等多个场景,目前处于功能预览阶段。

xAI推出了首款API “Grok-Beta”,这是一种生成式AI模型,支持函数调用,可将xAI的旗舰生成式AI模型Grok连接到数据库和搜索引擎等外部工具。据报道,该API的定价相比行业竞争对手高出许多,每百万输入令牌(token,约等于75万个单词)为5美元,每百万输出令牌为15美元。其定价模式在业内引发了一些热议。

Ideogram 上线Canvas功能,可以在无限画布上对生成的图片进行编辑。这包括扩图、局部重绘和其他基本的编辑功能。这个功能给用户提供了更多的创作自由,让他们可以更灵活地对生成的图片进行修改和完善。

Genmo公司开源了名为Mochi 1的DiT视频生成模型。这个模型基于Apache 2.0许可证发布,支持个人和商业用途的免费使用。它以每秒30帧的速度生成平滑的视频,持续时间长达5.4秒,并具有高时间连贯性和出色的运动质量。这一开放的视频生成模型在动作质量和遵循用户提示方面表现出色。

Midjourney网页版本周推出全新的AI图像编辑器,该编辑器具有多种独特功能,用户可以通过该编辑器轻松上传图像并进行放大、缩小、角度调整等操作。与此同时,该编辑器还能够实现各种二次创作需求,而无需依赖第三方平台。通过新发布的编辑器,用户可以在进行图像编辑时获得更加便捷的操作体验。

10月24日,科大讯飞宣布星火多语言大模型首次发布,除中英文外,可支持俄、日、阿、法等8个语种。根据实用任务场景构建测试集MMT-Eval-1.0,讯飞星火在汽车、家电、办公、翻译等行业的任务场景应用效果超过了GPT-4o。

10月25日,智谱的多模态大模型家族再次加入新成员——GLM-4-Voice(端到端语音模型),并在上线同时宣布开源。这一成果使得大模型具备了完整的感官系统,实现了机器与人交互的自然与流畅。GLM-4-Voice 模型具备直接理解和生成中英文语音的能力,能够根据用户指令灵活调整语音的情感、语调、语速及方言等特征,且具有更低的延时,支持实时打断,进一步提升交互体验。

智谱还同步宣布AutoGLM开启内测,是一款独立的安卓app。AutoGLM是一个具有AI功能的智能体,不仅可以进行语音互动,还可以自动执行手机操作,例如下单网购和朋友圈点赞等。这一新功能表明智谱正在向着更高级的技术方向发展,将AI从简单的语音交互阶段不断提升至执行任务的阶段。有参与内测的用户截图显示,AutoGLM支持8个生活中常用的app,包括微信、美团、淘宝、大众点评、小红书、12306、携程、高德地图。另外,智谱清言的浏览器插件增加高级搜索功能,支持自动在知乎、小红书、知网等网站搜索内容并总结回答。

MagicOS 9.0推出全新的AI智能体YOYO,为用户提供智能服务。从现场演示来看,用户只需向YOYO发出语音指令,比如「我有些困了,帮我点一杯咖啡」,该智能体就能在理解用户需求之后,自主调取和操作手机的相应资源和服务,帮用户点一杯咖啡外卖。荣耀声称,YOYO智能体可完成600项需求意图理解、950项个人习惯记忆、270项复杂任务规划。

issue92 2024.10.28-11.3

10月31日,Anthropic 宣布推出 Claude 桌面客户端,带来快捷键和口述记录支持。这意味着用户现在可以在 macOS 和 Windows 上直接下载 Claude 应用程序,无需再依赖浏览器操作。Anthropic 在一篇博文中写道:”它将 Claude 的功能直接带入您首选的工作环境,这些功能并不包括 Anthropic 最近发布的控制计算机的功能,但允许最新模型 Claude 3.5 Sonnet 升级版在 PC 上执行任务。” 新发布的桌面应用既适用于免费的 Claude 用户,也适用于订购 Anthropic 高级计划的用户。

11月1日,OpenAI宣布为ChatGPT添加搜索功能,让用户可以在对话中直接获取实时网络信息。这项功能目前向付费用户开放,免费用户和企业用户将在未来几周内陆续获得访问权限。最引人注目的是,ChatGPT搜索采用无广告模式,这与传统搜索引擎形成鲜明对比。

GitHub宣布推出Github Spark,用于创建和共享微应用程序(“sparks”),用户可以根据自己的需求和偏好进行定制。通过GitHub Spark,用户可以快速构建小型网页应用程序,而且不需要编写代码。该工具结合了自然语言处理和人工智能技术,使得用户可以用简单的自然语言来描述所需的应用程序功能。GitHub Spark可以帮助用户直接在GitHub上创建和分享个性化的微应用程序。

字节跳动推出了一款名为”炉米Lumi”的AI模型分享社区平台。该平台提供了模型上传分享、Workflow搭建以及LoRA训练等功能。这个平台似乎类似于其他的AI模型分享社区,例如Liblib和CIvitai。Lumi可能会为用户提供模型上传分享和Workflow搭建等服务。

微软开源了一款名为OmniParser的纯视觉基础工具,旨在填补当前屏幕解析技术中的空白。这一工具无需额外的上下文数据,可以理解更复杂的图形用户界面(GUI),并且专为识别和解析图形用户界面的可交互图标而设计。OmniParser结合了可交互区域检测模型、图标描述模型和OCR模块,能够在桌面、移动设备和网页等上跨平台工作,从而为AI技术在屏幕解析上开辟了新的可能性。

知乎直答最近宣布推出了”专业搜索”功能,引入了维普、知乎精选等专业内容源,涵盖超过5000万篇中英文文献数据。这一举措可以帮助用户更加便捷地获取高质量的文献资料,为学术研究和学习提供了更加丰富的资源。

issue93 2024.11.4-11.10

11月5日,腾讯开源混元Large(Hunyuan-Large)模型,是业界参数规模最大、效果最好的开源MoE大语言模型,采用7T训练tokens,总参数量389B,激活参数量52B,上下文长度高达256K,技术报告也同步发布。混元-Large包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8。与有相似激活参数量的业界开源模型Llama3.1-405B、Mixtral-8x22B等相比,在多学科综合评测集、中英文NLP任务、代码、数学等9大维度,混元Large实现全面领先。

同时,腾讯元宝 APP 现在新上线了 AI 搜索能力。支持具有推理能力的深度搜索功能,另外也支持了搜索微信生态更多模态的信息,比如搜索结果里面会有视频号和 QQ 音乐的音频内容。

腾讯开源了混元3D生成大模型(Hunyuan3D-1.0),这是业界首个同时支持文字和图像生成3D的开源大模型。这个模型可以帮助创作者和开发者在10秒内生成高质量的3D资产,可以应用于各种领域,比如UGC 3D创作、商品素材合成以及游戏3D资产生成等。

昆仑万维于11月5日发布天工AI最新版本的高级搜索功能,旨在通过领先的AI技术为全球用户提供创新的智能搜索解决方案。此功能在金融投资、科研学术等多领域进行了多层次分析推理能力的全面升级,显著提升了用户在处理复杂问题时的信息获取效率和结果可靠性。此外,天工AI还优化了文档AI阅读分析功能,增强了对财报、研报、论文等复杂文档的理解和分析能力,为用户提供更高效的专业搜索体验。

11月8日,智谱宣布AI生视频产品“新清影”正式上线,同步开源该产品使用的底层模型CogVideoX v1.5。

xAI推出Grok API的免费公测,每位开发者每月都能获得25美元的免费API额度,一直持续到2024年年底。API完全兼容OpenAI和Anthropic。这项举措旨在为开发者提供更多使用xAI的机会,并促进xAI的API在开发社区中的应用。

Anthropic宣布,Claude 3.5 Haiku已经可以通过API访问。已在Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI上提供。Anthropic的开发者关系运营负责人Alex Albert发帖说,「该模型还更新了截至2024年7月的知识——是所有Claude模型中最新的。」然而,随着性能提升,Haiku的价格提升至之前的4倍,它现在的定价起步为每百万输入tokens $1,每百万输出tokens $5。

Anthropic 与 Palantir 数据挖掘公司和亚马逊云服务(AWS)合作,为美国情报和国防机构提供 Claude 系列 AI 模型。Claude 已可在 Palantir 的国防认证环境(IL6)中使用,该环境基于 AWS 基础设施,用于处理国家安全重要的数据。此次合作将提高政府分析能力和运营效率,为情报分析提供强大的 AI 工具,以及在决策过程中为官员提供支持。

谷歌即将推出全新升级的Gemini-2.0-Pro AI模型。Gemini-2.0-Pro-Exp-0111预计将带来更精确的语言理解和生成能力,更高效的学习机制,以及在图像处理方面的显著提升。新的AI模型将进一步提高Gemini的功能和性能。

11月8日,苹果发布iOS18.2 Public Beta版,正式公测集成了ChatGPT的Siri及Image Playground等AI功能。

Meta最近开源了一个名为NotebookLlama的项目,旨在生成类似播客的文本摘要。这个项目被视为Meta对标谷歌NotebookLM的一次尝试。NotebookLlama使用Meta自家的Llama模型来为用户提供高效的处理,允许用户将文本文件,如PDF文章或博客内容,转化为互动式播客摘要。通过这个项目,用户可以轻松生成从文本文件转化而来的互动式播客风格的内容。

Meta发布MobileLLM,这是一款专门针对智能手机的小语言模型。MobileLLM家族适用于智能手机,Meta也宣布开源了MobileLLM系列模型,其中包括600M、1B和1.5B三种不同参数版本。这一举措旨在为移动设备用户提供更高效的AI辅助功能。Meta还在GitHub上开源了MobileLLM的训练代码,以便研究人员和开发者使用。

issue94 2024.11.11-11.17

百度在2024年百度世界大会上发布了检索增强的文生图技术(iRAG)。这项技术结合了百度搜索的亿级图片资源和强大的基础模型能力,旨在解决大型模型在图像生成方面的幻觉问题。通过将图片资源和模型能力相结合,iRAG使得生成的图片更加真实、自然,并且能够降低“AI味”,让生成的图像更加可信。

百度在2024年百度世界大会推出无代码工具“秒哒”。该工具支持无代码编程、多智能体协作和多工具调用三大特性,号称用自然语言就能搭建一整套系统。演讲现场,李彦宏以萝卜快跑新技术发布会为例,展示了活动报名系统的搭建过程:只要在“秒哒”上用中文描述需求,并补充一份带有大会时间地点主题的文档,就可以指挥多个智能体协作,完成报名系统的开发。

百度还于11月12日发布了首款AI眼镜,即小度AI眼镜。这是全球首款搭载中文大模型的原生AI眼镜,预计将于2025年上半年正式上市。这款眼镜重量仅为45克,搭载16MP超广角摄像头,具备第一视角拍摄、边走边问、识物百科、视听翻译、智能备忘等功能。

阿里通义千问最近开源了Qwen2.5-Coder全系列模型。这一系列模型在代码生成、修复和推理等方面展现出色的表现,并且支持多种编程语言,同时在多个基准测试中达到了与GPT-4o相当的SOTA水平。这意味着Qwen2.5-Coder在开源代码模型领域取得了极具竞争力的位置,并具有强大的代码生成能力。

字节跳动豆包大模型团队发布了SeedEdit通用图像编辑模型,它能够实现自然语言”一句话改图”的新体验。用户可以使用简洁的自然语言指令,进行各种图像编辑操作,包括修图、换装、美化、转化风格、在指定区域添加或删除元素等。这项创新的技术利用了先进的自然语言处理技术和深度学习算法,让用户能够轻松编辑任意图像,而无需专业的P图技能。

谷歌的DeepMind团队开源了诺贝尔奖获得者Alphafold3的源代码。这一模型是一种蛋白质结构建模工具,与之前版本相比,Alphafold3在建模蛋白质与其他分子共同作用时更为精确。通过开源Alphafold3的源代码,学术研究者现在能够自行运行模型,从而推动了AI在生物领域的变革。

OpenAI宣布推出ChatGPT Windows版客户端,为Windows 10用户提供了更加便捷和快速的AI交互体验。该桌面应用支持热键调用,提供了文件分析、搜索对话、文本生成等功能。用户可以从Microsoft Store下载并安装该应用,然后通过快捷键Alt+Space快速启用。此举使得OpenAI进一步拓展了ChatGPT的应用场景,为Windows用户提供了更加顺畅的使用体验。

OpenAI将于明年1月推出一款代号为Operator的新型人工智能代理,它将使ChatGPT能够代表用户完成电脑操作。据彭博社报道,该公司领导层在周三的员工会议上宣布了这一消息。该公司计划通过开发者API作为研究预览推出这项新功能。

11月15日,腾讯正式推出新的AI产品,名为ima.copilot(智能工作台),旨在为用户提供获取知识、搜索、创作文字和图像等功能。ima不仅能够搜索全网信息,还能打通微信公众号文章生态,使用户能够从海量优质知识中获得高质量的信息。这款产品还支持Mac版和Windows版,为用户提供更高效的知识获取和使用体验。

智谱AI发布”智谱清流”企业级智能体开发平台,这是专门为企业AI应用落地而打造的智能体开发平台。该平台提供了Agents、Workflow、知识管理等多种工具,支持API、SDK、URL集成,并利用智谱大模型技术,帮助企业快速构建专业级智能体,实现大模型到业务场景的快速应用。

微软计划在下个月为Copilot引入新功能,用户将能够选择关闭或启用网络搜索。这一新选项将允许用户是否将网络搜索查询发送到Microsoft Bing。用户可以通过新的控制选项禁用或启用网络搜索,从而更好地控制AI聊天的使用体验。

谷歌在App Store上正式推出了其Gemini人工智能聊天机器人的iOS版本。这使得iPhone用户可以使用Gemini应用程序,为用户提供了一个全新的AI交互体验。Gemini应用包括强大的功能,如Gemini Live模式,支持实时语音对话功能,以及与其他应用程序无缝连接的功能。Gemini应用的iOS版本增加了灵动岛集成功能,用户可以使用文本或语音与谷歌的AI进行互动。

月之暗面创始人杨植麟指出,AI 的发展关键是提升 「思考能力」,并透露公司 AI 助手 kimi 月使用人数达 3600 万,同时新数学模型 k0-math 将用于 k12 教育和提升 kimi 搜索能力。

Codeium推出的新IDE Windsurf。其中的Cascade具有高颜值和强大功能,集成了Cursor的所有功能,还支持在IDE内部运行终端命令。Windsurf的用户界面友好,支持直观的VSCode移植,为开发者提供了很好的编程环境。

issue95 2024.11.18-11.24

OpenAI更新GPT-4o模型版本至GPT-4o-2024-11-20。它不仅可以处理文本,还可以理解和生成图像、视频等多种格式的内容。此外,它还具有预测输出功能,可以显著加快模型的输出速度。这个模型已经可以在OpenAI API及一些第三方平台上使用,并且具有良好的性能和效率。

谷歌推出Gemini-Exp-1121实验版,在代码生成和推理任务上表现优异,再次登顶大模型竞技场榜首。

Mistral发布多模态模型Pixtral Large,在视觉数据、图表理解和数学推理领域超越GPT-4o,适用于研究、教育和商业用途。

阿里通义千问发布Qwen2.5-Turbo AI 模型:支持100 万tokens 上下文,这个改进让模型能够处理更长的文本,相当于约100万英语单词或150万汉字。这种长的上下文窗口长度可以容纳10部完整小说或150小时的演讲稿。这一特性可以使模型处理更加复杂和详细的信息,进一步提升模型的认知和推理能力。

幻方DeepSeek团队推出了其最新的模型——DeepSeek-R1-Lite,该模型在数学、编程等复杂逻辑任务中表现出色,媲美OpenAI的o1-preview模型,并在美国数学竞赛(AMC)和全球顶级编程竞赛(Codeforces)等评测中超越GPT-4o。

夸克上线“学术搜索”AI工具,提升学术工作中的信息获取、创作和处理效率,支持生成学术大纲和PPT。

微软发布AI开发平台Azure AI Foundry。旨在帮助任何人都可以轻松使用尖端的AI功能,改变AI开发的游戏规则。Azure AI Foundry提供了一整套工具,支持从模型训练到部署的各个环节,包括文本生成、图像处理和音频处理等,让用户更轻松地在支持人工智能的大型语言模型之间切换。该平台还整合了多个强大的人工智能模型,如OpenAI的GPT-4系列、DALLE-3、Whisper以及Embeddings模型等。这些模型拥有优越的自然语言处理能力,有助于帮助开发者构建和部署人工智能应用。

issue96 2024.11.25-12.1

本周,ChatGPT上线已满两周年,CNNIC发布的《生成式人工智能应用发展报告》显示,截至2024年6月,我国生成式人工智能产品的用户规模达2.3亿人。

Cursor 0.43版本更新引入了新的Composer Agent功能,这是该编辑器的一项重大改进。该功能能够实现自主选择上下文、操作终端和自动完成任务的能力,并对用户界面和性能表现进行了优化。该功能具备完整的项目理解和编辑能力,并对项目进行深度解析。众多用户对这一新功能表示兴奋,并称其为新版本最大亮点之一。

Claude推出新功能,允许用户通过预设样式和自定义样式来自定义对话的语气和形式。用户可以通过上传写作样本或描述需求两种方式来设置AI回复的语气和形式,以实现更加自然、高效的人机互动。这项功能让用户能够打造更具个性化和贴合使用场景的文本生成风格。

Anthropic 推出名为“模型上下文协议”(MCP)的开放标准,旨在通过统一的客户端-服务器架构解决 LLM 应用与数据源连接的难题。它支持通过同一协议访问本地资源(如数据库、文件)和远程资源(如 Slack、GitHub API),无需定制集成。MCP 不仅共享数据,还可公开工具和交互模板,且内置安全性,确保资源由服务器完全掌控。目前 MCP 支持本地运行,未来将引入企业级认证的远程支持,实现团队间的安全共享。通过 Claude 桌面应用,开发者可在短时间内集成 MCP,快速连接多种数据源,推动 AI 集成的标准化发展。

11月28日,阿里云通义团队发布全新AI推理模型QwQ-32B-Preview,并同步开源。评测数据显示,预览版本的QwQ,已展现出研究生水平的科学推理能力,在数学和编程方面表现尤为出色,整体推理水平比肩OpenAI o1。

阿里巴巴开源Qwen2vl – Flux模型,具备图像变化与混合功能,可生成多样效果,推动图像生成技术发展。

中科院自动化所和武汉人工智能研究院联合发布了“紫东太初”3.0,这是全球首个千亿参数量的多模态大模型。该模型采用了统一的编码方法,具有出色的能力,算法和基础设施建设也在同步推进。

Hugging Face推出SmolVLM,20亿参数,体积小速度快内存高效,适用于端侧推理,基准测试表现出色。

昆仑万维最新推出的“天工大模型4.0”o1版(Skywork o1)是国内首个具备中文复杂推理能力的o1模型。这一模型在模型输出中内生了思考、计划和反思等能力,从而显著提升了推理能力、解决复杂任务的能力,被视为具有慢思考推理能力的系列模型。

上海人工智能实验室最近向公众开放了书生·浦语大模型,并发布了InternThinker强推理模型。这个InternThinker模型拥有卓越的长思维能力和在推理过程中自我反思和纠正的能力。它能在数学、代码和逻辑谜题等复杂任务中展现出更优越的性能。

扣子发布应用IDE。可通过UI Builder快速搭建用户界面,开发者无需关心配置环境和服务部署等步骤。使用IDE可以轻松地在多种技术栈中创建基于LLM的可交互的用户界面。此外,IDE还支持将插件发布到不同的社交平台和通讯软件。

智谱于11月29日举行Agent OpenDay活动,带来了多个新进展:• AutoGLM 可以⾃主执⾏超过 50 步的⻓步骤操作,也可以跨 app 执⾏任务;• AutoGLM开启「全⾃动」上⽹新体验,⽀持等数⼗个⽹站的⽆⼈驾驶;• 像⼈⼀样操作计算机的GLM-PC 启动内测,基于视觉多模态模型实现通⽤Agent的技术探索。

360集团推出纳米搜索多模态内容创作引擎,集搜索、学习、写作和创作为一体,形成了一个完整的工作流程。

联想宣布百应平台升级为 IT 服务智能体,涵盖AI营销、AI办公、AI服务三项AI应用。

腾讯混元大模型将于12月3日正式上线视频生成能力,用户可以在腾讯元宝App中提交申请试用。

issue97 2024.12.2-12.8

12月3日,腾讯混元大模型正式上线视频生成能力。此次更新中,HunYuan-Video模型经历了四项核心改进:1、引入超大规模数据处理系统,提升视频画质;2、采用多模态大语言模型(MLLM),优化文本与图像的对齐;3、使用130亿参数的全注意力机制(DIT)和双模态ScalingLaw,增强时空建模与动态表现;4、采用自研3D VAE架构,提升图像和视频的重建能力。与此同时,腾讯宣布将这款拥有130亿参数规模的视频生成模型开源。目前,该模型已在APP与Web端发布,其标准模式下的视频生成大约需要120秒完成。

智谱AI宣布GLM-4V-Flash现已完全免费。用户可以通过调用GLM-4V-Flash免费构建专属模型和应用。这是首个完全免费的视觉大模型API。

12月4日,OpenAI首席执行官Sam Altman宣布从12月5日开始为期12天的「OpenAI 12 天」圣诞大礼包活动,将连续12个工作日发布新的AI功能和产品。

12月5日,OpenAI通过一场小型直播发布了o1模型正式版、o1 Pro mode以及每月200美元的ChatGPT Pro版订阅。OpenAI 将 ChatGPT Pro 订阅用户使用的 o1 模型模式命名为 OpenAI o1 Pro,该模式将使用更多的计算资源为最难的问题提供最佳答案。也正是因为功能足够强大以及需要更多的计算,用户在使用 o1 Pro 时可能会遇到延迟增加问题,OpenAI 会在 ChatGPT 里显示进度条以便提示当前距离出现回答还需要多少时间。后续 OpenAI o1 模型正式版也将支持 API 访问,支持包括函数调用和图像分析等功能。

OpenAI正在向部分用户推出ChatGPT的“All Tools”功能,将图像生成、搜索、Canvas等功能整合,可在同一模型中使用。

12月6日,OpenAI 12天活动 Day2,发布了“强化微调”(RFT),支持对o1 mini和GPT-4o模型进行微调,将于明年第一季度正式推出。

Meta发布Llama 3.3 70B模型,该模型达到了405B模型的性能水平,但体积更小,成本更低。

xAI公司为其AI助手Grok增加了名为Aurora的新图像生成模型,目前已在Grok的Web和移动客户端中上线,生成效果据称优于之前的Flux模型。

微软推出全新的 Copilot Vision 功能,它通过嵌入到 Edge 浏览器中,提供实时网页内容分析和互动。它就像你的第二双眼睛一样,可以与你的网页浏览同步,实时监控你的网页浏览行为,能快速理解网页内容并随时准备提供个性化建议和进行信息处理指导等。这项功能被描述为一种新的浏览方式,使得用户可以与AI直接互动,共同完成网页浏览和相关任务。目前,Copilot Vision处于试用阶段,并且目前仅适用于Microsoft Edge浏览器上的一些特定网站。

Fish Audio 发布 Fish Speech 1.5,在准确性、稳定性、跨语言能力和情感表达方面有显著进步,并新增了五种语言的支持,增强了全球适用性。即将推出的实时无缝对话功能,允许用户随时随地选择语音库进行交互式聊天。

谷歌推出Genie 2,一种大规模基础世界模型,可以生成可交互的3D世界。它利用自回归潜在扩散模型,经过自动编码器后,视频中的潜在帧被传递到大型Transformer动力学模型。这个模型可以生成持续时间长达一分钟的3D世界,同时可以与建模的各种物体进行交互,包括NPC。Genie 2的出现引发了AI游戏开发领域的高度关注。

美东时间12月6日,Meta公司发布了其Llama系列的新成员——Llama 3.3 70B。这款生成式AI模型拥有70亿参数,旨在提升生成式文本的质量和多样性,进一步推动AI技术在各个领域的应用。Llama 3.3 70B的推出标志着Meta在智能生成技术方面的持续创新与发展。

issue98 2024.12.9-12.15

12月9日,OpenAI 12天活动 Day3,Sora视频生成服务正式发布,同步推出产品网站sora.com,已订阅OpenAI Plus和Pro服务的用户可直接登录使用。背后用的Sora Turbo是由OpenAI公司发布的视频生成模型,能够根据文本提示生成逼真的视频。Sora支持生成多种视频比例和编辑功能,包括1080p的高清视频和最长20秒的视频长度。它还具有Remix功能,可以通过修改文本来快速修改视频内容,为用户提供了独特的视频创作体验。另外,值得注意的功能还有“Storyboard”(故事板)。通过Storyboard,用户可以像导演一样,使用时间轴来指导视频的创作。此功能允许用户按照时间戳选择各帧动画要生成的内容,并以此串联生成视频内容。

12月10日,OpenAI 12天活动 Day4,Canvas功能正式免费开放,该功能可以在ChatGPT中运行Python代码,并与OpenAI的主要模型深度集成。Canvas还提供了协作性、拓展功能以及更广泛的可用性。此外,还支持直接显示文本或图形输出结果。

12月10日,Cognition的AI工程师Devin已正式推出,用户每月需要支付高达500美元的订阅费。这个AI程序员被宣传为能够独立开发和修复bug,订阅还包括Slack集成、IDE扩展和API,并提供入职培训和支持。虽然费用较高,但Devin被认为最适合完成小型任务,比如Bug修复和测试生成。

12月11日,OpenAI 12天活动 Day5,ChatGPT与iOS的集成正式在iOS18.2版本推送。在iOS 18.2中,最引人注目的新功能之一是Siri集成了ChatGPT。当Siri遇到无法独立解决的问题时,它将能够直接调用ChatGPT来提供帮助,ChatGPT作为Siri的Extension,通过Siri请求ChatGPT,会话历史也会保存到ChatGPT帐号中。这一功能的实现,不仅提升了Siri的智能水平,也为用户带来了更加丰富的交互体验。在隐私保护方面,通过ChatGPT处理的所有请求都是匿名发送的,充分保护了用户的隐私安全。

Google发布原生多模态输入输出的 Gemini2.0。Gemini2.0是一种原生多模态输入输出的人工智能模型,支持图像、视频和音频等多种输入形式,以及多模态输出,例如与文本混合的原生生成图像和可控的多语言文本转语音。Gemini2.0 Flash是该模型的实验版本,其速度比之前的1.5 Pro快两倍,并具有强大的性能和多语言音频输出能力。另外,基于该模型最新实验版本,Google在AI Studio上线了屏幕共享功能,用户可直接从浏览器开启屏幕共享,让Gemini2.0看着屏幕实时回复你的需求。

Google还宣布了实时多模态沟通助手Project Astra的进展,现在具有以多种语言和混合语言交流的能力,更好地理解口音和不常见的词语。提高了项目 Astra 的记忆能力,确保您可以控制。它现在具有最长 10 分钟的会话记忆,并能够记住与它过去的更多对话。Google还带来了Project Mariner,它能够理解和推理浏览器屏幕上的信息,包括像素和网页元素,如文本、代码、图像和表单,然后通过实验性的 Chrome 扩展使用该信息来完成任务。以及Jules,一款实验性的 AI 驱动代码代理,直接集成到 GitHub 工作流程中。它可以在开发人员的指导和监督下处理问题,制定计划并执行。

12月12日,OpenAI 12天活动 Day6,高级语音模式中加入了视频通话和圣诞老人语音。支持 50 多种语言的 ChatGPT 能够实时理解视觉场景,帮助你解决问题,甚至化身 AI 导师教你掌握新事物。另外,高级语音模式下还能通过下拉菜单中的屏幕共享功能(需允许iPhone屏幕录制)让ChatGPT“看”到屏幕显示画面并实时交流。

Midjourney推出Patchwork在线创作工具,可以通过简短的一句话生成完整的故事世界图像。它具有自动构建“世界”的样子、风格及背景故事的功能,无需用户进行额外的创作。这种工具将AI技术与创意表达相结合,为创作者提供了一个全新的创作方式。

12月13日,OpenAI 12天活动 Day7,带来了 ChatGPT 的一个新功能 Projects(项目),通过项目可以你可以上传文件、设置自定义指令,类似于 GPTs,但是不同于 GPTs 的主要是你可以在一个 Project 中将所有对话组织在一起,还可以把现有会话加入进去。该功能即日起开始向 Plus、Pro 和团队用户推出,企业版和教育版用户将在新年伊始获得该功能。

xAI 宣布向所有 X 平台用户免费推出新版本的 Grok-2 模型。与以往一样,Premium 和 Premium + 用户将获得更高的使用限制,并将优先访问未来的任何新功能。Grok 利用 X 平台实时了解世界正在发生的事情。近期,Grok 推出了两个额外的功能来进一步增强这种体验:网页搜索和引用。目前 Grok 利用来自 X 的帖子和来自更广泛互联网的网页,可为用户的查询提供及时且准确的答案。此外,Grok 还添加了“引用”功能,用户可以轻松深入了解来源,了解更多信息或验证 Grok 提供的信息。

DeepSeek开源了DeepSeek-VL2的视觉模型系列,这是一个专家混合(MoE)视觉-语言模型,训练数据量是前代的两倍。VL2系列包括了多个型号,如Tiny、Small和标准版本,它们在视觉问题回答、光学字符识别等任务上展现出了出色的性能。这一系列模型结合了混合专家架构和动态分辨率图像支持,为视觉和语言理解领域带来了一定的创新。

Google宣布了NotebookLM的产品更新,包括交互和界面的重构、播客生成中支持用户加入跟主持人对话、推出Plus会员。Plus会员有5倍以上的音频概述、笔记本数量以及来源数量,能够自定义笔记本响应的样式和长度,共享团队笔记本以及使用情况分析等。

微信团队发布了多模态大模型POINTS 1.5。这一代POINTS 模型不仅兼顾了POINTS1.0 中所坚持的效率优先的思想,同时也大幅增强了模型的性能。这个模型沿用了POINTS1.0 中使用的经典 LLaVA 架构,由一个 vision encoder,一个 projector 和一个大语言模型组成。

Ilya Sutskever在2024年的NeurIPS会议(Conference on Neural Information Processing Systems)上发表了引人注目的讲话,他认为目前的AI预训练方法已经达到了数据极限,需要适应新的范式。此外,他还表示具有推理能力的人工智能将会变得更加不可预测,而且会具备自我意识。

issue99 2024.12.16-12.22

12月16日,Kimi发布新一代视觉思考模型k1,该模型基于强化学习技术,具备出色的端到端图像理解和思维链分析能力。在基础科学领域的能力测试中,k1超越了全球领先的OpenAI等模型。用户可通过Kimi智能助手的Android、iPhone APP及网页版体验k1的功能,拍照或上传图片以获取详细的推理过程。这标志着AI领域在强化学习技术的推动下,正在迈入新的发展阶段,显著提升AI解决复杂问题的能力。

12月16日,扣子发布了一次重大的模型更新,通义千问模型支持Max版本,超越了原有的8K限制。同时,新加入DeepSeek模型。此次更新还涉及其他多个模型,基本上都进行了全面优化。效果测评显示新的智能体测试标准已实现数据与结果的标准化,大幅增强了智能体编排的实用性和精准性。

12月16日,OpenAI 12天活动 Day8,ChatGPT搜索功能迎来更新,新版本引入“Search as you talk”语音模式,允许用户通过语音进行自然对话和实时搜索。同时,AI搜索进行了全面优化,包括更快的网页跳转、支持强制联网,以及针对移动端的优化,如提供商家信息、集成地图和位置导航功能。为提升用户体验,新版AI搜索会根据上下文智能调整搜索结果。目前,Plus、Team和Pro用户已可体验这些新功能,其他用户将在未来几周内逐步开放。

谷歌推出AI视频生成模型Veo 2,亮点包括支持最高4K分辨率的清晰视频生成,提升了画质以满足高质量内容需求。此外,Veo 2的视频生成时长增加至最多2分钟,为创作者提供了更大的创作灵活性。该模型在真实感和物理模拟方面的显著提升,使得运动捕捉和动态表现更自然,增加了生成视频的可信度。同时,它支持多样化的视觉风格,为创作提供了多重选择。与OpenAI的Sora模型相比,Veo 2在分辨率和视频时长上都有显著优势。

谷歌还同步发布了改进版的AI绘图模型Imagen 3-002,作为Imagen 3的第二代,标志着该模型在短短半年内经历了显著进化。该模型在谷歌的评测中表现突出,显示出卓越的性能。用户现在可以通过谷歌FX官方网站免费体验这一新模型,无需排队。此举不仅进一步推动了AI艺术创作的发展,也显示了谷歌在生成模型领域的持续创新和技术实力。

12月17日,OpenAI 12天活动 Day9,o1 API现在支持函数调用、system message更改为developer message、结构化输出及视觉功能。最新版o1-2024-12-17提升了推理速度,能够处理复杂多步骤任务并提高准确性。此外,实时API更新简化了WebRTC集成,更新了两个模型GPT-4o-realtime-preview-2024-12-17和GPT-4o-mini-realtime-preview-2024-12-17,并将GPT-4o音频价格降低60%。新推出的偏好微调(PFT)技术也可帮助用户和开发者更便捷地定制模型,同时还发布了新的Go和Java SDK。

12月18日,在火山引擎force原动力大会上,火山引擎CEO谭待表示,最新版本的豆包通用模型Pro相比5月在综合能力、推理、指令遵循、代码、数学等方面进行了全方面提升。“更强模型推动企业AI升级。”谭待表示,豆包通用模型Pro为中手游、赛力斯汽车等企业助力了AI升级。

12月18日,在火山引擎force原动力大会上,即梦AI发布了全新的图片生成模型,他现场示范了海报生成功能,只需要一句话,就可以生成海报,不仅提高了效率,还能让创作出设计师水准的海报,更全面的描述,更精美的画面与排版,同时,还可以让海报动起来,实现动态效果。

12月18日,OpenAI 12天活动 Day10,ChatGPT支持电话接入,用户可以在感到难过时拨打电话与ChatGPT倾诉,或通过WhatsApp与其聊天。此举旨在为人们提供一个随时倾诉与支持的平台,尤其是在深夜孤独时。该功能提供每月15分钟的免费电话服务,方便那些不熟悉智能手机的用户使用。此外,AI还具备即时翻译能力,能够帮助不同语言之间的交流,增强人们的情感联系。这些更新旨在让AI更深入人们的生活,成为日常交流和情感慰藉的伙伴。

12月19日,OpenAI 12天活动 Day11,ChatGPT的macOS客户端迎来重大更新,提升了用户体验和应用性能。全新原生应用的代码被重写,资源占用更少,运行更加流畅。用户仅需使用快捷键(Option + 空格)即可快速调出ChatGPT。此更新的亮点是“与应用协同工作”功能,允许ChatGPT直接访问和理解其他应用程序的内容,无需用户手动操作。此外,它具备智能上下文感知能力,可以识别正在使用的应用程序,并提供更相关的帮助,如在终端中识别Git命令。Windows版本也正在开发中。

GitHub Copilot宣布全面免费,开发者现在可以在VS Code中免费使用此AI编程助手。免费版用户每月可获得2000次代码补全和50次聊天请求,同时支持选择Claude 3.5 Sonnet或OpenAI的GPT-4o模型。这一举措降低了使用AI代码助手的门槛,让更多开发者体验到AI带来的便利。用户只需通过GitHub账号注册Copilot免费计划,即可享受丰富的智能编程服务。

12月20日,Google发布了新款Gemini 2.0 Flash Thinking模型,这一推理模型旨在提升AI的思考能力和解决复杂问题的速度。转投Google的Logan Kilpatrick在社交平台X上介绍,Gemini 2.0 Flash Thinking不仅具备强大的推理能力,还能展示其思考过程,带来更直观的AI交互体验。该模型将加入大模型竞技场LMSYS,进一步增强其透明度和可验证性。

12月20日,OpenAI 12天活动 Day12,OpenAI正式宣布全新o3模型系列,该模型在AGI评测中取得了87.5%的令人瞩目成绩,超过了人类水平的85%门槛。o3系列被视为通往通用人工智能(AGI)的重要一步,模型采用了新技术“Deliberative Alignment”,以增强安全性和一致性。OpenAI CEO Sam Altman表示,这一系列将在2025年早些时候发布,目前已开通面向安全研究者的早期测试申请。

快手可灵AI宣布基座模型再升级,视频生成推出可灵1.6模型,效果大幅提升。据了解,1.6模型在文本响应度上提升明显,对运动、时序类动作、运镜等文字描述响应更好;动态质量进一步增强:运动更加合理,人物表情更自然;同时,1.6模型画面质量也再次进化:色彩、光影、细节表现均明显提升。数据显示,可灵AI发布半年来,已拥有超过600万用户,累计生成超6500万个视频和超1.75亿张图片。

issue100 2024.12.23-12.29

动态周报已迎来第100期!在过去近两年的时间里,我们共同见证了ChatGPT发布以来,LLM及应用产品的发展与演变。未来,这场以生成式AI大模型为核心的科技浪潮,还将继续深刻地影响我们的工作和生活。

12月23日,OpenAI首席执行官Sam Altman宣布了“Day13”特别奖励——Sora无限用。他表示,为了迎接圣诞节,人们在12月底通常会放假休息,OpenAI的GPU就没有那么繁忙。所以,假期期间能为所有订阅用户无限制的提供文生视频模型Sora,轻松跳过烦人的队列等待。

xAI推出Grok的独立iOS应用。目前,这款应用正在澳大利亚及部分其他国家进行测试。Grok能够实时获取来自网络和社交媒体平台X的数据,并提供多种生成式AI功能,例如重写文本、总结长篇段落、简单问答功能,以及根据用户的文字提示生成图像。

Cursor 0.44版本发布,本次更新带来了全新的YOLO模式,这一模式显著提升了AI编程的智能化水平。YOLO模式的引入使得编程变得更加直观和简单,甚至使得没有编程基础的用户也能够轻松上手进行开发。在这个版本中,Cursor不仅优化了其代理功能,还增加了一些实用的多功能集成,比如@docs、@git、@web和@folder等功能,这些都进一步增强了用户的操作效率。更新后的Cursor 0.44被认为是一个革命性的工具,使得编程体验更加顺畅和高效。

12月25日,阿里云通义千问发布业界首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。多项评测数据显示,QVQ超越了此前的视觉理解模型「开源王者」Qwen2-VL,整体表现与「满血版」OpenAI o1、Claude3.5 Sonnet等推理模型相当。

12月26日,深度求索(DeepSeek)正式发布了全新系列模型DeepSeek-V3,并同步开源(DeepSeek-V3-Base)。用户可通过官方网站chat.deepseek.com与该模型进行互动。该模型基于自研的Mixture of Experts(MoE)架构,拥有671亿参数和37亿激活参数,经过14.8万亿token的预训练。虽然DeepSeek-V3目前不支持多模态输入输出,但其表现已与业内领先的闭源模型对齐,其中与 V2.5(17.8%)相比,V3 编程性能暴增到了 48.4%,整整提升了近 31%。API服务也已更新,用户无需改动接口配置。

阶跃星辰推出了图像生成模型Step-1X系列的全新升级版本Step-1X-Medium。该模型采用MMDit架构,生成速度提升超过30%。经过针对性训练,Step-1X-Medium具备更强的理解能力和图文一致性,能够生成更自然的细节质感。此外,新增的“图生图”功能允许用户上传图片并通过简单的提示进行细节增强和风格迁移。该模型在“中国风”内容创作能力上也得到了强化,能够更好地捕捉东方文化的细腻之处,并支持在生成图像中添加英文文本。

智谱宣布将其基座模型GLM-PC的开源版本CogAgent-9B发布,供社区进行开发。CogAgent-9B-20241220基于GLM-4V-9B进行专用Agent任务训练,能够仅通过屏幕截图输入,结合用户历史操作,预测下一步的图形用户界面(GUI)操作。与2023年12月开源的第一版相比,新模型在GUI感知、推理准确性及任务普适性方面取得显著改进,同时支持中英文双语的屏幕截图和语言交互,适用于多种基于GUI的应用场景,包括个人电脑、手机及车载设备。

理想汽车发布智能助手独立应用:理想同学App,理想同学和智能驾驶是理想汽车的两大核心AI产品。理想汽车董事长兼CEO李想表示:“我们在做的理想同学和自动驾驶,通常被视作独立的领域。我们的大语言模型Mind GPT是认知智能,连接数字世界;而自动驾驶被称为空间智能,关乎物理世界。我们同时在这两个领域探索,并坚信认知智能与空间智能的结合——我们称之为VLA(Vision Language Action Model,视觉语言行动模型)。

阿里巴巴通义实验室的语音团队12月26日宣布了其2.0版本的全面升级。CosyVoice 2.0在自然流畅的语音生成体验上实现了多个突破,具有超低延迟、提升音质和高准确度等特点。新版本提供离线和流式一体化建模,合成延迟可缩短至150ms,发音错误减少30%~50%,并显著改善跨语言合成的音色一致性。同时,韵律、音质和情感匹配能力也得到提升,使得用户能够更精确地控制生成音频的情感与方言口音。

issue101 2024.12.30-2025.1.5

可灵AI推出升级版文生图模型“可图1.5”,强化了语义理解,特别适应亚洲人。此外,新功能“AI模特”与现有的AI换装功能融合,为电商、广告等行业提供了一整套高效的可视化展示解决方案。用户能通过简易设置快速生成AI模特,再通过AI换装功能展示服装,甚至进行动态视频展示,大幅降低传统拍摄成本。

阿里云宣布对其大模型进行本年度第三轮降价,通义千问视觉理解模型全线降价超过80%。其中,Qwen-VL-Plus的价格下降81%,现为0.0015元/千tokens,成为全网最低价;而性能更高的Qwen-VL-Max降至0.003元/千tokens,降幅达到85%。按此定价,1元可处理大约600张720P图片或1700张480P图片,此举将显著降低用户使用成本,推动视觉理解技术的广泛应用。

阿里巴巴通义团队推出了全新AI开发框架Qwen-Agent,基于其Qwen语言模型,旨在帮助开发者构建复杂的智能体。该框架具备多种高级功能,支持智能体执行复杂任务,提供指令遵循、工具使用以及自动记忆能力。

智谱Flash系列新推出四大免费模型,全面支持对话、图文和视频等多种模态。这些模型旨在提升用户的多媒体交互体验,推动智能对话与内容生成的应用场景。用户可免费体验这些功能,进一步探索人工智能在多模态交流中的潜力。

「智谱清言」网页版上线了其新的Zero推理模型GLM-Zero-Preview,这是该系列的初代版本,预计是智谱在2024年发布的最后一个模型。官方称,该模型专注于推理能力,特别擅长处理涉及数理逻辑、代码及其他复杂问题的深度推理。

马斯克在社交平台上宣布,即将推出Grok 3模型,其预训练已完成,计算量相比Grok 2提升了十倍。这一全新模型由马斯克旗下的xAI公司开发,将为用户提供更强大的人工智能支持。训练过程中使用了10万块英伟达H100芯片,标志着Grok系列在性能上的重大突破。

issue102 2025.1.6-1.12

2025年1月6日,昆仑万维正式上线其最新的「天工大模型4.0」版本,包括创新的o1版和功能更强的4o版,均可在天工网页和APP上免费使用。Skywork o1作为国内首款具备中文逻辑推理能力的模型,经过全面技术升级,能高效处理数学、代码、逻辑等多种推理挑战。同时,Skywork 4o多模态模型支持的实时语音助手Skyo,具备情感表达和快速响应能力,为用户提供温暖和流畅的对话体验。

在拉斯维加斯的CES 2025展会上,英伟达CEO黄仁勋发布了全新GeForce RTX 5090显卡,标志着RTX 50系列的发布。RTX 5090在多项性能参数上突破,具备920亿晶体管和3352 AI TOPS,比RTX 4090性能提升了两倍,支持DLSS 4,显著提高游戏体验。国行价格起步为16499元,RTX 5070则定价4599元。英伟达还发布了全新的Cosmos世界模型平台和Project DIGITS超级计算机,使AI开发更加高效和普及。

谷歌推出了一款名为“Learn About”的AI学习工具,旨在帮助用户深入理解各类知识点。该工具基于谷歌的LearnLM模型,能够提供丰富的文本、视频信息,并以对话式形式逐步拆解复杂概念,还能总结学习框架。用户可以通过与AI互动,获得个性化学习体验。

1月9日,阿里巴巴推出的通义万相2.1模型在视频生成领域实现重大突破,首次支持直接通过自然语言生成文字特效视频,兼容中英文及数字。此模型通过复杂运动、写实与科幻特效等多样化风格的生成,展现了其强大的技术能力。用户反馈显示,万相2.1在控制肢体动作与视觉效果方面表现优秀。此外,该模型还提供了文生图功能,能够生成连贯的剧情图像,助力短视频和广告设计。

在2025年CES上,雷鸟创新发布了新款雷鸟V3 AI拍摄眼镜,搭载了猎鹰影像系统、阿里通义千问独家定制大模型及骁龙AR1旗舰芯片。这款智能眼镜打造了业内首个针对AI的多模态交互架构,旨在实现卓越的交互体验。创始人李宏伟指出,雷鸟与阿里之间的合作聚焦于真正的用户体验,而不仅仅是应用通用大模型。此外,与雷鸟V3相似,Rokid、闪极、XREAL等其他AR眼镜也将接入阿里的AI大模型,提供丰富的功能,如AI助手和多种智能识别服务,展现出AR与AI融合的未来潜力。

在2025年CES上,英伟达CEO黄仁勋首次系统展示了AI Agents的商业前景,提出其将成为继个人电脑和互联网之后的重要技术突破。他指出,AI Agents有望重塑全球10亿知识工作者的工作方式,并明确了五大商业化方向,包括智能代理机器人、人工机器人和自动驾驶汽车等关键领域。演讲中,黄仁勋展示了多个AI Agents实际应用案例,如提高新药研发效率的虚拟实验室、加强天气预测精度的气象代理等。NVIDIA的Nemo平台将帮助企业规模化部署AI Agents,将其融入日常运营,扮演数字员工的角色。这一变革预计将创造数万亿美元的新市场,提升人类工作效率,激发创新能力,推动产业革命的进程。

1月9日,谷歌宣布对NotebookLM进行重大更新,推出了Gemini 2.0 Flash实验版本及更多功能,包括全新界面的改进、用户在音频播放期间可直接与AI主持人互动,并推出了付费版本NotebookLM Plus。NotebookLM现已被数百万用户和多个组织使用,经过重新设计后,包括“来源”、“聊天”和“工作室”三个功能区域,分别用于管理信息、进行对话式讨论和创建新内容,如学习指南和简报。此更新旨在提升用户体验并增强内容创作能力。

马斯克旗下的xAI推出了独立应用Grok,该应用于1月10日在苹果App Store正式上线,用户可以免费下载使用。Grok不仅是应用的名称,也是xAI开发的AI语言模型。此前,用户只能通过社交媒体平台X接触到Grok。新的应用为用户提供了多种功能,包括生成图像和实时访问网络及X社交网络信息。此外,付费用户能够享受更高的使用权限,目前该应用在美国及其他地区开放测试。

英伟达开源了Sana模型,支持直接生成高达4K分辨率的图像。该模型采用Sana-0.6B版本,可以在16GB显存的GPU上运行,生成1024 × 1024分辨率的图片仅需不到1秒钟。官方还已支持ComfyUI,并提供了Lora训练工具,从而为开发者和艺术家提供了强大的图像生成能力。这一举措将进一步推动生成式AI在图像创作领域的应用和发展。

issue103 2025.1.13-1.19

1月13日,MiniMax宣布推出最新的语言大模型,并首次全面开源。新发布的文本模型MiniMax-Text-01和多模态模型MiniMax-VL-01采用了全新的Lightning Attention架构,显著降低了推理成本。MiniMax-Text-01的参数高达4560亿,并配备32个专家,同时支持超长达400万字的文本处理,其性能媲美顶尖海外模型。MiniMax还发布了模型、代码和技术报告,彰显其开放态度。目前,用户可以通过网页体验和API进行在线体验与商用。

Mistral AI于1月13日发布了最新的代码生成模型Codestral 25.01,该模型的上下文窗口扩展至256K,是前一代的8倍,能够更好地理解长文本上下文。新版本采用更高效的架构和分词技术,生成速度大幅提升,能够满足高频、低延迟的代码生成需求。

1月15日,全新多模态图片理解模型moonshot-v1-vision-preview正式发布,进一步增强了moonshot-v1系列的多模态能力,使Kimi能够更好地理解世界。该Vision模型具备强大的图像识别能力,能够准确识别复杂细节和微小差别,无论是食物还是动物。它能够有效区分相似的对象,例如在16张蓝莓松饼和吉娃娃图片中,模型能精确识别并标记每个图像的类型,展示出卓越的图像理解性能。

科大讯飞正式发布了讯飞星火深度推理模型X1。该模型基于全国产算力平台,是国内首个落地于真实应用场景的深度推理模型,尤其在教育和医疗领域展现了显著优势。实测结果显示星火X1能够解决全学段的数学问题,并且推理速度表现理想。

1月15日,国产视频大模型Vidu 2.0正式发布。该模型在速度上表现出色,生成4秒512P单片段视频的时间不超过10秒,而单秒视频的成本仅为4分钱。此外,自2024年7月底全球上线以来,Vidu在短短20天内吸引了超过百万用户,并在100天内用户总数突破千万,这表明其受欢迎程度和市场潜力。Vidu 2.0的发布为视频内容生成领域注入了新的动力。

1月15日,MiniMax旗下海螺AI推出了全新文本到音频技术Hailuo Audio HD (T2A-01-HD),其快速克隆功能能够在仅需10秒的时间内完成语音克隆。该技术配备首创的智能情感系统,旨在捕捉并重现语音中的情感。此外,海螺AI的音频克隆功能也具备类似优势,用户通过上传10至60秒的音频素材就能轻松复刻声音,并且支持多达12种语言。

1月16日,面壁智能正式发布端侧大模型MiniCPM-o 2.6,作为一款开源的多模态大模型,其性能接近GPT-4o。该模型支持实时双语语音识别以及视觉、语音和多模态流式交互,能在仅8B参数量下高效运行。MiniCPM-o 2.6可处理连续的视频和音频流,实现实时语音对话,参数优化使其在自动语音识别和语音生成方面优于其他同类模型。该技术的推出将极大推动多模态AI应用的发展,并支持在多个设备上运行,包括iPad等。

智谱发布了新款端到端多模态模型GLM-Realtime E2E,该模型在实时视频理解和语音互动方面表现卓越。GLM-Realtime不仅支持近乎实时的交互和清唱功能,还具备长达2分钟的记忆能力以及强大的功能调用特性。该模型旨在提升用户与AI系统的交互体验,适用于多种实时场景,将为智能助手的建设提供更为坚实的基础。

OpenAI再更新ChatGPT,推出“自定义指令”功能。该功能允许用户设定模型的个性化特征,例如性格、语气和思考方式,旨在提升用户的互动体验。用户可以添加特定的指令和偏好,这些指令将影响模型在未来对话中的响应。

issue104 2025.1.20-1.26

1月20日,字节跳动发布了全新AI中文IDE——Trae,旨在为开发者提供更高效的编程支持。该IDE集成了GPT-4o及Claude 3.5模型,支持代码自动补全、AI问答和基于Agent的AI编程等功能,帮助程序员自动化完成开发任务。Trae特别设计为中文用户友好,提供简体中文界面,且目前限时免费。

微信公众平台开始邀请创作者体验其新推出的智能回复功能,该功能能够根据用户之前发布的文章风格及内容进行自动回复。当用户开启此功能后,AI将学习并模拟其过去的写作风格,以便为粉丝提供更个性化的回复。此更新旨在提升公众号与读者之间的互动体验,减少用户的回复负担。同时,原有的公众号关键词回复和关注自动回复不受影响。

1月20日,豆包大模型团队正式推出其实时语音大模型,并在豆包 APP 7.2.0版本中全量开放体验。该模型集成语音理解与生成,实现端到端的语音对话,显著优于传统语音处理模式。其低延迟、支持对话随时打断等特性,提升了语音表现力和情感传递。据用户反馈,该模型在语音自然度和情绪表现上明显优于 GPT-4o。团队表示,此次推出具有里程碑意义,能够满足中国用户需求,直接为亿万用户提供服务。

1月20日,DeepSeek 发布并开源了 R1 模型,其性能与 OpenAI 的 o1 正式版相当,但输出价格只有后者的1/27。R1 模型采用 MIT 许可证,允许用户进行无限制的商业使用,并且明确支持用户利用 DeepSeek-R1 进行其他模型的训练。随后的几天,R1模型的训练成本以及表现在海外尤其是在美国引发了热烈的讨论。截至本期周报发稿时,DeepSeek的App已经在多个国家和地区的AppStore总榜上进入前10,部分国家和地区甚至登顶。

1月20日,Kimi 发布了全新 SOTA 模型——k1.5 多模态思考模型,这是该系列的连续第三次重磅升级,继去年 11 月和 12 月的 k0-math 和 k1 视觉思考模型之后。根据基准测试,k1.5 在多模态推理和通用推理能力上达到了SOTA级别,尤其在 short-CoT 模式下,其数学、代码和视觉能力超越了全球短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet,领先幅度高达 550%。此外,Kimi 还首次公开了模型训练的技术报告。

商汤科技日日新融合大模型交互版(SenseNova-5o)开放商用,实时音视频对话限时免费。

1月22日,火山引擎宣布,豆包大模型1.5Pro正式发布,目前已全面上线火山方舟。豆包大模型1.5Pro在知识(MMLU_PRO、GPQA)、代码(McEval、FullStackBench)、推理(DROP)、中文(CMMLU、C-Eval)等多项公开测评基准上成绩全球领先。

谷歌悄然推出更新——Google Gemini 2 Flash Thinking Experimental 01–21,该模型在LMsys Arena上排名第一,领先其他模型,如GPT-4.0、OpenAI-o1、DeepSeek-R1和Claude 3.5 Sonnet。Gemini 2.0 Flash Thinking以1380的Arena Score取得卓越表现,显示出在准确性、推理能力、流畅性和一致性等评估标准上的优势。用户可通过Google AI Studio免费试用该模型。

1月22日,OpenAI宣布启动“Stargate星际之门”项目,计划在未来四年投资5000亿美元于美国的人工智能基础设施建设,首批1000亿资金已开始投入。该项目的投资者包括软银、OpenAI和Oracle等,软银创始人孙正义将担任主席。其目标在于推动美国在AI领域的领先地位,创造就业机会,并保障国家安全。目前,德克萨斯州的基础设施建设已正式启动,吸引了众多相关企业的参与。

Perplexity推出Sonar实时搜索API,提供基础版和功能更强大的Pro版,后者支持高级深度查询和复杂问题解决。企业应用方面,Zoom已通过Sonar增强其原生搜索功能。在数据安全方面,Sonar确保不用于大型语言模型(LLM)的训练,方便快速接入应用开发。Sonar Pro在SimpleQA基准测试中表现优于主流搜索引擎和各大语言模型,进一步提升了搜索效率和准确性。

1月23日,智谱华章宣布其GLM-PC正式开放体验,标志着自主操作电脑的多模态Agent技术升级。这一基于智谱多模态大模型CogAgent的智能体,成为全球首个面向公众、无需额外配置即可使用的电脑智能体。GLM-PC能够像人类一样“观察”和“操作”计算机,有效协助用户完成各种任务,展示了人工智能在日常计算中的应用潜力。

字节跳动开源了一款自学型UI Agent——UI-TARS,旨在实现复杂任务的自动化,支持跨平台操作,包括网页、桌面和移动设备。该代理具有理解界面的能力、高级推理能力,并且能够不断学习,其性能优于主流模型,如GPT-4。应用场景包括复杂的动态交互、表单填写、批量处理及在线预订等。此外,UI-TARS还提供了开发框架,支持在桌面和网页端运行,方便开发者进行集成和使用。

1月21日,阶跃星辰升级了其Step-1o系列模型,成为首个实现文本、视觉与语音三模态端到端融合的模型。该系列包括多模态理解模型Step-1o Vision和升级后的语音模型Step-1o Audio。阶跃在视觉理解方面表现卓越,尤其在LMSYS Org最新的Chatbot Arena视觉排名中名列前茅,展现了其在人工智能领域的强大竞争力。

1月24日,OpenAI发布了其新智能体“Operator”,标志着其迈入“Level 3”时代。Operator能够全自主地与浏览器互动,处理复杂任务,如购物和预定餐厅,用户仅需给出初始指令。其核心技术基于新的Computer-Using-Agent(CUA)模型,结合了视觉能力和推理能力,实现自主操作,无需API集成。目前该功能仅向部分Pro用户(200美元订阅)开放,OpenAI还计划在未来几周内推出更多智能体,展示了其在人工智能领域的进一步发展潜力。

跃问App推出了全新“创意板”功能,允许用户无需代码知识便可轻松自制应用和游戏。用户只需通过简单的自然语言描述自己的需求,创意板便能生成各种场景和工具,如趣味游戏、互动网页和可视化图表。该功能支持实时修改与个性化调整,用户可将生成的内容分享至多个平台,与朋友们一同体验。这一创意板被认为是国内首个专注于应用与游戏生成的创新功能,展示了AI在日常生活中的便利性与创造性。

OpenAI对ChatGPT的Canvas功能进行了更新,现已全面支持o1模型,并新增了直接渲染HTML和React代码的能力。这一更新不仅提升了Pro、Plus和Team用户的使用体验,也让Free用户可以享受到HTML和React的渲染功能。macOS ChatGPT桌面应用程序也已全面集成Canvas功能,使用户能够轻松构建和运行互动式应用。

1月25日,Ollama上线deepseek-r1模型,并在首页推荐,支持用户本地部署。

issue105 2025.1.27-2.2

本周正值中国春节假期,DeepSeek引发的舆论讨论继续在全球社交媒体发酵。除夕当天,DeepSeek应用在全球所有区AppStore登顶,随后几天,主流云服务(包括Azure和AWS)的大模型平台和主流的AI代码编辑器(包括Cursor、Windsurf和flowith等)均上线了自部署的DeepSeek-R1模型,上演了大型“口嫌体正”现场。

1月27日,DeepSeek发布了其大一统模型Janus-Pro,采用统一的Transformer架构,能够同时实现图片理解和生成。该模型提供1B和7B两种规模,适配多种应用场景,性能强大。Janus-Pro全面开源,支持商用,使用MIT协议,便于部署和应用。此外,该模型在基准测试中的表现优异,展现出更全面的能力。

1月27日,阿里通义千问发布了开源 Qwen2.5-1M 模型及推理框架,包含 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 模型,首次实现 1M 长度的上下文扩展。同时,团队开源了基于 vLLM 的推理框架,通过稀疏注意力技术使处理速度提升 3 至 7 倍。此外,Qwen 推出了 Chat 平台Qwen Chat(https://chat.qwenlm.ai/),用户可进行对话、编程与生成多媒体内容,支持 1M 长序列的处理。

1月27日,通义千问还发布了全新的视觉模型 Qwen2.5-VL,并在多个方面实现了显著飞跃。相较于上一版本 Qwen2-VL,Qwen2.5-VL 开源了 Base 和 Instruct 模型,提供 3B、7B 和 72B 三种模型尺寸。该模型的主要特点包括更丰富的感知能力,能够识别和分析图像中的文本、图表和布局,并具备推理能力,能够动态地使用工具,初步具备电脑和手机操作能力。此外,Qwen2.5-VL 还能够理解超过 1 小时的长视频,具有重要的应用潜力。

1月28日,DeepSeek R1 模型现在可用于 Perplexity 的深度网络研究。Perplexity 澄清说,通过其平台使用 DeepSeek R1 会将用户数据保存在“西方的服务器”上。Perplexity 上的 DeepSeek R1模型托管在美国/欧盟数据中心。

1月29日,微软宣布 DeepSeek R1 现已在 Azure AI Foundry 和 GitHub 上的模型目录中提供,加入了由 1,800 多个模型组成的多样化组合,包括前沿、开源、行业特定和基于任务的 AI 模型。DeepSeek R1 可以在受信任、可扩展且企业就绪的平台上访问,使企业能够无缝集成高级 AI,很快就能在微软AI电脑Copilot+ PC上运行。

1月30日,阿里巴巴发布了 Qwen 2.5-Max 模型,该模型是阿里云团队对 MoE 模型的最新成果,预训练数据超过 20 万亿 tokens。在多项基准测试中,Qwen 2.5-Max 几乎全面超越了 DeepSeek-V3、GPT-4o 和 Llama-3.1-405B。随着 DeepSeek 推动的国产 AI 资产重估浪潮,阿里凭借其雄厚的云业务投资和领先的 AI 能力,有望重塑市场估值。

1月30日,阿里云发布百炼qwen-max系列模型价格调整通知,qwen-max、qwen-max-2025-01-25、qwen-max-latest三款模型输入输出价格调整,qwen-max batch和cache同步降价。

1月31日,英伟达宣布:「DeepSeek-R1上线NVIDIA NIM」,在单个NVIDIA HGX H200系统上,DeepSeek-R1的处理速度可达3,872 Token/秒。同日,亚马逊也在Amazon Bedrock和SageMaker AI中,上线了DeepSeek-R1模型。

1月31日,华为云宣布DeepSeek-R1上线华为云ModelArts模型即服务MaaS平台。

1月31日,AI编程工具Windsurf和Cursor均宣布更新:正式支持DeepSeek系列AI模型,包括R1和V3。Windsurf称DeepSeek模型均部署在西方服务器,V3模型使用成本仅为Claude3.5的1/4,R1模型使用成本为Claude3.5的一半。

2月1日,OpenAI 宣布 o3-mini 与 o3-mini-high 模型上线,该模型现已可在 ChatGPT 和 API 中使用。o3-mini 在性能上表现出色,相较于 o1-mini,响应速度提升了 24%,并且答案更为准确。该模型不仅展示推理过程,还能在编码评估中随着思考时间的增加表现持续提升。在数学能力测评和处理困难数据集方面,o3-mini 同样表现优异。开发者可通过 OpenAI 的 API 使用该模型,付费用户可选择提供更高智能的 o3-mini-high 版本,而免费用户通过选择“推理”模式也能体验这一功能。

2月1日,硅基流动宣布其大模型云服务平台 SiliconCloud 正式上线基于华为云昇腾云服务的 DeepSeek-V3 和 DeepSeek-R1。此次发布被视为为国内用户的春节礼物,代表着在深度学习领域的重要进展。

2月2日,腾讯云宣布 DeepSeek-R1 大模型现支持一键部署至腾讯云的「HAI」平台,开发者可在3分钟内轻松接入和调用。腾讯云表示,通过「HAI」,开发者无需再进行繁琐的步骤,如购买卡片、安装驱动、配置网络和存储等,简化了部署流程,实现快速模型调用,提升了开发效率。

2月2日,OpenAI推出Deep Research深度搜索工具,旨在为需要调研和信息检索的领域提供有力支持,如医学、金融和科研等。该工具采用优化版o3模型,能够在5-30分钟内搜索网页与分析文件,并生成简明详细的报告。功能包括支持网站内容读取、数据处理与图表生成,引用来源作为论据,实时显示进度。现已向Pro用户开放,月限100次,并计划扩展至移动及桌面端。Plus用户将在约一个月后获得使用权限。需要注意的是,目前不支持英国、瑞士和欧洲经济区。

issue106 2025.2.3-2.9

macOS 版 ChatGPT 客户端更新至 1.2025.031 版本,新增了“推理”选项,用户可以在斜杠指令中使用这个功能。启用该功能时将调用o3-mini模型。

2月3日,得效Agents平台宣布接入DeepSeek-R1模型,同时此前已支持的DeepSeek-Chat与DeepSeek-Coder两款模型均已升级到V3。用户在创建Agent时可选择R1模型,此举将全面提升智能体工作流中AI处理内容的质量和水平。

华为鸿蒙NEXT内置的智能助手小艺现已接入DeepSeek-R1模型。升级至HarmonyOS NEXT 版本的用户,将小艺App 升级至11.2.10.310 版本及以上,打开小艺App,点击“发现”-“智能体”-“DeepSeek-R1”,即可体验DeepSeek。

2月6日,Google于Gemini推出新模型,Gemini 2.0 Flash Thinking实验版,现已在Gemini Web网页端上线,该模型已在大模型竞技场lmarena登顶。同时,还为Gemini Advanced付费订阅的高级用户提供了Gemini 2.0 Pro实验版模型。全新的模型旨在提升用户的思维和创作效率,进一步增强谷歌在人工智能助理领域的竞争力。

2月6日凌晨,OpenAI宣布,免费向所有用户开放ChatGPT搜索功能,无需注册。这一创新性举措标志着OpenAI在搜索引擎领域的更大竞争力,ChatGPT搜索能够快速抓取网络信息、解读用户想法并提供来源地址。相比传统搜索引擎如谷歌,能实现分钟级别的解析。这一决策引发了广泛讨论,许多用户和业内专家认为,这可能会冲击传统搜索引擎的市场格局,预示着搜索方式的重大变革。

字节跳动推出全新多模态视频生成模型OmniHuman,旨在提升数字人动画生成的效率与真实感。该模型允许用户仅通过一张图片和一段音频即可生成生动的动态视频,兼容多种图片尺寸与人物占比。2月8日,该模型已上线即梦AI。OmniHuman的问世标志着字节跳动在AI视频创作领域的又一次技术突破,可能会对内容创作模式产生重大的影响,并推动数字人技术的商业化发展。

Pika发布名为Pikadditions的创新工具,它能够将任何图片中的物体无缝融合到用户拍摄的视频中,而不会改变原有视频的内容。这项技术的推出为视频创作和编辑带来了新的可能性,使得用户可以在不影响视频整体风格和结构的情况下,添加个性化的视觉元素。Pikadditions的这一创新功能将为内容创作者提供更大的灵活性和创作自由,提升视频制作的趣味性和多样性。

钉钉宣布率先接入DeepSeek。用户在创建AI助理时可以直接选择DeepSeek系列的R1、V3等三种模型。同时,钉钉推出了全新模板,旨在简化用户创建与发布基于DeepSeek模型的AI助理的过程。用户在创建AI助力的过程中,即可选择DeepSeek系列模型,在工作流配置界面中,也可选择DeepSeek系列模型,体验这些模型的智能互动功能。这一更新将大幅提升用户体验,使AI助理的创建更加便捷高效。

GitHub推出了Copilot Edits,这一新功能类似于Devin,能够无监督地编写代码。Copilot Edits利用先进的AI技术,根据用户的意图和上下文,自动生成和编辑代码,提高开发效率和编程体验。新的代理模式增强了Copilot的能力,使其能够自主迭代代码、建议命令并在无需用户干预的情况下修复错误。这一更新标志着GitHub在智能编程助手领域的又一次突破,旨在帮助开发者更轻松地进行代码创作和修改,推动软件开发的创新与进步。

issue107 2025.2.10-2.16

2月10日,OpenAI首席执行官山姆·奥特曼(Sam Altman)发布了对人工智能发展的最新预测,指出AI正进入一个全新阶段。他提出三大核心趋势,预示着全球经济、科技格局和个人能力的重大变革:首先,AI智能与算力之间呈对数关系,投入十倍算力带来的智能提升有限;其次,AI使用成本预计每年下降十倍,使得AI服务普及,但可能导致更多岗位被取代;最后,AI经济增长超指数级,将推动全球财富的爆炸式增长,但也可能进一步加大贫富差距。奥特曼强调,AGI(通用人工智能)将成为前所未有的生产力工具,其影响将超越以往的科技革命。

2月10日,豆包大模型团队与北京交通大学、中国科学技术大学联合推出的视频生成实验模型“VideoWorld”现已开源。该模型的独特之处在于其能够仅依赖视觉信息进行世界认知,首次在业界实现无需依赖语言模型的能力。这一进展与Sora、DALL-E和Midjourney等主流多模态模型形成鲜明对比,标志着视频生成领域的重大创新。相关代码和模型已公开,供研究者和开发者使用。

为期两天的人工智能行动峰会11日在法国巴黎闭幕。法国、中国、欧盟等60个国家和国际组织签署了《关于发展包容、可持续的人工智能造福人类与地球的声明》。声明表示,本次峰会凸显了加强人工智能生态系统多样性的重要性,各方表示应促进人工智能的可及性以缩小数字鸿沟,应确保人工智能开放、包容、安全、可靠,并加强国际协调治理。美国和英国没有签署这一声明。

2月12日,字节跳动豆包大模型团队提出了全新的稀疏模型架构UltraMem,该架构有效解决了MoE推理时高额的访存问题,推理速度较MoE架构提升2-6倍,推理成本最高可降低83%。该研究还揭示了新架构的Scaling Law,证明其不仅具备优异的Scaling特性,更在性能上超越了MoE。实验结果表明,训练规模达2000万value的UltraMem模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模value或expert开辟了新路径。

2月13日,OpenAI公布产品路线图:GPT4.5将是最后一个非CoT思维链模型。未来,所有的LLM都是带CoT的模型。比如GPT-5,将集成o3,并基于GPT-4o升级而成。

2月13日,腾讯主力AI应用“元宝”宣布接入DeepSeek-R1满血版,用户现在可以在模型选择框中自由切换混元模型和满血版DeepSeek-R1。该版本支持联网搜索,并整合了微信公众号、视频号等腾讯生态信息源,增强了信息获取的多样性和实用性。这一升级使得“元宝”成为一款支持双模型、具备联网搜索能力的强大AI助手。

2月14日,百度宣布将在未来几个月中陆续推出文心大模型4.5系列,并于6月30日起正式开源。此前,李彦宏曾表示开源模型不如闭源模型。“当你理性地去想,大模型能够带来什么价值,以什么样的成本带来价值的时候,就会发现,你永远应该选择闭源模型。今天无论是ChatGPT、还是文心一言等闭源模型,一定比开源模型更强大,推理成本更低。”

2月15日,微信灰度上线了“AI搜索”功能,并接入DeepSeek-R1提供的“深度思考”服务。根据腾讯的确认,部分用户已可以在微信对话框顶部看到“AI搜索”入口,点击后可以免费使用DeepSeek-R1满血版模型,享受更为丰富的搜索体验。尚未看到此入口的用户则可能需要耐心等待后续的开放。此举标志着微信在AI搜索领域的进一步深化。

2月16日,百度搜索官宣将全面接入DeepSeek和文心大模型深度搜索功能。

issue108 2025.2.17-2.23

2月17日,腾讯元宝开始灰度上线Hunyuan T1推理模型,用户在使用元宝时,开启深度思考即可启用最新的T1模型。

2月18日,字节跳动的AI代码编辑器“Trae”正式上线Windows版本,支持Windows 10和Windows 11系统。该工具由字节跳动旗下的新加坡公司SPRING PTE开发,除了提供AI问答功能,还具备多种编程辅助特性,旨在提升开发效率。“Trae”被视为国产版Cursor,吸引了众多开发者的关注。

2月18日,xAI举行直播发布活动,Grok3正式发布,推出了两款模型:Grok-3和Grok-3 Reasoning,均有mini版。这两个模型的测试成绩均领先于OpenAI,展现出强大的性能。此次模型的训练耗费了20万块GPU,历时半年。此外,Grok还发布了名为Grok DeepSearch的Agent工具,提供类似于DeepResearch的功能。付费会员将很快能够使用Grok-3,并且未来Grok应用将推出专属会员服务。用户只需同意数据共享即可获得150美元的API额度,详细配置可在x.ai的控制台进行。

2月18日,Mistral AI宣布推出其首个专业区域语言模型“Mistral Saba”,该模型专为中东与南亚市场设计,拥有240亿参数。Saba经过高品质数据集的训练,能够高效理解和生成阿拉伯语及多种南亚语言。此模型经过优化,支持本地部署,旨在满足特定区域客户的需求。

2月18日,OpenAI联合创始人兼首席执行官Sam Altman在社交媒体上讨论了公司下一个开源项目,提出构建一个类似o3-mini级别的小型模型或专为手机优化的模型的可行性。他表示,相较于小型模型,打造能够在手机上高效运行的高级模型可能更有价值,旨在探索如何在不同设备上实现AI技术的广泛应用。

2月18日,昆仑万维发布了中国首个针对AI短剧创作的视频生成模型SkyReels-V1及其表情动作可控算法SkyReels-A1。这些创新模型以“以人为中心”为设计理念,支持从文本和图像生成视频,达到与市场上知名闭源模型如快手可灵、MiniMax海螺AI相媲美的性能。SkyReels-V1基于混元大模型训练,能够实现微表情还原与专业运镜,用户可通过昆仑万维的AI短剧平台进行体验,迅速获得各种好莱坞风格的视频创作。

2月19日,DeepSeek推出了NSA(Native Sparse Attention)架构,旨在通过硬件对齐实现高效的长上下文建模。这一创新应对了标准注意力机制在长上下文处理中的高计算成本问题,通过稀疏注意力减少不必要的计算,从而提高效率。NSA结合了动态分层稀疏策略,兼顾全局和局部上下文,显著优化了大型语言模型的性能,与OpenAI的o系列模型和Gemini 1.5 Pro相比,进一步推动了长上下文建模的进步。

2月19日,月之暗面发布了新注意力架构MoBA(Mixture of Block Attention),该架构由创始人兼CEO杨植麟参与署名。MoBA将混合专家(MoE)原理应用于注意力机制,强调“更少结构”,让模型自主选择关注的位置。此发布正赶上DeepSeek的NSA架构引发关注,MoBA不仅发布论文,还公开了经过一年实际部署验证的代码,确保了有效性和稳健性。这一系列进展突显了长上下文建模领域的激烈竞争。

2月19日,阶跃星辰一次开源Step-Video-T2V和Step-Audio两款多模态大模型,前者300亿参数,可生成204帧540P高质量视频,位列开源视频模型第一;Step-Video-T2V具备强大运镜、人物运动生成和形象表现能力,采用创新的Video-VAE架构,实现16×16空间压缩比,效率提升64倍;Step-Audio支持多种情绪、方言和歌声生成,在五大公开测试集上性能领先,能完成语音识别、语义理解、对话等一体化功能。

2月20日,马斯克宣布Grok-3现已免费提供,吸引了广泛关注。此前,用户需通过X(推特)的Premium+会员或Grok APP的SuperGrok会员(每月30美元、每年300美元)才能访问。此次宣布免费引发了巨大的用户流量,导致服务器一度崩溃。

2月20日,微软发布了名为Muse的生成式人工智能模型,旨在革新视频游戏场景的制作方式。该模型由微软机器学习研究团队开发,能够自动生成游戏视觉内容和控制器动作,为游戏创作带来革命性变化。Muse的开发得益于微软游戏智能与可教学人工智能体验(Tai X)团队与Xbox游戏工作室旗下Ninja Theory的紧密合作。

2月20日,阿里巴巴正式上线全模态模型Qwen-Omni,具备多模态数据处理能力,支持视频、音频、图片和文本输入,并能输出音频与文本。与Qwen-VL和Qwen-Audio模型相比,Qwen-Omni能够深入理解视频中的视觉和音频信息,且在多模态数据理解方面表现优秀。这一创新使得用户能够更方便地进行多种数据格式的交互,提升了视觉和听觉理解的整体性能,为人工智能应用提供了更广泛的可能性。

2月21日,美国人形机器人公司Figure推出了通用视觉-语言-行动(VLA)模型Helix,该模型控制的机器人能够根据自然语言提示“拿起任何物件”,甚至是此前未曾接触过的数千种家用物品。在演示中,两名机器人展示了其分拣杂货的能力,准确将物品放置于橱柜、冰箱等特定位置。Helix模型的关键突破在于其“灵巧手”技术,使机器人能够通过头部摄像头平滑跟踪双手动作,并精准控制抓握,克服了人形机器人开发中的多项挑战。这一进展展示了人形机器人在动作精确性和自主操作能力上的新高度。有媒体称我们已经迎来了具身智能的ChatGPT时刻。

阿里巴巴本周悄然发布了ComfyUI Copilot,一款旨在提升AI开发效率的智能助理。该工具通过AI智能节点推荐,能够自动解析用户需求并快速搭建工作流;同时,ComfyUI Copilot还具备自动优化参数的能力,取代传统的手动调试方法。它支持一键模型查询,帮助用户迅速找到合适的预训练模型,并能智能诊断代码错误,提供修复建议,显著提升开发精准度和效率。ComfyUI Copilot被誉为AI开发者的“专属助理”,提升AIGC开发效率。

issue109 2025.2.24-3.2

2月24日,DeepSeek启动了“开源周”,首个开源项目是FlashMLA,一个针对Hopper GPU优化的高效MLA解码内核,专门用于处理可变长度序列。FlashMLA的设计灵感源于FlashAttention 2&3和cutlass项目,旨在提升深度学习模型的性能。该项目需要Hopper GPU、CUDA 12.3及以上版本及PyTorch 2.0及以上版本。

2月25日,Anthropic发布了Claude 3.7 Sonnet混合推理模型,赋予用户在实时响应与逐步推理思考之间自由切换的能力。Claude 3.7 Sonnet在编码和前端开发方面表现优异,并推出了Claude Code工具,使开发者能够直接从终端将复杂的工程任务委托给Claude。该模型在所有Claude计划及Anthropic API平台上均可使用,延长思考模式在免费版外的所有版本均可用。Claude 3.7 Sonnet通过优化响应和推理能力的整合,为用户提供更顺畅的使用体验,取得了在真实编码任务中的显著成绩,提高了代码的质量和设计美感。

2月25日晚,阿里巴巴宣布全面开源其视频生成模型万相2.1(https://github.com/Wan-Video),采用Apache2.0协议。此次开放的14B参数版本在指令遵循、复杂运动生成和物理建模等方面表现出色,在Vbench评测中以86.22%的得分遥遥领先其他模型。1.3B版本则能在消费级显卡上运行,仅需8.2GB显存,适合二次开发和学术研究。万相2.1具备优秀的文字特效生成功能,满足广告和短视频创作需求,助力创作者和企业用户实现高质量视频生成。

2月25日,DeepSeek在开源周Day2发布了DeepEP,这是一个专为混合专家模型(MoE)和专家并行(EP)设计的通信库。DeepEP提供高吞吐量、低延迟的全对全GPU内核,支持包括FP8在内的低精度操作。为与DeepSeek-V3提出的组限制门控算法一致,该库提供了针对非对称域带宽转发优化的内核,适用于训练和推理任务。同时,针对延迟敏感的推理解码任务,DeepEP引入了纯RDMA的低延迟内核和基于钩子的通信-计算重叠方法,以提高系统效率。

2月25日,阿里巴巴发布了基于Qwen2.5-Max的推理模型QwQ-Max-Preview。虽然QwQ-Max目前仅为预览版本,但阿里巴巴表示,正式版本将很快推出,并将基于Apache 2.0许可证全面开源,类似于DeepSeek的做法。Qwen团队还计划推出更小的版本如QwQ-32B,以便在本地设备上部署。这一变化意味着AI应用将更具普及性。同时,根据LiveCodeBench评估,QwQ-Max-Preview的性能表现优于DeepSeek R1,达到o1-medium水平。

2月25日,阿里巴巴的Qwen团队在Qwen Chat(qwen.ai)上线了基于Qwen2.5-Max的推理模型——深度思考(QwQ)。作为预览版,QwQ在数学理解、编程和AI智能体等领域表现出色,显示出较Qwen2.5-Max更高的智能和创造力。预览版同时支持深度思考与联网搜索,拥有类似Claude Artifacts的界面设计,创建的内容以独立模块形式展示在主聊天窗口之外。

2月25日,豆包开始小范围测试上线自己的推理模型。部分豆包用户已经可体验到豆包推理模型,会输出思考过程。

2月26日,DeepSeek开源周Day3,DeepGEMM正式发布,这是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,旨在提升V3/R1的训练与推理效率。其核心代码仅约300行,使用极简设计实现高达1350+ FP8 TFLOPS的性能,采用CUDA核心的两级累加策略解决FP8精度问题。DeepGEMM还优化了MoE模型的布局和数据传输效率,为开发者提供了简洁易用的接口,无需繁重依赖。通过开源,DeepSeek展示了推动AI发展与高性能计算的决心。

2月27日,DeepSeek开源周Day4,团队发布了三大优化策略,进一步推动了V3/R1的训练效率。这三大开源项目包括DualPipe、EPLB和profile-data。DualPipe采用双向流水线并行算法,实现计算与通信的重叠,有效减少训练空闲时间;EPLB则用于专家并行负载均衡,确保GPU在训练过程中几乎没有闲置。此外,梁文峰参与了DualPipe的开发。

2月27日,Kimi的最新模型K1.6-IOI-High在LiveCodeBench上曝光。

2月27日,Grok 3 免费用户已可体验 Grok Voice语音模式。

2月27日,微软宣布推出两款新模型:Phi-4-multimodal和Phi-4-mini,进一步增强其Phi-4家族的功能。Phi-4多模态是其首款整合语音、视觉和文本处理的模型,参数达到56亿,并在多项基准测试中超越谷歌的Gemini 2.0 Flash,特别是在自动语音识别和视觉推理方面表现卓越。Phi-4迷你专注于文本任务,参数为38亿,展现出在编程和指令遵循等领域的优异表现。新模型已经上线Azure AI Foundry和Hugging Face,支持跨平台使用,并确保了安全性与可靠性。

2月27日,腾讯正式发布了新一代快思考模型Turbo S,与DeepSeek R1和混元T1等慢思考模型相比,Turbo S“秒回”响应,输出速度提升一倍,首字时延降低44%。该模型在知识、数学和创作等领域展现出色表现,结合了快思考的直觉反应与慢思考的深入推理能力,使其能够更智能高效地解决问题。通过融合长短思维链,Turbo S在多个公开基准测试中与业界领先模型如DeepSeek V3、GPT-4o和Claude等展开竞争,显著提升了理科推理能力和整体性能。

2月28日,OpenAI举行直播发布会,正式发布GPT-4.5。OpenAI 表示,GPT-4.5 在扩展预训练和后训练方面向前迈出了一步。通过扩展无监督学习,GPT-4.5 提高了识别模式、建立联系和产生创造性见解的能力,而无需推理。28日起,ChatGPT Pro 用户可以在网页版、手机版和桌面版使用 GPT-4.5。下周将向 Plus 和 Team 用户开放,再下周向企业和 Edu 用户开放。现在,GPT-4.5 只支持搜索、上传文件和图片和画布功能,还不支持语音模式、视频和屏幕共享等多模态功能。OpenAI 表示,未来会持续更新,让产品变得更容易使用。

2月28日,DeepSeek开源周迎来了最后一天,推出了支撑V3/R1模型全生命周期数据访问需求的核心基础设施——Fire-Flyer File System (3FS)及其基础上的Smallpond数据处理框架。3FS是一种高效的并行文件系统,利用现代SSD和RDMA网络,180节点集群实现了6.6 TiB/s的聚合读取吞吐量,25节点的GraySort测试中达到了3.66 TiB/分钟的吞吐量,并在KVCache查找中为每个客户端节点提供40+ GiB/s的峰值吞吐量。Smallpond是基于3FS构建的轻量级数据处理框架,因其高性能、可扩展性和易用性而受到关注。

3月1日,DeepSeek在开源周的周六发布“OneMoreThing”,公布了其顶尖的DeepSeek-V3/R1推理系统,带来了全面的优化和性能提升。该系统通过高效并行处理和智能负载均衡,实现了跨节点的批处理扩展能力,使每个H800节点每秒能够处理73,700个输入token和14,800个输出token,成本利润率高达545%。DeepSeek希望分享的技术洞见能够为开源社区创造价值,并共同推动通用人工智能的发展目标。

3月1日,腾讯元宝正式推出电脑版应用,支持Windows和macOS系统,进一步扩展其在桌面端的服务能力。新版本专为工作和学习场景设计,旨在减轻用户的工作负担并提升效率。电脑版保留了移动端和网页版的核心功能,用户可体验智能对话能力,通过DeepSeek-R1和混元T1进行深度思考,同时利用DeepSeek-V3和腾讯混元Turbo S快速获取答案,满足多样化的需求。

issue110 2025.3.3-3.9

3月3日,AI集成开发环境(AI IDE)Trae 国内版正式上线,配置Doubao-1.5-pro,并支持DeepSeek R1与V3模型的切换,从而大幅提升编程效率。Trae强调人机协同,打造全新开发体验,适应国内开发者习惯,帮助其应对复杂技术挑战。通过智能化的”思想到代码”能力,用户可便捷生成应用框架并调优代码,缩短项目筹备时间。Trae希望成为值得信赖的“AI 工程师”,全力支持开发者实现高效开发与创新。

3月3日,OpenAI计划将其AI视频生成工具Sora整合进ChatGPT,并推出更强大的Sora Turbo。根据OpenAI高管Rohan Sahai的透露,Sora目前通过专用网页应用提供,允许用户生成最长20秒的短视频。未来,OpenAI还拟将Sora的生成能力扩展至图像领域,开发由Sora驱动的AI图像生成器,可能会增强用户创建逼真照片的能力。

谷歌Gemini推出“全局记忆”功能,该功能使得AI能够记住用户与其之间的所有对话。这一创新旨在提供更个性化的服务,用户在与AI交流时不再需要特意回顾过去的对话记录,AI能够自然地承接之前的对话内容。目前,这一功能主要面向订阅用户开放,免费的用户尚未能体验到相关功能。谷歌表示,用户可以随时通过Gemini应用管理自己的聊天记录,以确保隐私安全。未来,谷歌计划将该功能扩展到支持其他语言,以便更多用户能够享受到这项便利。

豆包大模型团队宣布开源SuperGPQA,这是一个涵盖285个研究生级学科的评估基准,包含了26529道专业问题。SuperGPQA旨在全面评估大型语言模型(LLMs)在各个学科领域的知识和推理能力。这一项目通过严谨的问题设计和评估机制,能够有效测试模型的表现,并揭示当前LLMs在知识领域中仍存在的提升空间。

xAI团队宣布,Grok语音模式正式上线,现已在Grok应用程序中提供11种模式功能(包含NSFW模式),并自带字幕(文本转录),成为英语学习的新利器。Grok3的早期测试版本给予用户自然语言对话的体验,虽然可能存在一些问题,但总体表现受到好评。此项更新旨在提供更智能的交互方式,吸引用户在学习和交流中更为便捷。Grok3目前可免费使用,X Premium+和SuperGrok用户可享受更多高级功能。

3月5日晚,Monica团队新产品Manus正式开启小范围邀请内测,Manus称自己是全球首款通用Agent产品,旨在解决各种复杂多变的任务。Manus可以深度参与市场调研、文件批量处理、个性化旅行规划和数据分析等多个领域。该产品通过独立思考和系统规划,灵活调用工具,实现编写和执行代码、智能浏览网页以及操作网页应用,直接交付完整的任务成果。与传统的建议和答案提供方式不同,Manus致力于为用户带来更高效的工作体验。

Manus官方发布了40个use case,展示了其在多个领域的应用能力。这款通用Agent能够进行个性化旅行规划、股票分析、教育课程开发、保险政策比较等任务。通过整合信息、深入研究和分析,Manus为用户提供决策支持,并可创建可视化和定制化工具,助力财务报告分析、在线商店运营分析等。其灵活性和多功能性使其在B2B采购、候选人面试安排和新闻发布会提词器制作等方面表现出色,为用户提供更加智能的解决方案。

3月6日,阿里巴巴发布了全新推理模型通义千问QwQ-32B正式版并开源。该模型拥有320亿个参数,其数学运算和编程能力表现接近6710亿参数的DeepSeek-R1。通过大规模强化学习技术优化,QwQ-32B显著降低了运行门槛,允许在普通显卡上本地化运行。QwQ-32B已在Hugging Face和ModelScope上发布,用户可通过Qwen Chat进行体验。

Hunyuan I2V(图生视频)模型于3月6日正式发布。该模型由腾讯混元团队开发,能够将静态图像转化为动态视频,用户只需上传一张图片并描述希望的视频效果,系统便可根据要求生成视频。该模型还支持对口型与动作驱动功能,并能够生成背景音效及高达2K的高质量视频。Hunyuan I2V发布即开源,开发者可以基于此模型进行进一步的探索和应用开发。

阿里巴巴发布新的文本转语音系统Spark-TTS,以Qwen2.5模型为基础,支持零样本语音克隆和细粒度语音控制能力。该系统优化了音频生成流程,并支持多语言输出,非常适合用于有声读物制作。用户可通过文本描述调整语音风格,甚至创建全新的虚拟声音。Spark-TTS在跨语言和代码切换场景下表现出色,能够轻松生成符合不同需求的自然语音。

Google宣布将其Data Science Agent开放给Colab用户,开启了数据分析的新可能性。该功能使用Gemini模型,实现了自动化的数据处理与分析,用户只需描述分析目标,系统便可生成完整的Colab notebook,降低繁琐的设置工作。该Agent被报告在多步骤推理基准测试中表现优越,超越了多种领先的AI Agent。用户可以通过上传数据并描述分析目标,轻松开始数据分析工作。

ChatGPT的最新桌面版本允许用户直接在Mac电脑上编辑的文件中进行修改。用户只需通过聊天或语音指令告知GPT需要的修改,GPT便可以自动完成这些任务,极大提高了工作效率。该功能特别优化了对集成开发环境(IDE)的支持,能够实时查看屏幕内容并根据用户需求自动修改代码。

Mistral AI近期推出了Mistral OCR,一款被誉为“世界上最好的OCR模型”的光学字符识别API。该产品具备卓越的多模态文档处理能力,能从复杂文档中精准提取文本,并将结果以Markdown格式输出。Mistral OCR以极具竞争力的价格发布,允许用户仅以7美元扫描千页文档。目前,它已被整合为Le Chat上的默认文档理解模型,开发者可通过API进行试用。

智谱发布并开源了其最新的文生图模型CogView4,成为首个能够生成汉字的开源AI绘图模型。该模型具备60亿参数,支持中英双语输入,能够准确理解和遵循中文提示,生成高质量的图像。CogView4在复杂语义对齐与指令跟随方面表现优异,满足广告和短视频创作等领域的需求。

issue111 2025.3.10-3.16

3月10日,智元机器人发布首个通用具身基座大模型Genie Operator-11(GO-1)。模型基于创新的Vision-Language-Latent-Action(ViLLA)架构,融合多模态大模型(VLM)和混合专家系统(MoE),通过预测隐式动作标记,弥合图像-文本输入与机器人动作执行之间的差距。

3月12日,OpenAI发布了一系列新工具和API,专门用于构建AI智能体(Agent),以帮助开发者更轻松地创建能够自动完成任务的智能体。这些新工具包括Responses API,结合了聊天完成和助手API的功能,以便简化开发过程;Web搜索、文件搜索和基于CUA模型的计算机使用工具,分别用于获取最新信息、从文档中检索内容和自动化计算机操作。OpenAI还开源了Agents SDK,以改善多智能体工作流程。

Trae国际版发布新版本,上线Claude3.7Sonnet模型,同步更新支持Remote-SSH,开发者可在本地通过Trae访问和操作远程主机文件夹,享受代码补全、调试等AI辅助功能。Trae还新增自定义模型配置,用户可自行接入火山引擎、DeepSeek、硅基流动、阿里云、腾讯云等服务商的模型资源,满足个性化需求。

谷歌推出新一代开源模型Gemma3,是Gemma模型家族的最新版本。谷歌博客中说,这是其迄今为止最先进、最便携、最负责任开发的开放式模型,是“世界上最好的单GPU模型”。Gemma3支持多模态输入,包括视觉语言输入和文本输出,能处理长达128k令牌的上下文窗口,涵盖超过140种语言。在数学、推理和对话能力上都有显著提升,并提供结构化输出和函数调用功能。

阿里开源R1-Omni模型,是首个应用可验证奖励的强化学习(RLVR)于全模态大语言模型的项目,专注于情感识别。研究表明,R1-Omni在推理、理解和泛化能力上显著优于传统模型。该项目开源了基础模型及训练数据,提供了情感识别的性能数据,并详细说明了环境设置与推理步骤。R1-Omni在情感识别任务中表现出色,能够有效处理视频和音频数据。

通义万相上线国际版独立网站(wan.video),视频生成模型全面启用Wan2.1,同步国内版本也更新为新版UI。该工具能够将文字转化为电影级画面,并将静态图片动态化,每天登录还赠送免费额度。

腾讯元宝与腾讯文档正式实现互通,用户可以轻松上传腾讯文档至腾讯元宝,利用AI进行总结和要点提炼。同时,用户还可以将腾讯元宝中的对话内容一键导出到腾讯文档,方便进行修改、分享和创作。这一新功能已在元宝的移动端和网页端上线,为用户提供了更加高效的工作体验,进一步提升了两款产品的整合性能。

3月13日,谷歌更新了其全模态模型Gemini 2.0 Flash Exp,抢先于OpenAI的同类产品,吸引了广泛关注,被称为“用嘴P图神器”。Gemini 2.0 Flash Exp 模型不仅能够通过自然语言生成图片,还能将图像与文本混合输出,甚至支持多轮对话,逐步调整和优化图像。所有开发者均可通过Gemini API和Google AI Studio实验版本进行使用。

谷歌同时宣布Gemini Deep Research功能现在对更多用户免费开放,允许他们快速生成全面的多页报告,从而节省大量的研究时间。新模型提升了Gemini在研究过程中各个阶段的推理能力,包括规划、搜索和报告。通过进一步优化Deep Research,谷歌旨在实现其将全球信息组织、普遍可访问和实用的使命。

3月16日,更新升级后的 Gemini 2.0 Flash Thinking (experimental) 模型,以及可根据你的搜索记录提供个性化回答的 Personalization (experimental) 选项,现已在 Gemini app 中可用。

3月16日,百度正式推出文心大模型4.5和X1,这两款模型现已在文心一言官网上免费提供给用户。文心大模型4.5作为原生多模态基础模型,具备出色的多模态理解能力和增强的语言能力,进一步提升了逻辑、记忆和代码生成能力。企业用户和开发者可以通过百度智能云千帆平台调用4.5的API,X1也将随后上线。此外,百度搜索和文小言APP等产品将逐步接入这两款新模型,进一步丰富用户体验。

issue112 2025.3.17-3.23

3月17日,可灵宣布DeepSeek R1正式接入并整合到AI视频和图像功能中。用户只需点击DeepSeek按钮,输入想法即可自动生成提示词,并实时同步,无需手动编写。这一功能旨在简化操作流程,使小白用户也能轻松制作AI视频,轻松实现一键生成,提升了用户创作的便捷性和智能性。

3月17日,腾讯混元宣布推出5个全新开源3D生成模型,这些模型具备更快的生成速度、更丰富的细节和更逼真的材质表达。同时,混元的自研3D AI创作引擎也得到升级,新增多视图输入、模型智能减面和格式全兼容等能力,全面面向C端用户开放,提升了3D创作体验。

谷歌云在伦敦DeepMind总部推出高清语音模型Chirp 3,并通过Vertex AI平台向开发者开放。该模型支持248种声音和31种语言,可应用于多种智能应用中。为了保障安全,谷歌对语音克隆功能进行访问权限限制。在发布会上,谷歌还介绍了多款新产品,并宣布提升英国AI技能计划,支持初创企业,同时重申数据驻留承诺,强调工具在隐私与合规方面的重要性。

Anthropic发布了MCP(模型上下文协议)的重大更新,引入了“Streamable HTTP”方案。这一新方案替代了HTTP+SSE,旨在优化MCP的传输,提升其灵活性、兼容性和易用性。新协议支持流式传输但非强制,兼容标准HTTP,并支持无状态服务器,打破了SSE长连接的限制。这一创新将为开发者和用户在远程模型交互中提供更多便利。

3月18日,Gemini正式发布Canvas功能。Canvas是Gemini中新增的交互式工作空间,旨在简化用户创建、完善和分享工作的流程,无论是文档还是代码。它的目标是提供一个一体化的环境,实现快速迭代,无需在多个工具之间切换。

在英伟达GTC大会上,黄仁勋推出了全新一代核弹级AI芯片,成为发布会的焦点。不同于传统的科技发布会,这场活动充满了真实感,甚至出现黄仁勋因线缆问题而被卡住的有趣插曲,体现出与会的自然互动。发布会的主线围绕推理成本效率展开,强调AI行业未来的竞争将取决于模型的推理成本和效率,而非单纯的计算能力提升。新发布的Blackwell Ultra芯片,包括GB300 AI芯片,预计将显著提升AI的学习和推理速度,助力英伟达向成为AI工厂的目标迈进。

字节跳动的SeedEdit模型正式上线,旨在满足用户日常的图像编辑需求。用户能够在豆包的“图像生成-参考图”以及即梦的“图片生成-智能参考”中轻松使用这一功能。SeedEdit的操作简便,无需复杂的提示词,用户只需简单说明修改需求即可。这一创新工具将为用户提供更便捷的图像编辑体验,满足个性化创作的需要。

Cursor推出了全新Claude Max模式(MAX代表最大智能),为开发者提供强大的编程支持。Claude Max在处理大规模代码和复杂逻辑时表现尤为出色,适合于硬核开发和大型项目。作为Claude 3.7的增强版,它具备超强创造力,并能解决更复杂的任务。最大上下文窗口达200K,支持输入更大块的代码,同时工具调用限制增至200次,可进行大量编辑。然而,使用Claude Max的费用为按需计算,每次请求和工具调用各需0.05美元,可能会对用户的预算造成压力,需谨慎使用。

3月20日,OpenAI推出了迄今为止最昂贵的o1-pro API。该模型相比于o1,增加了计算资源,以提供更稳定和高质量的回答。现阶段,该模型面向Tier 1-5的特定开发者开放,支持视觉处理、函数调用及结构化输出,并兼容Responses API和Batch API。值得注意的是,o1-pro的使用成本显著增加:输入每百万token收费150美元,输出每百万token则需600美元,成为OpenAI的高端产品,价格为GPT-4.5输入费用的两倍。

阶跃星辰于3月20日开源了新款图生视频模型Step-Video-TI2V,该模型基于30B参数的Step-Video-T2V训练而成,支持生成102帧、5秒长的540P分辨率视频。Step-Video-TI2V的核心特点包括运动幅度可控和镜头运动可控,具备特效生成能力,使其在开源图生视频领域中具有更高的研究潜力。相较于现有模型,该技术在动态性和稳定性之间提供了更佳平衡,为创作者带来更灵活的视频生成体验。

字节跳动昨日推出了开源的多模态AI Agent——Agent TARS,Agent TARS支持MCP(模型上下文协议),具备更强的可扩展性。用户可以利用该Agent自行浏览网页、进行命令行操作和文件管理,能够规划和执行复杂任务,如深度研究和电脑操作。其集成了多种工具,提供macOS桌面客户端,以实现浏览器操作、会话管理及模型配置等功能。

3月21日,OpenAI发布了新的语音生成模型以及体验网站OpenAI.fm。新推出的语音转文本(STT)模型包括gpt-4o-transcribe和gpt-4o-mini-transcribe,这两款模型在处理口音、噪音和不同语速方面性能显著优于之前的Whisper,同时价格更具竞争力。此外,OpenAI还发布了具备高度可控性的文本转语音(TTS)模型gpt-4o-mini-tts,用户可以指定语调和内容。新功能支持时间戳和流式转录,便于用户实时获取转录结果,详细文档已在OpenAI官方网站上发布。

3月21日,Claude宣布现已具备网页搜索功能,可为每个响应提供即时引用,使用户可以方便地核实来源。这一新特性增强了信息的真实性和可靠性,用户可以通过引用快速找到相关资料并进一步探讨所提及的信息。

3月21日晚间,腾讯混元大模型团队举行线上直播,发布深度思考模型T1正式版。该模型具备快速吐字和秒回的特点,并且擅长处理超长文本,已上线腾讯云,将在腾讯元宝进行灰度测试。混元T1通过大规模强化学习,特别优化了在数学、逻辑推理、科学和代码等领域的表现,在常见benchmark如MMLU-PRO中取得87.2的高分,仅次于领先模型。此外,混元T1在对齐任务、指令跟随和工具利用等方面展现出强适应性,采用创新的Hybrid-Mamba-Transformer架构,降低了计算复杂度和内存占用,显著降低了训练和推理成本,展示出其在推理能力上的领先地位。

在AWE 2025展会上,多家家电品牌推出AI相关产品,重点展示AI驱动的智能家居设备与个性化服务。老板电器推出“食神大模型”,通过AI生成个性化菜谱并联动智能厨电设备,重新定义未来厨房场景。

issue113 2025.3.24-3.30

3月24日晚间,DeepSeek在huggingface上发布了V3-0324模型更新,显著提升了编程能力,并采用了更宽松的MIT开源许可证。此版本的模型具备6850亿参数,依托新的32KGPU集群进行改进,目前已经在官方网页、APP和小程序上可用。用户反馈显示,该模型在前端编码和上下文理解能力方面表现出色,接近当前编码能力顶尖的Claude 3.7。此外,V3的开源协议便利了商业应用,吸引了全球用户积极测试。

3月25日,阿里云发布了更小尺寸的视觉理解模型Qwen2.5-VL-32B-Instruct,主要优势体现在三个方面:调整后的输出风格使其答案更加详细和规范;具备应对复杂数学问题的推理能力;在图像解析和视觉逻辑推导等任务上提供更准确的细粒度分析。该模型基于1月底开源的Qwen2.5-VL系列持续优化,采用Apache 2.0协议开源。

3月26日,iOS版Grok应用进行了更新,新增多项功能。用户现在可以在语音模式下进行图像编辑,同时引入了近期历史快捷方式和更新的人物卡片选项。

Gemini 2.5 Pro实验版模型现已在Google AI Studio上线,单次可处理百万token,用户可以进行体验和试用。它在多个基准测试中达到了SOTA水平,并且以显著的优势在LMArena上排名第一。 现在,Gemini 2.5 Pro已经登顶了Arena排行榜的第一位,而且创下了历史最大分数。

3月26日,OpenAI发布GPT-4o生图功能,显著提升了图像生成的质量与细节表现。用户通过对话能够实现多轮生成和精准指令遵循,能够处理复杂场景并进行细致修改,如生成菜单、婚礼邀请等。同时,该模型还可根据现实知识生成相关图像,但在长图像、非拉丁文本渲染等方面仍存在缺陷。GPT-4o的推出已取代DALL·E3成为默认的图像生成器,目前Plus和Pro订阅用户已可在ChatGPT和Sora中使用,预计近期将进一步推广至Team和Enterprise订阅用户。

腾讯元宝宣布DeepSeek模型已升级到V3-0324。字节跳动的AI IDE Trae国际版也已上线DeepSeek-V3-0324模型。

昆仑万维于3月26日推出首款音乐推理大模型Mureka O1及其V6版本。继去年8月上线的Mureka平台后,新发布的模型具备CoT(思维链)能力,成为首个提供开放API和模型微调服务的音乐生成平台。Mureka的名称源于希腊语“Eureka”,意为“我发现了”,旨在帮助用户记录音乐灵感,创造个性化作品。Mureka O1在多项评测中已超越竞争对手Suno,并瞄准全球市场。用户可通过官方网站体验。

3月27日,Qwen团队开源了最新的多模态模型Qwen2.5-Omni-7B,该模型实现了文本、图像、音频和视频的端到端处理。其核心技术包括全新Thinker-Talker架构,支持分块输入与即时输出,解决了视频与音频时间戳同步问题。该模型具备实时语音和视频交互能力,生成的语音在自然度上超越现有技术,并在单模态和多模态任务上表现出色,达到SOTA水平。用户可在Qwen官网试用这个强大的新模型。

美团创始人王兴透露,公司已自主研发了名为LongCat的大模型,并投入数十亿元用于GPU资源的建设。LongCat模型旨在提升员工的工作效率,包括AI编程、会议助手及多媒体制作等功能。

3月27日凌晨2点,OpenAI对Agent SDK进行了重要更新,新增支持MCP(Multi-Component Processor)服务,旨在统一接口标准,解锁无限工具。此更新允许开发者快速集成多种工具,如网络搜索、专业分析、和本地查询,从而显著提升复杂自动化智能体的开发效率。例如,开发者可通过MCP服务器有效整合文件处理、数据查询和网络信息收集功能。OpenAI首席执行官Sam Altman对此表示高度赞赏,强调了MCP在智能体开发中的关键作用。

清华大学研究团队开源了新视频生成技术Video-T1,采用测试时缩放(Test-Time Scaling, TTS)方法,旨在提升AI生成视频的质量,无需重新训练模型。该技术通过在推理阶段增加计算,实现了视频生成的显著提升,测试表明在VBench上最高可提升5.86%的总分。Video-T1不仅优化了生成过程的质量和一致性,还有助于AI更好地理解和模拟现实世界。

3月28日凌晨,阿里巴巴发布新的AI视觉模型QVQ-Max,作为QVQ-72B-Preview的正式升级版,专注于优化视觉信息处理。QVQ-Max实现了从视觉感知到认知推理的跨越,支持图像、视频和文本的联合推理。在MathVision benchmark测试中,该模型表现出thinking长度与准确率之间的正相关关系,显示出其强大潜力。该模型目前已上线Qwen Chat。

Ideogram发布了全新文生图模型Ideogram 3.0,有着惊人的真实感、创意设计和一致的风格。该模型在图像提示对齐、逼真度和文本呈现等方面取得了显著进展,在人类评估中表现优于其他同类模型。它引入了风格参考功能,允许用户上传多张图像以定制生成内容风格,同时通过随机风格功能探索独特组合。Ideogram 3.0还具备强大的文本和布局生成能力,能够快速制作专业品质的设计作品,极大提高了设计的效率和可接近性。

3月28日,豆包正式开启新版深度思考功能的测试,新的功能结合了推理过程中的思维链与深度搜索,支持边思考边搜索信息。这一改进使得豆包能够在思考过程中多次调用工具和搜索信息,以提供更全面、准确的结果。新功能适用于多种场景,如制定方案和规划。例如,在清明旅游的案例中,豆包通过三轮搜索,综合各类情况,撰写出了一份详尽的旅游方案。

3月28日,快手可灵AI进行了双重升级,推出了新版本1.6,图生视频在Artificial Analysis竞技场中排名第一,超越了Google Veo 2。同时,Elements(尾帧)功能也进行了优化,视频生成速度显著提升,且对提示词的理解更加精准,生成效果与用户需求更加贴合。这一系列更新不仅提升了生成效率,还增强了用户在视频创作中的体验,进一步巩固了可灵AI在图生视频领域的领先地位。

3月30日,Manus发布了两个重要更新,感谢早期用户的支持。首先,推出了Manus会员(测试版),提供更多的使用积分、同时运行多个任务的能力、通过专用资源提升的稳定性,以及扩展的上下文长度。作为对早期用户的感谢,系统已为每个账户添加了1000个免费积分,并将定期提供更多奖励积分。其次,Manus的移动应用现已上线,用户可以随时随地创建任务和查看结果,提升了使用的便利性。

issue114 2025.3.31-4.6

3月31日,智谱在中关村论坛推出了最新的Agent产品——AutoGLM「沉思」。该产品的显著特点在于其能够有效应对开放性和复杂问题,通过边推理边搜索的方式,生成条理清晰、内容详实的长文报告。与传统的联网搜索AI工具不同,「沉思」在推理过程中主动拆解问题,并调用本地浏览器实时进行信息搜索,在确认所需信息后再进行推理,最终输出完整报告。目前该产品已在智谱清言PC端开放使用。

Runway正式发布其最新的视频生成模型Gen-4,号称是迄今为止最高保真度的AI视频生成工具。Gen-4在画面真实感、动态流畅度及创作可控性等方面实现了重大突破,解决了AI视频长期存在的角色与场景连贯性问题。用户只需输入简单提示词和几张参考图,就能生成高品质的电影级大片,并且保持一致的视觉风格。该模型的推出将为视频创作带来前所未有的自由和灵活性。

4月2日,OpenAI在其iOS应用中推出了全新的语音“Shade”,目前正在逐步推送给部分用户。用户反馈显示,“Shade”语音表现出更具个性化的“丧”与EMO风格,呈现出更自然的语调和丰富情感。分析人士指出,此次更新在语速、语气和场景适应性上进行了优化。

4月2日,一款名为 Quasar Alpha 的模型上线 OpenRouter,具备高达 100 万个 token 的上下文处理能力,响应速度快,每秒可处理约 136 个 token。用户测试发现其表现出色,有人怀疑它为 OpenAI 的开源模型,因其自称基于 GPT-4。Quasar Alpha 为全能型模型,尤其擅长编码任务,支持多模态能力,并在 aider 多语言编码基准中得分约 55%,优于 GPT-4o,现已在 OpenRouter 免费开放使用。

Hugging Face推出了一项新功能,用户可以轻松查看其计算机硬件支持运行的AI模型。用户只需在个人设置中输入硬件信息,系统将智能分析并显示可运行的模型。这一功能旨在简化模型选择过程,为开发者和AI爱好者提供便利,提升了使用体验,帮助他们更高效地利用计算资源。

谷歌的NotebookLM推出了新的“Discover sources”功能,旨在帮助用户快速获取网络上的相关信息。用户只需输入感兴趣的主题,系统便会迅速找到相关网页并进行总结,用户可一键将这些来源添加到笔记本中,便于后续查阅。这一功能提高了信息获取的效率,优化了用户的学习和研究体验。

4月3日,前百度集团副总裁景鲲创立的Genspark推出了全新的自动化AI代理“Super Agent”,凭借其强大的自主思考和任务执行能力而备受瞩目。该系统采用创新的多智能体混合设计,能够高效处理从日常事务到复杂研究的多种任务,展现出巨大潜力。尽管其实用性令人印象深刻,但仍需关注系统透明度和数据隐私等问题,以确保安全性和用户信任。

4月3日,Midjourney正式启动其备受期待的V7图像模型的Alpha测试,标志着AI图像生成技术的一次重大进步。创始人大卫·霍尔茨称该模型为“迄今为止最智能、最美观、最连贯的版本”,并承诺未来两个月每隔一到两周推出更新。V7引入了草稿模式,提升渲染速度和降低成本,同时实现了更高的图像质量和个性化功能,这些特性为创意工作者提供了更高效的工具。Midjourney也在扩展其技术野心,计划开发视频和3D对象生成模型。

加州大学圣地亚哥分校的一项研究显示,OpenAI的GPT-4.5在图灵测试中表现出色,73%的时间被判定为人类。这项测试通过让参与者同时与一名人类和一个AI进行5分钟对话,然后判断哪一方是人类。GPT-4.5的表现显著优于其他AI系统和真实人类,首次提供了实验证据证明某个人工智能系统能够通过标准三方图灵测试。这一突破引发了关于AI未来和其对人类社会影响的广泛讨论。

MiniMax Audio推出两款新语音模型——speech-02-turbo和speech-02-hd,支持声音克隆及18种语言,包括中文、英语、粤语、日语等。用户还可以选择7种情绪模式:开心、难过、生气、害怕、厌恶、惊讶和中立。从智能助手到有声读物,再到在线课堂和电影配音,MiniMax Audio的应用场景广泛,为用户提供高度定制化的语音体验。

谷歌宣布测试名为“AI Mode”的全新人工智能搜索模式,允许用户提出更复杂的多部分问题,并能整合多个查询结果,提供连贯、深入的答案。与传统关键词搜索不同,AI Mode可在后台同时运行多个相关搜索,预测用户兴趣点,生成全面的整合性回答。该功能将在主搜索页面之外的独立标签页运行,特别适用于处理复杂查询。

4月2日,字节即梦推出了3.0版本的AI绘图模型,用户反馈表明其出图质量和生成汉字的能力有了显著提升,尤其是在细节上,小字的生成稳定性大幅改善。该模型被认为是目前最强的中文AI绘图模型,能直出商用级的海报,出图质量和生成汉字的能力效果非常好。次日,豆包宣布文生图能力升级,全面搭载新模型。

4月6日凌晨,Meta 发布了 Llama 4 系列模型,包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth(预览)。这些模型采用混合专家(MoE)架构,并且是原生多模态训练。其中,Llama 4 Scout 是性能最强的小尺寸模型,Llama 4 Maverick 是同级别中最佳的多模态模型,Llama 4 Behemoth 是 Meta 迄今最强模型。这些模型在多个基准测试中表现出色,具有业界领先的多模态上下文窗口,首次将上下文长度扩展到千万token级。

issue115 2025.4.7-4.13

4月7日,Gemini Live现已在Gemini安卓客户端上线,新增实时读取屏幕内容功能,并能通过语音快速回答用户提问。此外,ChatGPT iOS客户端也已支持类似功能,用户可通过开启高级语音模式并选择“共享屏幕”来体验。此更新显示了人工智能在增强实时互动与信息获取方面的进展。

4月8日,Runway正式推出Gen-4 Turbo,视频生成速度大幅提升至仅需30秒即可创作10秒视频,比前代Gen-4快5倍。同时,成本也显著减少至Gen-4的一半,使用户能够实现高效且低成本的视频创作。

ElevenLabs推出了MCP服务器,旨在简化AI与其文本转语音(TTS)、声音克隆等语音功能的接入。该平台不仅支持在Claude中启动语音代理,用户还可以利用其执行外拨电话等任务。

4月9日,阿里云百炼上线全生命周期MCP服务,无需用户管理资源、开发部署、工程运维等工作,5分钟即可快速搭建一个连接MCP服务的 Agent(智能体)。百炼平台首批上线了高德、无影、Fetch、Notion等50多款阿里巴巴集团和三方MCP服务,覆盖生活信息、浏览器、信息处理、内容生成等领域,可满足不同场景的Agent应用开发需求。

4月9日,英伟达开源了一款新模型Llama-3.1-Nemotron-Ultra-253B-v1,该模型基于Meta的Llama-3.1-405B-Instruct开发,拥有2530亿个参数。值得注意的是,该模型在多项第三方基准测试中表现出色,其性能接近于6710亿参数的DeepSeek R1,但参数量仅为其一半。测试结果显示,Llama-3.1-Nemotron-Ultra在GPQA、指令遵循和编码任务中均优于DeepSeek R1,且推理吞吐量高出4倍。

4月9日,Google Gemini的“Deep Research”功能已升级至Gemini 2.5 Pro实验模型,提供更强大的研究支持。该功能通过AI驱动的深度分析,帮助用户快速整理复杂信息并生成详尽报告。最初仅限订阅用户使用,现已向免费用户开放,并且性能得到提升。

4月10日,Google Cloud举行Next25大会,发布多个更新。Gemini 2.0 Flash 001 模型现已在 AI Studio 上线。它取代了之前发布的 2.0 Flash Experimental 模型。新发布的Firebase Studio是一个基于Web浏览器的AI编程工具,允许用户无限调用Gemini模型进行“vibe coding”。该平台提供不同的工作区选项来满足用户需求:普通用户可以使用3个工作区,而加入Google开发者计划的免费用户则可获得10个工作区,成为Google开发者Premium计划的用户则可享受30个工作区。

谷歌推出新的Agent 2 Agent(A2A)协议,用于实现Agent之间的无缝协作。A2A协议相比Anthropic的模型上下文协议(MCP)更侧重于让客户端Agent与远程Agent进行联动,实现任务的制定、传达和执行。A2A协议允许Agent之间互相发送消息,传达上下文信息和回复,连接可以持续保持直到任务完成。

Google推出Veo 2 API,用户现在可以通过Gemini API访问这一新工具。Veo 2支持多种功能,包括将文本转化为视频、将图片转化为视频及通过多模态提示(文字、图像和风格描述)生成高质量短视频。费用方面,每秒钟的生成费用为0.35美元,视频时长通常在5到8秒之间,因此每次调用的费用介于1.75美元至2.80美元之间,并支持每次生成最多2个视频版本。

Google同步推出Chirp 3,这是其音频理解与生成模型的最新版本,现已更新至Vertex AI。Chirp 3支持超过35种语言(包括中文),并提供八种音色选项。用户只需提供10秒的语音样本,即可生成逼真的自定义语音。尽管当前仅能通过API调用,但这一特性允许用户利用游戏、动漫角色的音频,创造个性化的虚拟人语音。业界对这一技术的潜在应用前景表示期待,同时呼吁Google加强相关的安全措施,以防止不当使用。

Anthropic推出Claude Max订阅计划,分为每月100美元和200美元两个版本,速率限制分别为Claude Pro的5倍和20倍。这一计划被视为对OpenAI ChatGPT Pro的竞争,旨在为高端用户提供更多功能和优先权。同时,Anthropic也在探索教育等新领域的收入渠道,并不排除未来推出更高端订阅计划的可能性。

商汤发布了其最新的多模态大模型“日日新SenseNova V6”,旨在赋予人形机器人更高的智能,实现“真听、真看、真思考”。该具身智能模型具备6000亿参数,支持长达64K的思维链、多模态深度推理及10分钟视频理解,提升了机器人在互动及感知上的能力。新一代的人形机器人如GRx和“飞燕”能主动与人交流,分析环境,甚至提供个性化建议。此外,商汤还推出了升级的SenseCore 2.0,强调将AI技术应用于日常生活。

The Browser Company推出了全新AI浏览器Dia,现正进行邀请码制公测。Dia浏览器侧重于AI驱动的原生浏览体验,其搜索框支持自然语言提问,并能够轻松添加网页链接。此外,Dia具备高效的文档处理能力,能够在限制为100MB的情况下,清晰总结长达10万字的文档。

4月11日,ChatGPT推出了记忆功能的升级,使其能够参考用户过往所有的历史聊天记录,提供更个性化的回应。新功能允许AI根据用户的偏好和兴趣,提供更贴心和实用的帮助,无论是在写作、咨询还是学习方面。升级后的ChatGPT不仅能引用过去的对话内容,还能更流畅地进行互动,符合用户的个性与风格。此外,用户可以调整AI的理解,或选择临时对话模式以避免影响记忆功能。该升级将逐步推送给所有Plus和Pro用户。

issue116 2025.4.14-4.20

4月15日凌晨,OpenAI推出了三款新型GPT-4.1系列模型,专为API使用而非直接集成在ChatGPT中。该系列包括旗舰模型GPT-4.1,具备卓越的编码和指令遵循能力;高效的GPT-4.1 mini,显著降低延迟和成本;以及超小型的GPT-4.1 nano,针对低延迟任务设计。尽管命名逻辑引发网友吐槽,但OpenAI声称,此系列模型在多项基准测试中表现优异,特别提升了编码、前端开发和上下文理解能力。GPT-4.1还允许使用高达32,768个tokens的输出,适应更复杂的编程任务。

4月15日,智谱宣布开源32B/9B系列GLM模型,包括基座、推理和沉思模型,均遵循MIT许可协议。新平台Z.ai已免费开放体验,并与智谱MaaS平台同步上线。其中,推理模型GLM-Z1-32B-0414的推理速度可达200 Tokens/秒,表现不逊于DeepSeek-R1,且售价仅为其1/30,成为国内商业模型中速度最快的选择。Z.ai将整合三类GLM模型,后续将作为智谱最新模型的交互体验入口。

4月15日,可灵发布了重磅更新版本可灵2.0,其中包括全新的视频生成能力和可图2.0文生图模型。这次更新通过自研技术的结合,实现了动态画面的显著提升,支持精准的复杂运动模拟和交互响应。新增加的多模态编辑功能允许用户在视频基础上通过文字或图片进行灵活修改,提升了创作体验。同时,新引入的AI音效生成可为影像内容创造适合的音效片段,更加丰富了视觉表达。整体上,该更新构建了一个多模态视觉语言(MVL),使得与AI的互动更加精确和丰富。

4月15日,马斯克旗下xAI正式发布Grok Studio的首个版本,新增代码执行功能与Google云端硬盘支持。Grok现已支持生成文档、代码、报告及网页游戏。Grok Studio会将用户的内容在独立窗口打开,让用户和Grok可以共同协作处理内容。

4月16日,Anthropic推出Claude的重大更新,新增“Research”功能并实现与Google Workspace的深度集成。这一新功能使Claude能够主动进行多轮搜索,从而快速检索网络及内部文件,精准回答复杂问题,极大提升工作效率。与ChatGPT的Deep Research类似,Claude的Research功能也可以多角度深入探讨问题,为用户提供系统性的答案。

4月16日,Trae国际版宣布新增Gemini 2.5 Pro和GPT-4.1模型,均免费提供,提升了用户的AI编程体验。

4月16日,上海人工智能实验室升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。该模型采用创新的多模态预训练和后训练方法,显著提升了其基础能力。在专家级基准测试以及多模态性能全面测试中,10亿到780亿参数的全量级版本在开源模型中表现卓越,荣获第一。同时,InternVL3在图形用户界面(GUI)智能体、建筑场景图纸理解、空间感知推理和通识学科推理等方面的能力也得到了大幅提升。

腾讯推出的AI助手“元宝”现可添加为微信好友,用户可以直接与其对话,并发送链接和文件,甚至支持置顶功能。元宝基于混元和DeepSeek双模引擎,能够一键解析公众号文章及任何图片和文档,提供详细解读和短评。

4月17日,OpenAI正式发布了其最新的推理模型——o3和o4-mini。这些模型显著优于第一代o1模型,尤其在解决复杂问题和Agent能力方面。o3模型首次支持在思维链中使用图像进行推理,并展现出强大的自主调用工具能力,曾连续调用约600次工具以解决难题。同时,它全面支持网页搜索、文件分析、Python代码执行和图像生成等功能,且在成本效率上优于前代产品。o3现已在模型选择器上取代o1,ChatGPT Plus、Pro和Team用户立即可用,企业和教育用户将在一周后获得访问权限,o3-pro预计数周内发布。

4月17日,OpenAI发布了轻量级编码智能体Codex CLI,该工具现已在GitHub开源。Codex CLI旨在增强o3和o4-mini模型的推理能力,并即将支持GPT-4.1等追加API。用户可以通过命令行进行多模态推理,接受截图或草图,同时访问本地代码,为开发者提供了ChatGPT级别的推理能力。它具备零配置功能,可以直接使用OpenAI API密钥,并通过网络禁用和目录沙箱化确保安全。Codex CLI兼容macOS、Ubuntu和Windows的WSL2,最低要求4GB内存,建议使用8GB。

4月17日,火山引擎举办活动,发布豆包1.5深度思考模型、豆包·文生图模型3.0、豆包·视觉理解模型升级版等,并推出OSAgent解决方案及AI云原生推理套件,帮助企业更快、更省地构建和部署Agent应用。豆包1.5深度思考模型总参数达到200B,但激活参数仅为20B,兼具性能与效率。在数学推理 AIME 2024 测试得分中,该模型追平OpenAI o3-mini-high,编程竞赛和科学推理测试成绩也接近 o1。

4月18日凌晨,Google 正式推出 Gemini 2.5 Flash 预览版大模型,基于 Gemini 2.0 Flash 打造,其在推理能力方面进行了较大升级,同时保持了速度和成本的优势。据 Gemini 产品经理 Tulsee Doshi 表示,Gemini 2.5 Flash 与 2.5 Pro 一样,支持动态思考:根据输入的复杂程度自动调整生成的工作量。在 2.5 Flash 上,开发者可以进一步控制模型思考。另外,Google 将优化性能,计划推出正式版,或支持更长上下文(200 万 Tokens)和更低延迟。

4月18日,扣子空间(Coze Space)启动内测,旨在成为用户与AI Agent协同办公的理想平台。它提供多项功能,包括自动需求分析和任务拆解,让用户能够高效完成工作。平台支持自主调用工具,生成网页、PPT、飞书文档等结果报告。专家Agent生态提供专业化服务,如华泰A股观察助手和用户研究专家,能有效支持各类项目。同时,探索模式和规划模式帮助用户根据任务复杂性优化协作方式,此外,MCP扩展集成功能可进一步拓展Agent的能力,支持多种工具使用,提升办公效率。

阿里通义万相开源了业界首个“首尾帧生视频模型”,参数量达到14B。该模型能够根据用户提供的开始和结束图片生成720p高清的视频,实现首尾画面的无缝衔接,满足用户对视频生成的更高控制和定制化需求。

issue117 2025.4.21-4.27

4月22日,Fellou AI推出了全球首个Agentic(行动型)浏览器Fellou,它整合了传统浏览器的信息浏览功能与AI智能体,旨在自动化复杂任务,提升用户生产力。用户可以使用Fellou通过简单的语句自动填充表单、管理标签页以及跨网站执行繁琐操作,极大地简化了工作流程。该浏览器采用基于智能代理架构的新型模式,彰显了浏览器的进一步智能化趋势,为用户提供更加高效的深度搜索与自动化体验。

4月22日,Trae发布新版本新增四项功能,进一步提升用户体验。首先,智能体创建功能允许用户基于提示词和MCP工具自定义智能体,使用时只需@即可,无需重复输入复杂指令。其次,智能工具(MCP)支持内置常用工具,使点击即可使用更加便捷。此外,Trae增强了联网搜索及文档集的上下文理解能力,帮助AI在处理复杂编码框架时提供更精准的搜索结果。最后,个人和项目规则配置功能的引入,使得用户无需反复强调基础编码要求,进一步提高了工作效率。

4月22日,AI视频生成初创公司生数科技推出了全新的Vidu Q1视频大模型,该模型在多个权威的文生视频和图生视频基准测试中荣登榜首。Vidu Q1支持生成1080p分辨率、5秒长度的视频,效果清晰稳定,现已在网页端和手机端发布。与前一版本相比,Vidu Q1在语义理解、画质、动作和美学等方面有所提升,首尾帧衔接更加顺畅,并可通过上传两张图片生成自然流畅的镜头。其性价比极高,1080p 5秒视频的最低价格为1.34元,低至0.3元/秒,显著低于同类产品,展现了卓越的动态表现能力和特效处理性能。

4月23日,Kortix-AI 正式发布开源通用 AI 智能体平台 Suna,定位为热门 AI 工具 Manus 的开源替代品。Suna 集成了浏览器自动化、文件管理、网络爬虫、扩展搜索、命令行执行、网站部署及 API 集成等功能,通过自然语言对话实现复杂任务的自动化处理。

4月23日,Veo 2视频生成模型在iOS版Gemini应用中正式上线。这一全新模型旨在提升用户的视频创作体验,凭借改进的算法和性能,Veo 2能够生成质量更高、风格更加多样化的视频内容。Gemini应用用户现在可以利用Veo 2的功能,轻松创建引人入胜的视频作品,享受更流畅的编辑过程。

4月23日,OpenAI Platform正式上线了GPT-4o的图片生成API,名为gpt-image-1。该API具有两个主要功能:一是“Generations”,可以根据文本提示从零开始生成全新图像;二是“Edit”,允许用户通过新的提示词对现有图像进行部分或全部修改。同时,gpt-image-1支持用户自定义图像的尺寸和质量,并且提供alpha通道输出,进一步扩展了创作者在视觉内容生成和编辑方面的灵活性和创新可能性。

4月23日,xAI推出了其旗舰AI助手Grok的新功能——Grok Vision。该功能利用智能手机摄像头进行实时视觉分析,能够识别物体、解读文本并理解环境,为用户提供即时信息。Grok Vision还支持多种语言的语音交互,包括西班牙语、法语等,打破语言障碍,增强用户体验。此外,用户可以通过语音命令进行实时搜索,获取最新信息。该功能的发布引起了全球AI社区的广泛关注和讨论。

纳米AI最新推出的电脑客户端MCP万能工具箱集成了超过100个MCP配置,用户可以直接调用。该工具箱还内置了常用的18个API密钥,免去了去各个网站寻找密钥的麻烦。用户可以轻松调用高德地图、MiniMax生图、生音频和生视频等功能。

4月24日,扣子宣布智能体和工作流应用可发布为扣子空间的MCP工具。

4月25日,百度Create开发者大会现场,百度创始人李彦宏正式发布文心大模型4.5 Turbo和文心大模型X1 Turbo,具备多模态、强推理、低成本三大特性。他表示,当下的部分模型,仍然存在模态单一、幻觉高、速度慢和价格贵等问题。百度发布这两款新模型,正是为了解决这些问题。

4月25日,百度在Create2025大会上推出了首个移动端通用超级智能体App——心响,并宣布免费开放使用,目前安卓版已上线。心响App具有多个子智能体,能够理解用户意图,拆解任务,协作完成指令,实现一站式服务。例如,可以生成有声的试题讲解视频等。

4月25日,OpenAI推出了“深度研究”的轻量版,由o4-mini驱动,现已向所有用户免费开放。该版本的特点是回复更加简洁,但依然保持深度与质量。当用户的标准“深度研究”配额用尽时,系统将自动切换到这一轻量版,确保用户在不同需求下仍能获得高效的回答,进一步提升了服务的灵活性和可用性。

即梦3.0海外版本正式发布,提供卓越的英文排版理解与控制,用户反馈效果优于中文。新版本具备电影级画面品质和2K分辨率输出,展现超逼真的材质与纹理。此外,英文文本的生成能力被评价为极其准确,保证了精准、干净的字体排版。

开源项目Magi-1在北京推出后迅速引起关注,仅在两天内便在GitHub上获得了1.7k个Star。这是全球首个高质量自回归视频模型,其物理真实性测试结果超过了谷歌的VideoPoet。Magi-1被誉为现实世界的模拟器。

4月27日,Qwen海外版App已在Google Play上架。

issue118 2025.4.28-5.4

4月29日凌晨,通义千问团队宣布推出 Qwen3,这是 Qwen 系列大型语言模型的最新成员。旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。此外,六个 Dense 模型也已开源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 许可下开源。

OpenAI更新了ChatGPT的搜索功能,新增了在线购物体验。用户可以通过自然语言搜索产品,ChatGPT会提供推荐、图片、评论和直接购买链接。目前支持时尚、美容、家居用品和电子产品等类别,功能已在GPT-4o中上线,适用于所有用户。未来还将提供个性化的购物推荐。

在4月30日的首届LlamaCon开发者大会上,Meta发布了其对标ChatGPT的智能助手Meta AI App,并推出了官方Llama API服务的预览版本。该应用基于Llama模型,能够通过社交媒体账号获取用户偏好并记住上下文,与ChatGPT类似,支持文本和语音交互。值得一提的是,Meta AI App还增加了全双工语音交互功能,允许用户在接收语音的同时进行回应,支持边听边说和实时打断。

4月30日,豆包AI推出了最新灰度测试版本“超能创意1.0”,首次支持一次生成多达20张风格统一的艺术写真图。该版本大幅提升了画面细节和光感,特别适合职场写真和古风风格。这一技术的出现为那些因时间和费用限制而难以拍摄精致个人写真的人们带来了福音。

4月30日,小米大模型微信公众号称,小米于周三开源首个为推理而生的大模型“Xiaomi MiMo”。MiMo推理能力的提升,由预训练和后训练阶段中数据和算法等多层面的创新联合驱动。

4月30日,DeepSeek低调在Hugging Face上开源了全新671B参数的模型“deepseek-ai/DeepSeek-Prover-V2-671B”,专注于数学问题的Prover系列。相比前一代DeepSeek-Prover-V1.5,V2在参数规模上显著提升,从7B增至671B,预示着巨大的性能提升潜力。该模型经过在DeepSeekMath-Base上预训练,并在形式化数学语言上进行监督微调,同时利用基于证明辅助反馈的强化学习进行进一步优化。

Sam Altman在社交平台X上宣布,由于发现GPT-4o存在“过于谄媚”的问题,将于周一晚上开始对其最新更新进行回滚。目前,免费用户已实现100%回滚,而付费用户也将在完成回滚后进行更新。此外,团队正在对模型个性进行进一步修复,并计划在未来几天分享更多信息。OpenAI随即发表博客,详细解释了事件经过及其应对模型“拍马屁”现象的措施。

5月1日,Qwen团队宣布推出全新型号Qwen2.5-Omni-3B,这是一款为适应开发者需求而设计的轻量级多模态模型。相比此前的Qwen2.5-Omni-7B,3B版本在处理长上下文序列时的显存消耗减少超过50%,能够在普通24GB消费级GPU上支持长达30秒的音视频交互。同时,Qwen2.5-Omni-3B保留了7B模型90%以上的多模态理解能力,其语音输出的自然度和稳定性与7B版本保持一致。目前,该模型已在魔搭社区和Hugging Face上开源。

NotebookLM最新版本的音频概览(播客生成)功能现已支持中文,并宣布手机端App预计于5月20日推出。

issue119 2025.5.5-5.11

Suno发布了全新版本v4.5,为AI音乐创作带来重大升级。新版本支持更多音乐风格和智能风格混搭,增强了人声表现力和情感表达能力,呈现出更复杂的音色和细节。同时,提示理解能力显著提升,并新增“提示增强助手”功能,帮助用户更精确地构建创作提示。此外,翻唱和角色功能的强化,提供了更具沉浸感的个性化音乐体验。音质全面提升,单曲生成长度最长可达8分钟,让AI音乐进入“可听、可用、可分享”的新阶段。

微软发布了Phi-4-Reasoning,展现了小模型在复杂推理中的新潜力。通过独特的多阶段训练方法,这款仅有3.8亿参数的Phi-4-Mini在数学、科学等高难度任务中具备了接近大模型的推理能力,推动了“小体量大脑袋”的概念。相较于动辄数十亿参数的大模型,Phi-4-Reasoning在边缘计算设备、移动端及企业本地系统等低资源环境中更具适应性,响应更快且部署更灵活。在AIME 2025等推理基准测试中,它的表现超越了Llama-70B和DeepSeek-R1,甚至在某些任务中胜过671B级别模型。

5月6日,Gemini 2.5 Pro更新0506版本(I/O Preview),提升了编码能力,尤其在前端Web开发、编辑和转换方面表现显著改进。此外,针对用户反馈的问题,相关函数调用已得到修复,系统的可靠性也有所增强。

5月7日,腾讯元宝的文生图功能迎来升级,新增了混元和DeepSeek模型的图像生成能力。用户只需输入一句话指令,系统便能自动扩写为更完整的提示词,生成高质量、富有想象力的图像。这项功能已在全平台上线,支持多种风格的创作,如童年漫画风格、莫奈风格等。此外,用户可生成饮食宣传图、产品设计图等,图文一致性和画质进一步提升。

5月8日,Figma在Config2025上宣布推出多个新功能,其中Figma Sites是一款全新的全能工具,旨在让用户能设计和构建定制的响应式网站,而无需切换工具。此功能旨在简化网站设计流程,提供一站式解决方案,提升用户体验。

5月9日,腾讯混元宣布正式推出并开源全新的多模态定制化视频生成工具HunyuanCustom。该模型基于混元视频生成大模型(HunyuanVideo)打造,主体一致性效果超过现有的开源方案。HunyuanCustom融合了文本、图像、音频、视频等多模态输入生视频的能力,是一款具备高度控制力和生成质量的智能视频创作工具。

5月9日,腾讯元宝现已支持对话分组,用户跟元宝的每一条对话,都可以根据不同主题、类型、任务,做“文件夹”式分组归类,方便集中管理大批量对话,快速定位查找。在每个单独分组中,用户还可设定“独立指令”,定制元宝在该分组中的回答方式和风格。

Anthropic宣布推出Claude的新网络搜索功能API,显著提升Claude在信息获取方面的能力。开发者可以通过API使Claude访问最新的网络信息,进行多次渐进式搜索,整合不同来源的信息,从而提供更全面的答案。

Cursor已更新至0.50.x版本。此次更新主要包括简化定价和增强功能,如推出统一的基于请求的定价和Max模式,支持并行任务的后台代理。此外,改进了上下文管理,支持@folders功能,加快文件编辑速度,增强了聊天功能(支持导出和复制),并使用本地终端仿真替代模拟终端。同时,新增了上下文状态图标,可显示文件的包含情况。

Google AI Mode在Labs的推出受到了广泛欢迎,现已取消等待名单,所有美国用户可立即使用。该模式允许用户提出更复杂和具体的问题,帮助他们找到新的网站和商业信息。接下来,该模式将增加视觉产品和地点卡片功能,用户可快速获取评分、评论、营业时间等信息,及实时产品价格和库存。例如,寻找复古家具商店时,AI Mode将提供相关商家的实时数据,便于用户作出决策并轻松获取联系方式或导航。

issue120 2025.5.12-5.18

谷歌宣布开发者现在可以通过Gemini API接入其最新图像生成模型Imagen 3。最初该模型仅面向付费用户,未来也将向免费用户开放。Imagen 3擅长生成丰富多样且无伪影的图像,包括超现实主义、印象派和动漫等风格,能够高效将创意转化为高质量图像。在各项基准测试中表现卓越。使用Gemini API调用Imagen 3的费用为每张图像0.03美元,用户可自定义图像的宽高比及生成数量等参数。

QwenChat推出网页开发功能,用户只需一句自然语言指令即可自动生成美观且结构清晰的网站页面,无需编写代码或设计。输入示例如“写一个水果电商网站”,QwenChat会即时生成完整的网页代码并支持直接预览。此外,该功能还可用于创建播放器、单词记忆卡等多种应用。用户可以通过QwenChat(chat.qwen.ai)体验这一便捷的网页开发服务。

VS Code正式发布新版本1.100,带来多项增强功能,显著提升开发者的编程体验。此次更新的亮点包括:增强的智能Chat功能,支持自定义指令和可重用提示;改善的多窗口和浮动窗口设置,提升编辑效率;MCP服务器新增图像及可流式传播的HTTP支持;以及Github Copilot的集成增强。

字节跳动开源了基于节点的流程构建引擎FlowGram,该引擎已在Coze和飞书工作流等产品中应用。FlowGram结合节点式设计与AI增强功能,提供直观的可视化工作流构建体验,支持固定和自由布局,允许用户轻松拖拽和连接节点。新的工具利用AI自动化任务,适合需要明确输入输出的工作流场景。其核心功能包括AI能力接入、丰富的交互体验(如节点配置、状态高亮)及强大的扩展性,旨在简化工作流开发,提升自动化能力。

5月12日,Perplexity.ai发布了一款AI浏览器Comet,并正式开启内测。用户可以通过访问https://www.perplexity.ai/comet申请内测资格。Comet旨在结合AI技术提升浏览体验。

5月12日,Lovart.ai正式发布,被称为首款设计AI Agent,表现出色并获得多位KOL分享体验。其官网简洁明了,定位为“Auto-Design —— The design agent who creates by your side”。用户通过自然语言与其交互,它能准确理解意图并生成高质量设计作品,如Logo、VI等。Lovart利用多种外部大模型(如GPT-Image-1)进行任务处理,在灵感不足时还会自动搜索相关设计作为参考。

5月13日,OpenAI宣布为ChatGPT添加了SharePoint和Microsoft OneDrive作为新的数据连接器。这些新功能将使用户能够更方便地访问和利用存储在这些平台上的文件和数据,从而进行更深入的研究。目前对Plus、Pro和Team订阅用户开放,但不包括欧洲经济区(EEA)、瑞士和英国的用户。另外,Deep Research还支持将研究报告下载为精美的PDF文档。

5月13日,通义千问的Qwen团队宣布推出“Deep Research”(深入研究),旨在帮助用户高效处理复杂的科研任务。用户只需输入一句提示,系统将自动分析并制定多步骤研究计划,从互联网上搜索、分析信息,最终生成详尽的研究报告,包括完整的引用来源。Deep Research的推出标志着Qwen在AI助理领域的新进展,适用于多种情境,如市场分析、教育咨询等。该功能已在QwenChat上免费开放,用户可以立刻体验。

5月14日,阿里巴巴开源通义万相Wan2.1-VACE(Video All-in-one Creation and Editing model)模型,Wan2.1-VACE是一款融合多种视频生成与编辑能力的AI模型,标志着该技术的重大突破。Wan2.1-VACE具备六大核心功能:通过文本生成视频、图像参考生成、视频重绘、局部编辑、背景延展和时长延展,支持用户灵活组合多项功能。该模型还支持多模态输入,包括文本、图像和视频等,使用户可以精确控制视频的布局、运动和风格,为创新的视频制作提供了无限可能。

5月15日,GPT-4.1 系列模型官宣上线ChatGPT,Plus、Pro 和 Team 用户可直接使用 GPT-4.1 模型,免费用户可使用 GPT-4.1-mini,以替代以前的 GPT-4o-mini。

5月16日,Manus宣布推出图像生成功能。据介绍,Manus不仅是生成图像,它了解用户的意图,规划解决方案,并知道如何有效地使用图像生成和其他工具来完成用户的任务。例如,上传家居照片,它能识别风格并从宜家自动搭配合适家具;上传产品图,它能基于市场趋势设计品牌、制定上市方案、生成商品页和销售网站。

5月16日消息,MiniMax发布新一代语音大模型Speech-02。该模型在两项国际权威语音评测榜单Artificial Analysis和Hugging Face TTS Arena 上,超越OpenAI、ElevenLabs的TTS模型。

5月16日,腾讯发布了全新的实时图片生成模型Hunyuan Image2.0,该模型以超高压缩倍率的图像编解码器和全新的扩散架构为基础,具备超快的推理速度和高质量的图像生成能力。用户在输入提示时,Hunyuan Image2.0可在毫秒内生成3-4张图片,甚至在Prompt输入完成的瞬间即可输出最终图像,创造了实时生图的全新体验。此外,Hunyuan Image2.0通过RL后训练和美学后训练,确保生成图像具有真实感,消除AI常见的虚假感,尤其在怀旧风格和胶片效果上表现出色。

Google发布了全新的AI编码Agent,AlphaEvolve,该Agent具备算法优化和科学发现的能力。AlphaEvolve能够自动编写、测试和改进代码,支持整段程序级别的优化。其独特之处在于可以根据问题的复杂性灵活切换策略,采用搜索或构造方法高效求解。

5月17日,OpenAI推出了基于云的智能软件工程Agent——Codex的预览版。Codex能够并行处理多项任务,包括编程、解答代码库问题、修复错误以及提交拉取请求等。该智能体由codex-1模型支持,为针对软件工程优化的版本。目前,Codex面向ChatGPT Pro、Team和Enterprise用户上线,Plus用户也将很快获得访问权限。此外,OpenAI还发布了codex-1的精简版,基于o4-mini,为轻量级开源编码Agent“Codex CLI”设计,API定价为1.5美元/100万 tokens输入与6美元/100万 tokens输出,并提供即时缓存折扣。

5月17日,纳米AI上线了一个全新的功能——“超级搜索”。该功能不仅打破了传统的数据界限,能够搜索小红书、大众点评、地图、B站、腾讯视频、PDF等多种格式,还融合了多模态能力。超级搜索旨在提供结果而非单纯的答案,通过整合MCP工具,能够深入理解用户意图。

5月17日,开源大语言模型服务工具Ollama推出了自主研发的多模态AI引擎,脱离了对llama.cpp框架的直接依赖。近期,llama.cpp项目通过libmtmd库实现了全面的视觉支持,引发社区讨论。Ollama团队在Hacker News上澄清称,该引擎是使用Golang独立开发,并未采纳llama.cpp的C++实现。Ollama表示,随着Meta的Llama 4、Google的Gemma 3等模型复杂性不断上升,现有架构已难以满足需求。

5月17日,Flowith在上海举行了闭门活动,正式推出其全新AI Agent产品——Neo,强调其在知识创造和AI应用领域的突破。Neo具备“无限上下文”和“无限能动性”,能够处理超长的上下文信息,动态生成和调用工具,甚至自主规划复杂任务。它的强大知识整合能力让它能够处理多来源的信息,并生成高质量的文本、图像和代码。此外,Neo还有自我反思与迭代能力,能够分析并调整策略以应对失败,使其在长期任务中表现得更加智能可靠。Neo支持长期任务的执行,例如可以设置长达一年的任务计划,并且能够定期更新任务进度和结果。这种能力使得Neo可以用于长期的项目管理和信息跟踪,例如为用户提供每日更新的行业动态、社交媒体内容创作等。

issue121 2025.5.19-5.25

本周有微软Build、Google I/O、Code with Claude等多个活动,各家都带来了重磅的发布。

5月19日,字节跳动Seed团队公开了以模型为中心的代码预训练数据构建流水线(Model-centric Data Pipeline),验证了利用大型语言模型(LLM)对代码数据进行评分和过滤的有效性。这一方法不仅提升了语言模型的潜力,减少了人工干预,还增强了模型在代码相关任务上的表现。经过实验,基于该流水线训练的8B代码模型系列Seed-Coder在代码生成和补全等任务中取得了良好效果。为推动相关领域的发展,Seed团队将Seed-Coder系列开源,并分享了其预训练数据构建的详细方案。

5月19日,微软 VS Code团队宣布将GitHub Copilot Chat扩展代码以MIT协议开源,并重构AI功能至编辑器核心,正式向”开源AI编辑器”转型。大语言模型迭代降低闭源依赖,统一AI交互UI标准,响应数据隐私需求,依托开源社区强化安全防御。未来几周内完成代码开源与组件重构,同步开源提示测试基础设施,确保社区贡献高效验证,持续聚焦性能、扩展性与用户体验。此举被视为AI编码工具领域的”开源宣言”,或引发行业对编辑器AI化、透明化的新一轮竞争。

GitHub Copilot新版将帮助开发者执行日常任务,如重构代码、提升测试覆盖率、修复漏洞甚至实现新功能。现在,GitHub Copilot可在夜间自动发现内存泄漏问题,生成诊断报告,并将修复任务分派给Copilot。最终,Copilot会完成代码修复、提交PR,让开发者睡个踏实觉。微软CEO纳德拉现场演示,当想使用Copilot为社区页面添加筛选器,它不仅能够准确理解指令,还会主动提出优化建议,比如增加小、中、大的筛选项,或按照类别进行分组分类。

微软在Build 2025开发者大会上推出多项关键更新,其中备受关注的是原生支持模型上下文协议(MCP)。MCP可视为”AI应用的USB-C端口”,统一AI模型获取信息和使用工具的”数字连接”,让各种不同的AI应用或智能Agent更方便地接入Windows生态,从而调用系统资源、访问文件、高效通信。为加快生态建设,微软已与OpenAI、Anthropic、Perplexity、Figma等开发者展开合作,将MCP能力逐步集成进更多应用程序中。

微软还推出了名为NLWeb的开源项目,旨在简化网站自然语言交互界面开发,轻松将任意网站转化为具备AI功能的智能应用平台。微软CEO Satya Nadella表示:”NLWeb允许用户使用自然语言与任何网站进行交互。我们可以把它想象成智能体化web世界的HTML。”由于NLWeb原生支持MCP,因此人类和智能体可以使用相同的自然语言API。相比传统搜索,NLWeb更便宜且使用简便,仅需几行代码、任选AI模型,并输入特定数据,即可为用户提供对话式交互界面。

5月19日,腾讯发布AI浏览器,这是一款基于AI技术的全新浏览器产品,旨在提供更智能、更个性化的网络浏览体验。该浏览器集成了腾讯混元大模型的能力,能够理解用户意图,提供智能搜索、内容摘要、智能翻译等功能,大幅提升用户的信息获取效率。同时,AI浏览器还支持跨平台使用,无论是PC端还是移动端都能获得一致的体验。

腾讯混元游戏视觉生成平台(简称”混元游戏”)正式发布,这是依托混元大模型打造的首个工业级AIGC游戏内容生产引擎,大幅优化了游戏资产生成与游戏制作流程。面向游戏工业级内容生产,混元游戏可以为游戏美术设计师提供一系列AI工具,帮助游戏设计厂商快速生成符合创作意图的高质量游戏素材/概念草案,让游戏美术设计效率提升数十倍。基于跨领域采集的百万级游戏与动漫视频多模态精品数据集,混元游戏创新性地构建了多个核心算法模型矩阵,每个模型均针对游戏研发中的关键痛点进行专项优化。

5月20日,Google在I/O 2025大会上发布Gemini 2.5系列模型重大升级,引入高阶推理模式Deep Think,推理深度与上下文理解显著增强。支持原生音频交互与多语言语音生成,实现自然语音对话。Gemini 2.5 Pro的Deep Think在2025年美国数学奥林匹克(USAMO)以及LiveCodeBench(编程基准)排名领先,并在MMMU(测试多模态推理)中获得了84.0%的分数。同样得到升级的还有注重效率的Gemini 2.5 Flash,在推理、多模态、代码和长上下文等关键基准上都有了改进,同时在效率上更高,评估中使用的tokens减少了20%至30%。Google还展示了Project Mariner,具备电脑操作能力,AI可直接控制桌面执行任务。

Google发布最新的视频生成模型Veo 3,是一款支持音频的视频生成模型,能在城市街景中模拟交通、鸟鸣,甚至角色对话,显著提升沉浸感。该模型不仅在文本和图像提示的基础上生成视频,还能精确实现物理环境与口型同步,极大提升了视频创作的真实感。

Google发布AI电影创作平台Flow,Flow平台由Veo 3、Imagen 4、Lyria 2与Gemini驱动,支持用自然语言创作电影级画面。超越传统视频生成工具,Flow可理解故事逻辑、镜头语言与视觉风格,真正服务于叙事创作,具备可控镜头、剪辑、角色统一等电影工业级能力,助力专业创作者高效构建作品。

Google AI Ultra全功能旗舰订阅计划上线,月费$250美元,为创作者、开发者、研究者量身打造。提供对Gemini 2.5 Pro、Veo 3等顶级模型的完整与早期访问权限,集成视频生成、写作辅助、内容创作、云存储、YouTube Premium等全线AI与服务资源。

Google Search正式切换至AI Mode,迈入智能搜索时代。搭载Gemini 2.5,赋予搜索更强的推理、互动、个性化分析与任务处理能力。不再只是信息检索,而是实时理解+主动响应+智能执行的新型搜索助手。AI Mode已在美国全面上线,无需Labs即可使用。后续功能如Deep Search、Search Live、智能代理将陆续开放,Labs用户优先体验。可在Google App或搜索页面直接切换”AI Mode”标签。

Google推出编程智能体Jules,这是一位可在云端运行的虚拟开发搭档,远超传统代码助手。它不仅给建议,更可自主完成项目任务、管理流程、执行开发计划,标志着”Agentic Development(代理式开发)”从实验迈向落地实用。Google还推出全新AI UI设计工具Stitch,一句话生成完整UI+前端代码,大幅加速产品开发流程。基于Gemini与Imagen模型,支持内容生成+视觉设计个性化,支持多语言本地化、一键导出干净代码,实现从草图到部署的全链路自动化。

Google发布全新的AI UI设计工具——Stitch,能够通过一句话快速生成完整的用户界面和前端代码,从而显著加速产品开发流程。Stitch基于Gemini和Imagen模型,不仅支持内容生成,还提供视觉设计个性化选项。此外,该工具具备多语言本地化功能,并且允许用户一键导出干净的代码,实现从草图到部署的全链路自动化,推动UI设计的智能化进程。

Google发布Gemini in Chrome,将AI直接内置于浏览器中。无需切换标签页,点击Gemini图标即可获取网页摘要、解释复杂概念、对网页内容提问等。未来还将支持同时分析多个标签,并能根据用户指令自动浏览和操作网站。目前仅对Google AI Pro和Ultra的英文订阅用户开放。

Google发布轻量级多模态AI模型Gemma 3n,响应速度提升约1.5倍,2GB内存手机也能运行。支持文本、图像、音频,视频模态即将上线。为移动设备量身打造,是下一代Gemini Nano系列的技术基础。Google还展示Android XR智能眼镜原型机,支持实时语音交互+长时记忆+上下文感知辅助,利用摄像头+麦克风+地理信息,理解用户所处场景并提供建议。无需唤醒词,随时对话,具备导航、翻译、拍照、查资料等多种实时辅助能力,深度融合Gemini,实现真正意义上的视觉AI助手,让智能眼镜成为个人信息中枢。

Google推出实验产品Sparkify,文本一键生成动画短视频。基于Gemini和Veo模型,将问题或创意转化为可视化短动画,支持多模态输入,结合文本、图像、视频生成个性化内容。

Google推出虚拟试衣工具,上传自拍照,几秒内生成穿上商品的真实试衣图。基于全新图像生成模型,专为时尚领域打造,利用全球500亿商品数据,支持比价、搜索、推荐、自动支付等完整购物流程,从试穿、选品到下单一气呵成,AI成为用户的时尚搭配顾问与购物助手。

5月20日,火山引擎正式推出豆包·语音播客模型,作为豆包大模型语音语言技术的重大场景化升级成果,该模型基于流式模型构建,实现了从文本创作到双人对话式播客的秒级转化,为用户带来”低成本、高时效、强互动”的全新创作体验。无需复杂剪辑,热点内容就能瞬间转化为生动播客,让创意落地快人一步。该模型针对传统AI播客创作存在的内容重复废话连篇、不够口语化、听感机械且缺乏互动等问题进行了重点攻克,带来了双人对话自然流畅、播客创作高效快捷、时事热点跟随三大核心优势。

5月20日,海螺MiniMax悄悄开启智能体测试,无需广告、邀请码。该智能体支持视频生成、语音配音、游戏开发等多种功能。用户可通过自然语言输入,系统会自动规划任务、生成代码并执行。还支持网页游戏开发和地图信息生成,体验地址为https://agent.minimax.io/ ,需使用Google邮箱注册。

5月21日,飞书发布最新AI功能飞书知识问答,它是基于企业知识的企业专属AI问答工具,提供B端场景的AI价值。当用户在工作中遇到问题时,可随时向它提问,它能访问所有消息、文档、知识库、文件等信息,直接给出精准答案。飞书知识问答是一个可以将企业和个人信息聚合到一起,并理解这些信息的AI工具,能基于所有在用户飞书消息、文档、知识库、妙记、服务台中的文件和文字信息进行深度理解,然后为用户提供相当准确的相关反馈。

5月23日,Anthropic 发布 Claude 4 系列模型,包括 Opus 4 和 Sonnet 4,在编程能力上实现重大突破,例如在 SWE-bench 测试中表现出色,能处理复杂代码库和长时间编程任务。新模型引入“工具辅助的延伸思考”、增强的记忆能力和编程助手 Claude Code,以及 API 和 MCP 接入更新。Claude 4 具备替代人类程序员的条件,目标是普及 Agents,最终实现 AGI。Opus 4 在代码生成与理解、纠错、架构建议和记忆能力方面显著提升。Claude Code 正式发布并深度集成,实现 AI 独立完成复杂任务。

天工超级智能体——Skywork Super Agents正式发布,无需邀请码,注册即可使用。Skywork在GAIA评测中超越genspark、manus和openai deep research,登顶榜首。支持多种模态任务,能一站式生成Word文档、PPT演示文稿、Excel表格图表、Web网页等,所有产出均自带精准溯源,能标记到文档内容来源材料的原始位置。Skywork内置docs、sheets、slides,可直接在虚拟环境里生成Excel、PPT和Word文档并操作,支持”交互确认+在线编辑+多版本自动存储+多格式导出”功能。在表格生成模式下,还能让AI生成数据表格和图表。

Mistral与开源初创公司All Hands AI合作,推出了一款名为Devstral的新型开源语言模型。Devstral拥有2400万参数,虽然相较于许多竞争对手的模型参数较少,但其专为编程而设计,表现优异,适用于代码浏览、多文件编辑和自动化测试等任务。此模型通过Apache 2.0许可证开放使用,旨在为开发者提供更加高效的工具,加速编程工作。

Suno上线Remix混音功能,开启音乐二创新纪元。三种模式支持:Cover(翻唱)、Extend(续写)、Reuse Prompt(提示词复用),每首Remix保留溯源链,创作关系透明可查。

xAI推出实时搜索API:Live Search,实时搜索X平台、互联网和新闻等多数据源,当前为免费Beta阶段。

NVIDIA在COMPUTEX2025上推出Project R2X,一款基于RTX平台的AI数字人助手,能够在本地运行并具有人类般的外观与语音交互能力。该项目结合了RTX Neural Faces、Audio2Face和ACE 2.4技术,实现了逼真的视觉和语音互动。R2X支持文件扫描、设置优化、游戏模组管理等多项功能,并可通过语音与用户互动。同时,它兼容OpenAI的GPT-4o和xAI的Grok模型,支持Python自定义开发。用户还可以根据个人喜好定制助手的外观、声音和性格。

issue122 2025.5.26-6.1

OpenAI宣布扩展其Responses API,以支持远程连接MCP服务器、图像生成、Code Interpreter及优化文件搜索等功能,旨在帮助开发者构建更智能的应用。Responses API是OpenAI提供的状态化API,允许开发者以更灵活的方式与模型互动,并支持多种新工具。此次扩展中,开发者可以简便地通过几行代码连接Cloudflare、HubSpot、Stripe等MCP服务器,全面支持GPT-4o和GPT-4.1系列推理模型。这一改进将显著提升用户访问数据源的便捷性。

Black Forest Labs推出FLUX.1 Kontext,一款新一代多模态图像生成与编辑模型,具有与GPT-4o相当的图像处理能力。这款模型结合了Photoshop和GPT的操作体验,实现了自然的图文混合控制,提供高效灵活的图像操作方式。FLUX.1 Kontext的发布标志着图像生成技术的又一重大进展,旨在为用户提供更加直观和强大的创作工具。

字节跳动发布图像创作Agent“小云雀AI”,旨在提供类似Lovart的智能创作体验。用户只需一句话即可生成图片和热门视频,实现灵感的快速转化。小云雀AI具备主动思考、智能执行和快速交付的能力,为创作者提供了一种便捷而高效的工具,将创意轻松变为现实。

腾讯发布了混元开源项目HunyuanVideo-Avatar,该项目允许用户仅通过一张人物图像和一段音频,便可生成自然生动的虚拟人动画视频。HunyuanVideo-Avatar还支持多个角色在同一场景中各自响应不同音频,从而实现“群像对话”效果。这项技术不仅提升了虚拟人创作的便捷性与灵活性,更为内容制作提供了全新的可能性,推动了虚拟技术的应用进程。

Claude推出了全新语音助手,增强了智能助理的实用性。该助手支持访问用户的日历、Gmail、Google Drive等个人信息源,方便用户管理日常事务。此外,它还具备联网搜索功能,能够根据搜索结果提供智能回答。此项功能的推出不仅提高了个人信息管理的效率,也扩展了用户与智能助手之间的互动方式,为智能生活增添了更多可能。

5月28日,Anthropic宣布,其AI助手Claude的网页搜索功能现已向免费计划用户全面开放。 此前,该功能仅限美国付费用户使用,此次更新标志着Claude在全球范围内的功能普惠。

5月28日,DeepSeek官方宣布R1模型完成了小版本试升级,用户可通过官方网站、APP和小程序进行体验。社区用户的测试表明,R1在编程能力上显著增强,其在生成动态天气卡片时表现出色,设计细节与交互动画明显改善。这次更新基于DeepSeek-V3-0324进行后训练,参数达到685B,标志着DeepSeek在编程能力上可以与新发布的Claude 4一较高下。

5月30日,DeepSeek团队推出了全新模型DeepSeek-R1-0528-Qwen3-8B,该模型通过蒸馏DeepSeek-R1-0528的思维链后训练Qwen3 8B Base,表现出色。在AIME 2024上,该模型已达开源模型中的最先进水平(SOTA),相较于Qwen3 8B提升了10%。此外,它的性能表现已匹配更大规模的Qwen3-235B-thinking,显示出DeepSeek-R1-0528思维链在推理模型研究及小规模模型开发中的重要性。

5月29日,腾讯元宝宣布与微信读书和起点读书实现了打通,用户在使用腾讯元宝时可通过下划线链接直接跳转到这两个阅读平台。在进行书籍、作者或关键词搜索时,结果页面将新增相关入口,使用户无需跳转至其他应用或者网页,就能在元宝界面内直接阅读书籍。这一升级旨在提升用户的阅读体验和便利性,进一步整合腾讯的多项服务。

5月28日,Opera公司发布了其首款“AI代理”浏览器—Opera Neon,该浏览器深度整合了人工智能技术,旨在重新定义浏览器在网络中的角色。Opera Neon具备上下文感知能力,可以理解用户的意图,自动化执行多项任务,包括代码编写和网站创建。此外,其AI引擎支持离线多任务处理,并为用户提供个性化的浏览体验。

昆仑万维开源了全球首个基于自回归强制扩散框架的无限时长电影生成模型SkyReels-V2。该模型能够理论上无限制地生成视频,包含三种子模型:SkyReels-V2-I2V(图片生成视频),SkyReels-V2-T2V(文本生成视频)和SkyReels-V2-DF(扩散引导模型)。特别是SkyReels-V2-DF突破了传统视频生成模型时长的限制,提供了1.3B和14B两种参数选项。

5月29日,快手可灵AI宣布推出全新的2.1系列模型,旨在提高视频生成的性价比与效率。新模型支持720p和1080p画质,其中5秒视频的生成成本分别为20灵感值和35灵感值,极具吸引力。升级后的2.1大师版在语义响应和运动表现方面有显著提升,能够迅速生成高品质内容,满足更高端的创作需求。

小米开源了其全新多模态模型Xiaomi MiMo-VL-7B,展示了在图像、视频和语言等任务上的卓越表现,该模型在多模态推理任务中以仅7B参数规模大幅超越标杆模型Qwen2.5-VL-7B。此外,MiMo-VL-7B在多个数学竞赛中表现出色,领先于参数达到72B的阿里Qwen-2.5-VL和QVQ-72B-Preview,甚至在小米内部大模型竞技场中超越了闭源模型GPT-4o,成为开源模型中的领军者。

Google悄然发布了一款应用程序,让用户可以在手机上运行来自 Hugging Face 的一系列公开 AI 模型。这款名为Google AI Edge Gallery 的应用目前适用于 Android 系统,并将很快登陆 iOS 系统。

issue123 2025.6.2-6.8

6月2日,微软面向Windows 11 24H2用户推出更新,用户现在可以在运行Windows 11 Build 26100.4202+的设备上,通过自定义键盘上的Copilot键或Win+C组合键,可选择将其默认设置为唤起ChatGPT。不过,目前该自定义选项相对有限,仅支持Copilot、ChatGPT和Microsoft 365 Copilot,无法绑定到其他应用程序。

Cursor正式发布了1.0版本,带来了诸多功能更新。其中,Bugbot功能能够自动检查并一键修复GitHub中的代码缺陷。此外,Beta版的记忆(Memories)功能使Cursor能够从用户的交互中学习代码库的规律,提升团队协作效率。MCP插件实现了一键安装,方便用户扩展功能。后台智能体(Background Agent)现已上线,支持Slack集成并新增Jupyter Notebooks支持,旨在服务研究人员和数据科学家。同时,Cursor还增强了并行编辑、聊天互动及管理界面。

6月4日,OpenAI宣布其ChatGPT应用的最新更新:记录模式。更新后,Mac版ChatGPT应用中新增了“录音”按钮,用户点击后可录制音频并实时转录。转录内容将被整理为结构化笔记,包括摘要、关键点等。这一功能的创新之处在于其不需参与会议,只需通过设备监听生成笔记。此外,OpenAI还推出了对多种云存储服务的集成功能,支持Google Drive、Dropbox等平台。

6月5日,Qwen正式推出Qwen3-Embedding与Qwen3-Reranker系列,多语言文本嵌入模型和相关性重排模型。该系列提供0.6B、4B和8B等多个版本,支持119种语言,并在MMTEB、MTEB和MTEB-Code上 achieved SOTA级别。同时,这些模型已在Hugging Face、GitHub和ModelScope上开源,并可通过阿里云百炼平台的API使用。此系列可应用于文档检索、RAG、分类、情感分析、代码搜索等多种场景,用于替代上一代嵌入和重排模型。

6月5日,Google发布Gemini-2.5-Pro(06-05)模型,并在AI Studio中上线,再次在各项竞技中夺得第一名。该模型在文本、视觉和Web开发领域均位列首位,并在困难、编码、数学、创意、多轮对话、指令遵循和长查询等多个类别中取得优异成绩。

ElevenLabs正式发布最新文本转语音模型Eleven v3(Alpha版),被誉为迄今最具表现力的AI语音模型。该模型在语音合成的自然度和情感表达能力上实现了革命性提升,支持70多种语言,并处理多角色对话,模拟真实交谈中的语气变化和情感起伏。此外,新增的音频标签功能,如[sad]、[angry]或[laughs],使用户可精确控制语音的情感表达,为内容创作者提供了极大的灵活性,特别适用于电影配音和音频书制作。

即梦的“图片3.0”再度重磅更新,带来了智能参考功能,允许用户一键垫图。此功能不仅能高效处理设计师的参考图,还具备强大的图像变换能力,比如将北京的字体设计轻松转换为上海风格。用户只需上传图像并简单指示,如“变成上海”,AI便会自动调整地标和设计元素,展现出惊人的细节。这次更新为普通用户和设计师提供了前所未有的便利。

6月6日,字节跳动的Seed团队发布了图像编辑模型SeedEdit 3.0,目前已在即梦网页端进行测试,并将于豆包App上线。新版本基于Seedream 3.0,通过多样化数据融合和特定奖惩机制,显著提升图像主体、背景及细节的保持能力,尤其在人像编辑和背景更改方面表现突出。SeedEdit 3.0可以处理生成4K图像,精确识别并去除不必要的元素,例如场景内的行人及其影子。此外,模型在光影变化和细节处理上也展现出高级的渲染能力,进一步提高了图片编辑的实用性。

issue124 2025.6.9-6.15

6月11日,OpenAI正式发布了其最新模型o3-pro,现已在ChatGPT Pro和Team账户中开放,企业用户预计将在6月17日获得访问权限。作为o3系列的高阶版本,o3-pro专为复杂的科学、数学和编程问题优化,具备超高可靠性和显著的学术性能,特别在基准测试中比前代模型o1-pro和标准版o3表现更佳,误差率下降37%。此外,o3-pro支持多种专业工具的深度整合,包括实时网页检索和代码执行。另一方面,该模型的响应时间较长,约为o1-pro的2.8倍,且API调用成本为o3的2.3倍。

6月11日,法国人工智能公司Mistral推出了其首个推理模型系列Magistral,旨在与OpenAI和DeepSeek等竞争对手展开竞争。该模型专注于欧洲语言逻辑推理,尤其擅长数学和编码方面的问题。Magistral包括两个版本,通过逐步推理的方法提高在数学和物理等主题上的一致性和可靠性。Mistral的CEO亚瑟·门施表示,Magistral将助力欧洲在人工智能领域追赶全球领先者。

6月11日,在火山引擎Force原动力大会上,豆包大模型正式升级至1.6版本,提升了其推理、数学、指令遵循和Agent等多项能力。豆包1.6-thinking模型在多个权威测评集上达到全球第一梯队水平:GPQA Diamond测试成绩达到81.5分;数学测评AIME25成绩达到86.3分,相比豆包1.5深度思考模型大幅提升12.3分。豆包大模型1.6系列均支持深度思考、多模态理解、256k长上下文、图形界面操作等能力,能够更好地支持复杂Agent的构建,促进AI生产力的提升。目前,豆包大模型1.6系列已在火山引擎上线,企业和开发者可调用API体验。

6月11日,在火山引擎Force原动力大会上,Seedance 1.0 pro视频生成模型正式发布。该模型支持文字和图片输入,能够生成多镜头无缝切换的1080p高质量视频。Seedance 1.0 pro专注于满足影视创作者的需求,特别是在指令遵循、运动稳定性和画面质量等方面。同时,模型在动态图像生成及推理速度上表现出色,现已在火山引擎、豆包App和即梦AI等平台对外开放。此外,会议还发布了新的豆包·语音播客模型,文本秒转双人对话播客,从测试效果看,附和、插话都表现得非常自然。

Figma推出了官方的MCP服务,旨在简化设计与代码之间的交互。该服务采用SSE连接,免除用户繁琐的配置。与非官方的MCP相比,官方版本能够获取更多详细的设计信息和素材。该MCP可以传输组件、变量、样式等元数据,减少大型语言模型(LLM)的搜索与推理负担,提高代码生成的准确性与效率。此外,它还提供高层次的设计截图,帮助LLM理解网页结构与响应式布局。

Windsurf推出了一款嵌入AI的浏览器,旨在提升开发者的工作效率。该浏览器能够自动感知用户在浏览器中的操作和上下文,简化信息流通,弥补在查阅文档和调试过程中的信息断层。Windsurf强调“流意识”,使AI与用户共享操作时间线,彼此了解每一步操作。浏览器的特色功能包括全流程协同,AI可以访问所有打开的标签页,自动获取页面内容、日志和DOM信息,实现与编辑器及终端的无缝对接。此外,作为Chromium分支,Windsurf保持了常规浏览器的所有功能,开发者能够像使用普通浏览器一样进行操作。

ChatGPT Projects新增多项功能以增强用户体验。首先,平台引入了语音模式与文件上传,支持更丰富的交互方式。此外,新上线的记忆功能允许用户在项目中引用历史对话内容,提升了对话的一致性和连贯性。用户还可以轻松进行模型切换、项目转化,并生成独立分享链接,以便于协作和共享。另外,GPTs也正式支持了模型选择功能,支持选择所有在线的模型。

Imagen 4模型登陆Gemini网页版,用户可在Gemini聊天中通过最新的生图模型实时生成图像。

Manus宣布接入Veo3视频生成模型,并推出了一项全免费的AI聊天模式,用户可以无限制地使用该服务,只需不切换到Agent模型即可。这项功能使得用户在进行对话时可以自由获取答案,并在完成初步聊天后,选择切换到Agent模式继续执行任务,从而有效节省积分。

Genspark发布了一款全新的AI浏览器,官方声称该产品具备极速浏览、广告拦截、全能智能体以及自动驾驶模式等特点。此外,浏览器还提供了MCP商店,为用户带来更多智能功能和应用选择。

周鸿祎在纳米AI超级智能体的发布会上透露了纳米AI Note,这款AI智能录音硬件能够与个人知识库联接,适用于工作会议、商务拜访等多个高频场景。此外,纳米AI还与Rokid推出联名款AI眼镜,扩展了纳米AI在智能穿戴领域的应用。

美团发布了其首款AI编程工具”NoCode”,这是一款对话式AI编码智能体。用户可以通过自然语言与该工具进行多轮交互,实现自动编码和部署,适用于网站、小程序等应用的开发,特别为零基础用户设计。NoCode集成了美团自研的LongCat模型,旨在简化编码流程,使用户能够轻松处理数据分析、原型设计等任务。

腾讯正式发布并全面开源了混元3D 2.1模型。该模型支持PBR物理渲染,能高精度还原真实材质,单张图生成3D模型仅需30秒。得益于其高效架构,用户在单张消费级GPU上即可完成部署和推理,极大降低了使用门槛,为游戏、动漫、电商等行业带来革命性的效率提升。

issue125 2025.6.16-6.22

6月17日,通义大模型团队宣布Qwen3全系模型已全面适配MLX框架,并推出32款量化模型,以满足AI开发者的需求。MLX是一个专为苹果芯片深度优化的开源机器学习框架,能高效训练和部署AI大模型。新发布的Qwen3模型提供4bit、6bit、8bit和BF16四种不同精度的量化版本,能在从Mac Pro、Mac Studio到Mac mini和MacBook等多种设备中轻松部署,甚至支持内存更小的iPhone。此举实现了全场景覆盖,兼顾性能和低功耗部署。

6月17日,月之暗面推出全新开源代码大模型Kimi-Dev-72B,该模型在软件工程任务的SWE-bench Verified编程基准测试中取得了全球最高的开源模型成绩,以72B参数量超越了参数量高达671B的DeepSeek-R1,得分60.4%,创下SOTA记录。Kimi-Dev-72B通过大规模强化学习优化,能自主修复Docker中的真实存储库,并确保解决方案的正确性与稳健性。该模型现已在Hugging Face和GitHub上开放下载,附带模型权重和源代码,技术报告也将推出。

6月17日,MiniMax发布了全球首个开源大规模混合架构的推理模型MiniMax-M1,参数规模为4560亿,其性能超越DeepSeek-R1。M1支持高达100万上下文输入和8万token推理输出,在复杂任务上表现卓越。模型训练使用了512块H800,成本约为385万元,远低于预期。MiniMax-M1在APP和Web上无限量免费使用,并推出了多档API定价,旨在为开发者提供更具性价比的选择。技术报告也已公开,进一步支持社区应用。

6月18日,MiniMax发布了新一代视频生成模型海螺02。海螺02能够实现复杂运动和逼真物理效果,适用于高难度杂技表演等多种场景。该模型新增加了1080p原生视频创作功能,支持在Web、APP及开放平台API中使用。通过噪声感知算力重分配架构(NCR),海螺02的训练和推理效率提升了2.5倍,迅速在视频生成市场占据了第二位。

6月18日,Google发布了Gemini 2.5系列的更新,包括Flash和Pro模型的正式上线,以及全新的Flash-Lite预览版。这一更新为用户提供了更广泛的选择,覆盖从高性价比到顶级性能的需求。Flash-Lite是最具成本效益的版本,适合高频任务,价格为输入$0.10/百万token,输出$0.40/百万token。Flash模型则是日常任务的理想选择,而Pro模型专为复杂任务设计,价格为输入$1.25/百万token,输出$10.00/百万token。所有版本现已在Google AI Studio上可用。

6月18日,Google在其Android和iOS应用中推出了“实时搜索”功能,支持语音输入,目前在美国对参与AI Mode内测的用户开放。用户现在可以与搜索进行自然流畅的对话,并探索来自网络的链接,非常适合在出行或多任务处理中使用,例如打包时。用户只需打开谷歌应用,点击新的“实时”图标,口头询问,例如:“有什么技巧可以防止亚麻裙在行李箱中皱起?”系统会提供AI生成的语音回应,用户也可以轻松跟进提问,比如:“如果还是皱了该怎么办?”屏幕上还会显示易于访问的链接,方便用户更深入地了解相关内容。

6月18日,腾讯发布AI歌唱模型LeVo,支持3秒音频克隆声音特征,在歌词对齐能力上超越Suno4.5,实现高保真音乐生成。

6月19日,Midjourney宣布正式推出其首个视频模型V1,用户可将生成的图像通过“Animate”功能转化为动画。此次更新支持自动和手动动画设定,并提供高、低动态模式以适应不同视觉需求。此外,用户还能上传外部图片进行动画生成,每段视频初始为5秒,可延长至20秒。该服务当前为网页端专属,生成成本约为图像的8倍,远低于行业平均,为实时模拟和3D互动系统铺路。

6月19日,MiniMax发布了其全新通用智能体产品——MiniMax Agent。该AI Agent具备卓越的长程复杂任务处理能力,设计初衷是成为“靠谱的数字员工”。MiniMax Agent的核心功能包括强大的编程能力、领先的多模态输出能力和开放的MCP生态,这使得它能高效理解复杂需求并完成多维任务。此外,MiniMax Agent采用分层协作架构和长程记忆机制,能够在多项长时间任务中自我反思和调整策略,展现了超强的交付能力,正在积极赋能“超级个体”。

6月19日,通义APP翻译功能全面升级,成为“最强翻译综合体”,覆盖文字、同传、文档、图片四大核心场景,支持119种语言和方言,准确率与交互体验大幅提升。同传翻译支持10大语种,不限时免费使用;图片翻译可保留排版结构,文档翻译能自动生成总结与脑图。

6月20日,Google在安卓和iOS的谷歌应用程序中推出了带语音输入的实时搜索功能。美国的实验室注册用户可以体验这一新特性,通过口头提问与AI进行流畅的对话,极大便利了旅途中或多任务处理的用户。例如,用户可以询问“防止亚麻连衣裙在手提箱中起皱的技巧是什么?”并收到AI生成的音频回应。同时,屏幕上也会显示相关链接,方便用户深入探索网络内容。

6月20日,ChatGPT正在灰度测试深度整合谷歌的Gmail和日历功能。该更新使得ChatGPT能够分析用户收到的邮件内容并自动生成回复,甚至整理出大纲和代办事项清单。目前,该功能已接入Gmail,但用户仅在深度研究中可以调用。未来,用户能通过自然语言要求AI总结邮件内容和创建日历事件,实现信息的高效管理。据悉,此功能可能将在2-3个月内正式上线,旨在将ChatGPT打造成更具上下文理解和协作能力的智能助手。

6月20日,MiniMax发布了Hailuo Video Agent,这是一个分阶段的视频生成智能体。第一阶段允许用户通过上传图片或输入文字,轻松生成高质量视频,覆盖多种创意模板,如广告、动态写真等。上传图片后,Hailuo会自动分析并生成视频内容。未来的第二阶段将实现用户在视频制作中的自由编辑,最终阶段则是完全自动化生成视频。初步体验显示,Hailuo Video Agent在保持图像一致性及生成多样性方面表现出色,极大降低了创作门槛,适合社交媒体内容创作者和电商等多种场景。

6月21日,MiniMax发布了一款语音设计(Voice Design)工具。该工具基于最新语音设计模型,由用户在“Prompt”文本框中输入任意提示词,便可生成可定制的多种语言声音。用户还能在“Text to Preview”框中输入最多300个字符的文本,生成多达3种不同音色和风格的语音。语音注册页面允许填写名称、选择性别与语言(中文或英文),生成的语音可复制分享。此外,用户也可以进行进一步编辑,支持输入最多5000个字符。MiniMax展示了多种特定角色的成功语音生成样例。

6月21日,华为云发布盘古大模型5.5,全面升级自然语言处理、计算机视觉等五大基础模型,显著提升知识推理和行业解决方案能力。

issue126 2025.6.23-6.29

6月23日,月之暗面的首个智能体Kimi-Researcher启动小范围测试。该智能体基于端到端自主强化学习技术,专为深度研究任务设计。Kimi-Researcher能自主规划执行流程,首先通过主动反问澄清问题,再进行平均23步推理。同时,系统会规划74个关键词并访问206个网址,仅筛选出最高3.2%质量的信息。为了确保输出质量,Kimi-Researcher采用异步执行,充分进行推理与数据处理。月之暗面还计划逐步开源其基础预训练模型与强化学习后的模型。

6月25日,百度发布了文心快码Comate Al IDE,这是行业首个支持多模态和多智能体协同的AI集成开发环境。该IDE包含了一键转换设计稿为代码的功能,可以将Figma设计稿精准转化为高可用代码,显著提高开发效率,节省多达80%的重复劳动。

6月25日,微软发布了创新的小参数模型Mu,该模型仅包含3.3亿个参数,但其性能可以媲美微软的Phi-3.5-mini模型,且体积小约10倍。Mu在配备NPU的笔记本电脑上表现出色,响应速度超过每秒100个tokens。

6月26日,蚂蚁百灵团队开源了轻量级推理模型Ring-lite,该模型在AIME24/25和LiveCodeBench等多个推理基准上达到了同级别的SOTA。Ring-lite的性能表现令人瞩目,甚至可以与参数量达到三倍的Dense模型相媲美。

6月26日,谷歌推出了开源的AI编程智能体Gemini CLI,这是一款集成于终端的轻量级工具,旨在提升开发者的工作效率。Gemini CLI支持通过自然语言进行代码编写、问题调试和工作流优化,同时能够生成内容、解决问题和管理任务。其核心功能包括联网搜索、协议扩展、指令定制和脚本集成,全面辅助开发者的整个工作流程。该工具采用Apache 2.0开源协议,全球开发者可以在GitHub上使用和参与社区建设。个体开发者可通过谷歌账号免费获取Gemini Code Assist许可,享受高频率访问和功能。

6月26日,谷歌更新了其AI模型Gemini 2.5,新增了原生音频能力。这一更新旨在增强Gemini在理解和生成音频内容方面的能力,为多模态应用开辟新的可能性。用户将能享受到更自然的语音交互体验,同时也为音频内容的分析和创作提供了更多选择。

6月27日,Black Forest Labs发布了FLUX.1 Kontext [dev]模型,这是其图像编辑模型FLUX.1 Kontext [pro]的开源开发版本,拥有12B参数,具备接近专有工具的图像编辑能力,能够在消费级硬件上运行。该模型定位于图像编辑,强调局部精准控制与角色一致性,旨在为用户提供与闭源专有模型相当的免费工具,摆脱了GPT 4o与Gemini模型在图像编辑方面的垄断。FLUX.1 Kontext [dev]在FLUX.1非商业许可下开源,支持研究与非商业用途,并提供云端或本地推理支持。

6月27日,腾讯混元发布并开源了混元-A13B模型,作为基于专家混合(MoE)架构的大型模型,该模型总参数达到800亿,激活参数为130亿。它以低推理延迟和计算开销为特点,极大地方便了个人开发者和中小企业的部署。混元-A13B模型可在低至1张中低端GPU上运行,支持高效的智能体应用,并在多个数学、科学和逻辑推理任务上表现优异。模型在Github和HuggingFace等技术社区可供下载,同时其API已在腾讯云上线,推动了开源生态的繁荣。

6月28日,通义千问团队发布了QwenVLo,一款全新的AI创意引擎。它能够从草图或文字提示转化为高分辨率图像,支持实时编辑,让用户通过简单指令优化产品展示和调整布局或样式。QwenVLo还提供全球化支持,可用多种语言生成和本地化图像,具备渐进式生成能力,逐步构建复杂场景。特别适合设计师、营销人员、教育者及任何希望将创意变为现实的人士。

issue127 2025.6.30-7.6

6月30日,通义千问团队宣布Qwen-TTS模型现已通过百炼API上线,为用户提供自然度极高、情感丰富的语音合成体验。该模型基于数百万小时的语音数据训练,支持三种中文方言:北京话、上海话和四川话。此外,还提供七种双语语音,包括Cherry、Ethan、Chelsie、Serena、Dylan、Jada和Sunny,满足多样化的需求。

6月30日,华为宣布开源其首个大模型,包括70亿参数的“盘古Embedded 7B”和720亿参数的“盘古Pro MoE”,同时推出基于昇腾NPU的模型推理技术。盘古Pro MoE在多个基准测试中,其性能超越了主流开源模型如Qwen3-32B和GLM-Z1-32B,且在昇腾800I A2单卡推理时达到1528 tokens/s的高吞吐性能。该模型权重和推理代码现已上线开源平台。

6月30日,百度正式开源文心大模型4.5系列,推出10款模型,涵盖47B和3B参数的混合专家(MoE)模型以及0.3B的稠密型模型,实现了预训练权重和推理代码的完整开源。这些模型现可在飞桨星河社区和Hugging Face下载使用,并在百度智能云的千帆大模型平台提供API服务。此举标志着百度加入国内开源大模型的行列,推动其在AI领域的应用发展。值得注意的是,文心大模型4.5 Turbo系列并未包含在此次开源列表中。

7月1日,Lovable宣布推出“Agent Mode”(Beta版),允许其平台实现自主思考、规划和执行操作。用户将在接下来的几天内逐步获得该功能的访问权限,一旦启用,可通过项目设置中的下拉菜单进行开启。测试数据显示,该模式已将构建错误率降低了90%,减少了不必要的变更,并提升了Lovable帮助用户实现目标的能力。

7月1日,谷歌推出Gemini的新功能“Scheduled Actions”(定时任务),用户可通过简单的提示词设置未来或定期任务,例如输入“每天早上5点给我美股分析报告”,Gemini会在指定时间自动执行并反馈结果。此功能支持单次和定期任务,最多可同时设置10个活跃任务,提升了任务管理的灵活性。与传统数字助理相比,Gemini的操作更为简便,且与Gmail、Google日历等产品紧密配合,无需复杂配置,适用于自动生成日程总结和市场报告。该功能目前先面向Pro和Ultra订阅用户推出。

7月2日,百度推出自研视频生成模型MuseSteamer,并同时上线了AI创作平台“绘想”,目前正进行限时免费公测。MuseSteamer的亮点在于其首个实现中英文音视频一体化生成的能力,与Veo3等其他视频模型类似,倡导声音和视频的紧密结合。这一创新将简化创作流程,将AI绘图、音频设计和对口型等环节整合为一步工作流。

7月3日,Cursor发布了1.2正式版。本次更新中,Cursor引入了智能任务清单(Agent To-dos),AI可以将复杂任务分解为可操作的步骤,提高项目透明度。此外,新版支持直接在编辑器中使用自然语言搜索和索引GitHub的Pull Request,提升团队协作效率。同时,消息队列功能允许用户在当前任务进行时提交新的指令,交互更加流畅。最后,Tab键的代码补全反应速度得到优化,整体编码体验显著提升。其他改进还包括合并冲突解决和更稳定的记忆功能。

7月3日,Lovart正式推出中文版本:星流 Agent,该应用在国内使用更加便捷,充值方式新增支付宝和微信,且价格大幅降低。用户可利用最新的FLUX.1 Kontext模型,一键批量处理图片,极大提升了修图效率。

7月4日,智谱AI推出GLM-4.1V-Thinking,这是GLM-4系列的升级版,专注于多模态推理能力。其轻量版本GLM-4.1V-9B-Thinking仅具备10亿参数,在28项评测中领导同级模型,且在18项测试中超越了72亿参数的Qwen-2.5-VL,展现出卓越的性能。

7月4日,Anthropic编程助手Claude Code新增Hooks功能,允许开发者自动执行特定操作,提供更精确的控制和高效开发体验。

7月5日,xAI推出其最新旗舰模型Grok 4,包含标准版及面向编程的Grok 4 Code。Grok 4在自然语言处理、数学和推理上表现卓越,而Grok 4 Code则专为编程设计,支持代码问题咨询及嵌入代码编辑器。值得注意的是,Grok 4的部分功能已通过API开放,包括文本处理、视觉能力和图像生成等。

2023年的碎碎念

1月

2023-01-02 12:05:12

推荐一个电子书聚合搜索:https://tool.yibook.org/

2023-01-03 09:05:17

我的 #2022年度产品 :TeslaMic&雷石KTV、AirPlay盒子、SynologyPhoto、DSPlayer、小报童

2023-01-03 14:38:15

抖音、小红书、bilibili、微博、网易云音乐的私信系统都越来越接近完整IM了

2023-01-07 01:20:17

“人矿”一词最早出现在1984年的中共党媒《人民日报》上。意思是说,人是一种“资源”。不过现代中国网友则更多的用于对其自身调侃和对个人命运的比喻,类似韭菜、牛马等。讽刺不把人当人。

也有网友认为,“人矿”的意思就是特指那些生下来,就被作为消耗品使用的中国人。他们读20年书,还30年房贷,养20年医院,一辈子被剥削、压榨套取利益,最后还被买卖人体器官,是为终极“韭菜”。

“人矿”一词被创造出来之后,在中国知乎网站上引发热议,不少人形容这个词准确传递出这个时代缩影下的人间悲歌,并一度冲上热搜榜。

有网民表示,“如果称我们是国家的主人,有很多事情无法解释。如果称‘人矿’,那就全说得通了。”

2023-01-07 03:19:46

晚点已经透露了小米汽车的最新进展,快的话下半年就会发布。

2023-01-07 04:13:05

有人用Stable Diffusion对日文汉字进行了训练,得到一个可以生成假汉字的AI模型

2023-01-09 11:45:47

MediaDevices.getDisplayMedia()

2023-01-11 05:53:57

今年微信公开课的主角只有视频号

2023-01-11 16:52:06

小小、我爱的人、爱情,很多人都不知道是杰伦写的

2023-01-14 02:27:46

看过《去有风的地方》

https://neodb.social/tv/season/GV6taEAk1jhcNBkbF0G2Q

2023-01-14 13:17:54

9亿人感染,6万人死亡。

2023-01-14 14:14:17

看过《中国奇谭》

https://neodb.social/tv/Bl7c8ML6qvjJ7J9v9nOZw

2023-01-14 14:18:58

李现说话的样子很像张朝阳

2023-01-14 14:47:02

USDT 2022年的总清算额达到18.2万亿美元,超越VISA和MasterCard

2023-01-15 01:57:06

B站给我推荐的主题颗粒度不如小红书的细

2023-01-15 11:57:59

三体电视剧版21:30在CCTV-8开播

2023-01-18 09:45:50

畸形防疫结束后,发达的线下商业和交通网络又让大城市的生活有了魔力。

2023-01-18 10:54:44

看过《三体》

https://neodb.social/tv/season/3IZfpVCON5B3RQj4aoALIp

2023-01-20 07:41:12

新版的macQQ也更新到这个UI了,之前更多应用里的天气、腾讯网、自选股都没了

2023-01-20 08:51:00

Twitter更新开发者条款:明确不允许开发第三方客户端

2023-01-20 09:05:43

成都进入两万亿GDP俱乐部。

2023-01-21 13:06:17

看大家吐槽春晚好欢乐!

2023-01-22 07:42:24

看过《流浪地球2》

https://neodb.social/movie/5P5rawCZmazL0NHXI2Hepd

2023-01-23 23:59:29

iOS 16.3对Apple ID增加了硬件密钥的支持

2023-01-24 15:47:45

国产的桌面操作系统,有这么几种路线:deepin/UOS以及优麒麟是Linux发行版,fydeOS是ChromeOS定制版,reactOS是Android x86定制版。

2023-01-25 05:55:51

📍乌镇

2023-01-25 12:56:52

ChinaCDC披露本轮疫情主要数据:https://www.chinacdc.cn/jkzt/crb/zl/szkb_11803/jszl_13141/202301/t20230125_263519.html

2023-01-25 13:14:18

山姆会员商店买的佳沛金果盒子里居然有个这:https://www.xsense.co/xsense-system/dataloggers/rf-hitag/

看了下是冷链管理用的温度数据记录器,应该是工作人员忘了取下来?

2023-01-26 02:54:48

工资卡在招行、公积金签约卡在招行、新版社保卡在招行、个人养老金账户在招行

2023-01-26 04:04:09

YiBook的电子书工具:https://www.yibook.org/

2023-01-28 07:55:53

2023年开工~

2023-01-29 09:02:28

影史前四票房的影片,卡梅隆执导的占了三部

2023-01-30 03:57:34

iteration integration两个词很像,还经常在同一个语境里出现。

2023-01-30 15:14:24

2023年了,现在最激动人心但大多数人还不了解的东西应该就是L2-L3辅助驾驶

2023-01-31 09:36:39

https://help.openai.com/en/articles/6825453-chatgpt-release-notes

ChatGPT昨日进行了模型更新,提升了事实性和数学能力

2月

2023-02-01 14:27:58

rewind.ai就像是超梦视频的一种了,随时可以回溯电脑屏幕上见到的东西,并且在信息量和存储空间上保持了平衡(1个月的记录数据约占用15GB空间),工作时也几乎感觉不到它的存在,目前唯二的缺点就是搜索仅支持英文以及有点小贵(每月20刀)。

2023-02-01 15:06:26

#nostr 协议的iOS客户端Damus上架,今天很多人涌入了

2023-02-01 18:21:51

nip-05认证需要hex key,用这个converter可以把npub公钥转成hex:

https://astral.ninja/devTools

2023-02-04 09:22:50

Teams将会加入会后AI recap,能直接给出总结性的meeting minutes

2023-02-04 14:17:06

https://store.steampowered.com/hwsurvey/

2023-02-04 14:39:17

nostr网络几乎是全公开的,甚至私信列表都是公开的…… 只是私信消息用私钥加了密

2023-02-04 16:09:32

一年之计在于春

2023-02-04 18:59:53

https://nostr.directory/

2023-02-06 01:18:05

元宵节的doodle点进去是台湾灯会诶,真正做到了“让世界看见台湾”

2023-02-06 03:43:21

两个真正出圈的AI:AlphaGo、ChatGPT,在命名上都是两个词,4-5个音节

2023-02-07 03:03:11

文心一格,文心一言

2023-02-07 04:24:39

效率革命

2023-02-09 01:56:14

Bard给出错误答案的问题:“关于詹姆斯·韦伯太空望远镜(JWST),我可以告诉我9岁的孩子它有哪些新发现?” 问ChatGPT得到的答案就相对正确。

2023-02-09 16:56:10

https://uegov.world/

2023-02-10 16:59:35

武汉上街的规模不小,可以。

2023-02-11 20:48:36

railway部署项目还是比netlify方便

2023-02-13 15:51:44

考虑把new bing设为默认搜索引擎了

2023-02-14 08:13:23

#aigc #chatgpt 留存这两个tag

2023-02-16 06:59:55

公众号给图文内容加了一种类小红书笔记的排版,之前有思考过,这种排版突出图片,加强了图片的视觉冲击力,适合生活方式内容。

2023-02-16 13:26:02

OpenAI拿下了ai.com

2023-02-18 14:22:35

Clockology,完全实现表盘自由

2023-02-19 10:43:26

有点意思

2023-02-23 01:07:30

灵感转瞬即逝

2023-02-23 03:43:52

看久了Chrome,感觉Edge的圆角UI有点好看了

2023-02-26 12:15:50

从图片中复制文本已经如此习以为常。

2023-03-01 05:34:33

人工智能·AI 工具导航网站盘点:https://zhuanlan.zhihu.com/p/608944516

2023-03-01 05:38:19

语音消息转文字也已经习以为常。

3月

2023-03-01 22:52:07

https://www.youtube.com/live/Hl1zEzVUV7w

2023-03-02 02:07:02

收回之前的判断,Bing Chat太啰嗦且保守了,啥事都是“我只是个搜索引擎”,还是ChatGPT for Google插件更好用~

2023-03-02 04:15:36

OpenAI终于放出了ChatGPT所用的模型:gpt-3.5-turbo

切换方法:model参数“text-davinci-003”修改为“gpt-3.5-turbo”

2023-03-02 07:33:52

https://platform.openai.com/docs/guides/chat

2023-03-02 08:45:15

ChatGPT真的是一个技术经验丰富的朋友,可以跟他探讨思路

2023-03-05 01:35:35

支付宝-生活,竟然做成视频号了……口碑生活现在变成了小程序

2023-03-05 13:44:44

小程序自己出了一个多端框架Donut,直接在IDE里编译完就能在手机端体验

https://dev.weixin.qq.com/

2023-03-06 12:10:11

如果大语言模型是电,ChatGPT是电灯,还会有哪些电器?

2023-03-06 17:15:57

ChatGPT已经提前预定了一个年度产品的席位。

2023-03-06 17:42:26

“人工智能的iPhone时刻”更准确的说法应该是“人工智能的AppStore时刻”。

2023-03-07 07:47:08

再多体验了几天,Edge的Bing侧边栏可以实时理解左侧网页上的内容,并且在时效性较高的内容上也能给出回答。虽然也遇到过回答错误和无法回答的情况,但在信息查询整合这个需求上(也即搜索引擎)还是实现得比较好的,值得肯定!

2023-03-07 08:44:20

https://chatexcel.com/

2023-03-08 18:05:31

创投圈有一种2011年移动互联网时代的氛围了

2023-03-09 14:31:33

“没有政治体制改革,经济体制改革的成果可能毁于一旦。”

2023-03-10 02:59:25

“全票当选”

2023-03-11 13:39:29

国内用美区bing app访问new bing,还要把系统地区切到美国:https://answers.microsoft.com/zh-hans/microsoftedge/forum/all/%E6%89%8B%E6%9C%BAbing/3da74b48-60d7-4f06-9575-0c06daab55c1

2023-03-11 14:39:29

李强这个总理,总感觉名不正言不顺,上海民间不少议论,但网上看不到任何评论。(当然,这次并无意外,从去年10月进常委排名第二就已经揭晓答案了)

2023-03-12 05:51:47

Glarity Summary对Google搜索结果的归纳整理已经离谱到还会给出“个人见解”

2023-03-13 01:15:30

立法法的修改,等于把立法权从全体会议缩小到常委会,而常委会几乎是委员长(一尊的傀儡)一言堂。

2023-03-14 02:14:09

GPT-4和文心一言,都可能在本周开放。

2023-03-15 03:05:24

OpenAI:GPT-4 是一种高级语言模型,可以处理和生成多达 25,000 个单词的文本,可以理解图像并表达与其相关的逻辑思想。虽然其并非完美无缺,但它可以帮助人们实现日常生活中的多种任务,如教育、个人辅导和更高效的生产力等。OpenAI 和微软合作开发 GPT-4,致力于使其成为更具实用性的技术,更加个性化地服务于每个人。虽然 GPT-4 尚不完美,但其已经成为当前最先进的人工智能系统之一,我们期待通过使用和改进不断提高其性能和安全性,使其成为更加广泛普及的智能辅助系统。

2023-03-15 03:18:56

GPT-4 擅长于需要高级推理、复杂指令理解和更多创造力的任务。支持多模态(图片)理解和高达25000词的prompt。但响应速度较慢。

目前开放给Plus用户的GPT-4模型尚不支持图片输入,从发布会视频看,演示人员在jupyter notebook里用pycord实现了一个discord机器人,通过机器人进行了图片输入。

开发者平台上,目前也需要加入等待名单,OpenAI会优先将GPT-4开放给使用GPT3.5创建过应用的开发者。

另外,New Bing已经运行在GPT-4模型之上,但也还不能进行图片输入,且最高2000词。

2023-03-15 13:22:24

315晚会上测试用的数据恢复软件叫FinalData企业版

2023-03-16 07:56:35

百度文心一言的界面一看就是深受ChatGPT和New Bing的启发 :0520:

2023-03-16 13:17:41

党政更加不分

2023-03-16 16:09:43

Google Docs又浅浅更新了UI :0080:

2023-03-16 16:14:24

https://chatyoutube.com

2023-03-16 16:47:35

微软赢麻了,Office全系配AI Copilot

2023-03-17 01:47:12

大眼夹重生了哈哈哈 这周太炸裂了

2023-03-17 01:52:29

通用型人工智能真的会带来生产力革命,格局不能小了。LLM是电,ChatGPT是电灯的话,Office Copilot已经是电视机了。再想远一点,人人都能拥有一个真正可用的个人助理(能帮你做事赚钱的),而且,可能还不止一个。

2023-03-17 06:36:14

20年6月,OpenAI GPT-3

22年3月,OpenAI GPT-3.5 (text-davinci-003)

22年10月,微信大语言模型WeLM:https://welm.weixin.qq.com/docs/playground/

22年11月,ChatGPT

https://chat.openai.com/

23年2月,微软New Bing

https://www.bing.com/new

23年2月,复旦大学MOSS

https://moss.fastnlp.top/

23年3月,微软Dynamic 365 Copilot

https://www.microsoft.com/en-us/ai/dynamics-365-ai

23年3月,OpenAI GPT-4

https://openai.com/research/gpt-4

23年3月,Google Workspace AI

https://workspace.google.com/blog/product-announcements/generative-ai

23年3月,百度文心一言

https://yiyan.baidu.com/

23年3月,Microsoft 365 Copilot

https://news.microsoft.com/reinventing-productivity/

2023-03-18 10:41:25

想看《网络谜踪2》

https://neodb.social/movie/6MC6fgqepgrunY4llqA54T

2023-03-20 00:12:32

过去的一周,通用型AI完全走入大众视野。

2023-03-20 08:12:05

在Mastodon实例转发了Solidot关于Mastodon用户数突破一千万的新闻🤣

2023-03-20 08:38:26

大街上戴dyson zone的压力还是很大的

2023-03-21 16:01:16

帮黄仁勋翻译下:AI离不开Cloud,Cloud离不开NVIDIA芯片和基础服务

2023-03-23 14:46:01

https://www.youtube.com/watch?v=_E-4jtTFsO4

2023-03-24 01:18:43

加入Loop Preview,但还没看到Copilot

2023-03-25 05:59:52

想看《小熊维尼:血染蜂蜜》

https://neodb.social/movie/5x0lx60NyErQKTAmSzs8Av

2023-03-25 06:07:01

提出摩尔定律的戈登·摩尔去世。

2023-03-25 09:49:38

skype直接强行增加了bing chat聊天会话hhhh

2023-03-25 09:51:06

在Loop设置-实验性功能-Copilot处打开了,见到了Copilot的中文UI,但请求报错,还不能完成。

2023-03-28 14:37:10

GPT-4正在重塑我的思维和认知。

2023-03-29 02:52:04

在云闪付里绑了一张很久之前开的卡,绑完发现还有余额,这就是赛博时代的“从衣柜深处的衣服兜里翻到了钱”吧……

4月

2023-04-01 11:49:14

Glarity Summary现在可以在任意网页上进行内容总结了

2023-04-01 16:25:52

https://github.com/twitter/the-algorithm

抽空读一下

2023-04-03 23:05:44

耳石症

2023-04-03 23:05:56

twitter logo变成了doge

2023-04-05 05:51:43

M6竟然在中国大陆上映了

2023-04-05 06:06:47

CashApp创始人在旧金山遇刺身亡……

2023-04-05 14:17:56

开发一个工具的成本低到0,自然语言描述给gpt就行了

2023-04-09 04:13:46

这一波AIGC产品,很高兴看到首选发布Web应用的越来越多。Web应用有快速迭代持续交付的优势,体验也越来越接近Native应用。

2023-04-09 04:14:50

LLM毫无疑问会成为基础设施。

2023-04-09 13:22:00

有些小颗粒度的内容是在一些垂直的媒体或者社区去follow的,这个也会有汇总的需求。

2023-04-11 01:46:58

手机仍然是最重要的个人计算设备,但随着AGI的发展,我们有望减少因手机的工具属性而消耗的时间。比如一些需要点很多次才能完成的事情,之后可能一两次点击就搞定了。

2023-04-11 07:14:26

生成式人工智能服务管理办法。这真是速度了

2023-04-12 17:15:32

确保Web3在香港发生。

2023-04-15 11:40:13

给一个最近很喜欢的开源项目提了PR,被merge了,开心

2023-04-22 16:27:26

全球就像重生了一样,又是一个轮回的开始吗?

2023-04-22 16:30:55

上海车展:士别三年,国产新势力已经快把传统品牌干死了……

2023-04-27 00:31:50

中超恢复主客场制之后,现场气氛非常棒!

5月

2023-05-01 06:54:28

读过《中国文化常识课》

https://neodb.social/book/5FPkwXyGiGfHYZX2xgD1PD

2023-05-01 16:33:37

iOS日历的中国工作日和闹钟还是没有连起来

2023-05-02 10:22:14

以前觉得视频教程不怎么好,现在理解了看视频其实就是人类最原始的学习方法:模仿

2023-05-02 13:57:29

吴恩达的ChatGPT Prompt课程:https://learn.deeplearning.ai/chatgpt-prompt-eng/lesson/1/introduction

2023-05-05 13:29:10

全剧终

2023-05-10 02:41:35

iPad Pro上会有越来越多的专业软件,这就是Apple Silicon带来的红利

2023-05-11 01:19:00

Pixel Fold感觉是两年前的机器😂

2023-05-11 01:27:43

PaLM 2 说部分任务超越GPT-4,但LLM就是必须全能才可用。

2023-05-11 05:19:26

目前已公开,无需自己搭建即可使用的LLM Chat服务有:ChatGPT、NewBing、文心一言、Claude、Google Bard、讯飞星火

阿里通义千问和商汤SenseChat目前并未开放。

2023-05-11 16:35:58

想看《人选之人:造浪者》

https://neodb.social/tv/21eA4iogGAja20EVHYAZjd

2023-05-12 08:05:14

512地震15周年。

2023-05-14 05:02:51

在玩《塞尔达传说 王国之泪 ゼルダの伝説 ティアーズ オブ ザ キングダム》

https://neodb.social/game/4Ixm8bYfeqJAoZkl09KKfR

2023-05-14 15:21:19

为亚洲杯准备的球场虽然没举办亚洲杯,但都成为了中超球队更好的主场。在电视平台转播和社交媒体传播下,今年有越来越多的人去现场看中超比赛,至少成都和上海火爆的球市可以证明这一点。

2023-05-15 01:24:30

很有意思的幕后 https://www.nintendo.com.hk/interview/totk/index.html

2023-05-16 15:25:15

获得GPT-4 with Browsing权限~

2023-05-17 00:47:07

instagram推出广播频道功能,类似telegram channel

2023-05-17 14:11:24

上纲上线,过于离谱

2023-05-18 11:55:10

确实,工业革命级的机遇,不急于在几个月内拿出电灯泡产品

2023-05-19 00:13:48

ChatGPT官方iOS客户端上架

2023-05-21 17:05:46

体验了GPT-4的Plugins,大多外部服务都撑不住ChatGPT带来的请求量,好多个插件都挂了

2023-05-25 00:38:06

Windows11终于要官方支持rar解压

2023-05-29 01:12:27

桂海潮毕业于北京航空航天大学,硕博连读又留校任教,也是北京航空航天大学宇航学院航天飞行器技术系教授、博士生导师,航天动力学和智能控制实验室核心成员,空间载荷专家。

2023-05-30 06:41:32

很久没能静下心进入心流状态了。

2023-05-30 07:14:38

国航排队航班催C919滑行快一点,虹桥机坪atc回应:人家是有要求的嘛😂

2023-05-30 08:05:53

矢量数据库要火一波了

2023-05-31 02:09:42

盖茨说他一生中经历了两次技术变革,第一次是GUI,第二次是LLM

2023-05-31 03:05:55

github已经官方支持了树形文件目录浏览,可以告别Octotree了

6月

2023-06-02 07:17:48

按量付费的IaaS服务中,DO、GCP、AWS、Azure几家是支持随时释放资源的

2023-06-04 09:48:54

蓉城客场运气好,在白玉碗带走3分。可惜罗慕洛伤退。

2023-06-05 15:18:03

6月的WWDC比9月的秋季特别活动更像是科技春晚

2023-06-05 16:05:48

凤凰山体育公园完美继承了成都体育中心金牌球市的衣钵

2023-06-06 13:43:47

曾经无数次设想Apple的AR眼镜发布后会是什么样,没想到这一天已经来了。

2023-06-06 16:35:41

使用vision pro进行facetime通话时,自己的形象是一个建模出来的虚拟数字人。

2023-06-08 05:40:15

两年过去了,Mac App Store里能用的iPhone App也没有太多

2023-06-12 11:02:04

Apple给开发者提供了一个叫做Reality Composer Pro的工具,这是为Vision Pro做了个Unity啊

2023-06-14 01:30:43

Vision Pro的视野空间叫做Shared Space

2023-06-18 10:13:29

盖茨来中国,今天翻出他3月21号的博客再读了一遍,https://www.gatesnotes.com/The-Age-of-AI-Has-Begun

2023-06-18 11:08:06

《新华社新闻信息报道中的禁用词和慎用词(2016年7月修订)》

https://baike.baidu.com/item/%E7%A6%81%E7%94%A8%E8%AF%8D/20139960

这个好像很久没修订了,不过全文能出现在百度百科也是出乎意料。是一个很好的简中语境科普材料。

2023-06-21 09:17:37

好热,一看日历都到夏至了

2023-06-22 11:01:47

IOIOX的免费泛域名证书造福大众!rssforever的rsshub镜像造福大众!ghproxy的github镜像造福大众!

2023-06-23 04:37:10

github web topbar更新了

2023-06-23 12:47:59

2023年榕江(三宝侗寨)和美乡村足球超级联赛 http://www.lysy360.com/league/10195/card#1

2023-06-23 12:52:42

北京大学出现反专制标语 一举牌者被校方保安带走https://www.rfa.org/mandarin/yataibaodao/renquanfazhi/gt-06222023233902.html

2023-06-24 01:57:09

mac版印象笔记升级到最新版后,已经不支持国际版账号,总算完全分开了,国际版app现在所有平台体验一致了,笔记历史也能正常查看了

2023-06-24 14:11:26

凤凰的实时timeline:https://news.ifeng.com/loc/timeline/event/8QryCOYZx2v?isFull=0&immersion=true&ifengsp=1

俄卫星通讯社做的这个地图,不是更明摆着你在入侵乌克兰 https://sputniknews.cn/20230114/1047134621.html

2023-06-26 09:25:29

https://developer.apple.com/documentation/xcode-release-notes/xcode-15-release-notes

2023-06-27 15:09:05

台湾的metoo才是真正的metoo

2023-06-27 15:34:32

才意识到所有的iPad都是没有震动马达的(即使是iPad mini)

2023-06-29 03:09:31

自动驾驶研发十年:https://mp.weixin.qq.com/s/7rSUVz9kzJz4Fmcj6eXuNg

7月

2023-07-06 01:29:59

ig新的threads应用之后会接入Fediverse

2023-07-06 07:50:52

Raycast正式替代掉用了10年的Alfred

2023-07-07 06:44:22

WAIC 2023在线直播:https://online2023.worldaic.com.cn/home

2023-07-10 07:52:28

不得以防止失联、提前关注、故留悬念等方式,诱导用户关注其他账号 //哈哈哈哈哈哈哈哈哈哈哈哈

2023-07-12 05:59:58

试了下Claude2,效果也蛮好的了。api还没开放,需要申请。

2023-07-12 06:02:00

GPT-4的代码解释器,实际是一个自然语言的python运行环境,能做的事情绝不仅限于解释代码和数据分析。

2023-07-12 06:07:34

iPad版微信小程序菜单没有“添加到桌面”,其实通过手机端唤起safari后,在iPad safari上添加到主屏幕就好了。

2023-07-13 03:37:20

已经可以实现图片转格式,以及将链接生成二维码(常见的python库能实现的功能)。但还不能联网使用第三方api比如OCR查看图片中的内容。

2023-07-16 04:29:14

成都的世大运氛围已经拉满了~

2023-07-16 14:34:54

看过《智能时代》

https://neodb.social/tv/season/3C7IswjC2mqwz2q43ixUOo

2023-07-19 03:25:03

llama2来了 https://huggingface.co/blog/llama2

2023-07-19 13:48:43

美团入股了智谱AI(清华GLM大模型背后的主体),加上之前的光年之外,大模型的船票已经握紧了。

2023-07-21 02:16:44

凯文米特尼克去世,年仅59岁。

2023-07-23 07:02:50

想看《芭比》

https://neodb.social/movie/2Wv4wI4vD9A2xKldfm6bVN

2023-07-24 12:44:06

玩了一会儿SteamDeck之后再拿起Switch:卧槽,这才是掌机啊

2023-07-25 09:00:08

http://tech.sina.com.cn/s/2004-12-27/1428485862.shtml

IBM的ViaVoice算是我第一次接触“人工智能”吧

2023-07-27 06:04:21

小程序的手机号授权,都改为了手机号验证组件,准备开始收费(价格跟通过短信验证码验证类似)。其实很多场景不需要做验证,只是授权来作为唯一id的。而且本身是从用户微信绑定的手机号来的,一般情况下也不需要再验证了。

2023-07-28 08:36:43

https://results.2021chengdu.com/index.htm#/schedule/dailyschedule

这个赛果发布系统不错

8月

2023-08-01 02:59:40

Agent as a Service

https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2023-08-02 03:14:48

秦刚依然下落不明,已经有传言他自杀了……

2023-08-04 18:47:08

云安、阿璞、阿信、青峰,台湾男生都好有才

2023-08-06 04:29:08

用docker把MetaGPT跑起来了~ 测试写了三个小游戏

2023-08-07 08:21:12

Evernote最近丢数据,还是把所有笔记全部导到Notion了(虽然丢失所有空行

2023-08-07 08:24:24

动不动就识别为电信诈骗,这个识别模型有点简单了

2023-08-08 10:22:39

Cortana要彻底被Windows Copilot替代掉了,微软已经关闭了Windows11上独立的Cortana应用。

2023-08-09 02:49:19

切换Bing国际版:https://www.bing.com/?mkt=en-US

2023-08-10 04:21:06

看到路特斯的流媒体后视镜,现在政策已经允许不带实体后视镜吗?不过特斯拉上的左右辅助后视镜头已经做到比实体后视镜视野广、夜视好了,确实可以替代了

2023-08-10 11:34:21

小程序也要备案,开发者又多一个门槛

2023-08-13 07:23:57

内马尔也要去沙特踢球了😅

2023-08-13 09:24:25

wordpress app升级成了jetpack app

2023-08-14 04:32:15

玩过《博德之门3 Baldur’s Gate III》

https://neodb.social/game/0w4Ta4NeXBnTnvEuJr2qAk

2023-08-17 03:38:30

有了AI之后,人人都是神笔马良。

2023-08-17 16:10:54

原来缅北的“园区”都是2019之后建起来的

2023-08-19 07:45:45

任然庄心妍金玟岐赵乃吉周思涵王靖雯 几个巨头了 :0080:

2023-08-20 12:26:32

看过《陌生人:对话圣战分子 Season 1 第1季》

https://neodb.social/tv/season/4r0SibQawf9OrCyTgaCqyJ

2023-08-21 09:07:00

花总口述:缅北电诈真相 https://mp.weixin.qq.com/s/yN1rlXcuwqRkxWQV__9lzA

2023-08-21 10:52:36

腾讯文档做了“智能文档”,也借鉴了notion

2023-08-23 08:17:48

目前普通用户“直接登录就能使用”或者“只要申请就肯定能通过”的国内chatgpt产品有5个:

百度文心一言、阿里通义千问、讯飞星火、搜狗百川、字节豆包

国际产品:ChatGPT、Claude、Bing、Bard

国内聚合产品:ChatHub、ChatALL

国际聚合产品:Poe、Pi、Perplexity

2023-08-30 05:23:49

中芯国际居然可以生产7nm制程的芯片了

9月

2023-09-03 02:39:22

https://www.apple.com/apps/ 酷

2023-09-03 17:39:00

很真实的小说 https://xszj.org/b/340683

2023-09-04 05:47:47

喝了酱香拿铁,酒味儿还挺重的 :0010:

2023-09-07 12:54:35

https://vocalremover.org/zh/

人声伴奏分离工具

2023-09-08 01:36:51

混元这个名字比文心/千问/星火都更贴切

2023-09-10 16:13:24

sunbelife做的“鸿蒙Smartisan主题”:https://mp.weixin.qq.com/s/0MHmCuKOCiCpMQjYaTUKAw

2023-09-12 17:53:29

usb-c正式一统天下

2023-09-13 02:39:15

Watch上已经是设备端Siri了,难道内置了一个LLM?

2023-09-15 04:27:30

瑞幸x茅台、7分甜x奇奇蒂蒂、奈雪x薄盒范特西,奶茶店争相做品牌联名

2023-09-16 16:57:54

外宾WeChat用户终于有看一看入口了……(Mac微信最新版本

2023-09-19 02:59:01

白岩松上次露面是周五的新闻1+1,昨晚节目是王宁,看看今晚

2023-09-19 03:02:20

王志安对习近平不去参加印度G20的分析还是有道理的,他可能真的觉得G20不再重要,而要以金砖国家为基础搞新的。朋友圈越来越小越来越穷真的是绝了

2023-09-20 14:25:33

Party Animals正式上架开服!

2023-09-21 15:07:50

HomeAssistant简直跟TeslaMate有一拼,数据控狂喜

2023-09-25 01:57:37

子母扣yyds了

2023-09-26 10:32:50

https://blogs.microsoft.com/zh/blog/2023/09/21/announcing-microsoft-copilot-your-everyday-ai-companion/

2023-09-28 07:20:49

Telegram的第三方客户端越来越追不上主端的更新速度了

https://mp.weixin.qq.com/s/IIRfnjl4YGNJJmmnx_KznQ

2023-09-30 08:56:24

https://info.hangzhou2022.cn/zh/results/all-sports/competition-schedule.htm

10月

2023-10-02 06:09:24

今晚乒乓球女双决赛是朝鲜vs韩国 :0080: 之前女足朝鲜vs韩国的时候差点打架 哈哈哈哈

2023-10-02 06:12:21

想看《浊水漂流》

https://neodb.social/movie/7XMp1e61V5Pq3nYPKr77rV

2023-10-02 06:19:35

Chrome可以“复制视频当前帧”了~

2023-10-03 02:35:17

亚运电竞手游的官方用机是vivo的iqoo 11s

2023-10-03 06:29:14

7月某个大型活动时误关live photo,这两个月拍的照片都不能动 :0170:

2023-10-05 03:11:19

Arc Browser宣布了他们的AI新功能Arc Max,可以看出考虑了很多实际应用场景。

1、AI链接预览:按住shift之后mouseover一个链接时,即可直接查看由AI总结的链接页面内容。

2、AI总结tab网页title:很多网站的title有统一前缀,导致实际title在很后面根本看不到,或者是为了SEO堆砌了很多无用关键词,现在Arc Max可以帮助重命名网页title。

3、同上,下载文件的title也会被重命名。

4、页面内查询功能:直接升级为AI问答

2023-10-05 05:04:02

发现qq音乐有首次收听时间显示了,手动点个赞

2023-10-05 09:05:01

中超官网的api域名证书过期了也没人管

2023-10-05 11:42:08

分管科技的杭州副市长胥伟华博士,有中科院工作经历,是这次亚运会的IT总指挥。

2023-10-05 11:55:32

新闻联播首位90后主播王音琪,在新闻直播间主持已经10年了

2023-10-06 01:34:29

这种环境谁还敢说话

2023-10-08 03:26:39

iOS 17最明显的改变是:打字时的光标颜色😅

2023-10-08 08:57:01

watchOS 10 中,不再支持左右滑动屏幕来切换表盘,现在需要长按表盘进入编辑界面,才能左右滑动切换。

2023-10-08 11:25:02

习近平文化思想…… :0391: :0190:

2023-10-09 02:35:03

iOS小组件更新更频繁、可交互,现在iPhone上的小组件也可以直接添加到mac桌面,通过连续互通刷新数据。

2023-10-10 00:22:46

亚运会跟世界杯同一年举办2022 2026 2030

奥运会跟欧洲杯同一年举办2024 2028 2032

2023-10-10 08:29:58

DALL·E 3 √get

2023-10-11 08:01:58

设备端机器学习会开始跑LLM

https://developer.apple.com/cn/machine-learning/api/

2023-10-12 08:03:10

X的home icon由鸟巢形改成了火箭形

2023-10-12 08:06:04

Bard的看图能力跟GPT-4V差不多诶

2023-10-13 06:02:17

老高和小茉最近的一期提到,我们要多做能留下记忆的事情。这好像也是我一直以来默默践行的。

2023-10-13 06:04:29

体验了心光app,现在的分词、关键词提取、总结的效果还很差,几乎不可用。

2023-10-13 06:08:51

体验了纯银的新产品「犬岛」,内在美社交app,通过回答不同的问题来丰富自己的profile。

每个人都有很多故事,每个人都是一本书,刷问题的同时也是在阅读每一个陌生人,这种感觉还真的很奇妙。

所以,即使不抱着社交的目的,刷刷别人的思想,也会对自己有所启发。(至今我回答的两个问题都是从别人的回答得到的启发,而不是主动从问题列表里去答的)

2023-10-14 15:56:12

iPhone的耗电来源又多了一个:Mac小组件

2023-10-16 06:30:45

想读《崇祯》

https://neodb.social/book/5Lz6qmhQeHlGQ8iSZ6tW6E

2023-10-17 04:00:57

百度把搜索、地图、网盘、商业分析产品都加入AI进行重构

2023-10-18 05:00:25

很多图书馆都有龙源的期刊资源,但是读览天下的没有几个有,省立中山图书馆nb

2023-10-20 03:17:57

OpenAI的API服务宕机2个半小时了…… 有Azure OpenAI备用还不错

2023-10-22 14:58:32

胡锦涛、秦刚、李尚福,现在依然不知道下落和近况

2023-10-25 03:14:41

发现github的北极代码存档徽章不显示了

2023-10-26 03:19:46

长二F确实稳啊

2023-10-26 03:29:34

王局还是去的年代向钱看

2023-10-27 02:24:59

也算是十年前投身过大众创业万众创新浪潮。

2023-10-27 05:50:57

Apple has released the developer beta of iOS 17.2, and it includes the new Journal app, a digital daily diary for users to log their activities.

2023-10-27 05:55:57

别了李克强,别了团派!|李克强|习近平|团派|两会|总理|政治斗争|王局拍案20230306 https://www.youtube.com/watch?v=O0p0jsV_eI8&list=PL3bAfMXyZjrPfLIHtd6Phb4R1gBswybSq&index=143

2023-10-28 18:09:39

原来iPad也可以作为homekit家庭中枢

2023-10-31 03:01:28

Apple Event在美西时间17:00开始,30分钟结束,大家下班去过万圣节了~

11月

2023-11-01 08:43:11

上海居然把公交改道,给万圣cos狂欢人群腾了路,这波可以

2023-11-02 06:32:19

今天只发现星巴克和东方甄选刷了灰

2023-11-02 07:16:38

Studio Display Pro赶紧发布吧,需要miniLED和ProMotion拯救下MacBook扩展显示器

2023-11-02 16:00:46

原来只有5个人有过十里长街相送的待遇,李克强这次一大原因是刚离任不久,民众对过去十年是十分有感的。

2023-11-06 06:43:37

Grok AI排队:https://grok.x.ai/

2023-11-07 01:28:33

OpenAI的iPhone 4时刻:https://www.youtube.com/watch?v=U9mJuUkhUzk

2023-11-07 03:27:10

OpenAI的开发者后台也大升级了,Usage统计更加详细,但去掉了每月累计图表

2023-11-07 03:47:26

GPT-4V API开放,支持多张图片与文本混合输入,GPT正式进入多模态时代。图片输入所消耗的token数量按像素尺寸计算。

2023-11-07 03:51:10

DALL·E 3 API也正式开放,图片生成质量大幅提高。

2023-11-07 04:16:54

想看《地球脉动 第三季》

https://neodb.social/tv/season/3smiJE2Hzp1TABMI4N4IXP

2023-11-07 06:44:01

GPTs,直接读作:/ˈdʒiː.piː.tiːz/,意思也相当于GPT的复数,无数个不同角色的GPT

2023-11-08 10:08:34

GPT-4-Turbo和GPT-4-Vision API目前都在Preview阶段,每日请求数限制为200条和100条……只能用来测试体验

2023-11-10 07:21:22

https://humane.center/

2023-11-11 06:55:26

https://www.gptshunter.com/

周三就有开发者做了第三方GPT Store

2023-11-11 08:25:20

关于Humane的一些介绍:

https://hu.ma.ne/

https://x.com/humane/status/1722789149525299491

https://mp.weixin.qq.com/s/IovIZChwAIIT_kmI7Ry7Aw

https://mp.weixin.qq.com/s/IovIZChwAIIT_kmI7Ry7Aw

这就是我想拥有的AI随身记录设备,全天续航,持续记录我的个人数据,可以随时询问回溯。并且投影到手掌显示信息也很酷炫。

想来也是,一些个人助理的事情,最好能语音交互解决,必要的时候才需要显示内容,不一定需要大屏设备。

一些场景:询问眼前食物的热量、第一人称视角拍摄、面对面翻译

2023-11-13 15:17:05

应该有两种带个人数据的AI:

一种是能访问我的消息、通讯录、日历、相册、日记、足迹、健康数据等私密信息的,可供我随时回溯和查询,可以作为我的个人助理;一种是收集了我所有的作品和公开发表的内容,能模仿我的文风语气生成内容的数字分身,他人可以与我的数字分身聊天,交换思想。

2023-11-15 03:25:58

NHK:中国经济失速的真相 https://www.youtube.com/watch?v=4hiolj4PUFw

2023-11-16 07:19:38

中美要么把休斯顿和成都总领馆恢复一下

2023-11-19 05:54:44

还是希望Sam Altman和Greg Brockman回到OpenAI,这个team不是草台班子,罢免Sam的董事会才是。

2023-11-20 08:14:53

连续剧以小时级速度更新……

2023-11-21 02:10:28

本地跑大模型:https://ollama.ai/

2023-11-21 04:57:02

业界有观点认为,GPT-5可能已经在OpenAI内部表现出超越人类的特性,才会使ilya急于阻止sam融资和推向市场。

2023-11-22 03:43:19

本地跑LLM的几个整合包方案:

1、LlamaGPT,Umbrel on Ubuntu https://apps.umbrel.com/app/llama-gpt

2、Ollama & Chatd,支持macOS和linux,https://ollama.ai/

3、ChatGLM3一键整合包,仅支持Windows https://xueshu.fun/3157/

4、Baichuan 2离线整合包,仅支持Windows https://zhuanlan.zhihu.com/p/664308020

5、Pinokio 支持macOS和Windows https://pinokio.computer/

2023-11-22 06:42:52

OpenAI Assistants API,其中的知识库文件上传限制为最多20个,单个文件不超过512MB

2023-11-22 10:07:22

跟进热点做网站获得流量:

Godaddy购买域名;

Github托管代码;

Vercel部署项目;

GoogleSearchConsole管理收录;

ProductHunt冷启动;

2023-11-23 00:46:42

Procreate Dreams的Perform Mode表演模式真的实现了拖拽元素做动画

2023-11-23 06:01:45

vercel和nextjs确实好用

2023-11-23 15:21:20

蓝白合破局,kp啊

2023-11-24 10:02:10

M1的MacBook Pro已经上市三年了

2023-11-26 06:01:17

想看《备忘录 The Memo》

https://neodb.social/movie/1lE3hSp4oQ5Wc8fySnkgJH

2023-11-28 06:18:00

蛋炒饭抗议是一种网络抗议方式,于每年10月24日(毛岸英诞辰日)前后,又或11月25日(毛岸英的死亡日期)发生。 网民以张贴蛋炒饭食谱的方式,作为一种对毛岸英于朝鲜战争期间身亡的微妙讽刺;谣言称,毛岸英是因为做蛋炒饭生火把敌机引来,才牺牲的。

2023-11-28 08:44:30

白纸一周年过了,接下来还有防控新十条一周年、乙类乙管一周年

2023-11-28 09:03:23

大陆影人的作品在金马60拿下最佳剧情片、最佳原著剧本、最佳纪录片和最佳纪录短片奖,可谓创2019年以来的新纪录。

大陆导演兼编剧孙杰(作业本)自编自导的首部剧情片《大山来了》入围本届最佳新导演及最佳原著剧本奖,在最佳新导演奖败给《年少日记》香港导演卓亦谦,但《大》拿下最佳原著剧本奖。有指,孙杰本欲出席11月24日的新导演电影论坛,但金马网站突然宣布孙杰因“行程异动”无法参加。他未出席颁奖典礼,由友人代为领奖。

记录上海因冠病疫情封城的《备忘录》获得最佳纪录短片奖;最佳纪录片奖由大陆导演王兵聚焦童装工厂年轻工人的《青春(春)》,击败许鞍华、蔡明亮和赵德胤的作品夺得。

2023-11-29 03:15:00

想读《疫年纪事》

https://neodb.social/book/1UusbLJzXLOl1oBSOXk0q3

2023-11-29 13:50:14

《黑铁的鱼影》BD/DVD今日发行,大陆定档12/16

2023-11-30 02:19:41

ChatGPT发布一周年。

2023-11-30 13:07:46

魅族21太漂亮了

12月

2023-12-04 03:27:24

中国教育部今天在全国中小学举办了宪法晨读活动,直播信号来自 https://static.qspfw.moe.gov.cn/2023xfr/index.html 没有在CETV进行直播。

2023-12-04 11:38:38

五月天演唱会完全是听个氛围,一起边唱边跳。如果真有垫唱的情况完全可以理解,这个我觉得不算假唱,又不是直接拿CD音源来放 :0060:

2023-12-06 14:47:20

Pika 1.0就像是Midjourney v5发布时的效果

2023-12-06 16:01:37

Bard已经升级到Gemini Pro模型

2023-12-08 07:07:13

Grok的中文能力明显较差,逻辑能力也不怎么样,唯一亮点就是有X的实时搜索结果作为信源。

2023-12-09 14:33:06

这周二刷了疯狂动物城和飞屋环游记,有发现以前看的时候没注意的细节

2023-12-13 04:27:17

https://trends.google.com/trends/yis/2023/GLOBAL/

Google年度热搜榜

2023-12-13 16:33:46

https://blog.google/technology/ai/gemini-api-developers-cloud/

2023-12-14 09:14:47

再次感慨,AI一天,人间一年。

2023-12-15 05:21:04

happyrain的碳纤维伞肯定能上我的年度产品榜

2023-12-15 06:01:21

crisp这个在线客服工具甚至能看到用户的浏览器界面……

2023-12-15 06:32:48

doubao.com和ciciai.com是字节AI chatbot同一个产品的国内版和国际版……

2023-12-15 15:41:49

我只希望我的朋友们——无论是多年至交、已无联系的同窗还是萍水相逢的网友,能够不被这些眼光所裹挟,能够在自己的舒适区中实现精神的自洽和作为人的自由。

2023-12-16 18:28:26

《黑铁的鱼影》里竟然出现了deepfake的应用……反思人脸识别的过度使用

2023-12-17 15:41:59

https://www.fal.ai/camera

逆天了,输入人名,立即实时deepfake

2023-12-18 06:36:16

英国核废料储存设施被指泄露,多国关注核安全隐患 https://theinitium.com/zh-Hans/article/20231213-whatsnew-international-uk-sellafield

2023-12-19 06:52:32

Arc Browser的书签Folder分享功能不错,展示美观,适合公开发布。

2023-12-19 08:02:54

https://a16z.com/big-ideas-in-tech-2024/

2023-12-20 12:59:44

每次穿新衣服的第一天,吃饭必然会洒到衣服上 :0170:

2023-12-20 19:02:33

今年的很多数据都是在跟2019年对比,仿佛2019年就是去年。

2023-12-21 06:03:10

阿联酋教育部还做了个这:https://chat.milo.dev.digest.ai/

2023-12-21 15:04:53

#nowplaying 圣诞星 – 周杰伦&杨瑞代

https://y.qq.com/tl_live/client/liveroom_pc/index.html?showid=10000746&_wv=1

2023-12-23 15:55:46

哈雷彗星最近一次经过远日点的时间是在2023年12月9日。远日点是彗星轨道上离太阳最远的点,哈雷彗星在这次经过远日点时距离太阳大约是35.1天文单位。

(扫把星开始奔向地球,2061年见

2023-12-24 01:45:15

怎么还没有轻便好用日常能穿的风火轮鞋子

2023-12-25 04:28:09

电视剧里的角色用的是iPhone4,瞬间反应过来是十几年前拍的

2023-12-27 06:47:31

年终总结多到看不完了

2023-12-28 14:57:16

香港这几年的变化还不小

2023-12-31 14:38:45

刚才是一首什么奇怪版Queencard。。。