分类目录归档:产品相关

HarmonyOS NEXT开启公测,微信1.0.0版同步内测,应用生态逐渐完善

华为于2024年10月8日宣布开启手机版原生鸿蒙操作系统HarmonyOS NEXT的公测,首批开启公测的设备共3个系列14个型号(Mate60系列、MateX5系列、MatePad13寸2024款)。

华为自今年1月中旬开始启动开发者内测,6月底至9月底经过4轮先锋用户内测,现在正式进入公测,但国民级超级应用“微信”一直没有上架鸿蒙应用市场。随着公测开启,腾讯也终于宣布微信同日开启邀请内测,内测时间为10月8日至12日。从部分参与内测的用户分享截图来看,鸿蒙原生版微信的版本号为1.0.0,首页标题为“微信测试版”,目前已有基础通信(支持消息和音视频聊天,暂不支持引用消息/语音转文字/从图片提取文字/收发文件/红包等)、公众号、小程序(仅支持下拉查看“最近使用的小程序”,暂不支持搜索)、朋友圈、扫一扫、收付款及零钱包等功能,暂不支持视频号及直播。

WXG员工@客村小蒋 在微博分享了鸿蒙原生版微信的开发难点:

1、鸿蒙原生版和 iOS、安卓有啥区别?

原生鸿蒙(HarmonyOS NEXT)完全是一套新的技术框架,编程语言是独特的 ArkTS 语言,这意味着所有的 app 都要完全重写。

技术同事说,开发微信鸿蒙原生版有当年做第一版微信的感觉,很多问题,大家要对着文档边做边学。

2、微信鸿蒙原生版功能怎么现在才出来?

参考问题 1,虽然切换一种新的编程语言,不是大问题,但一些技术问题,用新的工具解决后,它的稳定性也要重新测试。原生鸿蒙系统的公测,华为目前也仅开放了 Mate 60、Mate X5 两个系列的手机。大家都要谨慎对待一个新生态。

3、微信鸿蒙原生版目前体验如何?能做日常使用吗?

先说结论,如果你有两个微信号,主要用来和亲密的朋友联系的小号问题不大,工作用的大号我建议再稍等等。

目前单聊、群聊中发图片、视频,音视频通话,朋友圈,以及微信支付的二维码收付款功能都 ok 了,但还有一些功能,比如发文件、看视频号、部分小程序使用、发红包等还要等等。如果你比较依赖某些功能,可以再稍等等,功能会逐步完善。

4、怎么申请内测?

现在是小范围邀请内测,如果还没收到邀请,不要着急,预计很快会跟更多朋友见面。相信我,技术同事的键盘已经快敲冒烟了。

5、还有什么需要注意的问题?

记得数据备份。记得数据备份。记得数据备份。

华为提供了从原生鸿蒙回退到鸿蒙 4.2(可以兼容安卓应用)的选项,但回退会清空数据,手机本地的微信聊天记录就没了。

这名工程师还在评论区回答了许多网友的问题,罗列部分如下:

怎么才能知道自己是否收到了内测邀请呢?

如果收到邀请,华为账号绑定的手机号或邮箱会收到短信或邮件。

转账功能可以正常使用吗?

还不行,这个会优先完善。

消息通知有没有延迟?

我目前没遇到延迟。

是不是还没有小程序?

需要开发者做下适配,但不是重新开发,部分小程序已经可以用了。

换到鸿蒙微信,聊天记录是不是会被清空了?

不会,但升级 next 后再回退 4.2 的话,会清掉。

鸿蒙微信朋友圈后面会支持发送动图吗?

目标是所有功能都对齐,但这个功能预计要晚一些,另外非 iOS 平台的 live 图还有个标准不统一的问题。

既然都出原生版了,为什么不直接开放全量内测?然后直接在设置里面开一个反馈入口,这样不是能够收集更多问题、提高收集效率吗?现在还要邀请才能内测。腾讯啥新产品怎么都慢吞吞的?很小部分人内测怎么收到更多的建议和 bug 反馈呢?

涉及的功能多,一些功能比如支付,对安全性、稳定性的要求极高,只能先用通行的安全的做法:先内部测试,再小范围外部内测,再扩大范围、公测,直到正式版。

10/12更新:

NEXT里不再有AOSP的代码,但浏览器还是基于Chromium的,版本114,依赖后续升级;

NEXT已有开发者做出hap安装包的AutoInstaller,可以侧载Stream串流应用Moonlight和网络调试应用ClashMeta等。

2024年下半年,Windows XP还能用吗?

微软前几天刚发布了Windows 11 24H2,但最近我又翻出了XP虚拟机,这个在十年前就结束支持的操作系统,现在大部分软件的当前版本已经不再支持。那么,还有办法让它在发布23年后继续日常使用吗?

我这个虚拟机是Windows XP SP3 32-bit中文版,装完VMware Tools之后,通过宿主机联网没有问题,但IE6现在几乎无法打开任何网站,首先要解决的就是找一个现代浏览器。

搜了一下,装了Firefox的最后支持版本,52.9.0ESR https://ftp.mozilla.org/pub/firefox/releases/52.9.0esr/,但依然有很多网站无法正常显示。

再搜了一下,发现竟然有人基于Chromium最新代码在维护旧版操作系统能用的浏览器,这就是Supermium,最新版更新到126,是一个用于 Windows XP/2003 及更高版本的 Chromium 浏览器分支。安装之后,Windows 11能打开的网站,它都能打开了。

然后,到微软官方装一下SP3的各种补丁:https://www.catalog.update.microsoft.com/Search.aspx?q=xp%20sp3

然后,根据下面的帖子,装了一些常用软件,微信、TIM、搜狗输入法、7-zip、Office2010、酷狗、迅雷、PotPlayer等,可以说基本的使用没啥问题了。

https://zhuanlan.zhihu.com/p/348144558

https://zhuanlan.zhihu.com/p/409430401

最后来回顾一下从XP到Vista的开发历程:https://community.wvbtech.com/d/1387

生成式AI大模型动态周报

周报源自得效团队博客,自2023年1月底创刊,2024年1月起更名为《生成式AI大模型动态周报》,主要关注主流生成式AI大模型的技术与产品动态。

issue46 2023.12.11-12.17

智谱AI近日提出了可解释、可扩展的文本质量评价模型CritiqueLLM,该模型可以针对各类指令遵循任务上大模型的生成结果提供高质量的评价分数和评价解释。评价结果显示,在各项任务上660亿参数的CritiqueLLM与人工评分的相关系数均超过ChatGPT,达到和GPT-4相当的水平。尤其是在具有挑战性的无参考文本设定下,CritiqueLLM能够在3项任务(包括综合问答、文本写作和中文理解)上超过GPT-4,达到目前最优的评价性能。

理想汽车微信公众号发文,在理想汽车智能软件发布会上,该公司发布了全自研多模态认知大模型Mind GPT,该模型围绕车载场景打造,拥有理解、生成、知识记忆及推理能力。据介绍,Mind GPT基于理想同学的重点场景,量身定制了覆盖111个领域、超过1000种以上的专属能力,基于该模型的AI理想同学将以邀请内测形式面向用户逐步开放。

AI创企Runway于官网宣布开展围绕通用世界模型(General World Models)的长期研究工作,目标是表现和模拟与现实世界中一致的广泛的互动。Runway称,其目前的Gen-2等视频生成系统可以看作是非常早期的通用世界模型,对物理和运动有一定的了解,但在处理复杂的摄像机或物体运动等问题上仍有困难。为了建立通用的世界模型,Runway正在进行几项公开的研究,包括生成环境地图,在环境中导航和交互,捕捉世界和世界中居民的动态,建立逼真的人类行为模型等。

12日凌晨,李飞飞的斯坦福团队与谷歌联合发布用于生成逼真视频的扩散模型W.A.L.T,基于Transformer训练而成,支持文生视频、图生视频和3D摄像机运动。据介绍,该方法有两个关键的设计,一是使用因果编码器,在统一的潜空间内联合压缩图像和视频,从而实现跨模态的训练和生成;二是为了提高记忆和训练效率,使用了为空间和时空联合生成建模量身定制的窗口注意力架构。最后,团队针对文本到视频的生成任务训练了由三个模型组成的级联,包括一个基本潜在视频扩散模型和两个视频超分辨率扩散模型,能够以每秒8帧的速度生成分辨率为512*896的视频。

12月13日,国际顶刊《自然》(Nature)公布2023年度最具影响力科学家10人名单,其中OpenAI首席科学家伊利亚·苏特斯科夫(Ilya Sutskever)作为“AI梦想家”入选,因为他在ChatGPT的开发中发挥了核心作用,同时关心AI的安全和未来。此外,ChatGPT作为非人类首次入选,旨在承认它在模仿人类语言的AI在科学发展和进步中所发挥的作用。

谷歌宣布大模型Gemini Pro现已推出API(应用程序接口),目前支持32k上下文窗口,在一定限制内可免费使用,具有函数调用、嵌入、语义检索和自定义知识基础以及聊天功能,支持全球180多个国家和地区、38种语言,支持文本、图像输入和文本输出,提供SDK(软件开发工具包)。用户现在可在在线免费开发者工具Google AI Studio、云托管AI平台Vertex AI上使用该模型。定价方面,免费版本支持每分钟最多60个请求,但输入输出数据将被用于改善谷歌的模型。

谷歌宣布在Vertex AI托管平台中推出新的文生图模型Imagen 2、医疗保健行业模型MedLM,还全面推出面向开发者的代码工具Duet AI。Imagen 2支持自然语言生成高分辨率的逼真图像、生成Logo以及视觉对话。Imagen 2还推出了文本渲染支持,可以在图像上生成准确的文字,此前只有OpenAI的DALL-E 3支持该功能。Imagen 2支持英语、中文、印地语、日语、韩语、葡萄牙语、西班牙语7种语言,包含内置安全预防措施,集成数字水印服务。

Meta生成式AI副总裁Ahmad Al-Dahle于社交平台Threads宣布,Instagram现已推出AI图像背景编辑工具,可通过自然语言为图像一键生成并更换背景。

12月14日,文心一言插件商城正式上线,商城集合众多高质量插件,覆盖办公提效、多模态内容理解生成、专业信息查询等许多实用场景,用户只需通过简单指令,即可实现PPT生成、音视频提取、思维导图制作等多场景多模态下的需求,实现“指令即服务”的便捷体验。开发者也可以根据需求,自己亲自设计插件。

12月14日,Stability AI推出从单张图像生成3D对象的模型Stable Zero123。该模型基于Stable Diffusion 1.5建立,面向非商业和研究用途开源模型权重,与上一代Zero123-XL相比,训练效率提升了40倍。

当地时间周四,英特尔在纽约举行“AI Everywhere”活动,正式推出代号为Meteor Lake的新型酷睿Ultra处理器。该处理器专为支持AI技术所设计,内置AI加速引擎,可更快地运行AI程序。酷睿Ultra处理器有三种不同的配置,分别是酷睿Ultra 5、酷睿Ultra 7和酷睿Ultra 9。英特尔称,与AMD Ryzen 7 7840U、高通骁龙8cx Gen 3和苹果自研M3芯片等笔记本电脑处理器相比,酷睿Ultra 7 165H芯片的多线程性能提高了11%。与之前的英特尔酷睿i7-1370P相比,它的功耗降低了25%,比AMD的Ryzen 7 7840U的功耗降低了79%。英特尔的所有新CPU还将配备NPU,即神经处理单元,提供“低功耗AI加速和CPU/GPU卸载”,能够执行AI驱动的任务,如背景模糊、眼动追踪和图片框架等。

issue47 2023.12.18-12.24

微软于官网宣布在最新的Visual Studio预览版中,向GitHub Copilot Chat订阅用户推出AI驱动的变量、方法和类命名建议新功能。据介绍,该功能不仅能提供名称建议,还能了解标识符的使用方式和代码风格,从而提出与代码库无缝匹配的标识符,帮助用户提高代码的可读性和可维护性,确保代码在未来数年内的使用寿命和易懂性。

12月19日,百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API(应用程序接口),包含Baichuan2-Turbo-192K及Baichuan2-Turbo。在支持192K超长上下文窗口的基础上,还增加了搜索增强知识库的能力。即日起,API用户可上传文本资料来创建自身专属知识库,从而根据自身业务需求打造更完整、高效的智能解决方案。此外,百川智能还升级了官网模型体验,目前其官网大模型已支持PDF、Word等多种文本上传以及URL网址输入,用户可通过官网入口体验搜索增强和长窗口加持后的通用智能。

12月20日,谷歌于官网宣布将AI代码辅助功能扩展到所有Colab用户,包括免费用户,现已在175个地区推出。Colab是谷歌提供的一个在线工作平台,可以免费使用GPU进行深度学习,支持Jupyter Notebook和代码执行程序。

比尔盖茨发布年度展望博客,其中谈道:“如果让我做个预测,在美国这样的高收入国家,我猜离普通民众大量使用AI还有18-24个月的时间。而在非洲国家,我预计在3年左右的时间里,AI的使用就会达到相当的水平。这仍然是一个差距,但比我们在其他创新中看到的滞后时间要短得多。”他还提到,希望AI在抗生素药物、个性化教育、高危妊娠治疗、艾滋病风险评估、医疗信息获取等方面能够得到更广泛的应用。

12月22日,在全国信息技术标准化技术委员会AI分委会全体会议上,国内首个官方“大模型标准符合性评测”结果公布,阿里云通义千问、百度文心大模型、腾讯混元大模型、360智脑大模型首批通过评测,在通用性、智能性等维度均达到国家相关标准要求。

昆仑万维AI Agents开发平台“天工SkyAgents”Beta版正式开放测试。据介绍,天工SkyAgents开发平台基于昆仑万维“天工大模型”打造,具备从感知到决策,从决策到执行的自主学习和独立思考能力。用户可以通过自然语言构建自己的单个或多个“私人助理”,并能将不同任务模块化,通过操作系统模块的方式,实现执行包括问题预设、指定回复、知识库创建与检索、意图识别、文本提取、http请求等任务。

issue48 2023.12.25-12.31

12月24日,OpenAI CEO萨姆·阿尔特曼(Sam Altman)于社交平台X上发帖询问网友对于OpenAI明年应该建设或修复哪些功能的建议,随后他总结了一些常见的请求,包括AGI、GPT-5、更好的语音模式、更高的速率限制、更好的GPTs、更好的推理、控制行为的程度、视频功能、个性化、更好的浏览、使用OpenAI登录、开源等。其中,他在AGI后面标注“请耐心等待”,并称“对于AGI的请求比预期多得多,但很抱歉,我认为我们无法在2024年实现这一目标”,他还提到将“尽可能满足这些需求,以及许多其他未被网友提及、但令OpenAI团队自己感到兴奋的功能”。

AI创企Pika于社交平台X宣布面向所有用户开放旗下视频生成平台Pika 1.0网页端访问权限。据悉,Pika成立于2023年4月,创始人郭文景(Demi Guo)和Chenlin Meng都是斯坦福博士。Pika 1.0不仅能根据文字、图片或视频风格生成三维动画、动漫、卡通和电影等不同风格的视频,还能对视频局部进行编辑。

Kimi Chat发布v1.2版本,模型更新至moonshot-v1-20231225,平均输出长度提升;在联网模式下,首字回复的速度大幅提升;实现了从扫描件(文档、合同、白板等)提取文字的功能,目前已支持PDF格式的扫描文件上传解析。交互方面,Kimi Chat推出小程序“Kimi智能助手”,网页端上线浅色模式。

有网友发现,微软已于一周前悄然推出安卓版Copilot应用程序,用户可从Google Play商店下载。应用程序描述显示,Copilot由最新的OpenAI模型、GPT-4和DALL·E 3提供支持,这些先进的AI技术提供快速、复杂和精确的响应,并且免费。截至目前,微软暂未推出iOS版Copilot。

12月26日,2023联想天禧AI生态伙伴大会在北京召开。会上,联想集团副总裁、中国区消费业务群总经理张华发布了联想天禧AI生态“四端一体”战略。“四端”分别指的AI PC、AI平板、AI手机和AIoT四类终端设备,“一体”则有两层含义,一方面指的是承接用户个人助理任务的个人智能体,另一方面也意味着个人智能体穿梭于四类AI终端,使其融为一体。同时,联想的AI个人智能体“小乐同学”首次亮相,并面向广大生态开发者伙伴启动智能体小程序招募计划。

微信宣布将于2024年1月11日在广州举办2024微信公开课PRO,将发布产品能力、展示价值理念、沟通生态伙伴、凝聚行业共识。2024微信公开课PRO期间,小游戏、微信AI等也将悉数登场,带来多项能力升级与案例分享。

韩国文化部宣布将不对AI生成的内容进行版权登记,从法律上不承认此类内容的创造性。文化部补充说,只有那些明显传达人类思想和情感的作品才有可能进行版权登记。这一决定将很快在面向AI企业、版权持有者和用户的“AI版权指南”中公布,指南还规定,AI企业需要向版权持有者提供公平的补偿,以确保其产品的使用权,建议版权持有者明确表达其意图或采取技术措施,以防止其创作被用于AI研究。

issue49 2024.1.1-2024.1.7

外媒The Information发文总结2023年最难忘的10个AI时刻,包括OpenAI与微软伙伴关系继续、Meta Llama改变赛况、GPT-4发布、3万多人联名呼吁暂停AI模型训练、AI Agent兴起、美国总统拜登的AI行政命令与欧盟AI法案、GitHub Copilot付费用户超过100万、多模态兴起、OpenAI CEO萨姆·阿尔特曼(Sam Altman)的感恩节压力、等待谷歌Gemini。

中文大模型测评基准SuperCLUE发布《中文大模型基准测评2023年度报告》,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告包括国内大模型关键进展、测评体系、方法说明、大模型综合测评结果、SuperCLUE2.0升级、四大维度测评分析及示例介绍以及优秀模型案例介绍等内容。

据Windows Central报道,微软正在对其Surface产品线进行重大更新。Surface Pro和Surface Laptop都将首次提供英特尔和Arm版本,并且都将配备下一代NPU(神经处理单元)芯片。这些代号为CADMUS的PC将被设计用来运行微软正在打包到未来版本Windows中的AI功能。新设备将在春季发布,并将作为微软首款真正的AI PC推向市场。

美图公司自研AI视觉大模型MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案,将面向公众开放。在当前通过备案的国内大模型当中,MiracleVision(奇想智能)是唯一专注视觉领域的大模型,也是福建省唯一通过备案的大模型。

1月2日,调研机构WriterBuddy发布一项新调查,通过使用SEO行业知名工具SEMrush研究3000多种AI工具,其筛选出2022年9月至2023年8月访问量最大的50款工具,这些AI工具吸引了超过240亿次访问量。其中,ChatGPT以140亿次访问量位居第一, 占分析流量的60%以上。AI聊天机器人类工具最受欢迎,访问量达到191亿次。

对话式搜索引擎创企Perplexity AI的CEO Aravind Srinivas在社交平台X上公开回应有关竞争不过搜索引擎大厂谷歌的质疑,称Perplexity存在的原因是通过更少的关键字查询、筛选、链接点击、页面浏览,提高搜索效率和信息访问效率;直接找到问题根源,然后用一个简洁、清晰、个性化的答案,便于人们做出决定,这与谷歌的财务和商业目标是不一致的。

1月3日消息,据日经亚洲报道,日本相机“三巨头”尼康、索尼和佳能即将推出新技术,让照片的来源变得更容易验证。该技术允许摄影师通过相机本身嵌入数字签名,包含摄影师姓名、拍摄日期、时间和地点等信息,然后通过一个名为Verify的免费网络应用程序进行认证,该应用程序由媒体机构、相机制造商和科技公司组成的全球联盟推出。

1月4日,AI搜索引擎aoyo.ai在ProductHunt发布,称可用母语搜索全网内容并总结,其首个版本支持英语、中文、日语、西班牙语。

钉钉联合国际知名咨询机构IDC发布首份《2024 AIGC应用层十大趋势白皮书》。随着AIGC技术的发展,智能化应用将呈现爆发式增长,IDC预测,到2024年全球将涌现出超过5亿个新应用,这相当于过去40年间出现的应用数总和。根据《白皮书》,2024年AIGC应用的十大趋势关键词涵盖应用层创新、AI Agent、专属模型、超级入口、多模态、AI原生应用、AI工具化、AI普惠化。

网易有道发布子曰教育大模型的2.0升级、虚拟人口语教练Hi Echo的2.0升级,同时发布了有道速读、全新AI家庭教师应用小P老师以及新一代AI学习机X10。据介绍,小P老师能够回答语文、数学、英语、生物、历史等10个学科的问题,支持拍照、语音、文本输入,并将首次落地学习机X10。新一代AI学习机X10首创学习机、学练机和学生专属电脑三合一模式,覆盖全学科、学段,提供墨水屏模式模拟纸质学习场景,内置编程软件、WPS等应用,学习机内的小P老师、Hi Echo等应用终身免费且持续升级。

科技部于12月21日发布《负责任研究行为规范指引(2023)》,其中提到科研人员在申报研究项目材料时,不得使用生成式AI直接生成申报材料,应依规合理使用生成式AI处理文字、数据或学术图像,防范伪造、篡改数据等风险。在文献引用方面,使用生成式AI生成的内容应明确标注并说明其生成过程,对其他作者已标注为AI生成内容的,一般不应作为原始文献引用。成果署名方面,生成式AI不得列为成果共同完成人,应在研究方法或附录等相关位置披露使用生成式AI的主要方式和细节。学术出版单位应应要求作者披露是否使用生成式AI,提醒审稿人在审稿过程中使用生成式AI应依规谨慎。

deepin(深度)操作系统于官网发文,宣布近日推出了一款“看图AI插件”,用户在安装后即可在设备端体验8种AI修图功能,分别是图像上色、提升分辨率、模糊背景、删除背景、手绘漫画、2D漫画、3D漫画、素描。这些功能不依赖于互联网在线模型,也不受制于算力的硬件约束,在PC单机上可轻松运行。

微软将其安卓和iOS平台的移动浏览器应用名称从“微软Edge”改为了“微软Edge:AI浏览器”,强调了其目前最重视的AI领域。除了新的名字,该浏览器在介绍中也宣传了新的AI功能,如DALL-E 3图像生成器、Copilot文章摘要、图像识别等,还强调了对GPT-4的支持。

issue50 2024.1.8-1.14

近日,清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent的CogAgent,CogAgent 是一个通用的视觉理解大模型,具备视觉问答、视觉定位、GUI Agent 等多种能力,可接受 1120×1120 的高分辨率图像输入。在 9 个经典的图像理解榜单上取得了通用能力第一的成绩,并在涵盖电脑、手机的 GUI Agent 数据集上,大幅超过基于 LLM 的 Agent,取得第一。目前团队已将 CogAgent-18B 开源至 GitHub 仓库,并提供了网页版 Demo。CogAgent 的模型结构基于 CogVLM。

美团、浙大等推出了能够在移动端部署的多模态大模型MobileVLM,包含了 LLM 基座训练、SFT、VLM 全流程。MobileVLM 是一款专为移动设备设计的快速、强大和开放的视觉语言助手。它结合了面向移动设备的架构设计和技术,包括从头开始训练的 1.4B 和 2.7B 参数的语言模型、以 CLIP 方式预训练的多模态视觉模型,以及通过投影实现的高效跨模态交互。在各种视觉语言基准测试中,MobileVLM 的性能可媲美大型模型。

issue51 2024.1.15-1.21

1月16日,智谱AI 在DevDay上发布了新一代基座大模型GLM-4,定制化的个人GLM大模型GLMs和GLM Store。与上一代ChatGLM3相比,GLM-4在综合能力上实现了全面跃升,性能提升了60%,已经逼近GPT-4。它具备更强的多模态功能,支持更快的推理,更多并发,推理成本大大降低。同时,GLM-4也增强了智能体能力。GLM-4带来128K的上下文窗口长度,也就意味着,在单次提示词中,可处理文本达到了300页。GLM-4的文生图和多模态理解都得到增强。

同日,智谱还推出CogView3,效果明显超过开源最佳的Stable Diffusion XL,逼近DALL·E 3。相对之前,CogView3的语义理解能力都得到大大增强。

1月15日,微软宣布推出个人版Copilot Pro订阅服务,每月20美元,可以使用Office AI功能,目前在美国、英国、法国、德国等地可用,后续还将扩大可用地区。这意味着个人用户也可以开始使用AI驱动的Office功能,其中包括使用Office软件的AI功能、优先访问最新的OpenAI模型、甚至构建自己的Copilot GPT。

1月17日,上海人工智能实验室与商汤科技联合香港中文大学、复旦大学发布新一代大语言模型书生·浦语2.0(InternLM2)。这个大模型包含70亿和200亿两种参数规格,以及基座、对话等版本,向全社会开源并提供免费商用授权。InternLM2能够一次性处理约30万汉字的输入内容,从中准确提取关键信息,实现对长文本的“大海捞针”。

issue52 2024.1.22-1.28

1月25日,OpenAI发布了一系列重磅大模型更新,连发了五个新模型以及新的API使用管理工具。包括:新的GPT-3.5 Turbo模型,输入价格暴降50%,输出价格降低25%,同时修复各种BUG,回应准确性更高;新的GPT-4 Turbo Preview模型,生成代码能力更强,模型“变懒”情况减少,修复各种BUG;新的小型文本嵌入模型text-embedding-3-small,性能小幅提升,价格降至上代的五分之一;新的大型文本嵌入模型text-embedding-3-large,性能强,可创建多达3072维的嵌入,部分测试性能提升70%以上,价格略贵。同时,OpenAI还直接让开发者在略微损失精度的情况下缩短嵌入,实现性能和成本的平衡;新的审查模型text-moderation-007,OpenAI将其称之为“迄今为止最强大的审查模型”。

1月25日,谷歌研发出全新的时空扩散模型 Lumiere(法语,启蒙者),几乎集齐了常见AI视频生成和编辑功能,也是先进的视频生成器。Lumiere 会根据用户自然语言提示,创造出非常逼真(高质量超现实主义)视频,时间长达五秒。模型的图片到视频功能可以根据用户提示,让静止的图像动起来。谷歌研究人员在 Lumiere 中引入了一种“时空 U-Net 架构” Space-Time U-Net(STUNet),一次构建了整个视频长度, 能够学习将视频信号在空间和时间上同时进行下采样和上采样,并在网络的压缩空间时间表征上执行主要计算。

1月26日,阿里云公布多模态大模型研究进展。通义千问视觉理解模型Qwen-VL再次升级,继Plus版本之后,再次推出Max版本,升级版模型拥有更强的视觉推理能力和中文理解能力,能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩,比肩OpenAI的GPT-4V和谷歌的Gemini Ultra。相比Qwen-VL,Qwen-VL-Plus和Qwen-VL-Max拥有更强的视觉推理和中文理解能力,整体性能堪比GPT-4V和Gemini Ultra。

issue53 2024.1.29-2.4

1月30日,科大讯飞升级了讯飞星火大模型。讯飞星火V3.5除了七大能力全面提升,整体能力接近GPT-4,还特别在语言理解、数学等能力上实现超越。技术方面,讯飞的语音大模型将更多语音表征解耦,融入到大模型预训练中。在多语种识别中,在首批37个主流语种效果超过OpenAI Whisper 3。并且在多语种语音生成、超拟人语音生成上,也有一定的提升。目前语音大模型已经向开发者完全开放,并且首发搭载在讯飞翻译机上面。

Midjourney二次元模型Niji-Journey V6上线,能把控日漫欧美动漫风格,甚至图中还能生成字体,输入/settings,然后点击Niji Model 6就可以在任何discord机器人上打开使用。目前,Niji V6还在内测中,预计在2月底正式推出,并将带来Vary、Pan、Zoom等特色功能。

2月2日,谷歌官方宣布:在最新版Gemini Pro的加持下,Bard不仅获得了推理、理解、总结、编码能力的迅速飞升,而且还能支持230多个国家的40多种语言。为了负责任生成,Bard生成的图像都将由SynthID进行标记。SynthID是谷歌DeepMind开发的一种水印工具,可将数字水印直接嵌入到我们生成的图像的像素中。SynthID的水印人眼无法察觉,但可检测以进行识别。

2月2日,欧盟27国代表投票一致支持《人工智能法案》文本,标志欧盟向立法监管人工智能迈出重要一步。法案要求所有通用人工智能模型遵守透明度义务,同意严格限制面部识别等技术的应用,禁止对人类安全造成“不可接受风险”的人工智能系统。

issue54 2024.2.5-2.11

2月6日,通义千问大模型(Qwen)的 1.5 版上线了。新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最强版本的性能超越了 GPT 3.5、Mistral-Medium,包括 Base 模型和 Chat 模型,且有多语言支持。Qwen 1.5 支持 32K 上下文长度;开放了 Base + Chat 模型的 checkpoint;可与 Transformers 一起本地运行;同时发布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 权重。本次更新着重提升了 Chat 模型与人类偏好的对齐程度,并且显著增强了模型的多语言处理能力。

2月8日,谷歌宣布大模型体系全面进入了 Gemini 时代,并带来最新的 Gemini Ultra 模型。Gemini Ultra 1.0 是第一个在 MMLU(大规模多任务语言理解)超越人类专家的 AI 模型,结合了 57 个科目,包括数学、物理、历史、法律、医学和伦理学,用来测试大模型知识和解决问题能力的基准。谷歌官宣四项AI新进展:大模型版本Gemini Ultra 1.0全面开放;聊天机器人Bard正式官宣改名为Gemini;安卓版新“Gemini”应用程序上线;全套办公工具Google Workspace、谷歌云中的所有AI协作工具Duet AI也改名为Gemini。

issue55 2024.2.12-2.18

2月16日, OpenAI发布视频生成模型Sora,称构建了一个“物理世界的通用模拟器”。它是一种通用的视觉数据模型,能够生成各种持续时间、宽高比和分辨率的视频和图片,甚至长达一分钟的高清视频。Sora是一种基于Transformer架构的扩散模型,有很强的扩展性,从噪声开始,能够一次生成整个视频或扩展视频的长度,一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。不同于LLM使用的文本token,Sora使用的是视觉patch。还采用了DALL·E 3中的重新标注技术,应用在了视频上。目前Sora根据图像和文本提示生成视频,已经能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。

2月14日,作为测试的一部分,OpenAI 开始为一小部分 ChatGPT 免费和付费用户推出新的“记忆”功能,并在未来进行大规模的推广。该功能可让用户明确告诉 ChatGPT 记住某些内容或者用户查看它记住了什么。ChatGPT 的记忆功能完全由用户掌控,也可以随时关闭这种功能。ChatGPT 的记忆会随着互动而演变,并且与特定对话无关。删除聊天记录并不会消除其记忆,必须删除记忆本身。

issue56 2024.2.19-2.25

2月21日,谷歌宣布推出全新开源模型Gemma,拉丁语中意为“宝石”。Gemma 是先进的轻量级开放模型系列,采用了与创建Gemini模型相同的研究和技术。本次,谷歌发布了Gemma的两个版本:Gemma 2B(20亿参数)和Gemma 7B(70亿参数)。每种规模都提供了预训练和指令微调版本。当前,Gemma 2B和7B允许所有组织(无论规模大小)负责任地进行商用和分发。

MWC2024 将于 2 月 26 日至 29 日在西班牙巴塞罗那举行,联想集团将推出最新的人工智能设备和基础设施及解决方案组合,并展示两款挑战传统个人电脑和智能手机外形的新概念产品。秉承AI for All的愿景,联想集团将在 MWC 上推出多款全新 AI PC 和边缘计算解决方案,加速促进该技术在 2024 和 2025 年成为主流,混合人工智能的趋势将刺激 AI PC 和 AI Phone 的需求,并推动新的行业更新周期。

issue57 2024.2.26-3.3

2月26日,谷歌团队发布110亿参数Genie精灵。Genie是一种全新的生成式AI范式,仅凭一张图像,就能创造出互动性强、可玩的环境,创造出可玩的虚拟世界,动作可控碾压Sora。Genie学习了20万小时的未标注互联网视频,主要包括2D平台游戏和机器人领域的视频,无需监督即可训练。无需任何动作标注,便可以确定谁是主角,并让用户能够在生成的世界中对其控制。Genie是通过潜动作模型、视频分词器,以及自回归动态模型三大核心组件来实现的。

2月27日,开源社区Mistral AI发布旗舰模型Mistral Large(不开源),具备卓越的逻辑推理能力,能够处理包括文本理解、转换以及代码生成在内的复杂多语言任务。在主流基准测试中,Mistral Large,成绩仅次于GPT-4。Mistral Large能够母语般流利地使用英语、法语、西班牙语、德语和意大利语,深刻理解各自的语法规则和文化背景;能够处理32K Token的上下文内容;在执行具体指令方面异常精准;支持函数调用。目前,这个新旗舰模型仅在Azure AI和Mistral AI平台上可用。其中,在Azure AI上的定价如下:输出为0.024美元/1000 token,输入为0.008美元/1000 token。

issue58 2024.3.4-3.10

3月5日,Anthropic发布了最新的Claude 3系列模型,在多模态和语言能力指标上,包括推理、数学、编码、多语言理解和视觉方面,碾压GPT-4。本次发了三个模型Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus,能力依次从低到高,都将至少支持20万token的上下文窗口,都能处理超过100万token的输入。目前,Opus和Sonnet已经可以在claude.ai以及覆盖159个国家的Claude API上使用了。Haiku模型也将很快推出。

3月10日,Pika发布了一项Sound Effects新功能,可以给视频无缝生成音效。Pika给视频生成音效的操作简单。相比于此前生成视频的操作,现在只需开启下方“Sound effects”按钮即可。或者在生成了视频过后,点击下方的“Edit”,再选择“Sound Effects”单独给它配音。Sound Effects功能目前只对超级合作者(Super Collaborator)和Pro用户开放测试。

issue59 2024.3.11-3.17

3月14日,国内的大模型独角兽公司零一万物正式发布了 Yi 大模型 API 开放平台。此次 API 开放平台提供以下模型:Yi-34B-Chat-0205:支持通用聊天、问答、对话、写作、翻译等功能。Yi-34B-Chat-200K:200K 上下文,多文档阅读理解、超长知识库构建小能手。Yi-VL-Plus: 多模态模型,支持文本、视觉多模态输入,中文图表体验超过 GPT-4V。

3月15日,苹果正式公布自家的多模态大模型MM1系列,具有 30B 参数,参数最高可达 300 亿。它由密集模型和混合专家(MoE)变体组成,不仅在预训练指标中实现 SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。

3月17日,xA官方开源Grok-1,一个3140亿参数的8个MoE混合专家模型。代码和模型权重已上线GitHub,模型的权重文件则是以磁力链接的形式提供,文件大小接近300GB。开源的是2023年10月预训练阶段的原始基础模型,没有针对任何特定应用进行微调。Grok-1选用了Rust编程语言以及深度学习框架新秀JAX。

issue60 2024.3.18-3.24

3月18日,月之暗面将自家模型的上下文窗口提升了一个数量级,从发布之初的20万字,拓展到200万字。该版本在Kimi上开启内测,并且在与Kimi对话过程中,加入了(不打断模型思路的)“继续”功能按钮。同时,相同成本、相同设备情况下,模型响应速度提升了3倍左右。月之暗面还提出了“Kimi 10分钟速成定律”,即无关领域大众小众,也无关资料或多或少,只要把资料一股脑丢给模型,10分钟内,Kimi都能快速入门一个新领域。此外, Kimi Chat改名为Kimi智能助手,Moonshot大模型改名为Kimi大模型。

AI初创公司Suno AI重磅推出了一款音乐生成模型V3。仅用几秒的时间,V3便可以创作出2分钟的完整歌曲。现在已经向所有用户免费开放。相比与之前的版本,v3生成的音乐质量更高,而且能制作各种各样的风格和流派的音乐和歌曲。提示词的连贯性也有了大幅提升,歌曲结尾的质量也获得了极大的提高。为了激发人们的创作灵感,Suno v3还新增了更丰富的音乐风格和流派选项,比如古典音乐、爵士乐、Hiphop、电子等新潮曲风。

3月18日,Colossal-AI团队全面开源了类Sora架构视频生成模型Open-Sora 1.0,涵盖了关于文生视频的整个训练流程,包括数据处理、所有训练细节和模型权重,1万美元64块GPU复现,训练成本直降46%。模型采用了目前火热的Diffusion Transformer(DiT)架构。整个架构包括一个预训练好的VAE,一个文本编码器,和一个利用空间-时间注意力机制的STDiT(Spatial Temporal Diffusion Transformer)模型。Open-Sora的复现方案参考了Stable Video Diffusion(SVD)工作,共包括三个阶段,分别是:大规模图像预训练;大规模视频预训练;高质量视频数据微调。

3月19日,Stability AI 推出3D 视频生成大模型Stable Video 3D(简称 SV3D)。该模型基于 Stable Video Diffusion 打造,能够显著提升 3D 生成的质量和多视角一致性,效果要优于之前 Stability AI 推出的 Stable Zero123 以及丰田研究院和哥伦比亚大学联合开源的 Zero123-XL。目前,Stable Video 3D 既支持商用,需要加入 Stability AI 会员(Membership);也支持非商用,用户在 Hugging Face 上下载模型权重即可。

3月22日,百度升级了大模型应用开发神器百度千帆AppBuilder。它开放了55个工具组件,包括大模型组件、AI组件、搜索组件、第三个API工具等。能让企业或个人零门槛开发各种场景下的Agent应用。同时,百度大模型也上新了,一共5个,主打轻量化、性价比、实际场景:ERNIE Speed,ERNIE Lite,ERNIE Tiny,ERNIE Character,ERNIE Functions。

issue61 2024.3.25-3.31

3月29日,人工智能独角兽AI21 Labs推出并开源了Jamba,在多个基准上超越了 transformer。Jamba 将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 transformer 架构相结合,是基于全新SSM-Transformer混合架构的52B生产级Mamba模型,与Mixtral 8x7B相比,长文本处理吞吐量提高了3倍;实现了256K超长上下文窗口;是同等规模中,能在单张GPU上处理140K上下文的模型;以Apache 2.0开源许可协议发布,开放权重。

3月29日,xAI升级推出Grok-1.5模型,数学和代码能力大幅提升,支持128k长上下文。Grok-1.5能够在其上下文窗口内处理128K token的文本。此外,新模型还可以处理更长和更复杂的提示,同时在其上下文窗口扩展时仍保持其指令跟随能力。Grok-1.5构建在基于JAX、Rust和Kubernetes的定制分布式训练框架之上。

3月30日,OpenAI 首次亮相了语音引擎 Voice Engine预览版,其首次开发时间是 2022 年末。通过文本输入以及一段 15 秒的音频示例,可以生成既自然又与原声极为接近的语音。即使是小模型,只需一个 15 秒的样本,也能创造出富有情感且逼真的声音。Voice Engine 并未根据用户数据进行训练或微调,而是通过一个扩散过程和 transformer 结合的方式 从而产生语音。不过,Voice Engine 目前不支持音调、音高或节奏的调整。Voice Engine 的定价为每一百万字符 15 美元。

RWKV 元始智能 日前宣布向全球开源其 RWKV-6 1.6B(2.5T Tokens) 模型。

issue62 2024.4.1-4.7

阿里通义千问团队正式公开 Qwen1.5-32B,它是 Qwen1.5 语言模型系列的新成员,在性能、效率和内存占用之间寻求理想平衡,旨在提供与30亿参数规模模型相媲美的性能。在 MMLU、GSM8K、HumanEval 以及BBH等多个任务上,Qwen1.5-32B 即使与72B参数模型相比性能有所下降,但在多数任务中仍优于其他30B级别模型。相较于72B模型,Qwen1.5-32B的内存占用大幅减少,运行速度显著提升,旨在帮助用户为其下游应用找到更优的解决方案。

4月2日,昆仑万维官宣,AI音乐生成大模型天工SkyMusic基于昆仑万维天工3.0超级大模型打造,即日起面向社会开启免费邀测。本轮测试已开放1000个免费名额。天工SkyMusic采用音乐音频领域类Sora模型架构:Large-scale Transformer 负责谱曲,来学习 Music Patches 的上下文依赖关系,同时完成音乐可控性;Diffusion Transformer 负责演唱,通过LDM让Music Patches被还原成高质量音频,使得天工SkyMusic能够支持生成80秒44100Hz 采样率双声道立体声歌曲。这套模型架构在处理视频、音频和音乐领域效果极佳。

4月3日,腾讯开源了文生视频工具MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。文本、图像到视频的生成结果的所有帧直接由MuseV生成,没有时序超分辨、空间超分辨等任何后处理。除了直接放出模型代码,目前MuseV还有demo可体验。

4月1日,初创公司阶跃星辰,发布了三个大模型:Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型预览版。目前,千亿参数模型 Step-1超过 GPT-3.5 ,多模态大模型 Step-1V比肩 GPT-4V。第一款应用是跃问聊天助手,可以完成信息查询、语言学习、创意写作、图文解读等任务。此外,它还具备了多模态内容理解能力、联网搜索、代码分析增强(POT)等能力,高效理解和回应用户的查询,提供连贯且相关的对话。

4月1日,澜舟科技官宣:孟子3-13B大模型正式开源,面向学术研究完全开放,并支持免费商用。孟子3-13B大模型是基于Llama架构,数据集规模高达3T Tokens。语料精选自网页、百科、社交、媒体、新闻,以及高质量的开源数据集。通过在万亿tokens上进行多语言语料的继续训练,模型的中文能力突出并且兼顾多语言能力。

OpenAI官宣4月2日起,ChatGPT不用注册,可以直接使用。虽然这次开放的版本是GPT-3.5,训练数据截止到2022年,但仍然大大降低了使用门槛。此后的ChatGPT将成为一项免费,快速的基础服务。

4月4日,OpenAI 的 DALL-E 进行了多项升级,添加了与 ChatGPT 的集成,现在用户可以在 ChatGPT 中使用 DALL-E 组件进行复杂的图像编辑。当输入一个想法时,ChatGPT 会自动为生成模型生产量身定制的、详细的 Prompt,用户也可以继续使用自己的 Prompt。

issue63 2024.4.8-4.14

4月9日,Google Cloud Next 2024大会上,谷歌宣布Gemini 1.5 Pro正式开放公开可用、上线音频处理能力;更新代码模型CodeGemma,推出首款自研Arm架构处理器Axion,升级视频版Imagen 2.0。其中,谷歌Gemini 1.5 Pro已经在Vertex AI上开放公测,100万token,还增加了音频功能。它能处理音频流,包括语音和视频中的音频。

4月10日,OpenAI官宣发布了具备视觉功能GPT-4 Turbo的正式版,能处理128k上下文,已经可以通过API调用了,其训练数据截止到2023年12月。同时,Vision请求也可以使用JSON模式和函数调用。新模型可以有助于简化开发人员的工作流程,创造出更高效的应用程序。与此同时,OpenAI已经将GPT-4每3小时40条消息的使用限制,变成了根据供需情况动态调整的灵活配额。不过,有研究发现,GPT-4 Turbo with Vision在编码方面较差。

4月13日,xAI 推出了多模态模型 Grok-1.5V。该模型不仅能理解文本,还能处理文档、图表、截图和照片中的内容。Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型,从多学科推理到理解文档、科学图表、图表、截图和照片。目前,Grok-1.5V 还没有完全开放,但会很快提供给早期测试者和现有的 Grok 用户。此外,xAI 还推出了一个新的基准RealWorldQA。目前,RealWorldQA 包含 700 多张图片。

百度文心一言上线了新功能,仅需几秒钟即可定制自己的声音。打开文心一言App,点击下方“+”,然后选择创建智能体。在声音选项里,会发现一个名为“创建我的声音”的功能。根据系统提示读出一段话,只需两秒左右的时间,系统便能捕捉到用户的声音特点,生成一个独特的“语音助手”。在确认声音质量后,用户的专属“语音库”就在瞬间构建完成。今后,在与智能体的每一次对话中,用户都可以点击播放键,使用自己合成的音色进行语音播报。

issue64 2024.4.15-4.21

4月16日,Create 2024百度AI开发者大会举办,宣布文心大模型4.0性能提升52.5%,又公布了智能体、代码、多模型等方面的新进展。百度着重介绍了三款AI开发工具:AgentBuilder(智能体开发工具)、AppBuilder(AI原生应用开发工具)和ModelBuilder(模型定制工具)。其中,AgentBuilder是面向所有人的,不需要编程基础也能可以轻松建立。会上,百度还发布新一代智能计算操作系统万源(Wanyuan)。

4月17日,稀宇科技 MiniMax 推出了万亿 MoE 模型 abab 6.5。abab 6.5系列包含两个模型 abab 6.5和abab 6.5s。abab 6.5 包含万亿参数,支持 200k tokens 的上下文(相当于约 30 万汉字)。abab 6.5s 跟 abab 6.5 使用了同样的训练技术和数据,但更高效,支持 200k tokens 的上下文长度,可以 1 秒内处理近三万字的文本。根据 MiniMax 发布的技术报告,在知识、推理、数学、编程、指令遵从等维度测试中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。MiniMax还开发了一款生产力产品“海螺AI”,目前已经接入了万亿 MoE 模型 abab 6.5。

4月17日,昆仑万维宣布天工 3.0基座大模型与天工 SkyMusic音乐大模型正式开启公测,无次数限制。它生成的中文人声发音清晰、正宗、无异响,不仅针对普通话做了优化,还有粤语、成都话、北京话等方言语种。目前,SkyMusic已经集成到了手机上的天工APP。从目前的结果来看,天工SkyMusic可以支持生成80秒左右时长的歌曲。大模型天工 3.0 拥有 4000 亿参数。

Mistral AI 开源了其最新的大模型 Mistral 8x22B,该模型在AI开放社区中设定了性能和效率的新标准。

4月19日,Meta官宣了Llama 3 80亿和700亿参数版本,在各自参数规模上超越对手,为开源SOTA。Llama 3 405B 版本仍在训练中,将是一个密集模型,预计年末发布。据现有的评测数据,405B 版本的性能已经逼近 GPT-4。架构层面,Llama 3选择了经典的仅解码式Transformer架构,采用包含128K token词汇表的分词器。训练方面,Meta上了2.4万块GPU集群,Llama 3的训练数据规模达到了15T tokens,全部来自于公开信息,其中5%为非英文数据,涵盖30多种语言。此次与基础模型一同发布的,还有基于Llama 3的官方Web版本Meta AI(https://www.meta.ai/)。目前该平台有对话和绘画两大功能。

issue65 2024.4.22-4.28

科大讯飞发布首个支持长文本、长图文、长语音的大模型 讯飞星火 V3.5。支持多情感超拟人合成和个性化声音复刻。

微软发布名为 Phi-3 的小型语言模型(SLM),该模型系列虽然体积小巧,但功能强大,具有很大的潜力。作为Phi-3系列的首版,Phi-3-mini 拥有3.8亿参数,并且性能超过了两倍于其大小的模型。Phi-3-mini 现在可以在 Microsoft Azure AI模型目录和 Hugging Face 上公开获取,并且也可以在 Ollama 轻量级框架上运行。

4月25日,苹果团队发布了OpenELM,包含了2.7亿、4.5亿、11亿和30亿四个参数版本。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的 checkpoint 和训练日志。OpenELM是一款专为终端设备而设计的小模型。OpenELM使用了分层缩放策略,来有效分配Transformer模型每一层参数,导致模型每层的参数数量不同,从而实现了更有效的跨层参数分配与提升准确率。这款模型还可以在M2 MacBook Pro(64GiB内存)运行。

issue66 2024.4.29-5.5

5月1日,Google推出新型多模态医学 AI 模型 Med-Gemini 。它融合了高级推理、多模态理解和长文本处理能力,构建基于 Google 的 Gemini 模型,并针对医学领域进行了专门的优化和改进。在医学基准测试如MedQA中,展现出优越性能,准确率达91.1%。

5月2日,Anthropic 推出一项针对企业的新付费计划,其中包括医疗保健、金融和法律等受到高度监管的行业,该计划名为“Team”,为客户提供对 Anthropic 的 Claude 3 系列生成型 AI 模型以及额外的管理员和用户管理控制的更高优先级访问权限。此外,Anthropic 也推出一款 iOS 应用,只有11MB。该应用提供对 Claude 3 的访问,包括免费访问以及升级的 Pro 和 Team 访问,并与 Anthropic 的网络客户端同步,利用 Claude 3 的视觉功能为上传和保存的图像提供实时分析。

issue67 2024.5.6-5.12

幻方 DeepSeek AI 开源 MoE 语言模型 DeepSeek-V2。该模型拥有236B的参数量,能够处理长达128K token的上下文,相较于前一代DeepSeek 67B模型,在性能上实现了显著提升,同时在训练成本上节省了42.5%,减少了93.3%的KV缓存,并显著提高了最大生成吞吐量。在多个基准测试中,DeepSeek-V2的性能直逼行业领先的GPT-4,尤其在数学、代码和推理任务上表现出色。

5月8日,谷歌DeepMind发布了新一代预测蛋白质结构的AlphaFold 3模型,能够帮助科学家更精确地针对疾病机制,从而开发出更有效的治疗药物。此举是一个重要的里程碑式突破。AlphaFold 3是一种人工智能模型,它可以预测蛋白质、DNA、RNA等生物分子的结构以及它们如何相互作用。另外,DeepMind还推出了AlphaFold Server,它是一个供全球科学家用于非商业研究的免费平台。

5月9日,阿里云正式发布通义千问2.5,同时发布1100亿参数开源模型Qwen1.5-110B。此外,百炼大模型平台从模型开发、应用开发到算力底座全面升级。升级后,百炼还兼容LlamaIndex等开源框架,企业可自由替换能力组件来适配自身系统。

月之暗面 Moonshot AI 宣布对旗下智能助手 Kimi 进行更新,并推出专业 AI 助手 “Kimi+”。据官方介绍,Kimi+ 是拥有独特技能的 Kimi 分身,可解决特定问题,也能组成 AI 生产线。

零一万物推出了名为「万知」的一站式AI工作平台,号称专为中国人设计,能够提供会议纪要、周报撰写、写作辅助以及解读财报、论文等文件,并帮助用户制作PPT。这款AI个人助手支持中英双语,用户可以通过网页和微信小程序访问。

5月8日,OpenAI 官方发布了《模型规范》(Model Spec) 初稿,旨在公开讨论和定义AI模型应有的行为。所公开的文件汇集了OpenAI在塑造模型行为方面的现有文档、研究经验和未来模型发展的指导原则,主要包括三个核心部分:目标、规则和默认行为。目标是指导模型行为的广泛原则;规则是确保安全和合法性的明确指令;默认行为则是在目标和规则框架下处理冲突的指导方针。Model Spec 的发布是为了加深公众对AI模型行为的理解和讨论,同时也是OpenAI对模型安全和行为改进承诺的延续。OpenAI计划将这份规范作为研究人员和AI训练者的指导,探索模型是否能直接从规范中学习,并在未来一年内根据反馈更新规范内容、分享研究进展。

issue68 2024.5.13-5.19

5 月 14 日凌晨,OpenAI 在首次春季新品发布会上推出了新一代旗舰生成模型 GPT-4o (o 代表 Omnimodel全能模型)、桌面 App,并展示了一系列新能力。GPT-4o具有文本、语音、图像三种模态的理解力,模型反应比人类的回应还快,最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。还能够充分理解人类的情感,也能表现出各种感情。在多项基准测试中,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能。GPT-4o 的文本和图像功能免费在 ChatGPT 中推出,并向 Plus 用户提供高达 5 倍的消息上限。

5月17日, OpenAI宣布ChatGPT可分析线上Excel数据。ChatGPT可以直接打开线上数据文件,支持从Google Drive和Microsoft OneDrive在线文档上传,在新的可扩展视图中与表格和图表进行实时交互,完成实时数据分析;自定义图表并下载图表,用于演示文稿和文档。网友已经灰度测试到背后的新模型ADA V2。

零一万物发布 Yi 大模型家族的新成员 Yi-1.5 并宣布开源。Yi-1.5 模型包含6B、9B、34B三个版本的预训练和微调模型,采用Apache 2.0许可证。该模型在编码、数学、推理和指令遵循方面的能力相较于前一版本Yi有显著提升,同时保持了在语言理解、常识推理和阅读理解方面的优秀表现。

腾讯发布基于混元大模型的一站式智能体开发平台「腾讯元器」。企业和开发者可以通过腾讯元器直接创建智能体,利用腾讯官方提供的插件和知识库,实现个性化的AI应用开发。腾讯元器的亮点在于其便捷的一键分发功能,允许用户将创建的智能体快速部署到QQ、微信客服、腾讯云等多个渠道上,极大地简化了AI技术的落地应用过程。

腾讯公司宣布其混元文生图大模型全面升级并开源,这是业内首个中文原生的DiT(Diffusion With Transformer)架构文生图模型。该模型包含15亿参数,支持中英文双语输入及理解,现已在Hugging Face平台及GitHub上发布,包括模型权重、推理代码和模型算法等,可供企业与个人开发者免费商用。

5月15日,2024火山引擎FORCE原动力大会上,字节跳动云雀大语言模型升级为豆包大模型家族正式在火山引擎上对外开放服务。豆包大模型家族的全系列模型,包括豆包通用模型pro/lite、角色扮演模型、语音合成模型、语音识别模型、声音复刻模型、Function call模型、文生图模型以及向量化模型。豆包通用模型pro-32k版,推理输入价格0.0008元/千tokens,较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens。另外,豆包通用模型pro-128k版本,推理输入价格为0.005元/千tokens。

谷歌在I/O 2024开发者大会上发布Gemini 1.5 Pro正式版,上下文长度达到200万token,而且开放给个人用户使用。支持多模态的Gemini可以处理上传的任何格式的信息,理解内容后将其改造成适合用户的形式并可对话互动。

谷歌发布了Gemini 1.5 Flash。Flash是一个更轻量级的模型,专为那些对响应速度要求极高的特定或频繁任务优化。它同样具有多模态、1M tokens长上下文的特点,只不过实现了轻量化、低延迟、高效推理,每百万个token的价格仅是Pro版的二十分之一。Gemini 1.5 Flash在Google AI Studio和Vertex AI中可用,开发者可以注册申请两百万token的内测版。

issue69 2024.5.20-5.26

微软在2024 Build开发者大会上发布了Phi-3系列模型的新成员 “Phi-3 Vision”,这是一个有42亿参数的多模态模型,结合了语言和视觉能力。Phi-3 Vision专为图表和图解理解进行了优化,能够处理现实世界图像的推理以及从图像中提取和推理文本,支持128K的上下文长度。该模型在一般视觉推理任务、OCR、表格和图表理解任务中表现出色,优于其他更大模型如Claude-3 Haiku和Gemini 1.0 Pro V。

5月21日,微软在2024 Build开发者大会发布新一代 Copilot+ PC。它配备了强大的 AI Agent,只需在键盘上轻点新的 Copilot 按键即可快速交互。硬件AI算力达到40 TOPS以上,或者说每秒40万亿次运算,电池续航时间可达一整天。目前开始预订,起售价 999 美元,国行价格8688 元起售,6 月 18 日发货。在新一代PC里,打游戏时可与AI实时对话,提供吐槽陪玩或攻略指导,由GPT-4o提供支持。任何文件或网页浏览记录都可以用自然语言搜索回忆,实时翻译音频或视频字幕,目前支持40+种语言。在专为AI重构的新版Windows 11上,约有40多个AI模型被深度集成,许多功能都是实时的。微软引入了全新的系统架构,将CPU、GPU和新的高性能神经处理单元NPU结合在一起。NPU负责在后台实时运行AI。

5月21日 ,智谱·AI宣布推出新一代多模态大模型CogVLM2,该模型在关键性能指标上相较于前一代CogVLM有了显著提升,同时支持8K文本长度和高达1344*1344分辨率的图像。尽管CogVLM2的模型大小为19B,但其性能接近或超过了GPT-4V的水平。CogVLM2的技术架构在上一代模型的基础上进行了优化,包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块,这些模块通过独特的参数设置,精细地建模了视觉与语言序列的交互。

5月22日,百川智能发布其最新一代基座大模型 Baichuan 4,并推出了首款AI助手“百小应”。Baichuan 4在各项能力上相比前一代Baichuan 3有显著提升,其中通用能力提升超过10%,数学和代码能力分别提升14%和9%。在SuperCLUE的评测中,Baichuan-4的能力排名国内第一,超越了SenseChat V5。Baichuan 4还首次带来了多模态能力,在各大评测基准上表现优异,领先其他多模态模型。

5月20日,面壁智能打造了端侧多模态模型MiniCPM-Llama3-V 2.5。该模型8B参数,不仅支持30+多种语言,而且综合性能、OCR长难图识别能力SOTA;图像编码快150倍。面壁自研高清图像高效编码技术,可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比的图像。

issue70 2024.5.27-6.2

腾讯将基于混元大模型的 AI 助手应用「混元助手」升级为「腾讯元宝」,集成 AI 搜索、AI 总结、AI 写作等功能。元宝不仅提供 AI 助手的标准功能,还利用腾讯新闻和微信公众号平台的资源,增强了内容的及时性和丰富度。此外,元宝还具备生成内容、翻译、多模态生成等多种能力,显示出腾讯在 AI 应用领域的强大技术实力和生态优势。

Google 宣布 Gemini 1.5 Flash 和 Gemini 1.5 Pro 现已全面推出。Gemini 1.5 Flash 现支持 1,000 RPM 限制,并引入了调优功能。此外,API 现已支持 JSON Schema 模式,AI Studio 移动版支持和浅色模式也已上线,为开发者提供更强大和便捷的开发工具。

OpenAI 推出专为大学校园设计的 ChatGPT Edu 版本,支持 GPT-4o、网络搜索、自定义 GPT、数据分析、代码生成等功能。牛津、剑桥、伯明翰等 24 所大学,以及沃顿商学院和亚利桑那州立大学已开始使用该生成式 AI 产品。ChatGPT Edu 提供多模态推理、增强的数据分析和搜索功能、自定义 GPT、提升的语音质量及多语言支持,还具备强大的安全机制,包括数据隐私、组权限和管理控制。

法国人工智能初创公司 Mistral AI 宣布了其首个代码生成模型 Codestral。该模型接受了 80 多种编程语言的训练,包括 Python、C、C++、JavaScript 和 Bash 等。Codestral 能自动完成代码函数、编写测试,并使用填补中间的机制完成部分代码,减少错误和漏洞。该模型拥有 32k 的上下文窗口,在 HumanEval、MBPP、CruxEval、RepoBench 和 Spider 等基准上表现出色,提供 API 端点、插件和开发环境集成。

issue71 2024.6.3-6.10

6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是完整地将MoEUpcycling技术应用并落地的开源千亿MoE大模型,也是支持用单台4090服务器推理的开源千亿MoE大模型。本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为146B,激活参数量22B,共有16个Expert,每个Expert大小为13B,每次激活其中的2个Expert。

6月4日,AI初创公司澜舟科技宣布轻量化大模型Mengzi3-8B,现已正式开源,并支持免费商用。Mengzi3-8B是一款高效、低显存需求的AI大模型,半精度下显存占用小于16G,适用于PC(如MacBook)和大部分消费级显卡(如RTX 4090、RTX 4080、RTX 4070Ti)。此外,Mengzi3-8B的原生推理速度在同级别模型中处于领先地位,特别适合个人开发者和AI爱好者使用。

6月5日,智谱AI在智谱AI Open Day上宣布对旗下全模型矩阵的价格大幅下调,开源GLM-4-9B系列模型,并发布了大模型应用清言App和大模型开放平台的最新更新。小模型ChatGLM3-6B升级为9B后,在开放平台变为GLM-4-flash版本,API 价格相较于GLM-3 Turbo降价至10%。第四代GLM系列开源模型GLM-4 9B,官宣开源免费用。GLM-4模型,在开放平台上为GLM-4-Air版本,每100万token只需1元,价格则仅为原来的1%。

6月7日,阿里云发布开源模型Qwen2-72B。本次开源的Qwen2-72B大模型在自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的开源模型,包括阿里云在4月底开源的Qwen1.5最大的模型Qwen1.5-110B。该Qwen2系列包含5个尺寸的预训练和指令微调模型,包括wen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。所有尺寸模型都使用了GQA(分组查询注意力)机制,模型的多语言能力和上下文长度支持均得到了提升。

issue72 2024.6.10-6.16

苹果在WWDC 24上展示了其首个AI系统——Apple Intelligence及全新Siri。这个强大的新功能将为iPhone、iPad和Mac提供情景驱动通知、写作改进、图像生成等功能。Apple Intelligence的英语试用版将于今年夏天推出,并于今年秋天在iOS 18、iPadOS 18及macOS Sequoia中发布Beta版。使用门槛是iPhone 15 Pro系列、配备M1芯片的iPad和Mac以及后续机型。苹果还和OpenAI宣布建立合作伙伴关系,将ChatGPT直接集成到即将发布的iOS 18、iPadOS 18和macOS中。

Luma Labs推出了Dream Machine,这是一种全新的AI模型,能够根据文本和图像提示生成5秒的视频剪辑。

6月12日,微软发布公告称Copilot GPTs将于7月10日起停服,移除创建GPT的功能,用户已经创建的GPTs将被清空。微软给出的官方解释是公司战略调整,正在将GPT的重点转向商业和企业场景,背后原因可能是缺乏商业回报。Copilot GPTs关闭引发了用户不满,批评者质疑此举会切断创新并削减消费者对于产品的信任。

6月14日,英伟达宣布推出 Nemotron-4 340B。它包含一系列开放模型,通过独特的开放模型许可,开发人员可以用免费、可扩展的方式使用这些模型生成合成数据,用于训练大语言模型,可用于医疗健康、金融、制造、零售等所有行业的商业应用。Nemotron-4 340B 系列包括基础、Instruct 和 Reward 模型,用于生成训练和改进 LLM 的合成数据。这些模型经过优化,可与 NVIDIA NeMo 配合使用,后者是一个用于端到端模型训练的开源框架,包括数据管理、定制和评估。它们还针对开源 NVIDIA TensorRT-LLM 库的推理进行了优化。

issue73 2024.6.17-6.23

6月20日,Anthropic 发布了下一代旗舰大模型Claude 3.5 Sonnet,不仅在评估中胜过GPT-4o,还保持着中等规模的模型所具有的速度和成本优势。如今,Claude 3.5 Sonnet已经面向全球开启免费试用了。成本更低、速度更快。在运行速度方面,Claude 3.5 Sonnet也是Claude 3 Opus的两倍。在费用上,Sonnet处理每百万输入token仅需3美元,每百万输出token仅为15美元。

在Computex 2024大会上,Stability AI正式官宣SD 3 Medium公开发布。据悉,之后还会开源4B和8B的版本。目前,ComfyUI已经提交了对SD3支持的版本。本次开源的版本是Stable Diffusion 3 Medium在Hugging Face上可以下载模型权重。它的规模为20亿参数,在笔记本上就能跑。

6月21日,华为在年度开发者大会上推出全新升级的盘古大模型5.0版本,该版本在全面性、多模态处理能力以及深度思考能力上均实现了显著提升。盘古5.0针对不同业务需求,推出了多种规格的模型,并且能够与现实世界紧密结合,推动大模型在各行业的广泛应用。

Hedra发布Character-1,用户可以细颗粒度地控制如何使用AI来制作“虚拟角色的动画”。这是Hedra即将推出的基础视频模型的“预览版本”,目前它只提供方形视频,而不是宽屏或竖屏,而且分辨率相对较低。它的使用门槛相当低。基于该模型,用户只需要一段音乐——可以直接生成,或者上传已有的音乐,一张图片——可以直接生成,或者上传自己的图片。然后,只需单击生成视频并等待即可。大概一分钟左右,会生成一个一个口型同步的视频。

依图科技发布了面向安防场景的天问大模型4.0。

issue74 2024.6.24-6.30

谷歌DeepMind公布其新一代最强开源模型——Gemma 2。Gemma 2有90亿(9B)和270亿(27B)两种参数规模可用。27B模型训练了13T tokens,9B是8T tokens,都拥有8192上下文窗口,可在Google AI Studio中使用。26亿参数(2.6B)模型将很快发布,小到可以在手机本地运行。

OpenAI宣布开发了一个名为CriticGPT的新模型,基于GPT-4训练,旨在查找ChatGPT输出内容中的错误。CriticGPT的主要目的是协助人类AI训练员完成工作,使用”从人类反馈中强化学习”(RLHF)技术来改进GPT-4的回答。

6月25日,OpenAI向中国用户发布邮件称,自7月9日起,将不再接受来自那些未在其支持列表中的国家和地区的API请求。如果受影响的组织想要继续利用OpenAI的服务,他们需要在OpenAI服务覆盖的国家或地区进行访问。目前,OpenAI的API服务覆盖了全球161个国家和地区,但中国并不在其中,这表明OpenAI将不再向中国用户提供API服务。

百度在深度学习开发者大会上推出了智能代码助手”文心快码”。该产品基于文心大模型和百度多年积累的编程数据,具有代码智能、场景丰富等优势,可实现”帮你想、帮你写、帮你改”的应用形态。文心快码在百度内部已广泛使用,代码采用率达44%。它支持100多种编程语言,在Go、Java等主流语言中表现优异,并兼容多种主流IDE。产品分为标准版、专业版、企业版和企业专有版,满足不同用户需求。

6月27日,科大讯飞发布讯飞星火大模型V4.0及多个领域的人工智能应用。

issue75 2024.7.1-7.7

Runway宣布其最新的文生视频模型Gen-3 Alpha向所有用户开放,每月最低收费12美元。Gen-3一次可生成11秒的720P视频,支持文本输入生成视频。该模型功能强大,比肩Sora,能够生成高质量的视频内容。

7月3日,AI 音乐生成工具 Suno 宣布推出 iOS 客户端。

7月4日凌晨,法国知名开源 AI 研究实验室 Kyut 在官网发布了多模态大模型 Moshi。Moshi 的功能与 OpenAI 在5月14日展示的最新模型GPT-4o类似,都可以听取人的语音提问后进行实时推理回答。

7月4日,在今天揭幕的 2024 世界人工智能大会暨人工智能全球治理高级别会议(简称“WAIC 2024”)上,阶跃星辰首发了三款 Step 系列通用大模型新品:Step-2 万亿参数语言大模型正式版、Step-1.5V 多模态大模型、Step-1X 图像生成大模型。

7月5日,商汤科技发布了国内首个流式多模态大模型日日新5.5,实现了实时跨文本、音频、图像与视频推理,多项测评超过GPT-4o。

腾讯元宝应用推出了AI深度搜索功能,用户更新至最新版本后,能够在AI搜索深度模式下获得扩展问题解答,并能一键生成内容大纲、思维导图以及相关人物事件梳理。特别是在科研和财经等专业领域,该功能能够提供详尽的回答。经测试,元宝引用的消息源基本来自微信公众平台公众号文章。

快手宣布可灵AI网页端正式上线,所有功能限时免费。新功能包括:“文生视频”,支持最长10秒的视频生成以及“图生视频”,新增运镜控制和自定义首尾帧。可灵AI网页端提供AI图片、AI视频及即将上线的视频编辑功能,目前已吸引超过50万用户申请内测资格。

issue76 2024.7.8-7.14

腾讯智影小程序上线AI视频功能,用户可一键生成风格化视频,限时免费。用户导入视频后,可快速生成风格化效果,支持10秒视频处理。此外,智影AI还包含虚拟数字人、文本配音、智能去水印和文章转视频等功能,提升视频创作体验。

7月10日,阿里巴巴上线了AI搜索助手“心流”,提供智能搜索、知识问答、智能阅读、辅助创作等功能,旨在帮助用户提升工作和学习效率。

百度推出一款新型AI社交App“文小言”,利用文心大模型技术提供仿真数字人社交体验,允许用户与AI虚拟角色进行实时互动,每个角色都具备个性化的聊天服务和肢体语言反馈。

issue77 2024.7.15-7.21

7月17日,Anthropic 推出了 Claude Android 应用程序,旨在通过提供更多平台支持来吸引用户。该应用程序允许用户免费访问 Anthropic 的 AI 模型 Claude 3.5 Sonnet,并提供实时语言翻译功能,支持设备间对话同步和照片或文件的实时图像分析。此外,企业客户还可以在移动设备上访问他们的 Claude 账户。

7月19日,OpenAI 发布 GPT-4o mini ,一个成本更低、性能接近 GPT-4 的新模型,已在 ChatGPT 中取代 GPT-3.5。新模型支持更大的输入输出 tokens,价格更便宜,适用于多种应用场景,并计划开放微调功能。

issue78 2024.7.22-7.28

7月23日,Meta 正式发布了 Llama3.1,这是一系列大模型,包括8B、70B和405B三个版本,其中 405B 版本在性能上与 GPT-4o 相当,刷新了开源基础模型的能力上限。Llama 3.1扩展了上下文长度至 128K,并支持多语言和工具使用。Meta在预处理和预训练数据的 Curation pipelines 上进行了加强,并在后训练数据的质量保证和过滤方法上做了改进。Llama3.1 使用了超过 15 万亿的多语言 Token 语料库进行预训练,预训练模型的规模远大于以前的版本。

7月25日,OpenAI 宣布旗下AI搜索引擎 SearchGPT 正式开放内测,并计划在未来接入到 ChatGPT 服务中。

7月26日,智谱AI发布了升级版视频生成模型 CogVideoX,并推出了名为“清影”的AI视频生成服务,该服务能够在 30 秒内快速生成 6 秒视频,支持复杂指令的准确理解和执行,确保视频内容连贯,并具有画面调度的灵活性。目前,“清影”已在智谱清言的多个平台上免费开放给用户体验,同时企业和开发者也可以通过智谱大模型开放平台的 API 调用使用。

issue79 2024.7.29-8.4

7月31日,GPT-4o高级语音模式开启邀请测试。OpenAI宣布开始向一小部分ChatGPT Plus用户推出高级语音模式,基于GPT-4o提供更自然的实时对话。

谷歌发布了 Gemini 1.5 Pro 0801 版本,这款强大的 AI 在 LMSYS AI 竞技场排行榜上以 1300 分的成绩领先,超过了 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3.5。Gemini 1.5 Pro 配备了 2,000,000 个 token 的上下文窗口,极大增强了其处理大规模数据和生成长篇内容的能力。

谷歌开源了其最新端侧小模型Gemma2 2B,该模型以20亿参数的规模在性能上超越了参数更多的GPT-3.5-Turbo和Mixtral-8x7b,成为大模型竞技场LMSYS Chatbot Arena中表现最佳的开放模型之一。Gemma2 2B不仅性能卓越,还具有内置安全改进功能,同时推出了ShieldGemma安全内容分类器和Gemma Scope模型可解释性工具,进一步强化了模型的安全性和透明度。

7月31日,360集团创始人周鸿祎宣布,360安全大模型将免费为个人用户、中小企业提供服务,并在行业内第一个宣布安全大模型免费,让人人都能获得大模型带来的技术红利。

8月1日,Stable Diffusion 原团队成员创办的 Black Forest Labs 发布了 FLUX 文本转图像模型系列。FLUX.1 模型为开源图像生成模型树立了新标准:它们可以生成逼真的手、清晰的文本,甚至可以生成搞笑表情包这样异常困难的任务。

issue80 2024.8.5-8.11

GPT-4o自20240513之后首次更新到20240806版本。

OpenAI 推出了一项新功能,严格要求模型按 JSON 格式输出。允许开发者生成符合指定 JSON 模式的结构化输出。用户可以通过函数调用或 response_format 参数(使用 json_schema 选项)在 API 中使用此功能。

8月6日,智谱AI将其视频生成大模型CogVideoX开源,成为首个可商用的开源视频生成模型。CogVideoX支持在线体验,展示了高质量的视频生成效果,并且易于部署和使用,仅需单卡A100在90秒内即可生成视频。

issue81 2024.8.12-8.18

阿里巴巴开源的 Qwen2 Audio – 8.5B 模型在 ASR、S2TT 和 AIR-Bench 基准测试中表现出色,达到了目前的最佳状态。该模型经过 370K 小时的语音、140K 小时的音乐和 10K 小时的声音数据预训练,特别擅长语音聊天和音频分析任务,并与 Transformer 结构无缝集成。

8月14日,马斯克旗下的人工智能公司 xAI 正式发布新一代 Grok 2 大模型测试版,包括 Grok 2 和 Grok 2 mini 两个版本。Grok 2 测试版在逻辑推理能力上有显著提升,并且新增了文生图功能,使用 Black Forest Labs 的 FLUX.1 模型来生成图像。该版本支持中文提问和回答,目前只有 X Premium 和 Premium+ 用户可以体验。

8月16日,Runway 正式推出了其最新的AI视频生成模型 Gen-3 Alpha Turbo,该模型在视频生成速度上比之前的 Gen-3 Alpha 快了 7 倍,并且价格仅为原版的一半。这一新模型在保持与原版相同性能的同时,大幅降低了成本,使得所有用户都能体验到更快速的AI视频生成技术。

阿布扎比技术创新研究所推出了 Falcon Mamba 7B 模型,不依赖 Transformer 架构和注意力机制,能高效处理无限长序列,性能超越同规模开源模型。这一新模型特别适合长文本处理,且在内存使用上更为高效,现已在Hugging Face和GitHub上开源。

AI 代码编辑器 Cursor 将默认大模型切换到 Claude 3.5 Sonnet。Cursor 母公司 Anysphere,成立初期从 OpenAI 处融资 800 万美元,占当轮融资的 72.7%。

issue82 2024.8.19-8.25

Midjourney 网页版对所有人开放,为每位新用户提供最先进模型V6.1 25次试用机会。用户可使用Discord或Google账号登录,并在账户设置中合并两个平台的登录信息,确保历史记录同步。

8月19日,科大讯飞的星火语音大模型推出了极速超拟人交互更新,通过先进的端到端技术实现了快速响应和自然对话的无缝打断。新模型不仅能够识别并共鸣用户的情绪变化,还能根据用户的指令灵活调整情感表达和语言风格。此外,它还具备仿多种角色音色和语气的能力,使用户能够与不同人设进行互动。

8月21日,微软推出的新一代AI模型系列Phi-3.5,包含 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct 三个版本,分别针对轻量级推理、混合专家系统和多模态任务设计。Phi-3.5采用MIT开源许可证,具有不同参数规模,支持128k上下文长度,优化了多语言处理和多轮对话能力,在基准测试中性能表现超越了GPT4o、Llama 3.1、Gemini Flash等同类模型。

Luma AI 推出了 Dream Machine 1.5,这是其 AI 视频模型的升级版,带来了更高质量的文本转视频功能。新版本不仅在理解文本提示上更为智能,还提供了自定义文本渲染选项,并进一步改进了图像转视频的效果。

阿里大语言模型“通义千问”今日宣布启用新域名“tongyi.ai”,并带来多项新功能。网页版聊天新增深度搜索功能;App 图片微动效支持多尺寸图片;App 自定义唱演支持 3:4 画幅(原先 1:1)。

issue83 2024.8.26-9.1

Anthropic 宣布 Claude 中的 “Artifacts” 功能现已对所有用户开放,且已集成到 iOS 和 Android 应用中。这意味着用户现在可以在手机上创建和查看这些 “Artifacts”。自6月推出预览版以来,已经有数千万个 “Artifacts” 被创建。这个功能类似于在软件中创建和保存个人作品或项目的过程,使用户可以更方便地管理和分享他们的创作成果。Anthropic 鼓励用户探索和利用这一功能,以便在 Claude 的平台上进行更多创新和分享。

智谱开放平台现提供免费的 AI 大模型服务,用户可注册后调用 GLM-4-Flash 模型来构建定制化模型和应用。GLM-4-Flash 适合处理垂直领域、成本敏感、需求快速响应的任务,具备多轮对话、网页浏览、函数调用和长文本推理能力,并支持 26 种语言。平台通过自适应权重量化、并行化、批处理和投机采样等技术优化模型效率,实现推理速度提升和成本降低。

8月28日, Gemini 官方版本更新公告,Gemini Gem 管理器功能已正式上线,这是 Gemini 版的 GPTs。

谷歌在其 AI Studio 中推出了三款新的 Gemini 实验性 AI 模型:Gemini 1.5 Flash-8B、Gemini 1.5 Pro Exp-0827 和 Gemini 1.5 Flash Exp-0827。Gemini 1.5 Flash-8B 拥有 80 亿参数,专为多模态和长文本摘要任务设计;Gemini 1.5 Pro Exp-0827 强化了编程与复杂提示词的处理能力,在 LMSYS 排行榜上升至第二,仅次于 OpenAI 的 GPT-4o-latest;Gemini 1.5 Flash Exp-0827 的性能显著提升,排名从第 23 位跃升至第 6 位。用户可通过 Gemini API 和 Google AI Studio 访问这些新模型。此外,谷歌计划在 9 月 3 日起将 gemini-1.5-pro-exp-0801 模型的请求自动重定向至更新的 gemini-1.5-pro-exp-0827,并移除旧版模型。

Android / macOS 版 ChatGPT 客户端发布新版本。现在您可以使用 ChatGPT 上的“提及”功能,该功能允许用户在一次对话中使用“@”符号调用不同的自定义GPT模型。

8月29日,智谱发布新版基座大模型GLM-4-Plus,在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。GLM-4-Plus 使用了大量模型辅助构造高质量合成数据以提升模型性能;利用 PPO 有效有效提升模型推理(数学、代码算法题等)表现,更好反应人类偏好。新版文生图模型 CogView-3-Plus:具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。智谱还宣布智谱清言App新版现已支持视频通话,AI可以实时“看到”你的表情(陪伴场景),甚至可以来一局“你画我猜”。

谷歌宣布旗下 Gemini AI 支持更多类型的文件,包括电子表格、演示文稿、图像、音频和视频等,为用户提供更优质的 AI 服务。Gemini AI 可以分析、摘录和洞察文档内容,帮助用户提高理解、研究和写作能力。

issue84 2024.9.2-9.8

百度文心一言 App 推送一周年升级,更名为 「文小言」,同时宣布 9 月内文心 4.0 大模型将免费使用。

腾讯在 2024 全球数字生态大会上发布新一代大模型 「混元 Turbo」,采用 MoE 架构,推理效率提升 100%,推理成本降低 50%。其价格较混元 Pro 降低 50%,输出价格为 0.05 元 / 千 tokens,输入价格为 0.015 元 / 千 tokens。

在 2024Inclusion 外滩大会上,蚂蚁集团总裁韩歆毅宣布了全新推出的 AI 独立 App 支小宝,展示了蚂蚁集团在 AI 应用布局上的成果以及服务亿级用户的实践。支小宝 App 的定位是服务型 AI 产品,基于蚂蚁百灵大模型开发。它连接的仍是支付宝生态,在功能上,通过对话进行订票、点餐、打车等。

蚂蚁集团在外滩大会财富论坛上推出升级版 AI 金融管家 「蚂小财」,新版 「蚂小财」 能更实时解读热点,提供个性化专业服务,并在支付宝 APP 全量上线。同时,蚂蚁财富全新 APP 搭载 「蚂小财」 Pro 版上线灰测,这是国内首个实现 AI 原生体验的理财 APP。截至 2024 年 8 月底,「蚂小财」 的月度活跃用户数已达到 7000 万人,其中 45% 来自三线及以下城市。

OpenAI 计划推出大型语言模型的订阅服务,包括专注于推理的 「草莓」 和名为 「Orion猎户座」 的新旗舰 LLM。内部讨论中曾考虑过每月最高 2000 美元的订阅价格,但最终价格尚未确定。这一定价关系到 OpenAI 及其在类似产品领域的竞争对手,如谷歌、Anthropic 等公司。

OpenAI 日本办公室 CEO 长崎忠雄在 KDDI 峰会上透露,新一代模型 GPT-Next 的性能预计将比现有的 GPT-4 模型强大 100 倍,并计划在今年晚些时候发布。GPT-Next 模型的性能提升归功于其优化的架构设计和学习效率的改进。

AI 公司 Anthropic 推出 Claude Enterprise 计划,旨在帮助企业更好地整合 AI 模型与内部知识库,提供个性化丰富的体验。该计划支持上下文窗口达 50 万个词元,原生集成 GitHub,并放宽了使用限制。Anthropic 表示,企业可向 Claude 提供大量知识资料。然而,企业不应过分依赖大型文档处理能力,因为 AI 模型可能出现 「中间丢失」 现象。Claude Enterprise 提供安全功能如 SSO 和基于角色的权限管理,强调保护客户数据,并将推出审计日志和 SCIM 功能。

谷歌推出了新的 AlphaProteo AI模型,旨在设计能与目标分子成功结合的高强度蛋白质结合剂,用于药物设计和疾病理解。该系统能生成新的蛋白结合体,已成功设计出与癌症和糖尿病并发症相关的血管内皮生长因子-A 的蛋白质结合剂,并具有较高的体外实验成功率。谷歌通过测试多种目标蛋白的结合体,包括病毒蛋白和参与癌症、炎症等疾病的蛋白,以验证 AlphaProteo 的效果。

谷歌推出了 Google Photos 应用的新功能 「Ask Photos」,该功能利用 Gemini AI 技术,允许用户通过自然语言搜索照片库,查找特定的回忆或信息。此功能已开始向 iOS 和 Android 用户开放早期访问权限。用户可以提出各种问题,以从自己的图片库中检索相关内容,例如 「我去年在哪里露营。」「我的门票何时过期。」 等。

issue85 2024.9.9-9.15

9月12日,OpenAI宣布全新模型o1-preview正式亮相。该模型即为传言了近一年的Q*/草莓。根据OpenAI发布的资料,该模型在智能推理方面达到了前所未有的新高度,因此,模型版本号将从1开始计数。这或许意味着,我们不会再看到GPT-5,o1将成为OpenAI未来的顶尖力量。从9月12日起,ChatGPT Plus和Team用户已可率先体验这一模型。用户可根据需求选择使用o1模型的预览版——o1-preview,或是其精简版——o1-mini。o1-preview每周的使用上限为30条消息,而o1-mini则为50条。由于用户体验热情较高,OpenAI还在9月14日宣布重置本周所有用户的条数限制。

9月10日,Apple举行秋季新品发布会正式发布iPhone 16系列,同时宣布Apple Intelligence美国英语版本将在今年晚些时候在加拿大/澳大利亚/新西兰/英国/南非等市场推出,明年将支持中文/法语/日语/西班牙语。

腾讯推出游戏视频模型GameGen-O,可生成开放世界视频游戏,模拟游戏引擎功能,生成游戏角色、动态环境、复杂动作等,支持交互控制。业内人士称其为游戏工作室的ChatGPT时刻。

法国AI初创公司MistralAI发布了首个多模态模型Pixtral12B,拥有120亿个参数,能够处理图像和文本。然而,HuggingFace的技术主管指出其性能数据可能存在问题。尽管如此,Pixtral12B展示了强大的图像识别和处理能力,包括识别复杂数学符号和生成详细描述。MistralAI计划在聊天机器人和API平台上提供测试。

issue86 2024.9.16-9.22

微软已在Azure OpenAI服务中提供o1-preview和o1-mini两个模型的部署(API)。

微软召开发布会,介绍Microsoft 365 Copilot的Wave 2更新。包括新推出的 Copilot Pages 一站式网页搜索、内容策划和团队写作工具,以及通过 AI 生成 Python 代码快速处理 Excel 数据和一句提示生成 PPT 页面的功能。微软还推出了 Copilot 智能体以简化企业业务流程。

9月18日,360智脑推出基于CoT思维链概念的多模型协作功能,这一功能是通过多个大模型组成的智能体框架实现的,可以让多个模型共同思考和协作解决业务问题。用户可以从多款模型中任选3款,分别做专家、反思者和总结者,以实现更全面、深入的思考和推理过程。

9月19日,阿里巴巴在云栖大会上开源最新的Qwen-2.5大模型,并提供了0.5b-72b的各种尺寸。这一系列大模型包括Qwen2.5、Qwen2.5-Coder和Qwen2.5-Math等不同参数版本,适用于各种业务场景。此举进一步推动了国内大模型研究和应用的发展。

可灵 AI 全球升级发布,新增可灵 1.5 模型和 「运动笔刷」 功能,提升视频生成质量与控制能力。自 6 月发布以来,已进行 9 次迭代,超过 260 万人使用,生成视频超 2700 万部、图片 5300 万张。

智谱AI开源了其图生视频模型CogVideoX-5B-I2V,该模型支持通过一张图片和提示词生成视频。同时开源的还有标注模型cogvlm2-llama3caption,用于将视频内容转换成文本描述。智谱AI团队还发布了一些成功的应用案例,并公开了相关研究论文。

issue87 2024.9.23-9.29

9月25日,Meta推出新一代开源AI模型Llama3.2系列,包含从1B纯文本到90B多模态的多个版本,支持边缘和移动设备,旨在推动人工智能在多种使用案例中的应用。此次发布强调了模型的开放性、可定制性以及在图像理解和视觉推理任务方面的能力,同时提供了预训练和指令微调版本,支持高通和联发科硬件,并针对ARM处理器优化。Meta同日还发布了真AR眼镜Orion,搭载端侧大模型,现阶段作为原型机仅面向开发者,预计消费者版本将于两年内推出。

Google发布了两个Gemini模型更新:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002,提供更多的能力、更快的速度以及更低的成本。新模型在多个基准测试中有显著提升,特别是在数学、长文本和视觉任务方面。Google还降低了Gemini 1.5 Pro的输入和输出token价格超过50%,提高了两个模型的速率限制,并减少了延迟。

OpenAI正在向ChatGPT付费用户全量推出高级语音模式,该功能将使ChatGPT的对话听起来更自然。ChatGPT新增了五种声音,包括Arbor、Maple、Sol、Spruce和Vale,使得总声音数量达到九种。此外,最新版本的高级语音模式在理解口音方面有所改进,对话更加流畅和快速。中文方面,高级语音模式还可以使用北京话、上海话、四川话、粤语等方言口音进行对话。

Claude宣布Artifacts功能免费开放,免费版、Pro版、Team版用户均可立刻上手体验。

钉钉推出了面向个人用户的“365会员”产品,提供包括AI搜索、个人AI助理、AI自动回复和自动速读在内的会员专享权益。365会员中的AI搜索功能可以整合工作和协同信息,个人AI助理支持直接询问、识屏提问、拍照提问等多种交互方式。对于家长用户,会员还提供“成长记录”功能,可以智能识别孩子的照片并自动记录成长轨迹。

9月26日,哗哩哔哩宣布已上线自研大语言模型“index”,并将其应用于AI字幕。目前,B站的AI字幕具备中文、英文、韩语、日语、泰语等近10种语言的实时翻译能力,准确度接近90%。

美图公司宣布其“奇想大模型”的视频生成能力已完成全面升级,现在能够生成时长、画质、流畅性、真实性和可信度更高的视频。升级后,该模型可以支持生成1分钟、每秒24帧、1080P分辨率的超长视频。这项技术的进步将逐步应用于美图秀秀、美颜相机、Wink、开拍、美图设计室、WHEE、MOKI等产品。

字节跳动发布两款视频生成模型,分别是豆包PixelDance和豆包Seaweed。PixelDance单次可生成最长10秒的视频,Seaweed可生成最长5秒的视频,可动态延长至20-30秒。发布会现场,字节展示了PixelDance模型的生成效果,其优势主要体现在对复杂指令的理解方面,适合人物、剧情更为复杂的视频生成,而Seaweed模型的优势主要在于生成视频的清晰度。

issue88 2024.9.30-10.6

10月1日,OpenAI 发布 Whisper large-v3-turbo 语音转录模型,参数 8.09 亿,速度提升 8 倍,解码层数减少至 4 层,体积与 VRAM 需求均降低,并开放 MIT 许可证下的代码及模型权重供 GitHub 用户获取和体验。

10月1日,OpenAI发布Realtime API,即高级语音模式的API,开发者可在Playground中体验,价格较贵,每百万token输入+输出需要300美元。

10月4日,OpenAI宣布了ChatGPT的新增功能——Canvas。基于GPT-4o模型开发而成,它提供了一个单独的窗口,可以与ChatGPT一起执行编程、写作任务,会帮你提供意见、审核和执行具体的功能。例如,当你在编写代码时遇到了困难,Canvas可以高亮显示有问题的代码段,帮助ChatGPT提供内联的调试建议快速修复这些错误;简单来说,可以把Canvas看成是一个内置的AI Agent功能,就是用AI来指导、协助ChatGPT一起执行任务,使输出的内容质量更好、更准确。

Meta发布Meta Movie Gen文生视频模型,被业界称为迄今为止最先进的媒体基础模型(Media Foundation Models),并非扩散模型。它使用了包含 30B 参数的视频生成模型和 13B 参数的音频生成模型。这一全新的 AI 模型采用计算机视觉和自然语言处理技术,通过简单的文本输入就可以生成高质量、高清晰度的视频和音频。其视频生成模型具有 300 亿个参数,能够以每秒 16 帧的速度生成长达 16 秒的视频。该模型结合了多种功能,还支持精准的视频编辑,用户可以输入文本描述生成高清视频,同时上传图像并添加背景音乐和音效。 使其不仅能够生成新视频,还可以生成配音乐的高质量音频。

Google发布NotebookLM,旨在帮助用户更好地整理信息、提出问题并生成答案。用户可以上传自己的文档,然后NotebookLM会立即理解这些来源的内容,使用户能够轻松阅读、记录笔记,并通过该工具来提出问题。这款工具也可以帮助用户更有效地创作和思考,适合于整理、研究和学习等多种场景。

快手可灵 AI 新推出的「对口型」功能,允许用户上传音频后使视频中的人物口型与之同步,目前支持 1.0 和 1.5 模型,且仅限人物角色,API 服务已面向所有用户开放。

Black Forest Labs发布FLUX Pro 1.1版,生成速度比前一版本快6倍,并提高了图像质量、提示依从性和多样性。同时推出官方API。

StackBlitz 推出 bolt.new,将AI代码生成从编码扩展到部署,带有完整的开发环境,可以预览部署后的效果。

issue89 2024.10.7-10.13

由MiniMax推出的海螺AI是一款国产AI视频生成器,它在VBench评测中排名第一,并在五周内实现了月访问量增长8倍多的惊人成绩。这款AI工具不仅吸引了全球180多个地区的专业人士,如电影导演和游戏开发者,还因其在人体动作流畅性和逼真性上的卓越表现而超越了竞争对手Runway。

10月8日,华为的原生AI操作系统“纯血鸿蒙”HarmonyOS NEXT已开始公测,该系统内置了名为小艺的智能体。HarmonyOS NEXT通过原生智能技术实现了AI与操作系统的深度融合,让小艺智能体能够与系统无缝结合,并在多个场景中提供智能化服务。这标志着华为在人工智能领域的进一步发展,为用户提供更智能、更个性化的操作系统体验。

vivo在开发者大会上发布了“蓝心智能”AI战略,展示了其在AI领域的深入布局,包括新一代操作系统OriginOS 5和BlueOS 2。后者搭载了基于Rust语言的蓝河内核,强调安全和高性能。蓝心大模型矩阵也得到全面升级,其中蓝心3B端侧大模型在多个评测中排名第一,性能提升300%,功耗优化达46%。基于蓝心语音大模型,“vivo听说”新增了方言自由说功能,目前支持6种方言,以解决各地区间的沟通障碍问题,让用户可以以自己最熟悉的乡音与手机进行交互。

北京智源人工智能研究院开发的BGE(BAAI General Embedding)模型在Hugging Face月度下载榜上位列第一,这是中国AI模型首次取得这一成绩。BGE模型自发布以来,总下载量已超过1亿次,成为下载量最多的国产AI系列模型。

10月11日,特斯拉在“WE,ROBOT”发布会上展示了无人驾驶出租车Cybercab和多功能无人驾驶厢式货车Robovan,展示了其在自动驾驶技术方面的重大进展。

10月13日,OpenAI在Github上开源了多智能体协同AI Agent——Swarm。与普通AI Agent不同的是,Swarm可以同时创建多个智能体互相协同工作来完成特定任务,包括客户服务、销售支持和售后服务等,同时每个智能体都配备了一套专属工具集以更高效的完成任务。

issue90 2024.10.14-10.20

OpenAI发布了GPT-4o-Audio-Preview模型。该模型能够分析音频输入的情感、语调和音调,并增强互动体验。此外,还提供了语音到语音的互动功能,音频既可以作为输入也可以作为输出。

OpenAI于本周发布了ChatGPT的Windows桌面客户端,提供了一种更便捷的桌面访问方式。此更新旨在提高用户体验和便利性,方便用户在桌面上使用该AI工具进行各种对话。

Meta 推出了一项名为 「自我训练评估器」 的 AI 工具,旨在减少 AI 开发中对人类的依赖。该工具利用 「思维链」 技术提高在科学、编程和数学等领域的答案准确性,并通过完全由 AI 生成的数据进行训练。这展示了实现自主 AI 智能体的可能性,能够从自身错误中学习。此外,自我改进的模型有望减少对昂贵且低效的 「基于人类反馈的强化学习」 的需求。Meta 还发布了其他 AI 工具,包括图像识别模型 「Segment Anything」 的更新和一些有助于发现新型无机材料的数据集。

Perplexity 推出“内部知识搜索”和“Spaces 空间”:内部知识搜索:用户可同时搜索公共网页和企业内部知识库,适合金融、销售、HR 和初创公司团队。Spaces 空间:用户可创建工作空间,邀请团队成员协作。

Google NotebookLM 推出企业版和个性化控制:支持自定义 AI 播客内容,调整解说深度,专注于用户指定的主题。个性化控制:类似给 AI 主持人提示卡,让解说更符合用户需求。

月之暗面推出 kimi 探索版 AI,搜索能力显著提升至普通版的 10 倍,并计划全面推广至用户,同时将新增至手机 App 中。

闺蜜机使用体验

闺蜜机/随心屏这个品类,是LG standbyME设备在2022年创立的,可旋转可移动的27寸触摸屏,我觉得很适合作为家里的第二屏。今年几乎国内所有的电视厂商都推出了同类产品,几番对比之后,入手了小度旗下的添添闺蜜机。

虽然乍看就是个大号安卓平板,但实际体验之后,发现还是挺香的:

-类纸屏,不会有镜面反光,显示效果跟环境融入得很好,跟Samsung Serif和LG Pose这类画境电视很像。既可以用作相框,也适合用作实时信息屏。

-27寸的大小刚刚好,无论是放在卧室、书房,甚至拖到卫生间,都适合有一定距离的观看(如果是iPad Pro+支架,就感觉小了)

-小度的设备,本身也是个智能音箱,可以随时语音控制(还带了mesh网关,可惜家中的智能生态是Homekit,小度就只能用来控制它本机了),内置的音箱功率也不大,但外放效果还是比iPad Pro好上不少的,适合家中听歌看剧。

-机身内置的摄像头可以实现视频通话、远程监控家中情况的功能,但带了一个物理镜头盖,这个设计很棒,有时候简单直接更让人安心。

-竖过来可以当作AI健身镜,通过摄像头检测,屏幕会实时显示动作标准程度。另外,还内置了两款摄像头体感游戏,通过深蹲和挥手进行控制。

-送了两个蓝牙麦克风,配合全民K歌可以实现家中KTV。

-作为大平板,它能安装任何手机应用,手机端的视频VIP都能直接使用。它还能投屏和外接HDMI设备当显示器使用。

-不方便触摸操作时,小度app提供了远程控制和遥控器功能。

-系统桌面是小度dueros定制的,更适合这款设备,待机时的效果美观,不low(作为环境软装,这很重要)

再说说缺点:

-立柱端的支架不可调角度,有时候还是觉得屏幕探出来的距离有点占空间。

-画框中的相册照片没有标注哪些是动态的,不可排序,也不可远程更新,希望后续系统升级可以优化。

-6GB RAM还是有点小,现在的流媒体app都很占内存,滑动快了会卡。

-投屏还是乐播的方案,常见的应用投屏都没遇到问题,但手机端Youtube只能投屏出界面,视频流没有投屏成功。

-普通机顶盒可以正常接HDMI,但试了fire tv stick的HDMI信号不能正常显示。

其他使用场景:

1、浏览器访问墨香,大屏就变成读报机~

2、央视影音app挂着iPanda熊猫频道,0距离观察心上熊的生活~ 挂机陪伴类的直播都很适合,比如国际空间站看地球~

3、微信读书的语音听书,边听边看~

4、小红书的一些竖屏视频可以当作动态壁纸~

Clubhouse room观察

目前看到的一些场景,这些场景也有相互交叉:

-主题讨论,大家围绕一个话题畅所欲言(最常见的room,但通常会歪楼,且发言者水平不一,比较随机;最近见到较多的话题是Clubhouse产品讨论、硅谷工作、时事新闻、恋爱情感、股市、区块链、游戏等等)

-分享/培训,由主分享者分享,分享后接受举手提问(类似疫情期间zoom上的在线沙龙)

-播客录制,直播录制,或直接与举手听众互动(听说是创始人一开始的动机)

-语言学习,跟母语者直接交流(近期亚洲用户大量涌入,中英日韩的语言学习房间也蛮多的)

-圆桌讨论,由主持人host,分别采访圆桌参与者

-单方言:本地方言聊天

-多方言:方言读诗、方言教学

-追星,听明星和朋友们聊天

-K歌,多人连麦K歌

-表演,皮卡丘房、政治人物模仿

-音频直播,播歌,主持人很少说话,类似音乐电台

-陪伴/背景音,连麦学习、连麦加班、连麦睡觉

-直播带货,音频带货(不太直观,但更能专注听带货者介绍)

几个感想:

-通过follow来找到你熟悉/信任的人参与的room,这种分发方式,是国内同类产品上没有看到的;

-Clubhouse目前提供的是相对通用的能力,由用户去自由使用,国内没法诞生一样调性的语聊社交媒体;

-两岸四地/海外华人在一起交流,通过语音聊天这种比文字更立体更实时的形式,相互之间的交流效率提高了不少;

-明星和大佬号召力非常强,也带起了初步的调性;听他们语聊,比看他们的微博抖音更真实更没有距离感;

-这几天AirPods充电次数变多了;

微信8.0 聊聊状态

微信8.0.0版本昨晚18:00正式上架App Store,这是18年12月7.0以来的大版本号更新,但更新记录只有一句话「更新了若干功能」。

几个比较明显的变化是:所有自带表情重绘,增加了动画和特殊效果;视频动态升级为「状态」;音乐详情页可以创作MV;多任务浮窗;会话列表下拉新增了「最近」。这其中我自己认为影响最大的变化会是「状态」。

如今的微信承载了越来越多点对点沟通或群聊之外的东西,公众号、小程序、视频号生态的繁荣带来的工作/娱乐内容正让我们每天更多时间停留在微信上。

状态,其实在PC QQ时代就有了,后来企业微信和钉钉也在工作场景中加入了状态。在这个24小时保持连接的时代,「状态」能让我们得到一丝喘息的机会:当你在专心工作、会议中、看书、追剧、忙家务、带孩子的时候,有这么个对外表露当前不便回复的地方。

微信的「状态」功能,亮点在于给定了十几种预设的常见状态,当你设置某种状态后,可以看到当前跟你同样状态的好友,在我第一次看到有十几个人跟我一样的时候,会有一种大家一起同在的感觉,非常奇妙。

小龙那句话「社交的本质就是找到同类」,说的就是这个。

入手AirPods Pro

苹果在今年3月推出带无线充电盒的AirPods 2后,又在10月底悄然在官网直接上线了AirPods Pro,如传言一样,这是一款真·无线降噪耳机。11月初在Apple在线商店下单,昨天收到。

在此之前,我对降噪耳机有一定了解,但从来没有试戴过,所以这次是我的降噪初体验,第一次戴上,听到周围的人声,还以为是从手机里传来的。然后到大街上戴上,就像立即进入了室内,这种感觉还是很棒的。

配对一如既往简单,但敲击操作变成了类似以前线控按钮的操作:默认设置下,长按耳机柄上的凹槽处,可以在降噪模式和通透模式之间切换。所谓通透模式,是把麦克风收的环境音播放出来,实测通透模式下如果不播放音乐确实跟没戴耳机差不多。

苹果把降噪耳机做到这么小,且带有无线充电盒,这个售价我觉得合理,毕竟AirPods 2无线充电盒版本也要1500+了。

坚果Pro 3发布会观后

惯例还是写几点自己的感想:

1、该有的坚持都还在,没有了老罗和朱萧木,坚果手机反而在吴德周、方迟和朱海舟的带领下,背靠字节跳动,从真正的使用场景出发,做得越来越靠谱了。

2、相比坚果Pro 3,我更关注Smartisan OS 7.1,新系统完善了一些基础体验,并带来了新的大爆炸、闪念胶囊、一步和TNT。

  • 基础体验方面,Smartisan终于加入统一推送联盟,有助于在系统级严格的应用活动限制下提升安卓通知的推送实时度和可用性。更新了系统全局默认字体、全面屏手势、带来了游戏模式和阅读模式、与字节系团队一起重构了相机应用(具体的调校效果有待后续评测)。
  • 新版一步,是小屏模式+应用分屏+钉app+原有一步的集合体,海舟说这是基于TNT的技术积累。从现场演示来看,还是蛮符合用户场景的,我们很多时候都需要把app暂时挂在旁边,去处理另一项事务,比如打车、外卖时的进度查看、旅行时多个高频使用的app等。新的一步支持4个应用同屏运行和切换,目前能在iPad OS上找到类似体验,而微信小程序浮窗也有类似作用,但没有新版一步的方案彻底。
  • 新的TNT,海舟说还在不断完善,先分享了三个升级:分享模式、无线TNT、虚拟触控板2.0。其实都是符合TNT使用场景的优化,如办公和教育的演示场景、网约车司机用作中控台的场景、在家里用作机顶盒的场景,无线投屏搭配Surface,将TNT变为安卓平板等等。可以看到TNT的转型纠偏,现在的方向终于对了。

3、坚果Pro 3,目前是7.1系统的独占机型,设计上类似iPhone5的方正造型+金属边框,用上了骁龙855+,8+128起售价2699,性价比还是不错的。配备了屏下指纹和后置四摄,但遗憾的是依然没有NFC和30W+的快充。

4、现在回过头看,无限屏、TNT工作站(大屏硬件)、畅呼吸空气净化器、聊天宝都是老罗走偏了的路,应该聚焦在已有一定优势的OS上,不至于耗费大量物力财力,迅速拖垮团队,尤其在拿到成都市政府的投资后。

5、Smartisan团队加入字节跳动是最好的结果,只是不知道老罗现在是什么心情。

境外sim卡漫游方案总结

本文针对仅拥有中国内地居民身份,但需要合法自由上网之人士,分析下目前各种境外sim卡漫游到中国内地使用的方案。

  • 免翻墙4G网络方案,并可用手机或4G路由器发wifi热点

Google Fi,淘宝或者tg群可以买到或搭车,月租20刀,+10刀/GB,6GB后封顶,也就是80刀无限流量(达到15GB后降速到256kbps),全球通用套餐,适合频繁各大洲飞的空中飞人。

Free法国,19.99欧元25GB流量,可漫游65个国家/地区,包括中国大陆、美国、澳大利亚、泰国、印度等国,但不包括香港/澳门、日本等。

CMLink英国,官网能免卡费申请,12.99英镑月套餐,包含9GB流量、1000分钟中英港通话,于英国、欧盟区、中国、香港生效,适合仅在内地香港漫游,亦适合经常去欧洲的人士。在以上四地之外的其它地区漫游属于套餐外,资费高。

CUniq英国,官网能免卡费申请,13英镑,包含3GB漫游流量、40GB英国流量,及一个香港副卡号码。适合仅在英国使用,偶尔内地香港漫游。

AT&T全球LTE,60刀1GB;Verizon,每天10刀;资费均较高,不推荐。

  • 香港号码方案,如用于注册Alipay HK或苹果香港零售店

无忧行,香港手机号,可注册后利用赠金免费用两个月,只能接打电话,不能收短信。

中国移动香港、中国联通香港 月租2港币,仅用于注册香港服务接收短信验证码,其它资费都是天价,如流量约48港币/MB。

在大湾区的同学可以带上护照及港澳通行证直接到深港口岸或者香港的中国联通营业厅进行签约开户或者转网(上台/转台)得到香港号码,需要押金1000港币。

  • 美国号码方案

Google Voice,可以被分配一个纽约区号的美国号码,可以通过GV网页版和app收发电话、短信。

2019苹果秋季新品发布会观后

1、先说主角,苹果首次把iPhone N这个数字编号的iPhone放给非旗舰机,11作为Xr的升级版,11 Pro作为Xs的升级版,11 Pro Max作为Xs Max的升级版,我想是为了跟其它产品线命名对齐;

2、发布会上以“为什么Pro”为主线介绍了11 Pro的性能、屏幕、相机;在A13处理器上,苹果在友商芯片对比中给出了与骁龙、麒麟以及自家A12 Bionic的跑分对比;

3、关于5G,今年的iPhone 11系列3款机器都是intel基带,不支持5G频段,虽然苹果在4月与高通和解,但最快要到明年,才有5G版iPhone了;回想起来,2012年的iPhone 5就已经支持了5个LTE频段,然而在2019年的5G上,这块的主动权不在苹果手上了;

4、iOS 13已经石锤的移除3D touch再次石锤,现在以长按配合震动代替,称作Haptic touch;

5、传言中的Pencil支持和双向无线充电并没有;

6、入门级的iPad (7th gen) 在展示时就配有键盘和笔,along with the whole iPads lineup,感觉这是对iPadOS的最佳展示;

7、Apple Watch Series 5,到了第6代,内置罗盘,为了配合watchOS 6中支持的独立watch应用,容量也升级到了32GB;

8、Apple Arcade 和 tv+,都是Family Plan 4.99刀每月,可以说是很厚道了;