HarmonyOS NEXT开启公测,微信1.0.0版同步内测,应用生态逐渐完善

华为于2024年10月8日宣布开启手机版原生鸿蒙操作系统HarmonyOS NEXT的公测,首批开启公测的设备共3个系列14个型号(Mate60系列、MateX5系列、MatePad13寸2024款)。

华为自今年1月中旬开始启动开发者内测,6月底至9月底经过4轮先锋用户内测,现在正式进入公测,但国民级超级应用“微信”一直没有上架鸿蒙应用市场。随着公测开启,腾讯也终于宣布微信同日开启邀请内测,内测时间为10月8日至12日。从部分参与内测的用户分享截图来看,鸿蒙原生版微信的版本号为1.0.0,首页标题为“微信测试版”,目前已有基础通信(支持消息和音视频聊天,暂不支持引用消息/语音转文字/从图片提取文字/收发文件/红包等)、公众号、小程序(仅支持下拉查看“最近使用的小程序”,暂不支持搜索)、朋友圈、扫一扫、收付款及零钱包等功能,暂不支持视频号及直播。

WXG员工@客村小蒋 在微博分享了鸿蒙原生版微信的开发难点:

1、鸿蒙原生版和 iOS、安卓有啥区别?

原生鸿蒙(HarmonyOS NEXT)完全是一套新的技术框架,编程语言是独特的 ArkTS 语言,这意味着所有的 app 都要完全重写。

技术同事说,开发微信鸿蒙原生版有当年做第一版微信的感觉,很多问题,大家要对着文档边做边学。

2、微信鸿蒙原生版功能怎么现在才出来?

参考问题 1,虽然切换一种新的编程语言,不是大问题,但一些技术问题,用新的工具解决后,它的稳定性也要重新测试。原生鸿蒙系统的公测,华为目前也仅开放了 Mate 60、Mate X5 两个系列的手机。大家都要谨慎对待一个新生态。

3、微信鸿蒙原生版目前体验如何?能做日常使用吗?

先说结论,如果你有两个微信号,主要用来和亲密的朋友联系的小号问题不大,工作用的大号我建议再稍等等。

目前单聊、群聊中发图片、视频,音视频通话,朋友圈,以及微信支付的二维码收付款功能都 ok 了,但还有一些功能,比如发文件、看视频号、部分小程序使用、发红包等还要等等。如果你比较依赖某些功能,可以再稍等等,功能会逐步完善。

4、怎么申请内测?

现在是小范围邀请内测,如果还没收到邀请,不要着急,预计很快会跟更多朋友见面。相信我,技术同事的键盘已经快敲冒烟了。

5、还有什么需要注意的问题?

记得数据备份。记得数据备份。记得数据备份。

华为提供了从原生鸿蒙回退到鸿蒙 4.2(可以兼容安卓应用)的选项,但回退会清空数据,手机本地的微信聊天记录就没了。

这名工程师还在评论区回答了许多网友的问题,罗列部分如下:

怎么才能知道自己是否收到了内测邀请呢?

如果收到邀请,华为账号绑定的手机号或邮箱会收到短信或邮件。

转账功能可以正常使用吗?

还不行,这个会优先完善。

消息通知有没有延迟?

我目前没遇到延迟。

是不是还没有小程序?

需要开发者做下适配,但不是重新开发,部分小程序已经可以用了。

换到鸿蒙微信,聊天记录是不是会被清空了?

不会,但升级 next 后再回退 4.2 的话,会清掉。

鸿蒙微信朋友圈后面会支持发送动图吗?

目标是所有功能都对齐,但这个功能预计要晚一些,另外非 iOS 平台的 live 图还有个标准不统一的问题。

既然都出原生版了,为什么不直接开放全量内测?然后直接在设置里面开一个反馈入口,这样不是能够收集更多问题、提高收集效率吗?现在还要邀请才能内测。腾讯啥新产品怎么都慢吞吞的?很小部分人内测怎么收到更多的建议和 bug 反馈呢?

涉及的功能多,一些功能比如支付,对安全性、稳定性的要求极高,只能先用通行的安全的做法:先内部测试,再小范围外部内测,再扩大范围、公测,直到正式版。

10/12更新:

NEXT里不再有AOSP的代码,但浏览器还是基于Chromium的,版本114,依赖后续升级;

NEXT已有开发者做出hap安装包的AutoInstaller,可以侧载Stream串流应用Moonlight和网络调试应用ClashMeta等。

2024年下半年,Windows XP还能用吗?

微软前几天刚发布了Windows 11 24H2,但最近我又翻出了XP虚拟机,这个在十年前就结束支持的操作系统,现在大部分软件的当前版本已经不再支持。那么,还有办法让它在发布23年后继续日常使用吗?

我这个虚拟机是Windows XP SP3 32-bit中文版,装完VMware Tools之后,通过宿主机联网没有问题,但IE6现在几乎无法打开任何网站,首先要解决的就是找一个现代浏览器。

搜了一下,装了Firefox的最后支持版本,52.9.0ESR https://ftp.mozilla.org/pub/firefox/releases/52.9.0esr/,但依然有很多网站无法正常显示。

再搜了一下,发现竟然有人基于Chromium最新代码在维护旧版操作系统能用的浏览器,这就是Supermium,最新版更新到126,是一个用于 Windows XP/2003 及更高版本的 Chromium 浏览器分支。安装之后,Windows 11能打开的网站,它都能打开了。

然后,到微软官方装一下SP3的各种补丁:https://www.catalog.update.microsoft.com/Search.aspx?q=xp%20sp3

然后,根据下面的帖子,装了一些常用软件,微信、TIM、搜狗输入法、7-zip、Office2010、酷狗、迅雷、PotPlayer等,可以说基本的使用没啥问题了。

https://zhuanlan.zhihu.com/p/348144558

https://zhuanlan.zhihu.com/p/409430401

最后来回顾一下从XP到Vista的开发历程:https://community.wvbtech.com/d/1387

Apple Intelligence论文阅读

以下内容基于AI总结后修改而来,供中文读者参考。

1. 简介

在2024年的苹果全球开发者大会上,苹果公司介绍了“Apple Intelligence”,这是一个集成于iOS 18、iPadOS 18和macOS Sequoia的个人智能系统。这个系统由多个强大的生成模型组成,这些模型经过优化,能够快速、高效地完成用户的日常任务,并根据当前活动即时适应。Apple Foundation Models(苹果基础模型,简称AFM)经过专门调整,能够在写作和优化文本、优先和总结通知、创建有趣的图像以及简化应用间的交互等用户体验中发挥作用。

Apple Intelligence 的设计始终贯彻苹果的核心价值观,并建立在业界领先的隐私保护基础之上。为了开发这些AI工具和模型,我们遵循以下负责任AI的原则:

  1. 为用户提供智能工具:识别AI的负责任使用场景,为用户提供特定需求的工具,同时尊重用户的使用选择。
  2. 真实地代表用户:构建能够真实代表全球用户的产品,努力避免在AI工具和模型中延续偏见和系统性问题。
  3. 小心设计:在设计、模型训练、功能开发和质量评估的每个阶段采取预防措施,以防止AI工具的误用或潜在危害,并不断根据用户反馈改进AI工具。
  4. 保护隐私:使用强大的设备端处理和创新基础设施如私有云计算,保护用户隐私,不使用用户的私人数据进行模型训练。

在本文中,我们将详细介绍两种模型的开发:适用于设备的约30亿参数的AFM-on-device模型和更大的基于服务器的AFM-server模型。这些模型是苹果为了支持用户和开发者开发的一系列生成模型的一部分。

2. 架构

AFM 基础模型是基于 Transformer 架构的密集解码器模型,具有以下设计选择:

  • 共享的输入/输出嵌入矩阵,用于减少参数的内存使用。
  • 采用预规范化(Pre-Normalization)和 RMSNorm,以提高训练稳定性。
  • 使用分组查询注意力(Grouped-query attention, GQA)来减少 KV 缓存的内存占用。
  • 采用 SwiGLU 激活函数,以提高效率。
  • 采用 RoPE 位置嵌入,基频设置为 500k,以支持长上下文处理。

AFM-on-device 的模型尺寸为:模型维度 3072、查询头数 24、键/值头数 8、层数 26,非嵌入参数数为 2.58B,嵌入参数数为 0.15B。

3. 预训练

3.1 数据

AFM 预训练数据集包括多种高质量的数据混合,这些数据包括:

  • 从出版商处获得的许可数据
  • 筛选过的公开数据集和开源数据集
  • Applebot 爬取的公开信息

所有数据均经过严格的去污和去除个人信息的处理,确保没有包含任何苹果用户的私人数据。

3.2 配置处理

AFM 预训练分为三个阶段:

  1. 核心预训练(Core Pre-training)
  2. 继续预训练(Continued Pre-training)
  3. 上下文扩展(Context Lengthening)

每个阶段均使用去耦权重衰减(decoupled weight decay)进行正则化,并采用 µParam(simple)来简化参数范数控制。

4. 后训练

在模型基础上进行的后训练阶段,我们进行了大量研究,以确保模型的通用能力,包括指令跟随和对话能力。我们采用了监督微调(SFT)和来自人类反馈的强化学习(RLHF)两种方法。引入了两种新的后训练算法:拒绝抽样微调算法和镜像下降策略优化算法。这些方法显著提升了模型质量。

4.1 数据

我们在后训练中采用了混合数据策略,包括人工注释和合成数据。人工注释包括演示数据和人类偏好反馈,而合成数据则由模型生成,用于增强数据质量和多样性。

4.1.1 人工注释

演示数据包含系统级和任务级的指令及其对应的响应,强调数据质量的重要性。人类偏好反馈则通过比较和排序两个模型响应来收集偏好标签,用于进一步改进模型。

4.1.2 合成数据

在某些领域,模型生成的响应质量能够与人工注释相媲美,甚至超越。因此,我们扩展了提示集合以增加多样性,并生成合成数据用于训练。

5. 支持苹果智能功能

苹果基础模型被设计用于支持iPhone、iPad和Mac上的苹果智能系统。我们使用LoRA适配器,以使基础模型能够动态地适应用户的日常任务。LoRA适配器是小型神经网络模块,可以插入基础模型的不同层中,以进行特定任务的微调。适配器的参数值使用16位表示,能够动态加载和切换,以有效管理内存和确保操作系统的响应速度。

5.1 适配器架构

LoRA适配器被用于所有的自注意力层和前馈网络层的线性投影矩阵中,只需微调适配器,保持基础模型的原始参数不变。这种方法既保留了模型的通用知识,又能支持特定任务。

5.2 优化

为了在边缘设备上高效地部署AFM模型并降低推理成本,我们应用了量化技术将权重的有效位数减少到4位以下,同时保持模型质量。为保持模型在特定领域的能力,我们开发了最先进的量化方法和框架,使得量化模型能够几乎无损地压缩,提供灵活的量化方案选择。

5.3 案例研究:摘要功能

我们利用AFM-on-device模型来实现电子邮件、消息和通知的摘要功能。虽然AFM-on-device在一般摘要任务上表现良好,但在严格符合规格方面存在困难。因此,我们对量化后的AFM-on-device模型进行了微调,生成高质量的摘要。

6. 评估

6.1 预训练评估

在预训练阶段,我们使用多个综合基准对AFM模型进行评估。核心预训练、继续预训练和长上下文预训练阶段均显著提高了模型在各种任务上的表现。特别是数学和代码模型的能力得到显著提升,尽管大部分基准表现变化在噪声范围内。

6.2 后训练评估

在后训练阶段,我们对未量化、量化和准确性恢复的模型进行了评估。实验结果显示,AFM-on-device模型在数学和语言理解等任务中表现优异,甚至超过了多个强大的开源和商用模型。尤其在写作、工具使用等任务上,AFM模型表现出色,与GPT-4等模型相媲美。

我们对AFM-on-device和AFM-server模型在各种指令跟随任务中进行了评估,这些任务涉及生成响应的长度、格式和内容等要求。结果表明,AFM模型在执行指令和一般指令跟随能力方面表现优异,超过了多个竞争模型。

7. 负责任的AI

7.1 概述

苹果智能的开发始终遵循负责任的AI原则,包括用户赋能、真实代表用户、谨慎设计和保护隐私。我们开发了一套安全分类体系,用于设计和评估我们的生成AI功能。这一分类体系覆盖了12个主要类别和51个子类别,包括仇恨言论、歧视、非法活动等。我们严格审查训练语料,确保不包含苹果用户的数据,并在推理过程中使用防护模型对输入和输出进行评估。

7.2 预训练

在预训练阶段,我们采取了多种措施确保模型的安全性,包括严格的数据政策、法律审查和安全过滤。我们避免过度过滤,以保持模型的通用能力,并为特定特征的政策迭代留有余地。

7.3 后训练

后训练阶段的目标是确保模型输出对用户有帮助,同时尽量减少潜在的危害。我们在训练数据中包括了对抗性数据,并通过监督微调和人类反馈的强化学习(RLHF)等方法提升模型的安全对齐能力。

结论

本文介绍了支持苹果智能功能的基础语言模型,包括AFM-on-device和AFM-server。这些模型旨在快速、有效地在iPhone、iPad和Mac等设备上运行,提供高质量的用户体验,如电子邮件、消息和通知的摘要。我们致力于在开发过程中贯彻负责任AI的原则,确保模型的安全性和用户隐私保护。

巴黎奥运,我这样看

央视频app:CCTV-5/5+/16/4K版16/4K/8K等多个频道直播信号在奥运会期间限时免费。另外央视频推出了9.9元15天VIP会员,切换频道想要免广告的话可以买一个。每天在“赛事中心”查看赛程,选择热点赛事进行预约,相当于加到了我关注的赛事列表,可在“我的预约”中查看所有关注的赛事时间和赛果。

奥运官网/app/小程序:查询赛中实时数据,运动员得分、排名等(https://olympics.com/zh/paris-2024/schedule),数据更新比直播信号快

微信浮窗:腾讯体育赛程(https://m.sports.qq.com/sports-event/h5-olympics-schedule.htm?competitionId=180000)、奖牌榜(https://m.sports.qq.com/sports-event/h5-medal-rank.htm?competitionId=180000)、一篇每日看点(来自人民日报)、一篇每日金牌赛日程(来自上海发布)

咪咕视频app:支持多角度信号同屏播放。

腾讯体育app:查看赛程、奖牌榜。

aoyo.ai:使用AI获取最新信息,并解答关于比赛规则、赛果、数据统计等的问题。

微信和抖音的”奥运会“搜索结果:随时获取最新资讯。

WWDC 2024 观后

新的操作系统,记录一些印象深刻的功能点,以此来观察Apple今年的软件升级方向:

iOS 18 / iPadOS 18

-控制中心改版,可全屏滑动切换页面,比如切换到媒体控制页、Home页、通信功能控制页

-新的Passwords App,统一管理所有密码

-手写计算器,在iPad备忘录中手写数学算式,画个等号或者横线,可直接计算出结果

-基于Apple Intelligence的全新Siri,支持双击Home Indicator打字与Siri沟通

macOS 15 Sequoia

-iPhone镜像,连续互通功能家族又新增成员,看演示几乎无延迟,对齐安卓阵营的多屏协同

-窗口Snapping,拖动窗口贴边即可快捷分屏

-新的Passwords App,统一管理所有密码

-Game Porting Toolkit 2,使得大量PC端游能更快移植,育碧11月发售的《刺客信条影》将同步发售macOS版本

-基于Apple Intelligence的全新Siri

watchOS 11

-新的Vitals应用程序和Training Load功能

-仅支持Apple Watch S6及以后的设备,经典的S4和基于S4的SE系统升级将截止到watchOS 10.6了

visionOS 2

-支持无线方式接入MacBook,在前方展示一个4K大屏幕,后续将可以拓展成更巨大的带鱼屏

tvOS 18

-支持21:9投屏

Audio&Home

-AirPods支持了点头、摇头交互,当腾不开手的时候来电,可以点头接电话,摇头拒接

Apple Intelligence

-Siri全局新UI,能结合个人数据和当前屏幕内容进行回答

-本地大模型+私人云服务线上大模型,线上不存储个人数据

-Keynote用了最后40分钟来讲Apple智能,分别通过功能、技术架构、应用体验三个部分做了介绍

-很多跨app的操作,后续第三方应用开发者适配后,都能张张嘴快速完成,省去点点点的很多步

-现在仅支持英语,中文支持日期没有公布

生成式AI大模型动态周报

周报源自得效团队博客,自2023年1月底创刊,2024年1月起更名为《生成式AI大模型动态周报》,主要关注主流生成式AI大模型的技术与产品动态。

issue46 2023.12.11-12.17

智谱AI近日提出了可解释、可扩展的文本质量评价模型CritiqueLLM,该模型可以针对各类指令遵循任务上大模型的生成结果提供高质量的评价分数和评价解释。评价结果显示,在各项任务上660亿参数的CritiqueLLM与人工评分的相关系数均超过ChatGPT,达到和GPT-4相当的水平。尤其是在具有挑战性的无参考文本设定下,CritiqueLLM能够在3项任务(包括综合问答、文本写作和中文理解)上超过GPT-4,达到目前最优的评价性能。

理想汽车微信公众号发文,在理想汽车智能软件发布会上,该公司发布了全自研多模态认知大模型Mind GPT,该模型围绕车载场景打造,拥有理解、生成、知识记忆及推理能力。据介绍,Mind GPT基于理想同学的重点场景,量身定制了覆盖111个领域、超过1000种以上的专属能力,基于该模型的AI理想同学将以邀请内测形式面向用户逐步开放。

AI创企Runway于官网宣布开展围绕通用世界模型(General World Models)的长期研究工作,目标是表现和模拟与现实世界中一致的广泛的互动。Runway称,其目前的Gen-2等视频生成系统可以看作是非常早期的通用世界模型,对物理和运动有一定的了解,但在处理复杂的摄像机或物体运动等问题上仍有困难。为了建立通用的世界模型,Runway正在进行几项公开的研究,包括生成环境地图,在环境中导航和交互,捕捉世界和世界中居民的动态,建立逼真的人类行为模型等。

12日凌晨,李飞飞的斯坦福团队与谷歌联合发布用于生成逼真视频的扩散模型W.A.L.T,基于Transformer训练而成,支持文生视频、图生视频和3D摄像机运动。据介绍,该方法有两个关键的设计,一是使用因果编码器,在统一的潜空间内联合压缩图像和视频,从而实现跨模态的训练和生成;二是为了提高记忆和训练效率,使用了为空间和时空联合生成建模量身定制的窗口注意力架构。最后,团队针对文本到视频的生成任务训练了由三个模型组成的级联,包括一个基本潜在视频扩散模型和两个视频超分辨率扩散模型,能够以每秒8帧的速度生成分辨率为512*896的视频。

12月13日,国际顶刊《自然》(Nature)公布2023年度最具影响力科学家10人名单,其中OpenAI首席科学家伊利亚·苏特斯科夫(Ilya Sutskever)作为“AI梦想家”入选,因为他在ChatGPT的开发中发挥了核心作用,同时关心AI的安全和未来。此外,ChatGPT作为非人类首次入选,旨在承认它在模仿人类语言的AI在科学发展和进步中所发挥的作用。

谷歌宣布大模型Gemini Pro现已推出API(应用程序接口),目前支持32k上下文窗口,在一定限制内可免费使用,具有函数调用、嵌入、语义检索和自定义知识基础以及聊天功能,支持全球180多个国家和地区、38种语言,支持文本、图像输入和文本输出,提供SDK(软件开发工具包)。用户现在可在在线免费开发者工具Google AI Studio、云托管AI平台Vertex AI上使用该模型。定价方面,免费版本支持每分钟最多60个请求,但输入输出数据将被用于改善谷歌的模型。

谷歌宣布在Vertex AI托管平台中推出新的文生图模型Imagen 2、医疗保健行业模型MedLM,还全面推出面向开发者的代码工具Duet AI。Imagen 2支持自然语言生成高分辨率的逼真图像、生成Logo以及视觉对话。Imagen 2还推出了文本渲染支持,可以在图像上生成准确的文字,此前只有OpenAI的DALL-E 3支持该功能。Imagen 2支持英语、中文、印地语、日语、韩语、葡萄牙语、西班牙语7种语言,包含内置安全预防措施,集成数字水印服务。

Meta生成式AI副总裁Ahmad Al-Dahle于社交平台Threads宣布,Instagram现已推出AI图像背景编辑工具,可通过自然语言为图像一键生成并更换背景。

12月14日,文心一言插件商城正式上线,商城集合众多高质量插件,覆盖办公提效、多模态内容理解生成、专业信息查询等许多实用场景,用户只需通过简单指令,即可实现PPT生成、音视频提取、思维导图制作等多场景多模态下的需求,实现“指令即服务”的便捷体验。开发者也可以根据需求,自己亲自设计插件。

12月14日,Stability AI推出从单张图像生成3D对象的模型Stable Zero123。该模型基于Stable Diffusion 1.5建立,面向非商业和研究用途开源模型权重,与上一代Zero123-XL相比,训练效率提升了40倍。

当地时间周四,英特尔在纽约举行“AI Everywhere”活动,正式推出代号为Meteor Lake的新型酷睿Ultra处理器。该处理器专为支持AI技术所设计,内置AI加速引擎,可更快地运行AI程序。酷睿Ultra处理器有三种不同的配置,分别是酷睿Ultra 5、酷睿Ultra 7和酷睿Ultra 9。英特尔称,与AMD Ryzen 7 7840U、高通骁龙8cx Gen 3和苹果自研M3芯片等笔记本电脑处理器相比,酷睿Ultra 7 165H芯片的多线程性能提高了11%。与之前的英特尔酷睿i7-1370P相比,它的功耗降低了25%,比AMD的Ryzen 7 7840U的功耗降低了79%。英特尔的所有新CPU还将配备NPU,即神经处理单元,提供“低功耗AI加速和CPU/GPU卸载”,能够执行AI驱动的任务,如背景模糊、眼动追踪和图片框架等。

issue47 2023.12.18-12.24

微软于官网宣布在最新的Visual Studio预览版中,向GitHub Copilot Chat订阅用户推出AI驱动的变量、方法和类命名建议新功能。据介绍,该功能不仅能提供名称建议,还能了解标识符的使用方式和代码风格,从而提出与代码库无缝匹配的标识符,帮助用户提高代码的可读性和可维护性,确保代码在未来数年内的使用寿命和易懂性。

12月19日,百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API(应用程序接口),包含Baichuan2-Turbo-192K及Baichuan2-Turbo。在支持192K超长上下文窗口的基础上,还增加了搜索增强知识库的能力。即日起,API用户可上传文本资料来创建自身专属知识库,从而根据自身业务需求打造更完整、高效的智能解决方案。此外,百川智能还升级了官网模型体验,目前其官网大模型已支持PDF、Word等多种文本上传以及URL网址输入,用户可通过官网入口体验搜索增强和长窗口加持后的通用智能。

12月20日,谷歌于官网宣布将AI代码辅助功能扩展到所有Colab用户,包括免费用户,现已在175个地区推出。Colab是谷歌提供的一个在线工作平台,可以免费使用GPU进行深度学习,支持Jupyter Notebook和代码执行程序。

比尔盖茨发布年度展望博客,其中谈道:“如果让我做个预测,在美国这样的高收入国家,我猜离普通民众大量使用AI还有18-24个月的时间。而在非洲国家,我预计在3年左右的时间里,AI的使用就会达到相当的水平。这仍然是一个差距,但比我们在其他创新中看到的滞后时间要短得多。”他还提到,希望AI在抗生素药物、个性化教育、高危妊娠治疗、艾滋病风险评估、医疗信息获取等方面能够得到更广泛的应用。

12月22日,在全国信息技术标准化技术委员会AI分委会全体会议上,国内首个官方“大模型标准符合性评测”结果公布,阿里云通义千问、百度文心大模型、腾讯混元大模型、360智脑大模型首批通过评测,在通用性、智能性等维度均达到国家相关标准要求。

昆仑万维AI Agents开发平台“天工SkyAgents”Beta版正式开放测试。据介绍,天工SkyAgents开发平台基于昆仑万维“天工大模型”打造,具备从感知到决策,从决策到执行的自主学习和独立思考能力。用户可以通过自然语言构建自己的单个或多个“私人助理”,并能将不同任务模块化,通过操作系统模块的方式,实现执行包括问题预设、指定回复、知识库创建与检索、意图识别、文本提取、http请求等任务。

issue48 2023.12.25-12.31

12月24日,OpenAI CEO萨姆·阿尔特曼(Sam Altman)于社交平台X上发帖询问网友对于OpenAI明年应该建设或修复哪些功能的建议,随后他总结了一些常见的请求,包括AGI、GPT-5、更好的语音模式、更高的速率限制、更好的GPTs、更好的推理、控制行为的程度、视频功能、个性化、更好的浏览、使用OpenAI登录、开源等。其中,他在AGI后面标注“请耐心等待”,并称“对于AGI的请求比预期多得多,但很抱歉,我认为我们无法在2024年实现这一目标”,他还提到将“尽可能满足这些需求,以及许多其他未被网友提及、但令OpenAI团队自己感到兴奋的功能”。

AI创企Pika于社交平台X宣布面向所有用户开放旗下视频生成平台Pika 1.0网页端访问权限。据悉,Pika成立于2023年4月,创始人郭文景(Demi Guo)和Chenlin Meng都是斯坦福博士。Pika 1.0不仅能根据文字、图片或视频风格生成三维动画、动漫、卡通和电影等不同风格的视频,还能对视频局部进行编辑。

Kimi Chat发布v1.2版本,模型更新至moonshot-v1-20231225,平均输出长度提升;在联网模式下,首字回复的速度大幅提升;实现了从扫描件(文档、合同、白板等)提取文字的功能,目前已支持PDF格式的扫描文件上传解析。交互方面,Kimi Chat推出小程序“Kimi智能助手”,网页端上线浅色模式。

有网友发现,微软已于一周前悄然推出安卓版Copilot应用程序,用户可从Google Play商店下载。应用程序描述显示,Copilot由最新的OpenAI模型、GPT-4和DALL·E 3提供支持,这些先进的AI技术提供快速、复杂和精确的响应,并且免费。截至目前,微软暂未推出iOS版Copilot。

12月26日,2023联想天禧AI生态伙伴大会在北京召开。会上,联想集团副总裁、中国区消费业务群总经理张华发布了联想天禧AI生态“四端一体”战略。“四端”分别指的AI PC、AI平板、AI手机和AIoT四类终端设备,“一体”则有两层含义,一方面指的是承接用户个人助理任务的个人智能体,另一方面也意味着个人智能体穿梭于四类AI终端,使其融为一体。同时,联想的AI个人智能体“小乐同学”首次亮相,并面向广大生态开发者伙伴启动智能体小程序招募计划。

微信宣布将于2024年1月11日在广州举办2024微信公开课PRO,将发布产品能力、展示价值理念、沟通生态伙伴、凝聚行业共识。2024微信公开课PRO期间,小游戏、微信AI等也将悉数登场,带来多项能力升级与案例分享。

韩国文化部宣布将不对AI生成的内容进行版权登记,从法律上不承认此类内容的创造性。文化部补充说,只有那些明显传达人类思想和情感的作品才有可能进行版权登记。这一决定将很快在面向AI企业、版权持有者和用户的“AI版权指南”中公布,指南还规定,AI企业需要向版权持有者提供公平的补偿,以确保其产品的使用权,建议版权持有者明确表达其意图或采取技术措施,以防止其创作被用于AI研究。

issue49 2024.1.1-2024.1.7

外媒The Information发文总结2023年最难忘的10个AI时刻,包括OpenAI与微软伙伴关系继续、Meta Llama改变赛况、GPT-4发布、3万多人联名呼吁暂停AI模型训练、AI Agent兴起、美国总统拜登的AI行政命令与欧盟AI法案、GitHub Copilot付费用户超过100万、多模态兴起、OpenAI CEO萨姆·阿尔特曼(Sam Altman)的感恩节压力、等待谷歌Gemini。

中文大模型测评基准SuperCLUE发布《中文大模型基准测评2023年度报告》,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告包括国内大模型关键进展、测评体系、方法说明、大模型综合测评结果、SuperCLUE2.0升级、四大维度测评分析及示例介绍以及优秀模型案例介绍等内容。

据Windows Central报道,微软正在对其Surface产品线进行重大更新。Surface Pro和Surface Laptop都将首次提供英特尔和Arm版本,并且都将配备下一代NPU(神经处理单元)芯片。这些代号为CADMUS的PC将被设计用来运行微软正在打包到未来版本Windows中的AI功能。新设备将在春季发布,并将作为微软首款真正的AI PC推向市场。

美图公司自研AI视觉大模型MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案,将面向公众开放。在当前通过备案的国内大模型当中,MiracleVision(奇想智能)是唯一专注视觉领域的大模型,也是福建省唯一通过备案的大模型。

1月2日,调研机构WriterBuddy发布一项新调查,通过使用SEO行业知名工具SEMrush研究3000多种AI工具,其筛选出2022年9月至2023年8月访问量最大的50款工具,这些AI工具吸引了超过240亿次访问量。其中,ChatGPT以140亿次访问量位居第一, 占分析流量的60%以上。AI聊天机器人类工具最受欢迎,访问量达到191亿次。

对话式搜索引擎创企Perplexity AI的CEO Aravind Srinivas在社交平台X上公开回应有关竞争不过搜索引擎大厂谷歌的质疑,称Perplexity存在的原因是通过更少的关键字查询、筛选、链接点击、页面浏览,提高搜索效率和信息访问效率;直接找到问题根源,然后用一个简洁、清晰、个性化的答案,便于人们做出决定,这与谷歌的财务和商业目标是不一致的。

1月3日消息,据日经亚洲报道,日本相机“三巨头”尼康、索尼和佳能即将推出新技术,让照片的来源变得更容易验证。该技术允许摄影师通过相机本身嵌入数字签名,包含摄影师姓名、拍摄日期、时间和地点等信息,然后通过一个名为Verify的免费网络应用程序进行认证,该应用程序由媒体机构、相机制造商和科技公司组成的全球联盟推出。

1月4日,AI搜索引擎aoyo.ai在ProductHunt发布,称可用母语搜索全网内容并总结,其首个版本支持英语、中文、日语、西班牙语。

钉钉联合国际知名咨询机构IDC发布首份《2024 AIGC应用层十大趋势白皮书》。随着AIGC技术的发展,智能化应用将呈现爆发式增长,IDC预测,到2024年全球将涌现出超过5亿个新应用,这相当于过去40年间出现的应用数总和。根据《白皮书》,2024年AIGC应用的十大趋势关键词涵盖应用层创新、AI Agent、专属模型、超级入口、多模态、AI原生应用、AI工具化、AI普惠化。

网易有道发布子曰教育大模型的2.0升级、虚拟人口语教练Hi Echo的2.0升级,同时发布了有道速读、全新AI家庭教师应用小P老师以及新一代AI学习机X10。据介绍,小P老师能够回答语文、数学、英语、生物、历史等10个学科的问题,支持拍照、语音、文本输入,并将首次落地学习机X10。新一代AI学习机X10首创学习机、学练机和学生专属电脑三合一模式,覆盖全学科、学段,提供墨水屏模式模拟纸质学习场景,内置编程软件、WPS等应用,学习机内的小P老师、Hi Echo等应用终身免费且持续升级。

科技部于12月21日发布《负责任研究行为规范指引(2023)》,其中提到科研人员在申报研究项目材料时,不得使用生成式AI直接生成申报材料,应依规合理使用生成式AI处理文字、数据或学术图像,防范伪造、篡改数据等风险。在文献引用方面,使用生成式AI生成的内容应明确标注并说明其生成过程,对其他作者已标注为AI生成内容的,一般不应作为原始文献引用。成果署名方面,生成式AI不得列为成果共同完成人,应在研究方法或附录等相关位置披露使用生成式AI的主要方式和细节。学术出版单位应应要求作者披露是否使用生成式AI,提醒审稿人在审稿过程中使用生成式AI应依规谨慎。

deepin(深度)操作系统于官网发文,宣布近日推出了一款“看图AI插件”,用户在安装后即可在设备端体验8种AI修图功能,分别是图像上色、提升分辨率、模糊背景、删除背景、手绘漫画、2D漫画、3D漫画、素描。这些功能不依赖于互联网在线模型,也不受制于算力的硬件约束,在PC单机上可轻松运行。

微软将其安卓和iOS平台的移动浏览器应用名称从“微软Edge”改为了“微软Edge:AI浏览器”,强调了其目前最重视的AI领域。除了新的名字,该浏览器在介绍中也宣传了新的AI功能,如DALL-E 3图像生成器、Copilot文章摘要、图像识别等,还强调了对GPT-4的支持。

issue50 2024.1.8-1.14

近日,清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent的CogAgent,CogAgent 是一个通用的视觉理解大模型,具备视觉问答、视觉定位、GUI Agent 等多种能力,可接受 1120×1120 的高分辨率图像输入。在 9 个经典的图像理解榜单上取得了通用能力第一的成绩,并在涵盖电脑、手机的 GUI Agent 数据集上,大幅超过基于 LLM 的 Agent,取得第一。目前团队已将 CogAgent-18B 开源至 GitHub 仓库,并提供了网页版 Demo。CogAgent 的模型结构基于 CogVLM。

美团、浙大等推出了能够在移动端部署的多模态大模型MobileVLM,包含了 LLM 基座训练、SFT、VLM 全流程。MobileVLM 是一款专为移动设备设计的快速、强大和开放的视觉语言助手。它结合了面向移动设备的架构设计和技术,包括从头开始训练的 1.4B 和 2.7B 参数的语言模型、以 CLIP 方式预训练的多模态视觉模型,以及通过投影实现的高效跨模态交互。在各种视觉语言基准测试中,MobileVLM 的性能可媲美大型模型。

issue51 2024.1.15-1.21

1月16日,智谱AI 在DevDay上发布了新一代基座大模型GLM-4,定制化的个人GLM大模型GLMs和GLM Store。与上一代ChatGLM3相比,GLM-4在综合能力上实现了全面跃升,性能提升了60%,已经逼近GPT-4。它具备更强的多模态功能,支持更快的推理,更多并发,推理成本大大降低。同时,GLM-4也增强了智能体能力。GLM-4带来128K的上下文窗口长度,也就意味着,在单次提示词中,可处理文本达到了300页。GLM-4的文生图和多模态理解都得到增强。

同日,智谱还推出CogView3,效果明显超过开源最佳的Stable Diffusion XL,逼近DALL·E 3。相对之前,CogView3的语义理解能力都得到大大增强。

1月15日,微软宣布推出个人版Copilot Pro订阅服务,每月20美元,可以使用Office AI功能,目前在美国、英国、法国、德国等地可用,后续还将扩大可用地区。这意味着个人用户也可以开始使用AI驱动的Office功能,其中包括使用Office软件的AI功能、优先访问最新的OpenAI模型、甚至构建自己的Copilot GPT。

1月17日,上海人工智能实验室与商汤科技联合香港中文大学、复旦大学发布新一代大语言模型书生·浦语2.0(InternLM2)。这个大模型包含70亿和200亿两种参数规格,以及基座、对话等版本,向全社会开源并提供免费商用授权。InternLM2能够一次性处理约30万汉字的输入内容,从中准确提取关键信息,实现对长文本的“大海捞针”。

issue52 2024.1.22-1.28

1月25日,OpenAI发布了一系列重磅大模型更新,连发了五个新模型以及新的API使用管理工具。包括:新的GPT-3.5 Turbo模型,输入价格暴降50%,输出价格降低25%,同时修复各种BUG,回应准确性更高;新的GPT-4 Turbo Preview模型,生成代码能力更强,模型“变懒”情况减少,修复各种BUG;新的小型文本嵌入模型text-embedding-3-small,性能小幅提升,价格降至上代的五分之一;新的大型文本嵌入模型text-embedding-3-large,性能强,可创建多达3072维的嵌入,部分测试性能提升70%以上,价格略贵。同时,OpenAI还直接让开发者在略微损失精度的情况下缩短嵌入,实现性能和成本的平衡;新的审查模型text-moderation-007,OpenAI将其称之为“迄今为止最强大的审查模型”。

1月25日,谷歌研发出全新的时空扩散模型 Lumiere(法语,启蒙者),几乎集齐了常见AI视频生成和编辑功能,也是先进的视频生成器。Lumiere 会根据用户自然语言提示,创造出非常逼真(高质量超现实主义)视频,时间长达五秒。模型的图片到视频功能可以根据用户提示,让静止的图像动起来。谷歌研究人员在 Lumiere 中引入了一种“时空 U-Net 架构” Space-Time U-Net(STUNet),一次构建了整个视频长度, 能够学习将视频信号在空间和时间上同时进行下采样和上采样,并在网络的压缩空间时间表征上执行主要计算。

1月26日,阿里云公布多模态大模型研究进展。通义千问视觉理解模型Qwen-VL再次升级,继Plus版本之后,再次推出Max版本,升级版模型拥有更强的视觉推理能力和中文理解能力,能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩,比肩OpenAI的GPT-4V和谷歌的Gemini Ultra。相比Qwen-VL,Qwen-VL-Plus和Qwen-VL-Max拥有更强的视觉推理和中文理解能力,整体性能堪比GPT-4V和Gemini Ultra。

issue53 2024.1.29-2.4

1月30日,科大讯飞升级了讯飞星火大模型。讯飞星火V3.5除了七大能力全面提升,整体能力接近GPT-4,还特别在语言理解、数学等能力上实现超越。技术方面,讯飞的语音大模型将更多语音表征解耦,融入到大模型预训练中。在多语种识别中,在首批37个主流语种效果超过OpenAI Whisper 3。并且在多语种语音生成、超拟人语音生成上,也有一定的提升。目前语音大模型已经向开发者完全开放,并且首发搭载在讯飞翻译机上面。

Midjourney二次元模型Niji-Journey V6上线,能把控日漫欧美动漫风格,甚至图中还能生成字体,输入/settings,然后点击Niji Model 6就可以在任何discord机器人上打开使用。目前,Niji V6还在内测中,预计在2月底正式推出,并将带来Vary、Pan、Zoom等特色功能。

2月2日,谷歌官方宣布:在最新版Gemini Pro的加持下,Bard不仅获得了推理、理解、总结、编码能力的迅速飞升,而且还能支持230多个国家的40多种语言。为了负责任生成,Bard生成的图像都将由SynthID进行标记。SynthID是谷歌DeepMind开发的一种水印工具,可将数字水印直接嵌入到我们生成的图像的像素中。SynthID的水印人眼无法察觉,但可检测以进行识别。

2月2日,欧盟27国代表投票一致支持《人工智能法案》文本,标志欧盟向立法监管人工智能迈出重要一步。法案要求所有通用人工智能模型遵守透明度义务,同意严格限制面部识别等技术的应用,禁止对人类安全造成“不可接受风险”的人工智能系统。

issue54 2024.2.5-2.11

2月6日,通义千问大模型(Qwen)的 1.5 版上线了。新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最强版本的性能超越了 GPT 3.5、Mistral-Medium,包括 Base 模型和 Chat 模型,且有多语言支持。Qwen 1.5 支持 32K 上下文长度;开放了 Base + Chat 模型的 checkpoint;可与 Transformers 一起本地运行;同时发布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 权重。本次更新着重提升了 Chat 模型与人类偏好的对齐程度,并且显著增强了模型的多语言处理能力。

2月8日,谷歌宣布大模型体系全面进入了 Gemini 时代,并带来最新的 Gemini Ultra 模型。Gemini Ultra 1.0 是第一个在 MMLU(大规模多任务语言理解)超越人类专家的 AI 模型,结合了 57 个科目,包括数学、物理、历史、法律、医学和伦理学,用来测试大模型知识和解决问题能力的基准。谷歌官宣四项AI新进展:大模型版本Gemini Ultra 1.0全面开放;聊天机器人Bard正式官宣改名为Gemini;安卓版新“Gemini”应用程序上线;全套办公工具Google Workspace、谷歌云中的所有AI协作工具Duet AI也改名为Gemini。

issue55 2024.2.12-2.18

2月16日, OpenAI发布视频生成模型Sora,称构建了一个“物理世界的通用模拟器”。它是一种通用的视觉数据模型,能够生成各种持续时间、宽高比和分辨率的视频和图片,甚至长达一分钟的高清视频。Sora是一种基于Transformer架构的扩散模型,有很强的扩展性,从噪声开始,能够一次生成整个视频或扩展视频的长度,一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。不同于LLM使用的文本token,Sora使用的是视觉patch。还采用了DALL·E 3中的重新标注技术,应用在了视频上。目前Sora根据图像和文本提示生成视频,已经能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。

2月14日,作为测试的一部分,OpenAI 开始为一小部分 ChatGPT 免费和付费用户推出新的“记忆”功能,并在未来进行大规模的推广。该功能可让用户明确告诉 ChatGPT 记住某些内容或者用户查看它记住了什么。ChatGPT 的记忆功能完全由用户掌控,也可以随时关闭这种功能。ChatGPT 的记忆会随着互动而演变,并且与特定对话无关。删除聊天记录并不会消除其记忆,必须删除记忆本身。

issue56 2024.2.19-2.25

2月21日,谷歌宣布推出全新开源模型Gemma,拉丁语中意为“宝石”。Gemma 是先进的轻量级开放模型系列,采用了与创建Gemini模型相同的研究和技术。本次,谷歌发布了Gemma的两个版本:Gemma 2B(20亿参数)和Gemma 7B(70亿参数)。每种规模都提供了预训练和指令微调版本。当前,Gemma 2B和7B允许所有组织(无论规模大小)负责任地进行商用和分发。

MWC2024 将于 2 月 26 日至 29 日在西班牙巴塞罗那举行,联想集团将推出最新的人工智能设备和基础设施及解决方案组合,并展示两款挑战传统个人电脑和智能手机外形的新概念产品。秉承AI for All的愿景,联想集团将在 MWC 上推出多款全新 AI PC 和边缘计算解决方案,加速促进该技术在 2024 和 2025 年成为主流,混合人工智能的趋势将刺激 AI PC 和 AI Phone 的需求,并推动新的行业更新周期。

issue57 2024.2.26-3.3

2月26日,谷歌团队发布110亿参数Genie精灵。Genie是一种全新的生成式AI范式,仅凭一张图像,就能创造出互动性强、可玩的环境,创造出可玩的虚拟世界,动作可控碾压Sora。Genie学习了20万小时的未标注互联网视频,主要包括2D平台游戏和机器人领域的视频,无需监督即可训练。无需任何动作标注,便可以确定谁是主角,并让用户能够在生成的世界中对其控制。Genie是通过潜动作模型、视频分词器,以及自回归动态模型三大核心组件来实现的。

2月27日,开源社区Mistral AI发布旗舰模型Mistral Large(不开源),具备卓越的逻辑推理能力,能够处理包括文本理解、转换以及代码生成在内的复杂多语言任务。在主流基准测试中,Mistral Large,成绩仅次于GPT-4。Mistral Large能够母语般流利地使用英语、法语、西班牙语、德语和意大利语,深刻理解各自的语法规则和文化背景;能够处理32K Token的上下文内容;在执行具体指令方面异常精准;支持函数调用。目前,这个新旗舰模型仅在Azure AI和Mistral AI平台上可用。其中,在Azure AI上的定价如下:输出为0.024美元/1000 token,输入为0.008美元/1000 token。

issue58 2024.3.4-3.10

3月5日,Anthropic发布了最新的Claude 3系列模型,在多模态和语言能力指标上,包括推理、数学、编码、多语言理解和视觉方面,碾压GPT-4。本次发了三个模型Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus,能力依次从低到高,都将至少支持20万token的上下文窗口,都能处理超过100万token的输入。目前,Opus和Sonnet已经可以在claude.ai以及覆盖159个国家的Claude API上使用了。Haiku模型也将很快推出。

3月10日,Pika发布了一项Sound Effects新功能,可以给视频无缝生成音效。Pika给视频生成音效的操作简单。相比于此前生成视频的操作,现在只需开启下方“Sound effects”按钮即可。或者在生成了视频过后,点击下方的“Edit”,再选择“Sound Effects”单独给它配音。Sound Effects功能目前只对超级合作者(Super Collaborator)和Pro用户开放测试。

issue59 2024.3.11-3.17

3月14日,国内的大模型独角兽公司零一万物正式发布了 Yi 大模型 API 开放平台。此次 API 开放平台提供以下模型:Yi-34B-Chat-0205:支持通用聊天、问答、对话、写作、翻译等功能。Yi-34B-Chat-200K:200K 上下文,多文档阅读理解、超长知识库构建小能手。Yi-VL-Plus: 多模态模型,支持文本、视觉多模态输入,中文图表体验超过 GPT-4V。

3月15日,苹果正式公布自家的多模态大模型MM1系列,具有 30B 参数,参数最高可达 300 亿。它由密集模型和混合专家(MoE)变体组成,不仅在预训练指标中实现 SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。

3月17日,xA官方开源Grok-1,一个3140亿参数的8个MoE混合专家模型。代码和模型权重已上线GitHub,模型的权重文件则是以磁力链接的形式提供,文件大小接近300GB。开源的是2023年10月预训练阶段的原始基础模型,没有针对任何特定应用进行微调。Grok-1选用了Rust编程语言以及深度学习框架新秀JAX。

issue60 2024.3.18-3.24

3月18日,月之暗面将自家模型的上下文窗口提升了一个数量级,从发布之初的20万字,拓展到200万字。该版本在Kimi上开启内测,并且在与Kimi对话过程中,加入了(不打断模型思路的)“继续”功能按钮。同时,相同成本、相同设备情况下,模型响应速度提升了3倍左右。月之暗面还提出了“Kimi 10分钟速成定律”,即无关领域大众小众,也无关资料或多或少,只要把资料一股脑丢给模型,10分钟内,Kimi都能快速入门一个新领域。此外, Kimi Chat改名为Kimi智能助手,Moonshot大模型改名为Kimi大模型。

AI初创公司Suno AI重磅推出了一款音乐生成模型V3。仅用几秒的时间,V3便可以创作出2分钟的完整歌曲。现在已经向所有用户免费开放。相比与之前的版本,v3生成的音乐质量更高,而且能制作各种各样的风格和流派的音乐和歌曲。提示词的连贯性也有了大幅提升,歌曲结尾的质量也获得了极大的提高。为了激发人们的创作灵感,Suno v3还新增了更丰富的音乐风格和流派选项,比如古典音乐、爵士乐、Hiphop、电子等新潮曲风。

3月18日,Colossal-AI团队全面开源了类Sora架构视频生成模型Open-Sora 1.0,涵盖了关于文生视频的整个训练流程,包括数据处理、所有训练细节和模型权重,1万美元64块GPU复现,训练成本直降46%。模型采用了目前火热的Diffusion Transformer(DiT)架构。整个架构包括一个预训练好的VAE,一个文本编码器,和一个利用空间-时间注意力机制的STDiT(Spatial Temporal Diffusion Transformer)模型。Open-Sora的复现方案参考了Stable Video Diffusion(SVD)工作,共包括三个阶段,分别是:大规模图像预训练;大规模视频预训练;高质量视频数据微调。

3月19日,Stability AI 推出3D 视频生成大模型Stable Video 3D(简称 SV3D)。该模型基于 Stable Video Diffusion 打造,能够显著提升 3D 生成的质量和多视角一致性,效果要优于之前 Stability AI 推出的 Stable Zero123 以及丰田研究院和哥伦比亚大学联合开源的 Zero123-XL。目前,Stable Video 3D 既支持商用,需要加入 Stability AI 会员(Membership);也支持非商用,用户在 Hugging Face 上下载模型权重即可。

3月22日,百度升级了大模型应用开发神器百度千帆AppBuilder。它开放了55个工具组件,包括大模型组件、AI组件、搜索组件、第三个API工具等。能让企业或个人零门槛开发各种场景下的Agent应用。同时,百度大模型也上新了,一共5个,主打轻量化、性价比、实际场景:ERNIE Speed,ERNIE Lite,ERNIE Tiny,ERNIE Character,ERNIE Functions。

issue61 2024.3.25-3.31

3月29日,人工智能独角兽AI21 Labs推出并开源了Jamba,在多个基准上超越了 transformer。Jamba 将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 transformer 架构相结合,是基于全新SSM-Transformer混合架构的52B生产级Mamba模型,与Mixtral 8x7B相比,长文本处理吞吐量提高了3倍;实现了256K超长上下文窗口;是同等规模中,能在单张GPU上处理140K上下文的模型;以Apache 2.0开源许可协议发布,开放权重。

3月29日,xAI升级推出Grok-1.5模型,数学和代码能力大幅提升,支持128k长上下文。Grok-1.5能够在其上下文窗口内处理128K token的文本。此外,新模型还可以处理更长和更复杂的提示,同时在其上下文窗口扩展时仍保持其指令跟随能力。Grok-1.5构建在基于JAX、Rust和Kubernetes的定制分布式训练框架之上。

3月30日,OpenAI 首次亮相了语音引擎 Voice Engine预览版,其首次开发时间是 2022 年末。通过文本输入以及一段 15 秒的音频示例,可以生成既自然又与原声极为接近的语音。即使是小模型,只需一个 15 秒的样本,也能创造出富有情感且逼真的声音。Voice Engine 并未根据用户数据进行训练或微调,而是通过一个扩散过程和 transformer 结合的方式 从而产生语音。不过,Voice Engine 目前不支持音调、音高或节奏的调整。Voice Engine 的定价为每一百万字符 15 美元。

RWKV 元始智能 日前宣布向全球开源其 RWKV-6 1.6B(2.5T Tokens) 模型。

issue62 2024.4.1-4.7

阿里通义千问团队正式公开 Qwen1.5-32B,它是 Qwen1.5 语言模型系列的新成员,在性能、效率和内存占用之间寻求理想平衡,旨在提供与30亿参数规模模型相媲美的性能。在 MMLU、GSM8K、HumanEval 以及BBH等多个任务上,Qwen1.5-32B 即使与72B参数模型相比性能有所下降,但在多数任务中仍优于其他30B级别模型。相较于72B模型,Qwen1.5-32B的内存占用大幅减少,运行速度显著提升,旨在帮助用户为其下游应用找到更优的解决方案。

4月2日,昆仑万维官宣,AI音乐生成大模型天工SkyMusic基于昆仑万维天工3.0超级大模型打造,即日起面向社会开启免费邀测。本轮测试已开放1000个免费名额。天工SkyMusic采用音乐音频领域类Sora模型架构:Large-scale Transformer 负责谱曲,来学习 Music Patches 的上下文依赖关系,同时完成音乐可控性;Diffusion Transformer 负责演唱,通过LDM让Music Patches被还原成高质量音频,使得天工SkyMusic能够支持生成80秒44100Hz 采样率双声道立体声歌曲。这套模型架构在处理视频、音频和音乐领域效果极佳。

4月3日,腾讯开源了文生视频工具MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。文本、图像到视频的生成结果的所有帧直接由MuseV生成,没有时序超分辨、空间超分辨等任何后处理。除了直接放出模型代码,目前MuseV还有demo可体验。

4月1日,初创公司阶跃星辰,发布了三个大模型:Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型预览版。目前,千亿参数模型 Step-1超过 GPT-3.5 ,多模态大模型 Step-1V比肩 GPT-4V。第一款应用是跃问聊天助手,可以完成信息查询、语言学习、创意写作、图文解读等任务。此外,它还具备了多模态内容理解能力、联网搜索、代码分析增强(POT)等能力,高效理解和回应用户的查询,提供连贯且相关的对话。

4月1日,澜舟科技官宣:孟子3-13B大模型正式开源,面向学术研究完全开放,并支持免费商用。孟子3-13B大模型是基于Llama架构,数据集规模高达3T Tokens。语料精选自网页、百科、社交、媒体、新闻,以及高质量的开源数据集。通过在万亿tokens上进行多语言语料的继续训练,模型的中文能力突出并且兼顾多语言能力。

OpenAI官宣4月2日起,ChatGPT不用注册,可以直接使用。虽然这次开放的版本是GPT-3.5,训练数据截止到2022年,但仍然大大降低了使用门槛。此后的ChatGPT将成为一项免费,快速的基础服务。

4月4日,OpenAI 的 DALL-E 进行了多项升级,添加了与 ChatGPT 的集成,现在用户可以在 ChatGPT 中使用 DALL-E 组件进行复杂的图像编辑。当输入一个想法时,ChatGPT 会自动为生成模型生产量身定制的、详细的 Prompt,用户也可以继续使用自己的 Prompt。

issue63 2024.4.8-4.14

4月9日,Google Cloud Next 2024大会上,谷歌宣布Gemini 1.5 Pro正式开放公开可用、上线音频处理能力;更新代码模型CodeGemma,推出首款自研Arm架构处理器Axion,升级视频版Imagen 2.0。其中,谷歌Gemini 1.5 Pro已经在Vertex AI上开放公测,100万token,还增加了音频功能。它能处理音频流,包括语音和视频中的音频。

4月10日,OpenAI官宣发布了具备视觉功能GPT-4 Turbo的正式版,能处理128k上下文,已经可以通过API调用了,其训练数据截止到2023年12月。同时,Vision请求也可以使用JSON模式和函数调用。新模型可以有助于简化开发人员的工作流程,创造出更高效的应用程序。与此同时,OpenAI已经将GPT-4每3小时40条消息的使用限制,变成了根据供需情况动态调整的灵活配额。不过,有研究发现,GPT-4 Turbo with Vision在编码方面较差。

4月13日,xAI 推出了多模态模型 Grok-1.5V。该模型不仅能理解文本,还能处理文档、图表、截图和照片中的内容。Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型,从多学科推理到理解文档、科学图表、图表、截图和照片。目前,Grok-1.5V 还没有完全开放,但会很快提供给早期测试者和现有的 Grok 用户。此外,xAI 还推出了一个新的基准RealWorldQA。目前,RealWorldQA 包含 700 多张图片。

百度文心一言上线了新功能,仅需几秒钟即可定制自己的声音。打开文心一言App,点击下方“+”,然后选择创建智能体。在声音选项里,会发现一个名为“创建我的声音”的功能。根据系统提示读出一段话,只需两秒左右的时间,系统便能捕捉到用户的声音特点,生成一个独特的“语音助手”。在确认声音质量后,用户的专属“语音库”就在瞬间构建完成。今后,在与智能体的每一次对话中,用户都可以点击播放键,使用自己合成的音色进行语音播报。

issue64 2024.4.15-4.21

4月16日,Create 2024百度AI开发者大会举办,宣布文心大模型4.0性能提升52.5%,又公布了智能体、代码、多模型等方面的新进展。百度着重介绍了三款AI开发工具:AgentBuilder(智能体开发工具)、AppBuilder(AI原生应用开发工具)和ModelBuilder(模型定制工具)。其中,AgentBuilder是面向所有人的,不需要编程基础也能可以轻松建立。会上,百度还发布新一代智能计算操作系统万源(Wanyuan)。

4月17日,稀宇科技 MiniMax 推出了万亿 MoE 模型 abab 6.5。abab 6.5系列包含两个模型 abab 6.5和abab 6.5s。abab 6.5 包含万亿参数,支持 200k tokens 的上下文(相当于约 30 万汉字)。abab 6.5s 跟 abab 6.5 使用了同样的训练技术和数据,但更高效,支持 200k tokens 的上下文长度,可以 1 秒内处理近三万字的文本。根据 MiniMax 发布的技术报告,在知识、推理、数学、编程、指令遵从等维度测试中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。MiniMax还开发了一款生产力产品“海螺AI”,目前已经接入了万亿 MoE 模型 abab 6.5。

4月17日,昆仑万维宣布天工 3.0基座大模型与天工 SkyMusic音乐大模型正式开启公测,无次数限制。它生成的中文人声发音清晰、正宗、无异响,不仅针对普通话做了优化,还有粤语、成都话、北京话等方言语种。目前,SkyMusic已经集成到了手机上的天工APP。从目前的结果来看,天工SkyMusic可以支持生成80秒左右时长的歌曲。大模型天工 3.0 拥有 4000 亿参数。

Mistral AI 开源了其最新的大模型 Mistral 8x22B,该模型在AI开放社区中设定了性能和效率的新标准。

4月19日,Meta官宣了Llama 3 80亿和700亿参数版本,在各自参数规模上超越对手,为开源SOTA。Llama 3 405B 版本仍在训练中,将是一个密集模型,预计年末发布。据现有的评测数据,405B 版本的性能已经逼近 GPT-4。架构层面,Llama 3选择了经典的仅解码式Transformer架构,采用包含128K token词汇表的分词器。训练方面,Meta上了2.4万块GPU集群,Llama 3的训练数据规模达到了15T tokens,全部来自于公开信息,其中5%为非英文数据,涵盖30多种语言。此次与基础模型一同发布的,还有基于Llama 3的官方Web版本Meta AI(https://www.meta.ai/)。目前该平台有对话和绘画两大功能。

issue65 2024.4.22-4.28

科大讯飞发布首个支持长文本、长图文、长语音的大模型 讯飞星火 V3.5。支持多情感超拟人合成和个性化声音复刻。

微软发布名为 Phi-3 的小型语言模型(SLM),该模型系列虽然体积小巧,但功能强大,具有很大的潜力。作为Phi-3系列的首版,Phi-3-mini 拥有3.8亿参数,并且性能超过了两倍于其大小的模型。Phi-3-mini 现在可以在 Microsoft Azure AI模型目录和 Hugging Face 上公开获取,并且也可以在 Ollama 轻量级框架上运行。

4月25日,苹果团队发布了OpenELM,包含了2.7亿、4.5亿、11亿和30亿四个参数版本。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的 checkpoint 和训练日志。OpenELM是一款专为终端设备而设计的小模型。OpenELM使用了分层缩放策略,来有效分配Transformer模型每一层参数,导致模型每层的参数数量不同,从而实现了更有效的跨层参数分配与提升准确率。这款模型还可以在M2 MacBook Pro(64GiB内存)运行。

issue66 2024.4.29-5.5

5月1日,Google推出新型多模态医学 AI 模型 Med-Gemini 。它融合了高级推理、多模态理解和长文本处理能力,构建基于 Google 的 Gemini 模型,并针对医学领域进行了专门的优化和改进。在医学基准测试如MedQA中,展现出优越性能,准确率达91.1%。

5月2日,Anthropic 推出一项针对企业的新付费计划,其中包括医疗保健、金融和法律等受到高度监管的行业,该计划名为“Team”,为客户提供对 Anthropic 的 Claude 3 系列生成型 AI 模型以及额外的管理员和用户管理控制的更高优先级访问权限。此外,Anthropic 也推出一款 iOS 应用,只有11MB。该应用提供对 Claude 3 的访问,包括免费访问以及升级的 Pro 和 Team 访问,并与 Anthropic 的网络客户端同步,利用 Claude 3 的视觉功能为上传和保存的图像提供实时分析。

issue67 2024.5.6-5.12

幻方 DeepSeek AI 开源 MoE 语言模型 DeepSeek-V2。该模型拥有236B的参数量,能够处理长达128K token的上下文,相较于前一代DeepSeek 67B模型,在性能上实现了显著提升,同时在训练成本上节省了42.5%,减少了93.3%的KV缓存,并显著提高了最大生成吞吐量。在多个基准测试中,DeepSeek-V2的性能直逼行业领先的GPT-4,尤其在数学、代码和推理任务上表现出色。

5月8日,谷歌DeepMind发布了新一代预测蛋白质结构的AlphaFold 3模型,能够帮助科学家更精确地针对疾病机制,从而开发出更有效的治疗药物。此举是一个重要的里程碑式突破。AlphaFold 3是一种人工智能模型,它可以预测蛋白质、DNA、RNA等生物分子的结构以及它们如何相互作用。另外,DeepMind还推出了AlphaFold Server,它是一个供全球科学家用于非商业研究的免费平台。

5月9日,阿里云正式发布通义千问2.5,同时发布1100亿参数开源模型Qwen1.5-110B。此外,百炼大模型平台从模型开发、应用开发到算力底座全面升级。升级后,百炼还兼容LlamaIndex等开源框架,企业可自由替换能力组件来适配自身系统。

月之暗面 Moonshot AI 宣布对旗下智能助手 Kimi 进行更新,并推出专业 AI 助手 “Kimi+”。据官方介绍,Kimi+ 是拥有独特技能的 Kimi 分身,可解决特定问题,也能组成 AI 生产线。

零一万物推出了名为「万知」的一站式AI工作平台,号称专为中国人设计,能够提供会议纪要、周报撰写、写作辅助以及解读财报、论文等文件,并帮助用户制作PPT。这款AI个人助手支持中英双语,用户可以通过网页和微信小程序访问。

5月8日,OpenAI 官方发布了《模型规范》(Model Spec) 初稿,旨在公开讨论和定义AI模型应有的行为。所公开的文件汇集了OpenAI在塑造模型行为方面的现有文档、研究经验和未来模型发展的指导原则,主要包括三个核心部分:目标、规则和默认行为。目标是指导模型行为的广泛原则;规则是确保安全和合法性的明确指令;默认行为则是在目标和规则框架下处理冲突的指导方针。Model Spec 的发布是为了加深公众对AI模型行为的理解和讨论,同时也是OpenAI对模型安全和行为改进承诺的延续。OpenAI计划将这份规范作为研究人员和AI训练者的指导,探索模型是否能直接从规范中学习,并在未来一年内根据反馈更新规范内容、分享研究进展。

issue68 2024.5.13-5.19

5 月 14 日凌晨,OpenAI 在首次春季新品发布会上推出了新一代旗舰生成模型 GPT-4o (o 代表 Omnimodel全能模型)、桌面 App,并展示了一系列新能力。GPT-4o具有文本、语音、图像三种模态的理解力,模型反应比人类的回应还快,最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。还能够充分理解人类的情感,也能表现出各种感情。在多项基准测试中,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能。GPT-4o 的文本和图像功能免费在 ChatGPT 中推出,并向 Plus 用户提供高达 5 倍的消息上限。

5月17日, OpenAI宣布ChatGPT可分析线上Excel数据。ChatGPT可以直接打开线上数据文件,支持从Google Drive和Microsoft OneDrive在线文档上传,在新的可扩展视图中与表格和图表进行实时交互,完成实时数据分析;自定义图表并下载图表,用于演示文稿和文档。网友已经灰度测试到背后的新模型ADA V2。

零一万物发布 Yi 大模型家族的新成员 Yi-1.5 并宣布开源。Yi-1.5 模型包含6B、9B、34B三个版本的预训练和微调模型,采用Apache 2.0许可证。该模型在编码、数学、推理和指令遵循方面的能力相较于前一版本Yi有显著提升,同时保持了在语言理解、常识推理和阅读理解方面的优秀表现。

腾讯发布基于混元大模型的一站式智能体开发平台「腾讯元器」。企业和开发者可以通过腾讯元器直接创建智能体,利用腾讯官方提供的插件和知识库,实现个性化的AI应用开发。腾讯元器的亮点在于其便捷的一键分发功能,允许用户将创建的智能体快速部署到QQ、微信客服、腾讯云等多个渠道上,极大地简化了AI技术的落地应用过程。

腾讯公司宣布其混元文生图大模型全面升级并开源,这是业内首个中文原生的DiT(Diffusion With Transformer)架构文生图模型。该模型包含15亿参数,支持中英文双语输入及理解,现已在Hugging Face平台及GitHub上发布,包括模型权重、推理代码和模型算法等,可供企业与个人开发者免费商用。

5月15日,2024火山引擎FORCE原动力大会上,字节跳动云雀大语言模型升级为豆包大模型家族正式在火山引擎上对外开放服务。豆包大模型家族的全系列模型,包括豆包通用模型pro/lite、角色扮演模型、语音合成模型、语音识别模型、声音复刻模型、Function call模型、文生图模型以及向量化模型。豆包通用模型pro-32k版,推理输入价格0.0008元/千tokens,较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens。另外,豆包通用模型pro-128k版本,推理输入价格为0.005元/千tokens。

谷歌在I/O 2024开发者大会上发布Gemini 1.5 Pro正式版,上下文长度达到200万token,而且开放给个人用户使用。支持多模态的Gemini可以处理上传的任何格式的信息,理解内容后将其改造成适合用户的形式并可对话互动。

谷歌发布了Gemini 1.5 Flash。Flash是一个更轻量级的模型,专为那些对响应速度要求极高的特定或频繁任务优化。它同样具有多模态、1M tokens长上下文的特点,只不过实现了轻量化、低延迟、高效推理,每百万个token的价格仅是Pro版的二十分之一。Gemini 1.5 Flash在Google AI Studio和Vertex AI中可用,开发者可以注册申请两百万token的内测版。

issue69 2024.5.20-5.26

微软在2024 Build开发者大会上发布了Phi-3系列模型的新成员 “Phi-3 Vision”,这是一个有42亿参数的多模态模型,结合了语言和视觉能力。Phi-3 Vision专为图表和图解理解进行了优化,能够处理现实世界图像的推理以及从图像中提取和推理文本,支持128K的上下文长度。该模型在一般视觉推理任务、OCR、表格和图表理解任务中表现出色,优于其他更大模型如Claude-3 Haiku和Gemini 1.0 Pro V。

5月21日,微软在2024 Build开发者大会发布新一代 Copilot+ PC。它配备了强大的 AI Agent,只需在键盘上轻点新的 Copilot 按键即可快速交互。硬件AI算力达到40 TOPS以上,或者说每秒40万亿次运算,电池续航时间可达一整天。目前开始预订,起售价 999 美元,国行价格8688 元起售,6 月 18 日发货。在新一代PC里,打游戏时可与AI实时对话,提供吐槽陪玩或攻略指导,由GPT-4o提供支持。任何文件或网页浏览记录都可以用自然语言搜索回忆,实时翻译音频或视频字幕,目前支持40+种语言。在专为AI重构的新版Windows 11上,约有40多个AI模型被深度集成,许多功能都是实时的。微软引入了全新的系统架构,将CPU、GPU和新的高性能神经处理单元NPU结合在一起。NPU负责在后台实时运行AI。

5月21日 ,智谱·AI宣布推出新一代多模态大模型CogVLM2,该模型在关键性能指标上相较于前一代CogVLM有了显著提升,同时支持8K文本长度和高达1344*1344分辨率的图像。尽管CogVLM2的模型大小为19B,但其性能接近或超过了GPT-4V的水平。CogVLM2的技术架构在上一代模型的基础上进行了优化,包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块,这些模块通过独特的参数设置,精细地建模了视觉与语言序列的交互。

5月22日,百川智能发布其最新一代基座大模型 Baichuan 4,并推出了首款AI助手“百小应”。Baichuan 4在各项能力上相比前一代Baichuan 3有显著提升,其中通用能力提升超过10%,数学和代码能力分别提升14%和9%。在SuperCLUE的评测中,Baichuan-4的能力排名国内第一,超越了SenseChat V5。Baichuan 4还首次带来了多模态能力,在各大评测基准上表现优异,领先其他多模态模型。

5月20日,面壁智能打造了端侧多模态模型MiniCPM-Llama3-V 2.5。该模型8B参数,不仅支持30+多种语言,而且综合性能、OCR长难图识别能力SOTA;图像编码快150倍。面壁自研高清图像高效编码技术,可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比的图像。

issue70 2024.5.27-6.2

腾讯将基于混元大模型的 AI 助手应用「混元助手」升级为「腾讯元宝」,集成 AI 搜索、AI 总结、AI 写作等功能。元宝不仅提供 AI 助手的标准功能,还利用腾讯新闻和微信公众号平台的资源,增强了内容的及时性和丰富度。此外,元宝还具备生成内容、翻译、多模态生成等多种能力,显示出腾讯在 AI 应用领域的强大技术实力和生态优势。

Google 宣布 Gemini 1.5 Flash 和 Gemini 1.5 Pro 现已全面推出。Gemini 1.5 Flash 现支持 1,000 RPM 限制,并引入了调优功能。此外,API 现已支持 JSON Schema 模式,AI Studio 移动版支持和浅色模式也已上线,为开发者提供更强大和便捷的开发工具。

OpenAI 推出专为大学校园设计的 ChatGPT Edu 版本,支持 GPT-4o、网络搜索、自定义 GPT、数据分析、代码生成等功能。牛津、剑桥、伯明翰等 24 所大学,以及沃顿商学院和亚利桑那州立大学已开始使用该生成式 AI 产品。ChatGPT Edu 提供多模态推理、增强的数据分析和搜索功能、自定义 GPT、提升的语音质量及多语言支持,还具备强大的安全机制,包括数据隐私、组权限和管理控制。

法国人工智能初创公司 Mistral AI 宣布了其首个代码生成模型 Codestral。该模型接受了 80 多种编程语言的训练,包括 Python、C、C++、JavaScript 和 Bash 等。Codestral 能自动完成代码函数、编写测试,并使用填补中间的机制完成部分代码,减少错误和漏洞。该模型拥有 32k 的上下文窗口,在 HumanEval、MBPP、CruxEval、RepoBench 和 Spider 等基准上表现出色,提供 API 端点、插件和开发环境集成。

issue71 2024.6.3-6.10

6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是完整地将MoEUpcycling技术应用并落地的开源千亿MoE大模型,也是支持用单台4090服务器推理的开源千亿MoE大模型。本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为146B,激活参数量22B,共有16个Expert,每个Expert大小为13B,每次激活其中的2个Expert。

6月4日,AI初创公司澜舟科技宣布轻量化大模型Mengzi3-8B,现已正式开源,并支持免费商用。Mengzi3-8B是一款高效、低显存需求的AI大模型,半精度下显存占用小于16G,适用于PC(如MacBook)和大部分消费级显卡(如RTX 4090、RTX 4080、RTX 4070Ti)。此外,Mengzi3-8B的原生推理速度在同级别模型中处于领先地位,特别适合个人开发者和AI爱好者使用。

6月5日,智谱AI在智谱AI Open Day上宣布对旗下全模型矩阵的价格大幅下调,开源GLM-4-9B系列模型,并发布了大模型应用清言App和大模型开放平台的最新更新。小模型ChatGLM3-6B升级为9B后,在开放平台变为GLM-4-flash版本,API 价格相较于GLM-3 Turbo降价至10%。第四代GLM系列开源模型GLM-4 9B,官宣开源免费用。GLM-4模型,在开放平台上为GLM-4-Air版本,每100万token只需1元,价格则仅为原来的1%。

6月7日,阿里云发布开源模型Qwen2-72B。本次开源的Qwen2-72B大模型在自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的开源模型,包括阿里云在4月底开源的Qwen1.5最大的模型Qwen1.5-110B。该Qwen2系列包含5个尺寸的预训练和指令微调模型,包括wen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。所有尺寸模型都使用了GQA(分组查询注意力)机制,模型的多语言能力和上下文长度支持均得到了提升。

issue72 2024.6.10-6.16

苹果在WWDC 24上展示了其首个AI系统——Apple Intelligence及全新Siri。这个强大的新功能将为iPhone、iPad和Mac提供情景驱动通知、写作改进、图像生成等功能。Apple Intelligence的英语试用版将于今年夏天推出,并于今年秋天在iOS 18、iPadOS 18及macOS Sequoia中发布Beta版。使用门槛是iPhone 15 Pro系列、配备M1芯片的iPad和Mac以及后续机型。苹果还和OpenAI宣布建立合作伙伴关系,将ChatGPT直接集成到即将发布的iOS 18、iPadOS 18和macOS中。

Luma Labs推出了Dream Machine,这是一种全新的AI模型,能够根据文本和图像提示生成5秒的视频剪辑。

6月12日,微软发布公告称Copilot GPTs将于7月10日起停服,移除创建GPT的功能,用户已经创建的GPTs将被清空。微软给出的官方解释是公司战略调整,正在将GPT的重点转向商业和企业场景,背后原因可能是缺乏商业回报。Copilot GPTs关闭引发了用户不满,批评者质疑此举会切断创新并削减消费者对于产品的信任。

6月14日,英伟达宣布推出 Nemotron-4 340B。它包含一系列开放模型,通过独特的开放模型许可,开发人员可以用免费、可扩展的方式使用这些模型生成合成数据,用于训练大语言模型,可用于医疗健康、金融、制造、零售等所有行业的商业应用。Nemotron-4 340B 系列包括基础、Instruct 和 Reward 模型,用于生成训练和改进 LLM 的合成数据。这些模型经过优化,可与 NVIDIA NeMo 配合使用,后者是一个用于端到端模型训练的开源框架,包括数据管理、定制和评估。它们还针对开源 NVIDIA TensorRT-LLM 库的推理进行了优化。

issue73 2024.6.17-6.23

6月20日,Anthropic 发布了下一代旗舰大模型Claude 3.5 Sonnet,不仅在评估中胜过GPT-4o,还保持着中等规模的模型所具有的速度和成本优势。如今,Claude 3.5 Sonnet已经面向全球开启免费试用了。成本更低、速度更快。在运行速度方面,Claude 3.5 Sonnet也是Claude 3 Opus的两倍。在费用上,Sonnet处理每百万输入token仅需3美元,每百万输出token仅为15美元。

在Computex 2024大会上,Stability AI正式官宣SD 3 Medium公开发布。据悉,之后还会开源4B和8B的版本。目前,ComfyUI已经提交了对SD3支持的版本。本次开源的版本是Stable Diffusion 3 Medium在Hugging Face上可以下载模型权重。它的规模为20亿参数,在笔记本上就能跑。

6月21日,华为在年度开发者大会上推出全新升级的盘古大模型5.0版本,该版本在全面性、多模态处理能力以及深度思考能力上均实现了显著提升。盘古5.0针对不同业务需求,推出了多种规格的模型,并且能够与现实世界紧密结合,推动大模型在各行业的广泛应用。

Hedra发布Character-1,用户可以细颗粒度地控制如何使用AI来制作“虚拟角色的动画”。这是Hedra即将推出的基础视频模型的“预览版本”,目前它只提供方形视频,而不是宽屏或竖屏,而且分辨率相对较低。它的使用门槛相当低。基于该模型,用户只需要一段音乐——可以直接生成,或者上传已有的音乐,一张图片——可以直接生成,或者上传自己的图片。然后,只需单击生成视频并等待即可。大概一分钟左右,会生成一个一个口型同步的视频。

依图科技发布了面向安防场景的天问大模型4.0。

issue74 2024.6.24-6.30

谷歌DeepMind公布其新一代最强开源模型——Gemma 2。Gemma 2有90亿(9B)和270亿(27B)两种参数规模可用。27B模型训练了13T tokens,9B是8T tokens,都拥有8192上下文窗口,可在Google AI Studio中使用。26亿参数(2.6B)模型将很快发布,小到可以在手机本地运行。

OpenAI宣布开发了一个名为CriticGPT的新模型,基于GPT-4训练,旨在查找ChatGPT输出内容中的错误。CriticGPT的主要目的是协助人类AI训练员完成工作,使用”从人类反馈中强化学习”(RLHF)技术来改进GPT-4的回答。

6月25日,OpenAI向中国用户发布邮件称,自7月9日起,将不再接受来自那些未在其支持列表中的国家和地区的API请求。如果受影响的组织想要继续利用OpenAI的服务,他们需要在OpenAI服务覆盖的国家或地区进行访问。目前,OpenAI的API服务覆盖了全球161个国家和地区,但中国并不在其中,这表明OpenAI将不再向中国用户提供API服务。

百度在深度学习开发者大会上推出了智能代码助手”文心快码”。该产品基于文心大模型和百度多年积累的编程数据,具有代码智能、场景丰富等优势,可实现”帮你想、帮你写、帮你改”的应用形态。文心快码在百度内部已广泛使用,代码采用率达44%。它支持100多种编程语言,在Go、Java等主流语言中表现优异,并兼容多种主流IDE。产品分为标准版、专业版、企业版和企业专有版,满足不同用户需求。

6月27日,科大讯飞发布讯飞星火大模型V4.0及多个领域的人工智能应用。

issue75 2024.7.1-7.7

Runway宣布其最新的文生视频模型Gen-3 Alpha向所有用户开放,每月最低收费12美元。Gen-3一次可生成11秒的720P视频,支持文本输入生成视频。该模型功能强大,比肩Sora,能够生成高质量的视频内容。

7月3日,AI 音乐生成工具 Suno 宣布推出 iOS 客户端。

7月4日凌晨,法国知名开源 AI 研究实验室 Kyut 在官网发布了多模态大模型 Moshi。Moshi 的功能与 OpenAI 在5月14日展示的最新模型GPT-4o类似,都可以听取人的语音提问后进行实时推理回答。

7月4日,在今天揭幕的 2024 世界人工智能大会暨人工智能全球治理高级别会议(简称“WAIC 2024”)上,阶跃星辰首发了三款 Step 系列通用大模型新品:Step-2 万亿参数语言大模型正式版、Step-1.5V 多模态大模型、Step-1X 图像生成大模型。

7月5日,商汤科技发布了国内首个流式多模态大模型日日新5.5,实现了实时跨文本、音频、图像与视频推理,多项测评超过GPT-4o。

腾讯元宝应用推出了AI深度搜索功能,用户更新至最新版本后,能够在AI搜索深度模式下获得扩展问题解答,并能一键生成内容大纲、思维导图以及相关人物事件梳理。特别是在科研和财经等专业领域,该功能能够提供详尽的回答。经测试,元宝引用的消息源基本来自微信公众平台公众号文章。

快手宣布可灵AI网页端正式上线,所有功能限时免费。新功能包括:“文生视频”,支持最长10秒的视频生成以及“图生视频”,新增运镜控制和自定义首尾帧。可灵AI网页端提供AI图片、AI视频及即将上线的视频编辑功能,目前已吸引超过50万用户申请内测资格。

issue76 2024.7.8-7.14

腾讯智影小程序上线AI视频功能,用户可一键生成风格化视频,限时免费。用户导入视频后,可快速生成风格化效果,支持10秒视频处理。此外,智影AI还包含虚拟数字人、文本配音、智能去水印和文章转视频等功能,提升视频创作体验。

7月10日,阿里巴巴上线了AI搜索助手“心流”,提供智能搜索、知识问答、智能阅读、辅助创作等功能,旨在帮助用户提升工作和学习效率。

百度推出一款新型AI社交App“文小言”,利用文心大模型技术提供仿真数字人社交体验,允许用户与AI虚拟角色进行实时互动,每个角色都具备个性化的聊天服务和肢体语言反馈。

issue77 2024.7.15-7.21

7月17日,Anthropic 推出了 Claude Android 应用程序,旨在通过提供更多平台支持来吸引用户。该应用程序允许用户免费访问 Anthropic 的 AI 模型 Claude 3.5 Sonnet,并提供实时语言翻译功能,支持设备间对话同步和照片或文件的实时图像分析。此外,企业客户还可以在移动设备上访问他们的 Claude 账户。

7月19日,OpenAI 发布 GPT-4o mini ,一个成本更低、性能接近 GPT-4 的新模型,已在 ChatGPT 中取代 GPT-3.5。新模型支持更大的输入输出 tokens,价格更便宜,适用于多种应用场景,并计划开放微调功能。

issue78 2024.7.22-7.28

7月23日,Meta 正式发布了 Llama3.1,这是一系列大模型,包括8B、70B和405B三个版本,其中 405B 版本在性能上与 GPT-4o 相当,刷新了开源基础模型的能力上限。Llama 3.1扩展了上下文长度至 128K,并支持多语言和工具使用。Meta在预处理和预训练数据的 Curation pipelines 上进行了加强,并在后训练数据的质量保证和过滤方法上做了改进。Llama3.1 使用了超过 15 万亿的多语言 Token 语料库进行预训练,预训练模型的规模远大于以前的版本。

7月25日,OpenAI 宣布旗下AI搜索引擎 SearchGPT 正式开放内测,并计划在未来接入到 ChatGPT 服务中。

7月26日,智谱AI发布了升级版视频生成模型 CogVideoX,并推出了名为“清影”的AI视频生成服务,该服务能够在 30 秒内快速生成 6 秒视频,支持复杂指令的准确理解和执行,确保视频内容连贯,并具有画面调度的灵活性。目前,“清影”已在智谱清言的多个平台上免费开放给用户体验,同时企业和开发者也可以通过智谱大模型开放平台的 API 调用使用。

issue79 2024.7.29-8.4

7月31日,GPT-4o高级语音模式开启邀请测试。OpenAI宣布开始向一小部分ChatGPT Plus用户推出高级语音模式,基于GPT-4o提供更自然的实时对话。

谷歌发布了 Gemini 1.5 Pro 0801 版本,这款强大的 AI 在 LMSYS AI 竞技场排行榜上以 1300 分的成绩领先,超过了 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3.5。Gemini 1.5 Pro 配备了 2,000,000 个 token 的上下文窗口,极大增强了其处理大规模数据和生成长篇内容的能力。

谷歌开源了其最新端侧小模型Gemma2 2B,该模型以20亿参数的规模在性能上超越了参数更多的GPT-3.5-Turbo和Mixtral-8x7b,成为大模型竞技场LMSYS Chatbot Arena中表现最佳的开放模型之一。Gemma2 2B不仅性能卓越,还具有内置安全改进功能,同时推出了ShieldGemma安全内容分类器和Gemma Scope模型可解释性工具,进一步强化了模型的安全性和透明度。

7月31日,360集团创始人周鸿祎宣布,360安全大模型将免费为个人用户、中小企业提供服务,并在行业内第一个宣布安全大模型免费,让人人都能获得大模型带来的技术红利。

8月1日,Stable Diffusion 原团队成员创办的 Black Forest Labs 发布了 FLUX 文本转图像模型系列。FLUX.1 模型为开源图像生成模型树立了新标准:它们可以生成逼真的手、清晰的文本,甚至可以生成搞笑表情包这样异常困难的任务。

issue80 2024.8.5-8.11

GPT-4o自20240513之后首次更新到20240806版本。

OpenAI 推出了一项新功能,严格要求模型按 JSON 格式输出。允许开发者生成符合指定 JSON 模式的结构化输出。用户可以通过函数调用或 response_format 参数(使用 json_schema 选项)在 API 中使用此功能。

8月6日,智谱AI将其视频生成大模型CogVideoX开源,成为首个可商用的开源视频生成模型。CogVideoX支持在线体验,展示了高质量的视频生成效果,并且易于部署和使用,仅需单卡A100在90秒内即可生成视频。

issue81 2024.8.12-8.18

阿里巴巴开源的 Qwen2 Audio – 8.5B 模型在 ASR、S2TT 和 AIR-Bench 基准测试中表现出色,达到了目前的最佳状态。该模型经过 370K 小时的语音、140K 小时的音乐和 10K 小时的声音数据预训练,特别擅长语音聊天和音频分析任务,并与 Transformer 结构无缝集成。

8月14日,马斯克旗下的人工智能公司 xAI 正式发布新一代 Grok 2 大模型测试版,包括 Grok 2 和 Grok 2 mini 两个版本。Grok 2 测试版在逻辑推理能力上有显著提升,并且新增了文生图功能,使用 Black Forest Labs 的 FLUX.1 模型来生成图像。该版本支持中文提问和回答,目前只有 X Premium 和 Premium+ 用户可以体验。

8月16日,Runway 正式推出了其最新的AI视频生成模型 Gen-3 Alpha Turbo,该模型在视频生成速度上比之前的 Gen-3 Alpha 快了 7 倍,并且价格仅为原版的一半。这一新模型在保持与原版相同性能的同时,大幅降低了成本,使得所有用户都能体验到更快速的AI视频生成技术。

阿布扎比技术创新研究所推出了 Falcon Mamba 7B 模型,不依赖 Transformer 架构和注意力机制,能高效处理无限长序列,性能超越同规模开源模型。这一新模型特别适合长文本处理,且在内存使用上更为高效,现已在Hugging Face和GitHub上开源。

AI 代码编辑器 Cursor 将默认大模型切换到 Claude 3.5 Sonnet。Cursor 母公司 Anysphere,成立初期从 OpenAI 处融资 800 万美元,占当轮融资的 72.7%。

issue82 2024.8.19-8.25

Midjourney 网页版对所有人开放,为每位新用户提供最先进模型V6.1 25次试用机会。用户可使用Discord或Google账号登录,并在账户设置中合并两个平台的登录信息,确保历史记录同步。

8月19日,科大讯飞的星火语音大模型推出了极速超拟人交互更新,通过先进的端到端技术实现了快速响应和自然对话的无缝打断。新模型不仅能够识别并共鸣用户的情绪变化,还能根据用户的指令灵活调整情感表达和语言风格。此外,它还具备仿多种角色音色和语气的能力,使用户能够与不同人设进行互动。

8月21日,微软推出的新一代AI模型系列Phi-3.5,包含 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct 三个版本,分别针对轻量级推理、混合专家系统和多模态任务设计。Phi-3.5采用MIT开源许可证,具有不同参数规模,支持128k上下文长度,优化了多语言处理和多轮对话能力,在基准测试中性能表现超越了GPT4o、Llama 3.1、Gemini Flash等同类模型。

Luma AI 推出了 Dream Machine 1.5,这是其 AI 视频模型的升级版,带来了更高质量的文本转视频功能。新版本不仅在理解文本提示上更为智能,还提供了自定义文本渲染选项,并进一步改进了图像转视频的效果。

阿里大语言模型“通义千问”今日宣布启用新域名“tongyi.ai”,并带来多项新功能。网页版聊天新增深度搜索功能;App 图片微动效支持多尺寸图片;App 自定义唱演支持 3:4 画幅(原先 1:1)。

issue83 2024.8.26-9.1

Anthropic 宣布 Claude 中的 “Artifacts” 功能现已对所有用户开放,且已集成到 iOS 和 Android 应用中。这意味着用户现在可以在手机上创建和查看这些 “Artifacts”。自6月推出预览版以来,已经有数千万个 “Artifacts” 被创建。这个功能类似于在软件中创建和保存个人作品或项目的过程,使用户可以更方便地管理和分享他们的创作成果。Anthropic 鼓励用户探索和利用这一功能,以便在 Claude 的平台上进行更多创新和分享。

智谱开放平台现提供免费的 AI 大模型服务,用户可注册后调用 GLM-4-Flash 模型来构建定制化模型和应用。GLM-4-Flash 适合处理垂直领域、成本敏感、需求快速响应的任务,具备多轮对话、网页浏览、函数调用和长文本推理能力,并支持 26 种语言。平台通过自适应权重量化、并行化、批处理和投机采样等技术优化模型效率,实现推理速度提升和成本降低。

8月28日, Gemini 官方版本更新公告,Gemini Gem 管理器功能已正式上线,这是 Gemini 版的 GPTs。

谷歌在其 AI Studio 中推出了三款新的 Gemini 实验性 AI 模型:Gemini 1.5 Flash-8B、Gemini 1.5 Pro Exp-0827 和 Gemini 1.5 Flash Exp-0827。Gemini 1.5 Flash-8B 拥有 80 亿参数,专为多模态和长文本摘要任务设计;Gemini 1.5 Pro Exp-0827 强化了编程与复杂提示词的处理能力,在 LMSYS 排行榜上升至第二,仅次于 OpenAI 的 GPT-4o-latest;Gemini 1.5 Flash Exp-0827 的性能显著提升,排名从第 23 位跃升至第 6 位。用户可通过 Gemini API 和 Google AI Studio 访问这些新模型。此外,谷歌计划在 9 月 3 日起将 gemini-1.5-pro-exp-0801 模型的请求自动重定向至更新的 gemini-1.5-pro-exp-0827,并移除旧版模型。

Android / macOS 版 ChatGPT 客户端发布新版本。现在您可以使用 ChatGPT 上的“提及”功能,该功能允许用户在一次对话中使用“@”符号调用不同的自定义GPT模型。

8月29日,智谱发布新版基座大模型GLM-4-Plus,在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。GLM-4-Plus 使用了大量模型辅助构造高质量合成数据以提升模型性能;利用 PPO 有效有效提升模型推理(数学、代码算法题等)表现,更好反应人类偏好。新版文生图模型 CogView-3-Plus:具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。智谱还宣布智谱清言App新版现已支持视频通话,AI可以实时“看到”你的表情(陪伴场景),甚至可以来一局“你画我猜”。

谷歌宣布旗下 Gemini AI 支持更多类型的文件,包括电子表格、演示文稿、图像、音频和视频等,为用户提供更优质的 AI 服务。Gemini AI 可以分析、摘录和洞察文档内容,帮助用户提高理解、研究和写作能力。

issue84 2024.9.2-9.8

百度文心一言 App 推送一周年升级,更名为 「文小言」,同时宣布 9 月内文心 4.0 大模型将免费使用。

腾讯在 2024 全球数字生态大会上发布新一代大模型 「混元 Turbo」,采用 MoE 架构,推理效率提升 100%,推理成本降低 50%。其价格较混元 Pro 降低 50%,输出价格为 0.05 元 / 千 tokens,输入价格为 0.015 元 / 千 tokens。

在 2024Inclusion 外滩大会上,蚂蚁集团总裁韩歆毅宣布了全新推出的 AI 独立 App 支小宝,展示了蚂蚁集团在 AI 应用布局上的成果以及服务亿级用户的实践。支小宝 App 的定位是服务型 AI 产品,基于蚂蚁百灵大模型开发。它连接的仍是支付宝生态,在功能上,通过对话进行订票、点餐、打车等。

蚂蚁集团在外滩大会财富论坛上推出升级版 AI 金融管家 「蚂小财」,新版 「蚂小财」 能更实时解读热点,提供个性化专业服务,并在支付宝 APP 全量上线。同时,蚂蚁财富全新 APP 搭载 「蚂小财」 Pro 版上线灰测,这是国内首个实现 AI 原生体验的理财 APP。截至 2024 年 8 月底,「蚂小财」 的月度活跃用户数已达到 7000 万人,其中 45% 来自三线及以下城市。

OpenAI 计划推出大型语言模型的订阅服务,包括专注于推理的 「草莓」 和名为 「Orion猎户座」 的新旗舰 LLM。内部讨论中曾考虑过每月最高 2000 美元的订阅价格,但最终价格尚未确定。这一定价关系到 OpenAI 及其在类似产品领域的竞争对手,如谷歌、Anthropic 等公司。

OpenAI 日本办公室 CEO 长崎忠雄在 KDDI 峰会上透露,新一代模型 GPT-Next 的性能预计将比现有的 GPT-4 模型强大 100 倍,并计划在今年晚些时候发布。GPT-Next 模型的性能提升归功于其优化的架构设计和学习效率的改进。

AI 公司 Anthropic 推出 Claude Enterprise 计划,旨在帮助企业更好地整合 AI 模型与内部知识库,提供个性化丰富的体验。该计划支持上下文窗口达 50 万个词元,原生集成 GitHub,并放宽了使用限制。Anthropic 表示,企业可向 Claude 提供大量知识资料。然而,企业不应过分依赖大型文档处理能力,因为 AI 模型可能出现 「中间丢失」 现象。Claude Enterprise 提供安全功能如 SSO 和基于角色的权限管理,强调保护客户数据,并将推出审计日志和 SCIM 功能。

谷歌推出了新的 AlphaProteo AI模型,旨在设计能与目标分子成功结合的高强度蛋白质结合剂,用于药物设计和疾病理解。该系统能生成新的蛋白结合体,已成功设计出与癌症和糖尿病并发症相关的血管内皮生长因子-A 的蛋白质结合剂,并具有较高的体外实验成功率。谷歌通过测试多种目标蛋白的结合体,包括病毒蛋白和参与癌症、炎症等疾病的蛋白,以验证 AlphaProteo 的效果。

谷歌推出了 Google Photos 应用的新功能 「Ask Photos」,该功能利用 Gemini AI 技术,允许用户通过自然语言搜索照片库,查找特定的回忆或信息。此功能已开始向 iOS 和 Android 用户开放早期访问权限。用户可以提出各种问题,以从自己的图片库中检索相关内容,例如 「我去年在哪里露营。」「我的门票何时过期。」 等。

Replit推出Replit Agent。这个工具旨在协助用户构建手机软件项目。它可以理解自然语言提示,并帮助用户从构思到部署将应用程序从概念变为现实。Replit Agent通过使用自然语言进行控制,使得构建和部署应用程序变得更加简单和高效。它提供了一个创新的方式,让用户可以用简单的语言描述来创建和部署应用程序。

issue85 2024.9.9-9.15

9月12日,OpenAI宣布全新模型o1-preview正式亮相。该模型即为传言了近一年的Q*/草莓。根据OpenAI发布的资料,该模型在智能推理方面达到了前所未有的新高度,因此,模型版本号将从1开始计数。这或许意味着,我们不会再看到GPT-5,o1将成为OpenAI未来的顶尖力量。从9月12日起,ChatGPT Plus和Team用户已可率先体验这一模型。用户可根据需求选择使用o1模型的预览版——o1-preview,或是其精简版——o1-mini。o1-preview每周的使用上限为30条消息,而o1-mini则为50条。由于用户体验热情较高,OpenAI还在9月14日宣布重置本周所有用户的条数限制。

9月10日,Apple举行秋季新品发布会正式发布iPhone 16系列,同时宣布Apple Intelligence美国英语版本将在今年晚些时候在加拿大/澳大利亚/新西兰/英国/南非等市场推出,明年将支持中文/法语/日语/西班牙语。

腾讯推出游戏视频模型GameGen-O,可生成开放世界视频游戏,模拟游戏引擎功能,生成游戏角色、动态环境、复杂动作等,支持交互控制。业内人士称其为游戏工作室的ChatGPT时刻。

法国AI初创公司MistralAI发布了首个多模态模型Pixtral12B,拥有120亿个参数,能够处理图像和文本。然而,HuggingFace的技术主管指出其性能数据可能存在问题。尽管如此,Pixtral12B展示了强大的图像识别和处理能力,包括识别复杂数学符号和生成详细描述。MistralAI计划在聊天机器人和API平台上提供测试。

issue86 2024.9.16-9.22

微软已在Azure OpenAI服务中提供o1-preview和o1-mini两个模型的部署(API)。

微软召开发布会,介绍Microsoft 365 Copilot的Wave 2更新。包括新推出的 Copilot Pages 一站式网页搜索、内容策划和团队写作工具,以及通过 AI 生成 Python 代码快速处理 Excel 数据和一句提示生成 PPT 页面的功能。微软还推出了 Copilot 智能体以简化企业业务流程。

9月18日,360智脑推出基于CoT思维链概念的多模型协作功能,这一功能是通过多个大模型组成的智能体框架实现的,可以让多个模型共同思考和协作解决业务问题。用户可以从多款模型中任选3款,分别做专家、反思者和总结者,以实现更全面、深入的思考和推理过程。

9月19日,阿里巴巴在云栖大会上开源最新的Qwen-2.5大模型,并提供了0.5b-72b的各种尺寸。这一系列大模型包括Qwen2.5、Qwen2.5-Coder和Qwen2.5-Math等不同参数版本,适用于各种业务场景。此举进一步推动了国内大模型研究和应用的发展。

可灵 AI 全球升级发布,新增可灵 1.5 模型和 「运动笔刷」 功能,提升视频生成质量与控制能力。自 6 月发布以来,已进行 9 次迭代,超过 260 万人使用,生成视频超 2700 万部、图片 5300 万张。

智谱AI开源了其图生视频模型CogVideoX-5B-I2V,该模型支持通过一张图片和提示词生成视频。同时开源的还有标注模型cogvlm2-llama3caption,用于将视频内容转换成文本描述。智谱AI团队还发布了一些成功的应用案例,并公开了相关研究论文。

issue87 2024.9.23-9.29

9月25日,Meta推出新一代开源AI模型Llama3.2系列,包含从1B纯文本到90B多模态的多个版本,支持边缘和移动设备,旨在推动人工智能在多种使用案例中的应用。此次发布强调了模型的开放性、可定制性以及在图像理解和视觉推理任务方面的能力,同时提供了预训练和指令微调版本,支持高通和联发科硬件,并针对ARM处理器优化。Meta同日还发布了真AR眼镜Orion,搭载端侧大模型,现阶段作为原型机仅面向开发者,预计消费者版本将于两年内推出。

Google发布了两个Gemini模型更新:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002,提供更多的能力、更快的速度以及更低的成本。新模型在多个基准测试中有显著提升,特别是在数学、长文本和视觉任务方面。Google还降低了Gemini 1.5 Pro的输入和输出token价格超过50%,提高了两个模型的速率限制,并减少了延迟。

OpenAI正在向ChatGPT付费用户全量推出高级语音模式,该功能将使ChatGPT的对话听起来更自然。ChatGPT新增了五种声音,包括Arbor、Maple、Sol、Spruce和Vale,使得总声音数量达到九种。此外,最新版本的高级语音模式在理解口音方面有所改进,对话更加流畅和快速。中文方面,高级语音模式还可以使用北京话、上海话、四川话、粤语等方言口音进行对话。

Claude宣布Artifacts功能免费开放,免费版、Pro版、Team版用户均可立刻上手体验。

钉钉推出了面向个人用户的“365会员”产品,提供包括AI搜索、个人AI助理、AI自动回复和自动速读在内的会员专享权益。365会员中的AI搜索功能可以整合工作和协同信息,个人AI助理支持直接询问、识屏提问、拍照提问等多种交互方式。对于家长用户,会员还提供“成长记录”功能,可以智能识别孩子的照片并自动记录成长轨迹。

9月26日,哗哩哔哩宣布已上线自研大语言模型“index”,并将其应用于AI字幕。目前,B站的AI字幕具备中文、英文、韩语、日语、泰语等近10种语言的实时翻译能力,准确度接近90%。

美图公司宣布其“奇想大模型”的视频生成能力已完成全面升级,现在能够生成时长、画质、流畅性、真实性和可信度更高的视频。升级后,该模型可以支持生成1分钟、每秒24帧、1080P分辨率的超长视频。这项技术的进步将逐步应用于美图秀秀、美颜相机、Wink、开拍、美图设计室、WHEE、MOKI等产品。

字节跳动发布两款视频生成模型,分别是豆包PixelDance和豆包Seaweed。PixelDance单次可生成最长10秒的视频,Seaweed可生成最长5秒的视频,可动态延长至20-30秒。发布会现场,字节展示了PixelDance模型的生成效果,其优势主要体现在对复杂指令的理解方面,适合人物、剧情更为复杂的视频生成,而Seaweed模型的优势主要在于生成视频的清晰度。

issue88 2024.9.30-10.6

10月1日,OpenAI 发布 Whisper large-v3-turbo 语音转录模型,参数 8.09 亿,速度提升 8 倍,解码层数减少至 4 层,体积与 VRAM 需求均降低,并开放 MIT 许可证下的代码及模型权重供 GitHub 用户获取和体验。

10月1日,OpenAI发布Realtime API,即高级语音模式的API,开发者可在Playground中体验,价格较贵,每百万token输入+输出需要300美元。

10月4日,OpenAI宣布了ChatGPT的新增功能——Canvas。基于GPT-4o模型开发而成,它提供了一个单独的窗口,可以与ChatGPT一起执行编程、写作任务,会帮你提供意见、审核和执行具体的功能。例如,当你在编写代码时遇到了困难,Canvas可以高亮显示有问题的代码段,帮助ChatGPT提供内联的调试建议快速修复这些错误;简单来说,可以把Canvas看成是一个内置的AI Agent功能,就是用AI来指导、协助ChatGPT一起执行任务,使输出的内容质量更好、更准确。

Meta发布Meta Movie Gen文生视频模型,被业界称为迄今为止最先进的媒体基础模型(Media Foundation Models),并非扩散模型。它使用了包含 30B 参数的视频生成模型和 13B 参数的音频生成模型。这一全新的 AI 模型采用计算机视觉和自然语言处理技术,通过简单的文本输入就可以生成高质量、高清晰度的视频和音频。其视频生成模型具有 300 亿个参数,能够以每秒 16 帧的速度生成长达 16 秒的视频。该模型结合了多种功能,还支持精准的视频编辑,用户可以输入文本描述生成高清视频,同时上传图像并添加背景音乐和音效。 使其不仅能够生成新视频,还可以生成配音乐的高质量音频。

Google发布NotebookLM,旨在帮助用户更好地整理信息、提出问题并生成答案。用户可以上传自己的文档,然后NotebookLM会立即理解这些来源的内容,使用户能够轻松阅读、记录笔记,并通过该工具来提出问题。这款工具也可以帮助用户更有效地创作和思考,适合于整理、研究和学习等多种场景。

快手可灵 AI 新推出的「对口型」功能,允许用户上传音频后使视频中的人物口型与之同步,目前支持 1.0 和 1.5 模型,且仅限人物角色,API 服务已面向所有用户开放。

Black Forest Labs发布FLUX Pro 1.1版,生成速度比前一版本快6倍,并提高了图像质量、提示依从性和多样性。同时推出官方API。

StackBlitz 推出 bolt.new,将AI代码生成从编码扩展到部署,带有完整的开发环境,可以预览部署后的效果。

issue89 2024.10.7-10.13

由MiniMax推出的海螺AI是一款国产AI视频生成器,它在VBench评测中排名第一,并在五周内实现了月访问量增长8倍多的惊人成绩。这款AI工具不仅吸引了全球180多个地区的专业人士,如电影导演和游戏开发者,还因其在人体动作流畅性和逼真性上的卓越表现而超越了竞争对手Runway。

10月8日,华为的原生AI操作系统“纯血鸿蒙”HarmonyOS NEXT已开始公测,该系统内置了名为小艺的智能体。HarmonyOS NEXT通过原生智能技术实现了AI与操作系统的深度融合,让小艺智能体能够与系统无缝结合,并在多个场景中提供智能化服务。这标志着华为在人工智能领域的进一步发展,为用户提供更智能、更个性化的操作系统体验。

vivo在开发者大会上发布了“蓝心智能”AI战略,展示了其在AI领域的深入布局,包括新一代操作系统OriginOS 5和BlueOS 2。后者搭载了基于Rust语言的蓝河内核,强调安全和高性能。蓝心大模型矩阵也得到全面升级,其中蓝心3B端侧大模型在多个评测中排名第一,性能提升300%,功耗优化达46%。基于蓝心语音大模型,“vivo听说”新增了方言自由说功能,目前支持6种方言,以解决各地区间的沟通障碍问题,让用户可以以自己最熟悉的乡音与手机进行交互。

北京智源人工智能研究院开发的BGE(BAAI General Embedding)模型在Hugging Face月度下载榜上位列第一,这是中国AI模型首次取得这一成绩。BGE模型自发布以来,总下载量已超过1亿次,成为下载量最多的国产AI系列模型。

10月11日,特斯拉在“WE,ROBOT”发布会上展示了无人驾驶出租车Cybercab和多功能无人驾驶厢式货车Robovan,展示了其在自动驾驶技术方面的重大进展。

10月13日,OpenAI在Github上开源了多智能体协同AI Agent——Swarm。与普通AI Agent不同的是,Swarm可以同时创建多个智能体互相协同工作来完成特定任务,包括客户服务、销售支持和售后服务等,同时每个智能体都配备了一套专属工具集以更高效的完成任务。

issue90 2024.10.14-10.20

OpenAI发布了GPT-4o-Audio-Preview模型。该模型能够分析音频输入的情感、语调和音调,并增强互动体验。此外,还提供了语音到语音的互动功能,音频既可以作为输入也可以作为输出。

OpenAI于本周发布了ChatGPT的Windows桌面客户端,提供了一种更便捷的桌面访问方式。此更新旨在提高用户体验和便利性,方便用户在桌面上使用该AI工具进行各种对话。

Meta 推出了一项名为 「自我训练评估器」 的 AI 工具,旨在减少 AI 开发中对人类的依赖。该工具利用 「思维链」 技术提高在科学、编程和数学等领域的答案准确性,并通过完全由 AI 生成的数据进行训练。这展示了实现自主 AI 智能体的可能性,能够从自身错误中学习。此外,自我改进的模型有望减少对昂贵且低效的 「基于人类反馈的强化学习」 的需求。Meta 还发布了其他 AI 工具,包括图像识别模型 「Segment Anything」 的更新和一些有助于发现新型无机材料的数据集。

Perplexity 推出“内部知识搜索”和“Spaces 空间”:内部知识搜索:用户可同时搜索公共网页和企业内部知识库,适合金融、销售、HR 和初创公司团队。Spaces 空间:用户可创建工作空间,邀请团队成员协作。

Google NotebookLM 推出企业版和个性化控制:支持自定义 AI 播客内容,调整解说深度,专注于用户指定的主题。个性化控制:类似给 AI 主持人提示卡,让解说更符合用户需求。

月之暗面推出 kimi 探索版 AI,搜索能力显著提升至普通版的 10 倍,并计划全面推广至用户,同时将新增至手机 App 中。

issue91 2024.10.21-10.27

在Adobe MAX 2024大会上,Adobe推出了一项创新AI工具Project Turntable,该工具可以让用户将2D矢量图像像3D对象一样进行旋转,而无需重新绘制。

10月22日,微软宣布在Dynamics 365中集成10个自主AI Agent,可帮助企业自动执行客服、销售、财务、仓储等业务,开创全新的智能自动化工作模式。这些AI Agent支持OpenAI最新模型o1,可以自动执行跨平台的超复杂业务,能节省大量时间和运营成本。AI Agent会从Microsoft 365 Graph、Dataverse以及其他业务系统的数据,分析工作数据,识别工作模式、趋势,以及潜在的改进领域,从而更好地自动执行业务流程。使用方面也很简单,用户可在Copilot Studio可视化的界面中开发AI Agent,定义如何响应不同的输入和场景以及执行逻辑和规则即可。

10月23日,Anthropic发布了Claude 3.5 Sonnet模型的更新。最新版本的Claude 3.5 Sonnet展示了一项名为Computer Use的功能,能够根据用户指令移动光标、点击相应位置以及通过虚拟键盘输入信息,模仿人类与计算机的交互方式。另外,新的Claude 3.5 Sonnet模型在编程方面也表现出显著的提高。

Anthropic 还在 Claude 中新增了一款分析工具,该工具支持编写和运行 JavaScript 代码,用于处理数据、分析并实时生成洞察。此工具作为 Claude.ai 的新内置功能,类似于 ChatGPT 的代码解释器(Code Interpreter)。Claude 能够根据输入提示和文件,逐步清理、探索和分析数据,达到预期结果,并可创建互动数据可视化。该工具适用于市场营销、销售、产品管理、工程和财务等多个场景,目前处于功能预览阶段。

xAI推出了首款API “Grok-Beta”,这是一种生成式AI模型,支持函数调用,可将xAI的旗舰生成式AI模型Grok连接到数据库和搜索引擎等外部工具。据报道,该API的定价相比行业竞争对手高出许多,每百万输入令牌(token,约等于75万个单词)为5美元,每百万输出令牌为15美元。其定价模式在业内引发了一些热议。

Ideogram 上线Canvas功能,可以在无限画布上对生成的图片进行编辑。这包括扩图、局部重绘和其他基本的编辑功能。这个功能给用户提供了更多的创作自由,让他们可以更灵活地对生成的图片进行修改和完善。

Genmo公司开源了名为Mochi 1的DiT视频生成模型。这个模型基于Apache 2.0许可证发布,支持个人和商业用途的免费使用。它以每秒30帧的速度生成平滑的视频,持续时间长达5.4秒,并具有高时间连贯性和出色的运动质量。这一开放的视频生成模型在动作质量和遵循用户提示方面表现出色。

Midjourney网页版本周推出全新的AI图像编辑器,该编辑器具有多种独特功能,用户可以通过该编辑器轻松上传图像并进行放大、缩小、角度调整等操作。与此同时,该编辑器还能够实现各种二次创作需求,而无需依赖第三方平台。通过新发布的编辑器,用户可以在进行图像编辑时获得更加便捷的操作体验。

10月24日,科大讯飞宣布星火多语言大模型首次发布,除中英文外,可支持俄、日、阿、法等8个语种。根据实用任务场景构建测试集MMT-Eval-1.0,讯飞星火在汽车、家电、办公、翻译等行业的任务场景应用效果超过了GPT-4o。

10月25日,智谱的多模态大模型家族再次加入新成员——GLM-4-Voice(端到端语音模型),并在上线同时宣布开源。这一成果使得大模型具备了完整的感官系统,实现了机器与人交互的自然与流畅。GLM-4-Voice 模型具备直接理解和生成中英文语音的能力,能够根据用户指令灵活调整语音的情感、语调、语速及方言等特征,且具有更低的延时,支持实时打断,进一步提升交互体验。

智谱还同步宣布AutoGLM开启内测,是一款独立的安卓app。AutoGLM是一个具有AI功能的智能体,不仅可以进行语音互动,还可以自动执行手机操作,例如下单网购和朋友圈点赞等。这一新功能表明智谱正在向着更高级的技术方向发展,将AI从简单的语音交互阶段不断提升至执行任务的阶段。有参与内测的用户截图显示,AutoGLM支持8个生活中常用的app,包括微信、美团、淘宝、大众点评、小红书、12306、携程、高德地图。另外,智谱清言的浏览器插件增加高级搜索功能,支持自动在知乎、小红书、知网等网站搜索内容并总结回答。

MagicOS 9.0推出全新的AI智能体YOYO,为用户提供智能服务。从现场演示来看,用户只需向YOYO发出语音指令,比如「我有些困了,帮我点一杯咖啡」,该智能体就能在理解用户需求之后,自主调取和操作手机的相应资源和服务,帮用户点一杯咖啡外卖。荣耀声称,YOYO智能体可完成600项需求意图理解、950项个人习惯记忆、270项复杂任务规划。

issue92 2024.10.28-11.3

10月31日,Anthropic 宣布推出 Claude 桌面客户端,带来快捷键和口述记录支持。这意味着用户现在可以在 macOS 和 Windows 上直接下载 Claude 应用程序,无需再依赖浏览器操作。Anthropic 在一篇博文中写道:”它将 Claude 的功能直接带入您首选的工作环境,这些功能并不包括 Anthropic 最近发布的控制计算机的功能,但允许最新模型 Claude 3.5 Sonnet 升级版在 PC 上执行任务。” 新发布的桌面应用既适用于免费的 Claude 用户,也适用于订购 Anthropic 高级计划的用户。

11月1日,OpenAI宣布为ChatGPT添加搜索功能,让用户可以在对话中直接获取实时网络信息。这项功能目前向付费用户开放,免费用户和企业用户将在未来几周内陆续获得访问权限。最引人注目的是,ChatGPT搜索采用无广告模式,这与传统搜索引擎形成鲜明对比。

GitHub宣布推出Github Spark,用于创建和共享微应用程序(“sparks”),用户可以根据自己的需求和偏好进行定制。通过GitHub Spark,用户可以快速构建小型网页应用程序,而且不需要编写代码。该工具结合了自然语言处理和人工智能技术,使得用户可以用简单的自然语言来描述所需的应用程序功能。GitHub Spark可以帮助用户直接在GitHub上创建和分享个性化的微应用程序。

字节跳动推出了一款名为”炉米Lumi”的AI模型分享社区平台。该平台提供了模型上传分享、Workflow搭建以及LoRA训练等功能。这个平台似乎类似于其他的AI模型分享社区,例如Liblib和CIvitai。Lumi可能会为用户提供模型上传分享和Workflow搭建等服务。

微软开源了一款名为OmniParser的纯视觉基础工具,旨在填补当前屏幕解析技术中的空白。这一工具无需额外的上下文数据,可以理解更复杂的图形用户界面(GUI),并且专为识别和解析图形用户界面的可交互图标而设计。OmniParser结合了可交互区域检测模型、图标描述模型和OCR模块,能够在桌面、移动设备和网页等上跨平台工作,从而为AI技术在屏幕解析上开辟了新的可能性。

知乎直答最近宣布推出了”专业搜索”功能,引入了维普、知乎精选等专业内容源,涵盖超过5000万篇中英文文献数据。这一举措可以帮助用户更加便捷地获取高质量的文献资料,为学术研究和学习提供了更加丰富的资源。

issue93 2024.11.4-11.10

11月5日,腾讯开源混元Large(Hunyuan-Large)模型,是业界参数规模最大、效果最好的开源MoE大语言模型,采用7T训练tokens,总参数量389B,激活参数量52B,上下文长度高达256K,技术报告也同步发布。混元-Large包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8。与有相似激活参数量的业界开源模型Llama3.1-405B、Mixtral-8x22B等相比,在多学科综合评测集、中英文NLP任务、代码、数学等9大维度,混元Large实现全面领先。

同时,腾讯元宝 APP 现在新上线了 AI 搜索能力。支持具有推理能力的深度搜索功能,另外也支持了搜索微信生态更多模态的信息,比如搜索结果里面会有视频号和 QQ 音乐的音频内容。

腾讯开源了混元3D生成大模型(Hunyuan3D-1.0),这是业界首个同时支持文字和图像生成3D的开源大模型。这个模型可以帮助创作者和开发者在10秒内生成高质量的3D资产,可以应用于各种领域,比如UGC 3D创作、商品素材合成以及游戏3D资产生成等。

昆仑万维于11月5日发布天工AI最新版本的高级搜索功能,旨在通过领先的AI技术为全球用户提供创新的智能搜索解决方案。此功能在金融投资、科研学术等多领域进行了多层次分析推理能力的全面升级,显著提升了用户在处理复杂问题时的信息获取效率和结果可靠性。此外,天工AI还优化了文档AI阅读分析功能,增强了对财报、研报、论文等复杂文档的理解和分析能力,为用户提供更高效的专业搜索体验。

11月8日,智谱宣布AI生视频产品“新清影”正式上线,同步开源该产品使用的底层模型CogVideoX v1.5。

xAI推出Grok API的免费公测,每位开发者每月都能获得25美元的免费API额度,一直持续到2024年年底。API完全兼容OpenAI和Anthropic。这项举措旨在为开发者提供更多使用xAI的机会,并促进xAI的API在开发社区中的应用。

Anthropic宣布,Claude 3.5 Haiku已经可以通过API访问。已在Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI上提供。Anthropic的开发者关系运营负责人Alex Albert发帖说,「该模型还更新了截至2024年7月的知识——是所有Claude模型中最新的。」然而,随着性能提升,Haiku的价格提升至之前的4倍,它现在的定价起步为每百万输入tokens $1,每百万输出tokens $5。

Anthropic 与 Palantir 数据挖掘公司和亚马逊云服务(AWS)合作,为美国情报和国防机构提供 Claude 系列 AI 模型。Claude 已可在 Palantir 的国防认证环境(IL6)中使用,该环境基于 AWS 基础设施,用于处理国家安全重要的数据。此次合作将提高政府分析能力和运营效率,为情报分析提供强大的 AI 工具,以及在决策过程中为官员提供支持。

谷歌即将推出全新升级的Gemini-2.0-Pro AI模型。Gemini-2.0-Pro-Exp-0111预计将带来更精确的语言理解和生成能力,更高效的学习机制,以及在图像处理方面的显著提升。新的AI模型将进一步提高Gemini的功能和性能。

11月8日,苹果发布iOS18.2 Public Beta版,正式公测集成了ChatGPT的Siri及Image Playground等AI功能。

Meta最近开源了一个名为NotebookLlama的项目,旨在生成类似播客的文本摘要。这个项目被视为Meta对标谷歌NotebookLM的一次尝试。NotebookLlama使用Meta自家的Llama模型来为用户提供高效的处理,允许用户将文本文件,如PDF文章或博客内容,转化为互动式播客摘要。通过这个项目,用户可以轻松生成从文本文件转化而来的互动式播客风格的内容。

Meta发布MobileLLM,这是一款专门针对智能手机的小语言模型。MobileLLM家族适用于智能手机,Meta也宣布开源了MobileLLM系列模型,其中包括600M、1B和1.5B三种不同参数版本。这一举措旨在为移动设备用户提供更高效的AI辅助功能。Meta还在GitHub上开源了MobileLLM的训练代码,以便研究人员和开发者使用。

issue94 2024.11.11-11.17

百度在2024年百度世界大会上发布了检索增强的文生图技术(iRAG)。这项技术结合了百度搜索的亿级图片资源和强大的基础模型能力,旨在解决大型模型在图像生成方面的幻觉问题。通过将图片资源和模型能力相结合,iRAG使得生成的图片更加真实、自然,并且能够降低“AI味”,让生成的图像更加可信。

百度在2024年百度世界大会推出无代码工具“秒哒”。该工具支持无代码编程、多智能体协作和多工具调用三大特性,号称用自然语言就能搭建一整套系统。演讲现场,李彦宏以萝卜快跑新技术发布会为例,展示了活动报名系统的搭建过程:只要在“秒哒”上用中文描述需求,并补充一份带有大会时间地点主题的文档,就可以指挥多个智能体协作,完成报名系统的开发。

百度还于11月12日发布了首款AI眼镜,即小度AI眼镜。这是全球首款搭载中文大模型的原生AI眼镜,预计将于2025年上半年正式上市。这款眼镜重量仅为45克,搭载16MP超广角摄像头,具备第一视角拍摄、边走边问、识物百科、视听翻译、智能备忘等功能。

阿里通义千问最近开源了Qwen2.5-Coder全系列模型。这一系列模型在代码生成、修复和推理等方面展现出色的表现,并且支持多种编程语言,同时在多个基准测试中达到了与GPT-4o相当的SOTA水平。这意味着Qwen2.5-Coder在开源代码模型领域取得了极具竞争力的位置,并具有强大的代码生成能力。

字节跳动豆包大模型团队发布了SeedEdit通用图像编辑模型,它能够实现自然语言”一句话改图”的新体验。用户可以使用简洁的自然语言指令,进行各种图像编辑操作,包括修图、换装、美化、转化风格、在指定区域添加或删除元素等。这项创新的技术利用了先进的自然语言处理技术和深度学习算法,让用户能够轻松编辑任意图像,而无需专业的P图技能。

谷歌的DeepMind团队开源了诺贝尔奖获得者Alphafold3的源代码。这一模型是一种蛋白质结构建模工具,与之前版本相比,Alphafold3在建模蛋白质与其他分子共同作用时更为精确。通过开源Alphafold3的源代码,学术研究者现在能够自行运行模型,从而推动了AI在生物领域的变革。

OpenAI宣布推出ChatGPT Windows版客户端,为Windows 10用户提供了更加便捷和快速的AI交互体验。该桌面应用支持热键调用,提供了文件分析、搜索对话、文本生成等功能。用户可以从Microsoft Store下载并安装该应用,然后通过快捷键Alt+Space快速启用。此举使得OpenAI进一步拓展了ChatGPT的应用场景,为Windows用户提供了更加顺畅的使用体验。

OpenAI将于明年1月推出一款代号为Operator的新型人工智能代理,它将使ChatGPT能够代表用户完成电脑操作。据彭博社报道,该公司领导层在周三的员工会议上宣布了这一消息。该公司计划通过开发者API作为研究预览推出这项新功能。

11月15日,腾讯正式推出新的AI产品,名为ima.copilot(智能工作台),旨在为用户提供获取知识、搜索、创作文字和图像等功能。ima不仅能够搜索全网信息,还能打通微信公众号文章生态,使用户能够从海量优质知识中获得高质量的信息。这款产品还支持Mac版和Windows版,为用户提供更高效的知识获取和使用体验。

智谱AI发布”智谱清流”企业级智能体开发平台,这是专门为企业AI应用落地而打造的智能体开发平台。该平台提供了Agents、Workflow、知识管理等多种工具,支持API、SDK、URL集成,并利用智谱大模型技术,帮助企业快速构建专业级智能体,实现大模型到业务场景的快速应用。

微软计划在下个月为Copilot引入新功能,用户将能够选择关闭或启用网络搜索。这一新选项将允许用户是否将网络搜索查询发送到Microsoft Bing。用户可以通过新的控制选项禁用或启用网络搜索,从而更好地控制AI聊天的使用体验。

谷歌在App Store上正式推出了其Gemini人工智能聊天机器人的iOS版本。这使得iPhone用户可以使用Gemini应用程序,为用户提供了一个全新的AI交互体验。Gemini应用包括强大的功能,如Gemini Live模式,支持实时语音对话功能,以及与其他应用程序无缝连接的功能。Gemini应用的iOS版本增加了灵动岛集成功能,用户可以使用文本或语音与谷歌的AI进行互动。

月之暗面创始人杨植麟指出,AI 的发展关键是提升 「思考能力」,并透露公司 AI 助手 kimi 月使用人数达 3600 万,同时新数学模型 k0-math 将用于 k12 教育和提升 kimi 搜索能力。

Codeium推出的新IDE Windsurf。其中的Cascade具有高颜值和强大功能,集成了Cursor的所有功能,还支持在IDE内部运行终端命令。Windsurf的用户界面友好,支持直观的VSCode移植,为开发者提供了很好的编程环境。

issue95 2024.11.18-11.24

OpenAI更新GPT-4o模型版本至GPT-4o-2024-11-20。它不仅可以处理文本,还可以理解和生成图像、视频等多种格式的内容。此外,它还具有预测输出功能,可以显著加快模型的输出速度。这个模型已经可以在OpenAI API及一些第三方平台上使用,并且具有良好的性能和效率。

谷歌推出Gemini-Exp-1121实验版,在代码生成和推理任务上表现优异,再次登顶大模型竞技场榜首。

Mistral发布多模态模型Pixtral Large,在视觉数据、图表理解和数学推理领域超越GPT-4o,适用于研究、教育和商业用途。

阿里通义千问发布Qwen2.5-Turbo AI 模型:支持100 万tokens 上下文,这个改进让模型能够处理更长的文本,相当于约100万英语单词或150万汉字。这种长的上下文窗口长度可以容纳10部完整小说或150小时的演讲稿。这一特性可以使模型处理更加复杂和详细的信息,进一步提升模型的认知和推理能力。

幻方DeepSeek团队推出了其最新的模型——DeepSeek-R1-Lite,该模型在数学、编程等复杂逻辑任务中表现出色,媲美OpenAI的o1-preview模型,并在美国数学竞赛(AMC)和全球顶级编程竞赛(Codeforces)等评测中超越GPT-4o。

夸克上线“学术搜索”AI工具,提升学术工作中的信息获取、创作和处理效率,支持生成学术大纲和PPT。

微软发布AI开发平台Azure AI Foundry。旨在帮助任何人都可以轻松使用尖端的AI功能,改变AI开发的游戏规则。Azure AI Foundry提供了一整套工具,支持从模型训练到部署的各个环节,包括文本生成、图像处理和音频处理等,让用户更轻松地在支持人工智能的大型语言模型之间切换。该平台还整合了多个强大的人工智能模型,如OpenAI的GPT-4系列、DALLE-3、Whisper以及Embeddings模型等。这些模型拥有优越的自然语言处理能力,有助于帮助开发者构建和部署人工智能应用。

issue96 2024.11.25-12.1

本周,ChatGPT上线已满两周年,CNNIC发布的《生成式人工智能应用发展报告》显示,截至2024年6月,我国生成式人工智能产品的用户规模达2.3亿人。

Cursor 0.43版本更新引入了新的Composer Agent功能,这是该编辑器的一项重大改进。该功能能够实现自主选择上下文、操作终端和自动完成任务的能力,并对用户界面和性能表现进行了优化。该功能具备完整的项目理解和编辑能力,并对项目进行深度解析。众多用户对这一新功能表示兴奋,并称其为新版本最大亮点之一。

Claude推出新功能,允许用户通过预设样式和自定义样式来自定义对话的语气和形式。用户可以通过上传写作样本或描述需求两种方式来设置AI回复的语气和形式,以实现更加自然、高效的人机互动。这项功能让用户能够打造更具个性化和贴合使用场景的文本生成风格。

Anthropic 推出名为“模型上下文协议”(MCP)的开放标准,旨在通过统一的客户端-服务器架构解决 LLM 应用与数据源连接的难题。它支持通过同一协议访问本地资源(如数据库、文件)和远程资源(如 Slack、GitHub API),无需定制集成。MCP 不仅共享数据,还可公开工具和交互模板,且内置安全性,确保资源由服务器完全掌控。目前 MCP 支持本地运行,未来将引入企业级认证的远程支持,实现团队间的安全共享。通过 Claude 桌面应用,开发者可在短时间内集成 MCP,快速连接多种数据源,推动 AI 集成的标准化发展。

11月28日,阿里云通义团队发布全新AI推理模型QwQ-32B-Preview,并同步开源。评测数据显示,预览版本的QwQ,已展现出研究生水平的科学推理能力,在数学和编程方面表现尤为出色,整体推理水平比肩OpenAI o1。

阿里巴巴开源Qwen2vl – Flux模型,具备图像变化与混合功能,可生成多样效果,推动图像生成技术发展。

中科院自动化所和武汉人工智能研究院联合发布了“紫东太初”3.0,这是全球首个千亿参数量的多模态大模型。该模型采用了统一的编码方法,具有出色的能力,算法和基础设施建设也在同步推进。

Hugging Face推出SmolVLM,20亿参数,体积小速度快内存高效,适用于端侧推理,基准测试表现出色。

昆仑万维最新推出的“天工大模型4.0”o1版(Skywork o1)是国内首个具备中文复杂推理能力的o1模型。这一模型在模型输出中内生了思考、计划和反思等能力,从而显著提升了推理能力、解决复杂任务的能力,被视为具有慢思考推理能力的系列模型。

上海人工智能实验室最近向公众开放了书生·浦语大模型,并发布了InternThinker强推理模型。这个InternThinker模型拥有卓越的长思维能力和在推理过程中自我反思和纠正的能力。它能在数学、代码和逻辑谜题等复杂任务中展现出更优越的性能。

扣子发布应用IDE。可通过UI Builder快速搭建用户界面,开发者无需关心配置环境和服务部署等步骤。使用IDE可以轻松地在多种技术栈中创建基于LLM的可交互的用户界面。此外,IDE还支持将插件发布到不同的社交平台和通讯软件。

智谱于11月29日举行Agent OpenDay活动,带来了多个新进展:• AutoGLM 可以⾃主执⾏超过 50 步的⻓步骤操作,也可以跨 app 执⾏任务;• AutoGLM开启「全⾃动」上⽹新体验,⽀持等数⼗个⽹站的⽆⼈驾驶;• 像⼈⼀样操作计算机的GLM-PC 启动内测,基于视觉多模态模型实现通⽤Agent的技术探索。

360集团推出纳米搜索多模态内容创作引擎,集搜索、学习、写作和创作为一体,形成了一个完整的工作流程。

联想宣布百应平台升级为 IT 服务智能体,涵盖AI营销、AI办公、AI服务三项AI应用。

腾讯混元大模型将于12月3日正式上线视频生成能力,用户可以在腾讯元宝App中提交申请试用。

2023年的碎碎念

1月

2023-01-02 12:05:12

推荐一个电子书聚合搜索:https://tool.yibook.org/

2023-01-03 09:05:17

我的 #2022年度产品 :TeslaMic&雷石KTV、AirPlay盒子、SynologyPhoto、DSPlayer、小报童

2023-01-03 14:38:15

抖音、小红书、bilibili、微博、网易云音乐的私信系统都越来越接近完整IM了

2023-01-07 01:20:17

“人矿”一词最早出现在1984年的中共党媒《人民日报》上。意思是说,人是一种“资源”。不过现代中国网友则更多的用于对其自身调侃和对个人命运的比喻,类似韭菜、牛马等。讽刺不把人当人。

也有网友认为,“人矿”的意思就是特指那些生下来,就被作为消耗品使用的中国人。他们读20年书,还30年房贷,养20年医院,一辈子被剥削、压榨套取利益,最后还被买卖人体器官,是为终极“韭菜”。

“人矿”一词被创造出来之后,在中国知乎网站上引发热议,不少人形容这个词准确传递出这个时代缩影下的人间悲歌,并一度冲上热搜榜。

有网民表示,“如果称我们是国家的主人,有很多事情无法解释。如果称‘人矿’,那就全说得通了。”

2023-01-07 03:19:46

晚点已经透露了小米汽车的最新进展,快的话下半年就会发布。

2023-01-07 04:13:05

有人用Stable Diffusion对日文汉字进行了训练,得到一个可以生成假汉字的AI模型

2023-01-09 11:45:47

MediaDevices.getDisplayMedia()

2023-01-11 05:53:57

今年微信公开课的主角只有视频号

2023-01-11 16:52:06

小小、我爱的人、爱情,很多人都不知道是杰伦写的

2023-01-14 02:27:46

看过《去有风的地方》

https://neodb.social/tv/season/GV6taEAk1jhcNBkbF0G2Q

2023-01-14 13:17:54

9亿人感染,6万人死亡。

2023-01-14 14:14:17

看过《中国奇谭》

https://neodb.social/tv/Bl7c8ML6qvjJ7J9v9nOZw

2023-01-14 14:18:58

李现说话的样子很像张朝阳

2023-01-14 14:47:02

USDT 2022年的总清算额达到18.2万亿美元,超越VISA和MasterCard

2023-01-15 01:57:06

B站给我推荐的主题颗粒度不如小红书的细

2023-01-15 11:57:59

三体电视剧版21:30在CCTV-8开播

2023-01-18 09:45:50

畸形防疫结束后,发达的线下商业和交通网络又让大城市的生活有了魔力。

2023-01-18 10:54:44

看过《三体》

https://neodb.social/tv/season/3IZfpVCON5B3RQj4aoALIp

2023-01-20 07:41:12

新版的macQQ也更新到这个UI了,之前更多应用里的天气、腾讯网、自选股都没了

2023-01-20 08:51:00

Twitter更新开发者条款:明确不允许开发第三方客户端

2023-01-20 09:05:43

成都进入两万亿GDP俱乐部。

2023-01-21 13:06:17

看大家吐槽春晚好欢乐!

2023-01-22 07:42:24

看过《流浪地球2》

https://neodb.social/movie/5P5rawCZmazL0NHXI2Hepd

2023-01-23 23:59:29

iOS 16.3对Apple ID增加了硬件密钥的支持

2023-01-24 15:47:45

国产的桌面操作系统,有这么几种路线:deepin/UOS以及优麒麟是Linux发行版,fydeOS是ChromeOS定制版,reactOS是Android x86定制版。

2023-01-25 05:55:51

📍乌镇

2023-01-25 12:56:52

ChinaCDC披露本轮疫情主要数据:https://www.chinacdc.cn/jkzt/crb/zl/szkb_11803/jszl_13141/202301/t20230125_263519.html

2023-01-25 13:14:18

山姆会员商店买的佳沛金果盒子里居然有个这:https://www.xsense.co/xsense-system/dataloggers/rf-hitag/

看了下是冷链管理用的温度数据记录器,应该是工作人员忘了取下来?

2023-01-26 02:54:48

工资卡在招行、公积金签约卡在招行、新版社保卡在招行、个人养老金账户在招行

2023-01-26 04:04:09

YiBook的电子书工具:https://www.yibook.org/

2023-01-28 07:55:53

2023年开工~

2023-01-29 09:02:28

影史前四票房的影片,卡梅隆执导的占了三部

2023-01-30 03:57:34

iteration integration两个词很像,还经常在同一个语境里出现。

2023-01-30 15:14:24

2023年了,现在最激动人心但大多数人还不了解的东西应该就是L2-L3辅助驾驶

2023-01-31 09:36:39

https://help.openai.com/en/articles/6825453-chatgpt-release-notes

ChatGPT昨日进行了模型更新,提升了事实性和数学能力

2月

2023-02-01 14:27:58

rewind.ai就像是超梦视频的一种了,随时可以回溯电脑屏幕上见到的东西,并且在信息量和存储空间上保持了平衡(1个月的记录数据约占用15GB空间),工作时也几乎感觉不到它的存在,目前唯二的缺点就是搜索仅支持英文以及有点小贵(每月20刀)。

2023-02-01 15:06:26

#nostr 协议的iOS客户端Damus上架,今天很多人涌入了

2023-02-01 18:21:51

nip-05认证需要hex key,用这个converter可以把npub公钥转成hex:

https://astral.ninja/devTools

2023-02-04 09:22:50

Teams将会加入会后AI recap,能直接给出总结性的meeting minutes

2023-02-04 14:17:06

https://store.steampowered.com/hwsurvey/

2023-02-04 14:39:17

nostr网络几乎是全公开的,甚至私信列表都是公开的…… 只是私信消息用私钥加了密

2023-02-04 16:09:32

一年之计在于春

2023-02-04 18:59:53

https://nostr.directory/

2023-02-06 01:18:05

元宵节的doodle点进去是台湾灯会诶,真正做到了“让世界看见台湾”

2023-02-06 03:43:21

两个真正出圈的AI:AlphaGo、ChatGPT,在命名上都是两个词,4-5个音节

2023-02-07 03:03:11

文心一格,文心一言

2023-02-07 04:24:39

效率革命

2023-02-09 01:56:14

Bard给出错误答案的问题:“关于詹姆斯·韦伯太空望远镜(JWST),我可以告诉我9岁的孩子它有哪些新发现?” 问ChatGPT得到的答案就相对正确。

2023-02-09 16:56:10

https://uegov.world/

2023-02-10 16:59:35

武汉上街的规模不小,可以。

2023-02-11 20:48:36

railway部署项目还是比netlify方便

2023-02-13 15:51:44

考虑把new bing设为默认搜索引擎了

2023-02-14 08:13:23

#aigc #chatgpt 留存这两个tag

2023-02-16 06:59:55

公众号给图文内容加了一种类小红书笔记的排版,之前有思考过,这种排版突出图片,加强了图片的视觉冲击力,适合生活方式内容。

2023-02-16 13:26:02

OpenAI拿下了ai.com

2023-02-18 14:22:35

Clockology,完全实现表盘自由

2023-02-19 10:43:26

有点意思

2023-02-23 01:07:30

灵感转瞬即逝

2023-02-23 03:43:52

看久了Chrome,感觉Edge的圆角UI有点好看了

2023-02-26 12:15:50

从图片中复制文本已经如此习以为常。

2023-03-01 05:34:33

人工智能·AI 工具导航网站盘点:https://zhuanlan.zhihu.com/p/608944516

2023-03-01 05:38:19

语音消息转文字也已经习以为常。

3月

2023-03-01 22:52:07

https://www.youtube.com/live/Hl1zEzVUV7w

2023-03-02 02:07:02

收回之前的判断,Bing Chat太啰嗦且保守了,啥事都是“我只是个搜索引擎”,还是ChatGPT for Google插件更好用~

2023-03-02 04:15:36

OpenAI终于放出了ChatGPT所用的模型:gpt-3.5-turbo

切换方法:model参数“text-davinci-003”修改为“gpt-3.5-turbo”

2023-03-02 07:33:52

https://platform.openai.com/docs/guides/chat

2023-03-02 08:45:15

ChatGPT真的是一个技术经验丰富的朋友,可以跟他探讨思路

2023-03-05 01:35:35

支付宝-生活,竟然做成视频号了……口碑生活现在变成了小程序

2023-03-05 13:44:44

小程序自己出了一个多端框架Donut,直接在IDE里编译完就能在手机端体验

https://dev.weixin.qq.com/

2023-03-06 12:10:11

如果大语言模型是电,ChatGPT是电灯,还会有哪些电器?

2023-03-06 17:15:57

ChatGPT已经提前预定了一个年度产品的席位。

2023-03-06 17:42:26

“人工智能的iPhone时刻”更准确的说法应该是“人工智能的AppStore时刻”。

2023-03-07 07:47:08

再多体验了几天,Edge的Bing侧边栏可以实时理解左侧网页上的内容,并且在时效性较高的内容上也能给出回答。虽然也遇到过回答错误和无法回答的情况,但在信息查询整合这个需求上(也即搜索引擎)还是实现得比较好的,值得肯定!

2023-03-07 08:44:20

https://chatexcel.com/

2023-03-08 18:05:31

创投圈有一种2011年移动互联网时代的氛围了

2023-03-09 14:31:33

“没有政治体制改革,经济体制改革的成果可能毁于一旦。”

2023-03-10 02:59:25

“全票当选”

2023-03-11 13:39:29

国内用美区bing app访问new bing,还要把系统地区切到美国:https://answers.microsoft.com/zh-hans/microsoftedge/forum/all/%E6%89%8B%E6%9C%BAbing/3da74b48-60d7-4f06-9575-0c06daab55c1

2023-03-11 14:39:29

李强这个总理,总感觉名不正言不顺,上海民间不少议论,但网上看不到任何评论。(当然,这次并无意外,从去年10月进常委排名第二就已经揭晓答案了)

2023-03-12 05:51:47

Glarity Summary对Google搜索结果的归纳整理已经离谱到还会给出“个人见解”

2023-03-13 01:15:30

立法法的修改,等于把立法权从全体会议缩小到常委会,而常委会几乎是委员长(一尊的傀儡)一言堂。

2023-03-14 02:14:09

GPT-4和文心一言,都可能在本周开放。

2023-03-15 03:05:24

OpenAI:GPT-4 是一种高级语言模型,可以处理和生成多达 25,000 个单词的文本,可以理解图像并表达与其相关的逻辑思想。虽然其并非完美无缺,但它可以帮助人们实现日常生活中的多种任务,如教育、个人辅导和更高效的生产力等。OpenAI 和微软合作开发 GPT-4,致力于使其成为更具实用性的技术,更加个性化地服务于每个人。虽然 GPT-4 尚不完美,但其已经成为当前最先进的人工智能系统之一,我们期待通过使用和改进不断提高其性能和安全性,使其成为更加广泛普及的智能辅助系统。

2023-03-15 03:18:56

GPT-4 擅长于需要高级推理、复杂指令理解和更多创造力的任务。支持多模态(图片)理解和高达25000词的prompt。但响应速度较慢。

目前开放给Plus用户的GPT-4模型尚不支持图片输入,从发布会视频看,演示人员在jupyter notebook里用pycord实现了一个discord机器人,通过机器人进行了图片输入。

开发者平台上,目前也需要加入等待名单,OpenAI会优先将GPT-4开放给使用GPT3.5创建过应用的开发者。

另外,New Bing已经运行在GPT-4模型之上,但也还不能进行图片输入,且最高2000词。

2023-03-15 13:22:24

315晚会上测试用的数据恢复软件叫FinalData企业版

2023-03-16 07:56:35

百度文心一言的界面一看就是深受ChatGPT和New Bing的启发 :0520:

2023-03-16 13:17:41

党政更加不分

2023-03-16 16:09:43

Google Docs又浅浅更新了UI :0080:

2023-03-16 16:14:24

https://chatyoutube.com

2023-03-16 16:47:35

微软赢麻了,Office全系配AI Copilot

2023-03-17 01:47:12

大眼夹重生了哈哈哈 这周太炸裂了

2023-03-17 01:52:29

通用型人工智能真的会带来生产力革命,格局不能小了。LLM是电,ChatGPT是电灯的话,Office Copilot已经是电视机了。再想远一点,人人都能拥有一个真正可用的个人助理(能帮你做事赚钱的),而且,可能还不止一个。

2023-03-17 06:36:14

20年6月,OpenAI GPT-3

22年3月,OpenAI GPT-3.5 (text-davinci-003)

22年10月,微信大语言模型WeLM:https://welm.weixin.qq.com/docs/playground/

22年11月,ChatGPT

https://chat.openai.com/

23年2月,微软New Bing

https://www.bing.com/new

23年2月,复旦大学MOSS

https://moss.fastnlp.top/

23年3月,微软Dynamic 365 Copilot

https://www.microsoft.com/en-us/ai/dynamics-365-ai

23年3月,OpenAI GPT-4

https://openai.com/research/gpt-4

23年3月,Google Workspace AI

https://workspace.google.com/blog/product-announcements/generative-ai

23年3月,百度文心一言

https://yiyan.baidu.com/

23年3月,Microsoft 365 Copilot

https://news.microsoft.com/reinventing-productivity/

2023-03-18 10:41:25

想看《网络谜踪2》

https://neodb.social/movie/6MC6fgqepgrunY4llqA54T

2023-03-20 00:12:32

过去的一周,通用型AI完全走入大众视野。

2023-03-20 08:12:05

在Mastodon实例转发了Solidot关于Mastodon用户数突破一千万的新闻🤣

2023-03-20 08:38:26

大街上戴dyson zone的压力还是很大的

2023-03-21 16:01:16

帮黄仁勋翻译下:AI离不开Cloud,Cloud离不开NVIDIA芯片和基础服务

2023-03-23 14:46:01

https://www.youtube.com/watch?v=_E-4jtTFsO4

2023-03-24 01:18:43

加入Loop Preview,但还没看到Copilot

2023-03-25 05:59:52

想看《小熊维尼:血染蜂蜜》

https://neodb.social/movie/5x0lx60NyErQKTAmSzs8Av

2023-03-25 06:07:01

提出摩尔定律的戈登·摩尔去世。

2023-03-25 09:49:38

skype直接强行增加了bing chat聊天会话hhhh

2023-03-25 09:51:06

在Loop设置-实验性功能-Copilot处打开了,见到了Copilot的中文UI,但请求报错,还不能完成。

2023-03-28 14:37:10

GPT-4正在重塑我的思维和认知。

2023-03-29 02:52:04

在云闪付里绑了一张很久之前开的卡,绑完发现还有余额,这就是赛博时代的“从衣柜深处的衣服兜里翻到了钱”吧……

4月

2023-04-01 11:49:14

Glarity Summary现在可以在任意网页上进行内容总结了

2023-04-01 16:25:52

https://github.com/twitter/the-algorithm

抽空读一下

2023-04-03 23:05:44

耳石症

2023-04-03 23:05:56

twitter logo变成了doge

2023-04-05 05:51:43

M6竟然在中国大陆上映了

2023-04-05 06:06:47

CashApp创始人在旧金山遇刺身亡……

2023-04-05 14:17:56

开发一个工具的成本低到0,自然语言描述给gpt就行了

2023-04-09 04:13:46

这一波AIGC产品,很高兴看到首选发布Web应用的越来越多。Web应用有快速迭代持续交付的优势,体验也越来越接近Native应用。

2023-04-09 04:14:50

LLM毫无疑问会成为基础设施。

2023-04-09 13:22:00

有些小颗粒度的内容是在一些垂直的媒体或者社区去follow的,这个也会有汇总的需求。

2023-04-11 01:46:58

手机仍然是最重要的个人计算设备,但随着AGI的发展,我们有望减少因手机的工具属性而消耗的时间。比如一些需要点很多次才能完成的事情,之后可能一两次点击就搞定了。

2023-04-11 07:14:26

生成式人工智能服务管理办法。这真是速度了

2023-04-12 17:15:32

确保Web3在香港发生。

2023-04-15 11:40:13

给一个最近很喜欢的开源项目提了PR,被merge了,开心

2023-04-22 16:27:26

全球就像重生了一样,又是一个轮回的开始吗?

2023-04-22 16:30:55

上海车展:士别三年,国产新势力已经快把传统品牌干死了……

2023-04-27 00:31:50

中超恢复主客场制之后,现场气氛非常棒!

5月

2023-05-01 06:54:28

读过《中国文化常识课》

https://neodb.social/book/5FPkwXyGiGfHYZX2xgD1PD

2023-05-01 16:33:37

iOS日历的中国工作日和闹钟还是没有连起来

2023-05-02 10:22:14

以前觉得视频教程不怎么好,现在理解了看视频其实就是人类最原始的学习方法:模仿

2023-05-02 13:57:29

吴恩达的ChatGPT Prompt课程:https://learn.deeplearning.ai/chatgpt-prompt-eng/lesson/1/introduction

2023-05-05 13:29:10

全剧终

2023-05-10 02:41:35

iPad Pro上会有越来越多的专业软件,这就是Apple Silicon带来的红利

2023-05-11 01:19:00

Pixel Fold感觉是两年前的机器😂

2023-05-11 01:27:43

PaLM 2 说部分任务超越GPT-4,但LLM就是必须全能才可用。

2023-05-11 05:19:26

目前已公开,无需自己搭建即可使用的LLM Chat服务有:ChatGPT、NewBing、文心一言、Claude、Google Bard、讯飞星火

阿里通义千问和商汤SenseChat目前并未开放。

2023-05-11 16:35:58

想看《人选之人:造浪者》

https://neodb.social/tv/21eA4iogGAja20EVHYAZjd

2023-05-12 08:05:14

512地震15周年。

2023-05-14 05:02:51

在玩《塞尔达传说 王国之泪 ゼルダの伝説 ティアーズ オブ ザ キングダム》

https://neodb.social/game/4Ixm8bYfeqJAoZkl09KKfR

2023-05-14 15:21:19

为亚洲杯准备的球场虽然没举办亚洲杯,但都成为了中超球队更好的主场。在电视平台转播和社交媒体传播下,今年有越来越多的人去现场看中超比赛,至少成都和上海火爆的球市可以证明这一点。

2023-05-15 01:24:30

很有意思的幕后 https://www.nintendo.com.hk/interview/totk/index.html

2023-05-16 15:25:15

获得GPT-4 with Browsing权限~

2023-05-17 00:47:07

instagram推出广播频道功能,类似telegram channel

2023-05-17 14:11:24

上纲上线,过于离谱

2023-05-18 11:55:10

确实,工业革命级的机遇,不急于在几个月内拿出电灯泡产品

2023-05-19 00:13:48

ChatGPT官方iOS客户端上架

2023-05-21 17:05:46

体验了GPT-4的Plugins,大多外部服务都撑不住ChatGPT带来的请求量,好多个插件都挂了

2023-05-25 00:38:06

Windows11终于要官方支持rar解压

2023-05-29 01:12:27

桂海潮毕业于北京航空航天大学,硕博连读又留校任教,也是北京航空航天大学宇航学院航天飞行器技术系教授、博士生导师,航天动力学和智能控制实验室核心成员,空间载荷专家。

2023-05-30 06:41:32

很久没能静下心进入心流状态了。

2023-05-30 07:14:38

国航排队航班催C919滑行快一点,虹桥机坪atc回应:人家是有要求的嘛😂

2023-05-30 08:05:53

矢量数据库要火一波了

2023-05-31 02:09:42

盖茨说他一生中经历了两次技术变革,第一次是GUI,第二次是LLM

2023-05-31 03:05:55

github已经官方支持了树形文件目录浏览,可以告别Octotree了

6月

2023-06-02 07:17:48

按量付费的IaaS服务中,DO、GCP、AWS、Azure几家是支持随时释放资源的

2023-06-04 09:48:54

蓉城客场运气好,在白玉碗带走3分。可惜罗慕洛伤退。

2023-06-05 15:18:03

6月的WWDC比9月的秋季特别活动更像是科技春晚

2023-06-05 16:05:48

凤凰山体育公园完美继承了成都体育中心金牌球市的衣钵

2023-06-06 13:43:47

曾经无数次设想Apple的AR眼镜发布后会是什么样,没想到这一天已经来了。

2023-06-06 16:35:41

使用vision pro进行facetime通话时,自己的形象是一个建模出来的虚拟数字人。

2023-06-08 05:40:15

两年过去了,Mac App Store里能用的iPhone App也没有太多

2023-06-12 11:02:04

Apple给开发者提供了一个叫做Reality Composer Pro的工具,这是为Vision Pro做了个Unity啊

2023-06-14 01:30:43

Vision Pro的视野空间叫做Shared Space

2023-06-18 10:13:29

盖茨来中国,今天翻出他3月21号的博客再读了一遍,https://www.gatesnotes.com/The-Age-of-AI-Has-Begun

2023-06-18 11:08:06

《新华社新闻信息报道中的禁用词和慎用词(2016年7月修订)》

https://baike.baidu.com/item/%E7%A6%81%E7%94%A8%E8%AF%8D/20139960

这个好像很久没修订了,不过全文能出现在百度百科也是出乎意料。是一个很好的简中语境科普材料。

2023-06-21 09:17:37

好热,一看日历都到夏至了

2023-06-22 11:01:47

IOIOX的免费泛域名证书造福大众!rssforever的rsshub镜像造福大众!ghproxy的github镜像造福大众!

2023-06-23 04:37:10

github web topbar更新了

2023-06-23 12:47:59

2023年榕江(三宝侗寨)和美乡村足球超级联赛 http://www.lysy360.com/league/10195/card#1

2023-06-23 12:52:42

北京大学出现反专制标语 一举牌者被校方保安带走https://www.rfa.org/mandarin/yataibaodao/renquanfazhi/gt-06222023233902.html

2023-06-24 01:57:09

mac版印象笔记升级到最新版后,已经不支持国际版账号,总算完全分开了,国际版app现在所有平台体验一致了,笔记历史也能正常查看了

2023-06-24 14:11:26

凤凰的实时timeline:https://news.ifeng.com/loc/timeline/event/8QryCOYZx2v?isFull=0&immersion=true&ifengsp=1

俄卫星通讯社做的这个地图,不是更明摆着你在入侵乌克兰 https://sputniknews.cn/20230114/1047134621.html

2023-06-26 09:25:29

https://developer.apple.com/documentation/xcode-release-notes/xcode-15-release-notes

2023-06-27 15:09:05

台湾的metoo才是真正的metoo

2023-06-27 15:34:32

才意识到所有的iPad都是没有震动马达的(即使是iPad mini)

2023-06-29 03:09:31

自动驾驶研发十年:https://mp.weixin.qq.com/s/7rSUVz9kzJz4Fmcj6eXuNg

7月

2023-07-06 01:29:59

ig新的threads应用之后会接入Fediverse

2023-07-06 07:50:52

Raycast正式替代掉用了10年的Alfred

2023-07-07 06:44:22

WAIC 2023在线直播:https://online2023.worldaic.com.cn/home

2023-07-10 07:52:28

不得以防止失联、提前关注、故留悬念等方式,诱导用户关注其他账号 //哈哈哈哈哈哈哈哈哈哈哈哈

2023-07-12 05:59:58

试了下Claude2,效果也蛮好的了。api还没开放,需要申请。

2023-07-12 06:02:00

GPT-4的代码解释器,实际是一个自然语言的python运行环境,能做的事情绝不仅限于解释代码和数据分析。

2023-07-12 06:07:34

iPad版微信小程序菜单没有“添加到桌面”,其实通过手机端唤起safari后,在iPad safari上添加到主屏幕就好了。

2023-07-13 03:37:20

已经可以实现图片转格式,以及将链接生成二维码(常见的python库能实现的功能)。但还不能联网使用第三方api比如OCR查看图片中的内容。

2023-07-16 04:29:14

成都的世大运氛围已经拉满了~

2023-07-16 14:34:54

看过《智能时代》

https://neodb.social/tv/season/3C7IswjC2mqwz2q43ixUOo

2023-07-19 03:25:03

llama2来了 https://huggingface.co/blog/llama2

2023-07-19 13:48:43

美团入股了智谱AI(清华GLM大模型背后的主体),加上之前的光年之外,大模型的船票已经握紧了。

2023-07-21 02:16:44

凯文米特尼克去世,年仅59岁。

2023-07-23 07:02:50

想看《芭比》

https://neodb.social/movie/2Wv4wI4vD9A2xKldfm6bVN

2023-07-24 12:44:06

玩了一会儿SteamDeck之后再拿起Switch:卧槽,这才是掌机啊

2023-07-25 09:00:08

http://tech.sina.com.cn/s/2004-12-27/1428485862.shtml

IBM的ViaVoice算是我第一次接触“人工智能”吧

2023-07-27 06:04:21

小程序的手机号授权,都改为了手机号验证组件,准备开始收费(价格跟通过短信验证码验证类似)。其实很多场景不需要做验证,只是授权来作为唯一id的。而且本身是从用户微信绑定的手机号来的,一般情况下也不需要再验证了。

2023-07-28 08:36:43

https://results.2021chengdu.com/index.htm#/schedule/dailyschedule

这个赛果发布系统不错

8月

2023-08-01 02:59:40

Agent as a Service

https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2023-08-02 03:14:48

秦刚依然下落不明,已经有传言他自杀了……

2023-08-04 18:47:08

云安、阿璞、阿信、青峰,台湾男生都好有才

2023-08-06 04:29:08

用docker把MetaGPT跑起来了~ 测试写了三个小游戏

2023-08-07 08:21:12

Evernote最近丢数据,还是把所有笔记全部导到Notion了(虽然丢失所有空行

2023-08-07 08:24:24

动不动就识别为电信诈骗,这个识别模型有点简单了

2023-08-08 10:22:39

Cortana要彻底被Windows Copilot替代掉了,微软已经关闭了Windows11上独立的Cortana应用。

2023-08-09 02:49:19

切换Bing国际版:https://www.bing.com/?mkt=en-US

2023-08-10 04:21:06

看到路特斯的流媒体后视镜,现在政策已经允许不带实体后视镜吗?不过特斯拉上的左右辅助后视镜头已经做到比实体后视镜视野广、夜视好了,确实可以替代了

2023-08-10 11:34:21

小程序也要备案,开发者又多一个门槛

2023-08-13 07:23:57

内马尔也要去沙特踢球了😅

2023-08-13 09:24:25

wordpress app升级成了jetpack app

2023-08-14 04:32:15

玩过《博德之门3 Baldur’s Gate III》

https://neodb.social/game/0w4Ta4NeXBnTnvEuJr2qAk

2023-08-17 03:38:30

有了AI之后,人人都是神笔马良。

2023-08-17 16:10:54

原来缅北的“园区”都是2019之后建起来的

2023-08-19 07:45:45

任然庄心妍金玟岐赵乃吉周思涵王靖雯 几个巨头了 :0080:

2023-08-20 12:26:32

看过《陌生人:对话圣战分子 Season 1 第1季》

https://neodb.social/tv/season/4r0SibQawf9OrCyTgaCqyJ

2023-08-21 09:07:00

花总口述:缅北电诈真相 https://mp.weixin.qq.com/s/yN1rlXcuwqRkxWQV__9lzA

2023-08-21 10:52:36

腾讯文档做了“智能文档”,也借鉴了notion

2023-08-23 08:17:48

目前普通用户“直接登录就能使用”或者“只要申请就肯定能通过”的国内chatgpt产品有5个:

百度文心一言、阿里通义千问、讯飞星火、搜狗百川、字节豆包

国际产品:ChatGPT、Claude、Bing、Bard

国内聚合产品:ChatHub、ChatALL

国际聚合产品:Poe、Pi、Perplexity

2023-08-30 05:23:49

中芯国际居然可以生产7nm制程的芯片了

9月

2023-09-03 02:39:22

https://www.apple.com/apps/ 酷

2023-09-03 17:39:00

很真实的小说 https://xszj.org/b/340683

2023-09-04 05:47:47

喝了酱香拿铁,酒味儿还挺重的 :0010:

2023-09-07 12:54:35

https://vocalremover.org/zh/

人声伴奏分离工具

2023-09-08 01:36:51

混元这个名字比文心/千问/星火都更贴切

2023-09-10 16:13:24

sunbelife做的“鸿蒙Smartisan主题”:https://mp.weixin.qq.com/s/0MHmCuKOCiCpMQjYaTUKAw

2023-09-12 17:53:29

usb-c正式一统天下

2023-09-13 02:39:15

Watch上已经是设备端Siri了,难道内置了一个LLM?

2023-09-15 04:27:30

瑞幸x茅台、7分甜x奇奇蒂蒂、奈雪x薄盒范特西,奶茶店争相做品牌联名

2023-09-16 16:57:54

外宾WeChat用户终于有看一看入口了……(Mac微信最新版本

2023-09-19 02:59:01

白岩松上次露面是周五的新闻1+1,昨晚节目是王宁,看看今晚

2023-09-19 03:02:20

王志安对习近平不去参加印度G20的分析还是有道理的,他可能真的觉得G20不再重要,而要以金砖国家为基础搞新的。朋友圈越来越小越来越穷真的是绝了

2023-09-20 14:25:33

Party Animals正式上架开服!

2023-09-21 15:07:50

HomeAssistant简直跟TeslaMate有一拼,数据控狂喜

2023-09-25 01:57:37

子母扣yyds了

2023-09-26 10:32:50

https://blogs.microsoft.com/zh/blog/2023/09/21/announcing-microsoft-copilot-your-everyday-ai-companion/

2023-09-28 07:20:49

Telegram的第三方客户端越来越追不上主端的更新速度了

https://mp.weixin.qq.com/s/IIRfnjl4YGNJJmmnx_KznQ

2023-09-30 08:56:24

https://info.hangzhou2022.cn/zh/results/all-sports/competition-schedule.htm

10月

2023-10-02 06:09:24

今晚乒乓球女双决赛是朝鲜vs韩国 :0080: 之前女足朝鲜vs韩国的时候差点打架 哈哈哈哈

2023-10-02 06:12:21

想看《浊水漂流》

https://neodb.social/movie/7XMp1e61V5Pq3nYPKr77rV

2023-10-02 06:19:35

Chrome可以“复制视频当前帧”了~

2023-10-03 02:35:17

亚运电竞手游的官方用机是vivo的iqoo 11s

2023-10-03 06:29:14

7月某个大型活动时误关live photo,这两个月拍的照片都不能动 :0170:

2023-10-05 03:11:19

Arc Browser宣布了他们的AI新功能Arc Max,可以看出考虑了很多实际应用场景。

1、AI链接预览:按住shift之后mouseover一个链接时,即可直接查看由AI总结的链接页面内容。

2、AI总结tab网页title:很多网站的title有统一前缀,导致实际title在很后面根本看不到,或者是为了SEO堆砌了很多无用关键词,现在Arc Max可以帮助重命名网页title。

3、同上,下载文件的title也会被重命名。

4、页面内查询功能:直接升级为AI问答

2023-10-05 05:04:02

发现qq音乐有首次收听时间显示了,手动点个赞

2023-10-05 09:05:01

中超官网的api域名证书过期了也没人管

2023-10-05 11:42:08

分管科技的杭州副市长胥伟华博士,有中科院工作经历,是这次亚运会的IT总指挥。

2023-10-05 11:55:32

新闻联播首位90后主播王音琪,在新闻直播间主持已经10年了

2023-10-06 01:34:29

这种环境谁还敢说话

2023-10-08 03:26:39

iOS 17最明显的改变是:打字时的光标颜色😅

2023-10-08 08:57:01

watchOS 10 中,不再支持左右滑动屏幕来切换表盘,现在需要长按表盘进入编辑界面,才能左右滑动切换。

2023-10-08 11:25:02

习近平文化思想…… :0391: :0190:

2023-10-09 02:35:03

iOS小组件更新更频繁、可交互,现在iPhone上的小组件也可以直接添加到mac桌面,通过连续互通刷新数据。

2023-10-10 00:22:46

亚运会跟世界杯同一年举办2022 2026 2030

奥运会跟欧洲杯同一年举办2024 2028 2032

2023-10-10 08:29:58

DALL·E 3 √get

2023-10-11 08:01:58

设备端机器学习会开始跑LLM

https://developer.apple.com/cn/machine-learning/api/

2023-10-12 08:03:10

X的home icon由鸟巢形改成了火箭形

2023-10-12 08:06:04

Bard的看图能力跟GPT-4V差不多诶

2023-10-13 06:02:17

老高和小茉最近的一期提到,我们要多做能留下记忆的事情。这好像也是我一直以来默默践行的。

2023-10-13 06:04:29

体验了心光app,现在的分词、关键词提取、总结的效果还很差,几乎不可用。

2023-10-13 06:08:51

体验了纯银的新产品「犬岛」,内在美社交app,通过回答不同的问题来丰富自己的profile。

每个人都有很多故事,每个人都是一本书,刷问题的同时也是在阅读每一个陌生人,这种感觉还真的很奇妙。

所以,即使不抱着社交的目的,刷刷别人的思想,也会对自己有所启发。(至今我回答的两个问题都是从别人的回答得到的启发,而不是主动从问题列表里去答的)

2023-10-14 15:56:12

iPhone的耗电来源又多了一个:Mac小组件

2023-10-16 06:30:45

想读《崇祯》

https://neodb.social/book/5Lz6qmhQeHlGQ8iSZ6tW6E

2023-10-17 04:00:57

百度把搜索、地图、网盘、商业分析产品都加入AI进行重构

2023-10-18 05:00:25

很多图书馆都有龙源的期刊资源,但是读览天下的没有几个有,省立中山图书馆nb

2023-10-20 03:17:57

OpenAI的API服务宕机2个半小时了…… 有Azure OpenAI备用还不错

2023-10-22 14:58:32

胡锦涛、秦刚、李尚福,现在依然不知道下落和近况

2023-10-25 03:14:41

发现github的北极代码存档徽章不显示了

2023-10-26 03:19:46

长二F确实稳啊

2023-10-26 03:29:34

王局还是去的年代向钱看

2023-10-27 02:24:59

也算是十年前投身过大众创业万众创新浪潮。

2023-10-27 05:50:57

Apple has released the developer beta of iOS 17.2, and it includes the new Journal app, a digital daily diary for users to log their activities.

2023-10-27 05:55:57

别了李克强,别了团派!|李克强|习近平|团派|两会|总理|政治斗争|王局拍案20230306 https://www.youtube.com/watch?v=O0p0jsV_eI8&list=PL3bAfMXyZjrPfLIHtd6Phb4R1gBswybSq&index=143

2023-10-28 18:09:39

原来iPad也可以作为homekit家庭中枢

2023-10-31 03:01:28

Apple Event在美西时间17:00开始,30分钟结束,大家下班去过万圣节了~

11月

2023-11-01 08:43:11

上海居然把公交改道,给万圣cos狂欢人群腾了路,这波可以

2023-11-02 06:32:19

今天只发现星巴克和东方甄选刷了灰

2023-11-02 07:16:38

Studio Display Pro赶紧发布吧,需要miniLED和ProMotion拯救下MacBook扩展显示器

2023-11-02 16:00:46

原来只有5个人有过十里长街相送的待遇,李克强这次一大原因是刚离任不久,民众对过去十年是十分有感的。

2023-11-06 06:43:37

Grok AI排队:https://grok.x.ai/

2023-11-07 01:28:33

OpenAI的iPhone 4时刻:https://www.youtube.com/watch?v=U9mJuUkhUzk

2023-11-07 03:27:10

OpenAI的开发者后台也大升级了,Usage统计更加详细,但去掉了每月累计图表

2023-11-07 03:47:26

GPT-4V API开放,支持多张图片与文本混合输入,GPT正式进入多模态时代。图片输入所消耗的token数量按像素尺寸计算。

2023-11-07 03:51:10

DALL·E 3 API也正式开放,图片生成质量大幅提高。

2023-11-07 04:16:54

想看《地球脉动 第三季》

https://neodb.social/tv/season/3smiJE2Hzp1TABMI4N4IXP

2023-11-07 06:44:01

GPTs,直接读作:/ˈdʒiː.piː.tiːz/,意思也相当于GPT的复数,无数个不同角色的GPT

2023-11-08 10:08:34

GPT-4-Turbo和GPT-4-Vision API目前都在Preview阶段,每日请求数限制为200条和100条……只能用来测试体验

2023-11-10 07:21:22

https://humane.center/

2023-11-11 06:55:26

https://www.gptshunter.com/

周三就有开发者做了第三方GPT Store

2023-11-11 08:25:20

关于Humane的一些介绍:

https://hu.ma.ne/

https://x.com/humane/status/1722789149525299491

https://mp.weixin.qq.com/s/IovIZChwAIIT_kmI7Ry7Aw

https://mp.weixin.qq.com/s/IovIZChwAIIT_kmI7Ry7Aw

这就是我想拥有的AI随身记录设备,全天续航,持续记录我的个人数据,可以随时询问回溯。并且投影到手掌显示信息也很酷炫。

想来也是,一些个人助理的事情,最好能语音交互解决,必要的时候才需要显示内容,不一定需要大屏设备。

一些场景:询问眼前食物的热量、第一人称视角拍摄、面对面翻译

2023-11-13 15:17:05

应该有两种带个人数据的AI:

一种是能访问我的消息、通讯录、日历、相册、日记、足迹、健康数据等私密信息的,可供我随时回溯和查询,可以作为我的个人助理;一种是收集了我所有的作品和公开发表的内容,能模仿我的文风语气生成内容的数字分身,他人可以与我的数字分身聊天,交换思想。

2023-11-15 03:25:58

NHK:中国经济失速的真相 https://www.youtube.com/watch?v=4hiolj4PUFw

2023-11-16 07:19:38

中美要么把休斯顿和成都总领馆恢复一下

2023-11-19 05:54:44

还是希望Sam Altman和Greg Brockman回到OpenAI,这个team不是草台班子,罢免Sam的董事会才是。

2023-11-20 08:14:53

连续剧以小时级速度更新……

2023-11-21 02:10:28

本地跑大模型:https://ollama.ai/

2023-11-21 04:57:02

业界有观点认为,GPT-5可能已经在OpenAI内部表现出超越人类的特性,才会使ilya急于阻止sam融资和推向市场。

2023-11-22 03:43:19

本地跑LLM的几个整合包方案:

1、LlamaGPT,Umbrel on Ubuntu https://apps.umbrel.com/app/llama-gpt

2、Ollama & Chatd,支持macOS和linux,https://ollama.ai/

3、ChatGLM3一键整合包,仅支持Windows https://xueshu.fun/3157/

4、Baichuan 2离线整合包,仅支持Windows https://zhuanlan.zhihu.com/p/664308020

5、Pinokio 支持macOS和Windows https://pinokio.computer/

2023-11-22 06:42:52

OpenAI Assistants API,其中的知识库文件上传限制为最多20个,单个文件不超过512MB

2023-11-22 10:07:22

跟进热点做网站获得流量:

Godaddy购买域名;

Github托管代码;

Vercel部署项目;

GoogleSearchConsole管理收录;

ProductHunt冷启动;

2023-11-23 00:46:42

Procreate Dreams的Perform Mode表演模式真的实现了拖拽元素做动画

2023-11-23 06:01:45

vercel和nextjs确实好用

2023-11-23 15:21:20

蓝白合破局,kp啊

2023-11-24 10:02:10

M1的MacBook Pro已经上市三年了

2023-11-26 06:01:17

想看《备忘录 The Memo》

https://neodb.social/movie/1lE3hSp4oQ5Wc8fySnkgJH

2023-11-28 06:18:00

蛋炒饭抗议是一种网络抗议方式,于每年10月24日(毛岸英诞辰日)前后,又或11月25日(毛岸英的死亡日期)发生。 网民以张贴蛋炒饭食谱的方式,作为一种对毛岸英于朝鲜战争期间身亡的微妙讽刺;谣言称,毛岸英是因为做蛋炒饭生火把敌机引来,才牺牲的。

2023-11-28 08:44:30

白纸一周年过了,接下来还有防控新十条一周年、乙类乙管一周年

2023-11-28 09:03:23

大陆影人的作品在金马60拿下最佳剧情片、最佳原著剧本、最佳纪录片和最佳纪录短片奖,可谓创2019年以来的新纪录。

大陆导演兼编剧孙杰(作业本)自编自导的首部剧情片《大山来了》入围本届最佳新导演及最佳原著剧本奖,在最佳新导演奖败给《年少日记》香港导演卓亦谦,但《大》拿下最佳原著剧本奖。有指,孙杰本欲出席11月24日的新导演电影论坛,但金马网站突然宣布孙杰因“行程异动”无法参加。他未出席颁奖典礼,由友人代为领奖。

记录上海因冠病疫情封城的《备忘录》获得最佳纪录短片奖;最佳纪录片奖由大陆导演王兵聚焦童装工厂年轻工人的《青春(春)》,击败许鞍华、蔡明亮和赵德胤的作品夺得。

2023-11-29 03:15:00

想读《疫年纪事》

https://neodb.social/book/1UusbLJzXLOl1oBSOXk0q3

2023-11-29 13:50:14

《黑铁的鱼影》BD/DVD今日发行,大陆定档12/16

2023-11-30 02:19:41

ChatGPT发布一周年。

2023-11-30 13:07:46

魅族21太漂亮了

12月

2023-12-04 03:27:24

中国教育部今天在全国中小学举办了宪法晨读活动,直播信号来自 https://static.qspfw.moe.gov.cn/2023xfr/index.html 没有在CETV进行直播。

2023-12-04 11:38:38

五月天演唱会完全是听个氛围,一起边唱边跳。如果真有垫唱的情况完全可以理解,这个我觉得不算假唱,又不是直接拿CD音源来放 :0060:

2023-12-06 14:47:20

Pika 1.0就像是Midjourney v5发布时的效果

2023-12-06 16:01:37

Bard已经升级到Gemini Pro模型

2023-12-08 07:07:13

Grok的中文能力明显较差,逻辑能力也不怎么样,唯一亮点就是有X的实时搜索结果作为信源。

2023-12-09 14:33:06

这周二刷了疯狂动物城和飞屋环游记,有发现以前看的时候没注意的细节

2023-12-13 04:27:17

https://trends.google.com/trends/yis/2023/GLOBAL/

Google年度热搜榜

2023-12-13 16:33:46

https://blog.google/technology/ai/gemini-api-developers-cloud/

2023-12-14 09:14:47

再次感慨,AI一天,人间一年。

2023-12-15 05:21:04

happyrain的碳纤维伞肯定能上我的年度产品榜

2023-12-15 06:01:21

crisp这个在线客服工具甚至能看到用户的浏览器界面……

2023-12-15 06:32:48

doubao.com和ciciai.com是字节AI chatbot同一个产品的国内版和国际版……

2023-12-15 15:41:49

我只希望我的朋友们——无论是多年至交、已无联系的同窗还是萍水相逢的网友,能够不被这些眼光所裹挟,能够在自己的舒适区中实现精神的自洽和作为人的自由。

2023-12-16 18:28:26

《黑铁的鱼影》里竟然出现了deepfake的应用……反思人脸识别的过度使用

2023-12-17 15:41:59

https://www.fal.ai/camera

逆天了,输入人名,立即实时deepfake

2023-12-18 06:36:16

英国核废料储存设施被指泄露,多国关注核安全隐患 https://theinitium.com/zh-Hans/article/20231213-whatsnew-international-uk-sellafield

2023-12-19 06:52:32

Arc Browser的书签Folder分享功能不错,展示美观,适合公开发布。

2023-12-19 08:02:54

https://a16z.com/big-ideas-in-tech-2024/

2023-12-20 12:59:44

每次穿新衣服的第一天,吃饭必然会洒到衣服上 :0170:

2023-12-20 19:02:33

今年的很多数据都是在跟2019年对比,仿佛2019年就是去年。

2023-12-21 06:03:10

阿联酋教育部还做了个这:https://chat.milo.dev.digest.ai/

2023-12-21 15:04:53

#nowplaying 圣诞星 – 周杰伦&杨瑞代

https://y.qq.com/tl_live/client/liveroom_pc/index.html?showid=10000746&_wv=1

2023-12-23 15:55:46

哈雷彗星最近一次经过远日点的时间是在2023年12月9日。远日点是彗星轨道上离太阳最远的点,哈雷彗星在这次经过远日点时距离太阳大约是35.1天文单位。

(扫把星开始奔向地球,2061年见

2023-12-24 01:45:15

怎么还没有轻便好用日常能穿的风火轮鞋子

2023-12-25 04:28:09

电视剧里的角色用的是iPhone4,瞬间反应过来是十几年前拍的

2023-12-27 06:47:31

年终总结多到看不完了

2023-12-28 14:57:16

香港这几年的变化还不小

2023-12-31 14:38:45

刚才是一首什么奇怪版Queencard。。。

OpenAI DevDay Nov. 2023 观后

3月15日发布会上展示过的GPT-4视觉能力的API终于正式发布了,训练数据截止到2023年4月,可以说GPT-4 Vision & 128k context才是GPT-4的正式版形态。

DALL·E 3模型一并开放,与GPT-4配合,图文生成相得益彰。

目前GPT-4 Turbo和GPT-4 Vision都还是preview,模型代号分别为gpt-4-1106-preview和gpt-4-vision-preview;每个开发者账号每天的调用次数上限仅有200次(GPT-4 Turbo)和100次(GPT-4 Vision)。

很快就看到新的应用:有人用它来理解一段视频的所有关键帧,它可以快速理解视频的主要内容并能根据理解给出询问问题的结论。

具有真人语音效果的TTS-1模型也正式开放,一个可以听说读写画、具有人类所有知识的智能体诞生了,除了没有肉体和情感。

11/10补充:

GPTs,虽然这个idea今年2月在业界就有了,但OpenAI的产品实现也值得观察:通过自然语言提需求创建prompts应用,应用能力不仅是会话,还支持创建者上传自有的知识库、调用web browsing、dalle3和python沙盒,甚至可以配置与外部联动的自动化。可通过固定链接小范围传播(分享后有落地页),也可发布到GPT Store供他人使用,用户端也可以多模态输入。

闺蜜机使用体验

闺蜜机/随心屏这个品类,是LG standbyME设备在2022年创立的,可旋转可移动的27寸触摸屏,我觉得很适合作为家里的第二屏。今年几乎国内所有的电视厂商都推出了同类产品,几番对比之后,入手了小度旗下的添添闺蜜机。

虽然乍看就是个大号安卓平板,但实际体验之后,发现还是挺香的:

-类纸屏,不会有镜面反光,显示效果跟环境融入得很好,跟Samsung Serif和LG Pose这类画境电视很像。既可以用作相框,也适合用作实时信息屏。

-27寸的大小刚刚好,无论是放在卧室、书房,甚至拖到卫生间,都适合有一定距离的观看(如果是iPad Pro+支架,就感觉小了)

-小度的设备,本身也是个智能音箱,可以随时语音控制(还带了mesh网关,可惜家中的智能生态是Homekit,小度就只能用来控制它本机了),内置的音箱功率也不大,但外放效果还是比iPad Pro好上不少的,适合家中听歌看剧。

-机身内置的摄像头可以实现视频通话、远程监控家中情况的功能,但带了一个物理镜头盖,这个设计很棒,有时候简单直接更让人安心。

-竖过来可以当作AI健身镜,通过摄像头检测,屏幕会实时显示动作标准程度。另外,还内置了两款摄像头体感游戏,通过深蹲和挥手进行控制。

-送了两个蓝牙麦克风,配合全民K歌可以实现家中KTV。

-作为大平板,它能安装任何手机应用,手机端的视频VIP都能直接使用。它还能投屏和外接HDMI设备当显示器使用。

-不方便触摸操作时,小度app提供了远程控制和遥控器功能。

-系统桌面是小度dueros定制的,更适合这款设备,待机时的效果美观,不low(作为环境软装,这很重要)

再说说缺点:

-立柱端的支架不可调角度,有时候还是觉得屏幕探出来的距离有点占空间。

-画框中的相册照片没有标注哪些是动态的,不可排序,也不可远程更新,希望后续系统升级可以优化。

-6GB RAM还是有点小,现在的流媒体app都很占内存,滑动快了会卡。

-投屏还是乐播的方案,常见的应用投屏都没遇到问题,但手机端Youtube只能投屏出界面,视频流没有投屏成功。

-普通机顶盒可以正常接HDMI,但试了fire tv stick的HDMI信号不能正常显示。

其他使用场景:

1、浏览器访问墨香,大屏就变成读报机~

2、央视影音app挂着iPanda熊猫频道,0距离观察心上熊的生活~ 挂机陪伴类的直播都很适合,比如国际空间站看地球~

3、微信读书的语音听书,边听边看~

4、小红书的一些竖屏视频可以当作动态壁纸~

杭州亚运,直播怎么看

本届亚运会,官方转播权在央视,焦点比赛,CCTV5/5+/16会进行直播,16现在还有HD和4K两个台标版本。部分地区电信移动联通的IPTV盒子可能没有5+和16这两个频道,如果没找到,可以翻出当地广电的数字电视机顶盒试试。

移动端:央视频App、咪咕视频、抖音、腾讯视频/腾讯体育。跟此前奥运会大运会一样,移动端都可以切换多视角机位,或者是多赛同看。值得一提的是,抖音的直播无需开会员,直接无广告,切换顺滑,直播页面交互简单,体验非常好。更新到最新版本在抖音搜索“亚运”即可进入专题页面。

数据:亚运官方info站有来自BONAN的实时比分数据,同时也有赛程、场馆运动员资料等信息,可以查看完赛赛果、当前正在进行的所有赛事和即将开始的赛事,有PC/移动端自适应网页。另外,亚组委官方支付宝小程序“智能亚运一站通”的第二个tab“赛事通”,也有类似info站的信息,没有运动员资料,但有每场比赛的比分详情可视化图表,可以看到比分胶着的比赛,双方得分是交替上升的。

另外,腾讯视频的赛程表上可以查看单场赛事的实际开赛时间,并可直接进入视频直播。