Apple Intelligence论文阅读

以下内容基于AI总结后修改而来,供中文读者参考。

1. 简介

在2024年的苹果全球开发者大会上,苹果公司介绍了“Apple Intelligence”,这是一个集成于iOS 18、iPadOS 18和macOS Sequoia的个人智能系统。这个系统由多个强大的生成模型组成,这些模型经过优化,能够快速、高效地完成用户的日常任务,并根据当前活动即时适应。Apple Foundation Models(苹果基础模型,简称AFM)经过专门调整,能够在写作和优化文本、优先和总结通知、创建有趣的图像以及简化应用间的交互等用户体验中发挥作用。

Apple Intelligence 的设计始终贯彻苹果的核心价值观,并建立在业界领先的隐私保护基础之上。为了开发这些AI工具和模型,我们遵循以下负责任AI的原则:

  1. 为用户提供智能工具:识别AI的负责任使用场景,为用户提供特定需求的工具,同时尊重用户的使用选择。
  2. 真实地代表用户:构建能够真实代表全球用户的产品,努力避免在AI工具和模型中延续偏见和系统性问题。
  3. 小心设计:在设计、模型训练、功能开发和质量评估的每个阶段采取预防措施,以防止AI工具的误用或潜在危害,并不断根据用户反馈改进AI工具。
  4. 保护隐私:使用强大的设备端处理和创新基础设施如私有云计算,保护用户隐私,不使用用户的私人数据进行模型训练。

在本文中,我们将详细介绍两种模型的开发:适用于设备的约30亿参数的AFM-on-device模型和更大的基于服务器的AFM-server模型。这些模型是苹果为了支持用户和开发者开发的一系列生成模型的一部分。

2. 架构

AFM 基础模型是基于 Transformer 架构的密集解码器模型,具有以下设计选择:

  • 共享的输入/输出嵌入矩阵,用于减少参数的内存使用。
  • 采用预规范化(Pre-Normalization)和 RMSNorm,以提高训练稳定性。
  • 使用分组查询注意力(Grouped-query attention, GQA)来减少 KV 缓存的内存占用。
  • 采用 SwiGLU 激活函数,以提高效率。
  • 采用 RoPE 位置嵌入,基频设置为 500k,以支持长上下文处理。

AFM-on-device 的模型尺寸为:模型维度 3072、查询头数 24、键/值头数 8、层数 26,非嵌入参数数为 2.58B,嵌入参数数为 0.15B。

3. 预训练

3.1 数据

AFM 预训练数据集包括多种高质量的数据混合,这些数据包括:

  • 从出版商处获得的许可数据
  • 筛选过的公开数据集和开源数据集
  • Applebot 爬取的公开信息

所有数据均经过严格的去污和去除个人信息的处理,确保没有包含任何苹果用户的私人数据。

3.2 配置处理

AFM 预训练分为三个阶段:

  1. 核心预训练(Core Pre-training)
  2. 继续预训练(Continued Pre-training)
  3. 上下文扩展(Context Lengthening)

每个阶段均使用去耦权重衰减(decoupled weight decay)进行正则化,并采用 µParam(simple)来简化参数范数控制。

4. 后训练

在模型基础上进行的后训练阶段,我们进行了大量研究,以确保模型的通用能力,包括指令跟随和对话能力。我们采用了监督微调(SFT)和来自人类反馈的强化学习(RLHF)两种方法。引入了两种新的后训练算法:拒绝抽样微调算法和镜像下降策略优化算法。这些方法显著提升了模型质量。

4.1 数据

我们在后训练中采用了混合数据策略,包括人工注释和合成数据。人工注释包括演示数据和人类偏好反馈,而合成数据则由模型生成,用于增强数据质量和多样性。

4.1.1 人工注释

演示数据包含系统级和任务级的指令及其对应的响应,强调数据质量的重要性。人类偏好反馈则通过比较和排序两个模型响应来收集偏好标签,用于进一步改进模型。

4.1.2 合成数据

在某些领域,模型生成的响应质量能够与人工注释相媲美,甚至超越。因此,我们扩展了提示集合以增加多样性,并生成合成数据用于训练。

5. 支持苹果智能功能

苹果基础模型被设计用于支持iPhone、iPad和Mac上的苹果智能系统。我们使用LoRA适配器,以使基础模型能够动态地适应用户的日常任务。LoRA适配器是小型神经网络模块,可以插入基础模型的不同层中,以进行特定任务的微调。适配器的参数值使用16位表示,能够动态加载和切换,以有效管理内存和确保操作系统的响应速度。

5.1 适配器架构

LoRA适配器被用于所有的自注意力层和前馈网络层的线性投影矩阵中,只需微调适配器,保持基础模型的原始参数不变。这种方法既保留了模型的通用知识,又能支持特定任务。

5.2 优化

为了在边缘设备上高效地部署AFM模型并降低推理成本,我们应用了量化技术将权重的有效位数减少到4位以下,同时保持模型质量。为保持模型在特定领域的能力,我们开发了最先进的量化方法和框架,使得量化模型能够几乎无损地压缩,提供灵活的量化方案选择。

5.3 案例研究:摘要功能

我们利用AFM-on-device模型来实现电子邮件、消息和通知的摘要功能。虽然AFM-on-device在一般摘要任务上表现良好,但在严格符合规格方面存在困难。因此,我们对量化后的AFM-on-device模型进行了微调,生成高质量的摘要。

6. 评估

6.1 预训练评估

在预训练阶段,我们使用多个综合基准对AFM模型进行评估。核心预训练、继续预训练和长上下文预训练阶段均显著提高了模型在各种任务上的表现。特别是数学和代码模型的能力得到显著提升,尽管大部分基准表现变化在噪声范围内。

6.2 后训练评估

在后训练阶段,我们对未量化、量化和准确性恢复的模型进行了评估。实验结果显示,AFM-on-device模型在数学和语言理解等任务中表现优异,甚至超过了多个强大的开源和商用模型。尤其在写作、工具使用等任务上,AFM模型表现出色,与GPT-4等模型相媲美。

我们对AFM-on-device和AFM-server模型在各种指令跟随任务中进行了评估,这些任务涉及生成响应的长度、格式和内容等要求。结果表明,AFM模型在执行指令和一般指令跟随能力方面表现优异,超过了多个竞争模型。

7. 负责任的AI

7.1 概述

苹果智能的开发始终遵循负责任的AI原则,包括用户赋能、真实代表用户、谨慎设计和保护隐私。我们开发了一套安全分类体系,用于设计和评估我们的生成AI功能。这一分类体系覆盖了12个主要类别和51个子类别,包括仇恨言论、歧视、非法活动等。我们严格审查训练语料,确保不包含苹果用户的数据,并在推理过程中使用防护模型对输入和输出进行评估。

7.2 预训练

在预训练阶段,我们采取了多种措施确保模型的安全性,包括严格的数据政策、法律审查和安全过滤。我们避免过度过滤,以保持模型的通用能力,并为特定特征的政策迭代留有余地。

7.3 后训练

后训练阶段的目标是确保模型输出对用户有帮助,同时尽量减少潜在的危害。我们在训练数据中包括了对抗性数据,并通过监督微调和人类反馈的强化学习(RLHF)等方法提升模型的安全对齐能力。

结论

本文介绍了支持苹果智能功能的基础语言模型,包括AFM-on-device和AFM-server。这些模型旨在快速、有效地在iPhone、iPad和Mac等设备上运行,提供高质量的用户体验,如电子邮件、消息和通知的摘要。我们致力于在开发过程中贯彻负责任AI的原则,确保模型的安全性和用户隐私保护。

巴黎奥运,我这样看

央视频app:CCTV-5/5+/16/4K版16/4K/8K等多个频道直播信号在奥运会期间限时免费。另外央视频推出了9.9元15天VIP会员,切换频道想要免广告的话可以买一个。每天在“赛事中心”查看赛程,选择热点赛事进行预约,相当于加到了我关注的赛事列表,可在“我的预约”中查看所有关注的赛事时间和赛果。

奥运官网/app/小程序:查询赛中实时数据,运动员得分、排名等(https://olympics.com/zh/paris-2024/schedule),数据更新比直播信号快

微信浮窗:腾讯体育赛程(https://m.sports.qq.com/sports-event/h5-olympics-schedule.htm?competitionId=180000)、奖牌榜(https://m.sports.qq.com/sports-event/h5-medal-rank.htm?competitionId=180000)、一篇每日看点(来自人民日报)、一篇每日金牌赛日程(来自上海发布)

咪咕视频app:支持多角度信号同屏播放。

腾讯体育app:查看赛程、奖牌榜。

aoyo.ai:使用AI获取最新信息,并解答关于比赛规则、赛果、数据统计等的问题。

微信和抖音的”奥运会“搜索结果:随时获取最新资讯。

WWDC 2024 观后

新的操作系统,记录一些印象深刻的功能点,以此来观察Apple今年的软件升级方向:

iOS 18 / iPadOS 18

-控制中心改版,可全屏滑动切换页面,比如切换到媒体控制页、Home页、通信功能控制页

-新的Passwords App,统一管理所有密码

-手写计算器,在iPad备忘录中手写数学算式,画个等号或者横线,可直接计算出结果

-基于Apple Intelligence的全新Siri,支持双击Home Indicator打字与Siri沟通

macOS 15 Sequoia

-iPhone镜像,连续互通功能家族又新增成员,看演示几乎无延迟,对齐安卓阵营的多屏协同

-窗口Snapping,拖动窗口贴边即可快捷分屏

-新的Passwords App,统一管理所有密码

-Game Porting Toolkit 2,使得大量PC端游能更快移植,育碧11月发售的《刺客信条影》将同步发售macOS版本

-基于Apple Intelligence的全新Siri

watchOS 11

-新的Vitals应用程序和Training Load功能

-仅支持Apple Watch S6及以后的设备,经典的S4和基于S4的SE系统升级将截止到watchOS 10.6了

visionOS 2

-支持无线方式接入MacBook,在前方展示一个4K大屏幕,后续将可以拓展成更巨大的带鱼屏

tvOS 18

-支持21:9投屏

Audio&Home

-AirPods支持了点头、摇头交互,当腾不开手的时候来电,可以点头接电话,摇头拒接

Apple Intelligence

-Siri全局新UI,能结合个人数据和当前屏幕内容进行回答

-本地大模型+私人云服务线上大模型,线上不存储个人数据

-Keynote用了最后40分钟来讲Apple智能,分别通过功能、技术架构、应用体验三个部分做了介绍

-很多跨app的操作,后续第三方应用开发者适配后,都能张张嘴快速完成,省去点点点的很多步

-现在仅支持英语,中文支持日期没有公布

生成式AI大模型动态周报

周报源自得效团队博客,自2023年1月底创刊,2024年1月起更名为《生成式AI大模型动态周报》,主要关注主流生成式AI大模型的技术与产品动态。

issue46 2023.12.11-12.17

智谱AI近日提出了可解释、可扩展的文本质量评价模型CritiqueLLM,该模型可以针对各类指令遵循任务上大模型的生成结果提供高质量的评价分数和评价解释。评价结果显示,在各项任务上660亿参数的CritiqueLLM与人工评分的相关系数均超过ChatGPT,达到和GPT-4相当的水平。尤其是在具有挑战性的无参考文本设定下,CritiqueLLM能够在3项任务(包括综合问答、文本写作和中文理解)上超过GPT-4,达到目前最优的评价性能。

理想汽车微信公众号发文,在理想汽车智能软件发布会上,该公司发布了全自研多模态认知大模型Mind GPT,该模型围绕车载场景打造,拥有理解、生成、知识记忆及推理能力。据介绍,Mind GPT基于理想同学的重点场景,量身定制了覆盖111个领域、超过1000种以上的专属能力,基于该模型的AI理想同学将以邀请内测形式面向用户逐步开放。

AI创企Runway于官网宣布开展围绕通用世界模型(General World Models)的长期研究工作,目标是表现和模拟与现实世界中一致的广泛的互动。Runway称,其目前的Gen-2等视频生成系统可以看作是非常早期的通用世界模型,对物理和运动有一定的了解,但在处理复杂的摄像机或物体运动等问题上仍有困难。为了建立通用的世界模型,Runway正在进行几项公开的研究,包括生成环境地图,在环境中导航和交互,捕捉世界和世界中居民的动态,建立逼真的人类行为模型等。

12日凌晨,李飞飞的斯坦福团队与谷歌联合发布用于生成逼真视频的扩散模型W.A.L.T,基于Transformer训练而成,支持文生视频、图生视频和3D摄像机运动。据介绍,该方法有两个关键的设计,一是使用因果编码器,在统一的潜空间内联合压缩图像和视频,从而实现跨模态的训练和生成;二是为了提高记忆和训练效率,使用了为空间和时空联合生成建模量身定制的窗口注意力架构。最后,团队针对文本到视频的生成任务训练了由三个模型组成的级联,包括一个基本潜在视频扩散模型和两个视频超分辨率扩散模型,能够以每秒8帧的速度生成分辨率为512*896的视频。

12月13日,国际顶刊《自然》(Nature)公布2023年度最具影响力科学家10人名单,其中OpenAI首席科学家伊利亚·苏特斯科夫(Ilya Sutskever)作为“AI梦想家”入选,因为他在ChatGPT的开发中发挥了核心作用,同时关心AI的安全和未来。此外,ChatGPT作为非人类首次入选,旨在承认它在模仿人类语言的AI在科学发展和进步中所发挥的作用。

谷歌宣布大模型Gemini Pro现已推出API(应用程序接口),目前支持32k上下文窗口,在一定限制内可免费使用,具有函数调用、嵌入、语义检索和自定义知识基础以及聊天功能,支持全球180多个国家和地区、38种语言,支持文本、图像输入和文本输出,提供SDK(软件开发工具包)。用户现在可在在线免费开发者工具Google AI Studio、云托管AI平台Vertex AI上使用该模型。定价方面,免费版本支持每分钟最多60个请求,但输入输出数据将被用于改善谷歌的模型。

谷歌宣布在Vertex AI托管平台中推出新的文生图模型Imagen 2、医疗保健行业模型MedLM,还全面推出面向开发者的代码工具Duet AI。Imagen 2支持自然语言生成高分辨率的逼真图像、生成Logo以及视觉对话。Imagen 2还推出了文本渲染支持,可以在图像上生成准确的文字,此前只有OpenAI的DALL-E 3支持该功能。Imagen 2支持英语、中文、印地语、日语、韩语、葡萄牙语、西班牙语7种语言,包含内置安全预防措施,集成数字水印服务。

Meta生成式AI副总裁Ahmad Al-Dahle于社交平台Threads宣布,Instagram现已推出AI图像背景编辑工具,可通过自然语言为图像一键生成并更换背景。

12月14日,文心一言插件商城正式上线,商城集合众多高质量插件,覆盖办公提效、多模态内容理解生成、专业信息查询等许多实用场景,用户只需通过简单指令,即可实现PPT生成、音视频提取、思维导图制作等多场景多模态下的需求,实现“指令即服务”的便捷体验。开发者也可以根据需求,自己亲自设计插件。

12月14日,Stability AI推出从单张图像生成3D对象的模型Stable Zero123。该模型基于Stable Diffusion 1.5建立,面向非商业和研究用途开源模型权重,与上一代Zero123-XL相比,训练效率提升了40倍。

当地时间周四,英特尔在纽约举行“AI Everywhere”活动,正式推出代号为Meteor Lake的新型酷睿Ultra处理器。该处理器专为支持AI技术所设计,内置AI加速引擎,可更快地运行AI程序。酷睿Ultra处理器有三种不同的配置,分别是酷睿Ultra 5、酷睿Ultra 7和酷睿Ultra 9。英特尔称,与AMD Ryzen 7 7840U、高通骁龙8cx Gen 3和苹果自研M3芯片等笔记本电脑处理器相比,酷睿Ultra 7 165H芯片的多线程性能提高了11%。与之前的英特尔酷睿i7-1370P相比,它的功耗降低了25%,比AMD的Ryzen 7 7840U的功耗降低了79%。英特尔的所有新CPU还将配备NPU,即神经处理单元,提供“低功耗AI加速和CPU/GPU卸载”,能够执行AI驱动的任务,如背景模糊、眼动追踪和图片框架等。

issue47 2023.12.18-12.24

微软于官网宣布在最新的Visual Studio预览版中,向GitHub Copilot Chat订阅用户推出AI驱动的变量、方法和类命名建议新功能。据介绍,该功能不仅能提供名称建议,还能了解标识符的使用方式和代码风格,从而提出与代码库无缝匹配的标识符,帮助用户提高代码的可读性和可维护性,确保代码在未来数年内的使用寿命和易懂性。

12月19日,百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API(应用程序接口),包含Baichuan2-Turbo-192K及Baichuan2-Turbo。在支持192K超长上下文窗口的基础上,还增加了搜索增强知识库的能力。即日起,API用户可上传文本资料来创建自身专属知识库,从而根据自身业务需求打造更完整、高效的智能解决方案。此外,百川智能还升级了官网模型体验,目前其官网大模型已支持PDF、Word等多种文本上传以及URL网址输入,用户可通过官网入口体验搜索增强和长窗口加持后的通用智能。

12月20日,谷歌于官网宣布将AI代码辅助功能扩展到所有Colab用户,包括免费用户,现已在175个地区推出。Colab是谷歌提供的一个在线工作平台,可以免费使用GPU进行深度学习,支持Jupyter Notebook和代码执行程序。

比尔盖茨发布年度展望博客,其中谈道:“如果让我做个预测,在美国这样的高收入国家,我猜离普通民众大量使用AI还有18-24个月的时间。而在非洲国家,我预计在3年左右的时间里,AI的使用就会达到相当的水平。这仍然是一个差距,但比我们在其他创新中看到的滞后时间要短得多。”他还提到,希望AI在抗生素药物、个性化教育、高危妊娠治疗、艾滋病风险评估、医疗信息获取等方面能够得到更广泛的应用。

12月22日,在全国信息技术标准化技术委员会AI分委会全体会议上,国内首个官方“大模型标准符合性评测”结果公布,阿里云通义千问、百度文心大模型、腾讯混元大模型、360智脑大模型首批通过评测,在通用性、智能性等维度均达到国家相关标准要求。

昆仑万维AI Agents开发平台“天工SkyAgents”Beta版正式开放测试。据介绍,天工SkyAgents开发平台基于昆仑万维“天工大模型”打造,具备从感知到决策,从决策到执行的自主学习和独立思考能力。用户可以通过自然语言构建自己的单个或多个“私人助理”,并能将不同任务模块化,通过操作系统模块的方式,实现执行包括问题预设、指定回复、知识库创建与检索、意图识别、文本提取、http请求等任务。

issue48 2023.12.25-12.31

12月24日,OpenAI CEO萨姆·阿尔特曼(Sam Altman)于社交平台X上发帖询问网友对于OpenAI明年应该建设或修复哪些功能的建议,随后他总结了一些常见的请求,包括AGI、GPT-5、更好的语音模式、更高的速率限制、更好的GPTs、更好的推理、控制行为的程度、视频功能、个性化、更好的浏览、使用OpenAI登录、开源等。其中,他在AGI后面标注“请耐心等待”,并称“对于AGI的请求比预期多得多,但很抱歉,我认为我们无法在2024年实现这一目标”,他还提到将“尽可能满足这些需求,以及许多其他未被网友提及、但令OpenAI团队自己感到兴奋的功能”。

AI创企Pika于社交平台X宣布面向所有用户开放旗下视频生成平台Pika 1.0网页端访问权限。据悉,Pika成立于2023年4月,创始人郭文景(Demi Guo)和Chenlin Meng都是斯坦福博士。Pika 1.0不仅能根据文字、图片或视频风格生成三维动画、动漫、卡通和电影等不同风格的视频,还能对视频局部进行编辑。

Kimi Chat发布v1.2版本,模型更新至moonshot-v1-20231225,平均输出长度提升;在联网模式下,首字回复的速度大幅提升;实现了从扫描件(文档、合同、白板等)提取文字的功能,目前已支持PDF格式的扫描文件上传解析。交互方面,Kimi Chat推出小程序“Kimi智能助手”,网页端上线浅色模式。

有网友发现,微软已于一周前悄然推出安卓版Copilot应用程序,用户可从Google Play商店下载。应用程序描述显示,Copilot由最新的OpenAI模型、GPT-4和DALL·E 3提供支持,这些先进的AI技术提供快速、复杂和精确的响应,并且免费。截至目前,微软暂未推出iOS版Copilot。

12月26日,2023联想天禧AI生态伙伴大会在北京召开。会上,联想集团副总裁、中国区消费业务群总经理张华发布了联想天禧AI生态“四端一体”战略。“四端”分别指的AI PC、AI平板、AI手机和AIoT四类终端设备,“一体”则有两层含义,一方面指的是承接用户个人助理任务的个人智能体,另一方面也意味着个人智能体穿梭于四类AI终端,使其融为一体。同时,联想的AI个人智能体“小乐同学”首次亮相,并面向广大生态开发者伙伴启动智能体小程序招募计划。

微信宣布将于2024年1月11日在广州举办2024微信公开课PRO,将发布产品能力、展示价值理念、沟通生态伙伴、凝聚行业共识。2024微信公开课PRO期间,小游戏、微信AI等也将悉数登场,带来多项能力升级与案例分享。

韩国文化部宣布将不对AI生成的内容进行版权登记,从法律上不承认此类内容的创造性。文化部补充说,只有那些明显传达人类思想和情感的作品才有可能进行版权登记。这一决定将很快在面向AI企业、版权持有者和用户的“AI版权指南”中公布,指南还规定,AI企业需要向版权持有者提供公平的补偿,以确保其产品的使用权,建议版权持有者明确表达其意图或采取技术措施,以防止其创作被用于AI研究。

issue49 2024.1.1-2024.1.7

外媒The Information发文总结2023年最难忘的10个AI时刻,包括OpenAI与微软伙伴关系继续、Meta Llama改变赛况、GPT-4发布、3万多人联名呼吁暂停AI模型训练、AI Agent兴起、美国总统拜登的AI行政命令与欧盟AI法案、GitHub Copilot付费用户超过100万、多模态兴起、OpenAI CEO萨姆·阿尔特曼(Sam Altman)的感恩节压力、等待谷歌Gemini。

中文大模型测评基准SuperCLUE发布《中文大模型基准测评2023年度报告》,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告包括国内大模型关键进展、测评体系、方法说明、大模型综合测评结果、SuperCLUE2.0升级、四大维度测评分析及示例介绍以及优秀模型案例介绍等内容。

据Windows Central报道,微软正在对其Surface产品线进行重大更新。Surface Pro和Surface Laptop都将首次提供英特尔和Arm版本,并且都将配备下一代NPU(神经处理单元)芯片。这些代号为CADMUS的PC将被设计用来运行微软正在打包到未来版本Windows中的AI功能。新设备将在春季发布,并将作为微软首款真正的AI PC推向市场。

美图公司自研AI视觉大模型MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案,将面向公众开放。在当前通过备案的国内大模型当中,MiracleVision(奇想智能)是唯一专注视觉领域的大模型,也是福建省唯一通过备案的大模型。

1月2日,调研机构WriterBuddy发布一项新调查,通过使用SEO行业知名工具SEMrush研究3000多种AI工具,其筛选出2022年9月至2023年8月访问量最大的50款工具,这些AI工具吸引了超过240亿次访问量。其中,ChatGPT以140亿次访问量位居第一, 占分析流量的60%以上。AI聊天机器人类工具最受欢迎,访问量达到191亿次。

对话式搜索引擎创企Perplexity AI的CEO Aravind Srinivas在社交平台X上公开回应有关竞争不过搜索引擎大厂谷歌的质疑,称Perplexity存在的原因是通过更少的关键字查询、筛选、链接点击、页面浏览,提高搜索效率和信息访问效率;直接找到问题根源,然后用一个简洁、清晰、个性化的答案,便于人们做出决定,这与谷歌的财务和商业目标是不一致的。

1月3日消息,据日经亚洲报道,日本相机“三巨头”尼康、索尼和佳能即将推出新技术,让照片的来源变得更容易验证。该技术允许摄影师通过相机本身嵌入数字签名,包含摄影师姓名、拍摄日期、时间和地点等信息,然后通过一个名为Verify的免费网络应用程序进行认证,该应用程序由媒体机构、相机制造商和科技公司组成的全球联盟推出。

1月4日,AI搜索引擎aoyo.ai在ProductHunt发布,称可用母语搜索全网内容并总结,其首个版本支持英语、中文、日语、西班牙语。

钉钉联合国际知名咨询机构IDC发布首份《2024 AIGC应用层十大趋势白皮书》。随着AIGC技术的发展,智能化应用将呈现爆发式增长,IDC预测,到2024年全球将涌现出超过5亿个新应用,这相当于过去40年间出现的应用数总和。根据《白皮书》,2024年AIGC应用的十大趋势关键词涵盖应用层创新、AI Agent、专属模型、超级入口、多模态、AI原生应用、AI工具化、AI普惠化。

网易有道发布子曰教育大模型的2.0升级、虚拟人口语教练Hi Echo的2.0升级,同时发布了有道速读、全新AI家庭教师应用小P老师以及新一代AI学习机X10。据介绍,小P老师能够回答语文、数学、英语、生物、历史等10个学科的问题,支持拍照、语音、文本输入,并将首次落地学习机X10。新一代AI学习机X10首创学习机、学练机和学生专属电脑三合一模式,覆盖全学科、学段,提供墨水屏模式模拟纸质学习场景,内置编程软件、WPS等应用,学习机内的小P老师、Hi Echo等应用终身免费且持续升级。

科技部于12月21日发布《负责任研究行为规范指引(2023)》,其中提到科研人员在申报研究项目材料时,不得使用生成式AI直接生成申报材料,应依规合理使用生成式AI处理文字、数据或学术图像,防范伪造、篡改数据等风险。在文献引用方面,使用生成式AI生成的内容应明确标注并说明其生成过程,对其他作者已标注为AI生成内容的,一般不应作为原始文献引用。成果署名方面,生成式AI不得列为成果共同完成人,应在研究方法或附录等相关位置披露使用生成式AI的主要方式和细节。学术出版单位应应要求作者披露是否使用生成式AI,提醒审稿人在审稿过程中使用生成式AI应依规谨慎。

deepin(深度)操作系统于官网发文,宣布近日推出了一款“看图AI插件”,用户在安装后即可在设备端体验8种AI修图功能,分别是图像上色、提升分辨率、模糊背景、删除背景、手绘漫画、2D漫画、3D漫画、素描。这些功能不依赖于互联网在线模型,也不受制于算力的硬件约束,在PC单机上可轻松运行。

微软将其安卓和iOS平台的移动浏览器应用名称从“微软Edge”改为了“微软Edge:AI浏览器”,强调了其目前最重视的AI领域。除了新的名字,该浏览器在介绍中也宣传了新的AI功能,如DALL-E 3图像生成器、Copilot文章摘要、图像识别等,还强调了对GPT-4的支持。

issue50 2024.1.8-1.14

近日,清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent的CogAgent,CogAgent 是一个通用的视觉理解大模型,具备视觉问答、视觉定位、GUI Agent 等多种能力,可接受 1120×1120 的高分辨率图像输入。在 9 个经典的图像理解榜单上取得了通用能力第一的成绩,并在涵盖电脑、手机的 GUI Agent 数据集上,大幅超过基于 LLM 的 Agent,取得第一。目前团队已将 CogAgent-18B 开源至 GitHub 仓库,并提供了网页版 Demo。CogAgent 的模型结构基于 CogVLM。

美团、浙大等推出了能够在移动端部署的多模态大模型MobileVLM,包含了 LLM 基座训练、SFT、VLM 全流程。MobileVLM 是一款专为移动设备设计的快速、强大和开放的视觉语言助手。它结合了面向移动设备的架构设计和技术,包括从头开始训练的 1.4B 和 2.7B 参数的语言模型、以 CLIP 方式预训练的多模态视觉模型,以及通过投影实现的高效跨模态交互。在各种视觉语言基准测试中,MobileVLM 的性能可媲美大型模型。

issue51 2024.1.15-1.21

1月16日,智谱AI 在DevDay上发布了新一代基座大模型GLM-4,定制化的个人GLM大模型GLMs和GLM Store。与上一代ChatGLM3相比,GLM-4在综合能力上实现了全面跃升,性能提升了60%,已经逼近GPT-4。它具备更强的多模态功能,支持更快的推理,更多并发,推理成本大大降低。同时,GLM-4也增强了智能体能力。GLM-4带来128K的上下文窗口长度,也就意味着,在单次提示词中,可处理文本达到了300页。GLM-4的文生图和多模态理解都得到增强。

同日,智谱还推出CogView3,效果明显超过开源最佳的Stable Diffusion XL,逼近DALL·E 3。相对之前,CogView3的语义理解能力都得到大大增强。

1月15日,微软宣布推出个人版Copilot Pro订阅服务,每月20美元,可以使用Office AI功能,目前在美国、英国、法国、德国等地可用,后续还将扩大可用地区。这意味着个人用户也可以开始使用AI驱动的Office功能,其中包括使用Office软件的AI功能、优先访问最新的OpenAI模型、甚至构建自己的Copilot GPT。

1月17日,上海人工智能实验室与商汤科技联合香港中文大学、复旦大学发布新一代大语言模型书生·浦语2.0(InternLM2)。这个大模型包含70亿和200亿两种参数规格,以及基座、对话等版本,向全社会开源并提供免费商用授权。InternLM2能够一次性处理约30万汉字的输入内容,从中准确提取关键信息,实现对长文本的“大海捞针”。

issue52 2024.1.22-1.28

1月25日,OpenAI发布了一系列重磅大模型更新,连发了五个新模型以及新的API使用管理工具。包括:新的GPT-3.5 Turbo模型,输入价格暴降50%,输出价格降低25%,同时修复各种BUG,回应准确性更高;新的GPT-4 Turbo Preview模型,生成代码能力更强,模型“变懒”情况减少,修复各种BUG;新的小型文本嵌入模型text-embedding-3-small,性能小幅提升,价格降至上代的五分之一;新的大型文本嵌入模型text-embedding-3-large,性能强,可创建多达3072维的嵌入,部分测试性能提升70%以上,价格略贵。同时,OpenAI还直接让开发者在略微损失精度的情况下缩短嵌入,实现性能和成本的平衡;新的审查模型text-moderation-007,OpenAI将其称之为“迄今为止最强大的审查模型”。

1月25日,谷歌研发出全新的时空扩散模型 Lumiere(法语,启蒙者),几乎集齐了常见AI视频生成和编辑功能,也是先进的视频生成器。Lumiere 会根据用户自然语言提示,创造出非常逼真(高质量超现实主义)视频,时间长达五秒。模型的图片到视频功能可以根据用户提示,让静止的图像动起来。谷歌研究人员在 Lumiere 中引入了一种“时空 U-Net 架构” Space-Time U-Net(STUNet),一次构建了整个视频长度, 能够学习将视频信号在空间和时间上同时进行下采样和上采样,并在网络的压缩空间时间表征上执行主要计算。

1月26日,阿里云公布多模态大模型研究进展。通义千问视觉理解模型Qwen-VL再次升级,继Plus版本之后,再次推出Max版本,升级版模型拥有更强的视觉推理能力和中文理解能力,能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩,比肩OpenAI的GPT-4V和谷歌的Gemini Ultra。相比Qwen-VL,Qwen-VL-Plus和Qwen-VL-Max拥有更强的视觉推理和中文理解能力,整体性能堪比GPT-4V和Gemini Ultra。

issue53 2024.1.29-2.4

1月30日,科大讯飞升级了讯飞星火大模型。讯飞星火V3.5除了七大能力全面提升,整体能力接近GPT-4,还特别在语言理解、数学等能力上实现超越。技术方面,讯飞的语音大模型将更多语音表征解耦,融入到大模型预训练中。在多语种识别中,在首批37个主流语种效果超过OpenAI Whisper 3。并且在多语种语音生成、超拟人语音生成上,也有一定的提升。目前语音大模型已经向开发者完全开放,并且首发搭载在讯飞翻译机上面。

Midjourney二次元模型Niji-Journey V6上线,能把控日漫欧美动漫风格,甚至图中还能生成字体,输入/settings,然后点击Niji Model 6就可以在任何discord机器人上打开使用。目前,Niji V6还在内测中,预计在2月底正式推出,并将带来Vary、Pan、Zoom等特色功能。

2月2日,谷歌官方宣布:在最新版Gemini Pro的加持下,Bard不仅获得了推理、理解、总结、编码能力的迅速飞升,而且还能支持230多个国家的40多种语言。为了负责任生成,Bard生成的图像都将由SynthID进行标记。SynthID是谷歌DeepMind开发的一种水印工具,可将数字水印直接嵌入到我们生成的图像的像素中。SynthID的水印人眼无法察觉,但可检测以进行识别。

2月2日,欧盟27国代表投票一致支持《人工智能法案》文本,标志欧盟向立法监管人工智能迈出重要一步。法案要求所有通用人工智能模型遵守透明度义务,同意严格限制面部识别等技术的应用,禁止对人类安全造成“不可接受风险”的人工智能系统。

issue54 2024.2.5-2.11

2月6日,通义千问大模型(Qwen)的 1.5 版上线了。新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最强版本的性能超越了 GPT 3.5、Mistral-Medium,包括 Base 模型和 Chat 模型,且有多语言支持。Qwen 1.5 支持 32K 上下文长度;开放了 Base + Chat 模型的 checkpoint;可与 Transformers 一起本地运行;同时发布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 权重。本次更新着重提升了 Chat 模型与人类偏好的对齐程度,并且显著增强了模型的多语言处理能力。

2月8日,谷歌宣布大模型体系全面进入了 Gemini 时代,并带来最新的 Gemini Ultra 模型。Gemini Ultra 1.0 是第一个在 MMLU(大规模多任务语言理解)超越人类专家的 AI 模型,结合了 57 个科目,包括数学、物理、历史、法律、医学和伦理学,用来测试大模型知识和解决问题能力的基准。谷歌官宣四项AI新进展:大模型版本Gemini Ultra 1.0全面开放;聊天机器人Bard正式官宣改名为Gemini;安卓版新“Gemini”应用程序上线;全套办公工具Google Workspace、谷歌云中的所有AI协作工具Duet AI也改名为Gemini。

issue55 2024.2.12-2.18

2月16日, OpenAI发布视频生成模型Sora,称构建了一个“物理世界的通用模拟器”。它是一种通用的视觉数据模型,能够生成各种持续时间、宽高比和分辨率的视频和图片,甚至长达一分钟的高清视频。Sora是一种基于Transformer架构的扩散模型,有很强的扩展性,从噪声开始,能够一次生成整个视频或扩展视频的长度,一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。不同于LLM使用的文本token,Sora使用的是视觉patch。还采用了DALL·E 3中的重新标注技术,应用在了视频上。目前Sora根据图像和文本提示生成视频,已经能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。

2月14日,作为测试的一部分,OpenAI 开始为一小部分 ChatGPT 免费和付费用户推出新的“记忆”功能,并在未来进行大规模的推广。该功能可让用户明确告诉 ChatGPT 记住某些内容或者用户查看它记住了什么。ChatGPT 的记忆功能完全由用户掌控,也可以随时关闭这种功能。ChatGPT 的记忆会随着互动而演变,并且与特定对话无关。删除聊天记录并不会消除其记忆,必须删除记忆本身。

issue56 2024.2.19-2.25

2月21日,谷歌宣布推出全新开源模型Gemma,拉丁语中意为“宝石”。Gemma 是先进的轻量级开放模型系列,采用了与创建Gemini模型相同的研究和技术。本次,谷歌发布了Gemma的两个版本:Gemma 2B(20亿参数)和Gemma 7B(70亿参数)。每种规模都提供了预训练和指令微调版本。当前,Gemma 2B和7B允许所有组织(无论规模大小)负责任地进行商用和分发。

MWC2024 将于 2 月 26 日至 29 日在西班牙巴塞罗那举行,联想集团将推出最新的人工智能设备和基础设施及解决方案组合,并展示两款挑战传统个人电脑和智能手机外形的新概念产品。秉承AI for All的愿景,联想集团将在 MWC 上推出多款全新 AI PC 和边缘计算解决方案,加速促进该技术在 2024 和 2025 年成为主流,混合人工智能的趋势将刺激 AI PC 和 AI Phone 的需求,并推动新的行业更新周期。

issue57 2024.2.26-3.3

2月26日,谷歌团队发布110亿参数Genie精灵。Genie是一种全新的生成式AI范式,仅凭一张图像,就能创造出互动性强、可玩的环境,创造出可玩的虚拟世界,动作可控碾压Sora。Genie学习了20万小时的未标注互联网视频,主要包括2D平台游戏和机器人领域的视频,无需监督即可训练。无需任何动作标注,便可以确定谁是主角,并让用户能够在生成的世界中对其控制。Genie是通过潜动作模型、视频分词器,以及自回归动态模型三大核心组件来实现的。

2月27日,开源社区Mistral AI发布旗舰模型Mistral Large(不开源),具备卓越的逻辑推理能力,能够处理包括文本理解、转换以及代码生成在内的复杂多语言任务。在主流基准测试中,Mistral Large,成绩仅次于GPT-4。Mistral Large能够母语般流利地使用英语、法语、西班牙语、德语和意大利语,深刻理解各自的语法规则和文化背景;能够处理32K Token的上下文内容;在执行具体指令方面异常精准;支持函数调用。目前,这个新旗舰模型仅在Azure AI和Mistral AI平台上可用。其中,在Azure AI上的定价如下:输出为0.024美元/1000 token,输入为0.008美元/1000 token。

issue58 2024.3.4-3.10

3月5日,Anthropic发布了最新的Claude 3系列模型,在多模态和语言能力指标上,包括推理、数学、编码、多语言理解和视觉方面,碾压GPT-4。本次发了三个模型Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus,能力依次从低到高,都将至少支持20万token的上下文窗口,都能处理超过100万token的输入。目前,Opus和Sonnet已经可以在claude.ai以及覆盖159个国家的Claude API上使用了。Haiku模型也将很快推出。

3月10日,Pika发布了一项Sound Effects新功能,可以给视频无缝生成音效。Pika给视频生成音效的操作简单。相比于此前生成视频的操作,现在只需开启下方“Sound effects”按钮即可。或者在生成了视频过后,点击下方的“Edit”,再选择“Sound Effects”单独给它配音。Sound Effects功能目前只对超级合作者(Super Collaborator)和Pro用户开放测试。

issue59 2024.3.11-3.17

3月14日,国内的大模型独角兽公司零一万物正式发布了 Yi 大模型 API 开放平台。此次 API 开放平台提供以下模型:Yi-34B-Chat-0205:支持通用聊天、问答、对话、写作、翻译等功能。Yi-34B-Chat-200K:200K 上下文,多文档阅读理解、超长知识库构建小能手。Yi-VL-Plus: 多模态模型,支持文本、视觉多模态输入,中文图表体验超过 GPT-4V。

3月15日,苹果正式公布自家的多模态大模型MM1系列,具有 30B 参数,参数最高可达 300 亿。它由密集模型和混合专家(MoE)变体组成,不仅在预训练指标中实现 SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。

3月17日,xA官方开源Grok-1,一个3140亿参数的8个MoE混合专家模型。代码和模型权重已上线GitHub,模型的权重文件则是以磁力链接的形式提供,文件大小接近300GB。开源的是2023年10月预训练阶段的原始基础模型,没有针对任何特定应用进行微调。Grok-1选用了Rust编程语言以及深度学习框架新秀JAX。

issue60 2024.3.18-3.24

3月18日,月之暗面将自家模型的上下文窗口提升了一个数量级,从发布之初的20万字,拓展到200万字。该版本在Kimi上开启内测,并且在与Kimi对话过程中,加入了(不打断模型思路的)“继续”功能按钮。同时,相同成本、相同设备情况下,模型响应速度提升了3倍左右。月之暗面还提出了“Kimi 10分钟速成定律”,即无关领域大众小众,也无关资料或多或少,只要把资料一股脑丢给模型,10分钟内,Kimi都能快速入门一个新领域。此外, Kimi Chat改名为Kimi智能助手,Moonshot大模型改名为Kimi大模型。

AI初创公司Suno AI重磅推出了一款音乐生成模型V3。仅用几秒的时间,V3便可以创作出2分钟的完整歌曲。现在已经向所有用户免费开放。相比与之前的版本,v3生成的音乐质量更高,而且能制作各种各样的风格和流派的音乐和歌曲。提示词的连贯性也有了大幅提升,歌曲结尾的质量也获得了极大的提高。为了激发人们的创作灵感,Suno v3还新增了更丰富的音乐风格和流派选项,比如古典音乐、爵士乐、Hiphop、电子等新潮曲风。

3月18日,Colossal-AI团队全面开源了类Sora架构视频生成模型Open-Sora 1.0,涵盖了关于文生视频的整个训练流程,包括数据处理、所有训练细节和模型权重,1万美元64块GPU复现,训练成本直降46%。模型采用了目前火热的Diffusion Transformer(DiT)架构。整个架构包括一个预训练好的VAE,一个文本编码器,和一个利用空间-时间注意力机制的STDiT(Spatial Temporal Diffusion Transformer)模型。Open-Sora的复现方案参考了Stable Video Diffusion(SVD)工作,共包括三个阶段,分别是:大规模图像预训练;大规模视频预训练;高质量视频数据微调。

3月19日,Stability AI 推出3D 视频生成大模型Stable Video 3D(简称 SV3D)。该模型基于 Stable Video Diffusion 打造,能够显著提升 3D 生成的质量和多视角一致性,效果要优于之前 Stability AI 推出的 Stable Zero123 以及丰田研究院和哥伦比亚大学联合开源的 Zero123-XL。目前,Stable Video 3D 既支持商用,需要加入 Stability AI 会员(Membership);也支持非商用,用户在 Hugging Face 上下载模型权重即可。

3月22日,百度升级了大模型应用开发神器百度千帆AppBuilder。它开放了55个工具组件,包括大模型组件、AI组件、搜索组件、第三个API工具等。能让企业或个人零门槛开发各种场景下的Agent应用。同时,百度大模型也上新了,一共5个,主打轻量化、性价比、实际场景:ERNIE Speed,ERNIE Lite,ERNIE Tiny,ERNIE Character,ERNIE Functions。

issue61 2024.3.25-3.31

3月29日,人工智能独角兽AI21 Labs推出并开源了Jamba,在多个基准上超越了 transformer。Jamba 将基于结构化状态空间模型 (SSM) 的 Mamba 模型与 transformer 架构相结合,是基于全新SSM-Transformer混合架构的52B生产级Mamba模型,与Mixtral 8x7B相比,长文本处理吞吐量提高了3倍;实现了256K超长上下文窗口;是同等规模中,能在单张GPU上处理140K上下文的模型;以Apache 2.0开源许可协议发布,开放权重。

3月29日,xAI升级推出Grok-1.5模型,数学和代码能力大幅提升,支持128k长上下文。Grok-1.5能够在其上下文窗口内处理128K token的文本。此外,新模型还可以处理更长和更复杂的提示,同时在其上下文窗口扩展时仍保持其指令跟随能力。Grok-1.5构建在基于JAX、Rust和Kubernetes的定制分布式训练框架之上。

3月30日,OpenAI 首次亮相了语音引擎 Voice Engine预览版,其首次开发时间是 2022 年末。通过文本输入以及一段 15 秒的音频示例,可以生成既自然又与原声极为接近的语音。即使是小模型,只需一个 15 秒的样本,也能创造出富有情感且逼真的声音。Voice Engine 并未根据用户数据进行训练或微调,而是通过一个扩散过程和 transformer 结合的方式 从而产生语音。不过,Voice Engine 目前不支持音调、音高或节奏的调整。Voice Engine 的定价为每一百万字符 15 美元。

RWKV 元始智能 日前宣布向全球开源其 RWKV-6 1.6B(2.5T Tokens) 模型。

issue62 2024.4.1-4.7

阿里通义千问团队正式公开 Qwen1.5-32B,它是 Qwen1.5 语言模型系列的新成员,在性能、效率和内存占用之间寻求理想平衡,旨在提供与30亿参数规模模型相媲美的性能。在 MMLU、GSM8K、HumanEval 以及BBH等多个任务上,Qwen1.5-32B 即使与72B参数模型相比性能有所下降,但在多数任务中仍优于其他30B级别模型。相较于72B模型,Qwen1.5-32B的内存占用大幅减少,运行速度显著提升,旨在帮助用户为其下游应用找到更优的解决方案。

4月2日,昆仑万维官宣,AI音乐生成大模型天工SkyMusic基于昆仑万维天工3.0超级大模型打造,即日起面向社会开启免费邀测。本轮测试已开放1000个免费名额。天工SkyMusic采用音乐音频领域类Sora模型架构:Large-scale Transformer 负责谱曲,来学习 Music Patches 的上下文依赖关系,同时完成音乐可控性;Diffusion Transformer 负责演唱,通过LDM让Music Patches被还原成高质量音频,使得天工SkyMusic能够支持生成80秒44100Hz 采样率双声道立体声歌曲。这套模型架构在处理视频、音频和音乐领域效果极佳。

4月3日,腾讯开源了文生视频工具MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。文本、图像到视频的生成结果的所有帧直接由MuseV生成,没有时序超分辨、空间超分辨等任何后处理。除了直接放出模型代码,目前MuseV还有demo可体验。

4月1日,初创公司阶跃星辰,发布了三个大模型:Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型预览版。目前,千亿参数模型 Step-1超过 GPT-3.5 ,多模态大模型 Step-1V比肩 GPT-4V。第一款应用是跃问聊天助手,可以完成信息查询、语言学习、创意写作、图文解读等任务。此外,它还具备了多模态内容理解能力、联网搜索、代码分析增强(POT)等能力,高效理解和回应用户的查询,提供连贯且相关的对话。

4月1日,澜舟科技官宣:孟子3-13B大模型正式开源,面向学术研究完全开放,并支持免费商用。孟子3-13B大模型是基于Llama架构,数据集规模高达3T Tokens。语料精选自网页、百科、社交、媒体、新闻,以及高质量的开源数据集。通过在万亿tokens上进行多语言语料的继续训练,模型的中文能力突出并且兼顾多语言能力。

OpenAI官宣4月2日起,ChatGPT不用注册,可以直接使用。虽然这次开放的版本是GPT-3.5,训练数据截止到2022年,但仍然大大降低了使用门槛。此后的ChatGPT将成为一项免费,快速的基础服务。

4月4日,OpenAI 的 DALL-E 进行了多项升级,添加了与 ChatGPT 的集成,现在用户可以在 ChatGPT 中使用 DALL-E 组件进行复杂的图像编辑。当输入一个想法时,ChatGPT 会自动为生成模型生产量身定制的、详细的 Prompt,用户也可以继续使用自己的 Prompt。

issue63 2024.4.8-4.14

4月9日,Google Cloud Next 2024大会上,谷歌宣布Gemini 1.5 Pro正式开放公开可用、上线音频处理能力;更新代码模型CodeGemma,推出首款自研Arm架构处理器Axion,升级视频版Imagen 2.0。其中,谷歌Gemini 1.5 Pro已经在Vertex AI上开放公测,100万token,还增加了音频功能。它能处理音频流,包括语音和视频中的音频。

4月10日,OpenAI官宣发布了具备视觉功能GPT-4 Turbo的正式版,能处理128k上下文,已经可以通过API调用了,其训练数据截止到2023年12月。同时,Vision请求也可以使用JSON模式和函数调用。新模型可以有助于简化开发人员的工作流程,创造出更高效的应用程序。与此同时,OpenAI已经将GPT-4每3小时40条消息的使用限制,变成了根据供需情况动态调整的灵活配额。不过,有研究发现,GPT-4 Turbo with Vision在编码方面较差。

4月13日,xAI 推出了多模态模型 Grok-1.5V。该模型不仅能理解文本,还能处理文档、图表、截图和照片中的内容。Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型,从多学科推理到理解文档、科学图表、图表、截图和照片。目前,Grok-1.5V 还没有完全开放,但会很快提供给早期测试者和现有的 Grok 用户。此外,xAI 还推出了一个新的基准RealWorldQA。目前,RealWorldQA 包含 700 多张图片。

百度文心一言上线了新功能,仅需几秒钟即可定制自己的声音。打开文心一言App,点击下方“+”,然后选择创建智能体。在声音选项里,会发现一个名为“创建我的声音”的功能。根据系统提示读出一段话,只需两秒左右的时间,系统便能捕捉到用户的声音特点,生成一个独特的“语音助手”。在确认声音质量后,用户的专属“语音库”就在瞬间构建完成。今后,在与智能体的每一次对话中,用户都可以点击播放键,使用自己合成的音色进行语音播报。

issue64 2024.4.15-4.21

4月16日,Create 2024百度AI开发者大会举办,宣布文心大模型4.0性能提升52.5%,又公布了智能体、代码、多模型等方面的新进展。百度着重介绍了三款AI开发工具:AgentBuilder(智能体开发工具)、AppBuilder(AI原生应用开发工具)和ModelBuilder(模型定制工具)。其中,AgentBuilder是面向所有人的,不需要编程基础也能可以轻松建立。会上,百度还发布新一代智能计算操作系统万源(Wanyuan)。

4月17日,稀宇科技 MiniMax 推出了万亿 MoE 模型 abab 6.5。abab 6.5系列包含两个模型 abab 6.5和abab 6.5s。abab 6.5 包含万亿参数,支持 200k tokens 的上下文(相当于约 30 万汉字)。abab 6.5s 跟 abab 6.5 使用了同样的训练技术和数据,但更高效,支持 200k tokens 的上下文长度,可以 1 秒内处理近三万字的文本。根据 MiniMax 发布的技术报告,在知识、推理、数学、编程、指令遵从等维度测试中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。MiniMax还开发了一款生产力产品“海螺AI”,目前已经接入了万亿 MoE 模型 abab 6.5。

4月17日,昆仑万维宣布天工 3.0基座大模型与天工 SkyMusic音乐大模型正式开启公测,无次数限制。它生成的中文人声发音清晰、正宗、无异响,不仅针对普通话做了优化,还有粤语、成都话、北京话等方言语种。目前,SkyMusic已经集成到了手机上的天工APP。从目前的结果来看,天工SkyMusic可以支持生成80秒左右时长的歌曲。大模型天工 3.0 拥有 4000 亿参数。

Mistral AI 开源了其最新的大模型 Mistral 8x22B,该模型在AI开放社区中设定了性能和效率的新标准。

4月19日,Meta官宣了Llama 3 80亿和700亿参数版本,在各自参数规模上超越对手,为开源SOTA。Llama 3 405B 版本仍在训练中,将是一个密集模型,预计年末发布。据现有的评测数据,405B 版本的性能已经逼近 GPT-4。架构层面,Llama 3选择了经典的仅解码式Transformer架构,采用包含128K token词汇表的分词器。训练方面,Meta上了2.4万块GPU集群,Llama 3的训练数据规模达到了15T tokens,全部来自于公开信息,其中5%为非英文数据,涵盖30多种语言。此次与基础模型一同发布的,还有基于Llama 3的官方Web版本Meta AI(https://www.meta.ai/)。目前该平台有对话和绘画两大功能。

issue65 2024.4.22-4.28

科大讯飞发布首个支持长文本、长图文、长语音的大模型 讯飞星火 V3.5。支持多情感超拟人合成和个性化声音复刻。

微软发布名为 Phi-3 的小型语言模型(SLM),该模型系列虽然体积小巧,但功能强大,具有很大的潜力。作为Phi-3系列的首版,Phi-3-mini 拥有3.8亿参数,并且性能超过了两倍于其大小的模型。Phi-3-mini 现在可以在 Microsoft Azure AI模型目录和 Hugging Face 上公开获取,并且也可以在 Ollama 轻量级框架上运行。

4月25日,苹果团队发布了OpenELM,包含了2.7亿、4.5亿、11亿和30亿四个参数版本。苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的 checkpoint 和训练日志。OpenELM是一款专为终端设备而设计的小模型。OpenELM使用了分层缩放策略,来有效分配Transformer模型每一层参数,导致模型每层的参数数量不同,从而实现了更有效的跨层参数分配与提升准确率。这款模型还可以在M2 MacBook Pro(64GiB内存)运行。

issue66 2024.4.29-5.5

5月1日,Google推出新型多模态医学 AI 模型 Med-Gemini 。它融合了高级推理、多模态理解和长文本处理能力,构建基于 Google 的 Gemini 模型,并针对医学领域进行了专门的优化和改进。在医学基准测试如MedQA中,展现出优越性能,准确率达91.1%。

5月2日,Anthropic 推出一项针对企业的新付费计划,其中包括医疗保健、金融和法律等受到高度监管的行业,该计划名为“Team”,为客户提供对 Anthropic 的 Claude 3 系列生成型 AI 模型以及额外的管理员和用户管理控制的更高优先级访问权限。此外,Anthropic 也推出一款 iOS 应用,只有11MB。该应用提供对 Claude 3 的访问,包括免费访问以及升级的 Pro 和 Team 访问,并与 Anthropic 的网络客户端同步,利用 Claude 3 的视觉功能为上传和保存的图像提供实时分析。

issue67 2024.5.6-5.12

幻方 DeepSeek AI 开源 MoE 语言模型 DeepSeek-V2。该模型拥有236B的参数量,能够处理长达128K token的上下文,相较于前一代DeepSeek 67B模型,在性能上实现了显著提升,同时在训练成本上节省了42.5%,减少了93.3%的KV缓存,并显著提高了最大生成吞吐量。在多个基准测试中,DeepSeek-V2的性能直逼行业领先的GPT-4,尤其在数学、代码和推理任务上表现出色。

5月8日,谷歌DeepMind发布了新一代预测蛋白质结构的AlphaFold 3模型,能够帮助科学家更精确地针对疾病机制,从而开发出更有效的治疗药物。此举是一个重要的里程碑式突破。AlphaFold 3是一种人工智能模型,它可以预测蛋白质、DNA、RNA等生物分子的结构以及它们如何相互作用。另外,DeepMind还推出了AlphaFold Server,它是一个供全球科学家用于非商业研究的免费平台。

5月9日,阿里云正式发布通义千问2.5,同时发布1100亿参数开源模型Qwen1.5-110B。此外,百炼大模型平台从模型开发、应用开发到算力底座全面升级。升级后,百炼还兼容LlamaIndex等开源框架,企业可自由替换能力组件来适配自身系统。

月之暗面 Moonshot AI 宣布对旗下智能助手 Kimi 进行更新,并推出专业 AI 助手 “Kimi+”。据官方介绍,Kimi+ 是拥有独特技能的 Kimi 分身,可解决特定问题,也能组成 AI 生产线。

零一万物推出了名为「万知」的一站式AI工作平台,号称专为中国人设计,能够提供会议纪要、周报撰写、写作辅助以及解读财报、论文等文件,并帮助用户制作PPT。这款AI个人助手支持中英双语,用户可以通过网页和微信小程序访问。

5月8日,OpenAI 官方发布了《模型规范》(Model Spec) 初稿,旨在公开讨论和定义AI模型应有的行为。所公开的文件汇集了OpenAI在塑造模型行为方面的现有文档、研究经验和未来模型发展的指导原则,主要包括三个核心部分:目标、规则和默认行为。目标是指导模型行为的广泛原则;规则是确保安全和合法性的明确指令;默认行为则是在目标和规则框架下处理冲突的指导方针。Model Spec 的发布是为了加深公众对AI模型行为的理解和讨论,同时也是OpenAI对模型安全和行为改进承诺的延续。OpenAI计划将这份规范作为研究人员和AI训练者的指导,探索模型是否能直接从规范中学习,并在未来一年内根据反馈更新规范内容、分享研究进展。

issue68 2024.5.13-5.19

5 月 14 日凌晨,OpenAI 在首次春季新品发布会上推出了新一代旗舰生成模型 GPT-4o (o 代表 Omnimodel全能模型)、桌面 App,并展示了一系列新能力。GPT-4o具有文本、语音、图像三种模态的理解力,模型反应比人类的回应还快,最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。还能够充分理解人类的情感,也能表现出各种感情。在多项基准测试中,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能。GPT-4o 的文本和图像功能免费在 ChatGPT 中推出,并向 Plus 用户提供高达 5 倍的消息上限。

5月17日, OpenAI宣布ChatGPT可分析线上Excel数据。ChatGPT可以直接打开线上数据文件,支持从Google Drive和Microsoft OneDrive在线文档上传,在新的可扩展视图中与表格和图表进行实时交互,完成实时数据分析;自定义图表并下载图表,用于演示文稿和文档。网友已经灰度测试到背后的新模型ADA V2。

零一万物发布 Yi 大模型家族的新成员 Yi-1.5 并宣布开源。Yi-1.5 模型包含6B、9B、34B三个版本的预训练和微调模型,采用Apache 2.0许可证。该模型在编码、数学、推理和指令遵循方面的能力相较于前一版本Yi有显著提升,同时保持了在语言理解、常识推理和阅读理解方面的优秀表现。

腾讯发布基于混元大模型的一站式智能体开发平台「腾讯元器」。企业和开发者可以通过腾讯元器直接创建智能体,利用腾讯官方提供的插件和知识库,实现个性化的AI应用开发。腾讯元器的亮点在于其便捷的一键分发功能,允许用户将创建的智能体快速部署到QQ、微信客服、腾讯云等多个渠道上,极大地简化了AI技术的落地应用过程。

腾讯公司宣布其混元文生图大模型全面升级并开源,这是业内首个中文原生的DiT(Diffusion With Transformer)架构文生图模型。该模型包含15亿参数,支持中英文双语输入及理解,现已在Hugging Face平台及GitHub上发布,包括模型权重、推理代码和模型算法等,可供企业与个人开发者免费商用。

5月15日,2024火山引擎FORCE原动力大会上,字节跳动云雀大语言模型升级为豆包大模型家族正式在火山引擎上对外开放服务。豆包大模型家族的全系列模型,包括豆包通用模型pro/lite、角色扮演模型、语音合成模型、语音识别模型、声音复刻模型、Function call模型、文生图模型以及向量化模型。豆包通用模型pro-32k版,推理输入价格0.0008元/千tokens,较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens。另外,豆包通用模型pro-128k版本,推理输入价格为0.005元/千tokens。

谷歌在I/O 2024开发者大会上发布Gemini 1.5 Pro正式版,上下文长度达到200万token,而且开放给个人用户使用。支持多模态的Gemini可以处理上传的任何格式的信息,理解内容后将其改造成适合用户的形式并可对话互动。

谷歌发布了Gemini 1.5 Flash。Flash是一个更轻量级的模型,专为那些对响应速度要求极高的特定或频繁任务优化。它同样具有多模态、1M tokens长上下文的特点,只不过实现了轻量化、低延迟、高效推理,每百万个token的价格仅是Pro版的二十分之一。Gemini 1.5 Flash在Google AI Studio和Vertex AI中可用,开发者可以注册申请两百万token的内测版。

issue69 2024.5.20-5.26

微软在2024 Build开发者大会上发布了Phi-3系列模型的新成员 “Phi-3 Vision”,这是一个有42亿参数的多模态模型,结合了语言和视觉能力。Phi-3 Vision专为图表和图解理解进行了优化,能够处理现实世界图像的推理以及从图像中提取和推理文本,支持128K的上下文长度。该模型在一般视觉推理任务、OCR、表格和图表理解任务中表现出色,优于其他更大模型如Claude-3 Haiku和Gemini 1.0 Pro V。

5月21日,微软在2024 Build开发者大会发布新一代 Copilot+ PC。它配备了强大的 AI Agent,只需在键盘上轻点新的 Copilot 按键即可快速交互。硬件AI算力达到40 TOPS以上,或者说每秒40万亿次运算,电池续航时间可达一整天。目前开始预订,起售价 999 美元,国行价格8688 元起售,6 月 18 日发货。在新一代PC里,打游戏时可与AI实时对话,提供吐槽陪玩或攻略指导,由GPT-4o提供支持。任何文件或网页浏览记录都可以用自然语言搜索回忆,实时翻译音频或视频字幕,目前支持40+种语言。在专为AI重构的新版Windows 11上,约有40多个AI模型被深度集成,许多功能都是实时的。微软引入了全新的系统架构,将CPU、GPU和新的高性能神经处理单元NPU结合在一起。NPU负责在后台实时运行AI。

5月21日 ,智谱·AI宣布推出新一代多模态大模型CogVLM2,该模型在关键性能指标上相较于前一代CogVLM有了显著提升,同时支持8K文本长度和高达1344*1344分辨率的图像。尽管CogVLM2的模型大小为19B,但其性能接近或超过了GPT-4V的水平。CogVLM2的技术架构在上一代模型的基础上进行了优化,包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块,这些模块通过独特的参数设置,精细地建模了视觉与语言序列的交互。

5月22日,百川智能发布其最新一代基座大模型 Baichuan 4,并推出了首款AI助手“百小应”。Baichuan 4在各项能力上相比前一代Baichuan 3有显著提升,其中通用能力提升超过10%,数学和代码能力分别提升14%和9%。在SuperCLUE的评测中,Baichuan-4的能力排名国内第一,超越了SenseChat V5。Baichuan 4还首次带来了多模态能力,在各大评测基准上表现优异,领先其他多模态模型。

5月20日,面壁智能打造了端侧多模态模型MiniCPM-Llama3-V 2.5。该模型8B参数,不仅支持30+多种语言,而且综合性能、OCR长难图识别能力SOTA;图像编码快150倍。面壁自研高清图像高效编码技术,可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比的图像。

issue70 2024.5.27-6.2

腾讯将基于混元大模型的 AI 助手应用「混元助手」升级为「腾讯元宝」,集成 AI 搜索、AI 总结、AI 写作等功能。元宝不仅提供 AI 助手的标准功能,还利用腾讯新闻和微信公众号平台的资源,增强了内容的及时性和丰富度。此外,元宝还具备生成内容、翻译、多模态生成等多种能力,显示出腾讯在 AI 应用领域的强大技术实力和生态优势。

Google 宣布 Gemini 1.5 Flash 和 Gemini 1.5 Pro 现已全面推出。Gemini 1.5 Flash 现支持 1,000 RPM 限制,并引入了调优功能。此外,API 现已支持 JSON Schema 模式,AI Studio 移动版支持和浅色模式也已上线,为开发者提供更强大和便捷的开发工具。

OpenAI 推出专为大学校园设计的 ChatGPT Edu 版本,支持 GPT-4o、网络搜索、自定义 GPT、数据分析、代码生成等功能。牛津、剑桥、伯明翰等 24 所大学,以及沃顿商学院和亚利桑那州立大学已开始使用该生成式 AI 产品。ChatGPT Edu 提供多模态推理、增强的数据分析和搜索功能、自定义 GPT、提升的语音质量及多语言支持,还具备强大的安全机制,包括数据隐私、组权限和管理控制。

法国人工智能初创公司 Mistral AI 宣布了其首个代码生成模型 Codestral。该模型接受了 80 多种编程语言的训练,包括 Python、C、C++、JavaScript 和 Bash 等。Codestral 能自动完成代码函数、编写测试,并使用填补中间的机制完成部分代码,减少错误和漏洞。该模型拥有 32k 的上下文窗口,在 HumanEval、MBPP、CruxEval、RepoBench 和 Spider 等基准上表现出色,提供 API 端点、插件和开发环境集成。

issue71 2024.6.3-6.10

6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是完整地将MoEUpcycling技术应用并落地的开源千亿MoE大模型,也是支持用单台4090服务器推理的开源千亿MoE大模型。本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为146B,激活参数量22B,共有16个Expert,每个Expert大小为13B,每次激活其中的2个Expert。

6月4日,AI初创公司澜舟科技宣布轻量化大模型Mengzi3-8B,现已正式开源,并支持免费商用。Mengzi3-8B是一款高效、低显存需求的AI大模型,半精度下显存占用小于16G,适用于PC(如MacBook)和大部分消费级显卡(如RTX 4090、RTX 4080、RTX 4070Ti)。此外,Mengzi3-8B的原生推理速度在同级别模型中处于领先地位,特别适合个人开发者和AI爱好者使用。

6月5日,智谱AI在智谱AI Open Day上宣布对旗下全模型矩阵的价格大幅下调,开源GLM-4-9B系列模型,并发布了大模型应用清言App和大模型开放平台的最新更新。小模型ChatGLM3-6B升级为9B后,在开放平台变为GLM-4-flash版本,API 价格相较于GLM-3 Turbo降价至10%。第四代GLM系列开源模型GLM-4 9B,官宣开源免费用。GLM-4模型,在开放平台上为GLM-4-Air版本,每100万token只需1元,价格则仅为原来的1%。

6月7日,阿里云发布开源模型Qwen2-72B。本次开源的Qwen2-72B大模型在自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的开源模型,包括阿里云在4月底开源的Qwen1.5最大的模型Qwen1.5-110B。该Qwen2系列包含5个尺寸的预训练和指令微调模型,包括wen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。所有尺寸模型都使用了GQA(分组查询注意力)机制,模型的多语言能力和上下文长度支持均得到了提升。

issue72 2024.6.10-6.16

苹果在WWDC 24上展示了其首个AI系统——Apple Intelligence及全新Siri。这个强大的新功能将为iPhone、iPad和Mac提供情景驱动通知、写作改进、图像生成等功能。Apple Intelligence的英语试用版将于今年夏天推出,并于今年秋天在iOS 18、iPadOS 18及macOS Sequoia中发布Beta版。使用门槛是iPhone 15 Pro系列、配备M1芯片的iPad和Mac以及后续机型。苹果还和OpenAI宣布建立合作伙伴关系,将ChatGPT直接集成到即将发布的iOS 18、iPadOS 18和macOS中。

Luma Labs推出了Dream Machine,这是一种全新的AI模型,能够根据文本和图像提示生成5秒的视频剪辑。

6月12日,微软发布公告称Copilot GPTs将于7月10日起停服,移除创建GPT的功能,用户已经创建的GPTs将被清空。微软给出的官方解释是公司战略调整,正在将GPT的重点转向商业和企业场景,背后原因可能是缺乏商业回报。Copilot GPTs关闭引发了用户不满,批评者质疑此举会切断创新并削减消费者对于产品的信任。

6月14日,英伟达宣布推出 Nemotron-4 340B。它包含一系列开放模型,通过独特的开放模型许可,开发人员可以用免费、可扩展的方式使用这些模型生成合成数据,用于训练大语言模型,可用于医疗健康、金融、制造、零售等所有行业的商业应用。Nemotron-4 340B 系列包括基础、Instruct 和 Reward 模型,用于生成训练和改进 LLM 的合成数据。这些模型经过优化,可与 NVIDIA NeMo 配合使用,后者是一个用于端到端模型训练的开源框架,包括数据管理、定制和评估。它们还针对开源 NVIDIA TensorRT-LLM 库的推理进行了优化。

issue73 2024.6.17-6.23

6月20日,Anthropic 发布了下一代旗舰大模型Claude 3.5 Sonnet,不仅在评估中胜过GPT-4o,还保持着中等规模的模型所具有的速度和成本优势。如今,Claude 3.5 Sonnet已经面向全球开启免费试用了。成本更低、速度更快。在运行速度方面,Claude 3.5 Sonnet也是Claude 3 Opus的两倍。在费用上,Sonnet处理每百万输入token仅需3美元,每百万输出token仅为15美元。

在Computex 2024大会上,Stability AI正式官宣SD 3 Medium公开发布。据悉,之后还会开源4B和8B的版本。目前,ComfyUI已经提交了对SD3支持的版本。本次开源的版本是Stable Diffusion 3 Medium在Hugging Face上可以下载模型权重。它的规模为20亿参数,在笔记本上就能跑。

6月21日,华为在年度开发者大会上推出全新升级的盘古大模型5.0版本,该版本在全面性、多模态处理能力以及深度思考能力上均实现了显著提升。盘古5.0针对不同业务需求,推出了多种规格的模型,并且能够与现实世界紧密结合,推动大模型在各行业的广泛应用。

依图科技发布了面向安防场景的天问大模型4.0。

issue74 2024.6.24-6.30

谷歌DeepMind公布其新一代最强开源模型——Gemma 2。Gemma 2有90亿(9B)和270亿(27B)两种参数规模可用。27B模型训练了13T tokens,9B是8T tokens,都拥有8192上下文窗口,可在Google AI Studio中使用。26亿参数(2.6B)模型将很快发布,小到可以在手机本地运行。

OpenAI宣布开发了一个名为CriticGPT的新模型,基于GPT-4训练,旨在查找ChatGPT输出内容中的错误。CriticGPT的主要目的是协助人类AI训练员完成工作,使用”从人类反馈中强化学习”(RLHF)技术来改进GPT-4的回答。

6月25日,OpenAI向中国用户发布邮件称,自7月9日起,将不再接受来自那些未在其支持列表中的国家和地区的API请求。如果受影响的组织想要继续利用OpenAI的服务,他们需要在OpenAI服务覆盖的国家或地区进行访问。目前,OpenAI的API服务覆盖了全球161个国家和地区,但中国并不在其中,这表明OpenAI将不再向中国用户提供API服务。

百度在深度学习开发者大会上推出了智能代码助手”文心快码”。该产品基于文心大模型和百度多年积累的编程数据,具有代码智能、场景丰富等优势,可实现”帮你想、帮你写、帮你改”的应用形态。文心快码在百度内部已广泛使用,代码采用率达44%。它支持100多种编程语言,在Go、Java等主流语言中表现优异,并兼容多种主流IDE。产品分为标准版、专业版、企业版和企业专有版,满足不同用户需求。

6月27日,科大讯飞发布讯飞星火大模型V4.0及多个领域的人工智能应用。

issue75 2024.7.1-7.7

Runway宣布其最新的文生视频模型Gen-3 Alpha向所有用户开放,每月最低收费12美元。Gen-3一次可生成11秒的720P视频,支持文本输入生成视频。该模型功能强大,比肩Sora,能够生成高质量的视频内容。

7月3日,AI 音乐生成工具 Suno 宣布推出 iOS 客户端。

7月4日凌晨,法国知名开源 AI 研究实验室 Kyut 在官网发布了多模态大模型 Moshi。Moshi 的功能与 OpenAI 在5月14日展示的最新模型GPT-4o类似,都可以听取人的语音提问后进行实时推理回答。

7月4日,在今天揭幕的 2024 世界人工智能大会暨人工智能全球治理高级别会议(简称“WAIC 2024”)上,阶跃星辰首发了三款 Step 系列通用大模型新品:Step-2 万亿参数语言大模型正式版、Step-1.5V 多模态大模型、Step-1X 图像生成大模型。

7月5日,商汤科技发布了国内首个流式多模态大模型日日新5.5,实现了实时跨文本、音频、图像与视频推理,多项测评超过GPT-4o。

腾讯元宝应用推出了AI深度搜索功能,用户更新至最新版本后,能够在AI搜索深度模式下获得扩展问题解答,并能一键生成内容大纲、思维导图以及相关人物事件梳理。特别是在科研和财经等专业领域,该功能能够提供详尽的回答。经测试,元宝引用的消息源基本来自微信公众平台公众号文章。

快手宣布可灵AI网页端正式上线,所有功能限时免费。新功能包括:“文生视频”,支持最长10秒的视频生成以及“图生视频”,新增运镜控制和自定义首尾帧。可灵AI网页端提供AI图片、AI视频及即将上线的视频编辑功能,目前已吸引超过50万用户申请内测资格。

issue76 2024.7.8-7.14

腾讯智影小程序上线AI视频功能,用户可一键生成风格化视频,限时免费。用户导入视频后,可快速生成风格化效果,支持10秒视频处理。此外,智影AI还包含虚拟数字人、文本配音、智能去水印和文章转视频等功能,提升视频创作体验。

7月10日,阿里巴巴上线了AI搜索助手“心流”,提供智能搜索、知识问答、智能阅读、辅助创作等功能,旨在帮助用户提升工作和学习效率。

百度推出一款新型AI社交App“文小言”,利用文心大模型技术提供仿真数字人社交体验,允许用户与AI虚拟角色进行实时互动,每个角色都具备个性化的聊天服务和肢体语言反馈。

issue77 2024.7.15-7.21

7月17日,Anthropic 推出了 Claude Android 应用程序,旨在通过提供更多平台支持来吸引用户。该应用程序允许用户免费访问 Anthropic 的 AI 模型 Claude 3.5 Sonnet,并提供实时语言翻译功能,支持设备间对话同步和照片或文件的实时图像分析。此外,企业客户还可以在移动设备上访问他们的 Claude 账户。

7月19日,OpenAI 发布 GPT-4o mini ,一个成本更低、性能接近 GPT-4 的新模型,已在 ChatGPT 中取代 GPT-3.5。新模型支持更大的输入输出 tokens,价格更便宜,适用于多种应用场景,并计划开放微调功能。

issue78 2024.7.22-7.28

7月23日,Meta 正式发布了 Llama3.1,这是一系列大模型,包括8B、70B和405B三个版本,其中 405B 版本在性能上与 GPT-4o 相当,刷新了开源基础模型的能力上限。Llama 3.1扩展了上下文长度至 128K,并支持多语言和工具使用。Meta在预处理和预训练数据的 Curation pipelines 上进行了加强,并在后训练数据的质量保证和过滤方法上做了改进。Llama3.1 使用了超过 15 万亿的多语言 Token 语料库进行预训练,预训练模型的规模远大于以前的版本。

7月25日,OpenAI 宣布旗下AI搜索引擎 SearchGPT 正式开放内测,并计划在未来接入到 ChatGPT 服务中。

7月26日,智谱AI发布了升级版视频生成模型 CogVideoX,并推出了名为“清影”的AI视频生成服务,该服务能够在 30 秒内快速生成 6 秒视频,支持复杂指令的准确理解和执行,确保视频内容连贯,并具有画面调度的灵活性。目前,“清影”已在智谱清言的多个平台上免费开放给用户体验,同时企业和开发者也可以通过智谱大模型开放平台的 API 调用使用。

issue79 2024.7.29-8.4

7月31日,GPT-4o高级语音模式开启邀请测试。OpenAI宣布开始向一小部分ChatGPT Plus用户推出高级语音模式,基于GPT-4o提供更自然的实时对话。

谷歌发布了 Gemini 1.5 Pro 0801 版本,这款强大的 AI 在 LMSYS AI 竞技场排行榜上以 1300 分的成绩领先,超过了 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3.5。Gemini 1.5 Pro 配备了 2,000,000 个 token 的上下文窗口,极大增强了其处理大规模数据和生成长篇内容的能力。

谷歌开源了其最新端侧小模型Gemma2 2B,该模型以20亿参数的规模在性能上超越了参数更多的GPT-3.5-Turbo和Mixtral-8x7b,成为大模型竞技场LMSYS Chatbot Arena中表现最佳的开放模型之一。Gemma2 2B不仅性能卓越,还具有内置安全改进功能,同时推出了ShieldGemma安全内容分类器和Gemma Scope模型可解释性工具,进一步强化了模型的安全性和透明度。

7月31日,360集团创始人周鸿祎宣布,360安全大模型将免费为个人用户、中小企业提供服务,并在行业内第一个宣布安全大模型免费,让人人都能获得大模型带来的技术红利。

8月1日,Stable Diffusion 原团队成员创办的 Black Forest Labs 发布了 FLUX 文本转图像模型系列。FLUX.1 模型为开源图像生成模型树立了新标准:它们可以生成逼真的手、清晰的文本,甚至可以生成搞笑表情包这样异常困难的任务。

issue80 2024.8.5-8.11

GPT-4o自20240513之后首次更新到20240806版本。

OpenAI 推出了一项新功能,严格要求模型按 JSON 格式输出。允许开发者生成符合指定 JSON 模式的结构化输出。用户可以通过函数调用或 response_format 参数(使用 json_schema 选项)在 API 中使用此功能。

8月6日,智谱AI将其视频生成大模型CogVideoX开源,成为首个可商用的开源视频生成模型。CogVideoX支持在线体验,展示了高质量的视频生成效果,并且易于部署和使用,仅需单卡A100在90秒内即可生成视频。

issue81 2024.8.12-8.18

阿里巴巴开源的 Qwen2 Audio – 8.5B 模型在 ASR、S2TT 和 AIR-Bench 基准测试中表现出色,达到了目前的最佳状态。该模型经过 370K 小时的语音、140K 小时的音乐和 10K 小时的声音数据预训练,特别擅长语音聊天和音频分析任务,并与 Transformer 结构无缝集成。

8月14日,马斯克旗下的人工智能公司 xAI 正式发布新一代 Grok 2 大模型测试版,包括 Grok 2 和 Grok 2 mini 两个版本。Grok 2 测试版在逻辑推理能力上有显著提升,并且新增了文生图功能,使用 Black Forest Labs 的 FLUX.1 模型来生成图像。该版本支持中文提问和回答,目前只有 X Premium 和 Premium+ 用户可以体验。

8月16日,Runway 正式推出了其最新的AI视频生成模型 Gen-3 Alpha Turbo,该模型在视频生成速度上比之前的 Gen-3 Alpha 快了 7 倍,并且价格仅为原版的一半。这一新模型在保持与原版相同性能的同时,大幅降低了成本,使得所有用户都能体验到更快速的AI视频生成技术。

阿布扎比技术创新研究所推出了 Falcon Mamba 7B 模型,不依赖 Transformer 架构和注意力机制,能高效处理无限长序列,性能超越同规模开源模型。这一新模型特别适合长文本处理,且在内存使用上更为高效,现已在Hugging Face和GitHub上开源。

AI 代码编辑器 Cursor 将默认大模型切换到 Claude 3.5 Sonnet。Cursor 母公司 Anysphere,成立初期从 OpenAI 处融资 800 万美元,占当轮融资的 72.7%。

issue82 2024.8.19-8.25

Midjourney 网页版对所有人开放,为每位新用户提供最先进模型V6.1 25次试用机会。用户可使用Discord或Google账号登录,并在账户设置中合并两个平台的登录信息,确保历史记录同步。

8月19日,科大讯飞的星火语音大模型推出了极速超拟人交互更新,通过先进的端到端技术实现了快速响应和自然对话的无缝打断。新模型不仅能够识别并共鸣用户的情绪变化,还能根据用户的指令灵活调整情感表达和语言风格。此外,它还具备仿多种角色音色和语气的能力,使用户能够与不同人设进行互动。

8月21日,微软推出的新一代AI模型系列Phi-3.5,包含 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct 三个版本,分别针对轻量级推理、混合专家系统和多模态任务设计。Phi-3.5采用MIT开源许可证,具有不同参数规模,支持128k上下文长度,优化了多语言处理和多轮对话能力,在基准测试中性能表现超越了GPT4o、Llama 3.1、Gemini Flash等同类模型。

Luma AI 推出了 Dream Machine 1.5,这是其 AI 视频模型的升级版,带来了更高质量的文本转视频功能。新版本不仅在理解文本提示上更为智能,还提供了自定义文本渲染选项,并进一步改进了图像转视频的效果。

阿里大语言模型“通义千问”今日宣布启用新域名“tongyi.ai”,并带来多项新功能。网页版聊天新增深度搜索功能;App 图片微动效支持多尺寸图片;App 自定义唱演支持 3:4 画幅(原先 1:1)。

issue83 2024.8.26-9.1

Anthropic 宣布 Claude 中的 “Artifacts” 功能现已对所有用户开放,且已集成到 iOS 和 Android 应用中。这意味着用户现在可以在手机上创建和查看这些 “Artifacts”。自6月推出预览版以来,已经有数千万个 “Artifacts” 被创建。这个功能类似于在软件中创建和保存个人作品或项目的过程,使用户可以更方便地管理和分享他们的创作成果。Anthropic 鼓励用户探索和利用这一功能,以便在 Claude 的平台上进行更多创新和分享。

智谱开放平台现提供免费的 AI 大模型服务,用户可注册后调用 GLM-4-Flash 模型来构建定制化模型和应用。GLM-4-Flash 适合处理垂直领域、成本敏感、需求快速响应的任务,具备多轮对话、网页浏览、函数调用和长文本推理能力,并支持 26 种语言。平台通过自适应权重量化、并行化、批处理和投机采样等技术优化模型效率,实现推理速度提升和成本降低。

8月28日, Gemini 官方版本更新公告,Gemini Gem 管理器功能已正式上线,这是 Gemini 版的 GPTs。

谷歌在其 AI Studio 中推出了三款新的 Gemini 实验性 AI 模型:Gemini 1.5 Flash-8B、Gemini 1.5 Pro Exp-0827 和 Gemini 1.5 Flash Exp-0827。Gemini 1.5 Flash-8B 拥有 80 亿参数,专为多模态和长文本摘要任务设计;Gemini 1.5 Pro Exp-0827 强化了编程与复杂提示词的处理能力,在 LMSYS 排行榜上升至第二,仅次于 OpenAI 的 GPT-4o-latest;Gemini 1.5 Flash Exp-0827 的性能显著提升,排名从第 23 位跃升至第 6 位。用户可通过 Gemini API 和 Google AI Studio 访问这些新模型。此外,谷歌计划在 9 月 3 日起将 gemini-1.5-pro-exp-0801 模型的请求自动重定向至更新的 gemini-1.5-pro-exp-0827,并移除旧版模型。

Android / macOS 版 ChatGPT 客户端发布新版本。现在您可以使用 ChatGPT 上的“提及”功能,该功能允许用户在一次对话中使用“@”符号调用不同的自定义GPT模型。

8月29日,智谱发布新版基座大模型GLM-4-Plus,在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。GLM-4-Plus 使用了大量模型辅助构造高质量合成数据以提升模型性能;利用 PPO 有效有效提升模型推理(数学、代码算法题等)表现,更好反应人类偏好。新版文生图模型 CogView-3-Plus:具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能。智谱还宣布智谱清言App新版现已支持视频通话,AI可以实时“看到”你的表情(陪伴场景),甚至可以来一局“你画我猜”。

谷歌宣布旗下 Gemini AI 支持更多类型的文件,包括电子表格、演示文稿、图像、音频和视频等,为用户提供更优质的 AI 服务。Gemini AI 可以分析、摘录和洞察文档内容,帮助用户提高理解、研究和写作能力。

issue84 2024.9.2-9.8

百度文心一言 App 推送一周年升级,更名为 「文小言」,同时宣布 9 月内文心 4.0 大模型将免费使用。

腾讯在 2024 全球数字生态大会上发布新一代大模型 「混元 Turbo」,采用 MoE 架构,推理效率提升 100%,推理成本降低 50%。其价格较混元 Pro 降低 50%,输出价格为 0.05 元 / 千 tokens,输入价格为 0.015 元 / 千 tokens。

在 2024Inclusion 外滩大会上,蚂蚁集团总裁韩歆毅宣布了全新推出的 AI 独立 App 支小宝,展示了蚂蚁集团在 AI 应用布局上的成果以及服务亿级用户的实践。支小宝 App 的定位是服务型 AI 产品,基于蚂蚁百灵大模型开发。它连接的仍是支付宝生态,在功能上,通过对话进行订票、点餐、打车等。

蚂蚁集团在外滩大会财富论坛上推出升级版 AI 金融管家 「蚂小财」,新版 「蚂小财」 能更实时解读热点,提供个性化专业服务,并在支付宝 APP 全量上线。同时,蚂蚁财富全新 APP 搭载 「蚂小财」 Pro 版上线灰测,这是国内首个实现 AI 原生体验的理财 APP。截至 2024 年 8 月底,「蚂小财」 的月度活跃用户数已达到 7000 万人,其中 45% 来自三线及以下城市。

OpenAI 计划推出大型语言模型的订阅服务,包括专注于推理的 「草莓」 和名为 「Orion猎户座」 的新旗舰 LLM。内部讨论中曾考虑过每月最高 2000 美元的订阅价格,但最终价格尚未确定。这一定价关系到 OpenAI 及其在类似产品领域的竞争对手,如谷歌、Anthropic 等公司。

OpenAI 日本办公室 CEO 长崎忠雄在 KDDI 峰会上透露,新一代模型 GPT-Next 的性能预计将比现有的 GPT-4 模型强大 100 倍,并计划在今年晚些时候发布。GPT-Next 模型的性能提升归功于其优化的架构设计和学习效率的改进。

AI 公司 Anthropic 推出 Claude Enterprise 计划,旨在帮助企业更好地整合 AI 模型与内部知识库,提供个性化丰富的体验。该计划支持上下文窗口达 50 万个词元,原生集成 GitHub,并放宽了使用限制。Anthropic 表示,企业可向 Claude 提供大量知识资料。然而,企业不应过分依赖大型文档处理能力,因为 AI 模型可能出现 「中间丢失」 现象。Claude Enterprise 提供安全功能如 SSO 和基于角色的权限管理,强调保护客户数据,并将推出审计日志和 SCIM 功能。

谷歌推出了新的 AlphaProteo AI模型,旨在设计能与目标分子成功结合的高强度蛋白质结合剂,用于药物设计和疾病理解。该系统能生成新的蛋白结合体,已成功设计出与癌症和糖尿病并发症相关的血管内皮生长因子-A 的蛋白质结合剂,并具有较高的体外实验成功率。谷歌通过测试多种目标蛋白的结合体,包括病毒蛋白和参与癌症、炎症等疾病的蛋白,以验证 AlphaProteo 的效果。

谷歌推出了 Google Photos 应用的新功能 「Ask Photos」,该功能利用 Gemini AI 技术,允许用户通过自然语言搜索照片库,查找特定的回忆或信息。此功能已开始向 iOS 和 Android 用户开放早期访问权限。用户可以提出各种问题,以从自己的图片库中检索相关内容,例如 「我去年在哪里露营。」「我的门票何时过期。」 等。

issue85 2024.9.9-9.15

9月12日,OpenAI宣布全新模型o1-preview正式亮相。该模型即为传言了近一年的Q*/草莓。根据OpenAI发布的资料,该模型在智能推理方面达到了前所未有的新高度,因此,模型版本号将从1开始计数。这或许意味着,我们不会再看到GPT-5,o1将成为OpenAI未来的顶尖力量。从9月12日起,ChatGPT Plus和Team用户已可率先体验这一模型。用户可根据需求选择使用o1模型的预览版——o1-preview,或是其精简版——o1-mini。o1-preview每周的使用上限为30条消息,而o1-mini则为50条。由于用户体验热情较高,OpenAI还在9月14日宣布重置本周所有用户的条数限制。

9月10日,Apple举行秋季新品发布会正式发布iPhone 16系列,同时宣布Apple Intelligence美国英语版本将在今年晚些时候在加拿大/澳大利亚/新西兰/英国/南非等市场推出,明年将支持中文/法语/日语/西班牙语。

腾讯推出游戏视频模型GameGen-O,可生成开放世界视频游戏,模拟游戏引擎功能,生成游戏角色、动态环境、复杂动作等,支持交互控制。业内人士称其为游戏工作室的ChatGPT时刻。

法国AI初创公司MistralAI发布了首个多模态模型Pixtral12B,拥有120亿个参数,能够处理图像和文本。然而,HuggingFace的技术主管指出其性能数据可能存在问题。尽管如此,Pixtral12B展示了强大的图像识别和处理能力,包括识别复杂数学符号和生成详细描述。MistralAI计划在聊天机器人和API平台上提供测试。

issue86 2024.9.16-9.22

微软已在Azure OpenAI服务中提供o1-preview和o1-mini两个模型的部署(API)。

微软召开发布会,介绍Microsoft 365 Copilot的Wave 2更新。包括新推出的 Copilot Pages 一站式网页搜索、内容策划和团队写作工具,以及通过 AI 生成 Python 代码快速处理 Excel 数据和一句提示生成 PPT 页面的功能。微软还推出了 Copilot 智能体以简化企业业务流程。

9月18日,360智脑推出基于CoT思维链概念的多模型协作功能,这一功能是通过多个大模型组成的智能体框架实现的,可以让多个模型共同思考和协作解决业务问题。用户可以从多款模型中任选3款,分别做专家、反思者和总结者,以实现更全面、深入的思考和推理过程。

9月19日,阿里巴巴在云栖大会上开源最新的Qwen-2.5大模型,并提供了0.5b-72b的各种尺寸。这一系列大模型包括Qwen2.5、Qwen2.5-Coder和Qwen2.5-Math等不同参数版本,适用于各种业务场景。此举进一步推动了国内大模型研究和应用的发展。

可灵 AI 全球升级发布,新增可灵 1.5 模型和 「运动笔刷」 功能,提升视频生成质量与控制能力。自 6 月发布以来,已进行 9 次迭代,超过 260 万人使用,生成视频超 2700 万部、图片 5300 万张。

智谱AI开源了其图生视频模型CogVideoX-5B-I2V,该模型支持通过一张图片和提示词生成视频。同时开源的还有标注模型cogvlm2-llama3caption,用于将视频内容转换成文本描述。智谱AI团队还发布了一些成功的应用案例,并公开了相关研究论文。

issue87 2024.9.23-9.29

9月25日,Meta推出新一代开源AI模型Llama3.2系列,包含从1B纯文本到90B多模态的多个版本,支持边缘和移动设备,旨在推动人工智能在多种使用案例中的应用。此次发布强调了模型的开放性、可定制性以及在图像理解和视觉推理任务方面的能力,同时提供了预训练和指令微调版本,支持高通和联发科硬件,并针对ARM处理器优化。Meta同日还发布了真AR眼镜Orion,搭载端侧大模型,现阶段作为原型机仅面向开发者,预计消费者版本将于两年内推出。

Google发布了两个Gemini模型更新:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002,提供更多的能力、更快的速度以及更低的成本。新模型在多个基准测试中有显著提升,特别是在数学、长文本和视觉任务方面。Google还降低了Gemini 1.5 Pro的输入和输出token价格超过50%,提高了两个模型的速率限制,并减少了延迟。

OpenAI正在向ChatGPT付费用户全量推出高级语音模式,该功能将使ChatGPT的对话听起来更自然。ChatGPT新增了五种声音,包括Arbor、Maple、Sol、Spruce和Vale,使得总声音数量达到九种。此外,最新版本的高级语音模式在理解口音方面有所改进,对话更加流畅和快速。中文方面,高级语音模式还可以使用北京话、上海话、四川话、粤语等方言口音进行对话。

Claude宣布Artifacts功能免费开放,免费版、Pro版、Team版用户均可立刻上手体验。

钉钉推出了面向个人用户的“365会员”产品,提供包括AI搜索、个人AI助理、AI自动回复和自动速读在内的会员专享权益。365会员中的AI搜索功能可以整合工作和协同信息,个人AI助理支持直接询问、识屏提问、拍照提问等多种交互方式。对于家长用户,会员还提供“成长记录”功能,可以智能识别孩子的照片并自动记录成长轨迹。

9月26日,哗哩哔哩宣布已上线自研大语言模型“index”,并将其应用于AI字幕。目前,B站的AI字幕具备中文、英文、韩语、日语、泰语等近10种语言的实时翻译能力,准确度接近90%。

美图公司宣布其“奇想大模型”的视频生成能力已完成全面升级,现在能够生成时长、画质、流畅性、真实性和可信度更高的视频。升级后,该模型可以支持生成1分钟、每秒24帧、1080P分辨率的超长视频。这项技术的进步将逐步应用于美图秀秀、美颜相机、Wink、开拍、美图设计室、WHEE、MOKI等产品。

字节跳动发布两款视频生成模型,分别是豆包PixelDance和豆包Seaweed。PixelDance单次可生成最长10秒的视频,Seaweed可生成最长5秒的视频,可动态延长至20-30秒。发布会现场,字节展示了PixelDance模型的生成效果,其优势主要体现在对复杂指令的理解方面,适合人物、剧情更为复杂的视频生成,而Seaweed模型的优势主要在于生成视频的清晰度。

2023年的碎碎念

1月

2023-01-02 12:05:12

推荐一个电子书聚合搜索:https://tool.yibook.org/

2023-01-03 09:05:17

我的 #2022年度产品 :TeslaMic&雷石KTV、AirPlay盒子、SynologyPhoto、DSPlayer、小报童

2023-01-03 14:38:15

抖音、小红书、bilibili、微博、网易云音乐的私信系统都越来越接近完整IM了

2023-01-07 01:20:17

“人矿”一词最早出现在1984年的中共党媒《人民日报》上。意思是说,人是一种“资源”。不过现代中国网友则更多的用于对其自身调侃和对个人命运的比喻,类似韭菜、牛马等。讽刺不把人当人。

也有网友认为,“人矿”的意思就是特指那些生下来,就被作为消耗品使用的中国人。他们读20年书,还30年房贷,养20年医院,一辈子被剥削、压榨套取利益,最后还被买卖人体器官,是为终极“韭菜”。

“人矿”一词被创造出来之后,在中国知乎网站上引发热议,不少人形容这个词准确传递出这个时代缩影下的人间悲歌,并一度冲上热搜榜。

有网民表示,“如果称我们是国家的主人,有很多事情无法解释。如果称‘人矿’,那就全说得通了。”

2023-01-07 03:19:46

晚点已经透露了小米汽车的最新进展,快的话下半年就会发布。

2023-01-07 04:13:05

有人用Stable Diffusion对日文汉字进行了训练,得到一个可以生成假汉字的AI模型

2023-01-09 11:45:47

MediaDevices.getDisplayMedia()

2023-01-11 05:53:57

今年微信公开课的主角只有视频号

2023-01-11 16:52:06

小小、我爱的人、爱情,很多人都不知道是杰伦写的

2023-01-14 02:27:46

看过《去有风的地方》

https://neodb.social/tv/season/GV6taEAk1jhcNBkbF0G2Q

2023-01-14 13:17:54

9亿人感染,6万人死亡。

2023-01-14 14:14:17

看过《中国奇谭》

https://neodb.social/tv/Bl7c8ML6qvjJ7J9v9nOZw

2023-01-14 14:18:58

李现说话的样子很像张朝阳

2023-01-14 14:47:02

USDT 2022年的总清算额达到18.2万亿美元,超越VISA和MasterCard

2023-01-15 01:57:06

B站给我推荐的主题颗粒度不如小红书的细

2023-01-15 11:57:59

三体电视剧版21:30在CCTV-8开播

2023-01-18 09:45:50

畸形防疫结束后,发达的线下商业和交通网络又让大城市的生活有了魔力。

2023-01-18 10:54:44

看过《三体》

https://neodb.social/tv/season/3IZfpVCON5B3RQj4aoALIp

2023-01-20 07:41:12

新版的macQQ也更新到这个UI了,之前更多应用里的天气、腾讯网、自选股都没了

2023-01-20 08:51:00

Twitter更新开发者条款:明确不允许开发第三方客户端

2023-01-20 09:05:43

成都进入两万亿GDP俱乐部。

2023-01-21 13:06:17

看大家吐槽春晚好欢乐!

2023-01-22 07:42:24

看过《流浪地球2》

https://neodb.social/movie/5P5rawCZmazL0NHXI2Hepd

2023-01-23 23:59:29

iOS 16.3对Apple ID增加了硬件密钥的支持

2023-01-24 15:47:45

国产的桌面操作系统,有这么几种路线:deepin/UOS以及优麒麟是Linux发行版,fydeOS是ChromeOS定制版,reactOS是Android x86定制版。

2023-01-25 05:55:51

📍乌镇

2023-01-25 12:56:52

ChinaCDC披露本轮疫情主要数据:https://www.chinacdc.cn/jkzt/crb/zl/szkb_11803/jszl_13141/202301/t20230125_263519.html

2023-01-25 13:14:18

山姆会员商店买的佳沛金果盒子里居然有个这:https://www.xsense.co/xsense-system/dataloggers/rf-hitag/

看了下是冷链管理用的温度数据记录器,应该是工作人员忘了取下来?

2023-01-26 02:54:48

工资卡在招行、公积金签约卡在招行、新版社保卡在招行、个人养老金账户在招行

2023-01-26 04:04:09

YiBook的电子书工具:https://www.yibook.org/

2023-01-28 07:55:53

2023年开工~

2023-01-29 09:02:28

影史前四票房的影片,卡梅隆执导的占了三部

2023-01-30 03:57:34

iteration integration两个词很像,还经常在同一个语境里出现。

2023-01-30 15:14:24

2023年了,现在最激动人心但大多数人还不了解的东西应该就是L2-L3辅助驾驶

2023-01-31 09:36:39

https://help.openai.com/en/articles/6825453-chatgpt-release-notes

ChatGPT昨日进行了模型更新,提升了事实性和数学能力

2月

2023-02-01 14:27:58

rewind.ai就像是超梦视频的一种了,随时可以回溯电脑屏幕上见到的东西,并且在信息量和存储空间上保持了平衡(1个月的记录数据约占用15GB空间),工作时也几乎感觉不到它的存在,目前唯二的缺点就是搜索仅支持英文以及有点小贵(每月20刀)。

2023-02-01 15:06:26

#nostr 协议的iOS客户端Damus上架,今天很多人涌入了

2023-02-01 18:21:51

nip-05认证需要hex key,用这个converter可以把npub公钥转成hex:

https://astral.ninja/devTools

2023-02-04 09:22:50

Teams将会加入会后AI recap,能直接给出总结性的meeting minutes

2023-02-04 14:17:06

https://store.steampowered.com/hwsurvey/

2023-02-04 14:39:17

nostr网络几乎是全公开的,甚至私信列表都是公开的…… 只是私信消息用私钥加了密

2023-02-04 16:09:32

一年之计在于春

2023-02-04 18:59:53

https://nostr.directory/

2023-02-06 01:18:05

元宵节的doodle点进去是台湾灯会诶,真正做到了“让世界看见台湾”

2023-02-06 03:43:21

两个真正出圈的AI:AlphaGo、ChatGPT,在命名上都是两个词,4-5个音节

2023-02-07 03:03:11

文心一格,文心一言

2023-02-07 04:24:39

效率革命

2023-02-09 01:56:14

Bard给出错误答案的问题:“关于詹姆斯·韦伯太空望远镜(JWST),我可以告诉我9岁的孩子它有哪些新发现?” 问ChatGPT得到的答案就相对正确。

2023-02-09 16:56:10

https://uegov.world/

2023-02-10 16:59:35

武汉上街的规模不小,可以。

2023-02-11 20:48:36

railway部署项目还是比netlify方便

2023-02-13 15:51:44

考虑把new bing设为默认搜索引擎了

2023-02-14 08:13:23

#aigc #chatgpt 留存这两个tag

2023-02-16 06:59:55

公众号给图文内容加了一种类小红书笔记的排版,之前有思考过,这种排版突出图片,加强了图片的视觉冲击力,适合生活方式内容。

2023-02-16 13:26:02

OpenAI拿下了ai.com

2023-02-18 14:22:35

Clockology,完全实现表盘自由

2023-02-19 10:43:26

有点意思

2023-02-23 01:07:30

灵感转瞬即逝

2023-02-23 03:43:52

看久了Chrome,感觉Edge的圆角UI有点好看了

2023-02-26 12:15:50

从图片中复制文本已经如此习以为常。

2023-03-01 05:34:33

人工智能·AI 工具导航网站盘点:https://zhuanlan.zhihu.com/p/608944516

2023-03-01 05:38:19

语音消息转文字也已经习以为常。

3月

2023-03-01 22:52:07

https://www.youtube.com/live/Hl1zEzVUV7w

2023-03-02 02:07:02

收回之前的判断,Bing Chat太啰嗦且保守了,啥事都是“我只是个搜索引擎”,还是ChatGPT for Google插件更好用~

2023-03-02 04:15:36

OpenAI终于放出了ChatGPT所用的模型:gpt-3.5-turbo

切换方法:model参数“text-davinci-003”修改为“gpt-3.5-turbo”

2023-03-02 07:33:52

https://platform.openai.com/docs/guides/chat

2023-03-02 08:45:15

ChatGPT真的是一个技术经验丰富的朋友,可以跟他探讨思路

2023-03-05 01:35:35

支付宝-生活,竟然做成视频号了……口碑生活现在变成了小程序

2023-03-05 13:44:44

小程序自己出了一个多端框架Donut,直接在IDE里编译完就能在手机端体验

https://dev.weixin.qq.com/

2023-03-06 12:10:11

如果大语言模型是电,ChatGPT是电灯,还会有哪些电器?

2023-03-06 17:15:57

ChatGPT已经提前预定了一个年度产品的席位。

2023-03-06 17:42:26

“人工智能的iPhone时刻”更准确的说法应该是“人工智能的AppStore时刻”。

2023-03-07 07:47:08

再多体验了几天,Edge的Bing侧边栏可以实时理解左侧网页上的内容,并且在时效性较高的内容上也能给出回答。虽然也遇到过回答错误和无法回答的情况,但在信息查询整合这个需求上(也即搜索引擎)还是实现得比较好的,值得肯定!

2023-03-07 08:44:20

https://chatexcel.com/

2023-03-08 18:05:31

创投圈有一种2011年移动互联网时代的氛围了

2023-03-09 14:31:33

“没有政治体制改革,经济体制改革的成果可能毁于一旦。”

2023-03-10 02:59:25

“全票当选”

2023-03-11 13:39:29

国内用美区bing app访问new bing,还要把系统地区切到美国:https://answers.microsoft.com/zh-hans/microsoftedge/forum/all/%E6%89%8B%E6%9C%BAbing/3da74b48-60d7-4f06-9575-0c06daab55c1

2023-03-11 14:39:29

李强这个总理,总感觉名不正言不顺,上海民间不少议论,但网上看不到任何评论。(当然,这次并无意外,从去年10月进常委排名第二就已经揭晓答案了)

2023-03-12 05:51:47

Glarity Summary对Google搜索结果的归纳整理已经离谱到还会给出“个人见解”

2023-03-13 01:15:30

立法法的修改,等于把立法权从全体会议缩小到常委会,而常委会几乎是委员长(一尊的傀儡)一言堂。

2023-03-14 02:14:09

GPT-4和文心一言,都可能在本周开放。

2023-03-15 03:05:24

OpenAI:GPT-4 是一种高级语言模型,可以处理和生成多达 25,000 个单词的文本,可以理解图像并表达与其相关的逻辑思想。虽然其并非完美无缺,但它可以帮助人们实现日常生活中的多种任务,如教育、个人辅导和更高效的生产力等。OpenAI 和微软合作开发 GPT-4,致力于使其成为更具实用性的技术,更加个性化地服务于每个人。虽然 GPT-4 尚不完美,但其已经成为当前最先进的人工智能系统之一,我们期待通过使用和改进不断提高其性能和安全性,使其成为更加广泛普及的智能辅助系统。

2023-03-15 03:18:56

GPT-4 擅长于需要高级推理、复杂指令理解和更多创造力的任务。支持多模态(图片)理解和高达25000词的prompt。但响应速度较慢。

目前开放给Plus用户的GPT-4模型尚不支持图片输入,从发布会视频看,演示人员在jupyter notebook里用pycord实现了一个discord机器人,通过机器人进行了图片输入。

开发者平台上,目前也需要加入等待名单,OpenAI会优先将GPT-4开放给使用GPT3.5创建过应用的开发者。

另外,New Bing已经运行在GPT-4模型之上,但也还不能进行图片输入,且最高2000词。

2023-03-15 13:22:24

315晚会上测试用的数据恢复软件叫FinalData企业版

2023-03-16 07:56:35

百度文心一言的界面一看就是深受ChatGPT和New Bing的启发 :0520:

2023-03-16 13:17:41

党政更加不分

2023-03-16 16:09:43

Google Docs又浅浅更新了UI :0080:

2023-03-16 16:14:24

https://chatyoutube.com

2023-03-16 16:47:35

微软赢麻了,Office全系配AI Copilot

2023-03-17 01:47:12

大眼夹重生了哈哈哈 这周太炸裂了

2023-03-17 01:52:29

通用型人工智能真的会带来生产力革命,格局不能小了。LLM是电,ChatGPT是电灯的话,Office Copilot已经是电视机了。再想远一点,人人都能拥有一个真正可用的个人助理(能帮你做事赚钱的),而且,可能还不止一个。

2023-03-17 06:36:14

20年6月,OpenAI GPT-3

22年3月,OpenAI GPT-3.5 (text-davinci-003)

22年10月,微信大语言模型WeLM:https://welm.weixin.qq.com/docs/playground/

22年11月,ChatGPT

https://chat.openai.com/

23年2月,微软New Bing

https://www.bing.com/new

23年2月,复旦大学MOSS

https://moss.fastnlp.top/

23年3月,微软Dynamic 365 Copilot

https://www.microsoft.com/en-us/ai/dynamics-365-ai

23年3月,OpenAI GPT-4

https://openai.com/research/gpt-4

23年3月,Google Workspace AI

https://workspace.google.com/blog/product-announcements/generative-ai

23年3月,百度文心一言

https://yiyan.baidu.com/

23年3月,Microsoft 365 Copilot

https://news.microsoft.com/reinventing-productivity/

2023-03-18 10:41:25

想看《网络谜踪2》

https://neodb.social/movie/6MC6fgqepgrunY4llqA54T

2023-03-20 00:12:32

过去的一周,通用型AI完全走入大众视野。

2023-03-20 08:12:05

在Mastodon实例转发了Solidot关于Mastodon用户数突破一千万的新闻🤣

2023-03-20 08:38:26

大街上戴dyson zone的压力还是很大的

2023-03-21 16:01:16

帮黄仁勋翻译下:AI离不开Cloud,Cloud离不开NVIDIA芯片和基础服务

2023-03-23 14:46:01

https://www.youtube.com/watch?v=_E-4jtTFsO4

2023-03-24 01:18:43

加入Loop Preview,但还没看到Copilot

2023-03-25 05:59:52

想看《小熊维尼:血染蜂蜜》

https://neodb.social/movie/5x0lx60NyErQKTAmSzs8Av

2023-03-25 06:07:01

提出摩尔定律的戈登·摩尔去世。

2023-03-25 09:49:38

skype直接强行增加了bing chat聊天会话hhhh

2023-03-25 09:51:06

在Loop设置-实验性功能-Copilot处打开了,见到了Copilot的中文UI,但请求报错,还不能完成。

2023-03-28 14:37:10

GPT-4正在重塑我的思维和认知。

2023-03-29 02:52:04

在云闪付里绑了一张很久之前开的卡,绑完发现还有余额,这就是赛博时代的“从衣柜深处的衣服兜里翻到了钱”吧……

4月

2023-04-01 11:49:14

Glarity Summary现在可以在任意网页上进行内容总结了

2023-04-01 16:25:52

https://github.com/twitter/the-algorithm

抽空读一下

2023-04-03 23:05:44

耳石症

2023-04-03 23:05:56

twitter logo变成了doge

2023-04-05 05:51:43

M6竟然在中国大陆上映了

2023-04-05 06:06:47

CashApp创始人在旧金山遇刺身亡……

2023-04-05 14:17:56

开发一个工具的成本低到0,自然语言描述给gpt就行了

2023-04-09 04:13:46

这一波AIGC产品,很高兴看到首选发布Web应用的越来越多。Web应用有快速迭代持续交付的优势,体验也越来越接近Native应用。

2023-04-09 04:14:50

LLM毫无疑问会成为基础设施。

2023-04-09 13:22:00

有些小颗粒度的内容是在一些垂直的媒体或者社区去follow的,这个也会有汇总的需求。

2023-04-11 01:46:58

手机仍然是最重要的个人计算设备,但随着AGI的发展,我们有望减少因手机的工具属性而消耗的时间。比如一些需要点很多次才能完成的事情,之后可能一两次点击就搞定了。

2023-04-11 07:14:26

生成式人工智能服务管理办法。这真是速度了

2023-04-12 17:15:32

确保Web3在香港发生。

2023-04-15 11:40:13

给一个最近很喜欢的开源项目提了PR,被merge了,开心

2023-04-22 16:27:26

全球就像重生了一样,又是一个轮回的开始吗?

2023-04-22 16:30:55

上海车展:士别三年,国产新势力已经快把传统品牌干死了……

2023-04-27 00:31:50

中超恢复主客场制之后,现场气氛非常棒!

5月

2023-05-01 06:54:28

读过《中国文化常识课》

https://neodb.social/book/5FPkwXyGiGfHYZX2xgD1PD

2023-05-01 16:33:37

iOS日历的中国工作日和闹钟还是没有连起来

2023-05-02 10:22:14

以前觉得视频教程不怎么好,现在理解了看视频其实就是人类最原始的学习方法:模仿

2023-05-02 13:57:29

吴恩达的ChatGPT Prompt课程:https://learn.deeplearning.ai/chatgpt-prompt-eng/lesson/1/introduction

2023-05-05 13:29:10

全剧终

2023-05-10 02:41:35

iPad Pro上会有越来越多的专业软件,这就是Apple Silicon带来的红利

2023-05-11 01:19:00

Pixel Fold感觉是两年前的机器😂

2023-05-11 01:27:43

PaLM 2 说部分任务超越GPT-4,但LLM就是必须全能才可用。

2023-05-11 05:19:26

目前已公开,无需自己搭建即可使用的LLM Chat服务有:ChatGPT、NewBing、文心一言、Claude、Google Bard、讯飞星火

阿里通义千问和商汤SenseChat目前并未开放。

2023-05-11 16:35:58

想看《人选之人:造浪者》

https://neodb.social/tv/21eA4iogGAja20EVHYAZjd

2023-05-12 08:05:14

512地震15周年。

2023-05-14 05:02:51

在玩《塞尔达传说 王国之泪 ゼルダの伝説 ティアーズ オブ ザ キングダム》

https://neodb.social/game/4Ixm8bYfeqJAoZkl09KKfR

2023-05-14 15:21:19

为亚洲杯准备的球场虽然没举办亚洲杯,但都成为了中超球队更好的主场。在电视平台转播和社交媒体传播下,今年有越来越多的人去现场看中超比赛,至少成都和上海火爆的球市可以证明这一点。

2023-05-15 01:24:30

很有意思的幕后 https://www.nintendo.com.hk/interview/totk/index.html

2023-05-16 15:25:15

获得GPT-4 with Browsing权限~

2023-05-17 00:47:07

instagram推出广播频道功能,类似telegram channel

2023-05-17 14:11:24

上纲上线,过于离谱

2023-05-18 11:55:10

确实,工业革命级的机遇,不急于在几个月内拿出电灯泡产品

2023-05-19 00:13:48

ChatGPT官方iOS客户端上架

2023-05-21 17:05:46

体验了GPT-4的Plugins,大多外部服务都撑不住ChatGPT带来的请求量,好多个插件都挂了

2023-05-25 00:38:06

Windows11终于要官方支持rar解压

2023-05-29 01:12:27

桂海潮毕业于北京航空航天大学,硕博连读又留校任教,也是北京航空航天大学宇航学院航天飞行器技术系教授、博士生导师,航天动力学和智能控制实验室核心成员,空间载荷专家。

2023-05-30 06:41:32

很久没能静下心进入心流状态了。

2023-05-30 07:14:38

国航排队航班催C919滑行快一点,虹桥机坪atc回应:人家是有要求的嘛😂

2023-05-30 08:05:53

矢量数据库要火一波了

2023-05-31 02:09:42

盖茨说他一生中经历了两次技术变革,第一次是GUI,第二次是LLM

2023-05-31 03:05:55

github已经官方支持了树形文件目录浏览,可以告别Octotree了

6月

2023-06-02 07:17:48

按量付费的IaaS服务中,DO、GCP、AWS、Azure几家是支持随时释放资源的

2023-06-04 09:48:54

蓉城客场运气好,在白玉碗带走3分。可惜罗慕洛伤退。

2023-06-05 15:18:03

6月的WWDC比9月的秋季特别活动更像是科技春晚

2023-06-05 16:05:48

凤凰山体育公园完美继承了成都体育中心金牌球市的衣钵

2023-06-06 13:43:47

曾经无数次设想Apple的AR眼镜发布后会是什么样,没想到这一天已经来了。

2023-06-06 16:35:41

使用vision pro进行facetime通话时,自己的形象是一个建模出来的虚拟数字人。

2023-06-08 05:40:15

两年过去了,Mac App Store里能用的iPhone App也没有太多

2023-06-12 11:02:04

Apple给开发者提供了一个叫做Reality Composer Pro的工具,这是为Vision Pro做了个Unity啊

2023-06-14 01:30:43

Vision Pro的视野空间叫做Shared Space

2023-06-18 10:13:29

盖茨来中国,今天翻出他3月21号的博客再读了一遍,https://www.gatesnotes.com/The-Age-of-AI-Has-Begun

2023-06-18 11:08:06

《新华社新闻信息报道中的禁用词和慎用词(2016年7月修订)》

https://baike.baidu.com/item/%E7%A6%81%E7%94%A8%E8%AF%8D/20139960

这个好像很久没修订了,不过全文能出现在百度百科也是出乎意料。是一个很好的简中语境科普材料。

2023-06-21 09:17:37

好热,一看日历都到夏至了

2023-06-22 11:01:47

IOIOX的免费泛域名证书造福大众!rssforever的rsshub镜像造福大众!ghproxy的github镜像造福大众!

2023-06-23 04:37:10

github web topbar更新了

2023-06-23 12:47:59

2023年榕江(三宝侗寨)和美乡村足球超级联赛 http://www.lysy360.com/league/10195/card#1

2023-06-23 12:52:42

北京大学出现反专制标语 一举牌者被校方保安带走https://www.rfa.org/mandarin/yataibaodao/renquanfazhi/gt-06222023233902.html

2023-06-24 01:57:09

mac版印象笔记升级到最新版后,已经不支持国际版账号,总算完全分开了,国际版app现在所有平台体验一致了,笔记历史也能正常查看了

2023-06-24 14:11:26

凤凰的实时timeline:https://news.ifeng.com/loc/timeline/event/8QryCOYZx2v?isFull=0&immersion=true&ifengsp=1

俄卫星通讯社做的这个地图,不是更明摆着你在入侵乌克兰 https://sputniknews.cn/20230114/1047134621.html

2023-06-26 09:25:29

https://developer.apple.com/documentation/xcode-release-notes/xcode-15-release-notes

2023-06-27 15:09:05

台湾的metoo才是真正的metoo

2023-06-27 15:34:32

才意识到所有的iPad都是没有震动马达的(即使是iPad mini)

2023-06-29 03:09:31

自动驾驶研发十年:https://mp.weixin.qq.com/s/7rSUVz9kzJz4Fmcj6eXuNg

7月

2023-07-06 01:29:59

ig新的threads应用之后会接入Fediverse

2023-07-06 07:50:52

Raycast正式替代掉用了10年的Alfred

2023-07-07 06:44:22

WAIC 2023在线直播:https://online2023.worldaic.com.cn/home

2023-07-10 07:52:28

不得以防止失联、提前关注、故留悬念等方式,诱导用户关注其他账号 //哈哈哈哈哈哈哈哈哈哈哈哈

2023-07-12 05:59:58

试了下Claude2,效果也蛮好的了。api还没开放,需要申请。

2023-07-12 06:02:00

GPT-4的代码解释器,实际是一个自然语言的python运行环境,能做的事情绝不仅限于解释代码和数据分析。

2023-07-12 06:07:34

iPad版微信小程序菜单没有“添加到桌面”,其实通过手机端唤起safari后,在iPad safari上添加到主屏幕就好了。

2023-07-13 03:37:20

已经可以实现图片转格式,以及将链接生成二维码(常见的python库能实现的功能)。但还不能联网使用第三方api比如OCR查看图片中的内容。

2023-07-16 04:29:14

成都的世大运氛围已经拉满了~

2023-07-16 14:34:54

看过《智能时代》

https://neodb.social/tv/season/3C7IswjC2mqwz2q43ixUOo

2023-07-19 03:25:03

llama2来了 https://huggingface.co/blog/llama2

2023-07-19 13:48:43

美团入股了智谱AI(清华GLM大模型背后的主体),加上之前的光年之外,大模型的船票已经握紧了。

2023-07-21 02:16:44

凯文米特尼克去世,年仅59岁。

2023-07-23 07:02:50

想看《芭比》

https://neodb.social/movie/2Wv4wI4vD9A2xKldfm6bVN

2023-07-24 12:44:06

玩了一会儿SteamDeck之后再拿起Switch:卧槽,这才是掌机啊

2023-07-25 09:00:08

http://tech.sina.com.cn/s/2004-12-27/1428485862.shtml

IBM的ViaVoice算是我第一次接触“人工智能”吧

2023-07-27 06:04:21

小程序的手机号授权,都改为了手机号验证组件,准备开始收费(价格跟通过短信验证码验证类似)。其实很多场景不需要做验证,只是授权来作为唯一id的。而且本身是从用户微信绑定的手机号来的,一般情况下也不需要再验证了。

2023-07-28 08:36:43

https://results.2021chengdu.com/index.htm#/schedule/dailyschedule

这个赛果发布系统不错

8月

2023-08-01 02:59:40

Agent as a Service

https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2023-08-02 03:14:48

秦刚依然下落不明,已经有传言他自杀了……

2023-08-04 18:47:08

云安、阿璞、阿信、青峰,台湾男生都好有才

2023-08-06 04:29:08

用docker把MetaGPT跑起来了~ 测试写了三个小游戏

2023-08-07 08:21:12

Evernote最近丢数据,还是把所有笔记全部导到Notion了(虽然丢失所有空行

2023-08-07 08:24:24

动不动就识别为电信诈骗,这个识别模型有点简单了

2023-08-08 10:22:39

Cortana要彻底被Windows Copilot替代掉了,微软已经关闭了Windows11上独立的Cortana应用。

2023-08-09 02:49:19

切换Bing国际版:https://www.bing.com/?mkt=en-US

2023-08-10 04:21:06

看到路特斯的流媒体后视镜,现在政策已经允许不带实体后视镜吗?不过特斯拉上的左右辅助后视镜头已经做到比实体后视镜视野广、夜视好了,确实可以替代了

2023-08-10 11:34:21

小程序也要备案,开发者又多一个门槛

2023-08-13 07:23:57

内马尔也要去沙特踢球了😅

2023-08-13 09:24:25

wordpress app升级成了jetpack app

2023-08-14 04:32:15

玩过《博德之门3 Baldur’s Gate III》

https://neodb.social/game/0w4Ta4NeXBnTnvEuJr2qAk

2023-08-17 03:38:30

有了AI之后,人人都是神笔马良。

2023-08-17 16:10:54

原来缅北的“园区”都是2019之后建起来的

2023-08-19 07:45:45

任然庄心妍金玟岐赵乃吉周思涵王靖雯 几个巨头了 :0080:

2023-08-20 12:26:32

看过《陌生人:对话圣战分子 Season 1 第1季》

https://neodb.social/tv/season/4r0SibQawf9OrCyTgaCqyJ

2023-08-21 09:07:00

花总口述:缅北电诈真相 https://mp.weixin.qq.com/s/yN1rlXcuwqRkxWQV__9lzA

2023-08-21 10:52:36

腾讯文档做了“智能文档”,也借鉴了notion

2023-08-23 08:17:48

目前普通用户“直接登录就能使用”或者“只要申请就肯定能通过”的国内chatgpt产品有5个:

百度文心一言、阿里通义千问、讯飞星火、搜狗百川、字节豆包

国际产品:ChatGPT、Claude、Bing、Bard

国内聚合产品:ChatHub、ChatALL

国际聚合产品:Poe、Pi、Perplexity

2023-08-30 05:23:49

中芯国际居然可以生产7nm制程的芯片了

9月

2023-09-03 02:39:22

https://www.apple.com/apps/ 酷

2023-09-03 17:39:00

很真实的小说 https://xszj.org/b/340683

2023-09-04 05:47:47

喝了酱香拿铁,酒味儿还挺重的 :0010:

2023-09-07 12:54:35

https://vocalremover.org/zh/

人声伴奏分离工具

2023-09-08 01:36:51

混元这个名字比文心/千问/星火都更贴切

2023-09-10 16:13:24

sunbelife做的“鸿蒙Smartisan主题”:https://mp.weixin.qq.com/s/0MHmCuKOCiCpMQjYaTUKAw

2023-09-12 17:53:29

usb-c正式一统天下

2023-09-13 02:39:15

Watch上已经是设备端Siri了,难道内置了一个LLM?

2023-09-15 04:27:30

瑞幸x茅台、7分甜x奇奇蒂蒂、奈雪x薄盒范特西,奶茶店争相做品牌联名

2023-09-16 16:57:54

外宾WeChat用户终于有看一看入口了……(Mac微信最新版本

2023-09-19 02:59:01

白岩松上次露面是周五的新闻1+1,昨晚节目是王宁,看看今晚

2023-09-19 03:02:20

王志安对习近平不去参加印度G20的分析还是有道理的,他可能真的觉得G20不再重要,而要以金砖国家为基础搞新的。朋友圈越来越小越来越穷真的是绝了

2023-09-20 14:25:33

Party Animals正式上架开服!

2023-09-21 15:07:50

HomeAssistant简直跟TeslaMate有一拼,数据控狂喜

2023-09-25 01:57:37

子母扣yyds了

2023-09-26 10:32:50

https://blogs.microsoft.com/zh/blog/2023/09/21/announcing-microsoft-copilot-your-everyday-ai-companion/

2023-09-28 07:20:49

Telegram的第三方客户端越来越追不上主端的更新速度了

https://mp.weixin.qq.com/s/IIRfnjl4YGNJJmmnx_KznQ

2023-09-30 08:56:24

https://info.hangzhou2022.cn/zh/results/all-sports/competition-schedule.htm

10月

2023-10-02 06:09:24

今晚乒乓球女双决赛是朝鲜vs韩国 :0080: 之前女足朝鲜vs韩国的时候差点打架 哈哈哈哈

2023-10-02 06:12:21

想看《浊水漂流》

https://neodb.social/movie/7XMp1e61V5Pq3nYPKr77rV

2023-10-02 06:19:35

Chrome可以“复制视频当前帧”了~

2023-10-03 02:35:17

亚运电竞手游的官方用机是vivo的iqoo 11s

2023-10-03 06:29:14

7月某个大型活动时误关live photo,这两个月拍的照片都不能动 :0170:

2023-10-05 03:11:19

Arc Browser宣布了他们的AI新功能Arc Max,可以看出考虑了很多实际应用场景。

1、AI链接预览:按住shift之后mouseover一个链接时,即可直接查看由AI总结的链接页面内容。

2、AI总结tab网页title:很多网站的title有统一前缀,导致实际title在很后面根本看不到,或者是为了SEO堆砌了很多无用关键词,现在Arc Max可以帮助重命名网页title。

3、同上,下载文件的title也会被重命名。

4、页面内查询功能:直接升级为AI问答

2023-10-05 05:04:02

发现qq音乐有首次收听时间显示了,手动点个赞

2023-10-05 09:05:01

中超官网的api域名证书过期了也没人管

2023-10-05 11:42:08

分管科技的杭州副市长胥伟华博士,有中科院工作经历,是这次亚运会的IT总指挥。

2023-10-05 11:55:32

新闻联播首位90后主播王音琪,在新闻直播间主持已经10年了

2023-10-06 01:34:29

这种环境谁还敢说话

2023-10-08 03:26:39

iOS 17最明显的改变是:打字时的光标颜色😅

2023-10-08 08:57:01

watchOS 10 中,不再支持左右滑动屏幕来切换表盘,现在需要长按表盘进入编辑界面,才能左右滑动切换。

2023-10-08 11:25:02

习近平文化思想…… :0391: :0190:

2023-10-09 02:35:03

iOS小组件更新更频繁、可交互,现在iPhone上的小组件也可以直接添加到mac桌面,通过连续互通刷新数据。

2023-10-10 00:22:46

亚运会跟世界杯同一年举办2022 2026 2030

奥运会跟欧洲杯同一年举办2024 2028 2032

2023-10-10 08:29:58

DALL·E 3 √get

2023-10-11 08:01:58

设备端机器学习会开始跑LLM

https://developer.apple.com/cn/machine-learning/api/

2023-10-12 08:03:10

X的home icon由鸟巢形改成了火箭形

2023-10-12 08:06:04

Bard的看图能力跟GPT-4V差不多诶

2023-10-13 06:02:17

老高和小茉最近的一期提到,我们要多做能留下记忆的事情。这好像也是我一直以来默默践行的。

2023-10-13 06:04:29

体验了心光app,现在的分词、关键词提取、总结的效果还很差,几乎不可用。

2023-10-13 06:08:51

体验了纯银的新产品「犬岛」,内在美社交app,通过回答不同的问题来丰富自己的profile。

每个人都有很多故事,每个人都是一本书,刷问题的同时也是在阅读每一个陌生人,这种感觉还真的很奇妙。

所以,即使不抱着社交的目的,刷刷别人的思想,也会对自己有所启发。(至今我回答的两个问题都是从别人的回答得到的启发,而不是主动从问题列表里去答的)

2023-10-14 15:56:12

iPhone的耗电来源又多了一个:Mac小组件

2023-10-16 06:30:45

想读《崇祯》

https://neodb.social/book/5Lz6qmhQeHlGQ8iSZ6tW6E

2023-10-17 04:00:57

百度把搜索、地图、网盘、商业分析产品都加入AI进行重构

2023-10-18 05:00:25

很多图书馆都有龙源的期刊资源,但是读览天下的没有几个有,省立中山图书馆nb

2023-10-20 03:17:57

OpenAI的API服务宕机2个半小时了…… 有Azure OpenAI备用还不错

2023-10-22 14:58:32

胡锦涛、秦刚、李尚福,现在依然不知道下落和近况

2023-10-25 03:14:41

发现github的北极代码存档徽章不显示了

2023-10-26 03:19:46

长二F确实稳啊

2023-10-26 03:29:34

王局还是去的年代向钱看

2023-10-27 02:24:59

也算是十年前投身过大众创业万众创新浪潮。

2023-10-27 05:50:57

Apple has released the developer beta of iOS 17.2, and it includes the new Journal app, a digital daily diary for users to log their activities.

2023-10-27 05:55:57

别了李克强,别了团派!|李克强|习近平|团派|两会|总理|政治斗争|王局拍案20230306 https://www.youtube.com/watch?v=O0p0jsV_eI8&list=PL3bAfMXyZjrPfLIHtd6Phb4R1gBswybSq&index=143

2023-10-28 18:09:39

原来iPad也可以作为homekit家庭中枢

2023-10-31 03:01:28

Apple Event在美西时间17:00开始,30分钟结束,大家下班去过万圣节了~

11月

2023-11-01 08:43:11

上海居然把公交改道,给万圣cos狂欢人群腾了路,这波可以

2023-11-02 06:32:19

今天只发现星巴克和东方甄选刷了灰

2023-11-02 07:16:38

Studio Display Pro赶紧发布吧,需要miniLED和ProMotion拯救下MacBook扩展显示器

2023-11-02 16:00:46

原来只有5个人有过十里长街相送的待遇,李克强这次一大原因是刚离任不久,民众对过去十年是十分有感的。

2023-11-06 06:43:37

Grok AI排队:https://grok.x.ai/

2023-11-07 01:28:33

OpenAI的iPhone 4时刻:https://www.youtube.com/watch?v=U9mJuUkhUzk

2023-11-07 03:27:10

OpenAI的开发者后台也大升级了,Usage统计更加详细,但去掉了每月累计图表

2023-11-07 03:47:26

GPT-4V API开放,支持多张图片与文本混合输入,GPT正式进入多模态时代。图片输入所消耗的token数量按像素尺寸计算。

2023-11-07 03:51:10

DALL·E 3 API也正式开放,图片生成质量大幅提高。

2023-11-07 04:16:54

想看《地球脉动 第三季》

https://neodb.social/tv/season/3smiJE2Hzp1TABMI4N4IXP

2023-11-07 06:44:01

GPTs,直接读作:/ˈdʒiː.piː.tiːz/,意思也相当于GPT的复数,无数个不同角色的GPT

2023-11-08 10:08:34

GPT-4-Turbo和GPT-4-Vision API目前都在Preview阶段,每日请求数限制为200条和100条……只能用来测试体验

2023-11-10 07:21:22

https://humane.center/

2023-11-11 06:55:26

https://www.gptshunter.com/

周三就有开发者做了第三方GPT Store

2023-11-11 08:25:20

关于Humane的一些介绍:

https://hu.ma.ne/

https://x.com/humane/status/1722789149525299491

https://mp.weixin.qq.com/s/IovIZChwAIIT_kmI7Ry7Aw

https://mp.weixin.qq.com/s/IovIZChwAIIT_kmI7Ry7Aw

这就是我想拥有的AI随身记录设备,全天续航,持续记录我的个人数据,可以随时询问回溯。并且投影到手掌显示信息也很酷炫。

想来也是,一些个人助理的事情,最好能语音交互解决,必要的时候才需要显示内容,不一定需要大屏设备。

一些场景:询问眼前食物的热量、第一人称视角拍摄、面对面翻译

2023-11-13 15:17:05

应该有两种带个人数据的AI:

一种是能访问我的消息、通讯录、日历、相册、日记、足迹、健康数据等私密信息的,可供我随时回溯和查询,可以作为我的个人助理;一种是收集了我所有的作品和公开发表的内容,能模仿我的文风语气生成内容的数字分身,他人可以与我的数字分身聊天,交换思想。

2023-11-15 03:25:58

NHK:中国经济失速的真相 https://www.youtube.com/watch?v=4hiolj4PUFw

2023-11-16 07:19:38

中美要么把休斯顿和成都总领馆恢复一下

2023-11-19 05:54:44

还是希望Sam Altman和Greg Brockman回到OpenAI,这个team不是草台班子,罢免Sam的董事会才是。

2023-11-20 08:14:53

连续剧以小时级速度更新……

2023-11-21 02:10:28

本地跑大模型:https://ollama.ai/

2023-11-21 04:57:02

业界有观点认为,GPT-5可能已经在OpenAI内部表现出超越人类的特性,才会使ilya急于阻止sam融资和推向市场。

2023-11-22 03:43:19

本地跑LLM的几个整合包方案:

1、LlamaGPT,Umbrel on Ubuntu https://apps.umbrel.com/app/llama-gpt

2、Ollama & Chatd,支持macOS和linux,https://ollama.ai/

3、ChatGLM3一键整合包,仅支持Windows https://xueshu.fun/3157/

4、Baichuan 2离线整合包,仅支持Windows https://zhuanlan.zhihu.com/p/664308020

5、Pinokio 支持macOS和Windows https://pinokio.computer/

2023-11-22 06:42:52

OpenAI Assistants API,其中的知识库文件上传限制为最多20个,单个文件不超过512MB

2023-11-22 10:07:22

跟进热点做网站获得流量:

Godaddy购买域名;

Github托管代码;

Vercel部署项目;

GoogleSearchConsole管理收录;

ProductHunt冷启动;

2023-11-23 00:46:42

Procreate Dreams的Perform Mode表演模式真的实现了拖拽元素做动画

2023-11-23 06:01:45

vercel和nextjs确实好用

2023-11-23 15:21:20

蓝白合破局,kp啊

2023-11-24 10:02:10

M1的MacBook Pro已经上市三年了

2023-11-26 06:01:17

想看《备忘录 The Memo》

https://neodb.social/movie/1lE3hSp4oQ5Wc8fySnkgJH

2023-11-28 06:18:00

蛋炒饭抗议是一种网络抗议方式,于每年10月24日(毛岸英诞辰日)前后,又或11月25日(毛岸英的死亡日期)发生。 网民以张贴蛋炒饭食谱的方式,作为一种对毛岸英于朝鲜战争期间身亡的微妙讽刺;谣言称,毛岸英是因为做蛋炒饭生火把敌机引来,才牺牲的。

2023-11-28 08:44:30

白纸一周年过了,接下来还有防控新十条一周年、乙类乙管一周年

2023-11-28 09:03:23

大陆影人的作品在金马60拿下最佳剧情片、最佳原著剧本、最佳纪录片和最佳纪录短片奖,可谓创2019年以来的新纪录。

大陆导演兼编剧孙杰(作业本)自编自导的首部剧情片《大山来了》入围本届最佳新导演及最佳原著剧本奖,在最佳新导演奖败给《年少日记》香港导演卓亦谦,但《大》拿下最佳原著剧本奖。有指,孙杰本欲出席11月24日的新导演电影论坛,但金马网站突然宣布孙杰因“行程异动”无法参加。他未出席颁奖典礼,由友人代为领奖。

记录上海因冠病疫情封城的《备忘录》获得最佳纪录短片奖;最佳纪录片奖由大陆导演王兵聚焦童装工厂年轻工人的《青春(春)》,击败许鞍华、蔡明亮和赵德胤的作品夺得。

2023-11-29 03:15:00

想读《疫年纪事》

https://neodb.social/book/1UusbLJzXLOl1oBSOXk0q3

2023-11-29 13:50:14

《黑铁的鱼影》BD/DVD今日发行,大陆定档12/16

2023-11-30 02:19:41

ChatGPT发布一周年。

2023-11-30 13:07:46

魅族21太漂亮了

12月

2023-12-04 03:27:24

中国教育部今天在全国中小学举办了宪法晨读活动,直播信号来自 https://static.qspfw.moe.gov.cn/2023xfr/index.html 没有在CETV进行直播。

2023-12-04 11:38:38

五月天演唱会完全是听个氛围,一起边唱边跳。如果真有垫唱的情况完全可以理解,这个我觉得不算假唱,又不是直接拿CD音源来放 :0060:

2023-12-06 14:47:20

Pika 1.0就像是Midjourney v5发布时的效果

2023-12-06 16:01:37

Bard已经升级到Gemini Pro模型

2023-12-08 07:07:13

Grok的中文能力明显较差,逻辑能力也不怎么样,唯一亮点就是有X的实时搜索结果作为信源。

2023-12-09 14:33:06

这周二刷了疯狂动物城和飞屋环游记,有发现以前看的时候没注意的细节

2023-12-13 04:27:17

https://trends.google.com/trends/yis/2023/GLOBAL/

Google年度热搜榜

2023-12-13 16:33:46

https://blog.google/technology/ai/gemini-api-developers-cloud/

2023-12-14 09:14:47

再次感慨,AI一天,人间一年。

2023-12-15 05:21:04

happyrain的碳纤维伞肯定能上我的年度产品榜

2023-12-15 06:01:21

crisp这个在线客服工具甚至能看到用户的浏览器界面……

2023-12-15 06:32:48

doubao.com和ciciai.com是字节AI chatbot同一个产品的国内版和国际版……

2023-12-15 15:41:49

我只希望我的朋友们——无论是多年至交、已无联系的同窗还是萍水相逢的网友,能够不被这些眼光所裹挟,能够在自己的舒适区中实现精神的自洽和作为人的自由。

2023-12-16 18:28:26

《黑铁的鱼影》里竟然出现了deepfake的应用……反思人脸识别的过度使用

2023-12-17 15:41:59

https://www.fal.ai/camera

逆天了,输入人名,立即实时deepfake

2023-12-18 06:36:16

英国核废料储存设施被指泄露,多国关注核安全隐患 https://theinitium.com/zh-Hans/article/20231213-whatsnew-international-uk-sellafield

2023-12-19 06:52:32

Arc Browser的书签Folder分享功能不错,展示美观,适合公开发布。

2023-12-19 08:02:54

https://a16z.com/big-ideas-in-tech-2024/

2023-12-20 12:59:44

每次穿新衣服的第一天,吃饭必然会洒到衣服上 :0170:

2023-12-20 19:02:33

今年的很多数据都是在跟2019年对比,仿佛2019年就是去年。

2023-12-21 06:03:10

阿联酋教育部还做了个这:https://chat.milo.dev.digest.ai/

2023-12-21 15:04:53

#nowplaying 圣诞星 – 周杰伦&杨瑞代

https://y.qq.com/tl_live/client/liveroom_pc/index.html?showid=10000746&_wv=1

2023-12-23 15:55:46

哈雷彗星最近一次经过远日点的时间是在2023年12月9日。远日点是彗星轨道上离太阳最远的点,哈雷彗星在这次经过远日点时距离太阳大约是35.1天文单位。

(扫把星开始奔向地球,2061年见

2023-12-24 01:45:15

怎么还没有轻便好用日常能穿的风火轮鞋子

2023-12-25 04:28:09

电视剧里的角色用的是iPhone4,瞬间反应过来是十几年前拍的

2023-12-27 06:47:31

年终总结多到看不完了

2023-12-28 14:57:16

香港这几年的变化还不小

2023-12-31 14:38:45

刚才是一首什么奇怪版Queencard。。。

OpenAI DevDay Nov. 2023 观后

3月15日发布会上展示过的GPT-4视觉能力的API终于正式发布了,训练数据截止到2023年4月,可以说GPT-4 Vision & 128k context才是GPT-4的正式版形态。

DALL·E 3模型一并开放,与GPT-4配合,图文生成相得益彰。

目前GPT-4 Turbo和GPT-4 Vision都还是preview,模型代号分别为gpt-4-1106-preview和gpt-4-vision-preview;每个开发者账号每天的调用次数上限仅有200次(GPT-4 Turbo)和100次(GPT-4 Vision)。

很快就看到新的应用:有人用它来理解一段视频的所有关键帧,它可以快速理解视频的主要内容并能根据理解给出询问问题的结论。

具有真人语音效果的TTS-1模型也正式开放,一个可以听说读写画、具有人类所有知识的智能体诞生了,除了没有肉体和情感。

11/10补充:

GPTs,虽然这个idea今年2月在业界就有了,但OpenAI的产品实现也值得观察:通过自然语言提需求创建prompts应用,应用能力不仅是会话,还支持创建者上传自有的知识库、调用web browsing、dalle3和python沙盒,甚至可以配置与外部联动的自动化。可通过固定链接小范围传播(分享后有落地页),也可发布到GPT Store供他人使用,用户端也可以多模态输入。

闺蜜机使用体验

闺蜜机/随心屏这个品类,是LG standbyME设备在2022年创立的,可旋转可移动的27寸触摸屏,我觉得很适合作为家里的第二屏。今年几乎国内所有的电视厂商都推出了同类产品,几番对比之后,入手了小度旗下的添添闺蜜机。

虽然乍看就是个大号安卓平板,但实际体验之后,发现还是挺香的:

-类纸屏,不会有镜面反光,显示效果跟环境融入得很好,跟Samsung Serif和LG Pose这类画境电视很像。既可以用作相框,也适合用作实时信息屏。

-27寸的大小刚刚好,无论是放在卧室、书房,甚至拖到卫生间,都适合有一定距离的观看(如果是iPad Pro+支架,就感觉小了)

-小度的设备,本身也是个智能音箱,可以随时语音控制(还带了mesh网关,可惜家中的智能生态是Homekit,小度就只能用来控制它本机了),内置的音箱功率也不大,但外放效果还是比iPad Pro好上不少的,适合家中听歌看剧。

-机身内置的摄像头可以实现视频通话、远程监控家中情况的功能,但带了一个物理镜头盖,这个设计很棒,有时候简单直接更让人安心。

-竖过来可以当作AI健身镜,通过摄像头检测,屏幕会实时显示动作标准程度。另外,还内置了两款摄像头体感游戏,通过深蹲和挥手进行控制。

-送了两个蓝牙麦克风,配合全民K歌可以实现家中KTV。

-作为大平板,它能安装任何手机应用,手机端的视频VIP都能直接使用。它还能投屏和外接HDMI设备当显示器使用。

-不方便触摸操作时,小度app提供了远程控制和遥控器功能。

-系统桌面是小度dueros定制的,更适合这款设备,待机时的效果美观,不low(作为环境软装,这很重要)

再说说缺点:

-立柱端的支架不可调角度,有时候还是觉得屏幕探出来的距离有点占空间。

-画框中的相册照片没有标注哪些是动态的,不可排序,也不可远程更新,希望后续系统升级可以优化。

-6GB RAM还是有点小,现在的流媒体app都很占内存,滑动快了会卡。

-投屏还是乐播的方案,常见的应用投屏都没遇到问题,但手机端Youtube只能投屏出界面,视频流没有投屏成功。

-普通机顶盒可以正常接HDMI,但试了fire tv stick的HDMI信号不能正常显示。

其他使用场景:

1、浏览器访问墨香,大屏就变成读报机~

2、央视影音app挂着iPanda熊猫频道,0距离观察心上熊的生活~ 挂机陪伴类的直播都很适合,比如国际空间站看地球~

3、微信读书的语音听书,边听边看~

4、小红书的一些竖屏视频可以当作动态壁纸~

杭州亚运,直播怎么看

本届亚运会,官方转播权在央视,焦点比赛,CCTV5/5+/16会进行直播,16现在还有HD和4K两个台标版本。部分地区电信移动联通的IPTV盒子可能没有5+和16这两个频道,如果没找到,可以翻出当地广电的数字电视机顶盒试试。

移动端:央视频App、咪咕视频、抖音、腾讯视频/腾讯体育。跟此前奥运会大运会一样,移动端都可以切换多视角机位,或者是多赛同看。值得一提的是,抖音的直播无需开会员,直接无广告,切换顺滑,直播页面交互简单,体验非常好。更新到最新版本在抖音搜索“亚运”即可进入专题页面。

数据:亚运官方info站有来自BONAN的实时比分数据,同时也有赛程、场馆运动员资料等信息,可以查看完赛赛果、当前正在进行的所有赛事和即将开始的赛事,有PC/移动端自适应网页。另外,亚组委官方支付宝小程序“智能亚运一站通”的第二个tab“赛事通”,也有类似info站的信息,没有运动员资料,但有每场比赛的比分详情可视化图表,可以看到比分胶着的比赛,双方得分是交替上升的。

另外,腾讯视频的赛程表上可以查看单场赛事的实际开赛时间,并可直接进入视频直播。

AI改变生活

回想起来,02年左右在PC上第一次体验到了IBM的语音输入,通过ViaVoice软件,用耳麦说话就能实现在Word中打字,算是我第一次接触到“人工智能”。

而现在,我们对语音转文字、从图片中复制文本等场景已经完全习以为常,自然到就像呼吸一样。

说到语言翻译,这些年的进步也是显著的。与十年前相比,现在的机器翻译已经更为流畅、自然。特别是结合了图像识别技术之后,我们可以直接拍照进行翻译,效果也大幅提升。而在大型语言模型如GPT系列的推动下,机器翻译的效果甚至已经接近于母语者的水平。

对于开车来说,高算力的芯片配合遍布车身的摄像头提升了车辆自身的感知能力,让我们驾驶更加安全,很多场景下辅助驾驶已经比我自己还开得稳。例如雨天人眼已经看不清车道标线,而计算机视觉呈现出的3D画面却毫秒级的显示出了我是否仍保持在车道中。

除了这些,还有更多的可能性正在被探索。例如,我们可以通过图像识别技术来识别和跟踪动物,帮助我们更好地保护生态环境。我们也可以通过语音识别技术来帮助听力障碍的人们理解他人的话语,使他们能够更好地参与到社会交往中。

这些技术的应用是无限的,它们让我们的生活变得更加便利,也为我们提供了更多的机会和可能性。我们期待着它们在未来能够带给我们更多的惊喜和变化。而我们,也将和这些技术一起,不断地探索和前进,创造一个更美好的未来。

WWDC23 Keynote观后

记录几个印象比较深刻的点:

1、虽然在Apple Park开放了受邀开发者区域,但整场发布会依然是录制的,不是live,开发者在现场大屏幕上观看;

2、iPadOS 17桌面小组件可以进行交互了,新增了健康app;

3、Vision Pro至少在以下几个方面优于当下最好的头显(hololens/quest/pico/psvr):

-显示效果(精细的分辨率和减低眩晕感)

-无需控制器,直接眼动+手势交互

-3D视频拍摄和浏览、全景照片浏览

但应该还无法作为显示器串流PC VR游戏。

4、Vision Pro的操作系统叫visionOS,而不是此前传言的xrOS;

5、由于初始设置设备时有一个人脸的扫描,佩戴着Vision Pro进行facetime的时候,对方看到的是一个建模出来的自己,从官方视频看,效果非常逼真;

6、可以通过digital crown调节从AR到VR(现实到虚拟)的沉浸度;

7、可以不连接iPhone独立运行,但目前尚不清楚跨设备“连续互通”的具体交互形式;

8、Vision Pro的电池是外接的,像是连接了一个充电宝,使用时将连接线吸附于左侧绑带,外置电池可以装入衣裤口袋;

9、可以看出Apple此前的LiDAR、3D结构光face ID、空间音频都是在进行技术积累和验证;

10、Vision Pro售价3499美元,明年初在美国上市,明年晚些时候在更多地区上市。

11、Vision Pro仍然是室内使用的设备,期待它的形态早日进化为日常佩戴的眼镜。