3月15日发布会上展示过的GPT-4视觉能力的API终于正式发布了,训练数据截止到2023年4月,可以说GPT-4 Vision & 128k context才是GPT-4的正式版形态。
DALL·E 3模型一并开放,与GPT-4配合,图文生成相得益彰。
目前GPT-4 Turbo和GPT-4 Vision都还是preview,模型代号分别为gpt-4-1106-preview和gpt-4-vision-preview;每个开发者账号每天的调用次数上限仅有200次(GPT-4 Turbo)和100次(GPT-4 Vision)。
很快就看到新的应用:有人用它来理解一段视频的所有关键帧,它可以快速理解视频的主要内容并能根据理解给出询问问题的结论。
具有真人语音效果的TTS-1模型也正式开放,一个可以听说读写画、具有人类所有知识的智能体诞生了,除了没有肉体和情感。
11/10补充:
GPTs,虽然这个idea今年2月在业界就有了,但OpenAI的产品实现也值得观察:通过自然语言提需求创建prompts应用,应用能力不仅是会话,还支持创建者上传自有的知识库、调用web browsing、dalle3和python沙盒,甚至可以配置与外部联动的自动化。可通过固定链接小范围传播(分享后有落地页),也可发布到GPT Store供他人使用,用户端也可以多模态输入。