1、去年5月V2发布后,我首次注意到DeepSeek-chat和DeepSeek-coder两个模型,API价格是国内最低的。当时还不了解DeepSeek的愿景是实现AGI,只觉得幻方做量化交易囤了GPU正好用来训练自己的大模型,是蛮自然的事情。后来读了36氪”暗涌Waves”栏目在23年和24年两次对梁文锋的采访,才更加了解这个团队以及模型背后的故事。
2、DeepSeek对世界的重大贡献是把具有思维链的推理模型R1开源了,并且是1月20日当天发布即开源。而OpenAI的o1是去年9月发布预览版,12月发布正式版,满血的o1需要200美元的Pro订阅用户才可以用到。
3、模型开源,最直接能体会到的是可以把具有推理过程的LLM运行在自己的设备上,不用联网、不用把你的问题发送到服务器。企业或组织也可以很方便的将模型部署在组织内部。
4、我在16GB内存的M芯片MacBook Pro上用Ollama运行了R1-7b参数的版本,在需要深度思考和推理的问题上,表现确实优于Qwen2.5,但某些测试问题,思维链在反思中会否定正确答案,或者连续几分钟仍在思考中像是进入了死循环。DeepSeek线上的网页版应该是671b的版本,则没有出现这类情况。
5、除夕当天,DeepSeek在全球所有区的AppStore(来自七麦数据监测的149个国家和地区应用商店)免费榜登顶,此前应该没有任何app达成这个成就。