DeepSeek新版R1直追OpenAI o3!实测来了:“小版本升级”着实不小
DeepSeek 终于还是在端午节前来炸场了:
R1 更新新版本DeepSeek-R1-0528,看名字你可能以为是个小版本更新,但实际上——
" 在 LiveCodeBench 上几乎与 OpenAI o3-high 相当!"

" 讲真这其实就是 R2 吧。"

不怪网友们惊呼声一片,看第一波实测结果,就知道事情并不简单。
新版 R1 的小球弹跳实验,与旧版对比结果如下:

△图源:@flavioAd
也能做对难倒 o3、Gemini 2.5 pro、Claude 4 等一众顶流大模型的数字新难题 "9.9-9.11=?" 了。

新模型已经在 HuggingFace 上释出,依然是 MIT 协议。

官方还没有更新模型卡,不过网友们已经迅速整理出了更新亮点:
能够像 Google 模型一样进行深入推理
改进了写作任务——更自然、格式更好
独特的推理风格——快速且深思熟虑
长时间思考——每个任务最长能思考 30-60 分钟
总而言之——

一手实测
根据 DeepSeek 官方信息,目前官方网站、App 和小程序都已经上新了 R1-0528。

先来浅测一下 " 让 7 米长的甘蔗通过 2 米高 1 米宽的门 " 这道经典题。

整体来说,还是给出了一些可执行的方案(?)值得一提的是,这道题新 R1 思考了足足151 秒。
在思考过程中,它还会考虑答案对提问者而言是否有趣。

也会试图用一些幽默的方式来应对难题。

在第一波实测中,不少网友提到,新版 R1 的编程能力显著优化。

我们也来了一波快速测试,提示词主打一个简单:
用 Three.js 模拟太阳系,鼠标悬停在星球上时显示星球名称。
只思考了 24 秒,新版 R1 就理清楚了设计思路:

直出效果是这样的,有动画,能交互,连光影也安排上了:

再来看看新版 R1 的前端设计功底:
结合这篇论文(注:上传了论文附件),设计一个介绍 R1 的网页。

以后整点什么小作文可以直接请 DeepSeek 写网页了
One More Thing
说起来,就在前两天,围绕 DeepSeek 新模型,还整出了个 "DeepSeek-V3-0526" 的乌龙:
Unsloth 本来想抢个 DeepSeek 新模型的消息首发,准备了个文章模板,没成想让搜索引擎给爬了,于是乎社区开始疯传……

现在想想,网友们表示:一切并非空穴来风啊(doge)。
在讨论当中,大家也重新提及了 DeepSeek 今年 3 月份对 V3 进行的升级。
当时,官方的说法也只是 " 小版本升级 "。同样,网友们实测下来的感受是 " 这都算小什么算大 "。
而现在的 R1-0528,很有可能就是在 V3-0324 的基础上修炼的。
Anyway,随着更多测试的呈现,可以肯定的是,开源再一次并上了 o3、Claude 4 的闭源脚步:
这是开源的一大胜利。

HuggingFace 地址:
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
— 完 —
量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应用,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向。
也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~
一键关注 点亮星标
科技前沿进展每日见
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!