整整21个月,豆包大模型正式进入2.0时代!
本文最后更新于57 天前,其中的信息可能已经过时,如有错误请发送邮件到big_fw@foxmail.com
整整21个月,豆包大模型正式进入2.0时代!
整整21个月,豆包大模型正式进入2.0时代!
整整21个月,豆包大模型正式进入2.0时代!
整整21个月,豆包大模型正式进入2.0时代!

金磊 发自 凹非寺

在Seedance 2.0和Seedream 5.0 Lite,一波接一波爆火之后,豆包把完全体拿出来了——豆包大模型2.0。

这是时隔21个月以来的最大版本的更新。

像Seedance 2.0已经成为全民玩转的AI,我们也试着做了一个视频:

视频地址:https://mp.weixin.qq.com/s/h8jaVOGREQt2tOFHG39VmQ

短短5秒钟,效果确实是足够逼真。

也难怪老外也开始研究怎么注册中国手机号来体验了……

再如Seedream 5.0 Lite,首次支持联网检索,生成的图片也达到了商业化的水平:

而就在今天,在视觉模型火爆之后,豆包终于把那个最核心的大脑拿出来了——豆包大模型2.0。

整体来看,这次豆包大模型2.0在多模态理解、企业级Agent、推理和代码能力上都有了不少的提升:

更直观的提升,体现在榜单测评中。

例如在MathVista、MathVision、MathKangaroo、MathCanvas等数学推理基准上达到业界最优水平。同时,在 LogicVista、VisuLogic等视觉解谜与逻辑推理基准上,Seed2.0 Pro得分较Seed1.8显著提升。

并且在VLMsAreBiased、VLMsAreBlind、BabyVision等基准中,豆包大模型2.0取得了业界最高分!

那么接下来,还是老规矩,一波实测,走起~

首先,我们就要测试最近各家都在主推的代码能力。

在字节旗下的AI编程软件TRAE中,我们目前就能体验豆包大模型2.0的能力:

我们就先以3D模仿求解器的案例,来小试牛刀一下:

你帮我写一个能解决魔方的群论算法,然后用前端页面演示下吧,要求美观,本地当前文件夹下的所有文件都可以直接编辑删除和覆盖。

视频地址:https://mp.weixin.qq.com/s/h8jaVOGREQt2tOFHG39VmQ

不难看出,豆包大模型2.0很好的理解了基于群论的智能算法,并且在视觉和交互上也是比较惊艳。

面对复杂的物理模拟,也是不在话下:

视频地址:https://mp.weixin.qq.com/s/h8jaVOGREQt2tOFHG39VmQ

接下来,我们来一个更加复杂且长任务的测试——3D版大富翁游戏(上下滑动)。

请欣赏效果:

视频地址:https://mp.weixin.qq.com/s/h8jaVOGREQt2tOFHG39VmQ

可以看到,豆包大模型2.0依旧是稳稳拿捏。

难度再上一层楼,这次我们直接做一个《我的世界》(上下滑动):

同样也是稍等几分钟,高仿版《我的世界》就诞生了:

视频地址:https://mp.weixin.qq.com/s/h8jaVOGREQt2tOFHG39VmQ

并且豆包官方也展示了通过豆包大模型2.0和TRAE生成的“AI春节庙会”:

视频地址:https://mp.weixin.qq.com/s/h8jaVOGREQt2tOFHG39VmQ

当然,像模拟可交互的苹果电脑系统这种任务,也是非常轻松实现:

视频地址:https://mp.weixin.qq.com/s/h8jaVOGREQt2tOFHG39VmQ

除了编程之外,像复杂的图解问题,豆包大模型2.0也是可以轻松拿捏。

例如我们直接丢给它这样一张图:

豆包大模型2.0在接收到问题之后,立即给出了正确答案(上下滑动):

类似的,复杂的数学问题也是不在话下。

由此可见,豆包大模型2.0在推理、编程和数学问题上,都有明显的性能提升。

实测下来,最直观的感受是:豆包大模型2.0变稳了。

它不再满足于陪你聊天,而是试图帮你写完一个项目、算出一个难题、画出一张商用级海报。

这也引出了一个问题:为什么现在才是2.0的节点?

过去一年,大模型行业陷入了卷参数和卷价格的混战。但字节跳动似乎一直在憋大招。这个时间点发布2.0,或许是因为在数据质量、训练效率,以及应用效果都突破了一个新的临界点。

特别是在Agent场景下。

真正的企业级应用,不是靠聊天解决的,而是靠行动。豆包 2.0 展现出的工具调用能力和长程任务规划能力,显然是冲着ToB和生产力工具去的。

性价比是否更具优势?答案是肯定的。

在测试中我们发现,虽然能力变强了,但推理速度并没有明显的延迟。据技术报告显示,Seed-2.0系列(包括 Pro、Lite、Mini)在同等性能下,通过架构优化,大幅提升了Tokens效率。

这意味着,企业用它来做客服、做数据分析、写代码,成本会更低。

现在,豆包大模型2.0已经全面上线,感兴趣的小伙伴可以去试试喽~

版权声明:

本博客部分内容为转载文章,旨在分享有价值的信息,版权归原作者所有。

转载仅为个人学习与交流目的,不对文章观点负责,亦不用于任何商业用途。

如涉及版权问题,请联系本人删除。

文末附加内容
上一篇
下一篇