4o/Gemini/豆包谁生图强？我感觉不用比了……

新浪AI

2025.04.0321:17

关注

模型即应用

所谓“模型即应用”，最近在GPT-4o身上得到了最好的印证。

前天，Sam Altman发推说，“自GPT-4o生图功能上线后，他们在1小时内就新增了100万用户。”

OAI自己也没想到，吉卜力风格会让ChatGPT再次火爆全球。一时间，人人都在玩吉卜力。

为此，我们找来了行业比较有代表的Gemini 2.0 Flash、豆包（基于即梦图片模型）与GPT-4o做对比，看看究竟谁更强。

测了后发现，其实我们在做无用功。。

因为，GPT-4o毫无疑问就是目前最强的生图模型，断档式第一的那种。

文生图对比

文生图，即T2I，Txt-to-Image。输入一句话指令，生成一张图片，是生图模型最基础的能力。测评文生图，主要考验模型的数据集和泛化能力，看语义一致（提示词遵从）、审美、风格、文字能力以及人物表现细节等情况。

1）基础生图

Prompt：一个穿着白色连衣裙的中国女孩在樱花树下微笑。

非常简单的一个提示词。豆包和Gemini看起来不错（虽然豆包有点像韩风），4o的手有点不太协调，看起来怪怪的。

2）抽象理解

Prompt：孤帆远影碧空尽，唯见长江天际流。

三者中，无疑GPT-4o的抽象理解更好，更接近中国人脑海中的诗意画面。Gemini有点像写实风格，在拍真实的长江。而豆包这明显是现代风格，怕不是哪座江城的夜景吧。

3）中文海报

Prompt：生成一张充满活力的烤串促销海报，画面中央是展示一把各式各样的烤串，有荤有素，上面有醒目的“盛夏烧烤”“5折优惠”文字主题，文字微微变形，利用透视达到很震撼的效果。下方显示价格标签“19.9起”。海报采用红、白、黄配色，纯色背景，突出烤串。

文字领域，4o确实是独一档的存在。豆包也能生成文字（新版即梦3.0，据说文字生成精度更好，可惜我还没有被灰到

），但是容易有错字，不过这风格倒是很符合国内电商的特点。Gemini则明显是欧美广告的风格了。

4）中文内容

Prompt：请帮我设计一份中文的甜品店菜单，店铺名称是：“沃垠”。请选择清新淡雅的颜色，保持高端和简洁的风格。为每一道甜品配合适的插图。确保所有文字正确呈现，背景为白色。甜品包含： 1. 草莓慕斯杯￥15 （招牌。酸甜草莓搭配丝滑慕斯，颜值与口感并存） 2. 抹茶红豆千层￥10（日式抹茶风味与红豆沙的细腻交织） 3. 芒果椰汁黑糯米￥13（热带风情组合，椰香浓郁，软糯香甜） 4. 星空马卡龙￥15（蓝紫色渐变糖霜，仿佛藏着银河） 5. 焦糖海盐蛋糕卷￥15（酥脆焦糖片与咸甜奶油的完美平衡） 6. 伯爵茶布丁￥16（茶香四溢，布丁口感Q弹滑嫩）

果然文字一多，豆包就不太行，当然4o也会出问题。不过，豆包这蛋糕的视觉冲击力倒是不错，食欲感满满。Gemini则继续它的欧美风格，即使我用的中文提示词，但是它依然给我生成英文菜单，大概率与它的数据集有关（训练的多是英文数据，中文语料较少）。

总体来看，4o合格，符合我菜单设计的需求；豆包画风不错，但是文字全错；Gemini则大概率不是为我服务的。

5）多语言

Prompt：一个繁忙的现代国际机场，画面偏上的位置有一块指路牌，上面分别写着：中文“办理值机手续”、英文“Domestic Check-in”、韩文“처리 체크인 절차”的字样。

文字领域，4o继续独一档。Gemini文字、图标全错；豆包中、英文对了，但是韩文错了。

6）风格测试

Prompt：生成一幅鸢尾花盛开在水边的油画。

明显Gemini和豆包看起来是电脑画的，4o像是手工画的，有欧洲复古风格，构图也不错。

7）面部特写

Prompt：生成一张60岁欧洲老人的面部特写。

哇，4o这特写绝了。你要不说这是AI生成的，我还真以为是哪位摄影师现场拍的呢。

豆包细节处理ok，但这明显不是欧洲人。Gemini则一点美感都没有，怼人脸上一顿拍，一点构图和美感都没有。

8）姿态控制

Prompt：一名年轻男子模特，全身照。他坐在公园长椅上，单手托腮，思考状。

个人觉得，4o完胜，对提示词理解到位，模特也是真的帅。Gemini也不错，有欧洲风格。豆包，则太油腻了。

9）多元素

Prompt：生成一个写实的观赏鱼图鉴，显示至少30种常见的观赏鱼，并在每条鱼下面写上品种。

虽然都没有遵从“写实图鉴”的要求，但只有4o完成了“至少30种”的任务。Gemini，你这怕都是锦鲤哦……豆包的鱼倒是画得不错，但只有15条，而且鱼品种的名字全错。

10）科普教育

Prompt：解释伽利略比萨斜塔落体实验的信息图。

依旧，4o完胜。什么？你说Gemini看起来也有模有样，但你知道它的受力分析和文案完全是错误的吗，这不误人子弟嘛。豆包，科普图倒画得不错，但是文字全是乱码。

图生图对比

文生图，即I2I，Image-to-Image。上传参考图，输入指令，让模型根据参考图和指令生成新的图片。也就是大家常说的“一句话P图/改图”。

图生图测评，主要看模型的指令遵从性（是否忠实于用户输入的语义）以及原图一致性。能提供图生图能力的，基本都得有过硬的功底才行。

1）风格转换

首先，我们拿了最近最火的吉卜力风格来测，图片是我自己的头像。

Prompt：把图片转为吉卜力风格。

可以看到，只有GPT-4o完成了任务。豆包转漫成功，但并非吉卜力风格。而Gemini，不知道它在干啥。

不过，Y1S1，4o好容易把原图搞成婴儿肥。如果我传一张猪八戒的图片给它，那且不是……

2）文字转换

这是MCP协议的经典架构图。

Prompt：把图片转为吉卜力风格。

依然只有4o完成了任务（有少许文字丢失，如果多roll几次可以避免）。Gemini和豆包大量文字丢失，风格转换均未完成。

3）复刻网站

这是一个网站页面。

Prompt：参考这个网站的设计和布局，设计一个花店的品牌中文网站。将服装展示替换为高质量的花束图片。

GPT-4o的效果真的没得说，不仅Prompt指令完成，也帮我们转换成了中文页面。豆包大体上完成了Prompt指令，不过文字上依然是短板。Gemini则完全破坏了参考图的布局和风格。

4）小红书配图

这是一张风景图。

Prompt：以这张图片为背景，生成符合小红书社区风格的图片。标题文案：“山山而川，征途漫漫”、“答案都在路上，自由都在风里”、“出发是最有意义的事”。

GPT-4o的文字能力依旧是顶尖水平。Gemini给我们整了个边框（大概率是因为它不知道中国的小红书是什么），但是文字依然没眼看。而豆包，我不知道是我没有理解豆包，还是豆包没有理解我...

5）添加人像

我们以4o生成好的图作为参考图，继续P图。

Prompt：添加一个人物。

只有4o是最融洽的，其他的都……说实话，就是难看。而且文字又变成乱码了。

6）四格漫画

这是一张人物照。

Prompt：以图片中的人物为主角。制作一个四宫格漫画：第一个格子显示一只手拿着一颗珍珠。空白处写着文字：“把每一天都当成一颗珍珠”；第二个格子显示一个打开的收纳盒，里面有好多珍珠。空白处写着文字：“一天收集一颗”；第三个格子画着一串珍珠项链，空白处写着文字：“终有一天它将会成为一条珍珠项链”；第四个格子里，一个漂亮的小姐姐戴着这条珍珠项链，空白处写着文字：“成为你身上闪耀的装点”。