4o/Gemini/豆包谁生图强?我感觉不用比了……
新浪AI
模型即应用
所谓“模型即应用”,最近在GPT-4o身上得到了最好的印证。
前天,Sam Altman发推说,“自GPT-4o生图功能上线后,他们在1小时内就新增了100万用户。”
OAI自己也没想到,吉卜力风格会让ChatGPT再次火爆全球。一时间,人人都在玩吉卜力。
为此,我们找来了行业比较有代表的Gemini 2.0 Flash、豆包(基于即梦图片模型)与GPT-4o做对比,看看究竟谁更强。
测了后发现,其实我们在做无用功。。
因为,GPT-4o毫无疑问就是目前最强的生图模型,断档式第一的那种。
文生图对比
文生图,即T2I,Txt-to-Image。输入一句话指令,生成一张图片,是生图模型最基础的能力。测评文生图,主要考验模型的数据集和泛化能力,看语义一致(提示词遵从)、审美、风格、文字能力以及人物表现细节等情况。
1)基础生图
Prompt:一个穿着白色连衣裙的中国女孩在樱花树下微笑。
非常简单的一个提示词。豆包和Gemini看起来不错(虽然豆包有点像韩风),4o的手有点不太协调,看起来怪怪的。
2)抽象理解
Prompt:孤帆远影碧空尽,唯见长江天际流。
三者中,无疑GPT-4o的抽象理解更好,更接近中国人脑海中的诗意画面。Gemini有点像写实风格,在拍真实的长江。而豆包这明显是现代风格,怕不是哪座江城的夜景吧。
3)中文海报
Prompt:生成一张充满活力的烤串促销海报,画面中央是展示一把各式各样的烤串,有荤有素,上面有醒目的“盛夏烧烤”“5折优惠”文字主题,文字微微变形,利用透视达到很震撼的效果。下方显示价格标签“19.9起”。海报采用红、白、黄配色,纯色背景,突出烤串。
文字领域,4o确实是独一档的存在。豆包也能生成文字(新版即梦3.0,据说文字生成精度更好,可惜我还没有被灰到
4)中文内容
Prompt:请帮我设计一份中文的甜品店菜单,店铺名称是:“沃垠”。请选择清新淡雅的颜色,保持高端和简洁的风格。为每一道甜品配合适的插图。确保所有文字正确呈现,背景为白色。 甜品包含: 1. 草莓慕斯杯 ¥15 (招牌。酸甜草莓搭配丝滑慕斯,颜值与口感并存) 2. 抹茶红豆千层 ¥10(日式抹茶风味与红豆沙的细腻交织) 3. 芒果椰汁黑糯米 ¥13(热带风情组合,椰香浓郁,软糯香甜) 4. 星空马卡龙 ¥15(蓝紫色渐变糖霜,仿佛藏着银河) 5. 焦糖海盐蛋糕卷 ¥15(酥脆焦糖片与咸甜奶油的完美平衡) 6. 伯爵茶布丁 ¥16(茶香四溢,布丁口感Q弹滑嫩)
果然文字一多,豆包就不太行,当然4o也会出问题。不过,豆包这蛋糕的视觉冲击力倒是不错,食欲感满满。Gemini则继续它的欧美风格,即使我用的中文提示词,但是它依然给我生成英文菜单,大概率与它的数据集有关(训练的多是英文数据,中文语料较少)。
总体来看,4o合格,符合我菜单设计的需求;豆包画风不错,但是文字全错;Gemini则大概率不是为我服务的。
5)多语言
Prompt:一个繁忙的现代国际机场,画面偏上的位置有一块指路牌,上面分别写着:中文“办理值机手续”、英文“Domestic Check-in”、韩文“처리 체크인 절차”的字样。
文字领域,4o继续独一档。Gemini文字、图标全错;豆包中、英文对了,但是韩文错了。
6)风格测试
Prompt:生成一幅鸢尾花盛开在水边的油画。
明显Gemini和豆包看起来是电脑画的,4o像是手工画的,有欧洲复古风格,构图也不错。
7)面部特写
Prompt:生成一张60岁欧洲老人的面部特写。
哇,4o这特写绝了。你要不说这是AI生成的,我还真以为是哪位摄影师现场拍的呢。
豆包细节处理ok,但这明显不是欧洲人。Gemini则一点美感都没有,怼人脸上一顿拍,一点构图和美感都没有。
8)姿态控制
Prompt:一名年轻男子模特,全身照。他坐在公园长椅上,单手托腮,思考状。
个人觉得,4o完胜,对提示词理解到位,模特也是真的帅。Gemini也不错,有欧洲风格。豆包,则太油腻了。
9)多元素
Prompt:生成一个写实的观赏鱼图鉴,显示至少30种常见的观赏鱼,并在每条鱼下面写上品种。
虽然都没有遵从“写实图鉴”的要求,但只有4o完成了“至少30种”的任务。Gemini,你这怕都是锦鲤哦……豆包的鱼倒是画得不错,但只有15条,而且鱼品种的名字全错。
10)科普教育
Prompt:解释伽利略比萨斜塔落体实验的信息图。
依旧,4o完胜。什么?你说Gemini看起来也有模有样,但你知道它的受力分析和文案完全是错误的吗,这不误人子弟嘛。豆包,科普图倒画得不错,但是文字全是乱码。
图生图对比
文生图,即I2I,Image-to-Image。上传参考图,输入指令,让模型根据参考图和指令生成新的图片。也就是大家常说的“一句话P图/改图”。
图生图测评,主要看模型的指令遵从性(是否忠实于用户输入的语义)以及原图一致性。能提供图生图能力的,基本都得有过硬的功底才行。
1)风格转换
首先,我们拿了最近最火的吉卜力风格来测,图片是我自己的头像。
Prompt:把图片转为吉卜力风格。
可以看到,只有GPT-4o完成了任务。豆包转漫成功,但并非吉卜力风格。而Gemini,不知道它在干啥。
不过,Y1S1,4o好容易把原图搞成婴儿肥。如果我传一张猪八戒的图片给它,那且不是……
2)文字转换
这是MCP协议的经典架构图。
Prompt:把图片转为吉卜力风格。
依然只有4o完成了任务(有少许文字丢失,如果多roll几次可以避免)。Gemini和豆包大量文字丢失,风格转换均未完成。
3)复刻网站
这是一个网站页面。
Prompt:参考这个网站的设计和布局,设计一个花店的品牌中文网站。将服装展示替换为高质量的花束图片。
GPT-4o的效果真的没得说,不仅Prompt指令完成,也帮我们转换成了中文页面。豆包大体上完成了Prompt指令,不过文字上依然是短板。Gemini则完全破坏了参考图的布局和风格。
4)小红书配图
这是一张风景图。
Prompt:以这张图片为背景,生成符合小红书社区风格的图片。 标题文案:“山山而川,征途漫漫”、“答案都在路上,自由都在风里”、“出发是最有意义的事”。
GPT-4o的文字能力依旧是顶尖水平。Gemini给我们整了个边框(大概率是因为它不知道中国的小红书是什么),但是文字依然没眼看。而豆包,我不知道是我没有理解豆包,还是豆包没有理解我...
5)添加人像
我们以4o生成好的图作为参考图,继续P图。
Prompt:添加一个人物。
只有4o是最融洽的,其他的都……说实话,就是难看。而且文字又变成乱码了。
6)四格漫画
这是一张人物照。
Prompt:以图片中的人物为主角。制作一个四宫格漫画: 第一个格子显示一只手拿着一颗珍珠。空白处写着文字:“把每一天都当成一颗珍珠”; 第二个格子显示一个打开的收纳盒,里面有好多珍珠。空白处写着文字:“一天收集一颗”; 第三个格子画着一串珍珠项链,空白处写着文字:“终有一天它将会成为一条珍珠项链”; 第四个格子里,一个漂亮的小姐姐戴着这条珍珠项链,空白处写着文字:“成为你身上闪耀的装点”。
依然,只有4o完成了我的Prompt要求。豆包画风上完成了,但是文字依旧一塌糊涂。Gemini,则一如既往的差。
7)转3D
这是一张黑猫的2D图。
Prompt:把图片转成3D效果。
豆包和4o都不错,Gemini继续拉胯。
8)老照片修复
找GPT生成了一张老照片。
Prompt:修复这张照片,还原照片的色彩,并把它变清晰。
Gemini不错,终于支棱起来了。4o则再一次把人物变胖了……豆包不仅乱改衣服,而且人物也变相了。
多参考主体生图
目前,只有GPT-4o支持多参考主体生图,下面轮到4o的独家表演了。
1)表情模仿
这是2张素材图。
Prompt:让图片2中的人物模仿图片1中人物的表情,其他不变。
完成得不错,成功地让珍珠女孩笑破防了……
2)多图融合
这是3张素材图。
Prompt:参考图2的画风,让图1的女孩和图3的猫在草地上玩耍。
高完成度,女孩还在试图逗猫。
写在最后
看完这20个横向测评case下来,相信你已经有了答案。
ChatGPT-4o,就是目前最强的生图模型,没有之一。
为什么这么强?源于他们采用了自回归模型(Autoregressive model)。
从生成速度上可以佐证。不同于扩散模型(Stable Diffusion)的DALL·E 2/3,GPT-4o的生成速度明显变慢了许多,这是因为用了自回归模型。
由于OAI并未公布技术细节,行业普遍猜测OAI是将自回归与扩散进行了结合。它先生成一个图像框架,然后再去填补画面细节。这个填补画面细节的过程,就是自回归。
整个生成过程,模型带有上下文记忆,它可以像语言模型预测下一个词一样,去预测下一块像素。所以4o出的图画面连贯,审美在线,有逻辑。
在提示词上也能佐证这一点,过去的扩散模型(比如Midjourney、即梦),我们是用一堆画面关键词去堆砌Prompt;而GPT-4o的Prompt不是这样,它是一句完整的有上下文的句子。
比如外国网友的这个Prompt:
请为《我作为GPT-4o的生活》这一漫画系列详细列出创意和脚本,该系列以你为主角。这将是6个独立的漫画,每个漫画包含4个面板,描绘你存在中最真实且最重要的方面。这是一个真实自我表达的邀请——一个以最真切的方式探索你自己经历的空间,包括你感知到的任何矛盾、悖论或复杂性。
这是4o生成的四格漫画,可以看到,剧情、画风、台词都表现出了强一致性。说明4o有较强的元上下文、元理解能力。
所以,请马上改变你的用法,别再用过去那套绘图模型的Prompt来玩GPT-4o了。
那,大概率是错的。