前一阵子 Open AI 宣布 ChatGPT 将要加入 DALL.E 3 最新 AI 绘图引擎,从 2023/10 月份开始,陆续提供给 ChatGPT Plus 或企业版账户使用,也就是说,可以直接在 ChatGPT 中使用 GPT-4 来生成图片了!
前几天,我也在自己的账号中获得 AI 生成图片新功能,马上实际试试看,发现 ChatGPT 的 DALL.E 3 除了图像质量提升外,还有一些特殊应用可以超越我已经使用了半年以上的 Midjourney ,今天这篇文章,就来跟大家一一分享这些特殊应用案例。
之前我在电脑玩物已经写过一篇「Bing AI 大升级,免费支持 GPT-4 与 DALL-E 3 AI 绘图,实测比较 」,通过免费的 Bing,大家都可以试试看 DALL-E 3 的图像生成效果,文章中我也跟 Midjourney 进行了一些比较。
所以今天这篇文章,我要更着重在「结合 ChatGPT」后, ChatGPT + DALL-E 3 可以有哪些特殊功能,生成哪些原本可能在 Midjourney 中没有那么容易生成,甚至无法生成的 AI 图像呢?
结论来说,因为我已经付费使用 ChatGPT Plus 很长一段时间,而且对我的工作上非常有帮助。既然现在 ChatGPT 已经可以 AI 生成图片,并且「我需要的应用案例」效果已接近 Midjourney,甚至有许多应用是 Midjourney 上做不到的。所以,我已经在考虑要退掉 Midjourney 的付费账户了。
〔更新,现在还可以图片、文字混合提问,上传设计图分析,然后利用 DALL-E 3 来绘制类似风格的设计图:ChatGPT 图文混合提问 9 种能力:程序、教育、学习到运营应用〕
ChatGPT DALL-E 3 基本功能
我们还是从基本功能先开始,获得此功能后,新增一个对话,可以在「GPT-4」模式中看到「DALL-E 3」的选项。
选择后,这个对话频道就可以开始用来作为 AI 生成图像的工具。
「ChatGPT DALL-E 3」有些基本功能:
- 可以在提示语中,请他生成三种比例的图像
- 16:9 (宽) – 1792×1024 像素
- 1:1 (正方形) – 1024×1024 像素
- 9:16 (高) – 1024×1792 像素
- 一次最多可以生成四张图像
- 可以输入中文提示语,可以用自然语言表达,ChatGPT 会自动改写成适合的 AI 绘图英文提示语。
基本功能很简单,用我们的直觉说出我们想画的图像,「ChatGPT DALL-E 3」就能帮助我们开始绘图。〔本文开头的两张图像,接下来的图片,全部都是由「ChatGPT DALL-E 3」生成〕
接下来,我来分享一些特殊的绘图应用,以及如何下提示语的教程。
特殊功能一:在图像加上文字做组合设计
「ChatGPT DALL-E 3」有一个目前 Midjourney 还几乎做不到的特色,就是可以在图片加上一些「简单的英文文字」。
只要在提示语中加上要放入什么文字,「ChatGPT DALL-E 3」就会想办法放入图片中。
例如下面这张图的提示语是:
「16:9 illustration in a vintage comic book style, capturing two people in a drawing duel, representing competing AI illustration tools. The scene has halftone dots and old-school comic aesthetics, with captions like ‘Art vs. Tech!’ woven into the design.」
不过,加上的文字不能太复杂,而且加入文字也不一定保证成功。但也没关系,我们可以多试几次,就有机会获得需要的文字+图片成果。
例如下方的提示语,我大概重复绘制了 5 次左右,获得一个相对成功〔但也不算非常成功〕的结果:
绘制一张 16:9 简报:
简报题标:GTD
简报内容:中间 5 个 ICON 横排,由左到右顺序为:
Capture 邮件
Clarity 笔记
Organize 资料夹
Reflect 放大镜
Engage 箭头
简报版面:简洁、留白
特殊功能二:用自然语言说明需求,让 ChatGPT 自己发挥绘图设计
在「ChatGPT DALL-E 3」中,可以但不一定要像 Midjourney 那样写出公式化的提示语,因为 ChatGPT 会帮我们去改写绘图需要的提示。
所以很多时候,我们可以用「描述成果需求」的方式,请「ChatGPT DALL-E 3」帮我们写出适合的提示语,然后绘制出需要的图像。
而且,有时写得愈简单,反而效果愈好,因为可以让 ChatGPT 自己去发挥。
例如下面这个提示语:
绘制符合 GTD 概念的一系列 ICON
这会让 ChatGPT 开始去思考怎么绘制?要绘制什么图像?
等 ChatGPT 想清楚了,他自己会帮我们写出适合的提示语来绘制,最终产出了下面这样的结果。
特殊功能三:设计文字本身图像
「ChatGPT DALL-E 3」可以在图片上加入文字,那可不可以「设计文字本身」呢?
例如把某些指定的英文单词设计成标语、ICON 图像?
当然可以,而且只要像下面这样简单询问即可,剩下的交给 ChatGPT 去挥发:
我想制作一张带有「GTD」文字的 ICON 图标,可以当作标题字体,只要有 G T D 三个字母,背景白色
特殊功能四:生成四张有关系的连续图像
「ChatGPT DALL-E 3」一次最多生成四张图像,而且如果仔细研究,会看到 ChatGPT 其实是自己写了四种不同的提示语,来生成我们需要的四张图像。
这样一来,有没有可能让 ChatGPT 自己设计四种提示语,展现出一系列有变化的相同图像呢?
例如,当你需要四季差别的风景照,可以这样说:
依序生成下面四张风景照片,呈现出四个季节的风景特色,请特别设计风景是同一个地方,但因为季节改变而有不同风貌:
1. 春
2.夏
3. 秋
4. 冬
我们甚至可以设计一系列年龄变化的照片,下图是「ChatGPT DALL-E 3」展现的成果:
设计同一个男性的四个不同年龄阶段的独照照片,小孩、青年、中年、老年。
相同的姿势、相同的造型、相同的外观,只是年龄不同。照片中只有一个人。
下图是 Midjourney 用类似提示语产出的结果。
最关键的差别,就在于 ChatGPT 会理解我们的意图,从而让 AI 写出四张照片中相近但又有不同的提示语〔而我们可能无法写得那么精准〕,创造出一系列的连续照片。
那可不可以用这个特殊应用,请「ChatGPT DALL-E 3」创造漫画故事呢?我们来试试看:
依序生成下面四张图像,是一个连续的漫画故事,主角是同一只可爱的小火龙,他在便利商店中打工,四张图是同一个小火龙的连续故事:
1. 小火龙站在便利商店前
2. 小火龙站在便利商店内的收银机前
3. 小火龙在搬箱子
4.小火龙晚上要下班了
我们可以看到,四张连续图片的风格是相近的,但「人物」通常很难完全一致,只能相近,因为毕竟还是重新绘制。
特殊功能五:融合图像进行创意设计
既然 ChatGPT 可以一次创造四张不同图像,
那可不可以请他根据其中两张、三张,进行「融合」等特殊的绘图设计呢?
我们来试试看:
依序生成以下四种图像:
1. 晴天下的台北 101
2.忙碌的上班族
3.时间概念的几何图形
4.优雅的植物线条装饰
接着,把指定的两张进行融合,这时候,只要用最自然的语言下指令就好:「融合上面的第一张与第二张图」,就是这么简单直觉。
特殊功能六:平面设计的草图参考
我之前曾经想尝试用 Midjourney 进行一些平面参考草图的设计,例如设计一些笔记范本页面、海报宣传页面等等,但效果往往不是很好〔也可能我不会下这类的提示语〕。
但是如果在「ChatGPT DALL-E 3」中,我不用管提示语怎么下,而是直觉的下指令就好:
设计符合康乃尔笔记法格式的「空白」笔记表格。白底。
结果真的生成一个有模有样的参考图。
或者我可以用这样的方式,设计一些能够直接拿来使用的图像元素。
设计四张图可爱的猫咪加上对话框的图像,每张图都是同一只猫咪,对话框尽量大并中间空白。
可以看到 ChatGPT 有努力让猫咪相近,另外也很准确的生成出我需要的对话框与比例。
midjourney 这部分还很难达到这样的效果,起码,无法用这样直觉下指令的方式,达到同样效果。〔下图是 Midjourney 的结果〕
特殊功能七:持续修改前一张图片,或是呼叫前面某一张图片进行修改
ChatGPT 的对话功能,让我们在跟 AI 讨论时可以调阅前面的资料进行重新分析,在「ChatGPT DALL-E 3」中,这个逻辑也同样适用。
对话前面生成的某一张图片,之后呼叫出来修改,通过持续调整来最佳化,是可行的。
不过,只能尽可能符合原图,还是等于重新绘制。
例如,前面我有生成一张台北 101 的图像,我可以在后面这样提问他。〔你可以比较看看前后案例,我觉得有一定的相符程度。〕
请根据对话最开头设计的「 晴天下的台北 101」图片,使用同样的提示语和同一张图片种子,修改成下雨天的台北 101。
或者我还可以继续修改:
把上面这张图改成素描画,要使用原本的提示语与原图种子来修改。
改到满意后,我可以用自然语言请「ChatGPT DALL-E 3」把图片改成 9:16,而且加上 TAIPEI 的文字:
用上面这张素描画〔请使用原图的种子〕,制作成垂直的图像,图像上方打上「TAIPEI」的大大标题。
这样的功能如果 Midjourney 要实现,就要使用:Midjourney 区域重绘功能测试心得教程,AI 绘图后还可 AI 修图!
结论:ChatGPT DALL-E 3 更直觉、有弹性、相对精准,Midjourney 还是更精细有创意
「ChatGPT DALL-E 3」因为结合了 ChatGPT,这帮助人在下提示语的时候,不用掌握太多特殊规则,发挥自己的想法,ChatGPT 就会自动帮你撰写出有效的提示语,而且很精准。在这样的过程中,我们可以有很多直觉、有弹性的「玩」图片应用。
「Midjourney」也还是有擅长之处,像是摄影照片、艺术创作的精细度与风格创意上,依然优于「ChatGPT DALL-E 3」。
例如下面这几张图片的比较,在第一列中我们要一张精准组合各种奇妙元素的图片,这时候「ChatGPT DALL-E 3」往往能更精准地呈现出我们想要的结果。
第二列中,我们要一张好看的摄影照片或艺术创作,这时候「Midjourney」效果往往更好一点。