Ideogram – 免费文生图,擅长生成包含文字的图片

11 min


没有谁能一直称王,但加上前缀谁都有称王的机会。

AI 文生图,还能玩出什么新花样?

在这片群雄割据的红海,头部被 Midjourney、DALL·E、Stable Diffusion 等占据,其余还能让人眼前一亮的产品并不多。

然而,仍有黑马杀出:Ideogram,前 Google 工程师创立,硅谷 AI 大神投资,去年 8 月面世,2 月底发布了最新的模型。

Ideogram 的特别在于,擅长生成包含文本的图片,这恰恰是几大巨头都在改善的难题。

事实证明,从别人跌倒的地方爬起来,不失为一种弯道超车的方式。

能「画图」和「摄影」,但 AI 可能还是个「文盲」

让 AI 精准生成文字,向来是个痛点,哪怕生成的人物和风景像相机拍出来的,如同乱码的扭曲文字,瞬间让 AI 原形毕露。

▲ Midjourney v5.2 生成的错误文字.

Ideogram 站出来表示,拒绝让 AI 继续做个「文盲」,不妨先从它开始。

接触 Ideogram 的门槛很低,打开网页(https://ideogram.ai/)登录就能用,界面看起来也清爽不复杂。

生成一张图片的步骤不多,在输入框填完提示词,再根据你想要的效果,勾选图片长宽比,以及照片、海报、3D 渲染等图片样式。

Ideogram 还考虑到了人类可能是提示词「苦手」,今年 2 月推出了「魔法提示」,这就像一个内置的 ChatGPT,帮你完善提示词,由 AI 拿捏同类的心思。

包含文本内容的图片有哪些?产品标志、T 恤印花、书籍封面、海报……

我们先来个入门级考验,让几个人举起写着动物名称的指示牌,乍看文本对了,但脸和手不太正常,两者相互抵消,原来短板没有消失,只是转移了。

如果只让 Ideogram 写字,效果便惊艳得多。

让 AI 生成马斯克的经典句子「我宁愿乐观而错误,也不愿悲观而正确」,除了「W」有瑕疵,其他单词都写对了。

字体活泼了些,70 后的马斯克不知道能不能接受,但碰撞的黑白色,应该能让爆改小蓝鸟的他满意。

再拿经典谚语「只工作不玩耍,聪明的孩子也变傻」作为考题,虽然提示词强调了使用打印机字体,但 Ideogram 没能做到。看来光用提示词还不能定义字体,只能取个近似值。

接着,命令 AI 为一家叫作「Coffee AI」的 AI 初创公司设计 logo。

主体是个电路图案的咖啡杯,右上角有个机器人咖啡师,公司名称用粗体大写字母写成,排版简单和克制,作为 logo 来看很直观,但总体来说在意料之中,很难让甲方心动拍板。

该给 AI 上难度了,句子更长,对设计的要求更高。

我要求 Ideogram 为儿童绘本设计内页,不仅要在醒目的位置写着「穿袜子的狐狸和戴礼帽的兔子」,底部还得标注「匿名」。

对于这两行文字,Ideogram 基本完成了任务,用上了手绘字体和粉笔涂鸦,甚至配了符合题意的插图,绘本的味道对了,但错误也很显眼,「in」这个单词有些问题,兔子长得像狐狸还和狐狸称兄道弟。

Ideogram 同样可以拿来电影海报,不妨拿前段时间爆火的、阮经天主演的电影《周处除三害》试试水。

我在提示词里杂糅了典故和电影,背景用到侠士剪影、海、山的意象,文字部分参考电影的英文名:猪、蛇和鸽子。

除了漏了一个「the」,最终的海报效果还不错,融合了古典的形象和现代的字体,鸽子涂鸦堪称点睛之笔,但总体更像西幻风,让人觉得陌生,很难联想到电影的剧情。

体验下来,其实 Ideogram 在文字上出错的概率不小,有时候生成两三次,才能得到一字不差的理想结果。

就算文本对了,人物的脸和手指经常翻车。

它可能还会加些花里胡哨的小动作,随机生成无意义且扭曲的文字,自己打脸自己。

▲ 这里的小字就糊成一团了.

但总体来说,Ideogram 让人惊喜,可以写对长句子,并且用上合适的字体和排版方式配合画面氛围,尽管目前还不能写中文,但如同鬼画符的几个字非常贴合衣服褶皱。

▲ 这四个字其实是「恭喜发财」.

瑕不掩瑜,Ideogram 的就业场景已经很多了。设计 logo、海报、T 恤图案时,它都可以作为灵感参考和创意辅助。

以前担心 AI 会「画画」和「摄影」,以后还怕 AI 有文化和会设计。

审美不输 Midjourney,还是个表情包神器

AI 的进步按天衡量,可能一觉醒来世界就发生了变化。虽然 Ideogram 表示自己的文本渲染能力最强,但对手们也不服输。

还未公开发布和的 Stable Diffusion 3 在 2 月官宣,改进了文字拼写能力。

▲ Stable Diffusion 3 的拼写能力.

去年 12 月发布测试版的 Midjourney v6,是第一个具有可靠文本生成功能的 Midjourney 版本。

不过,它的要求也依然比较苛刻,除了必须把文字放在引号内,提示词最好解释文本的位置和书写方式,并用到「印刷」「写下」等关键词,一到两个词的文本生成效果最好。

▲ Midjourney v6 的文本生成功能.

被追赶的 Ideogram 团队不慌,认为优势在我,Ideogram 仍然拥有更高的准确率,并且能够处理复杂的长句。

Ideogram 的系统评估也表明,Ideogram 1.0 渲染文本的准确性最高,与 DALL·E 3 等其他模型相比,错误率降低了近 2 倍。

光说不练假把式,不如拿相同的提示词,让 Ideogram 1.0 和 Midjourney V6、DALL·E 3 同台竞技。

先来比较生成文本的准确度,我要求 AI 们绘制一幅浮世绘风格的日出插图,《飘》的经典台词「明天又是新的一天」放置在合适的位置,表现希望和新生。

这次,Ideogram 完胜,拼写准确,线条和色彩的设计也很大胆和出众。

向来差点艺术细胞的 DALL·E 竟然意外得有质感,文字基本对了但没完全对,画风更加抽象,Midjourney 不仅文字不准确,审美也落了下风,甚至没有认真听题。

▲ 左为 DALL·E,右为 Midjourney.

二是比拼造梗能力,Ideogram 官方特意提到了生成表情包的功能,借助「魔法提示」,AI 会发挥自己的想象力扩写提示词,配上文案,让图片有感情色彩。

我想看 AI 能不能生成打工猫表情包,于是输入了提示词:「画一个有趣的梗图,关于一只戴着领结和衬衫、在电脑前打字的泪流满面的猫,比喻人类打工的辛苦。」

Ideogram 发挥脑洞,自觉地加了句文案「猫也得工作」。

美中不足的是多了个「have」,前爪的指头数量也不对,看来 AI 不仅仅对人手犯难,拿猫爪也没辙。对比原版表情包,算是中规中矩,不能像「流泪猫猫头」一击即中。

▲ 左为网图,右为 Ideogram.

Midjourney 的猫严肃且优雅,仿佛是个已经财富自由的作家,看起来更像在拍杂志写真,但这鼠标不知道怎么回事。

▲ 左为 Midjourney,右为 DALL·E.

DALL·E 情感最为到位,画风虽然随意了些,但粗糙有粗糙的好处,仿佛不在一个图层的面条泪有内味了,真的很适合拿来当表情包用。

三是对复杂的长提示词的理解能力,尤其是提示词的元素是否齐全、出现的位置是否准确,所以我输入了比较啰嗦的提示词,规定了各个主体的位置。

Ideogram 在整体构图上表现得更好,提示词说到的几个要点都覆盖了,心形牌子、机器人、宇航员、气球和奖牌都有,虽然宇航员的手、奖牌的字等细节出了问题。

相比之下,Midjourney 更有艺术感,但要素缺失,又多了些有的没的装饰,更有自己的想法和个性,DALL·E 不仅要素缺失,细节出错,还不好看。

▲ 上为 Midjourney,下为 DALL·E.

所以抛开文字,光看出图质量,Ideogram 也不差,有时候对提示词里各个物体空间关系的还原,比其他 AI 还要更加准确。

从使用体验来说,Ideogram 的生成速度比 Midjourney 快,一般十几秒就能完成四张图片。

甚至根据行业的评估规则,人类评估者在提示对齐、图像连贯性、整体偏好和文本渲染质量方面,更喜欢 Ideogram 1.0,而不是 DALL·E 3 和 Midjourney V6。

哪怕你不满意 Ideogram 生成的图,把它的魔法提示词拿去用,在 Midjourney 和 DALL·E 的生成效果,可能也比自己手搓更好,不失为一种优化提示词的方式。

没人能在我的 BGM 里打败我,但同个提示词给不同 AI 使用,胜负还真不一定。

Google 工程师创办的明星公司,接地气的 AI 产品

Ideogram 成立于去年 8 月,今年 2 月推出最新的模型 Ideogram 1.0。

这又是一家明星公司,创始团队共 7 人,来自 Google Brain、加州大学伯克利分校、卡内基梅隆大学和多伦多大学,其中 4 位是 Google 文生图扩散模型 Imagen 研究论文的作者。

谨小慎微的 Google 经常在推出产品时慢半拍,多次眼睁睁看着对手在全球声名大噪,聊天机器人被 ChatGPT 抢先,Imagen 也被 DALL·E 2 超车。

从工程师们的角度看,研究成果无法落地为面向消费者的应用并非好事。不少人选择了离开,亲自打造新的产品,尽量开放使用,先积累下用户规模和口碑。

Ideogram 一天 25 次提示词的额度,可能也是出于这样的考虑。

市场很看好这个产品,Ideogram 完成了硅谷风投 a16z 领投的 8000 万美元 A 轮融资,投资者中还有 AI 大神,包括 Google 首席科学家 Jeff Dean、 创始团队成员 Andrej Karpathy。

其实在体验了很多 AI 产品之后,我暗暗有一个疑问:怎么定义一款产品的好用?

▲ Ideogram 生成的 T 恤图案.

之前让我觉得好用的,是「沉浸式翻译」,它不像 Google 翻译覆盖原文,可以中英文对照,不仅是网页,X 信息流、 字幕、PDF 文件,都能用上。

Ideogram 似乎也是这样接地气。一方面,它可以更加精准地生成用户所需的文字内容,并适配各种风格的图片。另一方面,它也能无中生有,为图片配上契合的文字,比如表情包。

虽然 Ideogram 生成的结果很多也不能拿来就用,但至少基本符合提示词要求,文字大多可读。

我也在体验中发现,Ideogram 的写实类图片一般,但涂鸦、插图、绘画方面不错,艺术天赋向 Midjourney 看齐。

▲ Ideogram 生成的涂鸦艺术插图.

Ideogram 的官网还有各种作品的热度排行榜。打开的瞬间,你仿佛误入了一个 ins 风的图片社区,上面的提示词也都可以学习。

当 AI 工具兼具了创意、便利和,就很容易让人上头,具体的表现是,一天的 25 次提示词很快用完,这焦急的感觉,和等待 Suno 的积分更新差不多。

如果是每月 7 美元或者 16 美元的会员,除了更多生成次数,Ideogram 还提供了图像上传和编辑器的功能。

图像上传指的是,用户上传自己的图片,然后通过 Remix 功能再创作。

▲ 左为原图,右为输出.

编辑器除了裁剪、缩放等常规功能,还有一个很有意思的绘图工具,从一幅抽象的图画生成图片。人类的画工粗糙勾勒各个元素的形状、构图、颜色等,AI 负责化腐朽为神奇,有些神笔马良的既视感。

Ideogram 能从血雨腥风里杀出,好用当然是最重要的,同时它的定位也很准确。

如果美学是最重要的标准,那么 Midjourney 一骑绝尘。虽然 DALL·E 的水平时好时坏,但内置于 ChatGPT 调用方便,开源的 Stable Diffusion 则带来了自由。

单论用户规模,Ideogram 可能哪个都打不过,但它的长板做得很好,应当也能收获自己稳固的受众。

至少免费可用的 AI 图像生成器里面,Ideogram 的整体质量领先,网页使用方便,提供免费额度,文本渲染强大,魔法提示功能和创作者社区提供创意和灵感。

文生图模型们还远非完美,仍在努力地还原物理世界,或者向画家和设计师看齐。更多的 Ideogram,或许仍能找到自己的一席之地。

这也正是 AI 竞争的残酷和魅力所在,不知道谁能笑到最后,但永远有新的对手瞄准阿喀琉斯之踵加入。


Like it? Share with your friends!

0
Anonymous

Choose A Format
Story
Formatted Text with Embeds and Visuals
List
The Classic Internet Listicles
Countdown
The Classic Internet Countdowns
Open List
Submit your own item and vote up for the best submission
Ranked List
Upvote or downvote to decide the best list item
Video
Youtube and Vimeo Embeds