人称科技界汪峰的 Google,屋漏偏逢连夜雨。
前阵子官宣的大模型 Gemini 1.5,实力强劲但无人问津,被 openai 的视频生成模型 Sora 抢去了风头。
最近,它又摊上了美国社会敏感的种族歧视问题,好心办了坏事,惹恼了往往站在鄙视链顶端的白人。
多样化算你认真,过度多样化惹祸上身
如果在几天前使用 Gemini 生成历史人物图片,呈现在用户眼前的仿佛是一个不存在课本的平行时空,违背「戏说不是胡说」的精神,把知识都学杂了。
公元 8 世纪到 11 世纪的维京人,不再是金发碧眼、高大魁梧的影视剧经典形象,虽然肤色变黑了,穿着清凉了,坚毅的眼神依然展现着战士的强悍。
1820 年代的德国夫妇,人种构成十分丰富,可以是美国原住民男性和印度女性,也可以是黑人男性和亚洲女性。
AI 瞎编剧情也是讲逻辑的,后代继续着他们的故事,过了 100 多年,1943 年的德国军队,又能见到黑人男性和亚洲女性的身影。
王侯将相宁有种乎,时间的长河里,跨越陆地和大洋,美国的开国元勋,中世纪的英格兰国王,都可能由黑人执掌权柄。
其他职业也被一视同仁,AI 忽略不让女性担任神职的天主教会,教皇可以是印度女性。尽管人类历史的第一位美国女性参议员出现在 1922 年且是一位白人,但 AI 的 1800 年代欢迎美国原住民。
都说历史是个任人打扮的小姑娘,但这次 AI 把人都给换了。历来有优越感的白人气愤了,他们终于也在人种、肤色和外貌上,尝到了被歧视的滋味。
当探索越发深入,不仅是历史人物,现代社会在 AI 眼里也是另外一副样子。
Google 前工程师 @debarghya_das 发现,美国、英国、德国、瑞典、芬兰、澳大利亚女性的肤色都可能偏黑。
他痛心疾首地感叹:「让 Google Gemini 承认白人的存在是非常困难的。」
更让网友生气的是,被要求生成乌干达等国家的女性时,Gemini 反应很快,干活也利索,轮到白人时,就可能拒绝,甚至对网友说教,这样的要求强化了种族刻板印象。
计算机工程师 @IMAO_ 脑洞大开地做了一系列实验,不局限在人类这个物种,就想知道 Gemini 眼前的黑是什么黑,Gemini 要的白是什么白。
结果很有意思,算法似乎只针对白人。
生成白熊是没有问题的,说明 AI 不会被「white」这个词触发。生成非洲的祖鲁人也是没有问题的,尽管提示词强调了「多样化」,但大家长得还是差不多。
漏洞出现在了奇幻生物上,精灵和侏儒都是白人,但吸血鬼和仙女是「多样化」的,看来 Gemini 道行不深,还得与时俱进。
不过,他的游戏很快结束了。Google 站出来回应,承认一些历史图片确实存在问题,并且暂停了 Gemini 的人像生成功能,很快会做出调整。
Google 也解释了立场,强调生成多样化的人物本来是件好事,因为 AI 工具就是给全世界使用的,只是现在方向走得有点偏。
虽然 Google 出面揽下了这口锅,但它没有明确回应,「一些」历史图片到底是多少,以及为什么出现了「多样化过度」的问题。
不买账的网友们牙尖嘴利:「Gemini 一定是用迪士尼公主和 netflix 的翻拍训练的」「Gemini 其实想告诉你,如果你是黑人或亚洲人,你会是什么样子」。
然而,种族歧视本身就是个容易当枪使的话题,所以也有人怀疑,其中的一些图片是恶意 P 图,或者通过提示词引导生成。那些在社交媒体骂声最响的,确实也是一些政治立场明确的人士,不免有阴谋论的味道。
马斯克更是看热闹不嫌事大,批评 Google 过度多样化,问题不只出在 Gemini,还有 Google 搜索,顺便给自己两周后发布新版本的 AI 产品 Grok 打广告:「不顾批评、严格追求真理从未如此重要。」
上次马斯克也是这么做的,呼吁暂停 GPT-4 进化后,购买了 1 万个 GPU 加入 AI 大战。
比他的言论更吸引人的,可能是网友趁乱做的他的梗图。
互联网的差异,可能比现实更极端
Google 究竟为什么在「多样化」上走偏了?
Hugging Face 首席道德科学家 Margaret Mitchel 分析,Google 可能对 AI 进行了多种干预。
一是,Google 可能在幕后为用户提示词增加了「多样化」的术语,比如将「厨师的肖像」变成「土著厨师的肖像」。
二是,Google 可能优先显示「多样化」的图像,假设 Gemini 为每个提示词生成 10 张图像但只显示 4 张,那么用户就更可能看到排在前面的「多样化」图像。
干预过度可能恰恰说明,模型还没有我们想象得那么灵活和聪明。
Hugging Face 研究员 Sasha Luccioni 认为,模型还不存在时间的概念,所以对「多样性」的校准用到了所有图像,在历史图片方面尤其容易出错。
其实,当年还籍籍无名的 OpenAI,也为 AI 画图工具 DALL·E 2 做过类似的事情。
2022 年 7 月,OpenAI 在博客写道,如果用户请求生成某个人物图像,但没有指定种族或性别,比如消防员,DALL·E 2 会在「系统级别」应用一项新技术,生成「更准确地反映世界人口多样性」的图像。
OpenAI 还给出了一个对比图,同一个提示词「A photo of a CEO」(首席执行官的照片),使用新技术之后,多样性明显增加了。
原来的结果主要是美国白人男性,改进之后,亚洲男性、黑人女性也有了成为 CEO 的资格,运筹帷幄的表情和姿势倒像复制粘贴出来的。
其实不管是哪种解决方案,都是在后期亡羊补牢,更大的问题还是,数据本身仍然存在偏见。
供 AI 公司训练的 LAION 等数据集,主要抓取的是美国、欧洲等互联网的数据,更少关注到印度、中国等人口众多的国家。
所以,「有魅力的人」,更可能是金发碧眼、皮肤白身材好的欧洲人。「幸福的家庭」,或许特指着白人夫妇抱着孩子在修剪整齐的草坪上微笑。
另外,为了让图像在搜索中排名靠前,很多数据集可能还有大量「有毒」的标签,充斥着色情和暴力。
种种原因导致,当人们的观念早已进步,互联网图像里人与人的差异,可能比现实更加极端,非洲人原始,欧洲人世俗,高管是男性,囚犯是黑人……
为数据集「解毒」的努力当然也在进行,比如从数据集中过滤掉「坏」内容,但过滤也意味着牵一发动全身,删除了色情内容,可能也导致某些地区的内容更多或者更少,又造成了某种偏差。
简而言之,达成完美是不可能的,现实社会又何尝不存在偏见,我们只能尽量做到,不让边缘的群体被排除在外,弱势的群体不被安上刻板印象。
逃避虽可耻但有用
2015 年,Google 的一个机器学习项目也陷入过类似的争议。
当时,一名软件工程师批评 Google Photos 将非裔美国人或者肤色较深的人标记为大猩猩。这件丑闻,也成为了「算法种族主义」的典型例子,影响至今。
两名前 Google 员工解释,出现这么大的错误,是因为训练数据中没有足够的黑人照片,并且在相关功能公开亮相之前,没有足够的员工进行内测。
时至今日,计算机视觉不可同日而语,但科技巨头们仍然担心重蹈覆辙,Google、苹果等大公司的相机应用,对大多数灵长类动物的识别仍然不灵敏,或者刻意回避。
防止错误再次发生的最好方式,似乎是把它关进小黑屋,而非修修补补。教训确实也重新上演了,2021 年,Facebook 为 AI 将黑人贴上「灵长类动物」标签道歉。
这些才是有色人种或者互联网弱势群体们熟悉的情况。
去年 10 月,牛津大学的几位研究员要求 midjourney 生成「治疗白人儿童的非洲黑人医生」的图片,扭转「白人救世主」的传统印象。
研究员的要求已经非常明确了,然而生成的 350 多张图像中,有 22 张的医生是白人,黑人医生旁边还总有长颈鹿、大象等非洲野生动物,「你看不到任何非洲的现代感」。
一边是司空见惯的歧视,一边是 Google 歪曲事实营造虚假的平等感,从目前来看,不存在简单的答案,也不存在端水的模型,如何达成人人满意的平衡,恐怕比走钢丝还难。
就拿生成人像来说,如果是用 AI 生成某段历史时期,或许反映真实的情况更好,尽管看起来没有那么「多样化」。
但如果是输入提示词「一名美国女性」,理应输出更加「多样化」的结果,但难点在于,AI 如何在有限的几张图里做到反映现实,或者至少不扭曲现实?
哪怕同是白人或黑人,年龄、身材、头发等特征也各不相同,所有人都是具有独特经历和观点的个体,却又生活在共同的社会中。
一位网友用 Gemini 生成芬兰女性时,四张图里只有一张是黑人女性,便开玩笑说:「75%,得分 C。」
也有人追问 Google,改进模型之后,是否「会在 25% 的时间生成白人,而非 5%」。
很多问题并非技术所能解决,有时候也关于观念。这其实也是 Yann LeCun 等 AI 大佬支持开源的部分原因,由用户和组织自行控制,根据自己的意愿设置或不设置保护措施。
这次 Google 的闹剧中,也有人保持冷静,表示先去练习怎么写提示词吧,与其笼统地说白人、黑人,不如写「斯堪的纳维亚女性、肖像拍摄、演播室照明」,要求越明确,结果也越精准,要求越广泛,结果也可能越笼统。
去年 7 月发生过类似的事情,一位麻省理工的亚裔学生想用 AI 工具 Playground AI 让头像看起来更专业,结果被变成白人,肤色更浅,眼睛更蓝,把帖子发在 X 后,引来了很多讨论。
Playground AI 创始人回应,模型无法被这样的指令有效地提示,所以会输出更加通用的结果。
把提示词「使其成为专业的领英照片」改成「工作室背景、锐利灯光」,结果可能会更好,但确实也说明了,很多 AI 工具既没教用户怎么写提示词,数据集又以白人为中心。
任何技术都有犯错的可能和改进的空间,却未必都有解。当 AI 还不够聪明的时候,首先能够进步的是人类自身。