在现今信息化的时代,多模态的信息表达方式已是不可或缺,我们常常发现,单纯的文字无法精确传达完整的信息,只有融合图片、视频或声音才能真正地展现其深度和细节。而之前 ChatGPT 的 AI 提问局限于文字,许多提问与内容生成上就有局限。
现在 ChatGPT GPT-4V 开始支持上传图片,结合文字提问,无论对于学生、设计师、运营人员、教育工作者等多数人来说,就能提出「图文混合的问题」,从而获得更多超能力般的应用。
ChatGPT 近期正在陆续针对付费版用户〔GPT-4〕推出这项功能,在文字提问时可以「上传图片」。结合 ChatGPT 原本强大的文字提问与生成能力,现在这样的图文混合多模态,确实可以有许多意想不到的应用。
例如:当你在写程序时遇到困难,只需提供一个网站截图,这款工具就能为你生成相应的模拟源码。
或是在运营领域中,通过分析产品照片,它能够快速地帮助我们了解目标消费者的喜好,提供更个性化的运营策略。
而且我实际测试 ChatGPT 图文混合提问后,生成的内容「很明显的」优于更早推出类似功能的:「Google Bard 图片 AI 识别」。
所以今天这篇教程文章,就要跟大家分析 ChatGPT 图文混合提问的 9 种能力,而且实测案例会从程序开发、图像设计、教育学习、生活问题到运营应用,一一提出我实际测试后的经验谈,跟大家分享。
01. 写程序应用:提供一个网站截图,写出模拟的网页源码
假如我需要快速写一个网站首页的模板,可以这样试试看:在 ChatGPT 〔GPT-4V〕中上传一张示例网站的截图,然后请 ChatGPT 根据截图写出类似风格的网页源码。
这样一来,我们就不用花很多时间用文字写出自己想要的网页规格,而是给一张图,请 AI 去分析出需要的规格。〔这就是一图胜千言的图文混合提问〕
实际上我是这样提问的〔我上传的是 Notion 首页的截图〕:
「你是一位网页源码专家,根据这边提供的网站版面图片,设计一张网站首页的完整源码。请一步一步分析,先读取图片中有哪些内容与版面区块,分析每个区块的大小、距离、位置,了解网页结构后开始设计,如果是文字标题或按钮,尽量符合原始内容并美化,如果是图片内容就先放上假的框框,最后撰写出跟原始图片相近的网页源码。」
ChatGPT 会先分析 Notion 网站首页的截图,提供他的结构建议,然后开始撰写源码。
而这段源码产出的网页成果如下图。
虽然跟 Notion 网页不是 100% 一样,但是基本的样貌、架构也有一定程度的雏型了。
如果不满意,其实只要在 ChatGPT 对话中请其继续修改源码即可。
02. 创意应用:分析我的手绘图,变成设计图
现在 ChatGPT 可以上传图片去分析内容,如果结合最近也陆续推出的 ChatGPT DALL-E 3 绘图功能,是否能实现这样的流程:
用手绘图画出自己想象的设计,请 AI 分析,然后请 AI 画出需要的设计图。
让我来试试看,我先手绘出想象的设计图片,请 AI 先描述这张图。
然后,把这段描述贴到 ChatGPT 的 DALL-E 3 绘图频道中,请他根据这段分析,导出类似的设计图。
以下是第一次绘图产出的结果,其中「文字」部分有点小错误,但整体的效果则是满意的。
同样的逻辑,我们也可以上传任何设计图,然后请 ChatGPT 分析背后的设计原理,这样我们就可以接续设计。
03. 旅行应用:拍下一个地标,让 ChatGPT 带你认识这个地标
在生活中,我们可以试试看利用 ChatGPT 的图片识别与文字生成功能,识别出古迹、地标,描绘背后的历史故事,并根据周围场景进行当下环境的推理判断。
例如下图这样的提问,关键在于除了 ChatGPT 可以识别出照片中的内容外,更重要的是结合文字生成能力,他给了我一段非常完整的历史、意义介绍,并且,最后 ChatGPT 还发现「这不是真的特洛伊木马,只是游乐场的装饰」!
04. 居家应用:在超市、餐厅、家中拍摄食品,计算热量、提供食谱
图文混合应用要有效,不仅要能识别图片内容,还要有强大的文字生成能力。
所以 ChatGPT 现在可以上传图片,请他根据图片中的内容计算卡路里。
上传餐厅某道料理照片,请 ChatGPT 分析食谱。
或者,拍一下超市货架的食品,请 ChatGPT 根据这些食材,设计今天晚上的菜单!
发挥我们的想象力与提问力,图文混合会有很多直觉的惊奇应用。
05. 教育应用:分析一张图片的操作、历史、地理等教程重点
例如我常常要撰写软件教程,那么我可以上传一张工具的界面图,然后请 ChatGPT 分析这个工具可能怎么用?界面中有哪些特殊功能?
下图的结果异常的准确!
如果我是一个地理老师,上传一张风景照片,然后用 AI 生成照片的地理介绍知识。
我是一个历史老师,上传一张历史照片、文化古迹相关图片,用 AI 生成文化背景的介绍。
只要给他一些基本的提示,例如:「分析这张「旧石器时代复原」照片内呈现的动作与场景,以历史老师的角度,介绍其中人物的生活与文化知识。」让 ChatGPT 有一个分析方向,就能在图文混合提问中,获得非常有用的结果。
针对学校教程,老师们还可以结合这个工具:Eduaide 免费 AI 课程助教帮老师设计教程、测验到行政,支持中文
06. 学习应用:教师或学生可以用来解释复杂的图表概念或数学问题
有时候,一个复杂的图表、数学公式看不懂,现在可以试试看上传图片到 ChatGPT,请他试试看能否解释给我们听。
例如我上传了下面这张图表,而且我这一次故意问得很简单,不给他任何提示:「请分析这张图表的内容,并解释这张图表的理论与案例。」
结果,ChatGPT 还算正确的回答了图表中的关键内容。
也就是说:
遇到比较复杂的图表,想要理解背后的意义,甚至要转换成教程,可以上传图片,利用 AI 来分析解释。
07. 设计应用:广告、设计图像的分析与效果测试
我们有没有可能请 AI 进行设计、美学、历史文化背景的分析呢?如果可以,是否就能在设计上获得许多辅助,也跳脱文字的思考,现在可以进行图像的头脑风暴?
我尝试了下面这样的案例,我先上传一张星巴克新旧版 LOGO 的比较图,请他进行美学、设计、文化分析。
下面是 ChatGPT 提供给我的比较结果,从我的角度来看,已经非常完整且有用。
然后,我把其中的重点转换成设计语言,又拿到 ChatGPT 的 DALL-E 3,请他用「同样的设计逻辑」,设计一个「海洋」主题的图像,下图就是他生成的结果。
08. 运营应用:消费者分析:理解用户的生活习惯和喜好
我又进行了下面的挑战,我拍下某种我想要触及的消费者会活动的场景照片,然后请 ChatGPT 根据场景照片,分析会到该场所的消费者有什么特性。
结果 ChatGPT 分析图像后,给了我下面的回答。
也就是说:
可以让 ChatGPT 根据照片中的场景与氛围〔图的分析〕,分析喜爱到这样的地方的人,有哪些特质?哪些行为取向?喜爱哪些东西?〔文的分析〕
09. 机器维修与操作图的挑战
下面则是我自己补充的一个小小挑战,有时候一个问题,照片的传达更好。
所以我拍下一张电线安装的照片,问 ChatGPT 可以怎么做。
ChatGPT 提供给我下面的回答,一开始还会提醒我注意安全。
以上就是我这几天利用 ChatGPT「上传图片」功能,完成的几种不同类型的提问,关键在于,有强大的「图片分析」,以及更强大的「文字生成」,才能让上述的应用实现。
非常值得大家试试看。