ChatGPT 图文混合提问测试,实战 9 种能力:程序、教育、学习到运营等

4 min


在现今信息化的时代,多模态的信息表达方式已是不可或缺,我们常常发现,单纯的文字无法精确传达完整的信息,只有融合图片、视频或声音才能真正地展现其深度和细节。而之前 ChatGPT 的 AI 提问局限于文字,许多提问与内容生成上就有局限。

现在 ChatGPT GPT-4V 开始支持上传图片,结合文字提问,无论对于学生、设计师、运营人员、教育工作者等多数人来说,就能提出「图文混合的问题」,从而获得更多超能力般的应用。

ChatGPT 近期正在陆续针对付费版用户〔GPT-4〕推出这项功能,在文字提问时可以「上传图片」。结合 ChatGPT 原本强大的文字提问与生成能力,现在这样的图文混合多模态,确实可以有许多意想不到的应用。


例如:当你在写程序时遇到困难,只需提供一个网站截图,这款工具就能为你生成相应的模拟源码。
或是在运营领域中,通过分析产品照片,它能够快速地帮助我们了解目标消费者的喜好,提供更个性化的运营策略。

而且我实际测试 ChatGPT 图文混合提问后,生成的内容「很明显的」优于更早推出类似功能的:「Google Bard 图片 AI 识别」。

所以今天这篇教程文章,就要跟大家分析 ChatGPT 图文混合提问的 9 种能力,而且实测案例会从程序开发、图像设计、教育学习、生活问题到运营应用,一一提出我实际测试后的经验谈,跟大家分享。

01. 写程序应用:提供一个网站截图,写出模拟的网页源码

假如我需要快速写一个网站首页的模板,可以这样试试看:在 ChatGPT 〔GPT-4V〕中上传一张示例网站的截图,然后请 ChatGPT 根据截图写出类似风格的网页源码。

这样一来,我们就不用花很多时间用文字写出自己想要的网页规格,而是给一张图,请 AI 去分析出需要的规格。〔这就是一图胜千言的图文混合提问

实际上我是这样提问的〔我上传的是 Notion 首页的截图〕:
「你是一位网页源码专家,根据这边提供的网站版面图片,设计一张网站首页的完整源码。请一步一步分析,先读取图片中有哪些内容与版面区块,分析每个区块的大小、距离、位置,了解网页结构后开始设计,如果是文字标题或按钮,尽量符合原始内容并美化,如果是图片内容就先放上假的框框,最后撰写出跟原始图片相近的网页源码。」


ChatGPT 会先分析 Notion 网站首页的截图,提供他的结构建议,然后开始撰写源码。

而这段源码产出的网页成果如下图。
虽然跟 Notion 网页不是 100% 一样,但是基本的样貌、架构也有一定程度的雏型了。
如果不满意,其实只要在 ChatGPT 对话中请其继续修改源码即可。

02. 创意应用:分析我的手绘图,变成设计图

现在 ChatGPT 可以上传图片去分析内容,如果结合最近也陆续推出的 ChatGPT DALL-E 3 绘图功能,是否能实现这样的流程:

用手绘图画出自己想象的设计,请 AI 分析,然后请 AI 画出需要的设计图。

让我来试试看,我先手绘出想象的设计图片,请 AI 先描述这张图。


然后,把这段描述贴到 ChatGPT 的 DALL-E 3 绘图频道中,请他根据这段分析,导出类似的设计图。
以下是第一次绘图产出的结果,其中「文字」部分有点小错误,但整体的效果则是满意的。


同样的逻辑,我们也可以上传任何设计图,然后请 ChatGPT 分析背后的设计原理,这样我们就可以接续设计。

03. 旅行应用:拍下一个地标,让 ChatGPT 带你认识这个地标

在生活中,我们可以试试看利用 ChatGPT 的图片识别与文字生成功能,识别出古迹、地标,描绘背后的历史故事,并根据周围场景进行当下环境的推理判断。

例如下图这样的提问,关键在于除了 ChatGPT 可以识别出照片中的内容外,更重要的是结合文字生成能力,他给了我一段非常完整的历史、意义介绍,并且,最后 ChatGPT 还发现「这不是真的特洛伊木马,只是游乐场的装饰」!

04. 居家应用:在超市、餐厅、家中拍摄食品,计算热量、提供食谱

图文混合应用要有效,不仅要能识别图片内容,还要有强大的文字生成能力。
所以 ChatGPT 现在可以上传图片,请他根据图片中的内容计算卡路里。

上传餐厅某道料理照片,请 ChatGPT 分析食谱。

或者,拍一下超市货架的食品,请 ChatGPT 根据这些食材,设计今天晚上的菜单!

发挥我们的想象力与提问力,图文混合会有很多直觉的惊奇应用。

05. 教育应用:分析一张图片的操作、历史、地理等教程重点

例如我常常要撰写软件教程,那么我可以上传一张工具的界面图,然后请 ChatGPT 分析这个工具可能怎么用?界面中有哪些特殊功能?
下图的结果异常的准确!

如果我是一个地理老师,上传一张风景照片,然后用 AI 生成照片的地理介绍知识。


我是一个历史老师,上传一张历史照片、文化古迹相关图片,用 AI 生成文化背景的介绍。
只要给他一些基本的提示,例如:「分析这张「旧石器时代复原」照片内呈现的动作与场景,以历史老师的角度,介绍其中人物的生活与文化知识。」让 ChatGPT 有一个分析方向,就能在图文混合提问中,获得非常有用的结果。
针对学校教程,老师们还可以结合这个工具:Eduaide 免费 AI 课程助教帮老师设计教程、测验到行政,支持中文

06. 学习应用:教师或学生可以用来解释复杂的图表概念或数学问题

有时候,一个复杂的图表、数学公式看不懂,现在可以试试看上传图片到 ChatGPT,请他试试看能否解释给我们听。

例如我上传了下面这张图表,而且我这一次故意问得很简单,不给他任何提示:「请分析这张图表的内容,并解释这张图表的理论与案例。」


结果,ChatGPT 还算正确的回答了图表中的关键内容。
也就是说:

遇到比较复杂的图表,想要理解背后的意义,甚至要转换成教程,可以上传图片,利用 AI 来分析解释。

07. 设计应用:广告、设计图像的分析与效果测试

我们有没有可能请 AI 进行设计、美学、历史文化背景的分析呢?如果可以,是否就能在设计上获得许多辅助,也跳脱文字的思考,现在可以进行图像的头脑风暴?

我尝试了下面这样的案例,我先上传一张星巴克新旧版 LOGO 的比较图,请他进行美学、设计、文化分析。


下面是 ChatGPT 提供给我的比较结果,从我的角度来看,已经非常完整且有用。


然后,我把其中的重点转换成设计语言,又拿到 ChatGPT 的 DALL-E 3,请他用「同样的设计逻辑」,设计一个「海洋」主题的图像,下图就是他生成的结果。

08. 运营应用:消费者分析:理解用户的生活习惯和喜好

我又进行了下面的挑战,我拍下某种我想要触及的消费者会活动的场景照片,然后请 ChatGPT 根据场景照片,分析会到该场所的消费者有什么特性。


结果 ChatGPT 分析图像后,给了我下面的回答。
也就是说:

可以让 ChatGPT 根据照片中的场景与氛围〔图的分析〕,分析喜爱到这样的地方的人,有哪些特质?哪些行为取向?喜爱哪些东西?〔文的分析〕

09. 机器维修与操作图的挑战

下面则是我自己补充的一个小小挑战,有时候一个问题,照片的传达更好。
所以我拍下一张电线安装的照片,问 ChatGPT 可以怎么做。

ChatGPT 图文混合提问测试,实战 9 种能力:程序、教育、学习到运营等

ChatGPT 提供给我下面的回答,一开始还会提醒我注意安全。

以上就是我这几天利用 ChatGPT「上传图片」功能,完成的几种不同类型的提问,关键在于,有强大的「图片分析」,以及更强大的「文字生成」,才能让上述的应用实现。

非常值得大家试试看。


Like it? Share with your friends!

0
Anonymous

Choose A Format
Story
Formatted Text with Embeds and Visuals
List
The Classic Internet Listicles
Countdown
The Classic Internet Countdowns
Open List
Submit your own item and vote up for the best submission
Ranked List
Upvote or downvote to decide the best list item
Video
Youtube and Vimeo Embeds