「Image to SFX」是将图片转为音效〔SFX〕的 AI 工具,依照开发者所述,这也是一个针对不同声音模型、同张图片生成音效的比较器,用户只要将图片拖曳到生成器,选择一个 AI 模型后就能快速生成长度约 10 秒左右的音效,这段音效很可以描述照片代表的画面或环境。
音效(SFX)是指在影视、游戏、广播等媒体中使用的声音效果。它们被用来增强场景的真实感和情感表达,包括各种声音,如爆炸、枪声、雨滴声、动物叫声等。音效可以通过录制现实中的声音或者通过数字合成来创建,并在后期制作中进行编辑和混合,以达到与画面相配的效果。
例如上传一张露营的照片,Image to SFX 会给出虫鸣鸟叫、很静谧的声音;在海边看海喝咖啡的照片则会有海浪拍打岸边的声音,准确度相当高。
Image to SFX 提供四种 AI 模型选项:MAGNet、AudioLDM-2、AudioGen 和 Tango,生成音效很快,完成后下载为 .wav 格式,也可以使用在任何想使用的地方。
教程
Image2SFX Comparison – a Hugging Face Space by fffiloni
Generates audio environment from an image
进入 Image to SFX 网站后先点击图片右上角按钮「移除图片」,再把生成音效的照片拖曳上去,接着从左下模型选项,不确定要选什么直接选 AudioLDM-2 即可。
点击「Submit」送出后就会开始分析、处理并生成音效,下方会显示预估时间,等待整个流程跑完。
生成的音效会显示于下方「Audio output」,长度大约 10 秒左右,可调整播放速度、直接在浏览器预览。
点击右上角「Download」将生成的音效保存为 .wav 格式,由于是 AI 生成的内容,可自由使用于各种用途而不受版权或任何规范。