RTranslator 介绍
RTranslator 是一款适用于 android 的开源、免费、离线、实时的翻译应用程序。RTranslator 使用 Meta 的开源 ai 模型 NLLB 进行翻译,使用 openai 的开源 AI 模型 Whisper 进行语音识别,是一款可以直接在手机上运行的开源离线本地实时 AI 同传翻译 app,在境外也不用担心因为手机无信号或无流量而无法使用了。
GitHub – niedev/RTranslator: Open source real-time translation app for Android that runs locally
Open source real-time translation app for Android that runs locally – niedev/RTranslator
对话模式
如果双方手机都安装了 RTranslator 这个模式可以实现(几乎)实时的语音翻译对话。适用于会议或者长对话场景。
- 双方都启动 RTranslator,点右下方的 Conversation Mode 进入对话模式,手机会自动查找附近的设备,一方发起连接请求,另一方选择接受,你们两个的手机进入对话模式。
- 正常说话,你的手机(推荐带个蓝牙耳机,这样能精确识别说话人)将使用 OpenAi 的开源 AI 模型 Whisper 进行语音识别,将语音识别为文字,显示在你的 RTranslator 界面内。
- 识别到的文字被原文发送到对方手机,对方手机使用 Meta 的开源 AI 模型 NLLB 进行翻译,显示在他的 RTranslator 界面内。
- 调用对方手机中的离线 TSS 将翻译后的文本读出来。
- 这个过程不但可以这样一对一用,甚至可以多对多,将多个人的手机加进这个聊天室,互相翻译。
- 影响翻译速度的主要是说话人本身手机的性能,AI 语音转文字需要至少 2 秒,而 AI 完成翻译几乎是瞬间的。
对讲机模式
对话模式更适合长对话,对讲机模式则适用于临时对话场景,比如问路或者买东西时的对话。
- 启动 RTranslator,点左下方的 Walkie Takie Mode 进入对讲机模式
- 在屏幕最上方设置,双方所用的语言,比如中文、英文
- 双方开始对话,RTranslator 会自动识别语言,在我们的例子中,RTranslator 会听到中文就翻译为英文并显示在右侧说话人,听到英文就翻译为中文并显示在左侧说话人。
- 你可以点击最右边的扬声器 🔊 图标,决定是否开启 TSS 朗读功能。
文本翻译模式
就是个正常的翻译器,复制文字进去,选择什么语言翻译到什么语言,点翻译就给你翻译。
RTranslator 总结
- RTranslator 使用 Meta 的 NLLB 进行翻译,使用 OpenAi 的 Whisper 进行语音识别,这俩基本是目前(几乎)对应领域最先进的 AI 模型,收听和翻译质量嘛,很多句子翻译出来的效果只能说差强人意,要说多好算不上不过看懂还是没问题的,简单的沟通肯定是够用了。
- 作者已经对 AI 模型进行了大量优化,以最大限度地优化内存需求和运行时间,尽管如此还是至少需要你的手机有不小于 6GB RAM,模型本体和运行库之类的,需要占用手机大约 2G 的储存空间。运行速度嘛,骁龙 870 + 8GB 内存的平板上,一句话从说完到翻译完大概需要 5 秒。
- RTranslator 使用的模型是 NLLB-Distilled-600M with KV cache 与 Whisper-Small-244M with KV cache,使用 OnnxRuntime 运行模型。
- 这个东西的意义主要是可以脱离网络的离线使用和不会上传任何数据的隐私安全,如果你想要更好的翻译质量,可以尝试 OpenAI,科大讯飞,Deepl 等厂家的在线翻译 APP。