PearOCR – 免费 OCR 工具,离线图片转文字

2 min


PearOCR」是一个相当强大的免费 OCR 文字识别工具,这项服务完全免费,而且没有任何使用次数限制,支持繁体中文、简体中文和英文内容,最大特色是 PearOCR 可在离线状态下完成所有运算,不需要用到任何的第三方服务 API,也无需将图片上传,这也确保用户资料不会在过程中泄漏或有隐私安全疑虑。

PearOCR 使用自行开发的轻量化识别引擎,通过深度学习训练得到的模型拥有非常强大的文字识别能力,整个识别过程都在网页中完成,只要选择本机图片或是直接读取剪贴板〔在复制图片的情况下〕就能进行文字识别,将图片出现的中英文内容转换为纯文字或 PDF 格式。

前面有提到 PearOCR 可以在离线状态使用,本身支持 PWA 标准〔Progressive Web App,渐进式网页应用程序〕,只要之前打开过网站,即使没有连线亦可正常使用文字识别功能,或以应用方式安装到桌面使用。

PearOCR

An optical character recognition software

教程

进入 PearOCR 文字识别工具,从下方的「识别语言」选择要使用的语言,可以切换为繁体中文、简体中文或英文三种。

PearOCR – 免费 OCR 工具,离线图片转文字

接着直接把要识别的图片拖曳到 PearOCR 网站,或是从下方选择「本地图片」或「读剪贴板」两项功能,前者是选择要上传识别的图片文件,如果图片已经复制到剪贴板,可以使用后者直接让网页读取剪贴板内容〔会跳出提示信息需要给网站部分权限〕。

浏览器会开始扫描、识别用户上传的图片文字,耗费时间不会太久,速度相当快。

OCR 识别完成后侦测到的文字部分就会显示于右侧,右侧纯文字可以直接复制使用。

点击右侧下方选项「纯文字方式显示」会将扫描后的文字部分显示为纯文字格式,当然有可能因为文字大小、字型或颜色等等原因而造成识别错误或误植为其他文字,取用后还是需要手动校正一次以避免有错字生成。

除此之外,下方的选项还有一个「以表格方式显示」也很有趣,会显示在图片上识别出的本文和置信度,也方便取出某段文字,而这个数值可以通过右下角「设置」选项进行调整。

点击右下角的 PearOCR 设置功能,可以设置「置信度阈值」或是文字背景色、文字颜色等参数,设置后保存、点击「重新识别所有图片」有助于得出更正确的结果,如果扫描出来的结果差异非常多可以试着调整这些参数再重试看看。

PearOCR 有个很有用的功能就是右下角的「在文本底下显示图片」,可以在识别结果下方重叠原有图片,让用户在取用文字内容时马上知道在那个位置。

除了直接复制 OCR 识别出来的纯文字内容,也能点击「导出所有图像到 PDF」,将识别的文字转为 PDF 格式,默认情况下会将识别的文字内容和图片一起汇出,而且可以让原图附在下一页,方便让浏览者检视对照,直接复制纯文字。


Like it? Share with your friends!

0
DUN

Choose A Format
Story
Formatted Text with Embeds and Visuals
List
The Classic Internet Listicles
Countdown
The Classic Internet Countdowns
Open List
Submit your own item and vote up for the best submission
Ranked List
Upvote or downvote to decide the best list item
Video
Youtube and Vimeo Embeds