OCR PDF

将扫描文件和图像转换为可编辑的Word、PDF、Excel等文本输出格式

如何识别文字?

步骤 1
步骤 1
上传文件
从你的电脑、Google云端或Dropbox选取你要转换的文件,或将文件拖放到网页上
步骤 2
步骤 2
选择语言和输出格式
选择文件中的所有语言。接着,选择所需要的输出格式。例如:.doc (我们支援超过10种文本格式)
步骤 3
步骤 3
转换并下载
点击“识别”按钮,并下载已识别的文本

Optical character recognition

"光学字符识别或光学字符读出(OCR)是将打字、手写或印刷文字的图像转换为机械或电子编码文本的技术,适用于扫描文件、文件照片、场景照片(如风景照里的招牌和看板文字)或叠加在图像上的字幕(如电视节目上的字幕)。 此技术广泛用于护照证件、订单收据、银行对账单、电子收据、名片、邮件、静态数据打印件或任何适用文件等印刷纸本记录的数据输入。这种方法也经常被用在印刷文字的数字化处理,使得扫描后的文字可进行电子编辑、搜寻、压缩储存和在线显示,以及应用于认知计算、机器翻译、文本到语音(提取文本内容)、关键数据和文本挖掘等机械化技术。OCR是个专注于模式识别、人工智能和计算机视觉的研究领域。 早期版本需接受个别字符图像的训练,一次处理一种字体。如今,能精准识别大多字体的先进系统已非常普遍,更可支援多种数字图像的文件格式输入。部分系统能产生格式化的输出,使其贴近原始文件的图像、表格等非文本内容。"