安装Office文本识别功能
打开需要识别的图片资料
在安装并启动Microsoft Office Document Imaging之后,即可通过“文件”菜单“打开”选项选择打开需要识别的图片,该软件支持Microsoft Document Imaging 文件格式 (文件扩展名.MDI),和Tag 图像文件格式 (文件扩展名 .TIF、.TIFF)。Tag 图像文件格式是一种原用于Macintosh电脑的图像文件格式,但现在除了流行于Macintosh,Windows上主流的图像编辑软件和扫描器应用软件都支持该格式,因而,无论你需要进行文本识别的图片文件原来是什么格式,都可以很轻松的使用各种图像编辑软件将其转换为.TIF、.TIFF 文件,然后再利用Microsoft Office Document Imaging进行识别。
而MDI则是Office Document Imaging的专用文件格式,只有该软件能够支持这一格式,该格式与Tag 图像文件格式相比,在保存相同的图像时占用的磁盘空间相对较小,而且图像的保真度更高,文本识别时准确性也更高。因而,在将其他文件或资料转到Microsoft Office Document Imaging进行识别时,应该尽可能的采用MDI格式。要将其他图片或者文件资料保存为MDI格式,初中非常简便。在Office 安装Microsoft Office Document Imaging之时,将在用户的系统上安装一台名为Microsoft Office Document Image Writer的虚拟打印机,你只需在原来编辑处理这些图片、资料的应用软件之中选择打印这些图片、资料,并在打印设置对话框中选择使用Microsoft Office Document Image Writer打印机(如图:使用Microsoft Office Document Image Writer虚拟打印机),虚拟打印机将会让你选择存储文件的路径与名称,将这些需要转换成MDI格式的图片、资料打印成MDI文件。输入需要识别的印刷品
除了直接打开需要识别的图片进行文本识别,你也可以选择使用Microsoft Office Document Imaging“文件”菜单中的 “扫描新文档”,利用扫描仪将印刷品的输入到软件之中。选择“扫描新文档”之后,Microsoft Office Document Imaging将弹出“扫描新文档”对话框(如图:“扫描新文档”对话框),对话框中的“选择扫描预设”用于选择扫描方式,这将是你扫描的印刷品文本识别准确率高低的关键。在“选择扫描预设”当中,Microsoft Office Document Imaging为你提供一些预设的扫描方式,每种预设都根据不同的扫描需求进行了优化,你需要根据准备扫描的印刷品来选择适当的扫描方式。其中“彩色”方式以每英寸 200 点进行彩色扫描,这一扫描方式用于扫描全色文档,扫描速度较慢、结果图像大,并且文本识别的效果比较差,所以通常比较少用。一般情况下,各种彩色的文档或使用彩色纸张的印刷品,为了提高文本识别的准确性,你可以选择“将彩色页面扫描为黑白图片”扫描方式。而白纸黑字的文档,则使用“黑白模式”扫描方式的文本识别效果最佳。只有当文档中的文本包含渐变色等连续色调图像时,才会选择黑白色以外的“灰度模式”扫描方式。
另外,如果在选择了合适的扫描方式之后,扫描的图片文本识别的准确性仍然偏低,除了平整印刷品使扫描结果更加清楚以外,你可以在“扫描新文档”对话框中单击“预设选项”选择“编辑所选预设”,然后在弹出的“预设选项”对话框中单击“高级”按钮,单击“分辨率(DPI)”列表右侧的箭头,选择一个更大的数字增加扫描分辨率(如图:增加扫描分辨率),通过提高扫描的精度来提高文本识别的准确率。但需要在注意,只有在你从“扫描新文档”对话框中单击“扫描仪”按钮选择扫描仪时,在“选择扫描仪”对话框中清除了“在扫描前显示扫描仪驱动程序对话框”复选框,才能更改扫描分辨率。使用Office文本识别功能
扫描输入或打开需要进行文本识别的图片之后,我们可以正式开始使用Microsoft Office Document Imaging进行文本识别了。而且,在默认设置下,通过扫描印刷品输入,软件将在扫描结束之后自动执行文本识别操作。而通过“工具”菜单上和工具栏上的“使用OCR识别文本”,也可以手动开始执行文本识别。在执行文本识别之后,图片中的文本信息将变得与普通的文本一样,你可以通过鼠标定位、拖动来选择文本(如图:使用Office文本识别功能),然后通过“编辑”菜单中的“复制”选项拷贝这些文本信息,再切换到要在其中编辑这些文本的应用软件窗口中,使用该软件的粘贴命令将文本粘贴过去。而如果希望拷贝图片或扫描结果中的图像内容,则在选择图像内容后,在“编辑”菜单上则需要选择“复制图像”,方可拷贝粘贴图像内容到其他应用软件。另外,在识别文本之后,也可以直接单击“工具”菜单和工具栏上的“将文本发送到 Word”,将文本导出到新 Microsoft Word 文档中。
在导出到新的 Microsoft Word 文档中或粘贴到其他应用软件中后,文本识别的准确率如果不能令你满意,那么你除了可能需要调整扫描分辨率以便提高质量之外,你还可以对扫描的结果或者其他需要识别的图片进行处理,以获得更高的识别率。首先,你需要避免图片中的文字图像不平整,例如页面方向倾斜、倒置等。而如果页面的内容复杂,图文混排的程度比较混乱,那么,有需要的话你还可以使用图像编辑软件,对扫描结果和需要识别的图片进行编辑,将其中不包含文本的图像内容剪切掉。最后,如果扫描结果或需要识别的图片文本与背景的颜色比较相似,又或者对比度不足,那么你甚至还可以通过图像编辑软件,尽可能的提高文本和背景之间的对比度。
另外,如果要识别的是外文文档,也就是文档所用语言与你的 Office 语言不同,那么,你还需要更改一下文本识别的语言。更改的方法相对简单,只需要在Microsoft Office Document Imaging中单击“工具”菜单选择“选项”,在“选项”对话框上选择“OCR”选项卡,然后在“OCR 语言”拉菜单中选择要使用的语言就可以了(如图:更改文本识别语言)。