要轻松快捷的完成提取电脑屏幕、图片上文本信息的工作,关键在于选择合适的软件。而软件的选择关键,则在于这些文本信息是在什么地方,以何种方式存储的。目前,包括微软Office 2003、丹青OCR、清华紫光TH-OCR,HyperSnap、SnagIt等截图软件,以及CopyText等一些专用的软件,都提供提取文本信息的功能。但这一相同的功能在不同的软件上,其目的与所能实现的功能却是有着很大差异的。
这其中,微软Office 2003、丹青OCR、清华紫光TH-OCR等软件提取文本信息的功能基于OCR(Optical Character Recognition的简称,中文名称为光学字符识别,也称为文本识别)技术,该技术是自动识别技术研究和应用中的一个重要领域,主要用于处理文字图像信息,使图像中正常情况下已锁定的文本重新可以编辑和使用。例如OCR技术可以透过模式识别人工智能技术,识别印刷品扫描结果以及各种图片中的文本字符、标点符号、空格和换行符,并将它们转换为实际的文本字符。
而以HyperSnap、SnagIt为代表的截图软件,以及CopyText等一些专用的文本信息截取软件,则对于通过扫描仪等光学设备输入的文字图像是无能为力的,只能够用于提取原本就以文本方式存在的文字信息,例如Windows中各种应用程序窗口中的文字信等。或者,在一些朋友看来,各种Windows应用窗口的文字信息和图片中的并没有什么不同,一时半会会弄不清楚这是为什么。实际上,在各种Windows应用程序窗口中的文本信息,虽然无法使用平常的拷贝、粘贴等操作,但当中所显示的文字在系统中仍是以文本方式存在的,而Hyper Snap DX、Snag It以及CopyText等软件的文本信息捕获功能,实际上相当于直接从系统中将这些文字信息提取出来。而这种截取文本信息的方式,明显与OCR技术通过光学字符识别文字有着本质上的不同。因而,这些软件能够轻松的提取各种应用程序窗口中的文字,却无法处理以图像方式存在的文本信息。
那么,也就是说,要完成在使用电脑过程中的各种文本提取工作,我们需要准备一款基于OCR技术的文本识别软件,以及一款能够捕获系统中各种应用窗口文本信息的文字截取软件。前者我们可以有许多种选择,最容易的获得的无疑是购买扫描仪时附送的OCR软件,以及许多用户的电脑上原本就已经安装的微软Office软件。而后者中,截图软件则无疑是最佳选择,既可轻松完成截取各种应用程序窗口文本信息的功能,还可以用于为影像等OCR软件无法直接处理的文字资料截图,然后再交给OCR软件识别处理。
