PDF的OCR文本层
🥽

PDF的OCR文本层

Tags
Date
Jul 27, 2021
Created
Jul 27, 2021 03:54 AM
💡
TL,DR 今天又加深了对PDF文件的一个认识,了解到扫描的PDF文件是可以添加文本层的,具体做法就是通过工具(如Adobe Acrobat或者Abbyy Finereader)在扫描的PDF上加一层OCR文本层即可。
通过Word或者PowerPoint将文档转换成PDF文件后,如果没有设置安全性,文件中的文本是可以直接复制出来的,而通过扫描仪扫描的文件则是一般不行的,但也不是全部,部分扫描的PDF文件也可以复制文本。如果有文本的话,PDF文件则是可以进行内容搜索了。

添加OCR文本图层的方法

 
使用Acrobat Pro添加文本识别
使用Acrobat Pro添加文本识别
使用ABBYY FineReader 进行PDF文件识别
使用ABBYY FineReader 进行PDF文件识别
 

结论

  • ABBYY的OCR技术确实比Acrobat的更加好。
  • 要把之前扫描的合同和证件PDF文件都去识别一下了