TL,DR 今天又加深了对PDF文件的一个认识,了解到扫描的PDF文件是可以添加文本层的,具体做法就是通过工具(如Adobe Acrobat或者Abbyy Finereader)在扫描的PDF上加一层OCR文本层即可。
通过Word或者PowerPoint将文档转换成PDF文件后,如果没有设置安全性,文件中的文本是可以直接复制出来的,而通过扫描仪扫描的文件则是一般不行的,但也不是全部,部分扫描的PDF文件也可以复制文本。如果有文本的话,PDF文件则是可以进行内容搜索了。
添加OCR文本图层的方法
![使用Acrobat Pro添加文本识别](https://www.notion.so/image/https%3A%2F%2Ffile.notion.so%2Ff%2Ff%2Fd438f9ea-c9ef-4898-ab16-bc9242467f4e%2Fa2bfe561-8028-45ec-85b8-67fdddc0b2ad%2FUntitled.png%3Fid%3D312a4da1-d9a7-4b5e-9bf6-62d3e6b30e1a%26table%3Dblock%26spaceId%3Dd438f9ea-c9ef-4898-ab16-bc9242467f4e%26expirationTimestamp%3D1721980800000%26signature%3DHaXzBoYlNCYFhSnPksnQE_299z5BfreIIND1zVupLpo?table=block&id=312a4da1-d9a7-4b5e-9bf6-62d3e6b30e1a&cache=v2)
![使用ABBYY FineReader 进行PDF文件识别](https://www.notion.so/image/https%3A%2F%2Ffile.notion.so%2Ff%2Ff%2Fd438f9ea-c9ef-4898-ab16-bc9242467f4e%2Ff7947bef-8581-4b72-b002-9fd17092ed98%2FUntitled.png%3Fid%3D219305cc-4d8b-4f6a-9dc4-dcc257484554%26table%3Dblock%26spaceId%3Dd438f9ea-c9ef-4898-ab16-bc9242467f4e%26expirationTimestamp%3D1721980800000%26signature%3Dktjdh1VFmHs21WDfSoFufL0YeidmB6mgaJLBT-b5kM4?table=block&id=219305cc-4d8b-4f6a-9dc4-dcc257484554&cache=v2)
结论
- ABBYY的OCR技术确实比Acrobat的更加好。
- 要把之前扫描的合同和证件PDF文件都去识别一下了