A python script which employs PaddleOCR to add a hidden text layer to picture pdfs.
利用PaddleOCR对图像PDF进行OCR,相较于OCRmyPDF,不会在中文间乱加空格。
具体参见https://paddlepaddle.github.io/PaddleOCR/latest/quick_start.html,尤其是拥有GPU的用户。
python -m pip install paddlepaddle==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/pip install paddleocrpip install PyMuPDFpython pocr.py input.pdf output.pdfinput.pdf 为输入的图像型 PDF 文件,output.pdf 为处理后的输出文件。遇到复杂文件请加-IP参数,默认参数仅适用于每一页除一张填满整页的图片外无其他任何内容的情况。
-p或--pure:生成只包含文本层的纯文本 PDF 文件,文件名以-pure.pdf结尾。-c或--cv:处理过程中显示提取的图像。-n或--no-ocr(仅pocr-pixmap.py和pocr-inplace.py支持):跳过 OCR 处理。-l或--lang:指定 OCR 识别语言,默认为ch。-I或--inplace:向原本的PDF添加隐藏的文字层,而不是提取图片构建新的PDF。原有的PDF文件不会有变化,只是借用了它的数据。-P或--pixmap:直接光栅化PDF页面作为OCR的输入,而不是提取图片作为OCR的输入。-g或--debug:将原本不可见的OCR文字层按识别的置信度显示颜色。