Skip to content

yang-tsao/paddle-ocr-pdf

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 

Repository files navigation

paddle-ocr-pdf

A python script which employs PaddleOCR to add a hidden text layer to picture pdfs.

利用PaddleOCR对图像PDF进行OCR,相较于OCRmyPDF,不会在中文间乱加空格。

安装方法

安装paddlepaddle

具体参见https://paddlepaddle.github.io/PaddleOCR/latest/quick_start.html,尤其是拥有GPU的用户。

python -m pip install paddlepaddle==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/

安装paddleocr

pip install paddleocr

安装PyMuPDF

pip install PyMuPDF

运行

基本用法

python pocr.py input.pdf output.pdf

input.pdf 为输入的图像型 PDF 文件,output.pdf 为处理后的输出文件。遇到复杂文件请加-IP参数,默认参数仅适用于每一页除一张填满整页的图片外无其他任何内容的情况。

命令行参数说明

  • -p--pure:生成只包含文本层的纯文本 PDF 文件,文件名以 -pure.pdf 结尾。
  • -c--cv:处理过程中显示提取的图像。
  • -n--no-ocr(仅 pocr-pixmap.pypocr-inplace.py 支持):跳过 OCR 处理。
  • -l--lang:指定 OCR 识别语言,默认为 ch
  • -I--inplace:向原本的PDF添加隐藏的文字层,而不是提取图片构建新的PDF。原有的PDF文件不会有变化,只是借用了它的数据。
  • -P--pixmap:直接光栅化PDF页面作为OCR的输入,而不是提取图片作为OCR的输入。
  • -g--debug:将原本不可见的OCR文字层按识别的置信度显示颜色。

About

A python script which employs PaddleOCR to add a hidden text layer to picture pdfs.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages