paddle-ocr-pdf

A python script which employs PaddleOCR to add a hidden text layer to picture pdfs.

利用PaddleOCR对图像PDF进行OCR，相较于OCRmyPDF，不会在中文间乱加空格。

安装方法

安装`paddlepaddle`

具体参见https://paddlepaddle.github.io/PaddleOCR/latest/quick_start.html，尤其是拥有GPU的用户。

python -m pip install paddlepaddle==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/

安装`paddleocr`

pip install paddleocr

安装`PyMuPDF`

pip install PyMuPDF

运行

基本用法

python pocr.py input.pdf output.pdf

input.pdf 为输入的图像型 PDF 文件，output.pdf 为处理后的输出文件。遇到复杂文件请加-IP参数，默认参数仅适用于每一页除一张填满整页的图片外无其他任何内容的情况。

命令行参数说明

-p 或 --pure：生成只包含文本层的纯文本 PDF 文件，文件名以 -pure.pdf 结尾。
-c 或 --cv：处理过程中显示提取的图像。
-n 或 --no-ocr（仅 pocr-pixmap.py 和 pocr-inplace.py 支持）：跳过 OCR 处理。
-l 或 --lang：指定 OCR 识别语言，默认为 ch。
-I 或 --inplace：向原本的PDF添加隐藏的文字层，而不是提取图片构建新的PDF。原有的PDF文件不会有变化，只是借用了它的数据。
-P 或 --pixmap：直接光栅化PDF页面作为OCR的输入，而不是提取图片作为OCR的输入。
-g 或 --debug：将原本不可见的OCR文字层按识别的置信度显示颜色。

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
LICENSE		LICENSE
README.md		README.md
pocr.py		pocr.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

paddle-ocr-pdf

安装方法

安装`paddlepaddle`

安装`paddleocr`

安装`PyMuPDF`

运行

基本用法

命令行参数说明

About

Uh oh!

Releases

Packages

Languages

License

yang-tsao/paddle-ocr-pdf

Folders and files

Latest commit

History

Repository files navigation

paddle-ocr-pdf

安装方法

安装paddlepaddle

安装paddleocr

安装PyMuPDF

运行

基本用法

命令行参数说明

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

安装`paddlepaddle`

安装`paddleocr`

安装`PyMuPDF`

Packages