找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 文档 工具 设计
查看: 216|回复: 0

win10原生系统下 OCRmyPDF安装使用,用于OCR 已制成的扫描版PDF...

[复制链接]

2万

主题

1249

回帖

2万

积分

超级版主

教育辅助界扛把子

附加身份标识
精华
1
热心
7
听众
1
威望
48
贡献
14312
违规
0
书币
49991
注册时间
2020-4-8

论坛元老灌水之王

发表于 2022-9-9 01:02 | 显示全部楼层 |阅读模式
win10原生系统下 OCRmyPDF安装使用,用于OCR 已制成的扫描版PDF书籍



win10原生系统下 OCRmyPDF安装使用


长期以来一直在找代替freepic2pdf的工具,因为在图片转化PDF时,如果没有勾选该软件 添加OCR层 选项,印象中事后无法挂OCR层上去。
福昕风腾,Abbyy能对 整本PDF扫描书进行OCR,然后生成添加OCR层的PDF/A 文件吗?印象中,我是失败的。看到 OCRmyPDF 于是
打算安装,试试看。以下内容是我安装OCRmyPDF的记录。

这是安装说明 https://ocrmypdf.readthedocs.io/en/latest/installation.html#native-windows
提到需要的软件:
Python 3.7 (64-bit) or later
Tesseract 4.0 or later
Ghostscript 9.50 or later
提到用chocolatey  https://chocolatey.org/
看来miniconda白装了,而且命令行 conda search命令,提示错误,无法连接到网络 。

卸载coda https://docs.anaconda.com/anaconda/install/uninstall/#windows
在线安装 Chocolatey package manager https://chocolatey.org/install
开始安装说明 https://docs.chocolatey.org/en-us/choco/setup
使用powershell安装 Install with PowerShell.exe ,提示要关闭 Get-ExecutionPolicy 限制
--操作: 输入Get-ExecutionPolicy. If it returns Restricted,然后输入Set-ExecutionPolicy AllSigned 或者 Set-ExecutionPolicy Bypass -Scope Process.
出现黄标提示,忽略即可。如果没有error,输入choco,出现版本,说明成功。
如要Completely offline install 离线安装,见https://docs.chocolatey.org/en-us/choco/setup#more-install-options

首次使用课程 https://community.chocolatey.org/courses/installation
开始使用choco  https://docs.chocolatey.org/en-us/getting-started
更新Choco:choco upgrade chocolatey

安装需要的功能模块(最好电脑能访问谷歌)
choco install python3
choco install --pre tesseract
choco install ghostscript
choco install pngquant (optional)

安装 ocrmypdf
pip install ocrmypdf
添加语言包 https://ocrmypdf.readthedocs.io/en/latest/languages.html
从 https://github.com/tesseract-ocr/tessdata/  ,解压里面的扩展名为traineddata的文件,复制到 C:\Program Files\Tesseract-OCR\tessdata\

安装chocolatey后 chocolatey 数据文件出现在 C:\ProgramData\chocolatey\
在chocolatey 下载的功能模块安装包 出现在 C:\ProgramData\chocolatey\lib\
Python出现在 C:\Python310\
ghostscript出现在 C:\Program Files\gs\
tesseract 出现在 C:\Program Files\

使用OCRmyPDF
ocrmypdf -l chi_sim --pdf-renderer tesseract --output-type pdf source.pdf ocr.pdf
-l language的意思,chi_sim对应 C:\Program Files\Tesseract-OCR\tessdata\ 路径下的 chi_sim.traineddata 文件,如果是中英文混排的情况,就把-l chi_sim改成
-l chi_sim+eng
source.pdf 拿来做OCR的文件,带路径
ocr.pdf OCR成果文件,带路径
--pdf-renderer tesseract 实践中已失效,参数改为--pdf-renderer auto

更多使用说明 https://ocrmypdf.readthedocs.io/en/latest/cookbook.html——————
感悟:明天来测试看看效果。不管明天效果如何,但看到choco(chocolatey)代替conda做版本管理 已经够了。以上内容都是安装时随手记录的。

Great works are not done by strength, but by persistence! 历尽艰辛的飞升者,成了围剿孙悟空的十万天兵之一。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号


免责声明:
本站所发布的第三方软件及资源(包括但不仅限于文字/图片/音频/视频等仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢某程序或某个资源,请支持正版软件及版权方利益,注册或购买,得到更好的正版服务。如有侵权请邮件与我们联系处理。

Mail To: admin@cdsy.xyz

QQ|Archiver|手机版|小黑屋|城东书院 ( 湘ICP备19021508号-1|湘公网安备 43102202000103号 )

GMT+8, 2024-11-22 02:40 , Processed in 0.039876 second(s), 26 queries .

Powered by Discuz! CDSY.XYZ

Copyright © 2019-2023, Tencent Cloud.

快速回复 返回顶部 返回列表