请问怎么【自动地】为PDF文件制作书签
诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录
(不是word转成的PDF! 手里只有这么一个PDF文件,在这个基础之上去操作)
插眼
cdht (cdht) 在 ta 的帖子中提到:
诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录
(不是word转成的PDF! 手里只有这么一个PDF文件,在这个基础之上去操作)
Python有个fitz库,可以操作pdf。理论上你可以通过检测字号来识别出哪些地方是新的章节,并依据此来自动添加书签。
cdht (cdht) 在 ta 的帖子中提到:
诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录
(不是word转成的PDF! 手里只有这么一个PDF文件,在这个基础之上去操作)
有一个软件叫pdf补丁丁
不过对于扫描版pdf可能没法实现
cdht (cdht) 在 ta 的帖子中提到:
诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录
(不是word转成的PDF! 手里只有这么一个PDF文件,在这个基础之上去操作)
感谢
Kirayosikage (吉良吉影|东方定助) 在 ta 的帖子中提到:
Python有个fitz库,可以操作pdf。理论上你可以通过检测字号来识别出哪些地方是新的章节,并依据此来自动添加书签。
自动比较困难,但是半自动还是有可能的,思路有二,一是这份文件是否有别人制作过的书签,二是OCR后使用一些辅助软件制作,也会比较快,你可以联系我帮你看看
cdht (cdht) 在 ta 的帖子中提到:
诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录
(不是word转成的PDF! 手里只有这么一个PDF文件,在这个基础之上去操作)
试了一下,识别效果有点感人😂 输出的书签一堆乱码,也没识别出标题www
可能是我的PDF文件太不标准化了?
ysqmy (ysqmy) 在 ta 的帖子中提到:
有一个软件叫pdf补丁丁
不过对于扫描版pdf可能没法实现
PDF文件是经过OCR识别后的(不是纯图片格式的PDF)。您看后续制作书签可以使用什么软件比较好呢?
cityofsky (紫玉红棉) 在 ta 的帖子中提到:
自动比较困难,但是半自动还是有可能的,思路有二,一是这份文件是否有别人制作过的书签,二是OCR后使用一些辅助软件制作,也会比较快,你可以联系我帮你看看
如果是纯图片的那就没办法了,如果不是可以手动改,具体要看你文件的情况了
cdht (cdht) 在 ta 的帖子中提到:
诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录
(不是word转成的PDF! 手里只有这么一个PDF文件,在这个基础之上去操作)
可以考虑使用python+ChatGPT,不过我没找到现有方案,需要自己造轮子
cdht (cdht) 在 ta 的帖子中提到:
诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录
(不是word转成的PDF! 手里只有这么一个PDF文件,在这个基础之上去操作)
经过楼上大佬们的方案,大概(80%)解决了这个问题。
1 要完全实现全自动,应该是不太可能的 (用AIGC应该可以做到,但是没见到相应攻略),尤其是对于图像版的PDF,必须用软件(Adobe)OCR识别才能进行下一步
2 经过1之后,可以用《PDF补丁丁》软件去进行书签制作,可以实现半自动化:你告诉软件哪些地方是一级标题、二级标题,它就会自动去识别所有的地方。但是识别效果因PDF的质量而异,有时候你不需要手动再调整,有时候识别效果不好需要自己再修改一下。
总体来说已经很大程度上减小了工作量
目前来说算是一种比较理想的方案
cdht (cdht) 在 ta 的帖子中提到:
诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录
(不是word转成的PDF! 手里只有这么一个PDF文件,在这个基础之上去操作)
赞
不过有这个时间,自己手动也设置好了吧
cdht (cdht) 在 ta 的帖子中提到:
经过楼上大佬们的方案,大概(80%)解决了这个问题。
1 要完全实现全自动,应该是不太可能的 (用AIGC应该可以做到,但是没见到相应攻略),尤其是对于图像版的PDF,必须用软件(Adobe)OCR识别才能进行下一步
2 经过1之后,可以用《PDF补丁丁》软件去进行书签制作,可以实现半自动化:你告诉软件哪些地方是一级标题、二级标题,它就会自动去识别所有的地方。但是识别效果因PDF的质量而异,有时候你不需要手动再调整,有时候识别效果不好需要自己再修改一下。
……
我的文档是一个600多页的PDF,自己去设置的话要一页一页去翻,麻烦死,宁愿多花点时间去找个工具😥
用工具做一个初版的结果,自己稍微微调,就行了
Alpher (小现) 在 ta 的帖子中提到:
赞
不过有这个时间,自己手动也设置好了吧
600多页一个多小时也就干完了,费劲巴拉找工具调试工具估计花的时间多得多
cdht (cdht) 在 ta 的帖子中提到:
我的文档是一个600多页的PDF,自己去设置的话要一页一页去翻,麻烦死,宁愿多花点时间去找个工具
用工具做一个初版的结果,自己稍微微调,就行了
quicker配合PDFXeditor,quicker里面自己编一下自动步骤
cdht (cdht) 在 ta 的帖子中提到:
PDF文件是经过OCR识别后的(不是纯图片格式的PDF)。您看后续制作书签可以使用什么软件比较好呢?
又不是一锤子买卖,以后也用得上啊
himitsu (神山 よしか) 在 ta 的帖子中提到:
600多页一个多小时也就干完了,费劲巴拉找工具调试工具估计花的时间多得多
应该不行吧,quicker只是一款自动化执行操作的工具,但怎么执行需要人工指定?
怎么让他自动识别哪里是目录呢?
cityofsky (紫玉红棉) 在 ta 的帖子中提到:
quicker配合PDFXeditor,quicker里面自己编一下自动步骤
我有时候也会出现这种问题,不知道怎么解决😴
cdht (cdht) 在 ta 的帖子中提到:
试了一下,识别效果有点感人 输出的书签一堆乱码,也没识别出标题www
可能是我的PDF文件太不标准化了?
识别靠人,但是很多中间的步骤可以用quicker简化
cdht (cdht) 在 ta 的帖子中提到:
应该不行吧,quicker只是一款自动化执行操作的工具,但怎么执行需要人工指定?
怎么让他自动识别哪里是目录呢?