首页版面好友提醒登录
返回网络技术版

请问怎么【自动地】为PDF文件制作书签

cdht 2023-10-10 16:27:27
[楼主]1楼

诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录


(不是word转成的PDF!  手里只有这么一个PDF文件,在这个基础之上去操作)


frankse看山 2023-10-10 18:52:05
2楼

插眼

cdht (cdht) 在 ta 的帖子中提到:

诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录


(不是word转成的PDF!  手里只有这么一个PDF文件,在这个基础之上去操作)

Kirayosikage吉良吉影|东方定助 2023-10-10 19:04:19
3楼

Python有个fitz库,可以操作pdf。理论上你可以通过检测字号来识别出哪些地方是新的章节,并依据此来自动添加书签。

cdht (cdht) 在 ta 的帖子中提到:

诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录


(不是word转成的PDF!  手里只有这么一个PDF文件,在这个基础之上去操作)

签名档

时间就是性命,无端的空耗别人的时间,其实是无异于谋财害命的。    ——鲁迅


你在“xx化xx检测”上浪费了多少时间呢?

ysqmyysqmy 2023-10-10 20:07:03
4楼

有一个软件叫pdf补丁丁

不过对于扫描版pdf可能没法实现

cdht (cdht) 在 ta 的帖子中提到:

诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录


(不是word转成的PDF!  手里只有这么一个PDF文件,在这个基础之上去操作)

cdht 2023-10-10 23:02:57
[楼主]5楼

感谢

Kirayosikage (吉良吉影|东方定助) 在 ta 的帖子中提到:

Python有个fitz库,可以操作pdf。理论上你可以通过检测字号来识别出哪些地方是新的章节,并依据此来自动添加书签。

cdht 2023-10-10 23:03:03
[楼主]6楼

感谢

ysqmy (ysqmy) 在 ta 的帖子中提到:

有一个软件叫pdf补丁丁

不过对于扫描版pdf可能没法实现

cityofsky紫玉红棉 2023-10-11 10:17:30
7楼

自动比较困难,但是半自动还是有可能的,思路有二,一是这份文件是否有别人制作过的书签,二是OCR后使用一些辅助软件制作,也会比较快,你可以联系我帮你看看

cdht (cdht) 在 ta 的帖子中提到:

诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录


(不是word转成的PDF!  手里只有这么一个PDF文件,在这个基础之上去操作)

cdht 2023-10-11 11:29:03
[楼主]8楼

试了一下,识别效果有点感人😂 输出的书签一堆乱码,也没识别出标题www

可能是我的PDF文件太不标准化了?

ysqmy (ysqmy) 在 ta 的帖子中提到:

有一个软件叫pdf补丁丁

不过对于扫描版pdf可能没法实现

cdht 2023-10-11 11:30:39
[楼主]9楼

PDF文件是经过OCR识别后的(不是纯图片格式的PDF)。您看后续制作书签可以使用什么软件比较好呢?

cityofsky (紫玉红棉) 在 ta 的帖子中提到:

自动比较困难,但是半自动还是有可能的,思路有二,一是这份文件是否有别人制作过的书签,二是OCR后使用一些辅助软件制作,也会比较快,你可以联系我帮你看看

aharonaharon 2023-10-11 15:16:31
10楼

如果是纯图片的那就没办法了,如果不是可以手动改,具体要看你文件的情况了

cdht (cdht) 在 ta 的帖子中提到:

诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录


(不是word转成的PDF!  手里只有这么一个PDF文件,在这个基础之上去操作)

Bigscience🔞🧜‍♀️|40天20时54分5秒后毕业 2023-10-12 09:08:38
11楼

可以考虑使用python+ChatGPT,不过我没找到现有方案,需要自己造轮子

cdht (cdht) 在 ta 的帖子中提到:

诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录


(不是word转成的PDF!  手里只有这么一个PDF文件,在这个基础之上去操作)

cdht 2023-10-12 09:23:48
[楼主]12楼

经过楼上大佬们的方案,大概(80%)解决了这个问题。


1 要完全实现全自动,应该是不太可能的 (用AIGC应该可以做到,但是没见到相应攻略),尤其是对于图像版的PDF,必须用软件(Adobe)OCR识别才能进行下一步

2 经过1之后,可以用《PDF补丁丁》软件去进行书签制作,可以实现半自动化:你告诉软件哪些地方是一级标题、二级标题,它就会自动去识别所有的地方。但是识别效果因PDF的质量而异,有时候你不需要手动再调整,有时候识别效果不好需要自己再修改一下。

总体来说已经很大程度上减小了工作量


目前来说算是一种比较理想的方案

cdht (cdht) 在 ta 的帖子中提到:

诉求是:给定你一个PDF文档,自动识别哪些地方是目录,并帮我制作目录


(不是word转成的PDF!  手里只有这么一个PDF文件,在这个基础之上去操作)

Alpher小现 2023-10-12 10:37:02
13楼

不过有这个时间,自己手动也设置好了吧


cdht (cdht) 在 ta 的帖子中提到:

经过楼上大佬们的方案,大概(80%)解决了这个问题。

1 要完全实现全自动,应该是不太可能的 (用AIGC应该可以做到,但是没见到相应攻略),尤其是对于图像版的PDF,必须用软件(Adobe)OCR识别才能进行下一步

2 经过1之后,可以用《PDF补丁丁》软件去进行书签制作,可以实现半自动化:你告诉软件哪些地方是一级标题、二级标题,它就会自动去识别所有的地方。但是识别效果因PDF的质量而异,有时候你不需要手动再调整,有时候识别效果不好需要自己再修改一下。

……


签名档

    ◢                                         

  ╲█◤                                       

◢█ ━━━━━┓                          

  ◤◥ 往事只堪哀┏╋┓                        

       对景难排  ┗┛┃       秋风庭院藓侵阶

       一任珠帘闲不卷       终日谁来  ●━┛

cdht 2023-10-12 11:02:01
[楼主]14楼

我的文档是一个600多页的PDF,自己去设置的话要一页一页去翻,麻烦死,宁愿多花点时间去找个工具😥


用工具做一个初版的结果,自己稍微微调,就行了

Alpher (小现) 在 ta 的帖子中提到:

不过有这个时间,自己手动也设置好了吧


himitsu神山 よしか 2023-10-12 16:12:43
15楼

600多页一个多小时也就干完了,费劲巴拉找工具调试工具估计花的时间多得多

cdht (cdht) 在 ta 的帖子中提到:

我的文档是一个600多页的PDF,自己去设置的话要一页一页去翻,麻烦死,宁愿多花点时间去找个工具


用工具做一个初版的结果,自己稍微微调,就行了

cityofsky紫玉红棉 2023-10-12 18:50:01
16楼

quicker配合PDFXeditor,quicker里面自己编一下自动步骤

cdht (cdht) 在 ta 的帖子中提到:

PDF文件是经过OCR识别后的(不是纯图片格式的PDF)。您看后续制作书签可以使用什么软件比较好呢?

cdht 2023-10-12 20:57:57
[楼主]17楼

又不是一锤子买卖,以后也用得上啊

himitsu (神山 よしか) 在 ta 的帖子中提到:

600多页一个多小时也就干完了,费劲巴拉找工具调试工具估计花的时间多得多

cdht 2023-10-13 09:33:31
[楼主]18楼

应该不行吧,quicker只是一款自动化执行操作的工具,但怎么执行需要人工指定?

怎么让他自动识别哪里是目录呢?

cityofsky (紫玉红棉) 在 ta 的帖子中提到:

quicker配合PDFXeditor,quicker里面自己编一下自动步骤

ysqmyysqmy 2023-10-13 16:34:39
19楼

我有时候也会出现这种问题,不知道怎么解决😴

cdht (cdht) 在 ta 的帖子中提到:

试了一下,识别效果有点感人 输出的书签一堆乱码,也没识别出标题www

可能是我的PDF文件太不标准化了?

cityofsky紫玉红棉 2023-10-15 12:33:58
20楼

识别靠人,但是很多中间的步骤可以用quicker简化

cdht (cdht) 在 ta 的帖子中提到:

应该不行吧,quicker只是一款自动化执行操作的工具,但怎么执行需要人工指定?

怎么让他自动识别哪里是目录呢?