想下载只读的pdf电子书,下载不了,谁有办法下载?
想下载这个网站的pdf电子书教材,国家智慧教育公共服务平台的,注册一下以游客身份就可以打开登录查看。尝试了以下几种方法都不行,使用过的方法如下:
1. open in new tab, 在新的标签页打开, 没有下载文件的按钮,即使选择打印、另存为pdf,最后存下来的文件也是空白的。
2. 找到pdf的后台存储路径但是不能直接访问,因为有权限限制,报错401。
3. 使用了Java代码读取url下载,但是下载下来的pdf文件不能打开,显示文件已损坏。
4. 使用Google-pdf-downloader工具,但是下载下来的PDF_DataFile文件是空的(因为文件大小显示为0,大概率就是空的)。
哪位大神有办法下载?或者其他效率比较高的方法能实现近似目标也行,谢谢!!
开F12,看pdf加载的那个状态码是206的请求,带上所有header拷贝出来,有一个header是-H 'range: bytes=xxx-xxx',直接把这header删了,就行了
curl --output test.pdf 'https://r3-ndr-private.ykt.cbern.com.cn/edu_product/esp/assets/3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4.pkg/pdf.pdf' \
-H 'accept: */*' \
-H 'accept-language: zh-CN,zh;q=0.9,en;q=0.8,zh-TW;q=0.7' \
-H 'cache-control: no-cache' \
-H 'origin: https://basic.smartedu.cn' \
-H 'pragma: no-cache' \
-H 'priority: u=1, i' \
-H 'referer: https://basic.smartedu.cn/' \
-H 'sec-ch-ua: "Google Chrome";v="125", "Chromium";v="125", "Not.A/Brand";v="24"' \
-H 'sec-ch-ua-mobile: ?0' \
-H 'sec-ch-ua-platform: "Windows"' \
-H 'sec-fetch-dest: empty' \
-H 'sec-fetch-mode: cors' \
-H 'sec-fetch-site: cross-site' \
-H 'user-agent: xxx' \
-H 'x-nd-auth: xxxx"'
huoyun (buliangshuai) 在 ta 的帖子中提到:
https://basic.smartedu.cn/tchMaterial/detail?contentType=assets_document&contentId=3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4&catalogType=tchMaterial&subCatalog=tchMaterial
想下载这个网站的pdf电子书教材,国家智慧教育公共服务平台的,注册一下以游客身份就可以打开登录查看。尝试了以下几种方法都不行,使用过的方法如下:
1. open in new tab, 在新的标签页打开, 没有下载文件的按钮,即使选择打印、另存为pdf,最后存下来的文件也是空白的。
……
这就是计算机学院的大神吗
yzs (江户川闰土) 在 ta 的帖子中提到:
开F12,看pdf加载的那个状态码是206的请求,带上所有header拷贝出来,有一个header是-H 'range: bytes=xxx-xxx',直接把这header删了,就行了
curl --output test.pdf 'https://r3-ndr-private.ykt.cbern.com.cn/edu_product/esp/assets/3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4.pkg/pdf.pdf' \
-H 'accept: */*' \
……
谢谢同学!你提供了一个新的思路!我刚才试了几遍,不过有报错的情况。一开始解析不了域名,我把域名换成了真实的IP地址,user-agent 和 x-nd-Auth值也从浏览器里面copy出来粘贴上了。修改后的命令如下:
curl --insecure --output test.pdf 'https://119.249.50.41/edu_product/esp/assets/3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4.pkg/pdf.pdf' \ -H 'accept: */*' \ -H 'accept-language: zh-CN,zh;q=0.9,en;q=0.8,zh-TW;q=0.7' \ -H 'cache-control: no-cache' \ -H 'origin: https://140.249.2.41' \ -H 'pragma: no-cache' \ -H 'priority: u=1, i' \ -H 'referer: https://140.249.2.41/' \ -H 'sec-ch-ua: "Google Chrome";v="125", "Chromium";v="125", "192.168.1.1/Brand";v="24"' \ -H 'sec-ch-ua-mobile: ?0' \ -H 'sec-ch-ua-platform: "Windows"' \ -H 'sec-fetch-dest: empty' \ -H 'sec-fetch-mode: cors' \ -H 'sec-fetch-site: cross-site' \ -H 'user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0' \ -H 'x-nd-auth: MAC id="7F938B205F876FC398BCDC5BCE419D07BC362EA5320B7A21201FF87D3D64B2654E84B7F10F4CB39035B1AB2C81F63AEBBD349E54873CAE7F",nonce="1717937715486:7IMZ3F2H",mac="AHnXh0Oeq/1Rne/kihn/B/x/rb/ rd6W4qGWBAa2i4w="'
我在Windows的cmd里面执行,报错信息包括:
curl: (3) URL rejected: Port number was not a decimal number between 0 and 65535
curl: (3) URL rejected: Bad hostname
curl: (3) URL rejected: No host part in the URL
curl: (6) Could not resolve host: Mozilla
curl: (3) URL rejected: Bad hostname
curl: (6) Could not resolve host: NT
在Linux上执行的时候,我把sec-ch-ua-platform: "Windows" 改成了sec-ch-ua-platform: "Linux",不过报错curl: (6) Could not resolve host: ; 未知的错误
不知道你那里是否可以真实下载下来,并成功打开pdf文件?
yzs (江户川闰土) 在 ta 的帖子中提到:
开F12,看pdf加载的那个状态码是206的请求,带上所有header拷贝出来,有一个header是-H 'range: bytes=xxx-xxx',直接把这header删了,就行了
curl --output test.pdf 'https://r3-ndr-private.ykt.cbern.com.cn/edu_product/esp/assets/3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4.pkg/pdf.pdf' \
-H 'accept: */*' \
……
我的命令是linux的,要是windows可以在导出的时候选cmd而不是bash,这个可以直接跑的,解析不了域名应该是别的问题
https://disk.pku.edu.cn/link/AAC49EB4B7C35A48C08067510671E9C78B
文件名:test.pdf
有效期限:2024-07-31 14:43
huoyun (buliangshuai) 在 ta 的帖子中提到:
谢谢同学!你提供了一个新的思路!我刚才试了几遍,不过有报错的情况。一开始解析不了域名,我把域名换成了真实的IP地址,user-agent 和 x-nd-Auth值也从浏览器里面copy出来粘贴上了。修改后的命令如下:
curl --insecure --output test.pdf 'https://119.249.50.41/edu_product/esp/assets/3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4.pkg/pdf.pdf' \ -H 'accept: */*' \ -H 'accept-language: zh-CN,zh;q=0.9,en;q=0.8,zh-TW;q=0.7' \ -H 'cache-control: no-cache' \ -H 'origin: https://140.249.2.41' \ -H 'pragma: no-cache' \ -H 'priority: u=1, i' \ -H 'referer: https://140.249.2.41/' \ -H 'sec-ch-ua: "Google Chrome";v="125", "Chromium";v="125", "192.168.1.1/Brand";v="24"' \ -H 'sec-ch-ua-mobile: ?0' \ ……
同学好,谢谢你的耐心解答,还给出了pdf文件,很厉害!我想再细问下哈,
1. 你完整执行的命令和最开始发出来的一样吗?比如:域名你有没有做修改,或者有没有别的映射?user-agent 和 x-nd-auth值不是 xxx吧?
2. 你的linux环境是服务器还是什么?我的Linux环境是在阿里云服务器,但是ping 命令行里面的域名实际上都能ping通。
3. 如果有时间的话可以贴下完整的截图,或者私信下,或者开个腾讯会议什么的都好。谢谢了!
yzs (江户川闰土) 在 ta 的帖子中提到:
我的命令是linux的,要是windows可以在导出的时候选cmd而不是bash,这个可以直接跑的,解析不了域名应该是别的问题
https://disk.pku.edu.cn/link/AAC49EB4B7C35A48C08067510671E9C78B
文件名:test.pdf
……
除了直接下载之外,昨天晚上还找到了一种折中的方法可以生成pdf文件,那就是先用长截图工具(PixPin)将只读的pdf文件截取成长图,然后用在线png转pdf工具(https://png2pdf.com/zh/)做转化,最后也可以得到几乎清晰度一致的pdf文件,不过这需要手动操作,没有直接执行代码命令行方便。供有需要的同学参考。
huoyun (buliangshuai) 在 ta 的帖子中提到:
https://basic.smartedu.cn/tchMaterial/detail?contentType=assets_document&contentId=3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4&catalogType=tchMaterial&subCatalog=tchMaterial
想下载这个网站的pdf电子书教材,国家智慧教育公共服务平台的,注册一下以游客身份就可以打开登录查看。尝试了以下几种方法都不行,使用过的方法如下:
1. open in new tab, 在新的标签页打开, 没有下载文件的按钮,即使选择打印、另存为pdf,最后存下来的文件也是空白的。
……
我根据这个帖子试了一下成功了
17 ch发布了一篇小红书笔记,快来看吧! 😆 elQdBkFZMSkmEB1 😆 http://xhslink.com/VGoc1L,复制本条信息,打开【小红书】App查看精彩内容!
huoyun (buliangshuai) 在 ta 的帖子中提到:
https://basic.smartedu.cn/tchMaterial/detail?contentType=assets_document&contentId=3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4&catalogType=tchMaterial&subCatalog=tchMaterial
想下载这个网站的pdf电子书教材,国家智慧教育公共服务平台的,注册一下以游客身份就可以打开登录查看。尝试了以下几种方法都不行,使用过的方法如下:
1. open in new tab, 在新的标签页打开, 没有下载文件的按钮,即使选择打印、另存为pdf,最后存下来的文件也是空白的。
……
好的,谢谢同学!
TREASURE (Louisa还是Louise呢) 在 ta 的帖子中提到:
我根据这个帖子试了一下成功了
17 ch发布了一篇小红书笔记,快来看吧! elQdBkFZMSkmEB1 http://xhslink.com/VGoc1L,复制本条信息,打开【小红书】App查看精彩内容!
楼上都是大神!!!本人偷懒,之前刚好浏览过,有人专门做了一个下载器,对我这种文科生来说可能会比较省力? 参考:https://www.52pojie.cn/thread-1891126-1-1.html
huoyun (buliangshuai) 在 ta 的帖子中提到:
https://basic.smartedu.cn/tchMaterial/detail?contentType=assets_document&contentId=3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4&catalogType=tchMaterial&subCatalog=tchMaterial
想下载这个网站的pdf电子书教材,国家智慧教育公共服务平台的,注册一下以游客身份就可以打开登录查看。尝试了以下几种方法都不行,使用过的方法如下:
1. open in new tab, 在新的标签页打开, 没有下载文件的按钮,即使选择打印、另存为pdf,最后存下来的文件也是空白的。
……
好的,谢谢!
datmxk (冬) 在 ta 的帖子中提到:
楼上都是大神!!!本人偷懒,之前刚好浏览过,有人专门做了一个下载器,对我这种文科生来说可能会比较省力? 参考:https://www.52pojie.cn/thread-1891126-1-1.html
求解
huoyun (buliangshuai) 在 ta 的帖子中提到:
https://basic.smartedu.cn/tchMaterial/detail?contentType=assets_document&contentId=3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4&catalogType=tchMaterial&subCatalog=tchMaterial
想下载这个网站的pdf电子书教材,国家智慧教育公共服务平台的,注册一下以游客身份就可以打开登录查看。尝试了以下几种方法都不行,使用过的方法如下:
1. open in new tab, 在新的标签页打开, 没有下载文件的按钮,即使选择打印、另存为pdf,最后存下来的文件也是空白的。
……