想下载只读的pdf电子书,下载不了,谁有办法下载? - 网络资源(NetResources)版 - 北大未名BBS
返回本版
1
/ 1
跳转

想下载只读的pdf电子书,下载不了,谁有办法下载?

[复制链接]
楼主

huoyun [离线]

buliangshuai

1.8一般站友

发帖数:58 原创分:0
<ASCIIArt> 1楼

https://basic.smartedu.cn/tchMaterial/detail?contentType=assets_document&contentId=3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4&catalogType=tchMaterial&subCatalog=tchMaterial


想下载这个网站的pdf电子书教材,国家智慧教育公共服务平台的,注册一下以游客身份就可以打开登录查看。尝试了以下几种方法都不行,使用过的方法如下:

1. open in new tab, 在新的标签页打开, 没有下载文件的按钮,即使选择打印、另存为pdf,最后存下来的文件也是空白的。

2. 找到pdf的后台存储路径但是不能直接访问,因为有权限限制,报错401。

3. 使用了Java代码读取url下载,但是下载下来的pdf文件不能打开,显示文件已损坏。

4. 使用Google-pdf-downloader工具,但是下载下来的PDF_DataFile文件是空的(因为文件大小显示为0,大概率就是空的)。



哪位大神有办法下载?或者其他效率比较高的方法能实现近似目标也行,谢谢!!

发表于2024-06-10 22:55:30

yzs [离线]

江户川闰土

4.1维尼熊

发帖数:2063 原创分:0
<ASCIIArt> 2楼

开F12,看pdf加载的那个状态码是206的请求,带上所有header拷贝出来,有一个header是-H 'range: bytes=xxx-xxx',直接把这header删了,就行了


curl --output test.pdf 'https://r3-ndr-private.ykt.cbern.com.cn/edu_product/esp/assets/3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4.pkg/pdf.pdf' \

  -H 'accept: */*' \

  -H 'accept-language: zh-CN,zh;q=0.9,en;q=0.8,zh-TW;q=0.7' \

  -H 'cache-control: no-cache' \

  -H 'origin: https://basic.smartedu.cn' \

  -H 'pragma: no-cache' \

  -H 'priority: u=1, i' \

  -H 'referer: https://basic.smartedu.cn/' \

  -H 'sec-ch-ua: "Google Chrome";v="125", "Chromium";v="125", "Not.A/Brand";v="24"' \

  -H 'sec-ch-ua-mobile: ?0' \

  -H 'sec-ch-ua-platform: "Windows"' \

  -H 'sec-fetch-dest: empty' \

  -H 'sec-fetch-mode: cors' \

  -H 'sec-fetch-site: cross-site' \

  -H 'user-agent: xxx' \

  -H 'x-nd-auth: xxxx"'




huoyun (buliangshuai) 在 ta 的帖子中提到:

https://basic.smartedu.cn/tchMaterial/detail?contentType=assets_document&contentId=3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4&catalogType=tchMaterial&subCatalog=tchMaterial

想下载这个网站的pdf电子书教材,国家智慧教育公共服务平台的,注册一下以游客身份就可以打开登录查看。尝试了以下几种方法都不行,使用过的方法如下:

1. open in new tab, 在新的标签页打开, 没有下载文件的按钮,即使选择打印、另存为pdf,最后存下来的文件也是空白的。

……

签名档

lxgxy?要走了吗?——“嗯”——

哈哈😄lxgxy,幸亏我没吃仲裁,要是你连任了,我又吃了仲裁,我这不毁了你一辈子吗😄

要走了吗?以后还能再见到吗?下次见面的时候你要幸福!你要开心😊你要幸福,好不好?

lxgxy你要开心要幸福啊!你的世界没有我了没关系,但你要开心,要幸福😄

lxgxy!!lxgxy!!呜……呜啊啊啊😭😭😭😭😭😭😭lxgxy😭lxgxy😭没有你我活不了啊😭我可以为你去怼水n😭我可以为你直面所有仲裁😭但我不能没有你啊😭😭lxgxy!😭lxgxy!😭

🚕🚕🚕💨💨💨🏃‍♀️🏃‍♀️🏃‍♀️💔😭啊啊啊啊😭lxgxy你带我走吧lxgxy😭

 最后修改于2024-06-10 23:27:59
  • 发表于2024-06-10 23:26:53

hahahahaha [离线]

AAAA搬砖老张

0.7新手上路

发帖数:42 原创分:0
<ASCIIArt> 3楼

这就是计算机学院的大神吗

yzs (江户川闰土) 在 ta 的帖子中提到:

开F12,看pdf加载的那个状态码是206的请求,带上所有header拷贝出来,有一个header是-H 'range: bytes=xxx-xxx',直接把这header删了,就行了

curl --output test.pdf 'https://r3-ndr-private.ykt.cbern.com.cn/edu_product/esp/assets/3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4.pkg/pdf.pdf' \

  -H 'accept: */*' \

……

发表于2024-06-11 09:48:53
楼主

huoyun [离线]

buliangshuai

1.8一般站友

发帖数:58 原创分:0
<ASCIIArt> 4楼

谢谢同学!你提供了一个新的思路!我刚才试了几遍,不过有报错的情况。一开始解析不了域名,我把域名换成了真实的IP地址,user-agent 和 x-nd-Auth值也从浏览器里面copy出来粘贴上了。修改后的命令如下:

curl --insecure --output test.pdf 'https://119.249.50.41/edu_product/esp/assets/3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4.pkg/pdf.pdf' \  -H 'accept: */*' \  -H 'accept-language: zh-CN,zh;q=0.9,en;q=0.8,zh-TW;q=0.7' \  -H 'cache-control: no-cache' \  -H 'origin: https://140.249.2.41' \  -H 'pragma: no-cache' \  -H 'priority: u=1, i' \  -H 'referer: https://140.249.2.41/' \  -H 'sec-ch-ua: "Google Chrome";v="125", "Chromium";v="125", "192.168.1.1/Brand";v="24"' \  -H 'sec-ch-ua-mobile: ?0' \  -H 'sec-ch-ua-platform: "Windows"' \  -H 'sec-fetch-dest: empty' \  -H 'sec-fetch-mode: cors' \  -H 'sec-fetch-site: cross-site' \  -H 'user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0' \  -H 'x-nd-auth: MAC id="7F938B205F876FC398BCDC5BCE419D07BC362EA5320B7A21201FF87D3D64B2654E84B7F10F4CB39035B1AB2C81F63AEBBD349E54873CAE7F",nonce="1717937715486:7IMZ3F2H",mac="AHnXh0Oeq/1Rne/kihn/B/x/rb/ rd6W4qGWBAa2i4w="'


我在Windows的cmd里面执行,报错信息包括:

curl: (3) URL rejected: Port number was not a decimal number between 0 and 65535

curl: (3) URL rejected: Bad hostname

curl: (3) URL rejected: No host part in the URL

curl: (6) Could not resolve host: Mozilla

curl: (3) URL rejected: Bad hostname

curl: (6) Could not resolve host: NT



在Linux上执行的时候,我把sec-ch-ua-platform: "Windows" 改成了sec-ch-ua-platform: "Linux",不过报错curl: (6) Could not resolve host:  ; 未知的错误


不知道你那里是否可以真实下载下来,并成功打开pdf文件?

yzs (江户川闰土) 在 ta 的帖子中提到:

开F12,看pdf加载的那个状态码是206的请求,带上所有header拷贝出来,有一个header是-H 'range: bytes=xxx-xxx',直接把这header删了,就行了

curl --output test.pdf 'https://r3-ndr-private.ykt.cbern.com.cn/edu_product/esp/assets/3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4.pkg/pdf.pdf' \

  -H 'accept: */*' \

……

发表于2024-06-11 14:38:54

yzs [离线]

江户川闰土

4.1维尼熊

发帖数:2063 原创分:0
<ASCIIArt> 5楼

我的命令是linux的,要是windows可以在导出的时候选cmd而不是bash,这个可以直接跑的,解析不了域名应该是别的问题



https://disk.pku.edu.cn/link/AAC49EB4B7C35A48C08067510671E9C78B

文件名:test.pdf

有效期限:2024-07-31 14:43




huoyun (buliangshuai) 在 ta 的帖子中提到:

谢谢同学!你提供了一个新的思路!我刚才试了几遍,不过有报错的情况。一开始解析不了域名,我把域名换成了真实的IP地址,user-agent 和 x-nd-Auth值也从浏览器里面copy出来粘贴上了。修改后的命令如下:

curl --insecure --output test.pdf 'https://119.249.50.41/edu_product/esp/assets/3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4.pkg/pdf.pdf' \  -H 'accept: */*' \  -H 'accept-language: zh-CN,zh;q=0.9,en;q=0.8,zh-TW;q=0.7' \  -H 'cache-control: no-cache' \  -H 'origin: https://140.249.2.41' \  -H 'pragma: no-cache' \  -H 'priority: u=1, i' \  -H 'referer: https://140.249.2.41/' \  -H 'sec-ch-ua: "Google Chrome";v="125", "Chromium";v="125", "192.168.1.1/Brand";v="24"' \  -H 'sec-ch-ua-mobile: ?0' \ ……

签名档


发表于2024-06-11 14:45:55
楼主

huoyun [离线]

buliangshuai

1.8一般站友

发帖数:58 原创分:0
<ASCIIArt> 6楼

同学好,谢谢你的耐心解答,还给出了pdf文件,很厉害!我想再细问下哈,

1. 你完整执行的命令和最开始发出来的一样吗?比如:域名你有没有做修改,或者有没有别的映射?user-agent 和 x-nd-auth值不是 xxx吧?

2. 你的linux环境是服务器还是什么?我的Linux环境是在阿里云服务器,但是ping 命令行里面的域名实际上都能ping通。

3. 如果有时间的话可以贴下完整的截图,或者私信下,或者开个腾讯会议什么的都好。谢谢了!

yzs (江户川闰土) 在 ta 的帖子中提到:

我的命令是linux的,要是windows可以在导出的时候选cmd而不是bash,这个可以直接跑的,解析不了域名应该是别的问题

https://disk.pku.edu.cn/link/AAC49EB4B7C35A48C08067510671E9C78B

文件名:test.pdf

……

发表于2024-06-11 16:52:46
楼主

huoyun [离线]

buliangshuai

1.8一般站友

发帖数:58 原创分:0
<ASCIIArt> 7楼

除了直接下载之外,昨天晚上还找到了一种折中的方法可以生成pdf文件,那就是先用长截图工具(PixPin)将只读的pdf文件截取成长图,然后用在线png转pdf工具(https://png2pdf.com/zh/)做转化,最后也可以得到几乎清晰度一致的pdf文件,不过这需要手动操作,没有直接执行代码命令行方便。供有需要的同学参考。

huoyun (buliangshuai) 在 ta 的帖子中提到:

https://basic.smartedu.cn/tchMaterial/detail?contentType=assets_document&contentId=3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4&catalogType=tchMaterial&subCatalog=tchMaterial

想下载这个网站的pdf电子书教材,国家智慧教育公共服务平台的,注册一下以游客身份就可以打开登录查看。尝试了以下几种方法都不行,使用过的方法如下:

1. open in new tab, 在新的标签页打开, 没有下载文件的按钮,即使选择打印、另存为pdf,最后存下来的文件也是空白的。

……

发表于2024-06-11 16:57:20

TREASURE [离线]

Louisa还是Louise呢

3.3侏罗纪

发帖数:429 原创分:0
<ASCIIArt> 8楼

我根据这个帖子试了一下成功了

17 ch发布了一篇小红书笔记,快来看吧! 😆 elQdBkFZMSkmEB1 😆 http://xhslink.com/VGoc1L,复制本条信息,打开【小红书】App查看精彩内容!

huoyun (buliangshuai) 在 ta 的帖子中提到:

https://basic.smartedu.cn/tchMaterial/detail?contentType=assets_document&contentId=3fa0d0a0-551e-49ba-b4ea-bb7da5a0b8a4&catalogType=tchMaterial&subCatalog=tchMaterial

想下载这个网站的pdf电子书教材,国家智慧教育公共服务平台的,注册一下以游客身份就可以打开登录查看。尝试了以下几种方法都不行,使用过的方法如下:

1. open in new tab, 在新的标签页打开, 没有下载文件的按钮,即使选择打印、另存为pdf,最后存下来的文件也是空白的。

……

签名档

来自北大未名BBS微信小程序 (http://t.cn/A67L9Lm2)

--

发表于2024-06-11 18:08:35
楼主

huoyun [离线]

buliangshuai

1.8一般站友

发帖数:58 原创分:0
<ASCIIArt> 9楼

好的,谢谢同学!

TREASURE (Louisa还是Louise呢) 在 ta 的帖子中提到:

我根据这个帖子试了一下成功了

17 ch发布了一篇小红书笔记,快来看吧!  elQdBkFZMSkmEB1  http://xhslink.com/VGoc1L,复制本条信息,打开【小红书】App查看精彩内容!

发表于2024-06-11 19:31:40
返回本版
1
/ 1
跳转

请您先 登录 再进行发帖

快速回复楼主
标题
建议:≤ 24个字
签名档
发布(Ctrl+回车)

您输入的密码有误,请重新输入