使用爬虫免费下载book118的PDF文件|OhYee 博客

2019-01-29: book118站点已更新,以下内容可能不符合当前实际情况,github代码已更新,可参考commit的改动内容

首先，随便打开一个pdf页面，来看下预览功能是怎么实现的。
在首页上随便选了一个pdf：2014年中考化学真题分类汇编：第六单元碳和碳的氧化物.pdf

打开chrome的开发者工具，点击network标签页。
然后开始预览。

可以发现，我们需要的整个pdf以一页一个图片的形式拼合到一起。
这样，我们就可以获得一个思路：

调用book118的api来获得所有图片的链接
根据图片链接来下载图片
将下载好的图片拼合成pdf

原理上没问题，就可以开始分析url了
对于第一页的图片，可以看出这是一个GET查询

https://view45.book118.com/img/?img=Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeWtdOaBbdNC3ESVhp4ET9Pc=
将其分成两部分，有https://view45.book118.com/img/?和img=Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeWtdOaBbdNC3ESVhp4ET9Pc=
稍微思考下可以知道我们需要获得两个数据：view45和Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeWtdOaBbdNC3ESVhp4ET9Pc=
那么看一下前面的Ajax查询信息，看一下如何获得这两个值

可以看到有一个json数据里有我们需要的字段

{
    ErrorMsg: ""
    Height: 1120
    NextPage: "Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeWtdOaBbdNC3ESVhp4ET9Pc="
    PageCount: 18
    PageIndex: 1
    PageWidth: 792
    Width: 792
}

那么再来看这个字段是怎么获得的

GET请求的路径是https://view45.book118.com/pdf/GetNextPage/?f=dXAxNC0yLmJvb2sxMTguY29tLjgwXDQwMTczNTktNWE5OTYxNDUwZGQxNy5wZGY%3D&img=Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeZQm56rJXlqx&isMobile=false&isNet=True&readLimit=jlHXDXaWV9DMU%40rtQOL9FA%3D%3D&furl=YOQStEpojXCy0xJO83bqoAVYhrL_yFZqP4Ozsj8XfKNfzsc8uPp1xRjafj8SdDCNp4wlpUcU7pAOpeqkUXgxaC6pCQOHHI1Ge0NmJKTUFx9hECg7UBDykQ%3D%3D

分析查询字段可以得到

f:dXAxNC0yLmJvb2sxMTguY29tLjgwXDQwMTczNTktNWE5OTYxNDUwZGQxNy5wZGY=
img:Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeZQm56rJXlqx
isMobile:false
isNet:True
readLimit:jlHXDXaWV9DMU@rtQOL9FA==
furl:YOQStEpojXCy0xJO83bqoAVYhrL_yFZqP4Ozsj8XfKNfzsc8uPp1xRjafj8SdDCNp4wlpUcU7pAOpeqkUXgxaC6pCQOHHI1Ge0NmJKTUFx9hECg7UBDykQ==

根据前后的查询，以及这个链接的名字，可以看出来，这个api的意思是获取下一个页面
每一次变化的是img字段，也即上一页的图片路径

分析一下，可以看出来剩下的f、furl是类似id的东西
所以要再去找一下他们是怎么获得的

可以看到请求中有加载一个页面，页面中有一些内容恰好是我们需要的

<input type="hidden" id="Url" value="dXAxNC0yLmJvb2sxMTguY29tLjgwXDQwMTczNTktNWE5OTYxNDUwZGQxNy5wZGY=" autocomplete="off" />
<input type="hidden" id="Img" value="Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeZQm56rJXlqx" autocomplete="off" />
<input type="hidden" id="IsMobi" value="false" autocomplete="off" />
<input type="hidden" id="IsNet" value="True" autocomplete="off" />
<input type="hidden" id="Furl" value="YOQStEpojXCy0xJO83bqoAVYhrL_yFZqP4Ozsj8XfKNfzsc8uPp1xRjafj8SdDCNp4wlpUcU7pAOpeqkUXgxaC6pCQOHHI1Ge0NmJKTUFx9hECg7UBDykQ==" autocomplete="off" />
<input type="hidden" id="ReadLimit" value="jlHXDXaWV9DMU@rtQOL9FA==" autocomplete="off" />

问题转变成获得这个页面的地址，这个就比较容易获得了，点击预览后的第一个GET请求就是
https://max.book118.com/index.php?g=Home&m=View&a=viewUrl&cid=155510562&flag=1
返回的//view45.book118.com/?readpage=jlHXDXaWV9DMU@rtQOL9FA==&furl=YOQStEpojXCy0xJO83bqoAVYhrL_yFZqP4Ozsj8XfKNfzsc8uPp1xRjafj8SdDCNp4wlpUcU7pAOpeqkUXgxaC6pCQOHHI1Ge0NmJKTUFx9hECg7UBDykQ==&n=1就是刚刚页面的地址
那么很自然，前面的view45也是我们GetNextPage所需要的二级域名
而这个查询也很容易看出来参数就是页面的id，也就是链接最后的数字

至此，我们已经分析出了book118预览部分获得图片地址的功能

写成代码就是先通过GET查询得到预览页面的地址，分析返回的HTML内容，筛选出所需要的字段
根据所需要的字段，以及book118的GetNextPage接口，获得所有图片地址

写成代码测试无误后，就要解决下载的问题了
下载和爬虫爬取页面内容一样，只不过一个要转换成文本，一个是二进制文件
得到数据后写出到jpg即可

而转换成pdf则需要使用一些外部的模块
搜索后选择了reportlib

代码实现见: https://github.com/OhYee/documentDownloader