2019-01-29: book118站点已更新,以下内容可能不符合当前实际情况,github代码已更新,可参考commit的改动内容
首先,随便打开一个pdf页面,来看下预览功能是怎么实现的。
在首页上随便选了一个pdf:2014年中考化学真题分类汇编:第六单元 碳和碳的氧化物.pdf
打开chrome的开发者工具,点击network标签页。
然后开始预览。
可以发现,我们需要的整个pdf以一页一个图片的形式拼合到一起。
这样,我们就可以获得一个思路:
- 调用book118的api来获得所有图片的链接
- 根据图片链接来下载图片
- 将下载好的图片拼合成pdf
原理上没问题,就可以开始分析url了
对于第一页的图片,可以看出这是一个GET查询
https://view45.book118.com/img/?img=Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeWtdOaBbdNC3ESVhp4ET9Pc=
将其分成两部分,有https://view45.book118.com/img/?
和img=Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeWtdOaBbdNC3ESVhp4ET9Pc=
稍微思考下可以知道我们需要获得两个数据:view45
和Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeWtdOaBbdNC3ESVhp4ET9Pc=
那么看一下前面的Ajax查询信息,看一下如何获得这两个值
可以看到有一个json数据里有我们需要的字段
{ ErrorMsg: "" Height: 1120 NextPage: "Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeWtdOaBbdNC3ESVhp4ET9Pc=" PageCount: 18 PageIndex: 1 PageWidth: 792 Width: 792 }
那么再来看这个字段是怎么获得的
GET请求的路径是https://view45.book118.com/pdf/GetNextPage/?f=dXAxNC0yLmJvb2sxMTguY29tLjgwXDQwMTczNTktNWE5OTYxNDUwZGQxNy5wZGY%3D&img=Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeZQm56rJXlqx&isMobile=false&isNet=True&readLimit=jlHXDXaWV9DMU%40rtQOL9FA%3D%3D&furl=YOQStEpojXCy0xJO83bqoAVYhrL_yFZqP4Ozsj8XfKNfzsc8uPp1xRjafj8SdDCNp4wlpUcU7pAOpeqkUXgxaC6pCQOHHI1Ge0NmJKTUFx9hECg7UBDykQ%3D%3D
分析查询字段可以得到
f:dXAxNC0yLmJvb2sxMTguY29tLjgwXDQwMTczNTktNWE5OTYxNDUwZGQxNy5wZGY= img:Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeZQm56rJXlqx isMobile:false isNet:True readLimit:jlHXDXaWV9DMU@rtQOL9FA== furl:YOQStEpojXCy0xJO83bqoAVYhrL_yFZqP4Ozsj8XfKNfzsc8uPp1xRjafj8SdDCNp4wlpUcU7pAOpeqkUXgxaC6pCQOHHI1Ge0NmJKTUFx9hECg7UBDykQ==
根据前后的查询,以及这个链接的名字,可以看出来,这个api的意思是获取下一个页面
每一次变化的是img
字段,也即上一页的图片路径
分析一下,可以看出来剩下的f
、furl
是类似id的东西
所以要再去找一下他们是怎么获得的
可以看到请求中有加载一个页面,页面中有一些内容恰好是我们需要的
<input type="hidden" id="Url" value="dXAxNC0yLmJvb2sxMTguY29tLjgwXDQwMTczNTktNWE5OTYxNDUwZGQxNy5wZGY=" autocomplete="off" /> <input type="hidden" id="Img" value="Hs92T42xAvvcQuSXpzHnF0G3JzIsUgrRD0OWc7V86NvoBH5soQ2IeZQm56rJXlqx" autocomplete="off" /> <input type="hidden" id="IsMobi" value="false" autocomplete="off" /> <input type="hidden" id="IsNet" value="True" autocomplete="off" /> <input type="hidden" id="Furl" value="YOQStEpojXCy0xJO83bqoAVYhrL_yFZqP4Ozsj8XfKNfzsc8uPp1xRjafj8SdDCNp4wlpUcU7pAOpeqkUXgxaC6pCQOHHI1Ge0NmJKTUFx9hECg7UBDykQ==" autocomplete="off" /> <input type="hidden" id="ReadLimit" value="jlHXDXaWV9DMU@rtQOL9FA==" autocomplete="off" />
问题转变成获得这个页面的地址,这个就比较容易获得了,点击预览后的第一个GET请求就是
https://max.book118.com/index.php?g=Home&m=View&a=viewUrl&cid=155510562&flag=1
返回的//view45.book118.com/?readpage=jlHXDXaWV9DMU@rtQOL9FA==&furl=YOQStEpojXCy0xJO83bqoAVYhrL_yFZqP4Ozsj8XfKNfzsc8uPp1xRjafj8SdDCNp4wlpUcU7pAOpeqkUXgxaC6pCQOHHI1Ge0NmJKTUFx9hECg7UBDykQ==&n=1
就是刚刚页面的地址
那么很自然,前面的view45
也是我们GetNextPage
所需要的二级域名
而这个查询也很容易看出来参数就是页面的id,也就是链接最后的数字
至此,我们已经分析出了book118预览部分获得图片地址的功能
写成代码就是先通过GET查询得到预览页面的地址,分析返回的HTML内容,筛选出所需要的字段
根据所需要的字段,以及book118的GetNextPage
接口,获得所有图片地址
写成代码测试无误后,就要解决下载的问题了
下载和爬虫爬取页面内容一样,只不过一个要转换成文本,一个是二进制文件
得到数据后写出到jpg即可
而转换成pdf则需要使用一些外部的模块
搜索后选择了reportlib