这次进阶例子,特意找了一个使用POST来搜索内容的网站
53中文
https://www.53zw.net/
此次内容配置的内容有以下几个方面
1、书籍搜索,特意找了一个使用POST方法的,并会指出如何搜索下一页
2、列表详情,将书籍的目录获取出来
3、章节详情,就是具体内容
4、书籍详情,用于更好的展示界面
开始正文
先创建书源,输入名称及首页地址,这就不截图了,可参考 入门例子哦
让我们先分析下这个网站是如何搜索的吧,我会在分析过程中,解释很多你制作书源可能会碰到的问题
在网站上随意使用一个关键词进行搜索后,得到搜索结果
使用POST请求的话,我们向下滚动找到FormData,就是POST的参数。
如果是GET请求,则Request URL就是完整的请求地址
根据分析,在爱阅书香上,构造对应的请求信息
点击测试请求,取得响应内容,然后写响应规则,这里与入门教程类似,只是规则不同
以下为完成解析规则后的截图
让我们再重新打开“测试请求”看下
可以搜索了,成功的第一步。
接下来,让我来配置下一页的规则吧
老方法了,分析下在网页上是如何打开下一页的
打开:书籍搜索—更多请求相关配置
关于下一页的规则,对不同的网站,有不同的规则的
如我们现在分析的这个网站,第一次搜索是使用POST,搜索后的第二页使用的是GET。不同网站都是不一样的。
建议:
1.搜索书籍时,若有多页,其实大多时侯限制个2页就足够了,因为我们可能有上百的书源,根本不需要搜索太多页的。
2.一个目录或文章有多页时,尽量看它是否有电脑版本的网页,比较将m.abc.com改成www.abc.com
。这两个配置,在有多页的情况下,更新一次目录,就要访问多次网络,会必要:慢,费流量,费电等。所以有可能的情况,尽量不要在“列表详情”与“章节详情”中使用多页功能。
关于HTTP引用与自定义Http头这些,属于更高级的,后期再介绍啊
现在,我们可以保存下书源,其它书源禁用,到搜索界面去试试咯,有丰富的信息,还能搜索多页了。
接下来,我们再配置“列表详情”
默认情况下,爱阅书香会使用自动解析功能,将目录与内容解析出来,但并非所有网站都能完美的支持,这时候,就需要进行配置了
分析网页结构
分析相应字段信息的规则,然后将其是写到章节内容解析器中
原始结果集是指解析后最原始的数据,它不代表最终的内容,因为App还会对这些内容自动的做进一步优化,比较说去重,排序,格式化等操作。要查看最终于结果,可以到“测试请求”界面上,查看“解析结果”
目录出来后,进一步将对应的正文内容解析出来,这时就要配置“章节详情”了。
默认情况,App会自动解析章节的内容出来,但生成的内容,可能带有一些无用的文字。规则写得越好,那生成的内容就完美。
分析文章内容
使用规则:
div[@id=content].p[!-1]
将内容提取出来,p[!-1]是指取指定div下的所有p标签,然后把最后一个去掉,因为最后一个是一些无用的文字。(查看内容解析规则教程)
到这里,一个相对完成的书源就完成了。
更进阶一点的是将书籍详情也配置,当你有书籍详情配置时。爱阅书香,将启用更加丰富,更加复杂的逻辑来处理。
比如:当你搜索一个完整的书名时,有些网站是直接跳到一本书的详情界面的。当书籍需要更新详情时。都会判断使用“书籍详情配置”的
具体的就不再截图了,以上几配置,特别是搜索配置,你能完成时,对于书籍详情,那就更简单了。都是一样的套路:分析网站结构,写不同的解析语句。
进阶教程到这里就结束了。掌握了进阶教程,网络上你有兴趣的网站,很多都能映射到爱阅上了。
写书源的步骤无非就是:分析网站,写对应的解析规则而已。进阶教程就不解释一些特殊的字段了,留着高阶教程再说吧,比如:书籍标签组合,内容过滤,关键词联想,多来源搜索等等
Comments NOTHING