提醒:本文最后更新于 149 天前,其中某些信息可能已经过时,请谨慎使用!
你似乎正在查看一篇很久远的文章。
为了你这样的访客,我特地保留了我的历史博文。不要笑话过去的我,用温柔的目光看下去吧。

自定义来源

一本书可以有多个来源,由多个书源来产生数据。
书源:是一个网站的规则,需要写各种规则。
来源:一个目录地址,自动分析,自动适应大多数网站。
简单来说,就是你有了一本书,将一个代表章节目录的地址,添加到这本书中,就能自动分析出所有章节与对应的内容。
自动化的算法并不适用所有情况,这时候,如果你能参与进来做一点点的修改,也许能达到更好的效果呢!

01生成一本书

假设您要看的书没在书架上,那你可以通过『发现』界面来生成一本书,输入『书名』与『作者』就可以。

02找一个适合的目录地址

你可以直接百度上搜索书籍,也可以通过爱阅书香提供的『探索来源』功能来搜索书籍。最终我们要得到的是一个类似这样的页面地址
https://www.9dxs.com/2/2348/index.html
这是百度随意搜索出来的一个目录地址。一般用电脑搜索比较好,这样不需要分页。使用『搜索来源』搜索,就是模拟了在电脑上的搜索!
下面是探索来源的过程


03自定义来源处理

对你给定的URL,进行分析,获取到一组章节地址,有了章节地址,就能拿到内容了。同时也提供内容过滤功能。这就是自定义来源!
很多情况并不需要特别处理就可以了。但有时也需要你的干涉才能正常使用。
你先得到一组正确的章节地址,点击章节项,对内容进行过滤。当完成之后,就可以点击『添加来源』就可以了!
从给定地址响应结果,我们到得了一个HTML的内容(可在参数配置中『查看网页原始HTML』。后面说到的参数,都是针对这个内容进行处理的!

让我们打开参数配置,逐项分析


前标识与后标识:

功能
减少分析的内容的范围,大多数情况下,你无须修改!

情形
1:前后标识都存在时:取前后标识中间的内容。
2:只有前标识:取前标识位置开始到最后的内容。
3:只有后标识:从最开始取内容,直接到碰到后标识为止

例子

让我们假设内容是:
<html><body>这是一段HTML的内容</body></html>

给定前标识:<body> 
结果:这是一段HTML的内容</body></html>

给定后标识:</body>
结果:<html><body>这是一段HTML的内容

给定前标识:<body> 
给定后标识:</body>
结果 :这是一段HTML的内容

解析算法

这是针对章节列表的算法精细化修复,针对我们拿到的一组章节地址: array
容错值:根据页面密度来计算出两个元素之间距离值a,当某个元素的a值比给定的容错值大时,就放弃这个元素。(这是大概说法,实际算法比这个复杂多,不展开说了)。在你发现少了或多了章节时,可以试下调大调小,具体看结果哦
关键标签:分析HTML,看下我们要的章节地址都是在那个HTML标签下的,就输入那个标签名。一般是:ul,dl,ol,table之类的,可以直接指定:idyn 来表示强制全文提取。可自动适配,也可手动输入。
调整比率:这个与容错值是配合使用的,根据算法,一个元素除了距离值,还有一个称之为量级的值,当元素的量级与总量级的比大于指定比率时,才会保存在列表中。一般不需要调整。
目录过滤方式:过滤掉我们不要的地址,当自动方式不对时,你可以尝试下其它过滤方式。反转过滤是指,把过滤掉的项作为结果。
目录排序方法:需要章节地址的名称是可排序的,如1.html,2.html之类的。否则使用元素在HTML中的位置。

目录分页

若你的网址是: http://m.abc.com/.... 之类的,可以试下:把m改成www。一般手机的页面都会分页,但是电脑的页面就不会分页。
分页,表示需要多次访问网站!意思就是:费流量,费电,费内存。。。
能不分页的就不分页,一定要分页的,那你需要有一点点的专业知识了!

下一页地址

默认『//a[contains(text(), '下一页')]/@href
如果你不懂是什么意思,那你需要百度下xpathxpathex。或者是关注公众号『iosRead』搜索『教程』(不断在更新完善的文档)。
分页处理支持多种解析方式:
@path: @ex: @str: @regex: 等等,
默认不增加前缀就是@path:
这些解析方式,将在公众号关键词『教程』中不断更新哦,或者是访问:https://icc.one/
很多情况,每个网站的下一页规则都是不一样的哦!!!

解析页数

有多少个页数,若不确定,可以直接填0

章节分页

方法与目录分页是一样的,都是根据HTML的内容,来确定分页的规则的。请多多练习。

04修改内容

得到了章节地址后,点击就可进入内容页,可在内容页进行一些设置与过滤,让内容能更好的展示。

内容界面有高级配置:
内容前标识与内容后标识的使用方式与前面说的前标识后标识一样,具体请向上翻看看哦!

05内容过滤

内容过滤有两种方式,一种是书架菜单上的内容过滤,第二种是自定义来源才有的过滤方式。这里只介绍第二种,第一种将在另一文档中介绍(公众号『iosRead』上的『教程』)。


过滤选中内容:表示选中的内容都将被过滤掉。
标记过虑条件:需要选中两次内容,一次前标识,一次后标识,其含义与前面所说的前标识后标识是一样的,请向上翻查看具体解释。
Q:能否直接加入一个网站的首页?
A:不行的哦,每个网站有很多不同的页面。爱阅书香并无法识别那个页面是你要的入口,并且每个网站都不一样,分页规则也不一样,若需要分页,由需要由您来提供规则了。

Q:除了添加书籍的列表目录,还能添加别的吗?
****A:***必须可以的,比如论坛,比如新闻,只要你给定的地址页面上,有很多地址,就可以自动提取的哦。对自定义来源有更多要求的,可以使用『书源』来解决哦,关于书源的教程,请关注公众号『iosRead』之后,输入关键词『教程』来获取理详细的文档哦(不断在更新完善的文档)


本当の声を響かせてよ