基础知识

1.云采集引擎

云采集引擎是发源地研发的用于实现互联网WEB/APP上数据自动化、智能化、结构化提取的一套云端SaaS软件机器人工具。

2.采集规则

采集规则是基于发源地云采集引擎机器人的一套算法性质的配置策略,驱动采集引擎执行的规则。即我们对如何采集、采集什么及采集后怎么处理等类似的问题给出具体的配置让采集引擎按照设置的规则来执行。

3.数据字段

是指用来提取某个内容的一段字符名称,由用户在编辑规则的时候指定。如标题、内容、手机号、邮件、作者,来源标签。字段通常用来标识一条数据的一个维度。采集到的数据在采集规则通常用一个变量通配符来代替。

4.通配符

即变量的通用符号,如果我们只需要知道这个变量的变化规律,而不需要关心这个变量到底是什么,这时就可使用通配符符号代替。如某个变量的通配符[url]、[list]等,还可以使用 * 这样的通配符来代替所有字符串。

5.数据链接

数据链接用来定位数据字段内容实现数据采集提取的网址URL。通常每条数据都对应一条来源链接。

6.起始字符串

采集引擎定位数据的主要方式。定位字段时因为只采集一处内容,所以要求起始字符串全文唯一。定位数据链接时需要批量识别,所以不需要唯一,只需要符合特定规律即可。

图片实例:

7.Html标签

Html标签是HTML语言中最基本的单位,通常由尖括号包裹并且成对出现比如:

<div>...</div> 
<p>...</p>
<div class='...'>...<div>

字符串定位通常使用标签。

图片实例:

8.Cookie

是在Http请求访问中记录您的用户信息即登录信息的一段用于与服务器进行交互的字符串。有了cookie后下次在有效期内不用输入用户信息即可继续访问验证权限的网页。

9.分页

列表或内容页面较长,分成多个页面显示,采集时需要将所有子页的内容组合起来,这样的子页面就是分页。

10.网页编码

是在网页中指定其特定字符编码格式的库,例如一般在网页中都要有如下一句:

<meta charset="utf-8">

这样的字句指示此网页的字符集编码是utf-8。一般的网页可以做到自动识别,也罗列出了大部分的网页编码格式,可以直接在采集器中手动选择指定相应的编码格式。

图片实例:

11.分布式节点

是指全球网络中的分布式服务器节点,以相应网络节点去采集数据可以突破自身ip的众多限制。如提升采集效率、突破采集屏蔽、提升线程并发数、突破固定带宽等。

Copyright © finndy.com all right reserved,powered by Gitbook__ 2013-2017