联系我们

Email:wanzhanqun@163.com

电话:155-7782-2416

QQ:663486249

地址:北京市朝阳区广渠路38号院411号楼

电影站群怎么用

适用于版本v1.x系列

规则爬虫

规则爬虫指您可以向编辑火车头采集器一样,通过规则来编辑爬虫规则,用于爬取您需要的网站内容。当然相对于规则爬虫的另外一个爬虫,就是自动爬虫。规则爬虫和自动爬虫的区别在于,规则爬虫是需要设置网站采集规则的,而自动爬虫是无需任何规则,输入网站起始地址就可以轻松爬取内容页的标题和内容了。当然这两个爬虫都是可以设置成自行运行、定时运行。

新建规则爬虫

点击爬虫采集板块

点击右上角新建规则爬虫,输入爬虫名称标识,点击确定。

编写采集规则

URL地址:通常在这个地方输入列表的url地址,如果多个地址,那么可以使用批量生成功能来批量生成列表地址。

提取内容的url地址:提取的方式有两种,默认的是jQuery方式,当然也支持普通的html截取方式。在提取的过程中,您可以使用链接过滤字符或者是必须包含字符来确认你提取的链接是否正确,当然,如果规则写对的情况下是不需要链接过滤功能的。

选择器规则如何写?将会在本章节底部为您描述。

来测试一个,以下分别两种方式提取

以上是两种方式,如何确认提取出来的链接是正常的,那么需要点击保存哦!

当前,在获取到列表链接后,我们再来提取内容页中标题和内容部分。同样我们也提供两种方式。

当我们切换到内容页规则面板时,展示的是已经配置好的标题提取规则,当然内容提取规则需要您根据你的需求来填写。

在规则的后面有个设置按钮,您可以设置过滤的信息,以及设置内容分页规则。

下面就是测试地址,您可以填写一个内容页面的URL测试一下是否提取正确。

设置好后,看到您的测试内容,就可以点击保存确认了,这个保存确认按钮,在弹出框的底部哦,鼠标向下滚动就看到了。

保存后,就可以看到采集按钮后面有个 对号标识了。

设置发布规则

发布支持,图片下载,标签生成,直接发布和定时发布(需要开启定时发布插件)。

图片下载:勾选后,系统会在发布的时候,自动将图片下载到对于的站点中。

标签生成:该功能已下线。

直接发布:直接发布到站点中,立即可以访问的内容。

定时发布:发布到定时插件中,您需要提前安装开启这个插件,发布后,您可以在定时插件中设置您的内容定时发布。具体的定时发布流程,请看基本版手册中有介绍。

以下是添加站点。

添加好的站点,保存后,会显示在已添加的列表中,支持添加多少站点,如果添加多个,系统将随机选一个站点, 发布到站点中(每篇文章随机选一个)。

点击保存,会显示已勾选的 小对号图标。

开始运行

查看运行日志

日志方便您查看您的爬虫工作状态,当然如果开启后,爬虫不能正常运行,请点击多次,如果还是不能正常运行,请联系我们。

查看爬取是数据

数据中已经显示了我们采集的数据,和每条数据的发布状态。

查看发布的内容

到此,我们的规则流程就走完了。当然您可以设置定时运行。

规则爬虫之jQuery规则

前面我们展示了通过规则来抓取链接,下面说下jQuery规则是如何写的

通常,最快捷的办法就是 通过浏览器的 F12 调试控制台出来,然后点击我们要获取的html段落,右键->copy->copy select即可选择到一串 选择器代码了。

在列表规则中,获取内容页面的地址的时候,最后一个标签 一定是a标签哦。

例如:body > main > div > div > main > section > section.mip-box-body > div

我们就在末尾添加一个a,变成 body > main > div > div > main > section > section.mip-box-body > div a

内容页面的规则也是按照上面的方式获取即可。

除了jQuery规则外,那么还有普通的html段落获取,您只要保证你截取的代码是唯一即可。

自动爬虫

自定爬虫非自动运行的爬虫,规则爬虫设置定时后,到时候也会自动运行的。自动爬虫是指不需要规则的爬虫,只要设置起始的地址和域名,即可完成了。

下面是一个输入案例,值得注意的是,

域名是输入不带https://很多网站是A域名下,B域名链接,那么这个时候设置的域名就是B域名。如果在test.com 站点中,您想爬取的内容链接都是带 news.test.com,这么这个域名您就输入news.test.com

设置过滤规则,如果您需要,依然可以设置过滤规则

设置发布规则;

同上规则采集一样,设置发布规则即可。注意:自动采集的数据是直接到站点,在爬虫中是看不到采集的数据的。默认不可点击。

查看数据

我们发布到体育测试分类,以此区分规则爬虫的 国际 分类。

测试的时候,我们没有下载图片,图片属于外链。

自动爬虫整个流程完毕。

总结:自动爬虫适合大部分的网站标题和内容的抓取,过滤非内容页面,抓取需要的内容信息。

热门地区

大理 寿光 满洲里 巴中 福安 四会 杭州 三亚 慈溪 许昌 九台 铜陵 灵宝 格尔木 登封 五常 安宁 根河 甘肃 武安 广元 西昌 高州 广水 青岛 启东 北京 临沧 贵州 平度 肥城 五家渠 华蓥 眉山