标题库采集还是很简单的,只需要设置一下采集源的地址就可以。
首先添加采集规则,选择文章标题。
就是那么简单。。。
分页的写法:
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_{p,1,9,1}.shtml
{p,1,5,1}表示分页,参数:p后面的数字分别代表开始、结束、递增/减值,即 {p,开始,结束,递增/减值}
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_3.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_4.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_5.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_6.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_7.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_8.shtml http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_9.shtml
测试规则的时候可以从网址匹配里看到。
添加后,测试看看效果:
© 版权声明
THE END
暂无评论内容