【教程】蜘蛛池采集规则编写之文章库采集

添加规则 。 选择整篇内容

比如说我们要采集新浪新闻,地址是:https://news.sina.com.cn/

就在列表配置选项的匹配网址里填上以上地址。。

【教程】蜘蛛池采集规则编写之文章库采集

打开采集源的地址,选择其中一篇新闻。复制它的链接地址。

【教程】蜘蛛池采集规则编写之文章库采集

这里的是地址是:https://news.sina.com.cn/c/2019-05-03/doc-ihvhiewr9625655.shtml

然后,内容匹配规则可以这样写

https://news.sina.com.cn/(w)/(d)-(d)-(d)/(w)-(w).shtml

内容截取规则:

打开内容地址。右键查看源代码,找到内容区域。

【教程】蜘蛛池采集规则编写之文章库采集【教程】蜘蛛池采集规则编写之文章库采集

然后内容截取规则可以这样写;

<div class=\"wap_special\"

【教程】蜘蛛池采集规则编写之文章库采集

像新浪这种大型网站,它的内容页有些是不一样的,我们可以写多几个匹配。

保存后,看看效果!!

【教程】蜘蛛池采集规则编写之文章库采集

© 版权声明
THE END
文章版权归作者所有,未经允许请勿转载。本站资源均来自互联网,仅供研究学习,禁止违法使用和商用,产生法律纠纷本站概不负责!如果侵犯了您的权益请与我们联系!
点赞3349赞赏 分享
feizhuAdmin的头像-飞猪资源网钻石会员
评论 抢沙发

请登录后发表评论

    暂无评论内容

©文章声明