dxc采集教程之如何根据关键词采集腾讯搜搜的文章？

admin · 发表于 2011-11-11 02:35:14

选择采集器类型。选择‘精准的’，这一步不解释了。
采集范围设置：选择“从分页列表采集文章”。
分页网址。假如我们在腾讯搜搜的博客搜索中搜搜“php”这个关键词，、
那么网址是
http://blog.soso.com/qz.q?pid=s.idx&op=blog.blog&ty=blog&w=php。
翻到第二页，网址是http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=2。
然后翻到第三页，网址是http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=3
看出规律了吗？别看url太长就头晕了，其实前面的部分是不变的，后面的数字有变化而已。如果我们要采集从第1页到第30页（30页之后，大多数文章和关键词相关不大了）
网址就是这样http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=[1,30]
列表区域识别方式.这里选择"dom获取",dom获取就足矣。正则匹配不好搞，这部分的功能暂时未做得强大。
列表区域识别。这是个重头戏，你得告诉程序，列表中哪些是文章的链接地址？这里要借助firefox浏览器的firebug插件或者谷歌浏览器对网页的源代码进行查看，然后进行分析，如下图：

看出结构了吗？无非就是一个li下面有个h3，h3下面只有一个a标签，那么就可以这样填：li h3。程序就知道获取一个li h3 下面的a标签的链接了，倘若下面不仅仅有一个a标签，有多个a标签，那么这时候你就要告诉程序更多的信息。比如a[title=*]这样就是告诉程序去获取有title属性的a标签的链接。
文章信息获取方式。因为我们搜索到的文章来自多个网站，我们没办法根据某个特定的规则去采集，所以这里选择只能选择"智能识别"，让程序自动去提取。到了这里，基本上就可以采集了，其他的一些选项不用解释大家应该都可以明白的了。

附上本例子的配置，用采集器导入就行了。

参考应用插件：

账号		自动登录	找回密码
密码			注册

dxc采集教程之如何根据关键词采集腾讯搜搜的文章？

本帖子中包含更多资源

相关帖子