找回密码
 注册

QQ登录

只需一步,快速开始

查看: 607|回复: 0

dxc采集教程之如何根据关键词采集腾讯搜搜的文章?

[复制链接]
发表于 2011-11-11 02:35:14 | 显示全部楼层 |阅读模式
  • 选择采集器类型。选择‘精准的’,这一步不解释了。
  • 采集范围设置:选择“从分页列表采集文章”。
  • 分页网址。假如我们在腾讯搜搜的博客搜索中搜搜“php”这个关键词,、
    那么网址是
    http://blog.soso.com/qz.q?pid=s.idx&op=blog.blog&ty=blog&w=php
    翻到第二页,网址是http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=2
    然后翻到第三页,网址是http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=3
    看出规律了吗?别看url太长就头晕了,其实前面的部分是不变的,后面的数字有变化而已。如果我们要采集从第1页到第30页(30页之后,大多数文章和关键词相关不大了)
    网址就是这样http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=[1,30]
  • 列表区域识别方式.这里选择"dom获取",dom获取就足矣。正则匹配不好搞,这部分的功能暂时未做得强大。
  • 列表区域识别。这是个重头戏,你得告诉程序,列表中哪些是文章的链接地址?这里要借助firefox浏览器的firebug插件或者谷歌浏览器对网页的源代码进行查看,然后进行分析,如下图:

    看出结构了吗?无非就是一个li下面有个h3,h3下面只有一个a标签,那么就可以这样填:li h3。程序就知道获取一个li h3 下面的a标签的链接了,倘若下面不仅仅有一个a标签,有多个a标签,那么这时候你就要告诉程序更多的信息。比如a[title=*]这样就是告诉程序去获取有title属性的a标签的链接。
  • 文章信息获取方式。因为我们搜索到的文章来自多个网站,我们没办法根据某个特定的规则去采集,所以这里选择只能选择"智能识别",让程序自动去提取。到了这里,基本上就可以采集了,其他的一些选项不用解释大家应该都可以明白的了。

附上本例子的配置,用采集器导入就行了。

参考应用插件:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册

×
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|BC Morning Website ( Best Deal Inc. 001 )

GMT-8, 2026-4-12 06:08 , Processed in 0.017848 second(s), 21 queries .

Supported by Weloment Group X3.5

© 2008-2026 Best Deal Online

快速回复 返回顶部 返回列表