找答案

简单采集Post翻页的招标信息教程

07-03 CollectBest

本教程是演示熊猫采集器如何快速且简单的采集到我们所需要的招标新闻。我们在采集招标新闻的时候,有时候会遇到一些post翻页的招标新闻,这个时候我们发现采集就没有我们想的那么容易 作了,这个时候,其实我们只需要进行一步简单的抓包 作,就可以很轻松的采集了。下面我们就简单的演示一下。好了,废话不多说,进入到我们采集的过程上面来吧!

1首先,我们打开我们这次采集需要的工具,也就是熊猫采集器,点击新建项目(标准)

2随便输入一个项目名称,或者不输入也是可以的,系统默认会给你命名一个项目名,这里因为我是采集招标新闻, 我就起了新浪新闻作为我需要的项目名然后点击下一步

3进入标题列表页及其翻页设置,列表页是包含我们要采集内容的链接网址的页面,比如百度搜索一个关键词,会列出来很多网页,这些网页我们就可以认为是标题列表页面。普通的标题列表页我们在翻页的时候,网址是有会有翻页参数在变化的,而我们的以post提交的翻页网址是不会有任何变化,如下图的某个招标网站:

4可以发现,第二页和第三页网址是一模一样的,后面的的页数网址其实都是一样的,这种情况,在网站中实现这种效果可能有两种可能,一直是框架页面,它把真实的翻页网址给隐藏了,只要我们找到真实的网址,利用真实网址采集即可。还有一种就是post翻页了,这个时候我们就需要用抓包工具来分析一下是post的还是框架了,当然,这里我们讲的肯定是post翻页了,所以在进入我们标题列表的设置时候,需要进行一个抓包工作,现在的浏览器大部分都是自带一个抓包工作的,如下图:

5点击一下:

6到这里,我们就来看看我们的列表页是如何翻页了,先点击第二页,发现如下图所示:

7我们看到一个post,说明了这个网页是post的翻页的,我们点击打开看看里面的参数

8将我们的响应网址拷贝到熊猫中去,由于是post的翻页,所以我们在分析的时候要用post的方式:

9点击开始分析:

10我们选择是,让系统给我们参数:

11将我们这里的参数和我们刚刚抓包的的form data里面的参数对比一下,没有的就添加上去,多余的就给它删除掉。如果抓包出来的参数后面有值,而我们软件分析出来没值,我们就给添加上去,总之,以抓包结果为准,下面是我们经过对比过后整理好的图:

12在我们那个上图翻页参数框填写一个3看下效果

13可以看出,这样就变成第三页了,所以我们这个参数是翻页的参数,下面就将这个参数设置为动态的就可以进行我们的翻页采集了:如下图

14如果你想采集更多的页数,只需要把目标值调的更大一些即可,到这里,我们就可以点击下一步设置了,进入到我们选择内容的页的设置,随便选择一个我们要采集的链接,会发现右边我们要采集的链接全部被红框框选起来了。那么这里我们就不要进行调整,直接再次下一步设置

15来到内容页面模板管理,直接点击添加新模板,会把我们在上一步选中的链接作为模板,这地方也可以自己选择一个模板,然后把网址粘贴到添加新模板按钮左边的文本框里,点击添加新模板

16点击添加新模板之后会弹出一个设置模板的新窗口。点击软件上方的开始分析,稍等片刻之后软件会询问你是否需要软件自动提取标题正文,一般情况下我们在这里都会选择否,如果你是采集新闻类的内容,这个地方你也可以选择是,也可以选择否,(选择是的话就软件就直接帮我们分析出来标题和正文了, 作就很简单,选择否就需要我们自己找到我们要采集的内容,这种 作会很灵活,由于选择是非常简单,我们这里就选择否了)如图

17之后我们会发现左边款里面会出现很多我们在网页中能看见的内容,这个时候我们需要什么就勾选上采集该项即可。

18采集到这里的时候,也行我们会发现,正文内容不是一行就可以选中的,正文分成了很多行,这个时候就需要用到熊猫的复合语句了,选择正文的开始,用一个字段保存起来。在找到正文的结束,用和保存正文开始相同的字段保存起来

19在找到正文的结束:

20到此,我们的采集就已经完成了,下面我们要做的就是保存我们的设置后,运行就可以得到我们想要的结果啦。

全国招标网站信息监控

$.post()的方法