欢迎各位兄弟 发布技术文章

这里的技术是共享的

You are here

火车头采集器使用方法

shiping1 的头像

火车头采集帮助文档  http://help.locoy.com/

 

火车采集器V2010SP3版(实现内容自动更新的采集软件

前提:本软件要求电脑安装net framework2.02.0以上框架支持。

一、火车采集器V2010SP3版,可供下载地址:

http://www.locoy.com/Down/LocoySpider/LocoySpider2010SP3.html  

二、net framework2.0,可供下载地址:

http://drivers.mydrivers.com/download/135-54350-Microsoft-Microsoft.NET-Framework-2.0-For-Win98SE-ME-2000-XP/

 

 

火车采集器和net framework2.0安装好后,可进行如下操作,操作步骤为:

 

一、

1.在一堆文件中,找到如下图标画有红方框、状似火车头的,并双击打开。

 

 

2.打开后可以看到如下界面,看着很复杂,但对于新手而言很多东西是暂时用不到的。在界面空白处如下图红框区域内右击,选择箭头所指“新建站点”。

输入站点名,例如:“西装”,保存即可。

  

 

3.在新建站点“西装”(红框区域)处选中再右击,选择从该站点新建任务

 

二、

第一步:采集网址规则

1.先要找到自动更新的内容来源:如经常更新关注度较高的博客、专业网站等,这里我们就拿淘宝论坛bbs.taobao.com举个例子。找到开始采集地址栏右侧,点击向导添加 

2.添加开始采集地址中的多页类似地址形式前,要分析一下它的类似形式,例:我们在淘宝论坛中搜索“西服”相关内容,然后任意翻阅不同的页数查看它的网页地址。 

 

第一页地址、第二页地址、第三页地址分别为:

以此类推,分析出其不同点在于上图红框处的数字变化,因此:假如我们只采集论坛的第一页,就在多页类似地址形式栏粘贴第一页的网址,按一下(*)将选中的数字1替换成(*)

 

再将数字变化改为相应页数:1, 然后点击添加、完成。

 

3.接着,找到如下图的相应位置分析规则并分别输入:必须包含“thread”,不得包含“post|pc”,任务名:这里设为“第一页”。【可以点击开始测试网址采集,检测一下是否将网页都采集过来了。若要返回到刚才上一级页面,点击返回修改设置即可。】

 

第二步:采集内容规则

1.打开后,可以看到如下界面,我们在(图2红框1处)粘贴上将要采集页面“第一页”目录中任意一个标题文章内容的网址,(如图1箭头所指文章标题,双击打开再采集打开后的网页网址),进行测试。

(红框2处)为标题、内容、作者、时间、出处,我们可以分别点击这5个项目,对采集来的页面内容根据需要做修改。

图1

图2

 

2.点击标题打开,将链接、下载图片勾选上并确定,有些内容就被排除了。分析过程中还有要排除的内容就点击(下图最左下方红圈处)“内容排除中的添加确定”,其实,就是将不要的内容复制粘贴到下图排除内容的小方框内点确定。然后返回上级页面点击测试就可刷新页面,这样我们就能看到去除糟粕后更清晰的内容。【下图所示,找到规律的内容就可用(*)来替代,完成排除内容操作。】

3.修改内容部分时,有个小方法,就是将测试出的所有网页内容复制粘贴到记事本中查找,如此便能很好的提高操作效率。例如,我们点开的这篇文章,正文最开头两个字“由于”就可以用全文选中——编辑——查找的方法找到,省时省力。

4.把刚才紧贴正文“由于”前面的唯一的以<div>开头的代码(如下图蓝色区域处代码)复制下来,

 

点击内容,粘贴到下图相应位置,输入</div>,点击确定,并测试更新一下,多余的内容就被删除了。

5.一般作者时间出处都不怎么需要改。

 

第三步:发布内容设置

1. 点开第三步,(图中1.)把启用勾选上,再点击(图中2.)定义web在线发布全局设置会弹出下图web在线发布配置管理的栏目框,点击添加

 

2.接着在(1.网址/cms根地址)里输入:http://94zd.com/dede/,点击(图中2.在内置浏览器中登录)会弹出一个网页,不用管它直接关掉,这样cookie值就自动获取了。

3.然后把剩余几项按照下图填上,(最新文章   [id=3])复制粘贴好后点击获取列表,这里我们可以按照自己喜好起个配置名,如:第一页,最后保存设置

4.在下图空白处(如箭头所示)右击,选择添加更多发布设置,弹出右下图,选择我们刚才设的“第一页添加

 

5.依次点击选择分类获取列表输入ID号:3,确定。再点击最下面的保存,总的保存一下。

 

 

三、

1.选中“西装”下的子目录“第一页”,点击开始,网址就被采过来了。然后可以登录http://94zd.com/index.html,翻阅网页最下方,看看是否有采集更新来的新内容。

2. 我们也可以登录http:// 94zd.com/dede织梦内容管理系统)网页,输入用户名:admin,密码:123451 

检查右下图“最新文章”中是否有采集来的网页文章目录存在。如果没有显示,可以在生成栏目中,进行更新主页HTML

 

 

 完成!!!

 

 

 来自  http://wenku.baidu.com/view/723a82d0c1c708a1284a4461.html

普通分类: