网页内容获取规则。系统会默认一个采集url为预览网址,另外内容分页导航所在的区域匹配规则也很灵活,除了和phpcms一样有全“部列出的分页列表模式”、“上下页形式或不完整的分页列表模式”外,还多了一个“分页列表规则”。
各字段内容采集,dedecms的内容匹配规则和phpcms一样:“起始无重复HTML[内容]结尾无重复HTML”,[内容]即为所采内容。过滤规则是{dede:trim replace=""}规则{/dede:trim},多个规则的话一个一行,如果要替换成指定的值,则只要在replace=""的引号里设置即可。
其中,内容摘要、关键字、缩略图系统会用正则进行自动匹配,我们只需设置过滤内容即可。其余字段分别设置匹配规则和过滤规则,系统同样自带了几个常用的过滤规则,但是点击“常用规则”后为弹出小窗口模式,稍微有点不方便。针对本测试的标题采集,以下两种方式都是可以的,如图:
文章作者、文章来源和发布时间字段一样采集,但是此版本dedecms在这几个字段下没有“自定义处理接口”了,如果有的话会稍显灵活,例如设置固定值可直接用“@me="固定值"”实现。现在不能用自定义处理接口设定固定值,也没有字段值设置,只能通过采集网页某一固定值然后用替换。如图:
dedecms的文章内容采集非常强大,除了匹配规则和过滤规则,还有个“自定义处理接口”。如果你有php基础的话,可以通过此功能对采集结果@me进行各种处理,强大到不行啊。以后小编会专门发一篇此功能的讲解文章。最后,不能直接在采集管理处新增采集字段,只能在对应内容模型管理中增加字段,采集管理会自动增加。如小编在“普通文章”内容模型那增加了一个“chinaz字段”,则采集设置中自动增了一个“chinaz字段”项目。
保存并测试,查看列表测试信息和网页规则测试,检查是否正确,无误后确定并开始采集。进入采集指定节点设置页面,因为小编之前有测试一遍,所以有60个历史种子网址,即小编之前已经采集了60个网址,另外还有几个选项大家按需求选择。
点开始采集网页,出现此采集提示信息显示采集进度,不知道是小编人品不好还是dede采集本身缺点,经常会浏览器没反应,采集停止在那,只有手动点击了才会继续。
CMS自带采集体验系列之DedeCMS v5.7
作者:azha 来源:ChinaZ源码报导 浏览:14160次 2012-3-19 18:02:29 字号:大 中 小 [摘要]各大CMS为方便个人站长们在建站初期给网站填充内容,都会内置一个采集模块。网站采集的规则大致相同,但每个CMS系统自带的采集模块又各有特点,今天小编将给大家带来DedeCMS v5.7自带采集模块的体验过程,并总结特点。
采集完成后点右上角的“导出数据”,然后选择导出栏目,如果你在前面启用了“多栏目通配(#)”并指定了栏目ID,则要勾选此处的“批量采集选项”,其余选项根据自己需求选择,然后确定。如果勾选了“完成后自动生成导入内容HTML”则会在导入完后自动更新网站,否则就要先手动去生成。
文章采集完成,看看效果:
列表页
内容页
下面来看看图片采集
CMS自带采集体验系列之DedeCMS v5.7
作者:azha 来源:ChinaZ源码报导 浏览:14161次 2012-3-19 18:02:29 字号:大 中 小 [摘要]各大CMS为方便个人站长们在建站初期给网站填充内容,都会内置一个采集模块。网站采集的规则大致相同,但每个CMS系统自带的采集模块又各有特点,今天小编将给大家带来DedeCMS v5.7自带采集模块的体验过程,并总结特点。
2、织梦CMS图片采集
新建采集节点的时候选择“图片集”,进入到采集节点设置和文章采集一样,体验测试采集目标和上一篇文章一样为http://www.4493.com/mingxingxiezhen,设置如图:
设置完成后保存并测试,在测试界面我们就能直接看到缩略图了。
保存并进入网页内容获取规则,次目标站内容页是有分页的,源代码如下
所以我们选择“全部列出的分页列表”模式,并设置分页代码的唯一的开始和结束html代码:
CMS自带采集体验系列之DedeCMS v5.7
作者:azha 来源:ChinaZ源码报导 浏览:14162次 2012-3-19 18:02:29 字号:大 中 小 [摘要]各大CMS为方便个人站长们在建站初期给网站填充内容,都会内置一个采集模块。网站采集的规则大致相同,但每个CMS系统自带的采集模块又各有特点,今天小编将给大家带来DedeCMS v5.7自带采集模块的体验过程,并总结特点。
接下来依次是关键词和描述过滤、标题获取、作者获取、来源获取和发布时间,最后来看看内容获取。图片采集内容部分两块,一个是图片集合一个是图集内容。图片集合就是图片了,其中系统默认填写了TurnTmageTag这个函数把采集到的图片处理为图集,图集内容就是你想要在页面显示的文章内容,比如对图片的描述等等,小编就直接采集标题作为图集内容:
保存并测试,查看测试结果。我们会发现dedecms的采集程序自动过滤img标签里面的其他代码,只取一个图片地址。这样有利也有弊,好处就是省了其他过滤规则,不好的地方就是图片alt表情直接默认为图1、图2……不利于网站优化。
查看结果无误后保存并采集,采集结束点导出数据发布,选择栏目后确定