织梦DedeCms采集规则教程

楚截图和文字分不清楚,因此用粉色背景来区分。第一步、确定采集的网站(我们以DEDE的官方站做为采集站做示范)第二步、确定被采集站的编码。打开被采集的网页之后,查看源代码(IE:查看-源代码)在之间找到charset这个,后面就显示网页的编码了,截图的是gb2312

  楚截图和文字分不清楚,因此用粉色背景来区分。

  第一步、确定采集的网站(我们以DEDE的官方站做为采集站做示范)

  第二步、确定被采集站的编码。打开被采集的网页之后,查看源代码(IE:查看 - > 源代码)

织梦DedeCms采集规则教程

  在 之间找到 charset 这个,后面就显示网页的编码了,截图的是 “gb2312”

  第三步、采集列表获取规则写法

  [var:分页]

  文章网址需包含 网址不能包含 这两个一般不用写,用于采集列表范围有很多不需要的连接才用到他来做过滤使用。

  如果只有一个列表页,那么在来源网址就直接写上网址就OK了。

  注意这里,最关键就是这里。

  下面就是“采集获取文章列表的规则写法”,

  就是上面打开的被采集页面的源代码文件,找到文章列表之前 和本页面没有其他相同的代码

  在DedeCms官方站的列表页文章列表之前和之后最近的且没有相同的是“

  ”和“ ”,分别写入“起始HTML”和“结束HTML”,写法看截图

  第四步、采集文章标题,文章内容,文章作者,文章来源等规则写法,分页采集等。

  “起始HTML”和“结束HTML”写法参考第三步中的“获取文章列表的规则写法”

  下面讲的是如何采集分页内容 看截图圈着的地方 截图

  文档是否分页 里面选择“全部列出的分页列表”

  “起始HTML”和“结束HTML”写法参考第三步中的“获取文章列表的规则写法”

  当然 上面这些不能用来采集带有视频的,因为已经过滤了,后面的四行是过滤掉视频的。

本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除!

相关文档推荐

关于面包屑导航栏目链接相对路径的修改方法 好吧,自己解决了,现在写出来,希望可以帮到有同样问题的人。 找到/include/typelink.class.php 然后找到下面代码,大概在196行的位置 function GetOneTypeLink($typeinfos) { $typepage = $this-GetOneTypeUrl($
织梦后台默认生成更新RSS文件是按照网站栏目生成告诉用户每个栏目的RSS订阅地址,保存在data目录下,按分类生成很适合栏目或栏目文章较多的dedecms站点,小型CMS站点偏向于生成一个全站的RSS 文件,下面的方法可以实现dedecms只生成一个rss.xml文件夹保存于
有时候,我们在用dedecms建网站的时候,在图片集内容页需要调用当前文章的所有图片出来,这个时候就需要在内容页吧网站里面的所有图片都调用出来了,该怎么做呢?下面看具体步骤: 第一步: 打开include/extend.func.php,在后面加入以下代码 复制代码 functi
dedecms获得某篇文章内容的几种方法,在这里给大家总结了以下三种方法: 1. 使用SQL {dede:sql sql=Select body from `dede_addonarticle` where aid=146} [field:body/] {/dede:sql} 2.使用arclist, 用idlist获取,aid 是没用的,在首页记得要获取typeid,
DEDECMS利用strftime()函数格式化时间的所有参数详解,包括年份日期进制、小时格式等,大家收藏吧,呵. 日期时间格式 (利用strftime()函数格式化时间)0 dedecms首页时间标签: 1、12-27 样式 ([field:pubdate function=strftime(%m-%d,@me)/]) 2、May 15, 2
本文实例讲述了dedecms删除系统自定义变量的方法。分享给大家供大家参考。具体实现方法如下: 一、问题: 之前添加了个联系电话的系统变量,选错了变量类型,结果电话里面要是出现-就显示不全了,很难看,这样的就要删除了重来,那么织梦怎么删除添加的变量呢。