织梦分页采集如何做?

最近想做个技术型的网站,不知道用什么cms来做,在网上搜索了一大堆,看到织梦的采集功能还不错,我也在想啊,做一个站如果所有的文章都需要站长一个一个的加,那不是要累死啊,所以就选着了织梦。还好自己有点基础,弄了一天就基本弄懂织梦的操作流程了,申

  最近想做个技术型的网站,不知道用什么cms来做,在网上搜索了一大堆,看到织梦的采集功能还不错,我也在想啊,做一个站如果所有的文章都需要站长一个一个的加,那不是要累死啊,所以就选着了织梦。

  还好自己有点基础,弄了一天就基本弄懂织梦的操作流程了,申请域名、空间,上传程序。忙得是不亦乐乎,好了,开始采集文章了。好高兴,一下就有了2000多篇文章。高兴的打开来瞧瞧,哇,突然吓了一跳,发现一个文章一看就只有一段没有完整,打开源原址一看,原来有分页,在网上找了N久,还是没有结果,自己摸索摸索吧,搞了一天一夜几乎没有睡觉,我差点都没有信心了,想着就是采集的文章只有一半,别人怎么看啊,都不想做了,也累了,还是好好睡一觉吧。

  也许是老天看我太辛苦了吧,刚想睡觉,突然我一下睡意全无,我太兴奋了,我看到了,看到了分页被我采集了。好了,说了这么多,还是开始进入正题了。直接看图。如果看不懂请打开源网址,查看源文件,和我的教程比较。 开始选着左边的采集,然后打开采集节点管理,添加新节点,选着普通文章。1、 文章列表页采集节点名称:自己根据你的网站目录和采集内容结合起来。网址:(*l 是有规则的网址列表。  如果有不规则追加就好了。如果只有一页或几页没有规则就直接写在下面手工指定网址就好了。  

  

  文章列表匹配规则。注意要多看几页找出相同的,列表页大体相同,但有些有点小变化,所以要找出几页的共同html代码。

  区域开始的html :

  <TBODY>                  <TR>                     <TD width="74%" height="796" align=left vAlign=top><BR>                      <table cellSpacing=0 cellPadding=0 width=490 align=center border=0>                                                 <tr> 区域结束的html :</tr>                                                 <tr>                           <td class=zhi12 colSpan=2><BR>

  建议写上筛选,一般写必须包含,这样准确点:/flashsl

  

  保存进入下一步设置。以看到下面的图为准。

  

  3、 分页设置预览网址可以更改。选择有分页的页面来预览,当然最好多预览几页,主要是和前面一样代码可能有小变化,选着相同的html代码分页匹配规则这里只要做过一次就不难了。

  看我的代码 ,请和源网址,查看源文件对比。

  <p align='center'><b><font color='red'>[内容]</b></p><div align=right style="margin:3px 0;">[内容]为我们需要的内容,这个我想大家都知道了同理做好文章标题:(标题有两个地方有,当然选简单的个)<B class=zhi25><FONT color=#003399><BR><BR></FONT></B><B class=zhi25><FONT color=#003399>[内容]</FONT></B><br>文章作者:<IMG height=11 src=";">{dede:trim replace=""}<a([^>]*)>{/dede:trim}{dede:trim replace=""}</a>{/dede:trim}  文章内容:进入网络咨询平台</strong></a> <strong><span class="style1"> ◆</span></strong><br>                                       <BR class=zhi14>[内容]<span style="border:1px dashed #cccccc; margin:3px;"> 

  同样的需要过滤规则,你可以先不写规则看哈,有什么区别就知道规则有什么用了。规则一定要根据实际文章来写。

  {dede:trim replace=""}<style([^>]*)>(.*)</style>{/dede:trim}{dede:trim replace=""}<div([^>]*)>{/dede:trim}{dede:trim replace=""}</div>{/dede:trim}{dede:trim replace=""}<SPAN([^>]*)>{/dede:trim}{dede:trim replace=""}</SPAN>{/dede:trim}{dede:trim replace=""}<a([^>]*)>{/dede:trim}{dede:trim replace=""}</a>{/dede:trim}{dede:trim replace=""}</p><p align='center'><b>(.*)</b></p>{/dede:trim}

  这一句我多说哈,主要作用是去掉后面的分页的文字。我开始也考虑把分页内容排除在文章内容外面,但是有些文章又没有分页代码,所以在文章的结尾html不好写,所以我写远点然后用规则去掉分页文字 (同样的如果不懂先不加这条,比较哈就知道了)

  {dede:trim replace=""}<font([^>]*)>{/dede:trim}{dede:trim replace=""}</font>{/dede:trim}分页采集成功没有可以看有没有一个{副标题#e#},还有看哈最后一页采集到没有就知道。 

  

  

  图片看不清楚?请点击这里查看原图(大图)。

  中间也有

  

本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除!

相关文档推荐

这是dedecms初学者常常会问的问题,dedecms默认的文章模版还是比较丰富的,但还是不能满足使用需求,因此dede对自定义字段的支持,让模版更加丰富.一般用得比较多的有dedecms筛选提供最新重庆网页设计,企业网站建设,dede模板
seo新手熟悉了安装及调试dedecms本地环境,可以进行真正空间上的操作了,详解dedecms完整安装方法和数据库的还原.dedecmsV5.7gbk,工具:FlashFXP,环境:万网免费虚拟空间,域名:test.com,数据库信息:数据库名:usetest_date,数据库用户名:usetest_uset,数据库密码:t
这个js适合列表页或首页模板,解决了页面过长,又有利于搜索引擎抓取足够多的内容。提供最新重庆网页设计,企业网站建设,dede模板
[field:id function=GetTags(@me)/] 标签就可以调用出来了 只不过不带连接的,如果需要连接,请注释include\helpers\archive.helper.php文件130行 // $tags .= ($tags== ? $row[tag] : ,.$row[tag]); 用下面语句替换,当然你也可以加入自己的样式 $tags .= ahre
有时候dedecms首页或者其他页面不能全部展示文章标题,造成读者阅读体验差.一般来说标题精简,概括性强,有本文关键词就是一个好标题.写软文不比写"作文",也不是论坛的标题党,软文是用来做排名的,主要针对的是搜索引擎,文章标题的好坏直接影响用户点击率.提供最
这里运用到的标签是{dede:arclist}{/dede:arclist},不需要修改数据库。快收藏吧提供最新重庆网页设计,企业网站建设,dede模板