采集管理
>更改采集节点:
网址获取
内容规则
网址获取
内容规则
节点基本信息
节点名称:
页面编码:
> GB2312
> UTF8
> BIG5
图片相对网址:
物理路径:
文档来源:(文档中使用)
区域匹配模式:
/> 正则表达式
/> 字符串
以下选项仅在开启防盗链模式才需设定,如果目标网站没有防盗链功能,请不要开启,否则会降低采集速度。
防盗链模式:
> 不开启
> 开启
资源下载超时时间:
秒
>
引用网址:
(需加http://)
采集列表获取规则
来源网址获取方式:
> 符合特定序列的列表网址
> 手工指定列表网址
分页变量起始值:
变量结束值:
表示 [var:分页] 的范围)
来源网址:
对于比较规则分多页的列表网址,用 http://abc.com/list.php?page=[var:分页] 的形式,然后指定"分页变量起始值"。
如果来源网址是列表网址,请指定下面文章内容网址获取规则的属性:
用正则匹配置网址:
文章网址需包含:
网址不能包含:
GetInnerText(); if(!empty($linkarea)){ $linkareas = explode('[var:区域]',$linkarea); $l1 = $linkareas[0]; if(!empty($linkareas[1])) $l2 = $linkareas[1]; } ?>
限定HTML范围:
(如果文章网址命名不规范,用正则的形式无法正确获得需要的网址,设置此选项来获得)
起始HTML:
结束HTML:
如果你想手工指定要采集的网址或除了规则网址外,还有其它网址,请在下面指定:
手工指定网址:
(每行一条网址,
不支持使用变量)
对于部份符合规则,部份不符合规则的网址,可以把不符合规则的放在这里,例:像
http://xx.com/aaa/index.html
http://xx.com/aaa/list_2.html
http://xx.com/aaa/list_3.html...
这样的网址,你可以用变量指定 list_[var:分页].html,
然后把 http://xx.com/aaa/index.html(该网址不符分页规则) 填写在下面。
GetInnerText()?>
网页内容获取规则
测试单页网址:
(仅用于编辑规则完成后测试,测试时不会本地化远程媒体)
字段设置说明:
1、规则:如果采集的内容为分页文档,请在文章body字段"分页内容字段"这个选项打勾。
2、变量:如果你的字段值使用的不是[var:内容],而是指定的其它值,则导出时直接使用该值,并且采集时不会分析该项目。
3、过滤规则:如果有多个规则,请用{dede:teim}规则一{/dede:trim}换行{dede:teim}规则二{/dede:trim}...表示
文档是否分页:
GetAtt('sptype')==""||$sppageTag->GetInnerText()=="") echo " checked"?>> 不分页
GetAtt('sptype')=="full") echo " checked"?>> 全部列出的分页列表
GetAtt('sptype')=="next") echo " checked"?>> 上下页形式或不完整的分页列表
分页链接区域匹配规则:
文档分多页时才需选此项
GetInnerText(); if(!empty($sppage)){ $sppages = explode('[var:分页区域]',$sppage); $l1 = $sppages[0]; if(!empty($sppages[1])) $l2 = $sppages[1]; } ?> 分页链接区域开始HTML:
分页链接区域结束HTML:
>内容字段列表:
LoadString($notes); foreach($dtp3->CTags as $k => $ctag) { if($ctag->GetName()=='note') { $s++; $dtp->LoadString($ctag->GetInnerText()); $smatch = ""; $sfunction = ""; $strim = ""; $sfield = $ctag->GetAtt('field'); $svalue = $ctag->GetAtt('value'); $sisunit = $ctag->GetAtt('isunit'); $sisdown = $ctag->GetAtt('isdown'); $comment = $ctag->GetAtt('comment'); foreach($dtp->CTags as $n => $ntag) { $tname = $ntag->GetName(); if($tname=='match') $smatch = $ntag->GetInnerText(); else if($tname=='function') $sfunction = $ntag->GetInnerText(); else if($tname=='trim') $strim .= "{dede:trim}".$ntag->GetInnerText()."{/dede:trim}\r\n"; } ?>
>
>
字段值:
>
匹配区域:
开始无重复HTML:
结尾无重复HTML:
过滤规则:
> 分页内容字段(规则中只允许单一的该类型字段)
> 下载字段里的多媒体资源
自定义处理接口:
函数或程序的变量
@body 表示原始网页 @litpic 缩略图
@me 表示当前标记值和最终结果