采集管理
>新增采集节点:
网址获取
内容规则
网址获取
内容规则
节点基本信息
节点名称:
页面编码:
GB2312
UTF8
BIG5
图片相对网址:
物理路径:
文章来源:(文档中使用)
内容匹配模式:
正则表达式
字符串
以下选项仅在开启防盗链模式才需设定,如果目标网站没有防盗链功能,请不要开启,否则会降低采集速度。
防盗链模式:
不开启
开启
资源下载超时时间:
秒
引用网址:
(一般为目标网站其中一个文章页的网址,需加http://)
采集列表获取规则
来源网址获取方式:
符合特定序列的列表网址
手工指定列表网址
分页变量起始值:
变量结束值:
表示 [var:分页] 的范围)
来源网址:
对于比较规则分多页的列表网址,用 http://abc.com/list.php?page=[var:分页] 的形式,然后指定"分页变量起始值"。
列表页中文章网址的命名规则:
用正则匹配置网址:
文章网址需包含:
网址不能包含:
限定HTML范围:
(如果文章网址命名不规范,用正则的形式无法正确获得需要的网址,设置此选项来获得)
起始HTML:
结束HTML:
如果你想手工指定要采集的列表网址或除了合符规则的列表网址外,还含有其它列表网址,请在下面指定:
手工指定列表网址:
(每行一条网址,
不支持使用变量)
对于部份符合规则,部份不符合规则的网址,可以把不符合规则的放在这里,例:像
http://xx.com/aaa/index.html
http://xx.com/aaa/list_2.html
http://xx.com/aaa/list_3.html...
这样的网址,你可以用变量指定 list_[var:分页].html,
然后把 http://xx.com/aaa/index.html(该网址不符分页规则) 填写在下面。
文档内容获取规则
测试单页网址:
(仅用于编辑规则完成后测试,测试时不会本地化远程媒体)
字段设置说明:
1、规则:如果采集的内容为分页文档,请在文章body字段"分页内容字段"这个选项打勾。
2、变量:如果你的字段值使用的不是[var:内容],而是指定的其它值,则导出时直接使用该值,并且采集时不会分析该项目。
3、过滤规则:如果有多个规则,请用{dede:teim}规则一{/dede:trim}换行{dede:teim}规则二{/dede:trim}...表示
文档是否分页:
不分页
全部列出的分页列表
上下页形式或不完整的分页列表
分页链接区域匹配规则:
文档分多页时才需选此项
分页链接区域开始HTML:
分页链接区域结束HTML:
>内容字段列表:
(一般“自定义处理接口”带有处理程序的字段[黑色字]不需要理会)
CTags)) { $s = 0; foreach($dtp->CTags as $ctag) { if($ctag->GetName()=='field') { if($ctag->GetAtt('source')=='value') continue; $tagv = "[var:内容]"; //if($ctag->GetAtt('source')=='function') //else $fnv = ""; $fnv = $ctag->GetInnerText(); $cname = $ctag->GetAtt('name'); if($ctag->GetAtt('intable')!="" && $ctag->GetAtt('intable')!=$noteinfos->GetAtt('tablename') ) { $cname = $ctag->GetAtt('intable').'.'.$cname; } $comment = $ctag->GetAtt('comment'); $s++; ?>
GetAtt('source')!='function'){ $fcolor=" style='color:red' "; $tstyle=""; } else{ $fcolor=""; $tstyle=" style='display:none' "; } ?>
>
>
字段值:
>
匹配内容:
开始无重复HTML:
结尾无重复HTML:
过滤规则:
分页内容字段(规则中只允许单一的该类型字段)
下载字段里的多媒体资源
自定义处理接口:
函数或程序的变量
@body 表示原始网页 @litpic 缩略图
@me 表示当前标记值和最终结果