[所有参数列表] [增加新项目] [修改标题参数] [修改内容参数]

 
采集的网站名称:
网站编码选择: gbk->gbk utf8->gbk
手工输入多页 有规则的连续多页
软件列表页有多页,每页换一行

比较傻瓜化,没规则的软件列表页可以在此输入,而有规则的也可以手工在此一页一页的输入
要采集的软件列表网址: (请把每页网址中变动那个数值即页码用[page]代替)
比如:
http://php168.com/1/list_1.htm
http://php168.com/1/list_2.htm
那右边应该填入
http://php168.com/1/list_[page].htm
请写出开始页码数值,结尾页页码数值(必填) 开始第几页 结束第几页
梯度 默认1,如果想跳页,你可以写2,3,....
如果第一页没规则,请单独在此写出来第一页的网址:
比如第一页不是这个页,即不能访问
http://php168.com/1/list_1.htm

http://php168.com/1/list.htm
能访问,此时就在右边输入没规则的第一页
自定义正则语法规则:
此项可以很精确的分析到要采集的数据,填写后,下面三项建议清空.
举例比如网页中的html代码如下
<tr><td><img src="图片地址"><a href="内容页URL地址" title="注释信息">信息标题</a></td></tr>
那么左边输入
<tr><td><img src="{picurl=NO"}"><a href="{url=NO"}" title="{NO"}">{title=NO<}</a></td></tr>
其中{url=NO"}的意义是地址等于不包含有"双引号的所有字符串
其中{title=NO<}的意义是标题等于不包含有<号的所有字符串
其中{NO"}的意义代表不包含有"号的所有字符串,为何他前面没有等号?那是因为不考虑取他的值,因为每个标题的title都不一样.所以这里要给他定义一个正则语法.其他固定的格式就不必处理了
注:NO后面可以写上任何字符,可多个,但不能为中文,
例如:{url=NO' "=<>}代表除' "=<>他们之外的所有字符串
url链接地址及标题中不能包含的字符
一般情况都必填<
多个请换行
(目的是过滤太多无用的链接地址)
标题不能小于几个字符(常用):
留空不做限制,一个汉字相当于两个字符,一般输入8
(目的,有效过滤太短的标题也即是无用的链接)
url链接地址中必须包含的字符
多个请换行
(目的也是过滤太多无用的链接地址)
显示不常用的高级设置(一般不用)
替换标题链接地址中的字符
(一般留空,目的是有些链接地址比较怪僻,点击默认的不能访问那个内容页,不过情况极少出现.)
替换标题中的字符
(一般留空,目的是过滤某些标题中不想见到的文字)
欲截取页面中的指定部分的标题链接地址,此部分标题在整个页面HTML代码所在位置之前唯一出现的字符串

(目的,去除指定标题之前无用信息,更准确无误的采集指定标题链接地址)
欲截取页面中的指定部分的标题链接地址,此部分标题在整个页面HTML代码所在位置之后最先出现的字符串,但不在标题所在html代码里出现过

(目的,去除指定标题之后的无用信息,更准确无误的采集指定标题链接地址)
开头正则语法程序


(适合处理采集比较怪僻的网站.不懂PHP程序的,请留空,否则会出现严重问题使得采集程序无法运行)
结尾正则语法程序

(适合处理采集比较怪僻的网站.不懂PHP程序的,请留空,否则会出现严重问题使得采集程序无法运行)
(最好先测试,觉得满意后,再提交)