采集文章 采集图片 采集FLASH 只采集标题,类似奇虎/大旗(如果你是新手,这一项很适合你)

采集的文章标题参数设置
采集的网站名称:
要采集的文章列表网址: (如果是多页,请把变动那个数值用[page]代替)
如果是多页,请写出开始,结尾页 开始页 结束页
梯度 默认请留空,如果想跳页,你可以写2,3,....
每篇文章的网址中包含的字符:
(一般不能写绝对地址http://)
每篇文章的网址中不包含的字符:(一般留空)
(一般不能写绝对地址http://)

高级设置,欲替换的字符:(一般留空)

规则,每条换一行

原字符|新字符

提示:如果你想网址中不包括某个字符,也可在这里填入
不想要的字|

(遇到难题才设置的,对处理前的地址替换不想要的字符)
对处理前的内容作正则表达式处理,内容变量是$file
如果你是新手,这一项留空
如果你不懂PHP程序,这一项必须留空,否则后台将一片空白,解决方法是进入目录admin\bak\copy\把你新添加的参数文件删除即可
对处理后的地址作正则表达式处理,地址变量是$url
如果你不懂PHP程序,这一项必须留空,否则后台将一片空白,解决方法是进入目录admin\bak\copy\把你新添加的参数文件删除即可
测试
采集文章 采集图片/FLASH 只采集标题,框架显示内容(如果你是新手,这一项很适合你)
采集的文章内容参数设置

每篇文章开头唯一关键字符串:

(分析方法:在文章内容前面附近寻找字符串,此字符串在文章内容前面都是唯一的,注意不是在文章内容里边寻找,而是在内容的前面寻找.寻找唯一的字符串)

都是要用Dreamweaver记事本分析网页代码才可以的

每篇文章结尾唯一的关键字符:

(一般情况是</td>,大小写有区别,自己处理,

如果文章内容里出现了</td>,将不能取</td>)

(分析方法:在文章内容结尾附近,寻找字符串,此字符串在文章内容里没出现过就行了)

都是要用Dreamweaver记事本分析网页代码才可以的

欲替换的字符:

规则,每条换一行

原字符|新字符

注意:有时候采集了多余的<td><table>之类的html代码,建议在此过滤他,过滤方法是,每个换一行

<table>|

就行了,<table>是举例,新字符不必写,因为只是想干掉多余的代码,所以就没必要写了,

对处理前的内容作正则表达式处理,内容变量是$file
如果你是新手,这一项留空
如果你不懂PHP程序,这一项必须留空,否则后台将一片空白,解决方法是进入目录admin\bak\copy\把你新添加的参数文件删除即可
对处理后的内容作正则表达式处理,内容变量是$content
如果你不懂PHP程序,这一项必须留空,否则后台将一片空白,解决方法是进入目录admin\bak\copy\把你新添加的参数文件删除即可
 
要采集图片\FLASH等等的设置
要采集的信息后缀名
图片写 jpg flash写 swf 要采集什么,就写什么后缀名,不要写.号

采集信息中必须包含的字符:(一般留空)

比如同时采集

http:/mmcbbs.com/www.jpg

http:/mmcbbs.com/ff/tt.jpg

我只想要http:/mmcbbs.com/ff/tt.jpg

那此空写ff

(一般不能写绝对地址http://)

采集信息中必须不包含的字符:(一般留空)

比如同时采集

http:/mmcbbs.com/uu.jpg

http:/mmcbbs.com/fgggf/tt.jpg

我只想要http:/mmcbbs.com/uu.jpg

那此空写fgggf

(一般不能写绝对地址http://)

要替换的字符:(一般留空)

原字符|新字符

每个换一行

 

“要采集的文章内容参数设置”要采集图片\FLASH等等的设置”不必同时设置参数,
如果只是采集文章:就不要设置要采集图片\FLASH等等的设置”
如果采集图片/FLASH/音乐等等:“要采集的文章内容参数设置”可以设置,也可以不设置,设置的好处是把范围缩小而过滤更多无用的信息