|
采集的文章标题参数设置
|
| 采集的网站名称: |
|
|
要采集的文章列表网址: (如果是多页,请把变动那个数值用[page]代替)
|
|
| 如果是多页,请写出开始,结尾页 |
开始页
结束页
梯度
默认请留空,如果想跳页,你可以写2,3,.... |
|
每篇文章的网址中包含的字符:
|
(一般不能写绝对地址http://) |
|
每篇文章的网址中不包含的字符:(一般留空)
|
(一般不能写绝对地址http://) |
|
高级设置,欲替换的字符:(一般留空)
规则,每条换一行
原字符|新字符
提示:如果你想网址中不包括某个字符,也可在这里填入
不想要的字|
|
(遇到难题才设置的,对处理前的地址替换不想要的字符) |
对处理前的内容作正则表达式处理,内容变量是$file
如果你是新手,这一项留空
如果你不懂PHP程序,这一项必须留空,否则后台将一片空白,解决方法是进入目录admin\bak\copy\把你新添加的参数文件删除即可
|
|
对处理后的地址作正则表达式处理,地址变量是$url
如果你不懂PHP程序,这一项必须留空,否则后台将一片空白,解决方法是进入目录admin\bak\copy\把你新添加的参数文件删除即可 |
|
| 测试 |
|
|
|
采集的文章内容参数设置
|
|
每篇文章开头唯一关键字符串:
(分析方法:在文章内容前面附近寻找字符串,此字符串在文章内容前面都是唯一的,注意不是在文章内容里边寻找,而是在内容的前面寻找.寻找唯一的字符串)
都是要用Dreamweaver或记事本分析网页代码才可以的
|
|
|
每篇文章结尾唯一的关键字符:
(一般情况是</td>,大小写有区别,自己处理,
如果文章内容里出现了</td>,将不能取</td>)
(分析方法:在文章内容结尾附近,寻找字符串,此字符串在文章内容里没出现过就行了)
都是要用Dreamweaver或记事本分析网页代码才可以的
|
|
|
欲替换的字符:
规则,每条换一行
原字符|新字符
注意:有时候采集了多余的<td><table>之类的html代码,建议在此过滤他,过滤方法是,每个换一行
<table>|
就行了,<table>是举例,新字符不必写,因为只是想干掉多余的代码,所以就没必要写了,
|
|
对处理前的内容作正则表达式处理,内容变量是$file
如果你是新手,这一项留空
如果你不懂PHP程序,这一项必须留空,否则后台将一片空白,解决方法是进入目录admin\bak\copy\把你新添加的参数文件删除即可
|
|
对处理后的内容作正则表达式处理,内容变量是$content
如果你不懂PHP程序,这一项必须留空,否则后台将一片空白,解决方法是进入目录admin\bak\copy\把你新添加的参数文件删除即可 |
|
|