自定义正则语法规则:
简单举例(常用):比如被采集的网站内容页的html代码如下
<tr><td>文章内容部分</td></tr><table>
那么右边输入
<tr><td>{content=*}</td></tr><table>
复杂举例(少用):比如内容的html代码如下
<p>作者:张三<br>来源:php168网站</p>不相关内容<tr><td>文章内容部分</td></tr><table>
那么右边输入
<p>作者:{author=*}<br>来源:{copyfrom=*}</p>{*}<tr><td>{content=*}</td></tr><table>
必须要注意的是:
为何要取内容的html代码如下
<tr><td>文章内容部分</td></tr><table>
那么右边输入
<tr><td>{content=*}</td></tr><table>
而不是
<tr><td>文章内容部分</td></tr>
那么右边输入
<tr><td>{content=*}</td></tr>
这个呢?
为什么要多一段 <table> 呢?其实少这一段也是可以的,但就有可能采集到其他内容,即是精确度不高.代码多一点,精确度就高一点,但也不是越多越好.因为太多的话.有可能就采集不到了. |
|
要替换文章中的字符:
目的,过滤不愿意看到的文字
格式为旧字符|新字符 |
|
多页处理:默认首页被替换的字符
(如留空,内容如有多页将不采集直接跳过)
比如:
第一页http://php168.com/1/index.html
第二页http://php168.com/1/index_2.htm
那么右边的表单填.html
分析规则就是对比第一页与第二页的网址从左到右哪个字符出现不同,就把之后的字符复制出来 |
|
多页处理:变动的页去替换的字符
(留空,内容如有多页将不采集直接跳过)
比如:
第一页http://php168.com/1/index.html
第二页http://php168.com/1/index_2.htm
那么右边的表单填_[page].htm
分析规则就是对比第一页与第二页的网址从左到右哪个字符出现不同,就把第二页之后的字符复制出来,并把变动的页码数字用[page]替换 |
|
多页时.第二页是否怪癖,
比如:
第一页http://php168.com/1/index.html
第二页http://php168.com/1/index_1.html
此时属于怪癖的,理论上应该是
第三页http://php168.com/1/index_2.html
所以右边请选择是,一般情况都是选否的 |
是
否 |
开头PHP正则程序语法
(适合处理采集比较怪僻的网站.不懂PHP程序的,请留空,否则会出现严重问题使得采集程序无法运行) |
|
结尾PHP正则程序语法
(适合处理采集比较怪僻的网站.不懂PHP程序的,请留空,否则会出现严重问题使得采集程序无法运行) |
|
采集文件结尾的PHP正则程序语法
(适合处理采集比较怪僻的网站.不懂PHP程序的,请留空,否则会出现严重问题使得采集程序无法运行) |
|