| 如果想把图片或文件采集回来,你设置以下的完毕后,请再点击上方的[采集图片或FLASH或其他文件]进行详细设置 |
自定义正则语法规则:
举例比如内容的html代码如下
<tr><td>软件介绍部分</td>没用信息<td>软件地址</td>
没用信息<td>软件大小</td></tr><table>
那么左边输入
<tr><td>{content=*}</td>{*}<td>{downloadurl=NO'"<>}</td>
{*}<td>{softsize=NO'"<>}</td></tr><table>
附注相关参数变量:
{softlanguage=NO'"<>}
软件语言
{loadnum=NO'"<>}
总下载次数
{operatingsystem=NO'"<>}
运行环境
{copyright=NO'"<>}
授权方式
{author=NO'"<>}
作者/开发商
{copyfrom=NO'"<>}
来源于哪里
{copyfromurl=NO'"<>}
来源网址
{posttime=NO'"<>}
发表日期
{pageurl=NO'"<>}
软件的下载页,有部分站的文件下载地址不在本页而是在另一页的
|
|
如果下载地址不在内容页,而在新开窗口的另一页,此时请在这里输入新开页的软件地址的正则语法,如果软件下载地址在内容页里,则这里留空
附注参数:
{downloadurl=NO'"<>}
软件地址 |
|
要替换文章中的字符:
目的,过滤不愿意看到的文字
格式为旧字符|新字符 |
|
多页处理:默认首页被替换的字符
(如留空,内容如有多页将不采集直接跳过)
比如:
第一页http://php168.com/1/index.html
第二页http://php168.com/1/index_2.htm
那么右边的表单填.html
分析规则就是对比第一页与第二页的网址从左到右哪个字符出现不同,就把之后的字符复制出来 |
|
多页处理:变动的页去替换的字符
(留空,内容如有多页将不采集直接跳过)
比如:
第一页http://php168.com/1/index.html
第二页http://php168.com/1/index_2.htm
那么右边的表单填_[page].htm
分析规则就是对比第一页与第二页的网址从左到右哪个字符出现不同,就把之后的字符复制出来,并把页码数字用[page]替换 |
|
多页时.第二页是否怪癖,
比如:
第一页http://php168.com/1/index.html
第二页http://php168.com/1/index_1.html
此时属于怪癖的,理论上应该是
第二页http://php168.com/1/index_2.html
所以右边请选择是,一般情况都是选否的 |
是
否 |
开头PHP正则程序语法
(适合处理采集比较怪僻的网站.不懂PHP程序的,请留空,否则会出现严重问题使得采集程序无法运行) |
|
结尾PHP正则程序语法
(适合处理采集比较怪僻的网站.不懂PHP程序的,请留空,否则会出现严重问题使得采集程序无法运行) |
|