

开放数据：采集导入 advset-exdata

数据分享 - 同步
数据导入 - 采集


#opendata#开放数据

* 开放数据理念：
 - 开放，尊重，安全，共享：
 - 内部的数据可分享出去，
 - 也要导入采集同步外部数据……

* 如下场合，您将用上它们：
 - 几个分站（如各地区一个分站）要相互调用数据；
 - 几个分站（如各地区一个分站）要同步几个栏目数据；
 - 从其它如dede，dz系统导入数据到本系统，或把本系统数据导出到其它系统；
 - 从联盟网站采集数据（提示：请尊重版权，尊重原创！）


#share_psyn#分享同步

* 配置参数：/root/cfgs/excfg/ex_outdb.php
 - 包含：数据分享同步，导入外部数据库 等参数
 - 分享 数据提供方 站点 和 需要同步的两个站点，都同步配置相同的['sign']签名参数
* 数据分享：(后台)工具 >> 系统工具 >> 数据分享 >> 设置链接，供外部网站调用；
* 数据同步：如分站获取总站某个栏目的新闻等场合，可用此方式；
* 安全：如果取消（如合同到期）分享/同步，要禁止外部合作方调用或同步数据，请修改['sign']的签名参数；


#crawl#数据采集

* 场景：
 - 建站初期，从联盟网站采集填充数据；
 - 运营网站，从联盟网站定期采集某栏目数据；
* 网址提取：
 - 建站初期，采集填充数据，可设置第N页到第1页所以页资料；
 - 运营网站，定期采集某栏目数据，可只设置第1页资料，设置一个计划任务运行；
 - 提取规则，参考以下说明；
* 字段提取规则：
 - 见下说明；
* 提示：请尊重版权，尊重原创，合法采集！

#fields#提取规则

* [远程页示例](http://imcat.txjia.com/views/dev/tester/uexlib_elmhtml.php)，
  请自行“查看Html源代码”了解html结构。

* 提取原始内容规则有5中模式：
 - 提取标记中，用`(*)`标识提取内容占位符号，如果还有其它参数，用`(^)`分开
 - 保存格式为：`提取模式(:)提取标记(:)扩展操作`，如：`modeVal(:)<title>(*)</title>`
 - (:), (*), (^) 为分割标记，请注意不要冲突。
  
* modeVal （Html标签模式）获取xml/html标签 的一个值 或 一个innerHTML
 - `<title>(*)</title>` 提取特定标签title的内容；
 - `<div class="ctm23">(*)</div>` 提取特定标签div.ctm23的内容，如果内容中还有`<div>`标记，会自动配对获取完整标签内容；
 - `id="content"(*)</div>(^)>` 提取特定字符`id="content"`和`</div>`之间的内容，
 - 如果一个标签内属性很多，(*)前面可以不用把标签写全（如上），后面加参数`(^)>`标识从结果中第一个`>`开始取，达到修正效果；
  
* modePos （Html定点模式）获取xml/html标签 的一个值 或 一个innerHTML
 - `<title>(*)</title>` 提取特定标签title的内容；
 - `<div class="content">(*)id="link"` 提取特定字符`class="content"`和`id="link"`之间的内容；
 - 如果内容很多，可先用此模式截取部分内容供后续分析；
 - (*)前后标记最好唯一，不唯一则取第一个标记的内容；
  
* modeArr （Html标签数组模式）获取xml/html标签 的一组值 或 一组innerHTML 加参数$no获取单个下标
 - `<li class="cls22">(*)</li>` 提取一组li的内容；
 - `<li class(*)</li>` 提取一组li的内容，各class可能不相同；
 - `<li>(*)</li>(^)2` 提取一组li内容中的第3个（从0算起）；
  
* modePreg （正则取数组模式）获取xml/html标签 的一组值 或 一组innerHTML 加参数$no获取单个下标
 - `<td class="tc1">(*)</td>(^)[^rn]{1,1200}` 提取一组td内容，[^rn]其实是转化为[^\r|\n]
 - `<td class="tc1">(*)</td>(^)[^rn]{1,1200}(^)2` 提取一组td内容中的第3个（从0算起）；
  
* modeAttr （提取Html属性模式）获取xml/html标签 的一组属性 加参数$no获取单个下标
 - `witdh(^)key(^)0` 提取一个witdh属性；
 - `href(^)url` 提取一组url
  
* 扩展操作（目前支持如下功能）
 - url:fatch 把获取的网页url地址，再次提取远程数据(Html)
 - save:image 把获取的图片url地址，提取远程图片到本地

* 综合操作
 - 多次获取，得到想要的内容；


#oimp#数据导入

* 把其它CMS数据导入本CMS
 - 如果您已经有个运营的网站，有一定数据；
     但觉得此CMS更适合您，那就先搭建此CMS，然后用此CMS导入老网站数据……
 - 后续将内置几个常见CSM的数据导入配置，首先就是我自己之前的ASP系统数据导入规则；
 
* 把本CMS数据导入其它CMS
 - 如果您但觉得别的CMS更适合您，那就先搭建别的CMS，然后用此网站的数据分享，让别的CMS把本CMS的数据导入。
 - 别的CMS是否有导入数据功能，或二次开发请自行解决；本CMS只复制把数据分享出去…

* 相关资源下载：
 - [导入用演示数据](http://pan.baidu.com/share/home?uk=3191979020) odata_demo.rar文件 (132K)


