支持 php5.3~php7
支持多级、多页、分页抓取
支持正则、xpath、json 匹配内容
可将数据导入 cms 系统或自己开发的程序、直接入库、保存为文件等
实现定时定量全自动采集发布
界面自适应宽度,手机也可以操作采集
源码地址: https://github.com/zorlan/skycaiji
官网:http://www.skycaiji.com
由于文件比较大,大家可以进入上面的网址下载或者下载提供的一键安装包,按操作使用就可以部署蓝天采集器了!
V1.3修复的BUG
· 自动采集不能执行、执行停止等
· 无法检测到本地CMS
· 采集时间太长导致的数据库连接中断
· 图片下载超时导致的采集中断
· php7中发布设置无法绑定cms应用、数据库无法保存
· 发布方式:API网址404
· 控制面板不显示中文
· cms发布应用乱码
· 网址中的“&”变成“&”
· 起始页网址5000条以上导致的规则保存失败
· 采集大量数据时内存溢出
· 编辑会员导致密码丢失
完善功能:
· 图片本地化可指定下载目录、名称唯一防止重复下载节省空间
· 代理IP可自动过滤无效IP、设置每个IP使用次数和时长
· 加入翻译功能(百度翻译、有道翻译)
· 加入oracle数据库发布支持
· api发布接口可缓存数据
· 加入文件存储为txt文件
· 支持循环采集入库(同页面格式一致的数据列表)
· 支持POST内容采集、倒序采集
· 支持内容标题排重
· 支持实时发布数据(采一条发一条)
· 加入批量替换、截取字符长度
· 加入测试模拟匹配数据
· 可设置每个任务的采集数量
· 扩充规则文件空间大小
· 加入校验文件和数据库,防止程序不一致或被篡改
· 加入token机制防止csrf