QueryList抓取网站keywords,description等基本信息以及回调函数的简单使用

浏览:4136 发布日期:2014/12/18 分类:技术分享 关键字: phpQuery QueryList 采集 教程
<?php
//引入QueryList
require 'QueryList.class.php';
//设置规则
$reg = array(
//抓取网站keywords
"kw" => array("meta[name=keywords]","content"),
//抓取网站描述
"desc" => array("meta[name=description]","content"),
//抓取网站标题
"title" => array("title","text"),
//抓取网站第一个css link的链接
"css1" => array("link:eq(0)","href"),
//抓取网站第二个js link的链接
"js2" => array("script[src]:eq(1)","src")
);
//抓取的目标站
$url = 'http://x.44i.cc/';
//抓取
$data = QueryList::Query($url,$reg)->jsonArr;
print_r($data);

//下面单独演示回调函数的用法
//抓取网站keywords并分离每个关键词
$reg = array(
    //抓取网站keywords,并调用自定义函数fun
    "kw" => array("meta[name=keywords]","content",'','fun')
);
//自定义回调函数
function fun($content,$key){
//分离关键词
return explode(',', $content);
}
//抓取的目标站
$url = 'http://x.44i.cc/';
//抓取
$data = QueryList::Query($url,$reg)->jsonArr;
print_r($data);
运行结果:Array
(
    [0] => Array
        (
            [kw] => 冷云,搞笑,搞笑图片,搞笑视频,内涵图,搞笑图片大全,冷笑话,笑话网,最新搞笑图片
            [desc] => 最火爆的搞笑笑话吧,最搞笑图片,最搞笑电影,最搞笑微博,最搞笑文字笑话,重口味内涵图吧,你懂得!
            [title] => 冷云|搞笑图片|冷笑话
            [css1] => http://cdn.bootcss.com/bootstrap/3.2.0/css/bootstrap.min.css
            [js2] => http://cdn.bootcss.com/bootstrap/3.2.0/js/bootstrap.min.js
        )

)
Array
(
    [0] => Array
        (
            [kw] => Array
                (
                    [0] => 冷云
                    [1] => 搞笑
                    [2] => 搞笑图片
                    [3] => 搞笑视频
                    [4] => 内涵图
                    [5] => 搞笑图片大全
                    [6] => 冷笑话
                    [7] => 笑话网
                    [8] => 最新搞笑图片
                )

        )

)
原文地址:http://ql.44i.cc/article/6
最佳答案
评论( 相关
后面还有条评论,点击查看>>