/* */

基于PHP采集数据入库程序

分类:技术文章 时间:2023-04-13 13:07 浏览:0 评论:0
0

转自 cnblogs-李晨玮

说到采集,无非就是远程获取信息->提取所需内容->分类存储->读取->展示

也算是简单"小偷程序"的加强版吧

下面是对应核心代码(别拿去做坏事哦^_^)

 

所要采集的内容是某游戏网站上的公告,如下图:20cae76791.gif

可先利用file_get_courses和简单正则获取基本页面信息

281403036335978.gif

整理下基本信息,采集入库:

<?php
    include_once("conn.php");


     if($_GET['id']<=8&&$_GET['id']){
         $id=$_GET['id'];
        $conn=file_get_courses("http://www.93moli.com/news_list_4_$id.html");//获取页面内容


    
    $pattern="/
  • /iUs";//正则     preg_match_all($pattern, $conn, $arr);//匹配内容到arr数组     //print_r($arr);die;          foreach ($arr[1] as $key => $value) {//二维数组[2]对应id和[1]刚好一样,利用起key         $url="http://www.93moli.com/".$arr[2][$key];         $sql="insert into list(title,url) value ('$value', '$url')";         mysql_query($sql);         //echo "$value"."
    ";         }      $id++;      echo "正在采集URL数据列表$id...请稍后...";      echo "[xss_clean]window.location='list.php?id=$id'[xss_clean]";  }else{      echo "采集数据结束。";  } ?>
  • conn.php是数据库连接文件

    list.php是本页面

    由于要采集的数据是分页显示的,且页面地址是规律递增,所以我用了js跳转代码,利用id传值控制采集的页数,也避免了for循环数目过大。

    281413090242229.jpg

    280226117121589.gif

    接下来要做的操作就是从数据库中读取所需要采集的URL,进行页面抓取就行

    新建一个course表

    不过需要注意的一点是,不能再采用采集URL这种id递增的方法去采集,因为数据表中可能出现id断续,比如id=9,id=11,当采集到id=10的时候,URL是空白的,这样可能会导致采集到了空字段。

    这里用到的一个技巧是数据库的查询语句,在我们采集完第一条数据的时候,判断数据库里是否还有大于此id的id编号,若有,读取一条,查询信息重复上面的工作。

    具体代码如下:

    <?php
        
        include_once("conn.php");
        $id=(int)$_GET['id'];
        $sql="select * from list where id=$id";
        $result=mysql_query($sql);
        $row=mysql_fetch_array($result);//取得对应的url地址
        $course=file_get_courses($row['url']);
        $pattern="/(.*)<\/dd>/iUs";
        preg_match($pattern, $course,$info);//获取内容存放info
        echo $title=$row[1]."
    ";     echo $course=$info[0]."
    ";     //插入数据库     $add="insert into course(title,course) value('$title','$course')";     mysql_query($add);     $sql2="select * from list where id>$id order by id asc limit 1";     $result2=mysql_query($sql2);     $row2=mysql_fetch_array($result2);//取得对应的url地址     if($row2['id']){         echo "[xss_clean]window.location='course.php?id=$row2[0]'[xss_clean]";     } ?>

    281538515718818.gif

    这样子我们所要的新闻内容就采集入库了,接下来只需要对数据的一些样式进行整理就行了。

    1. 本站所有资源来源于用户上传或网络,仅作为参考研究使用,如有侵权请邮件联系站长!
    2. 本站积分货币获取途径以及用途的解读,想在本站混的好,请务必认真阅读!
    3. 本站强烈打击盗版/破解等有损他人权益和违法作为,请各位会员支持正版!
    4. 技术文章 > 基于PHP采集数据入库程序

    用户评论