基于PHP采集数据入库程序
转自 cnblogs-李晨玮
说到采集,无非就是远程获取信息->提取所需内容->分类存储->读取->展示
也算是简单"小偷程序"的加强版吧
下面是对应核心代码(别拿去做坏事哦^_^)
所要采集的内容是某游戏网站上的公告,如下图:
可先利用file_get_courses和简单正则获取基本页面信息
整理下基本信息,采集入库:
<?php include_once("conn.php"); if($_GET['id']<=8&&$_GET['id']){ $id=$_GET['id']; $conn=file_get_courses("http://www.93moli.com/news_list_4_$id.html");//获取页面内容 $pattern="/
"; } $id++; echo "正在采集URL数据列表$id...请稍后..."; echo "[xss_clean]window.location='list.php?id=$id'[xss_clean]"; }else{ echo "采集数据结束。"; } ?>
conn.php是数据库连接文件
list.php是本页面
由于要采集的数据是分页显示的,且页面地址是规律递增,所以我用了js跳转代码,利用id传值控制采集的页数,也避免了for循环数目过大。
接下来要做的操作就是从数据库中读取所需要采集的URL,进行页面抓取就行
新建一个course表
不过需要注意的一点是,不能再采用采集URL这种id递增的方法去采集,因为数据表中可能出现id断续,比如id=9,id=11,当采集到id=10的时候,URL是空白的,这样可能会导致采集到了空字段。
这里用到的一个技巧是数据库的查询语句,在我们采集完第一条数据的时候,判断数据库里是否还有大于此id的id编号,若有,读取一条,查询信息重复上面的工作。
具体代码如下:
<?php include_once("conn.php"); $id=(int)$_GET['id']; $sql="select * from list where id=$id"; $result=mysql_query($sql); $row=mysql_fetch_array($result);//取得对应的url地址 $course=file_get_courses($row['url']); $pattern="/
"; echo $course=$info[0]."
"; //插入数据库 $add="insert into course(title,course) value('$title','$course')"; mysql_query($add); $sql2="select * from list where id>$id order by id asc limit 1"; $result2=mysql_query($sql2); $row2=mysql_fetch_array($result2);//取得对应的url地址 if($row2['id']){ echo "[xss_clean]window.location='course.php?id=$row2[0]'[xss_clean]"; } ?>
这样子我们所要的新闻内容就采集入库了,接下来只需要对数据的一些样式进行整理就行了。
2. 本站积分货币获取途径以及用途的解读,想在本站混的好,请务必认真阅读!
3. 本站强烈打击盗版/破解等有损他人权益和违法作为,请各位会员支持正版!
4. 技术文章 > 基于PHP采集数据入库程序