首页新闻手机家电数码电脑财经大模型直播

PHP简单采集器制作

来源：互联网作者： rocket 2008-03-17/10:12

软件频道

编程学院

PHP

进阶高手

正文

采集器，通常又叫小偷程序，主要是用来抓取别人网页内容的。关于采集器的制作，其实并不难，就是远程打开要采集的网页，然后用正则表达式将需要的内容匹配出来，只要稍微有点正则表达式的基础，都能做出自己的采集器来的。

前几天做了个小说连载的程序，因为怕更新麻烦，顺带就写了个采集器，采集八路中文网的，功能比较简单，不能自定义规则，不过大概思路都在里面了，自定义规则可以自己来扩展。

用php来做采集器主要用到两个函数：file_get_contents()和preg_match_all()，前一个是远程读取网页内容的，不过只在php5以上的版本才能用，后一个是正则函数，用来提取需要的内容的。

下面就一步一步来讲功能实现。

因为是采集小说，所以首先要将书名、作者、类型这三个提取出来，别的信息可根据需要提取。

这里以《回到明朝当王爷》为目标，先打开书目页，链接：http://www.86zw.com/Book/3727/Index.aspx

多打开几本书会发现，书名的基本格式是：http://www.86zw.com/Book/书号/Index.aspx，于是我们可以做一个开始页，定义一个<input type=text name=number>，用来输入需要采集的书号，以后就可以通过$_POST[‘number’]这种格式来接收需要采集的书号了。接收到书号，下面要做的就是构造书目页：$url=http://www.86zw.com/Book/$_POST[‘number’]/Index.aspx，当然这里是举个例子，主要是为了讲解方便，实际制作的时候最好检查一下$_POST[‘number’]的合法性。

构造好URL以后就可以开始采集书籍信息了。使用file_get_contents() 函数打开书目页：$content=file_get_contents（$url），这样就能将书目页的内容都读取出来了。接下来就是将书名、作者和类型等信息匹配出来了。这里就以书名为例，其他的都一样。

打开书目页，查看源文件，找到“<span class="booktitle">《回到明朝当王爷》</span>”，这就是要提取出来的书名了。提取书名的正则表达式：/<span class=\"newstitle\">(.*?)\<\/span>/is，使用preg_match_all()函数将书名取出：preg_match_all("/<span class=\"newstitle\">(.*?)\<\/span>/is",$contents,$title);这样$title[0][0]的内容就是我们要的标题了（preg_match_all函数的用法可以去百度查，这里就不详细说明了）。取出了书籍信息，接下来就是取章节内容了，要取章节内容，首先要做的就是找到每一章的地址，然后远程打开章节，用正则将内容取出来，入库或者直接生成html静态文件。这个是章节列表的地址：http://www.86zw.com/Html/Book/18/3727/List.shtm，可以看出这个和书目页一样，是有规律可寻的：http://www.86zw.com/Html/Book/分类号/书号/List.shtm。书号前面已经取得，这里的关键是找到分类号，分类号可以在前面的书目页找到，提取分类号：

preg_match_all("/Html\/Book\/[0-9]{1,}\/[0-9]{1,}\/List\.shtm/is",$contents,$typeid);这样还不够，还需要一个切取函数： return $message[0];}其中$string为要被切取的内容，$start为开始的地方，$end为结束的地方。取出分类号：

$start = "Html/Book/";
$end
= "List.shtm";
$typeid = cut($typeid[0][0],$start,$end);
$typeid = explode("/",$typeid);[/php]
这样，$typeid[0]就是我们要找的分类号了。接下来就是构造章节列表的地址了：$chapterurl = http://www.86zw.com/Html/Book/.$typeid[0]/$_POST[‘number’]/List.shtm。有了这个就能找到每一章节的地址了。方法如下：

$ustart = "\"";
$uend
= "\"";
//t表示title的缩写
$tstart = ">";
$tend
= "<";
//取路径,例如:123.shtm,2342.shtm,233.shtm
preg_match_all("/\"[0-9]{1,}\.(shtm)\"/is",$chapterurl,$url);
//取标题,例如:第一章九世善人
preg_match_all("/<a href=\"[0-9]{1,}\.shtm\"(.*?)\<\/a>/is",$file,$title);
$count = count($url[0]);
for($i=0;$i<=$count;$i++)
{
$u = cut($url[0][$i],$ustart,$uend);
$t = cut($title[0][$i],$tstart,$tend);
$array[$u] = $t;
}

$array数组就是所有的章节地址了，到这里，采集器就完成一半了，剩下的就是循环打开每个章节地址，读取，然后将内容匹配出来。这个比较简单，这里就不详细叙述了。好了，今天就先写到这吧，第一次写这么长的文章，语言组织方面难免有问题，还请大家多包涵！:lol

复制PHP内容到剪贴板

PHP代码:

function cut($string,$start,$end){
$message = explode($start,$string);
$message = explode($end,$message[1

{{cmoun}}人已赞

评论 {{userinfo.comments}}

{{c.nickname}}
{{c.create_time}}

{{c.content}}

点赞已赞 ({{c.count_praise}}) 回复({{c.count_reply}})

{{child.nickname}}
{{child.create_time}}

{{child.content}}

查看全部评论

{{money}}元

A {{question.A}}

B {{question.B}}

C {{question.C}}

D {{question.D}}

提交

专题更多

2024年度中兴通讯云网生态峰会

聚焦315提振消费信心专题报道

PHP简单采集器制作

PHP代码:

{{c.nickname}} {{c.create_time}}

{{child.nickname}} {{child.create_time}}

11000mAh电池+10000nits高亮屏，“耐用神机”荣耀X80 Pro Max发布

别了，摩尔定律！华为“韬定律”如何改写全球半导体的未来

比亚迪发布国产首款4nm智驾芯片“璇玑A3” 实现辅助驾驶全链路可控

旗舰性能 直上青云！iQOO15T 3799元起正式发布

昨夜今晨：联讯仪器股价超越贵州茅台成为A股新股王 腾讯音乐完成对喜马拉雅收购

11000mAh电池+10000nits高亮屏，“耐用神机”荣耀X80 Pro Max发布

旗舰性能 直上青云！iQOO15T 3799元起正式发布

苹果首款折叠屏iPhone曝光：仅售两款低调配色，定价或14999元起

REDMI K90 Max 测评：风冷散热的“全能选手” 重新定义游戏旗舰天花板

一加 15T 售价 4299 元起，性能续航超越大屏，旗舰体验完胜小屏

618扫地机市场再升温：石头P20 Max把技术做进真实家务里

国产电视彻底主导国内市场，三星索尼等外资品牌份额跌破3%

2026洗地机选购终极答案：为什么说石头是首选？

TCL发布会解析：Q9M Pro领衔，T7M系列双星登场，163吋Micro LED双曜压轴

石头A30 Pro Steam 2.0深度评测：180℃超能蒸汽双效洗地，让清洁回归本质

双积分双榜单登顶！比亚迪以长期主义领跑汽车产业低碳转型

双11华为笔记本怎么买？一篇看懂各款特点与超值优惠

性能、续航、AI都有料！Hi MateBook D 16真实使用体验分享

荣耀新突破：挑战极限！即将发布重量不足980克的超级轻薄笔记本

苹果Vision Pro国行版开启预购，1TB版售价32999起

抖音上线电影评分功能 多部热映影片均低于及格线

黄仁勋央视猛夸华为、小米、DeepSeek等：我不是尬吹 中国是真强

直播电商：抖音、快手、视频号上演“刀光剑影”

小熊电器一季报业绩下滑：短期承压明显，销售费用再创新高

第四范式亏损有所收窄：短期股价大跌，客户高黏性被机构看好

春水堂发布1.5万元级伴侣机器人：全本地运算保隐私，8月开启批量交付

ISC.AI 2026在京开幕：智能体时代安全治理从共识走向行动

ISC.AI 2026开幕：周鸿祎呼吁打造中国版AI安全大杀器，应对智能体时代安全挑战

小米公布 MiMo Orbit 计划进展：已累计送出近 80 万亿 Token

苹果AI耳机或“难产”：隐私合规成最大拦路虎

奥运观赛AI新体验！通义App上线“赛事百事通”等多款新功能

云计算首次超越卫星！超三分之二奥运直播信号基于阿里云向全球分发

国际奥委会主席巴赫：阿里AI技术将巴黎奥运转播带到新高度

“崩”了的阿里云，能靠AI带动增长？

芯片生产，磨难重重

岚图梦想家9申报图曝光，首款带升降立标的MPV

小米汽车官宣第二产品系列“小米澎程”：定位智能可变大空间SUV

比亚迪第1700万辆新能源汽车下线，海豹08重塑大型旗舰家轿价值标杆

雷军：快了！小米首款增程大SUV官宣SkyNomad，中文名或为“澎程”！

驰援广西灾区，比亚迪慈善基金会捐赠1000万元

云计算迎变局：阿里云、腾讯云“各有千秋”

Sora正在颠覆游戏行业，CEO们该怎么应对？

处置1.9万个账号和240万条视频，抖音治理不实信息这一年

道总有理：苹果其实不想成为全球第一

抛开大模型故事，阿里、抖音、京东都在攻坚AI电商哪个方向？

西北工业大学研究团队模仿萤火虫通信机制 实现无人机光链路协同飞行

价格才不是小米汽车的最大“杀器”

懂车帝与车企争论的背后，新能源测试标准何时迎来终局？

惨！判赔10亿巨款，阿里卸下包袱重新出发

立讯收购Qorvo中国工厂的幕后推手

专题 更多

驱动号 更多

{{c.nickname}}
{{c.create_time}}

{{child.nickname}}
{{child.create_time}}

旗舰性能直上青云！iQOO15T 3799元起正式发布

昨夜今晨：联讯仪器股价超越贵州茅台成为A股新股王腾讯音乐完成对喜马拉雅收购

旗舰性能直上青云！iQOO15T 3799元起正式发布

抖音上线电影评分功能多部热映影片均低于及格线

黄仁勋央视猛夸华为、小米、DeepSeek等：我不是尬吹中国是真强

西北工业大学研究团队模仿萤火虫通信机制实现无人机光链路协同飞行

专题更多

驱动号更多