php通过正则提取页面指定内容实例

作者：袖梨 2022-06-25

例子代码如下，可常用于采集哦、

代码如下

复制代码

1、获取页面标题

//提取标题
preg_match('/(?<title>.*?)<＼/title>/i', $html, $titleArr);<br /> $title = $titleArr['title'];<br /> 2、获取body主体内容，并将背景图片提取出来替换成其他图片地址</p> <p>/**<br /> * 获取BODY主体区域内容<br /> * @param $html<br /> * @param $urlRoot<br /> * @return mixed<br /> */<br /> function getBody($html,$urlRoot = null){<br /> //提取BODY主体<br /> preg_match('/(.*?)/is ', $html, $bodyArr);<br /> if(!$bodyArr){<br /> preg_match('/<body.*?>(.*?)<＼/body>/is ', $html, $bodyArr);<br /> }<br /> $body = $bodyArr[1];<br /> //替换img文件<br /> $body = preg_replace('/(<[img|IMG].*src=[＼'|"])(＼.＼.＼/)*(img.[^＼'||^"]+)/',"$1$urlRoot$3",$body);<br /> //替换html文件内的css背景图片<br /> $body = preg_replace('~＼b(background(-image)?＼s*:(.*?)＼(＼s*[＼'|"]?)(＼.＼.＼/)*(img.*?)?＼s*＼)~i',"$1$urlRoot$5)",$body);<br /> return $body;<br /> }<br /> 3、提取页面Description内容</p> <p>function getDescription($html){<br /> // Get the 'content' attribute value in a <meta name="description" ... /><br /> $matches = array();<br /> <br /> // Search for <meta name="description" content="Buy my stuff" /><br /> preg_match('/<meta.*?name=("|＼')description("|＼').*?content=("|＼')(.*?)("|＼')/i', $html, $matches);<br /> if (count($matches) > 4) {<br /> return trim($matches[4]);<br /> }<br /> <br /> // Order of attributes could be swapped around: <meta content="Buy my stuff" name="description" /><br /> preg_match('/<meta.*?content=("|＼')(.*?)("|＼').*?name=("|＼')description("|＼')/i', $html, $matches);<br /> if (count($matches) > 2) {<br /> return trim($matches[2]);<br /> }<br /> <br /> // No match<br /> return null;<br /> }<br /> 4、替换css文件的背景图片地址</p> <p>/**<br /> * 获取CSS内容<br /> * @param $cssCnt<br /> * @param $urlRoot<br /> * @return mixed<br /> */<br /> function getCss($cssCnt,$urlRoot =null){<br /> //匹配包含 img文件夹的相对路径图片（含义绝对路径的不包含在其中）<br /> //匹配替换不一定准确，因为只是将含义 ../ 的地址转为url 而没有考虑 ../../ 之类的层级关系<br /> $css = preg_replace('~＼b(background(-image)?＼s*:(.*?)＼(＼s*[＼'|"]?)(＼.＼.＼/)*(img.*?)?＼s*＼)~i',"$1$urlRoot$5)",$cssCnt);<br /> //添加css前缀<br /> $css = preg_replace('/＼b.(.*?)[,|{]/',"pat .$0",$cssCnt);<br /> //TODO 压缩css<br /> return $css;<br /> }</p> <p><br /> </p> </td> </tr> </table> <p>从上面例子来看其实都是非常的简单就是批有规律的标签为开始与结束节点，这样我们可以获取这两个字符之类的内容也就是我们要提取的内容了哦，只是在中间有字符或空格的一些处理了哦。</p></td> </tr> </table> </div> </div> </section> <section class="wrap-box"> <div class="g-tit"> <h2>相关文章</h2> </div> <ul class="s-list nobord notop"> <li> <a href="/art-506715.htm" class="s-card"> <div class="s-card-l"> <p class="tit">jk漫画app-禁漫天堂最新入口</p> <div class="info"> <span class="person">游戏攻略</span> <span class="time">2026-01-25</span> </div> </div> <div class="s-card-pic"> <img src="/images/lazy.gif" data-src="/uploads/20260125/logo_69761122cae891.jpeg" alt="jk漫画app-禁漫天堂最新入口" /> </div> </a> </li> <li> <a href="/art-506712.htm" class="s-card"> <div class="s-card-l"> <p class="tit">免费ppt成品网站直播推荐-最新ppt成品网站免费大全2026</p> <div class="info"> <span class="person">游戏攻略</span> <span class="time">2026-01-25</span> </div> </div> <div class="s-card-pic"> <img src="/images/lazy.gif" data-src="/uploads/20260125/logo_69760d57bc1ca1.jpeg" alt="免费ppt成品网站直播推荐-最新ppt成品网站免费大全2026" /> </div> </a> </li> <li> <a href="/art-506713.htm" class="s-card"> <div class="s-card-l"> <p class="tit">huaweicloud登录入口-2026华为云官网最新登录地址一键直达</p> <div class="info"> <span class="person">游戏攻略</span> <span class="time">2026-01-25</span> </div> </div> <div class="s-card-pic"> <img src="/images/lazy.gif" data-src="/uploads/20260125/logo_69760d9fc99411.png" alt="huaweicloud登录入口-2026华为云官网最新登录地址一键直达" /> </div> </a> </li> <li> <a href="/art-506711.htm" class="s-card"> <div class="s-card-l"> <p class="tit">CrazyGames官网打开即玩最新版本下载-CrazyGames打开即玩安卓手机版下载</p> <div class="info"> <span class="person">游戏攻略</span> <span class="time">2026-01-25</span> </div> </div> <div class="s-card-pic"> <img src="/images/lazy.gif" data-src="/uploads/20260125/logo_69760b808f9261.png" alt="CrazyGames官网打开即玩最新版本下载-CrazyGames打开即玩安卓手机版下载" /> </div> </a> </li> <li> <a href="/art-506710.htm" class="s-card"> <div class="s-card-l"> <p class="tit">哔哩哔哩漫画网页版入口-哔哩哔哩漫画官方在线阅读</p> <div class="info"> <span class="person">游戏攻略</span> <span class="time">2026-01-25</span> </div> </div> <div class="s-card-pic"> <img src="/images/lazy.gif" data-src="/uploads/20260125/logo_697609a4e09411.png" alt="哔哩哔哩漫画网页版入口-哔哩哔哩漫画官方在线阅读" /> </div> </a> </li> <li> <a href="/art-506709.htm" class="s-card"> <div class="s-card-l"> <p class="tit">歪歪漫画秋蝉入口-秋蝉漫画免费下拉式阅读网址</p> <div class="info"> <span class="person">游戏攻略</span> <span class="time">2026-01-25</span> </div> </div> <div class="s-card-pic"> <img src="/images/lazy.gif" data-src="/uploads/20260125/logo_697607b5598b01.jpg" alt="歪歪漫画秋蝉入口-秋蝉漫画免费下拉式阅读网址" /> </div> </a> </li> </ul> </section> <section class="wrap-box"> <div class="g-tit"> <h2>精彩推荐</h2> </div> <ul class="card-box"> <li class="card3"> <a href="/app/147375.htm" target="_self" class="figure"> <div class="figure-box"> <img src="/images/lazy.gif" data-src="https://img.111cn.net/uploads/20260104/logo_6959be986d4991.png" alt="僵尸前线3D" /> </div> <p class="figure-head">僵尸前线3D</p> <span class="figure-btn">下载</span> </a> </li> <li class="card3"> <a href="/app/147418.htm" target="_self" class="figure"> <div class="figure-box"> <img src="/images/lazy.gif" data-src="https://img.111cn.net/uploads/20260104/logo_6959bee634b781.jpg" alt="我的勇者qq版" /> </div> <p class="figure-head">我的勇者qq版</p> <span class="figure-btn">下载</span> </a> </li> <li class="card3"> <a href="/app/147430.htm" target="_self" class="figure"> <div class="figure-box"> <img src="/images/lazy.gif" data-src="https://img.111cn.net/uploads/20260104/logo_6959befc267611.png" alt="巅峰骑士团蔷薇版最新版" /> </div> <p class="figure-head">巅峰骑士团蔷薇版最新版</p> <span class="figure-btn">下载</span> </a> </li> <li class="card3"> <a href="/app/147399.htm" target="_self" class="figure"> <div class="figure-box"> <img src="/images/lazy.gif" data-src="https://img.111cn.net/uploads/20260104/logo_6959bec1cad9a1.png" alt="封神幻想世界" /> </div> <p class="figure-head">封神幻想世界</p> <span class="figure-btn">下载</span> </a> </li> </ul> <ul class="card-box-b"> <li class="card10"> <a href="/app/147367.htm" target="_self" class="figure2"> <div class="figure-box"> <img src="/images/lazy.gif" data-src="https://img.111cn.net/uploads/20260104/logo_6959be8b378ec1.png" alt="家国梦" /> </div> <div class="figure-cont"> <p class="figure-head">家国梦</p> <div class="figure-desc"> <span>模拟经营</span> <span>家国梦</span> </div> <div class="figure-desc"> <p>家国梦带你走进一个充满挑战与机遇的世界，在这里你不仅可以建设</p> </div> </div> <span class="figure-btn">下载</span> </a> </li> <li class="card10"> <a href="/app/147371.htm" target="_self" class="figure2"> <div class="figure-box"> <img src="/images/lazy.gif" data-src="https://img.111cn.net/uploads/20260104/logo_6959be90ed31d1.png" alt="舌尖上的小镇" /> </div> <div class="figure-cont"> <p class="figure-head">舌尖上的小镇</p> <div class="figure-desc"> <span>模拟经营</span> <span>舌尖上的小镇</span> </div> <div class="figure-desc"> <p>舌尖上的小镇里，美食就是财富，种植食材，研发菜谱，打造人气餐</p> </div> </div> <span class="figure-btn">下载</span> </a> </li> <li class="card10"> <a href="/app/147395.htm" target="_self" class="figure2"> <div class="figure-box"> <img src="/images/lazy.gif" data-src="https://img.111cn.net/uploads/20260104/logo_6959bebae7b1f1.png" alt="爱玛大冒险" /> </div> <div class="figure-cont"> <p class="figure-head">爱玛大冒险</p> <div class="figure-desc"> <span>模拟经营</span> <span>爱玛大冒险</span> </div> <div class="figure-desc"> <p>爱玛大冒险带你进入一个充满奇幻和冒险的世界，玩家将在多个独特</p> </div> </div> <span class="figure-btn">下载</span> </a> </li> <li class="card10"> <a href="/app/147412.htm" target="_self" class="figure2"> <div class="figure-box"> <img src="/images/lazy.gif" data-src="https://img.111cn.net/uploads/20260104/logo_6959bed7047321.png" alt="以闪亮之名手游" /> </div> <div class="figure-cont"> <p class="figure-head">以闪亮之名手游</p> <div class="figure-desc"> <span>模拟经营</span> <span>以闪亮之名手游</span> </div> <div class="figure-desc"> <p>以闪亮之名手游是一款非常好玩的经营类型的手游，玩家游戏中可以</p> </div> </div> <span class="figure-btn">下载</span> </a> </li> <li class="card10"> <a href="/app/147413.htm" target="_self" class="figure2"> <div class="figure-box"> <img src="/images/lazy.gif" data-src="https://img.111cn.net/uploads/20260104/logo_6959bed89b37b1.png" alt="光与夜之恋" /> </div> <div class="figure-cont"> <p class="figure-head">光与夜之恋</p> <div class="figure-desc"> <span>模拟经营</span> <span>光与夜之恋</span> </div> <div class="figure-desc"> <p>光与夜之恋让玩家能够无需下载超大的游戏安装包也可以畅玩光与夜</p> </div> </div> <span class="figure-btn">下载</span> </a> </li> </ul> </section> <footer class="foot"> <a href="/" class="logo-icon"> <img src="/mobile/images/logo2.png" alt="一聚教程网"> </a> <p>Copyright © 2010-2022</p> <p>111cn.net All Rights Reserved</p> </footer> <script> var advData = {"img_fixed_pc_adv":"https:\/\/img.111cn.net\/uploads\/20240509\/663c2e9729f58.jpg","img_fixed_mob_adv":"https:\/\/img.111cn.net\/uploads\/20240509\/663c2e8793225.jpg","url_adv":"http:\/\/shop.hushen.cn\/shop\/c\/baojianpin.html","str_adv":"\u864e\u795e\u5546\u57ce\uff1a\u5173\u7231\u7537\u6027\uff0c\u66f4\u61c2\u7537\u4eba\u3002\u89e3\u51b3\u5927\u4f17\u7684\u7537\u8a00\u4e4b\u9690","img_popup_adv":"https:\/\/img.111cn.net\/uploads\/20240509\/663c2e748238d.png","pc_show_img":"2","pc_show_popup":"2","pc_show_video":"2","mob_show_img":"2","mob_show_popup":"2","mob_show_video":"2","close_adv":"https:\/\/img.111cn.net\/uploads\/20240508\/663b20650801e.png","video_adv":"\/pc\/images\/pc-adv.mp4"}; </script> <script src="/jspc/funcmob.js" type="text/javascript"></script>  <script async src="https://www.googletagmanager.com/gtag/js?id=G-DSRRGRV1TL"></script> <script> window.dataLayer = window.dataLayer || []; function gtag(){dataLayer.push(arguments);} gtag('js', new Date()); gtag('config', 'G-DSRRGRV1TL'); </script> <div class="back-top" style="display: block;"> <span class="icon-box"> <svg class="icon" viewBox="0 0 1024 1024"> <path d="M213.333333 640h170.666667v256h256v-256h170.666667l-298.666667-341.333333zM170.666667 128h682.666666v85.333333H170.666667z" fill="#0374f3"></path> </svg> </span> </div> </div> <script src="/js/stat.js"></script> </body> </html>