<?php header("Content-Type: text/html; charset=UTF-8"); require("phpQuery.php"); $hj = QueryList::Query('http://mobile.csdn.net/',array("title"=>array('.unit h1','text'))); //dump($hj->data); $data = QueryList::Query('http://cms.querylist.cc/bizhi/453.html',array( 'image' => array('img','src') ))->data; // $data = QueryList::Query('http://cms.querylist.cc/google/list_1.html',array( 'link' => array('a','href') ))->data; $page = 'http://cms.querylist.cc/news/566.html'; $reg = array( 'title' => array('h1','text'), 'date' => array('.pt_info','text','-span -a',function($content){ $arr = explode(' ',$content); return $arr[0]; }), 'content' => array('.post_content','html','a -.content_copyright -script',function($content){ $doc = phpQuery::newDocumentHTML($content); $imgs = pq($doc)->find('img'); foreach ($imgs as $img) { $src = 'http://cms.querylist.cc'.pq($img)->attr('src'); $localSrc = 'w/'.md5($src).'.jpg'; $stream = file_get_contents($src); file_put_contents($localSrc,$stream); pq($img)->attr('src',$localSrc); } return $doc->htmlOuter(); }) ); $rang = '.content'; $ql = QueryList::Query($page,$reg,$rang); $data = $ql->getData(); dump($data);
支援抓取網(wǎng)站,進(jìn)行爬蟲(chóng),非常強(qiáng)大,是一個(gè)基於PHP的服務(wù)端開(kāi)源項(xiàng)目,它可以讓PHP開(kāi)發(fā)人員輕鬆處理DOM文檔內(nèi)容,例如獲取某新聞網(wǎng)站的頭條信息。更有趣的是,它採(cǎi)用了jQuery的思想,你可以像使用jQuery一樣處理頁(yè)面內(nèi)容,獲得你想要的頁(yè)面資訊。
本站所有資源皆由網(wǎng)友貢獻(xiàn)或各大下載網(wǎng)站轉(zhuǎn)載。請(qǐng)自行檢查軟體的完整性!本站所有資源僅供學(xué)習(xí)參考。請(qǐng)不要將它們用於商業(yè)目的。否則,一切後果都由您負(fù)責(zé)!如有侵權(quán),請(qǐng)聯(lián)絡(luò)我們刪除。聯(lián)絡(luò)方式:admin@php.cn
相關(guān)文章

18 Dec 2024
從 PHP 中的其他類別存取 MySQLi 連線從 PHP 5.6 升級(jí)到 7.0 時(shí),必須從 MySQL 過(guò)渡到 MySQLi。這...

24 Dec 2024
了解 Python 類別繼承在 Python 中,類別可以從其他類別繼承,這使它們能夠存取父類別的屬性並...

18 Aug 2025
本文旨在解決在使用 PHP Simple HTML DOM 庫(kù)抓取啟用了 WordPress 內(nèi)部緩存的網(wǎng)站時(shí),遇到的返回亂碼問(wèn)題。通過(guò)使用 cURL 並設(shè)置 CURLOPT_ACCEPT_ENCODING 選項(xiàng),或使用 gzdecode() 函數(shù),可以有效解決首次抓取正常,後續(xù)抓取出現(xiàn)亂碼的情況,確保數(shù)據(jù)抓取的準(zhǔn)確性。

16 Aug 2025
本文針對(duì)使用 PHP Simple HTML DOM 庫(kù)抓取開(kāi)啟緩存的網(wǎng)站時(shí),出現(xiàn)首次抓取正常,後續(xù)抓取返回亂碼的問(wèn)題,提供了一種基於 cURL 並設(shè)置 CURLOPT_ACCEPT_ENCODING 的解決方案,以及使用 gzdecode() 函數(shù)進(jìn)行解碼的思路,幫助開(kāi)發(fā)者解決類似問(wèn)題。

05 Dec 2024
在 Linux 上建立和使用動(dòng)態(tài)共用 C 類別庫(kù)建立共用類別庫(kù)要建立共用 C 類別庫(kù),您可以依照...

03 Jan 2025
了解欄位初始化問(wèn)題在您的程式碼中,您有一個(gè)儲(chǔ)存庫(kù)類別 (DinnerRepository) 和一個(gè)服務(wù)類別 (Service),它使用...


熱門工具標(biāo)籤

熱工具

依賴注入容器的PHP庫(kù)
依賴注入容器的PHP庫(kù)

50個(gè)優(yōu)秀經(jīng)典PHP演算法大集合
經(jīng)典PHP演算法,學(xué)習(xí)優(yōu)秀的想法 , 開(kāi)拓思維

小巧的最佳化圖片的PHP庫(kù)
小巧的最佳化圖片的PHP庫(kù)
