你是想抓別人網(wǎng)頁(yè)上ajax動(dòng)態(tài)載入的數(shù)據(jù)吧?
二道網(wǎng)站建設(shè)公司成都創(chuàng)新互聯(lián)公司,二道網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為二道上千提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\成都外貿(mào)網(wǎng)站建設(shè)公司要多少錢,請(qǐng)找那個(gè)售后服務(wù)好的二道做網(wǎng)站的公司定做!
1、要找到它的ajax載入的URL地址
2、利用PHP的file_get_contents($url)函數(shù)讀取那個(gè)url地址。
3、對(duì)抓取到的內(nèi)容進(jìn)行分析或正則過(guò)濾。
$url = "網(wǎng)站地址目錄";
$queryServer = curl_init();
curl_setopt($queryServer, CURLOPT_URL, $url);
curl_setopt($queryServer, CURLOPT_HEADER, 0);
curl_setopt($queryServer, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($queryServer, CURLOPT_RETURNTRANSFER, true);
curl_setopt($queryServer, CURLOPT_CONNECTTIMEOUT, 10);
curl_setopt($queryServer, CURLOPT_TIMEOUT, 30);
$html = curl_exec($queryServer);
$html = iconv('UTF-8','GBK//IGNORE',$html); //如果你需要是的數(shù)據(jù)是utf-8編碼的,這一行可以注銷,如果需要gbk編碼的,請(qǐng)保留.如果出現(xiàn)亂碼,就是一行的問(wèn)題,你自己調(diào)著試吧
//echo $holder;exit; 此處可以輸出來(lái)測(cè)試.
$html = str_replace(array("\n","\r","\t"),"",$html);
$preg = '/table\s+width=\"800\"[^]+(.*?)\/table/';
preg_match_all($preg,$html,$out);
//匹配每行
preg_match_all('/tr[^]+(.*?)\/tr/',$out[1][0],$tr);
//匹配每個(gè)td
$result = array();
$match = '/td.+([^]+)\/td/U';
foreach( $tr[0] as $key = $value ){
preg_match_all($match,$value,$arr);
$result[] = $arr[1];
}
//輸出測(cè)試,$result就是你要的數(shù)據(jù),至于你要怎么輸出顯示格式,那就隨心調(diào)就好了。
foreach( $result as $key = $value ){
echo implode("\t",$value);
echo "br";
}
exit;
剛吃完午飯吧,來(lái)幫你實(shí)現(xiàn)一下吧。記得加分哦。
$url = "";
$queryServer = curl_init();
curl_setopt($queryServer, CURLOPT_URL, $url);
curl_setopt($queryServer, CURLOPT_HEADER, 0);
curl_setopt($queryServer, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($queryServer, CURLOPT_RETURNTRANSFER, true);
curl_setopt($queryServer, CURLOPT_CONNECTTIMEOUT, 10);
curl_setopt($queryServer, CURLOPT_TIMEOUT, 30);
$html = curl_exec($queryServer);
$html = iconv('UTF-8','GBK//IGNORE',$html); //如果你需要是的數(shù)據(jù)是utf-8編碼的,這一行可以注銷,如果需要gbk編碼的,請(qǐng)保留.如果出現(xiàn)亂碼,就是一行的問(wèn)題,你自己調(diào)著試吧
//echo $holder;exit; 此處可以輸出來(lái)測(cè)試.
$html = str_replace(array("\n","\r","\t"),"",$html);
$preg = '/table\s+width=\"800\"[^]+(.*?)\/table/';
preg_match_all($preg,$html,$out);
//匹配每行
preg_match_all('/tr[^]+(.*?)\/tr/',$out[1][0],$tr);
//匹配每個(gè)td
$result = array();
$match = '/td.+([^]+)\/td/U';
foreach( $tr[0] as $key = $value ){
preg_match_all($match,$value,$arr);
$result[] = $arr[1];
}
//輸出測(cè)試,$result就是你要的數(shù)據(jù),至于你要怎么輸出顯示格式,那就隨心調(diào)就好了。
foreach( $result as $key = $value ){
echo implode("\t",$value);
echo "br";
}
exit;
簡(jiǎn)單的分了幾個(gè)步驟:
1、確定采集目標(biāo)
2、獲取目標(biāo)遠(yuǎn)程頁(yè)面內(nèi)容(curl、file_get_contents)
3、分析頁(yè)面html源碼,正則匹配你需要的內(nèi)容(preg_match、preg_match_all),這一步最為重要,不同頁(yè)面正則匹配規(guī)則不一樣
4、入庫(kù)
這個(gè)需要配合js,打開(kāi)一個(gè)html頁(yè)面,首先js用ajax請(qǐng)求頁(yè)面,返回第一個(gè)頁(yè)面信息確定處理完畢(ajax有強(qiáng)制同步功能),ajax再訪問(wèn)第二個(gè)頁(yè)面。(或者根據(jù)服務(wù)器狀況,你可以同時(shí)提交幾個(gè)URL,跑幾個(gè)相同的頁(yè)面)
參數(shù)可以由js產(chǎn)生并傳遞url,php后臺(tái)頁(yè)面根據(jù)URL抓頁(yè)面。然后ajax通過(guò)php,在數(shù)據(jù)庫(kù)或者是哪里設(shè)一個(gè)標(biāo)量,標(biāo)明檢測(cè)到哪里。由于前臺(tái)的html頁(yè)面執(zhí)行多少時(shí)候都沒(méi)問(wèn)題,這樣php的內(nèi)存限制和執(zhí)行時(shí)間限制就解決了。
因?yàn)椴粫?huì)浪費(fèi)大量的資源用一個(gè)頁(yè)面來(lái)跑一個(gè)瞬間500次的for循環(huán)了。(你的500次for循環(huán)死了原因可能是獲取的數(shù)據(jù)太多,大過(guò)了php限制的內(nèi)存)
不過(guò)印象中curl好像也有強(qiáng)制同步的選項(xiàng),就是等待一個(gè)抓取后再執(zhí)行下一步。但是這個(gè)500次都是用一個(gè)頁(yè)面線程處理,也就是說(shuō)肯定會(huì)遠(yuǎn)遠(yuǎn)大于30秒的默認(rèn)執(zhí)行時(shí)間。
以前我用過(guò)querylist插件抓數(shù)據(jù),服務(wù)器寫和定時(shí)器,每天固定時(shí)間去運(yùn)行腳本。朝這個(gè)方式試試
高并發(fā)下數(shù)據(jù)的更新,應(yīng)該 update table xxx set num = num - 1 的方式,這種方式可以保證數(shù)據(jù)的正確性。
但是會(huì)出現(xiàn) num 為負(fù)數(shù)的問(wèn)題,如果庫(kù)存為負(fù)數(shù),顯然是不合理的。
于是,需要將 num 字段設(shè)置為 無(wú)符號(hào)整型,這樣就不會(huì)出現(xiàn)負(fù)數(shù)了,因?yàn)椋绻麥p到負(fù)數(shù),就會(huì)更新失敗。
但是這種依然會(huì)造成很多無(wú)用的更新語(yǔ)句的執(zhí)行,是不合理的。
于是,update table xxx set num = num - 1 where num 0,
這樣當(dāng) num 等于0之后就不會(huì)去更新數(shù)據(jù)庫(kù)了,減少了很多無(wú)用的開(kāi)銷。
這種方式被稱作“樂(lè)觀鎖”
此外,對(duì)于搶紅包這種非整數(shù)的操作,我們應(yīng)該轉(zhuǎn)換為整數(shù)的操作。
關(guān)于搶購(gòu)超賣的控制
一般搶購(gòu)功能是一個(gè)相對(duì)于正常售賣系統(tǒng)來(lái)說(shuō)獨(dú)立的子系統(tǒng),這樣既可以防止搶購(gòu)時(shí)的高并發(fā)影響到正常系統(tǒng),
也可以做到針對(duì)于搶購(gòu)業(yè)務(wù)的特殊處理。
在后臺(tái)設(shè)計(jì)一些功能,可以就昂正常的商品加入到搶購(gòu)活動(dòng)中并編輯成為搶購(gòu)商品,寫入到搶購(gòu)商品表,當(dāng)然
也可以把搶購(gòu)商品表寫入redis而不是數(shù)據(jù)表。并且在原商品表寫入一個(gè)同樣的商品(id相同,用于訂單查看,
此商品不可購(gòu)買)
如果是數(shù)據(jù)表,為了控制超賣,需要對(duì)表進(jìn)行行鎖,更新的時(shí)候帶上 where goods_amount 0。
如果是redis,使用 hincrby 一個(gè)負(fù)數(shù)來(lái)減庫(kù)存,并且 hincrby 會(huì)返回改變后的值,再來(lái)判斷返回值是否大于0,
因?yàn)閞edis每個(gè)命令都是原子性的,這樣不用鎖表就可控制超賣。
新聞標(biāo)題:php抓取網(wǎng)站大量數(shù)據(jù),php抓取網(wǎng)站大量數(shù)據(jù)的方法
文章路徑:http://www.chinadenli.net/article12/heipgc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供響應(yīng)式網(wǎng)站、網(wǎng)站設(shè)計(jì)、移動(dòng)網(wǎng)站建設(shè)、微信小程序、ChatGPT、營(yíng)銷型網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)