爬取異步請求(XHR/JS)數據方法

概述

之前在做爬蟲的時候,比如在爬取到https://www.1688.com/spm=a261p.8650866.0.0.2dfa36c3tjLrCQ網頁的時候,發現很多內容明明在瀏覽器看得見,但是請求下來的內容卻沒有,于是打開F12查看Network發現,如下:

從這里我們就可以清楚的在xhr返回的header里面看到異步請求的url,這里我們直接訪問該url(或者在preview里面可以看到返回的數據)可以看到返回的數據就是需要數據,也就是我們要爬的數據。接下來就是進行url格式分析,一般都會有規律可循。

問題窺探

其實會出現看得見,摸不著的情況下是因為網頁的數據是異步加載的,所以在http抓到的網頁是不包含在里面的。網頁有些數據呈現是采非同步方式,會是在背景去送httprequest取得,再用ajax或其他把數據回填到網頁上,這部分可以在F12的這里找找看可能會有數據,取不到數據有可能是他網頁有作多次來回運算,才會呈現最終畫面,可以從F12的Status Code看有沒有redirect相關(ex 307)。

解決辦法

如果單純用console httprequest比較難(可能背后網頁依賴瀏覽器的東西很多) 可以考慮用driver開啟網頁,并用Selenium套件操控driver。會省了很多破解時間。

詳細方法見:

免責聲明:本文僅代表文章作者的個人觀點,與本站無關。其原創性、真實性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容文字的真實性、完整性和原創性本站不作任何保證或承諾,請讀者僅作參考,并自行核實相關內容。

http://image99.pinlue.com/thumb/img_jpg/ia9mEhlib6icjQ2weLfxSok2fibQzOYpPBQB2j9slvoiaL5FLSKCt2iaL31icKkOrLibyFibGTOtADNNVzaBw1ef9bljMtQ/0.jpeg
分享
評論
首頁
在线毛片片免费观看_免费一看一级毛片_亚洲五月综合自拍区_亚洲avav天堂av在线网 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>