新聞中心
這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
Python3爬蟲(chóng)學(xué)習(xí)之應(yīng)對(duì)網(wǎng)站反爬蟲(chóng)機(jī)制的方法分析-創(chuàng)新互聯(lián)
本文實(shí)例講述了Python3爬蟲(chóng)學(xué)習(xí)之應(yīng)對(duì)網(wǎng)站反爬蟲(chóng)機(jī)制的方法。分享給大家供大家參考,具體如下:
目前成都創(chuàng)新互聯(lián)已為成百上千家的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)站空間、成都網(wǎng)站托管、企業(yè)網(wǎng)站設(shè)計(jì)、平昌網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng),共同發(fā)展。如何應(yīng)對(duì)網(wǎng)站的反爬蟲(chóng)機(jī)制
在訪問(wèn)某些網(wǎng)站的時(shí)候,網(wǎng)站通常會(huì)用判斷訪問(wèn)是否帶有頭文件來(lái)鑒別該訪問(wèn)是否為爬蟲(chóng),用來(lái)作為反爬取的一種策略。
例如打開(kāi)搜狐首頁(yè),先來(lái)看一下Chrome的頭信息(F12打開(kāi)開(kāi)發(fā)者模式)如下:
如圖,訪問(wèn)頭信息中顯示了瀏覽器以及系統(tǒng)的信息(headers所含信息眾多,具體可自行查詢)
Python中urllib中的request模塊提供了模擬瀏覽器訪問(wèn)的功能,代碼如下:
from urllib import request url = 'http://www.baidu.com' # page = request.Request(url) # page.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36') headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} page = request.Request(url, headers=headers) page_info = request.urlopen(page).read().decode('utf-8') print(page_info)
當(dāng)前題目:Python3爬蟲(chóng)學(xué)習(xí)之應(yīng)對(duì)網(wǎng)站反爬蟲(chóng)機(jī)制的方法分析-創(chuàng)新互聯(lián)
文章網(wǎng)址:http://ef60e0e.cn/article/csddee.html