Python3爬蟲(chóng)學(xué)習(xí)之應(yīng)對(duì)網(wǎng)站反爬蟲(chóng)機(jī)制的方法分析-創(chuàng)新互聯(lián)-四川平武建站

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案

Python3爬蟲(chóng)學(xué)習(xí)之應(yīng)對(duì)網(wǎng)站反爬蟲(chóng)機(jī)制的方法分析-創(chuàng)新互聯(lián)

本文實(shí)例講述了Python3爬蟲(chóng)學(xué)習(xí)之應(yīng)對(duì)網(wǎng)站反爬蟲(chóng)機(jī)制的方法。分享給大家供大家參考，具體如下：

目前成都創(chuàng)新互聯(lián)已為成百上千家的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)站空間、成都網(wǎng)站托管、企業(yè)網(wǎng)站設(shè)計(jì)、平昌網(wǎng)站維護(hù)等服務(wù)，公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略，正道將秉承"和諧、參與、激情"的文化，與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng)，共同發(fā)展。

如何應(yīng)對(duì)網(wǎng)站的反爬蟲(chóng)機(jī)制

在訪問(wèn)某些網(wǎng)站的時(shí)候，網(wǎng)站通常會(huì)用判斷訪問(wèn)是否帶有頭文件來(lái)鑒別該訪問(wèn)是否為爬蟲(chóng)，用來(lái)作為反爬取的一種策略。

例如打開(kāi)搜狐首頁(yè)，先來(lái)看一下Chrome的頭信息（F12打開(kāi)開(kāi)發(fā)者模式）如下：

Python3爬蟲(chóng)學(xué)習(xí)之應(yīng)對(duì)網(wǎng)站反爬蟲(chóng)機(jī)制的方法分析

如圖，訪問(wèn)頭信息中顯示了瀏覽器以及系統(tǒng)的信息（headers所含信息眾多，具體可自行查詢）

Python中urllib中的request模塊提供了模擬瀏覽器訪問(wèn)的功能，代碼如下：

from urllib import request
url = 'http://www.baidu.com'
# page = request.Request(url)
# page.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url, headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')
print(page_info)

當(dāng)前題目：Python3爬蟲(chóng)學(xué)習(xí)之應(yīng)對(duì)網(wǎng)站反爬蟲(chóng)機(jī)制的方法分析-創(chuàng)新互聯(lián)
文章網(wǎng)址：http://ef60e0e.cn/article/csddee.html

99热在线精品一区二区三区_国产伦精品一区二区三区女破破_亚洲一区二区三区无码_精品国产欧美日韩另类一区

新聞中心

其他資訊