1. <ul id="0c1fb"></ul>

      <noscript id="0c1fb"><video id="0c1fb"></video></noscript>
      <noscript id="0c1fb"><listing id="0c1fb"><thead id="0c1fb"></thead></listing></noscript>

      99热在线精品一区二区三区_国产伦精品一区二区三区女破破_亚洲一区二区三区无码_精品国产欧美日韩另类一区

      RELATEED CONSULTING
      相關(guān)咨詢
      選擇下列產(chǎn)品馬上在線溝通
      服務(wù)時(shí)間:8:30-17:00
      你可能遇到了下面的問(wèn)題
      關(guān)閉右側(cè)工具欄

      新聞中心

      這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
      python常見(jiàn)的反爬措施分享

      本篇內(nèi)容介紹了“python常見(jiàn)的反爬措施分享”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

      創(chuàng)新互聯(lián)建站從2013年開始,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目成都網(wǎng)站設(shè)計(jì)、網(wǎng)站建設(shè)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命,1280元興安盟做網(wǎng)站,已為上家服務(wù),為興安盟各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:18982081108


      一、反爬技術(shù)Headers:


      從用戶的Headers進(jìn)行反爬是最常見(jiàn)的反爬蟲策略。Headers(上一講中已經(jīng)提及)是一種區(qū)分瀏覽器行為和機(jī)器行為中最簡(jiǎn)單的方法,還有一些網(wǎng)站會(huì)對(duì)Referer(上級(jí)鏈接)進(jìn)行檢測(cè)(機(jī)器行為不太可能通過(guò)鏈接跳轉(zhuǎn)實(shí)現(xiàn))從而實(shí)現(xiàn)爬蟲。


      相應(yīng)的解決措施:通過(guò)審查元素或者開發(fā)者工具獲取相應(yīng)的Headers然后把相應(yīng)的Headers傳輸給python的requests,這樣就能很好地繞過(guò)。


      二、反爬技術(shù)IP限制


      一些網(wǎng)站會(huì)根據(jù)你的IP地址訪問(wèn)的頻率,次數(shù)進(jìn)行反爬。也就是說(shuō)如果你用單一的IP地址訪問(wèn)頻率過(guò)高,那么服務(wù)器會(huì)在短時(shí)間內(nèi)禁止這個(gè)IP訪問(wèn)。


      解決措施:構(gòu)造自己的IP代理池,然后每次訪問(wèn)時(shí)隨機(jī)選擇代理(但一些IP地址不是非常穩(wěn)定,需要經(jīng)常檢查更新)。


      三、反爬技術(shù)UA限制


      UA是用戶訪問(wèn)網(wǎng)站時(shí)候的瀏覽器標(biāo)識(shí),其反爬機(jī)制與ip限制類似。


      解決措施:構(gòu)造自己的UA池,每次python做requests訪問(wèn)時(shí)隨機(jī)掛上UA標(biāo)識(shí),更好地模擬瀏覽器行為。當(dāng)然如果反爬對(duì)時(shí)間還有限制的話,可以在requests設(shè)置timeout最好是隨機(jī)休眠,這樣會(huì)更安全穩(wěn)定,time.sleep()。


      四、反爬技術(shù)驗(yàn)證碼反爬蟲或者模擬登陸


      驗(yàn)證碼:這個(gè)辦法也是相當(dāng)古老并且相當(dāng)?shù)挠行Ч绻粋€(gè)爬蟲要解釋一個(gè)驗(yàn)證碼中的內(nèi)容,這在以前通過(guò)簡(jiǎn)單的圖像識(shí)別是可以完成的,但是就現(xiàn)在來(lái)講,驗(yàn)證碼的干擾線,噪點(diǎn)都很多,甚至還出現(xiàn)了人類都難以認(rèn)識(shí)的驗(yàn)證碼(~~~~~~~)。


      相應(yīng)的解決措施:驗(yàn)證碼識(shí)別的基本方法:截圖,二值化、中值濾波去噪、分割、緊縮重排(讓高矮統(tǒng)一)、字庫(kù)特征匹配識(shí)別。(python的PIL庫(kù)或者其他)模擬登陸(例如知乎等):用好pythonrequests中的session(下面幾行代碼實(shí)現(xiàn)了最簡(jiǎn)單的163郵箱的登陸,其實(shí)原理是類似的~~)。


      import requests
      s =requests.session()
      login_data={"account":" ","password":" "}
      res=s.post("http://mail.163.com/",login_data)


      五、反爬技術(shù)Ajax動(dòng)態(tài)加載


      網(wǎng)頁(yè)的不希望被爬蟲拿到的數(shù)據(jù)使用Ajax動(dòng)態(tài)加載,這樣就為爬蟲造成了絕大的麻煩,如果一個(gè)爬蟲不具備js引擎,或者具備js引擎,但是沒(méi)有處理js返回的方案,或者是具備了js引擎,但是沒(méi)辦法讓站點(diǎn)顯示啟用腳本設(shè)置?;谶@些情況,ajax動(dòng)態(tài)加載反制爬蟲還是相當(dāng)有效的。


      Ajax動(dòng)態(tài)加載的工作原理是:從網(wǎng)頁(yè)的url加載網(wǎng)頁(yè)的源代碼之后,會(huì)在瀏覽器里執(zhí)行JavaScript程序。這些程序會(huì)加載出更多的內(nèi)容,并把這些內(nèi)容傳輸?shù)骄W(wǎng)頁(yè)中。這就是為什么有些網(wǎng)頁(yè)直接爬它的URL時(shí)卻沒(méi)有數(shù)據(jù)的原因。


      處理方法:若使用審查元素分析”請(qǐng)求“對(duì)應(yīng)的鏈接(方法:右鍵→審查元素→Network→清空,點(diǎn)擊”加載更多“,出現(xiàn)對(duì)應(yīng)的GET鏈接尋找Type為text/html的,點(diǎn)擊,查看get參數(shù)或者復(fù)制RequestURL),循環(huán)過(guò)程。如果“請(qǐng)求”之前有頁(yè)面,依據(jù)上一步的網(wǎng)址進(jìn)行分析推導(dǎo)第1頁(yè)。以此類推,抓取抓Ajax地址的數(shù)據(jù)。對(duì)返回的json使用requests中的json進(jìn)行解析,使用eval()轉(zhuǎn)成字典處理(上一講中的fiddler可以格式化輸出json數(shù)據(jù)。


       六、反爬技術(shù)cookie限制


      一次打開網(wǎng)頁(yè)會(huì)生成一個(gè)隨機(jī)cookie,如果再次打開網(wǎng)頁(yè)這個(gè)cookie不存在,那么再次設(shè)置,第三次打開仍然不存在,這就非常有可能是爬蟲在工作了。


      解決措施:在Headers掛上相應(yīng)的cookie或者根據(jù)其方法進(jìn)行構(gòu)造(例如從中選取幾個(gè)字母進(jìn)行構(gòu)造)。如果過(guò)于復(fù)雜,可以考慮使用selenium模塊(可以完全模擬瀏覽器行為)。

      “python常見(jiàn)的反爬措施分享”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!


      網(wǎng)頁(yè)標(biāo)題:python常見(jiàn)的反爬措施分享
      鏈接URL:http://ef60e0e.cn/article/pogijh.html
      99热在线精品一区二区三区_国产伦精品一区二区三区女破破_亚洲一区二区三区无码_精品国产欧美日韩另类一区
      1. <ul id="0c1fb"></ul>

        <noscript id="0c1fb"><video id="0c1fb"></video></noscript>
        <noscript id="0c1fb"><listing id="0c1fb"><thead id="0c1fb"></thead></listing></noscript>

        观塘区| 阿拉善左旗| 富顺县| 新田县| 曲水县| 嘉义县| 阿勒泰市| 饶阳县| 宜州市| 绩溪县| 凭祥市| 资中县| 江孜县| 蓝山县| 大安市| 开鲁县| 墨江| 共和县| 昭觉县| 轮台县| 肥城市| 广平县| 舞阳县| 松江区| 原阳县| 迁西县| 盐边县| 宁明县| 阳信县| 平乐县| 丹棱县| 土默特左旗| 灌南县| 东乌| 灌南县| 和田市| 呼和浩特市| 朝阳县| 南乐县| 正阳县| 广灵县|