1. <ul id="0c1fb"></ul>

      <noscript id="0c1fb"><video id="0c1fb"></video></noscript>
      <noscript id="0c1fb"><listing id="0c1fb"><thead id="0c1fb"></thead></listing></noscript>

      99热在线精品一区二区三区_国产伦精品一区二区三区女破破_亚洲一区二区三区无码_精品国产欧美日韩另类一区

      RELATEED CONSULTING
      相關咨詢
      選擇下列產品馬上在線溝通
      服務時間:8:30-17:00
      你可能遇到了下面的問題
      關閉右側工具欄

      新聞中心

      這里有您想知道的互聯(lián)網營銷解決方案
      ?Python爬蟲怎么實現(xiàn)url去重

      這篇文章主要介紹“Python爬蟲怎么實現(xiàn)url去重”,在日常操作中,相信很多人在Python爬蟲怎么實現(xiàn)url去重問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”Python爬蟲怎么實現(xiàn)url去重”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!

      成都創(chuàng)新互聯(lián)是一家專注于成都網站設計、網站建設與策劃設計,鄧州網站建設哪家好?成都創(chuàng)新互聯(lián)做網站,專注于網站建設10年,網設計領域的專業(yè)建站公司;建站業(yè)務涵蓋:鄧州等地區(qū)。鄧州做網站價格咨詢:18982081108

      一、前言

      Python爬蟲里url去重策略及實現(xiàn)。

      二、url去重及策略簡介

      1.url去重

      ????從字面上理解,url去重即去除重復的url,在爬蟲中就是去除已經爬取過的url,避免重復爬取,既影響爬蟲效率,又產生冗余數(shù)據(jù)。

      2.url去重策略

      ????從表面上看,url去重策略就是消除url重復的方法,常見的url去重策略有五種,如下:

      1# 1.將訪問過的ur保存到數(shù)據(jù)庫中
      2# 2.將訪問過的ur保存到set(集合)中,只需要o(1)的代價就可以查詢url
      3#       10000000*2byte*50個字符/1024/1024/1024=9G
      4# 3.url經過md5等方法哈希后保存到set中
      5# 4.用 bitmap方法,將訪問過的ur通過hash函數(shù)映射到某一位
      6# 5. bloomfilter方法對 bitmap進行改進,多重hash函數(shù)降低沖突

      三、看代碼,邊學邊敲邊記url去重策略

      1.將訪問過的ur保存到數(shù)據(jù)庫中(初學使用)

      實現(xiàn)起來最簡單,但效率最低。
      其核心思想是,把頁面上爬取到的每個url存儲到數(shù)據(jù)庫,為了避免重復,每次存儲前都要遍歷查詢數(shù)據(jù)庫中是否已經存在當前url(即是否已經爬取過了),若存在,則不保存,否則,保存當前url,繼續(xù)保存下一條,直至結束。

      2.將訪問過的ur保存到set內存中

      將訪問過的ur保存到set中,只需要o(1)的代價就可以查詢url,取url方便快速,基本不用查詢,但是隨著存儲的url越來越多,占用內存會越來越大。

      1# 簡單計算:假設有1億條url,每個url平均長度為50個字符,python里unicode編碼,每個字符16位,占2
      2# 個字節(jié)(byte)
      3# 計算式:10^8 x 50個字符 x 2個byte / 1024 / 1024 / 1024 = 9G
      4#                                    B      M      G
      5如果是2億個url,那么占用內存將達18G,也不是特別方便,適合小型爬蟲。
      3.url經過md5縮減到固定長度
       1'''
      2簡單計算:一個url經MD5轉換,變成一個128bit(位)的字符串,占16byte(字節(jié)),方法二中一個url保守
      3估計占50個字符 x 2 = 100byte(字節(jié)),
      4計算式: 這樣一比較,MD5的空間節(jié)省率為:(100-16)/100 = 84%(相比于方法二)
      5(Scrapy框架url去重就是采用的類似方法)
      6'''
      7# 維基百科看MD5算法
      8'''
      9MD5概述
      10設計者 : 羅納德·李維斯特
      11首次發(fā)布 : 1992年4月
      12系列 : MD, MD2, MD3, MD4, MD5
      13編碼長度 : 128位
      14結構 : Merkle–Damg?rd construction
      15    MD5消息摘要算法(英語:MD5 Message-Digest Algorithm),一種被廣泛使用的密碼散列函數(shù),可
      16以產生出一個128位(16字節(jié))的散列值(hash value),用于確保信息傳輸完整一致。MD5由美國密碼學家
      17羅納德·李維斯特(Ronald Linn Rivest)設計,于1992年公開,用以取代MD4算法。這套算法的程序在 
      18RFC 1321 中被加以規(guī)范。
      19將數(shù)據(jù)(如一段文字)運算變?yōu)榱硪还潭ㄩL度值,是散列算法的基礎原理。
      20'''

      MD5使用實例:

       1# 在python3中使用hashlib模塊進行md5操作
      2import hashlib
      3
      4# 待加密信息
      5str01 = 'This is your md5 password!'
      6# 創(chuàng)建md5對象
      7md5_obj = hashlib.md5()
      8# 進行MD5加密前必須 encode(編碼),python里默認是unicode編碼,必須轉換成utf-8
      9# 否則報錯:TypeError: Unicode-objects must be encoded before hashing
      10md5_obj.update(str01.encode(encoding='utf-8'))
      11
      12print('XksA的原話為 :' + str01)
      13print('MD5加密后為 :' + md5_obj.hexdigest())
      14
      15# result :
      16#        XksA的原話為 :This is your md5 password!
      17#        MD5加密后為 :0a5f76e7b0f352e47fed559f904c9159
      4.用 bitmap方法,將訪問過的ur通過hash函數(shù)映射到某一位
       1'''
      2實現(xiàn)原理:通過hash函數(shù),將每個url映射到一個hash位置中,一個hash位可以只占用一個bit(位)大小,那
      3么相對于方法三:一個url占128bit(位),hash函數(shù)法的空間節(jié)省成百倍增長。
      4計算式:這樣一比較,bitmap方法的空間節(jié)省率為:
      5(128-1)/128= 99.2%(相比于方法三)
      6(100 * 8 - 1)/(100*8)= 99.88%(相比于方法一)
      7                       ##   (缺點:容易產生沖突)  ##
      8'''
      9# 維基百科看Hash 函數(shù)
      10'''
      11hash函數(shù):
      12散列函數(shù)(英語:Hash function)又稱散列算法、哈希函數(shù),是一種從任何一種數(shù)據(jù)中創(chuàng)建小的數(shù)字“指紋”
      13的方法。散列函數(shù)把消息或數(shù)據(jù)壓縮成摘要,使得數(shù)據(jù)量變小,將數(shù)據(jù)的格式固定下來。該函數(shù)將數(shù)據(jù)打亂混
      14合,重新創(chuàng)建一個叫做散列值(hash values,hash codes,hash sums,或hashes)的指紋。散列值通常
      15用一個短的隨機字母和數(shù)字組成的字符串來代表。好的散列函數(shù)在輸入域中很少出現(xiàn)散列沖突。在散列表和數(shù)
      16據(jù)處理中,不抑制沖突來區(qū)別數(shù)據(jù),會使得數(shù)據(jù)庫記錄更難找到。
      17'''
      5.bloomfilter方法對 bitmap進行改進,多重hash函數(shù)降低沖突
       1# 維基百科看Bloomfilter
      2'''
      3# 基本概述
      4   如果想判斷一個元素是不是在一個集合里,一般想到的是將集合中所有元素保存起來,然后通過比較確定。
      5鏈表、樹、散列表(又叫哈希表,Hash table)等等數(shù)據(jù)結構都是這種思路。但是隨著集合中元素的增加,
      6我們需要的存儲空間越來越大。同時檢索速度也越來越慢,上述三種結構的檢索時間復雜度分別為:
      7                            O(n),O(log n),O(n/k)
      8# 原理概述
      9   布隆過濾器的原理是,當一個元素被加入集合時,通過K個散列函數(shù)將這個元素映射成一個位數(shù)組中的K個
      10點,把它們置為1。檢索時,我們只要看看這些點是不是都是1就(大約)知道集合中有沒有它了:如果這些點
      11有任何一個0,則被檢元素一定不在;如果都是1,則被檢元素很可能在。這就是布隆過濾器的基本思想。
      12# 優(yōu)缺點
      13    布隆過濾器可以用于檢索一個元素是否在一個集合中。
      14    優(yōu)點是空間效率和查詢時間都遠遠超過一般的算法。
      15    缺點是有一定的誤識別率和刪除困難。
      16'''
      17# Bloomfilter介紹還可以看這里:https://blog.csdn.net/preyta/article/details/72804148

      Bloomfilter底層實現(xiàn):

       1# 源碼地址:https://github.com/preytaren/fastbloom/blob/master/fastbloom/bloomfilter.py
      2import math
      3import logging
      4import functools
      5
      6import pyhash
      7
      8from bitset import MmapBitSet
      9from hash_tools import hashes
      10
      11
      12class BloomFilter(object):
      13    """
      14    A bloom filter implementation,
      15    which use Murmur hash and Spooky hash
      16    """
      17    def __init__(self, capacity, error_rate=0.0001, fname=None,
      18                 h2=pyhash.murmur3_x64_128(), h3=pyhash.spooky_128()):
      19        """
      20        :param capacity: size of possible input elements
      21        :param error_rate: posi
      22        :param fname:
      23        :param h2:
      24        :param h3:
      25        """
      26        # calculate m & k
      27        self.capacity = capacity
      28        self.error_rate = error_rate
      29        self.num_of_bits, self.num_of_hashes = self._adjust_param(4096 * 8,
      30                                                                  error_rate)
      31        self._fname = fname
      32        self._data_store = MmapBitSet(self.num_of_bits)
      33        self._size = len(self._data_store)
      34        self._hashes = functools.partial(hashes, h2=h2, h3=h3, number=self.num_of_hashes)
      35
      36    def _adjust_param(self, bits_size, expected_error_rate):
      37        """
      38        adjust k & m through 4 steps:
      39        1. Choose a ballpark value for n
      40        2. Choose a value for m
      41        3. Calculate the optimal value of k
      42        4. Calculate the error rate for our chosen values of n, m, and k.
      43           If it's unacceptable, return to step 2 and change m;
      44           otherwise we're done.
      45        in every loop, m = m * 2
      46        :param bits_size:
      47        :param expected_error_rate:
      48        :return:
      49        """
      50        n, estimated_m, estimated_k, error_rate = self.capacity, int(bits_size / 2), None, 1
      51        weight, e = math.log(2), math.exp(1)
      52        while error_rate > expected_error_rate:
      53            estimated_m *= 2
      54            estimated_k = int((float(estimated_m) / n) * weight) + 1
      55            error_rate = (1 - math.exp(- (estimated_k * n) / estimated_m)) ** estimated_k
      56            logging.info(estimated_m, estimated_k, error_rate)
      57        return estimated_m, estimated_k
      58
      59    def add(self, msg):
      60        """
      61        add a string to bloomfilter
      62        :param msg:
      63        :return:
      64        """
      65        if not isinstance(msg, str):
      66            msg = str(msg)
      67        positions = []
      68        for _hash_value in self._hashes(msg):
      69            positions.append(_hash_value % self.num_of_bits)
      70        for pos in sorted(positions):
      71            self._data_store.set(int(pos))
      72
      73    @staticmethod
      74    def open(self, fname):
      75        with open(fname) as fp:
      76            raise NotImplementedError
      77
      78    def __str__(self):
      79        """
      80        output bitset directly
      81        :return:
      82        """
      83        pass
      84
      85    def __contains__(self, msg):
      86        if not isinstance(msg, str):
      87            msg = str(msg)
      88        positions = []
      89        for _hash_value in self._hashes(msg):
      90            positions.append(_hash_value % self.num_of_bits)
      91        for position in sorted(positions):
      92            if not self._data_store.test(position):
      93                return False
      94        return True
      95
      96    def __len__(self):
      97        return self._size

      到此,關于“Python爬蟲怎么實現(xiàn)url去重”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續(xù)學習更多相關知識,請繼續(xù)關注創(chuàng)新互聯(lián)網站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>
      網頁題目:?Python爬蟲怎么實現(xiàn)url去重
      文章來源:http://ef60e0e.cn/article/jsiosd.html

      99热在线精品一区二区三区_国产伦精品一区二区三区女破破_亚洲一区二区三区无码_精品国产欧美日韩另类一区
      1. <ul id="0c1fb"></ul>

        <noscript id="0c1fb"><video id="0c1fb"></video></noscript>
        <noscript id="0c1fb"><listing id="0c1fb"><thead id="0c1fb"></thead></listing></noscript>

        呼和浩特市| 云阳县| 太和县| 开原市| 邵武市| 全南县| 峡江县| 福泉市| 太康县| 尼勒克县| 镇安县| 东辽县| 普安县| 新民市| 新乐市| 康平县| 浙江省| 庆阳市| 平顺县| 顺平县| 额敏县| 聂荣县| 黄石市| 当涂县| 铜鼓县| 乌鲁木齐市| 昆明市| 遵义县| 宁阳县| 报价| 苍南县| 化州市| 五峰| 漳浦县| 长寿区| 吉木乃县| 准格尔旗| 政和县| 墨竹工卡县| 宣威市| 杂多县|