1. <ul id="0c1fb"></ul>

      <noscript id="0c1fb"><video id="0c1fb"></video></noscript>
      <noscript id="0c1fb"><listing id="0c1fb"><thead id="0c1fb"></thead></listing></noscript>

      99热在线精品一区二区三区_国产伦精品一区二区三区女破破_亚洲一区二区三区无码_精品国产欧美日韩另类一区

      RELATEED CONSULTING
      相關咨詢
      選擇下列產(chǎn)品馬上在線溝通
      服務時間:8:30-17:00
      你可能遇到了下面的問題
      關閉右側工具欄

      新聞中心

      這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
      Python中Pandas數(shù)據(jù)清洗的流程

      這篇文章主要介紹Python中Pandas數(shù)據(jù)清洗的流程,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

      創(chuàng)新互聯(lián)公司是一家集網(wǎng)站建設,峨山縣企業(yè)網(wǎng)站建設,峨山縣品牌網(wǎng)站建設,網(wǎng)站定制,峨山縣網(wǎng)站建設報價,網(wǎng)絡營銷,網(wǎng)絡優(yōu)化,峨山縣網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強企業(yè)競爭力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時我們時刻保持專業(yè)、時尚、前沿,時刻以成就客戶成長自我,堅持不斷學習、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實用型網(wǎng)站。

      針對數(shù)據(jù)統(tǒng)計分析來講,數(shù)據(jù)信息是無可置疑的核心內(nèi)容。但并非是全部的數(shù)據(jù)信息都是有價值的,絕大部分數(shù)據(jù)信息是良莠不齊的,基本概念層次不清的,量級有所不同的,這就給后期的數(shù)據(jù)統(tǒng)計分析和數(shù)據(jù)挖掘造成 了很大的不便,甚至是造成不正確的理論依據(jù)。因此很有必要對數(shù)據(jù)信息開展預處理。

      說到python與數(shù)據(jù)分析,那肯定少不了pandas的身影。

      一、數(shù)據(jù)清洗是什么

      數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。與問卷審核不同,錄入后的數(shù)據(jù)清理一般是由計算機而不是人工完成。

      數(shù)據(jù)清洗從名字上也看的出就是把“臟”的“洗掉”,指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。因為數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個業(yè)務系統(tǒng)中抽取而來而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,這就是數(shù)據(jù)清洗。而數(shù)據(jù)清洗的任務是過濾那些不符合要求的數(shù)據(jù),將過濾的結果交給業(yè)務主管部門,確認是否過濾掉還是由業(yè)務單位修正之后再進行抽取。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復的數(shù)據(jù)三大類。數(shù)據(jù)清洗是與問卷審核不同,錄入后的數(shù)據(jù)清理一般是由計算機而不是人工完成。

      Python中Pandas數(shù)據(jù)清洗的流程

      二、Python pandas數(shù)據(jù)清洗流程

      1.導入方法read_excel

      # 導入數(shù)據(jù)
      import pandas as pda
      import matplotlib.pylab as pyl
      
      a = pda.read_excel("D:\\迅雷下載\\工具\\表格\\練習.xls")	# 路徑使用雙反斜杠,否則會報錯
      print(len(a))   # 數(shù)據(jù)框的長度,是按行統(tǒng)計的
      123456

      2.發(fā)現(xiàn)缺失值

      先打開excel表,查看下有多少缺失值,缺失值是指值為0或空統(tǒng)計發(fā)現(xiàn)有10個缺失值,同理其他列也有部分缺失值然后著手把0值置空,保證所有的缺失值都是統(tǒng)一形式,方便處理

      Python中Pandas數(shù)據(jù)清洗的流程

      b = ["price", "trade"]
      for i in b:
          a[i][(a[i] == 0)] = None
      # a["price"] == 0  判斷語句,返回True或False  ,對列表的每一個值進行判斷,如果有0,該處值置為none,然后進行判斷直至完成
      1234

      3.缺失值處理

      遍歷所有的空值,統(tǒng)一賦值

      x = 0
      for j in b:
          for k in range(len(a)):
              if (a[j].isnull())[k]:  
                  a[j][k] = 36
                  x += 1
      print(x)

      三、異常數(shù)據(jù)處理

      異常數(shù)據(jù)指數(shù)據(jù)庫或數(shù)據(jù)倉庫中未滿足一般規(guī)律的數(shù)據(jù)信息對象,又叫作孤立點。異常的數(shù)據(jù)信息可由執(zhí)行程序出現(xiàn)失誤形成,也可能會因設施設備內(nèi)部故障造成的。異常數(shù)據(jù)信息可能是刪去的噪聲,也可能是帶有重要信息的數(shù)據(jù)單元。異常的數(shù)據(jù)信息的監(jiān)測具體有根據(jù)統(tǒng)計學、根據(jù)距離和根據(jù)偏離3類方法。采取數(shù)據(jù)信息審時的辦法能夠實現(xiàn)異常的數(shù)據(jù)信息的智能化監(jiān)測,該辦法也叫作數(shù)據(jù)質(zhì)量挖掘(DOQM)。DQM具體由2步組成:第1步,采取數(shù)理統(tǒng)計辦法對數(shù)據(jù)分布展開概化描述,自動獲得數(shù)據(jù)信息的總體分布特征;第2步針對特定的數(shù)據(jù)質(zhì)量問題展開挖掘以發(fā)現(xiàn)數(shù)據(jù)信息異常的。

      以上是Python中Pandas數(shù)據(jù)清洗的流程的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關知識,歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道!


      分享文章:Python中Pandas數(shù)據(jù)清洗的流程
      文章起源:http://ef60e0e.cn/article/jddghg.html
      99热在线精品一区二区三区_国产伦精品一区二区三区女破破_亚洲一区二区三区无码_精品国产欧美日韩另类一区
      1. <ul id="0c1fb"></ul>

        <noscript id="0c1fb"><video id="0c1fb"></video></noscript>
        <noscript id="0c1fb"><listing id="0c1fb"><thead id="0c1fb"></thead></listing></noscript>

        陆川县| 徐汇区| 合水县| 清镇市| 滕州市| 承德县| 罗源县| 胶州市| 江永县| 九台市| 淮南市| 繁峙县| 沽源县| 新龙县| 尚志市| 凤城市| 海口市| 禄丰县| 凌源市| 福泉市| 仁布县| 金沙县| 新邵县| 当阳市| 乌兰浩特市| 闽侯县| 松原市| 桐柏县| 天津市| 隆昌县| 凤冈县| 桃源县| 五寨县| 仲巴县| 京山县| 厦门市| 呈贡县| 南昌市| 英德市| 大厂| 邢台县|