新聞中心
各種數(shù)據(jù)分析技術(shù)的對(duì)象是數(shù)據(jù)源中的數(shù)據(jù)
數(shù)據(jù)源中的數(shù)據(jù)可能不完整(如某些屬性的值不確定或空缺)、含噪聲和不一致(如同一個(gè)屬性在不同表中的名稱不同) 、量綱不同
如果直接在這些未經(jīng)處理的數(shù)據(jù)上進(jìn)行分析,結(jié)果不一定準(zhǔn)確,效率也可能較低
需要使用清理、集成、變換、歸約等預(yù)處理方法改善數(shù)據(jù)質(zhì)量,從而提高數(shù)據(jù)分析的效率與質(zhì)量
主要介紹數(shù)據(jù)清理、集成、變換、規(guī)約等預(yù)處理技術(shù)
數(shù)據(jù)清理用于消除噪聲、數(shù)據(jù)不一致及數(shù)據(jù)不完整
噪聲可以通過(guò)平滑、識(shí)別孤立點(diǎn)等方法進(jìn)行消除
分箱技術(shù):將數(shù)據(jù)排序,根據(jù)等深或等寬分布規(guī)則將數(shù)據(jù)分布到不同箱中,將同一箱中的數(shù)據(jù)用用該箱中數(shù)據(jù)的平均值或中值、邊界值替換(平均值平滑、中值平滑、邊界平滑)
設(shè)某屬性的值為18,12,3,9,7,6,15,21,16,采用分箱技術(shù)平滑數(shù)據(jù)消除噪聲。分布規(guī)則為等深、深度為3,平滑規(guī)則為平均值平滑
首先,將屬性的值排序?yàn)?, 6, 7, 9, 12, 15, 16, 18, 21
數(shù)據(jù)不完整可以使用下列方法消除:
1)使用一個(gè)全局常量填充
2)使用屬性平均值填充
3)使用相同類的屬性平均值填充
4)使用最可能的值填充 需要采用預(yù)測(cè)算法,預(yù)測(cè)給定樣本的最可能的值并填充
數(shù)據(jù)不一致可以通過(guò)元數(shù)據(jù)消除(描述數(shù)據(jù)的數(shù)據(jù))
數(shù)據(jù)集成
數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù))中
這些數(shù)據(jù)源可能包括多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或一般文件
在數(shù)據(jù)集成時(shí),需要消除冗余——能夠由另外的屬性“導(dǎo)出”、命名的不一致的屬性
冗余可以通過(guò)相關(guān)分析進(jìn)行檢測(cè)
屬性A、B之間的相關(guān)性計(jì)算:
rA,B>0,A與B正相關(guān),A的值隨著B的值的增加而增加
rA,B<0,A與B負(fù)相關(guān),A的值隨著B的值的增加而減少
rA,B=0,A與B獨(dú)立。因此,|rA,B|很大時(shí),A與B可以去除一個(gè)
數(shù)據(jù)變換
將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間,如-1.0到1.0或0.0到1.0
最小-大規(guī)格化:
[minA,maxA]為數(shù)值屬性A規(guī)格化前的取值區(qū)間
[new minA,new maxA] 為A規(guī)格化后的取值區(qū)間,最小-大規(guī)格化根據(jù)下式將A的值v規(guī)格化為值v’
采用最小-大規(guī)格化方法將[-100,100]中的66規(guī)格化到區(qū)間[0,1]
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。
分享標(biāo)題:數(shù)據(jù)預(yù)處理-創(chuàng)新互聯(lián)
文章鏈接:http://ef60e0e.cn/article/ghiij.html