基于關(guān)聯(lián)分析數(shù)據(jù)挖掘的Hadoop臟數(shù)據(jù)動(dòng)態(tài)清理
摘要: Hadoop系統(tǒng)中的內(nèi)存持久化場(chǎng)景增加了元數(shù)據(jù)開(kāi)銷,使得數(shù)據(jù)集中易于混入離群點(diǎn),在降低緩存命中率的同時(shí)無(wú)法均衡調(diào)整數(shù)據(jù)管理粒度,導(dǎo)致臟數(shù)據(jù)清理效果不佳,為此,基于關(guān)聯(lián)分析數(shù)據(jù)挖掘,對(duì)Hadoop臟數(shù)據(jù)動(dòng)態(tài)清理方法展開(kāi)研究。通過(guò)Apriori關(guān)聯(lián)規(guī)則算法提取臟數(shù)據(jù)特征量,對(duì)臟數(shù)據(jù)頻繁項(xiàng)集進(jìn)行分析;引入支持度自適應(yīng)更新策略,采用局部離群點(diǎn)檢測(cè)算法剔除K-means聚類離群點(diǎn),基于改... (共5頁(yè))
開(kāi)通會(huì)員,享受整站包年服務(wù)