面向K-近鄰學(xué)習(xí)模型的高效數(shù)據(jù)清洗框架
計算機(jī)科學(xué)與探索
頁數(shù): 11 2022-10-20
摘要: 現(xiàn)實(shí)世界中收集的數(shù)據(jù)集通常是含有缺失的,為了在不完備數(shù)據(jù)集上構(gòu)建有效的機(jī)器學(xué)習(xí)模型,需要對數(shù)據(jù)集進(jìn)行清洗。為了確保較好的清洗效果,通常需要人工參與,從而導(dǎo)致大量成本。確定不完備數(shù)據(jù)的清洗優(yōu)先級將有助于減小清洗規(guī)模,節(jié)約人工成本。而計算不完備數(shù)據(jù)的清洗優(yōu)先級應(yīng)確定其對模型性能的貢獻(xiàn)。夏普利值是目前流行的用來評估數(shù)據(jù)在機(jī)器學(xué)習(xí)模型中貢獻(xiàn)的方法,因此可以借助夏普利值的概念計算不完備數(shù)...