基于Wang-Landau抽樣的主題爬蟲(chóng)方法
電子科技大學(xué)學(xué)報(bào)
頁(yè)數(shù): 10 2023-07-28
摘要: 針對(duì)傳統(tǒng)爬蟲(chóng)方法存在搜索易陷入局部最優(yōu),且很少考慮結(jié)合歷史爬行經(jīng)驗(yàn)對(duì)爬行路徑進(jìn)行修正的缺陷,提出一種基于WL抽樣的主題爬行方法。該方法分別使用向量空間模型(VSM)和PageRank算法對(duì)鏈接的相關(guān)性和重要性進(jìn)行評(píng)價(jià),采用區(qū)域競(jìng)爭(zhēng)策略從具有主題相關(guān)或潛在價(jià)值的鏈接集合中選出目標(biāo)鏈接?;诟怕拭芏群瘮?shù),WL抽樣算法對(duì)侯選集中選出的目標(biāo)鏈接進(jìn)行抽樣判斷,根據(jù)歷史統(tǒng)計(jì)經(jīng)驗(yàn)指導(dǎo)爬蟲(chóng)的后...