關鍵詞:降維 文本分類 主成分分析 信息增益率 特征選擇
摘要:由于文本分類中的特征空間高維稀疏,傳統單一的降維方法難以滿足實際大數據分類需求。針對這種情況,提出一種兩階段的混合特征選擇方法。第一階段計算每個特征詞的信息增益率并進行排序,然后根據設定的閾值進行特征詞的選擇。第二階段利用主成分分析方法將第一階段輸出的仍保持高維特性的高維特征空間映射到低維新特征空間。實驗結果表明,與單一的傳統方法比較,混合特征選擇方法實現了二次降維,不但減少了計算開銷,還提高了分類性能。
計算機應用與軟件雜志要求:
{1}文章關鍵要素,需有英文摘要。
{2}文章主題明確,數據可靠,書寫準確,圖表清晰,文字簡練,內容齊全完整。來稿應含以下部分:中英文題名、中英文摘要、中英文關鍵詞、中圖分類號(本編輯部亦可代查)、正文以及必要的圖表、參考文獻。
{3}文稿要一稿一投,嚴禁各類侵權行為。
{4}前言應充分說明研究工作的背景、意義、本文擬解決的問題、采用的方法和手段,引出重要文獻,全面評述相關研究工作,突出本工作的重要性和創新性,不要忽視國內同行的工作。
{5}稿件注釋一律采用 “腳注”。注釋規則請參下附《注釋規范》,請投稿者嚴格遵循。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社