關鍵詞:方面提取 詞向量 半監督 自訓練 未標簽數據
摘要:方面提取是觀點挖掘和情感分析任務中的關鍵一步,隨著社交網絡的發展,用戶越來越傾向于根據評論信息來幫助進行決策,并且用戶也更加關注評論的細粒度的信息,因此,從海量的網絡評論數據中快速挖掘方面信息對于用戶快速決策具有重要意義。大部分基于主題模型和聚類的方法在方面提取的一致性上效果并不好,傳統的監督學習的方法效果雖然表現很好,但是需要大量的標注文本作為訓練數據,標注文本需要消耗大量的人力成本。基于以上問題,本文提出一種基于半監督自訓練的方面提取方法,充分利用現存的大量未標簽的數據價值,在未標簽數據集上通過詞向量模型尋找方面種子詞的相似詞,對每個方面建立與數據集最相關的方面表示詞集合,本文方法避免了大量的文本標注,充分利用未標簽數據的價值,并且本文方法在中文和英文數據集上都表現出了理想的效果。
智能系統學報雜志要求:
{1}作者簡介請標明工作單位、職務、職稱、聯系電話、電子信箱、所在城市和郵編。
{2}文章須言之有物,理論聯系實際,研究目的明確,研究方法得當,有自己的學術見解,對理論或實踐具有參考、借鑒或指導作用。
{3}文題應簡明確切地反映文章的特定內容,以不超過20字為宜。
{4}參考文獻:應為正式出版物上發表的、作者親自閱讀、與文稿主要內容密切相關的近年文獻,要求精選。
{5}文前附400字以內的中文、英文內容提要,關鍵詞2-5個。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社