關鍵詞:webcollector elasticsearch 敏感詞檢測 爬蟲 搜索引擎
摘要:在高校信息化建設過程中,建設了大量的網站,這些網站的信息和展示的內容很可能含有國家法律禁止或者學校規定禁止的敏感詞匯,針對從海量的網站信息中定位到敏感詞匯的目的,本文采用了文獻研究法、個案研究法及實證研究法,通過研究相關材料文獻和技術文檔,研究相關系統設計案例,結合實際情況設計和實現一個能運行的系統,得出基于Webcollector爬蟲框架和ElasticSearch搜索引擎設計和實現網站群敏感詞檢測系統的可行性。
電子設計工程雜志要求:
{1}摘要直接概括論文的學術觀點和結論,一般不超過300字。
{2}來稿應具有原創性,內容符合本單位保密規定。論文的主要研究工作應由作者獨立完成,引用他人成果時,須按《著作權法》中的有關規定標明其出處,由此引發的一切著作權責任由作者自負。
{3}本刊對來稿保留修改權,不同意者請預先聲明。
{4}參考文獻按引文先后在文中標出序號,并與文后參考文獻序號一致,參考文獻著錄項目要齊全。
{5}靜態圖:圖或照片應另附于文后,分別按其在正文中出現的先后次序連續編碼。圖題和圖說明應簡潔明確,具有自明性。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社