男女扒开双腿猛进入爽爽免费,男生下面伸进女人下面的视频,美女跪下吃男人的j8视频,一本色道在线久88在线观看片

數據挖掘課程模板(10篇)

時間:2023-01-12 18:57:22

導言:作為寫作愛好者,不可錯過為您精心挑選的10篇數據挖掘課程,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內容能為您提供靈感和參考。

數據挖掘課程

篇1

2、基于模塊化方法的課程內容分析

模塊化教學模式是按照程序模塊化的構想和原則來設計教學內容的一整套教學體系,它是在既定的培養目標指導下,將全部教學內容按照一定標準或規則進行分解,使其成為多個相對獨立的教學模塊,且各教學模塊之間可以按照一定的規則有選擇性的重新組合。該方法在20世紀70年代,由國際勞工組織引入教學之中,開發出以現場教學為主,以技能培訓為核心的模塊化教學模式,在很多國家得到廣泛應用。由于該教學法具有針對性、靈活性、現實性等特點,越來越受到教育界的關注。模塊化教學本質上是以知識點與實踐的細化為出發點研究,本課程的知識點細化分為兩個層次:一是從宏觀角度,參考ACM的SIGKDD的數據挖掘課程建設建議,設計課程的基礎內容模塊和高級主題模塊;二是從微觀角度,針對較為復雜的算法進行的知識點劃分。課程內容的一至五章屬于基礎內容模塊,介紹本課程的基礎理論和入門的數據挖掘技術;六至第八章介于基礎內容與高級主題之間,介紹數據挖掘的核心算法,可以根據學生情況進行靈活處理,可強調應用,也可深化算法介紹;第九、十章為高級主題模塊,可以作為擴展材料介紹應用,或為感興趣同學提供算法介紹;課程實踐模塊包含數據倉庫建設與數據挖掘算法的應用,難度居中,可以在引導學生思考的前提下給出實驗步驟,并引導學生使用類似的方法處理不同的數據。

3、基于模塊化方法進行重要知識點的模塊化分析

重要知識點內涵較為豐富,一般體現在經典數據挖掘算法上,通常一大類算法下還分有多個算法,不同算法的在難度上有漸進層次,同一種算法也有很大改進研究空間,講授彈性比較大。因此,適合使用模塊化方法進行處理,并且需要在課程設計中明確一定課時量所要達到的內容和難度。基礎部分為必選內容,介紹基本概念和基本原理;決策樹作為數據挖掘分類算法的最基礎算法也是必選內容,決策樹算法有多種分類,需要進行按照難易程度進行選擇;最后要根據難度選擇其他分類算法進行介紹。

篇2

【關鍵詞】 網絡課程;數據挖掘;挖掘模式

【中圖分類號】 G40-034 【文獻標識碼】 A 【文章編號】 1009―458x(2014)09―0068―04

一、引言

隨著互聯網以及移動設備的迅速普及,人們使用網絡的時長在不斷增加,通過網絡進行學習的需求及能力也在迅速提高。據美國Ambient Insight研究報告指出,2009年美國中學以后的教育機構中,有44%的學生通過網絡進行課程學習,預計到2018年,美國通過網絡學習的學生人數將超過面授學生的總人數。在韓國,78%的高校都提供網絡教學(Allen et al. 2008)。在中國,教育部于2011年10月啟動了國家開放課程建設工作,教育部《教育信息化十年發展規劃》(2011-2020年)中也明確提出了“推動信息技術與高等教育融合,創新人才培養模式”的要求,融合的關鍵就是要選擇有效的網絡教學模式,因此,對網絡教學的質量和有效性研究正被人們所關注。

本文以Moodle網絡課程平臺為基礎,分析并提出有針對性的數據挖掘方法構架,以達到對課程建設情況和學生學習應用情況的跟蹤分析,為教師改進教學策略、提高網絡課程教學質量提供有力支持。

二、選擇Moodle網絡課程平臺的理由

之所以選擇Moodle課程管理系統建設網絡課程平臺,是由于Moodle課程管理系統是一個開源免費軟件,更主要的是其模塊化的設計非常易于課程的創建,能使課程教師擺脫課程網站建設的技術屏障,還可以使教師從課程內容的設計者轉變為教學資源與活動的組織者。[1]

在國外Moodle系統的應用得到了迅速推廣。有數據顯示,使用Moodle的國家和地區有200多個,注冊使用機構有67,000多所,注冊用戶數量達5,800萬,運行課程有600多萬門。注冊用戶最多的前五位國家分別是美國、西班牙、巴西、英國和德國。[2]

三、教師所關注問題調查

根據教育部頒布的《CELTS-31教育資源建設技術規范》,將教育資源建設分為素材、課程、評價和資源管理系統開發四個層次。其中素材與課程是網絡教育資源建設的基礎,評價和資源管理系統則分別是確保質量與實現資源建設的工具與手段。[3]對于建設網絡課程的教師需要了解它的使用情況,從而分析課程結構是否合理,調整課程內容的分布情況,優化網絡課程的設計,提高教學效果。

為了解教師使用網絡課程的期待值和目的性,我們采取目的抽樣和隨機抽樣相結合的方式,樣本來自筆者所在的三個教師專用QQ群人員。調查問卷設計從了解教師對網絡課程的需求、認識、應用三個主要層面展開,具體的問卷內容為四個部份:了解參與問卷教師的基本情況;了解教師對網絡技術應用的需求情況;了解教師對網絡課程的認識及使用困難所在;了解教師希望網絡課程能幫助解決教學中的哪些問題。問卷在公共專業問卷調查網站(問卷星)上,一周后回收有效問卷159份。數據分析基本報告可見鏈接:http:///report/3234099.aspx。

筆者所在院校為云南普通高校,與問卷的地圖分布情況相吻合,應該更能代表云南普通高校的普遍情況(見圖1)。

圖1 問卷來源地理分布比率圖

問卷中有96.61%的教師認為應該在教學中整合網絡技術,有38.98%的教師因為技術應用能力的不足,不夠明確如何使用網絡技術(見圖2),這說明我們建設網絡課程應該選擇如同Moodle這樣簡單易用的課程管理系統。

對于建設網絡課程,教師關注度較高的前4個方面是:學生學習過程參與的情況、網絡資源的使用情況、學生在線學習時間以及學生參與討論的頻度情況(見圖3)。

圖2 教師對網絡技術與教學融合的意見

圖3 教師關注信息統計

四、網絡課程數據挖掘模式構架

數據挖掘技術是獲取相關信息的有效技術手段。對于教師所關心的幾個方面內容,這里提供幾種可借鑒的方法:

1. 學生學習過程分析

美國教育評價專家斯克里文(G F. Scriven)在1967年所著的《評價方法論》中,提出形成性評價是為正在進行的教育活動提供反饋信息,以提高正在進行的教育活動質量的評價,是一種對學習進程的動態評價。教師和學生可以依據獲取的反饋信息了解學習狀態,及時調整教學或學習。[4]

在Moodle平臺中具備學生學習進展跟蹤功能。

方法一:通過設置“課程進度跟蹤”,了解學生各項學習活動的完成情況。

如圖4所示,進入課程,在“課程管理”/“課程進度跟蹤”進行跟蹤條件設置,然后再選擇“課程管理”/“報表”/“課程進度”,就會顯示選修該門課程的所有學生的各項學習活動的完成情況。

圖4 課程進度跟蹤設置

方法二:分析學生各項學習活動的參與度。

通過選擇“課程管理”/“報表”/“課程成員”,可以詳細地顯示各項課程活動學生的參與情況,以及參與的次數,更清楚地分析學生的學習努力程度。如圖5所示,列出了數據庫原理及應用這門課程的“第一部分測驗”活動、每個學生參與的次數。

方法三:采用數據挖掘手段,了解學生的學習風格。

此方法要求具備一定的數據挖掘知識及應用能力。通過Mysql系統提取Moodle后臺數據庫(\server\mysql\data\mysql)進行關聯規則分析。

關聯規則數據挖掘,可以發現學生學習行為之間的關系,通過對學生的某兩類網絡學習行為之間取值關系進行分析就可以得出它們之間的關聯性,進而預測學生將要進行的下一個行為,從而挖掘網絡學生學習行為之間的關系,使得學生學習風格顯性化。[5]

2. 課程資源利用情況分析

課程資源建設是影響網絡教學應用質量的重要因素。甘振韜等通過SQL Server的Analysis Services 工具,對網絡課程的資源配置情況,包括資源配置指數和訪問量進行分析。[6]

Moodle平臺能很直觀地呈現課程各項資源的訪問情況。

方法:選擇“課程管理”/“報表”/“課程活動”,課程設計的各項活動被訪問量被詳細統計出,如圖6所示,教師可以清楚了解課程資源的利用率情況,分析學生的學習喜好,適當調整各活動資源的配比。

圖6 課程資源訪問情況

3. 學生在線學習時間分析

對于某門課程,通過分析學生的日志,可以掌握學生的在線學習時間,以及學習時段的分布情況。

方法:點擊“課程管理”/“報表”/“日志”,其中可以設定查看所有成員或是某一個成員、所有活動或是某一項活動,以及所有日期或是某一天,學生的在線學習情況。如圖7所示。

圖7 學生日志

4. 學生參與討論的頻度分析

學生參與課程討論的頻度,可以反映學生的學習主動性,教師通過觀察可以即時進行有針對性的教學干預。

方法:選擇“課程管理”/“報表”/“課程成員”,如圖8所示,學生參與“課程聊吧”活動的情況。

圖8 學生參與討論活動的頻度

5. 學習成績分析

學生的最終學習情況需要一個成績評定,Moodle平臺的設計理念中非常強調過程性評價,它能夠記錄學生學習過程中的各項活動成績,包括師生、生生相互評價的成績,匯總成學生的最終成績。

方法一:查看教學活動的單項成績情況。

直接使用Moodle平臺所提供的課程管理功能,點擊“課程管理”/“成績”選項,打開成績管理菜單,再選擇“類別和項”下的“簡略視圖”(如圖9),可以查看教學活動過程各項匯總成績。并可以設置學習過程中各部分占總成績的比率。

方法二:對測驗試題結構分析。

在Moodle中若選擇測驗,則出現“測驗管理”,再選擇“測驗管理”/“統計”,可以得到本次測驗的統計分析報告。包括此測驗的標準偏差、測驗的分數分布偏度、分數的分布峰度等。還有此測驗試題的結構分析結果,包括容易度指數、試題的標準偏差等(如圖10),能讓教師科學地調整測驗的結構組成,試題的難易程度和分數的布局等。

圖10 測驗試題結構

方法三:在成績管理菜單下選擇“導出”為Excel、OpenDocument電子表格或其它文檔,再進行統計分析。

6. 群組分析(分組)

學生分組開展學習,可以促進學生的集體意識及合作能力的培養,但如何分組?各分組成員真的能很好地協作嗎?這需要教師特別注意,需要考慮如何分組才能更好地激發學生的學習積極性。

方法一:選擇“課程管理”/“用戶”/“小組”,可以自主創建小組,也可以用“自動創建小組”方式創建,如圖11所示,就是以自動方式創建的小組,其中還可以指定小組數量或是每個小組成員數。這種方式設置的小組較為隨機,如果希望分組能考慮成員的凝聚性可以選擇方法二進行。

方法二:應用社會網絡分析軟件,如UCINET等,可以開展學習社群的關系距離及中心性分析,以及小團體分析等分析。通過收集學生在討論區或是聊天室中的問答的關系情況獲得分析數據。對于社會網絡結構的特征分析可以輔助判斷師生交互網絡發展的成熟程度。

五、小結

本文基于Moodle網絡課程管理系統,介紹了教師關心的幾個方面的數據分析方法,為想要分析自己網絡課程使用情況的教師提供方法借鑒,從而教師能夠更好地調整網絡課程的內容組成、結構布局,以及教學方法策略的調整。同時,本研究也適當突破Moodle網絡課程平臺,提供了在其它網絡課程平臺中進行數據挖掘分析的方法和思路。通過幾個方面數據分析方法的整合,目的是提供一種進行網絡課程數據挖掘模式架構的研究。今后,研究還應深入底層數據的分析,提供更具通用性的網絡課程數據挖掘模式方法。

[參考文獻]

[1] 黎加厚. 信息化課程設計――Moodle 信息化學習環境創設[M]. 上海:華東師范大學出版社,2007.

[2] 張偉遠,段承貴. 網絡教學平臺發展的全球合作和共建共享[J]. 中國遠程教育,2012,(10):32-36.

[3] 鄧康橋. workflow技術在網絡課程開發管理系統中的應用研究[J].中國遠程教育,2013,(4):63-68.

[4] 劉納. 基于數據挖掘技術的網絡學習形成性評價研究[D]. 上海:華東師范大學,2012.

[5] 李素珍. 基于網絡學習行為分析的網絡學習風格與學習偏好挖掘模型研究[D]. 武漢:華中師范大學,2009.

篇3

中圖分類號:TP311 文獻標志碼:A 文章編號:1006-8228(2014)04-59-03

Abstract: With the advent of the era of big data, data mining has become an essential technology which has important social value in the field of business, healthcare, manufacture and administrative management, etc. In many universities, the course of data mining is an important course which is integrated with other disciplinary knowledge and plays an important role in talent cultivation. According to the characters of big data, the knowledge hierarchy data mining is presented, and case teaching and new teaching evaluation method in graduate students' data mining course are discussed. The result shows that the effect is good and it is welcomed by graduate students.

Key words: data mining; knowledge hierarchy; case teaching; teaching evaluation

0 引言

近年來,傳統科學研究(如天文物理學、生物醫學等)、電子商務、網絡搜索引擎(如GOOGLE和百度等)和物聯網等產生的數據已經以PB或ZB(10的21次方)來計算。以分布式數據倉庫、流計算的實時數據倉庫技術為代表的最新數據存儲技術,讓全世界的數據存儲量越來越大,由人、機、物三元素高度融合構成的信息化的社會引發了數據規模的爆炸式增長和數據處理模式的高度復雜化,大數據(Big Data)時代已經到來[1]。因此,數據具有越來越強的可視性、可操作性和可用性,能夠越來越細致、精準、全面和及時地反映人的思維、行為和情感,以及事物的特性和發展規律,要想讓這些大數據以更加有效的方式為提升人類各方面的生產力和生活質量服務,離不開以非平凡的方法發現蘊藏在大量數據集中的有用知識為根本目的數據挖掘技術的支撐。

市場上對于有大數據背景知識又懂數據挖掘技術的專業人才的需求也將越來越大,作為一名高校計算機專業教師,根據自己三年來研究生數據挖掘課程的授課經歷,結合當前大數據的時代背景,對數據挖掘課程教學進行了新的思考和探索。

1 明確大數據背景下學習數據挖掘知識的重要性

1.1 大數據的定義

“大數據”是最近幾年才出現的新名詞,尚無統一的概念,維基百科上的解釋是:大數據是由數量巨大、結構復雜、類型眾多數據構成的數據集合,是基于云計算的數據處理與應用模式,通過數據的整合共享,交叉復用形成的智力資源和知識服務能力。

1.2 大數據的特征

大數據的特征可以總結為四方面,即4V。

⑴ 數據量浩大(Volume)――數據集合的規模不斷擴大,已從GB到TB再到PB級,甚至開始以EB和ZB來計數。例如:1立方毫米電子顯微鏡重建出的大腦突觸網絡的圖像數據就超過1PB。

⑵ 模態繁多、異構(Variety)――大數據面向的是一切計算機可以存儲的數據格式,類型包括結構化數據、半結構化數據和非結構化數據,包括互聯網上的各種網頁、圖片、音頻、視頻、文檔、報表,以及搜索引擎中輸入的關鍵詞、社交網絡中的留言、喜好和各種傳感器自動收集的監控結果等等。

⑶ 生成快速(Velocity)――大數據往往以數據流的形式動態、快速地產生,具有很強的時效性,同時,數據自身的狀態與價值也往往隨時空變化而發生演變,數據的涌現特征明顯。

⑷ 價值巨大(Value)――數據顯性或隱性的網絡化存在使得數據之間的復雜關聯無所不在,將對信息科學、社會科學、網絡科學、系統科學、心理學、經濟學等諸多領域的研究和應用起到革命性的作用,價值巨大[2]。

Gartner、IBM和牛津大學2012年聯合的關于大數據的研究報告指出:交易數據、記錄數據、事件和電子郵件是四大主要數據;數據挖掘,數據可視化,預測,建模與數據優化是五大數據能力[3]。大數據的潛在價值只有通過數據挖掘才能顯現,因此,國外的Google、IBM、Amazon、Oracle、Microsoft、EMC;國內的騰訊、百度、新浪、淘寶等知名企業已經開始著眼大數據,從不同角度進行數據挖掘,以便改善自身服務,創造更大的商業價值。所以,作為高校教師,首先要讓學生了解大數據的基本特點,明確數據挖掘知識和技術對當今社會的重要意義。

2 利用概念圖,構建數據挖掘課程的知識體系結構

在大學里,設置一門課程,不能只關注這門課程所含的內容,更要考慮教育培養學生基本專業能力、可持續發展能力等本質性的問題。

數據挖掘是一門結合數據庫技術、統計學、機器學習、神經網絡、知識系統、信息檢索、高性能計算和可視化等多門學科知識的交叉學科[4]。而且,該課程既包括各種理論知識,又離不開相關的實踐技術,整個教學過程是培養和提高學生的創新能力和綜合解決問題能力的重要途徑。因此,針對計算機專業的學生,教學的首要任務是構建起整個課程的核心知識結構(如圖1所示),同時,簡單介紹相關的統計學、機器學習等計算機專業學生不太了解的非專業知識。

課程核心知識結構是教學的主線,是學生必須要掌握的。首先,讓學生明確數據挖掘前要先經過預處理,再存入數據倉庫;其次,針對具體情況利用相關的挖掘工具和挖掘算法進行挖掘;最后,挖掘結果以可視化的形式有效地展示給用戶。教學的重點是挖掘算法和挖掘工具。對于挖掘算法,以數據挖掘國際會議ICDM(the IEEE International Conference on Data Mining)的專家評選出的十大經典算法(見表1)為主[5],結合相關實例給學生介紹各種算法的基本思想和相關概念,重點介紹使用較多的分類、聚類、關聯、序列和機器學習這幾種算法,先為學生打下良好的理論基礎。

3 以實例為切入點,注重理論結合實踐

數據挖掘課程主要針對我校研究生開設,考慮到學生就業和當前市場需求,以及課程本身實踐性強的特點,在教學過程中要注重理論結合實踐,注意培養學生解決實際問題的能力。因此,在給學生介紹目前常用的數據挖掘工具(如IBM Intelligent Miner、SAS Enterprese Miner、SPSS Clementine、Weka等)的基礎上,結合市場應用需求,以實例為切入點,分別分析數據挖掘在互聯網日志分析、電子郵件分析、互聯網廣告挖掘、電子商務、移動互聯網等各大領域中的實際應用情況和成功案例(表2)。同時,還可以從內容挖掘、結構挖掘和用戶訪問模式挖掘這三個方面簡單介紹WEB挖掘的基本知識[6]。這樣,課程本身就脫離了枯燥的理論,讓學生對數據挖掘有了感性認識,激發學習興趣。

⑵ 過濾垃圾郵件。\&互聯網廣告\&⑴ 通過大數據挖掘,精準定位各類客戶的廣告形式;

⑵ 準確評估廣告效果。\&電子商務\&用數據提升整體營銷;通過日志挖掘做客戶分析;用序列算法分析商品上架時間;用聚類算法對商品分類、提升會員管理。\&移動互聯網\&⑴ 鎖定用戶的數據價值,通過地理位置信息挖掘出有價值的東西;

⑵ 文本挖掘。\&]

在教學過程中,貫穿以“能力培養為目標”的實踐教學理念,提供有效的網絡資源,讓學生自己動手動腦,分析成功案例,完成教師給定的虛擬挖掘任務,強化學生參與意識,教師在以學生為主體的教學過程中當好指導者和激勵者,從而充分調動學生的主觀能動性,掌握不同應用領域大數據的挖掘問題的基本解決方法,培養學生的創新能力。例如,給學生一個文本挖掘的分類題目,讓他們熟悉從原始數據的清洗、預處理、降維、建立模型、測試、得到結論等一系列環節。

4 改革教學評價,實施分類化評價

數據挖掘課程是一門融合了多個學科的實踐性很強的課程,對應的考核方式應該與其他專業課程有所區別,應該更重視學生學習過程中的表現和能力的提升。

理論知識的考核注重學生對數據挖掘基本概念、挖掘流程和主要挖掘算法的掌握情況,主要以試卷考核的方式為主,注意主觀題和客觀題的數量比例,采用統一考核方式和評判標準。對于實踐技能的考核,主要強調的是學生對不同類型數據進行挖掘時應掌握的相關軟件使用技能的考查,考核時除了要體現學生對實驗原理的掌握外,更重要的是要反映出學生在實驗方法的掌握、設計、操作過程中的實際能力,我們取消了以往把一次性考試結果作為總成績的方法,而把學生平時課堂實驗成績作為總成績的主要部分,考核成績占課程總成績一定比例。

教師教學質量的評價與學生考核成績相對應,可采用單獨評價和統一評價兩種方式。單獨評價是指將社會實踐作為一個獨立的質量評價過程對教師教學質量進行考核;統一評價是指將教師實踐教學與理論教學綜合起來統一考核,以一定比例計入教師總體評價。

無論是對學生,還是對教師,這種分類化的教學評價方式,不僅有利于學生實際能力的培養,而且對教師的教學水平也是一種促進,有利于課程教學質量的不斷提高。

5 結束語

大數據時代,誰能發掘出數據背后的巨大商業和社會價值,誰就能在激烈的市場競爭中處于優勢。數據挖掘作為計算機應用專業的研究生核心課程之一,也是學生今后就業必需的專業技能之一。以往的教學過程理論性強,枯燥乏味,考核形式單一,學生學習熱情普遍不高,不利于學生專業能力的培養。本文結合當前大數據的時代背景,在構架課程核心知識體系的前提下,結合實際應用領域和案例,分析數據挖掘常見算法和常用工具,強調學生的參與和主觀能動性的發揮,而采用分類化的教學評價又能比較客觀、公正地評價學生對課程知識和專業實踐技能的掌握情況以及教師的教學效果。課程開設三年來的教學實踐證明,學生綜合運用計算機專業知識的能力得到提高,理論與實踐結合的創新能力得到鍛煉,教師在教學過程中不斷完善了自身的知識結構,提高了教學水平,實現了教學相長,得到了學生的好評。

參考文獻:

[1] Anand Rajaraman, Jeffrey David Ullman.大數據:互聯網大規模數據挖掘與分布式處理[M].人民郵電出版社,2012.

[2] 李國杰.大數據研究的科學價值[J].中國計算機學會通訊,2012.8:8-15

[3] Jiawei Han,Micheline Kamber,Jian Pei等.數據挖掘概念與技術(第3版)[M].機械工業出版社,2012.

篇4

二、根據信息管理專業本科生培養要求確定課程目標

數據挖掘課程是一門綜合性很強的前沿學科,對計算機軟硬件、數據庫、人工智能技術、統計學算法、優化算法等基礎知識都有較高的要求。因此該門課程開設在學生大三下學期,既有相關知識的基礎,又為大四做畢業設計提供了一種思路。信息管理專業是計算機與管理相結合的專業,旨在培養具備信息系統開發能力與信息資源分析與處理能力的綜合應用型人才。對信息管理專業的學生而言,本課程主要的目標是數據挖掘算法原理理解、數據挖掘算法在商務管理問題中的應用以及常用數據倉庫與數據挖掘軟件的熟練應用和二次開發。

三、基于模塊化方法的課程內容分析

模塊化教學模式是按照程序模塊化的構想和原則來設計教學內容的一整套教學體系,它是在既定的培養目標指導下,將全部教學內容按照一定標準或規則進行分解,使其成為多個相對獨立的教學模塊,且各教學模塊之間可以按照一定的規則有選擇性的重新組合。學生可以根據個人興趣和職業取向在不同模塊之間進行選擇和搭配,從而實現不同的教學目標和人才培養要求。模塊化教學本質上是以知識點與實踐的細化為出發點研究的。商務智能方法本身非常豐富,實踐應用也是課程的主要特點之一,因此十分適合使用模塊化的知識分解方式。本課程的知識點模塊管理分為兩個層次,一是從宏觀角度設計課程的基礎內容模塊和高級主題模塊;二是從微觀角度針對較為復雜的教學內容進行的知識點劃分。

1.課程主要內容模塊化分析。目前該課程包括十章理論內容,分別為數據倉庫與數據挖掘的基本知識、數據倉庫的OLAP技術、數據預處理、數據挖掘系統的結構、概念描述:特征化與比較、挖掘大型數據庫中的關聯規則、分類與預測、聚類分析、復雜類型數據挖掘和序列模式挖掘。根據模塊化管理的宏觀角度分類,課程內容的第一至五章屬于基礎理論部分和簡單數據挖掘技術的介紹,可以作為基礎內容模塊;第六至八章為數據挖掘的核心算法,其中既有基礎理論與技術方法,又可深入到較難的方法和復雜的應用,因此介于基礎內容與高級主題之間;第九、十章可以算做課程的高級主題模塊;另外,課程的實踐模塊既包含數據倉庫的建設又包含數據挖掘算法的應用,難度也介于基礎內容與高級主題之間。

2.復雜知識點的模塊化管理。從微觀角度對知識點進行設計主要針對的是上述的高級主題、以及難度介于基礎內容與高級主題之間的章節,由于這些章節知識點在難度上有一定層次,講授內容彈性比較大,因此需要在課程設計中明確一定課時量所要達到的難度。以商務智能技術中的分類算法為例:首先一般的入門課程都會介紹分類算法的概念和基本原理;接著開始介紹分類算法的基礎算法———決策樹,而決策樹算法中又包含ID3等多種算法,并且除了決策樹外,還有其他更高級的分類算法;在真正使用分類法進行預測時,還要分析預測準確度;最終要將所學知識加以應用。這樣就形成了一個結構清晰、難度循序漸進的知識點模塊的層次關系。在宏觀角度、微觀角度對教學內容進行分類的前提下進行相應的授課方法與考查方法的研究,才能真正有助于學生的學習。

四、授課與考核方法設計

對不同層次學生要求不同,這種不同既體現在知識點的要求上,又直接體現在任務的難易性程度上,這都需要教師在課程設計時充分考慮不同要求情況下的不同的授課方式,并使學生清楚自己需要掌握的程度。對于高級算法和實現部分,通常可以選擇一到兩章內容采用專題探討式的教學方法。這種方法是指在教師啟發和引導下,以學生為主體,選擇某個基本教學單元為專題,學生自主研究作為知識傳遞的基本形式,將多種靈活的教學方式綜合運用到教學環節的教學方法。根據信管專業培養方案的培養目標、以及對學生調研的情況,實踐環節比較適合選擇成熟的商務智能工具進行數據的整合和多維數據建模,也就是直接使用現成的;或者使用數據挖掘軟件進行數據建模,完善數據挖掘算法。可以針對學生管理基礎課與IT基礎課知識的掌握情況,選擇合適的工具為學生設計綜合性實驗。實驗中給出部分操作步驟,并在實驗后期僅給出數據與工具,讓學生自己設計數據倉庫、進行數據挖掘、并對挖掘結果進行多種形式的展示。

篇5

中圖分類號:G642 文獻標志碼:A 文章編號:1006-8228(2014)11-65-02

Course construction of data mining course for IT specialty in application-oriented university

Li Zhong, Li Shanshan

(Institute of Disaster Prevention, Sanhe, Hebei 065201, China)

Abstract: Aiming at the content differences of data mining course in the application-oriented university, the training objectives and requirement for different specialty are analyzed. The content system and hours arrangements of data mining courses for IT specialty starting are given from the three major functions of data mining. Based on the last two years' student teaching effectiveness of data mining courses, it is concluded that combining theoretical and experimental training content settings with appropriate teaching methods can improve learning interest, stimulate learning enthusiasm, improve operating ability and achieve training objectives.

Key words: data mining; course content system; IT specialty; teaching effectiveness

0 引言

毋庸置疑,我們正處在信息時代。根據國際互聯網管理機構2012年的數據,每天全球互聯網流量累計達1EB(即10億GB),這意味著每天產生的信息量可以刻滿1.88億張DVD光盤[1]。要想在如此浩瀚的數字海洋里尋找有用的信息,簡直是大海撈針!因此數據挖掘技術應運而生。大概十幾年前,微軟創始人比爾?蓋茨就預言,數據挖掘技術將是未來計算機發展的重要方向之一,事實也的確如此。

數據挖掘技術誕生于20世紀80年代末,是統計學和計算機科學的交叉學科,涉及數據庫技術、統計學、機器學習、神經網絡、模式識別、知識發現、專家系統、信息檢索、高性能計算、可視化以及面向對象程序設計等若干學科知識,在商業、金融、保險、體育、勘探、生物技術等領域獲得廣泛應用。也正因為該課程涉及的內容寬泛,要求知識面寬廣、數學基礎扎實等,前幾年主要在研究生階段開設。但是隨著信息技術的快速發展,本科生能力要求提高,知識傳授的重心下移,很多高校已在本科階段開設數據挖掘課程,以提高大學生解決實際問題的能力,進而為課程設計和畢業設計打下必要的基礎[2]。

1 國內高校本科數據挖掘課程開設現狀

通過院校實地交流,結合網絡搜索,我們已經收集了十幾所高校的數據挖掘課程教學大綱,開設專業包含有計算機類專業、經濟統計類專業、電氣自動化類專業、生物技術專業等,各專業根據自己的人才培養目標制訂教學大綱、教學計劃、考試大綱等,其內容存在很大差異。其中985、211高校主要以英語授課,采用國外原版教材,課程內容涉及算法、編程較多;而一般院校多采用中文教材,根據專業不同,內容也有很大差異。

經濟統計類專業開設數據挖掘課程,要求學生了解什么是數據挖掘,以及如何用數據挖掘來解決實際問題,了解如何通過幾種數據挖掘技術建立數學模型,了解主流數據挖掘系統的特點,能夠安裝、使用,要求能夠熟練使用典型的挖掘工具對實際數據進行分析,具備從數據資源提取信息與知識并進行輔助決策的基本能力。

篇6

中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2014)30-0240-03

隨著數據挖掘、商務智能技術的快速發展與廣泛應用,亟需對信息管理專業的本科生加強對相關知識的介紹,此時進行課程改革,調整、增加授課學時和實踐環節有重要意義。數據挖掘是一門與多學科交叉的新興計算機專業課程,其課程內容豐富、應用范圍廣、實踐工具類型繁多。在有限授課時間內,如何選擇適合于信息管理專業的本科生的課程內容、案例與軟件工具,選用何種有針對性的教學方法,是進行數據挖掘課程設計需要解決的主要問題。

一、國內外數據挖掘類課程建設研究分析

近年來,數據挖掘與商務智能技術發展迅速,充分借鑒國外相關研究,尤其是ACM SIGKDD課程委員會對數據挖據課程建設建議,對進行數據挖掘類課程的教學建設研究有重要意義。ACM(美國計算機協會)于1998年成立了SIGKDD(知識發現興趣小組),致力于知識發現與數據挖掘的相關研究,ACM SIGKDD課程委員會連續多年多次更新其主要課程――數據挖據課程的建議,其中委員會將數據挖掘課程分為基礎部分與高級主題,基礎部分覆蓋了數據挖掘的基本方法,高級主題既有數據挖掘基本方法的深入研究,又有更高級算法的介紹。國外很多大學的計算機科學學院、商學院都開設了數據挖掘類課程并同時進行相關研究。波士頓大學開設了“數據管理與商務智能”課程,課程主要包括基礎、核心技術、應用三部分。許多國外著名大學建立了教學管理系統,提供大量的案例、在線討論和在線輔導功能。國內很多學校都開設了數據挖掘的相關課程,我國大多數高校的課程大綱內容與國外大致相同,只是在實踐部分選用了不同的商務案例。數據挖掘的應用領域廣泛,因此可以根據開課學院和專業選擇合適的實例。

二、根據信息管理專業本科生培養要求確定課程目標

數據挖掘課程是一門綜合性很強的前沿學科,對計算機軟硬件、數據庫、人工智能技術、統計學算法、優化算法等基礎知識都有較高的要求。因此該門課程開設在學生大三下學期,既有相關知識的基礎,又為大四做畢業設計提供了一種思路。信息管理專業是計算機與管理相結合的專業,旨在培養具備信息系統開發能力與信息資源分析與處理能力的綜合應用型人才。對信息管理專業的學生而言,本課程主要的目標是數據挖掘算法原理理解、數據挖掘算法在商務管理問題中的應用以及常用數據倉庫與數據挖掘軟件的熟練應用和二次開發。

三、基于模塊化方法的課程內容分析

模塊化教學模式是按照程序模塊化的構想和原則來設計教學內容的一整套教學體系,它是在既定的培養目標指導下,將全部教學內容按照一定標準或規則進行分解,使其成為多個相對獨立的教學模塊,且各教學模塊之間可以按照一定的規則有選擇性的重新組合。學生可以根據個人興趣和職業取向在不同模塊之間進行選擇和搭配,從而實現不同的教學目標和人才培養要求[1,2]。模塊化教學本質上是以知識點與實踐的細化為出發點研究的。商務智能方法本身非常豐富,實踐應用也是課程的主要特點之一,因此十分適合使用模塊化的知識分解方式。本課程的知識點模塊管理分為兩個層次,一是從宏觀角度設計課程的基礎內容模塊和高級主題模塊;二是從微觀角度針對較為復雜的教學內容進行的知識點劃分。

1.課程主要內容模塊化分析。目前該課程包括十章理論內容,分別為數據倉庫與數據挖掘的基本知識、數據倉庫的OLAP技術、數據預處理、數據挖掘系統的結構、概念描述:特征化與比較、挖掘大型數據庫中的關聯規則、分類與預測、聚類分析、復雜類型數據挖掘和序列模式挖掘。根據模塊化管理的宏觀角度分類,課程內容的第一至五章屬于基礎理論部分和簡單數據挖掘技術的介紹,可以作為基礎內容模塊;第六至八章為數據挖掘的核心算法,其中既有基礎理論與技術方法,又可深入到較難的方法和復雜的應用,因此介于基礎內容與高級主題之間;第九、十章可以算做課程的高級主題模塊;另外,課程的實踐模塊既包含數據倉庫的建設又包含數據挖掘算法的應用,難度也介于基礎內容與高級主題之間。

2.復雜知識點的模塊化管理。從微觀角度對知識點進行設計主要針對的是上述的高級主題、以及難度介于基礎內容與高級主題之間的章節,由于這些章節知識點在難度上有一定層次,講授內容彈性比較大,因此需要在課程設計中明確一定課時量所要達到的難度。以商務智能技術中的分類算法為例:首先一般的入門課程都會介紹分類算法的概念和基本原理;接著開始介紹分類算法的基礎算法――決策樹,而決策樹算法中又包含ID3等多種算法,并且除了決策樹外,還有其他更高級的分類算法;在真正使用分類法進行預測時,還要分析預測準確度;最終要將所學知識加以應用。這樣就形成了一個結構清晰、難度循序漸進的知識點模塊的層次關系。在宏觀角度、微觀角度對教學內容進行分類的前提下進行相應的授課方法與考查方法的研究,才能真正有助于學生的學習。

四、授課與考核方法設計

對不同層次學生要求不同,這種不同既體現在知識點的要求上,又直接體現在任務的難易性程度上,這都需要教師在課程設計時充分考慮不同要求情況下的不同的授課方式,并使學生清楚自己需要掌握的程度。對于高級算法和實現部分,通常可以選擇一到兩章內容采用專題探討式的教學方法。這種方法是指在教師啟發和引導下,以學生為主體,選擇某個基本教學單元為專題,學生自主研究作為知識傳遞的基本形式,將多種靈活的教學方式綜合運用到教學環節的教學方法[3]。根據信管專業培養方案的培養目標、以及對學生調研的情況,實踐環節比較適合選擇成熟的商務智能工具進行數據的整合和多維數據建模,也就是直接使用現成的;或者使用數據挖掘軟件進行數據建模,完善數據挖掘算法。可以針對學生管理基礎課與IT基礎課知識的掌握情況,選擇合適的工具為學生設計綜合性實驗。實驗中給出部分操作步驟,并在實驗后期僅給出數據與工具,讓學生自己設計數據倉庫、進行數據挖掘、并對挖掘結果進行多種形式的展示。

五、結論

本文通過國內外數據挖掘課程內容、分類、教學方法的分析,針對信管專業本科生的培養要求,研究了數據挖掘課程建設的主要內容,并針對知識點的不同模塊,實行不同的授課方式,使學生更加明確重點、難點和擴展內容,提高了學生的聽課效率,對教學內容的模塊化分類、以及相應的授課方式的研究成果仍可繼續發揮作用,并進行更深入的研究和實踐。

參考文獻:

[1]韋艷艷,張超群.模塊化教學與學習遷移[J].當代教育論壇,2018,(5).

[2]鄭浩,陶虎,王曉輝.高校模塊化教學模式及其效果評價方法[J].科技信息,2012,(25).

篇7

摘 要:數據倉庫與數據挖掘是大數據時代產生的一門新興交叉的課程。針對該課程的特點,將CDIO工程教學理念融合到教學過程,重新設置了教學目標與大綱、調整了教學內容、改進了教學方法,總結了數據挖掘課程教學實踐的一般流程并給出具體的實驗教學設計方案。

關鍵詞 :教學改革;數據倉庫;數據挖掘;CDIO

中圖分類號:G642 文獻標識碼:A doi:10.3969/j.issn.1665-2272.2015.09.040

收稿日期:2015-03-15

1 CDIO簡介

CDIO工程教育模式是基于項目的學習的一種模式。CDIO中,C(Conceive)構思,根據工程實踐,讓學生掌握專業知識的基本原理,確定未來發展方向;D(Design)設計,以產品設計與規劃為核心,解決具體問題;I(Implement)執行,以制造為核心,組織一體化的課程實踐,其中包括學生必須掌握的理論知識與實踐能力;O(Operate)運作,即產品應用的各個環節。它以產品的研發到運行的生命周期為載體,通過系統的產品設計讓學生以主動的、實踐的、課程有機聯系的方式學習。CDIO代表工程項目生命全周期,是產業轉型升級對創新人才需求的形勢。

CDIO培養大綱將工程畢業生的能力分為技術知識與推理、個人專業能力和素質、團隊合作與溝通能力、在企業和社會環境下CDIO系統四個層面,大綱要求以綜合的培養方式達到這四個層面的預定目標。其精髓在于:以工程項目設計為導向、工程能力培養為目標的工程教育模式。

2 “數據倉庫與數據挖掘”課程概況

當今的大數據時代,人們處理數據的能力大大增強,快速增長的海量數據已經遠遠超出人們的理解能力,因此數據倉庫與數據挖掘技術得到了廣泛關注,有效地挖掘和運用海量數據,獲得有價值的知識和信息,從而幫助人們制定正確的決策。很多高校為工程類專業本科生開設這門專業課,研究如何將信息處理技術運用于企業管理決策的具體實際。

本工程課程涉及到數據倉庫的設計與構建技術、聯機分析處理OLAP技術、分類與預測、聚類、關聯規則算法、數據挖掘應用綜合項目技術等多方面的知識和技能。通過課程的學習,不僅要求學生掌握在數據倉庫與數據挖掘方面的知識,還要求培養學生的工程CDIO能力。

但是目前許多高校在工程教育采用的教學方式存在以下問題:培養目標不清楚,學術化傾向嚴重;人才培養模式單一,缺乏多樣性和適應性;工程性缺失和實踐環節薄弱;課程體系與產業結構調整不適應等。在教學過程中,強調教師的主導作用,卻忽視了學生的主體作用,忽視了學生的工程意識、工程素質和工程實踐能力的培養。這與高校培養創新性應用型人才的目標相悖。因此,改革勢在必行。

3 “數據倉庫與數據挖掘”課程改革實踐

3.1 基于CDIO理念的教學目標與大綱

CDIO教育理念所提倡的工程畢業生的能力分為技術知識與推理、個人專業能力和素質、團隊合作與溝通能力、在企業和社會環境下CDIO系統四個層面,四個層面上進行綜合培養的教學模式。在CDIO能力培養目標方面,課程在四個能力層面上建立培養目標。

針對“數據倉庫與數據挖掘概述”內容,知識點是數據倉庫的含義與特征、數據挖掘的任務、多維數據模型。講授數據倉庫的概念、特點、構成以及數據挖掘和數據處理的基本知識,使學生有一個初步的理解。培養學生技術知識與推理能力。

針對“聯機分析處理OLAP”內容,知識點是數據倉庫的數據組織、數據預處理、數據存儲、基于多維數據模型的數據分析。本階段如果不結合直觀的舉例講解,學生就失去了興趣,因此筆者要布置一些思考題,教會學生自主學習,自己查閱教材、網絡等資源資料,從中提煉出結論。培養個人分析問題、解決問題的能力、所學知識的靈活應用能力;

針對“分類與預測、聚類、關聯規則”內容,知識點是數據采集、關聯規則算法的設計、結果分析。在這個階段經常會是“數據的堆砌”,講了很廣泛的算法知識卻沒有足夠的時間進行深入理解。因此應抓住關鍵的概念、能力,引導學生提出問題,并學會調查研究,為學生提供深層學習的機會,并把在第一層面所學的知識運用到對問題的解決之中去。這樣,學習的焦點就從“覆蓋”的方式過渡到以學生為中心的學習方式。培養數據獲取能力、程序設計能力、問題表達能力;

針對“數據挖掘應用綜合項目”內容,知識點是項目的準備、進度管理、文檔管理和項目設計和實現。實際工作牽涉到企業或者組織的各個部門多類人員,所有團隊成員之間協同、合作,會有分工、溝通、協調,甚至會有妥協,這就要求在運用實例的過程中一定要具有團隊合作精神。培養工程系統能力和人際團隊能力。

3.2 改革教學內容

在教學內容中安排了兩級項目:多種初級項目和一個高級項目。初級項目是將課程內容分成各種項目,數據主要來源于SQL Server 2008的示例數據倉庫Adventure Works DW,以項目實現促進理論學習;高級項目是綜合性項目:“卷煙產品銷售規律挖掘”,利用卷煙產品歷史銷售數據中蘊含的信息,采用數據挖掘技術對各個卷煙品種銷售的關聯關系進行分析并預測,以制定更加合理的卷煙產品營銷策略。具體項目設置如下:

項目一:基于SQL Server 2008的數據倉庫數據庫及多維數據模型設計。步驟如下:分析組織的業務狀況及數據源結構組織需求調研,收集分析需求采用信息包圖法設計數據倉庫的概念模型利用星型圖設計邏輯模型物理模型設計構建多維數據模型。本項目旨在個人能力的培養(分析問題、解決問題的能力、所學知識的靈活運用能力等)。

項目二:關聯規則挖掘。使用商業智能開發工具進行購物籃分析,以達到重新設計網站功能,提高產品的零售量。

項目三:潛在客戶分析即分類及預測。使用商業智能開發工具分析購買自行車的潛在客戶。

項目四:K-Means聚類分析。使用商業智能開發工具分析客戶購買自行車情況分析。

項目五:貝葉斯網絡應用。使用商業智能開發工具解決一個簡單的預測和診斷問題。

項目二至五旨在培養學生個人能力(數據獲取能力、程序設計能力等)和人際團隊能力(問題表達能力、人際交流能力),倡導學生樂于探究、勤于動手。

高級項目:數據挖掘應用綜合項目“卷煙產品銷售規律挖掘”。將一個相對獨立的項目交由學生自己處理,從信息的收集,方案的設計,到項目實施及最終評價,都由學生自己負責,學生通過該項目的進行,了解并把握整個過程及每一個環節中的基本要求。通過綜合項目,學生完成了CDIO的四個階段,提升CDIO所提倡的四大能力,具體體現如表1所示。

3.3 改革教學方法

在課程教學方法是項目教學法為主,任務驅動法和案例教學法為輔的教學模式,起到很好的教學效果。

4 結語

CDIO工程教育模式由麻省理工學院和瑞典皇家工程學院提出,包括構思、設計、實現和運作四個環節,是國際流行的工程人才培養理念,強調對學生創新思維、實踐能力和團隊協作精神的培養。本文體現了CDIO理念的能力培養要求,將數據倉庫設計開發方法和數據挖掘技術融入具有較強工程背景與應用價值的項目設計與開發中,理論與實踐緊密結合,推動課程建設和課程教學改革。

參考文獻

1 顧佩華,沈民奮,陸小華譯.重新認識工程教育—國際CDIO培養模式與方法[M].北京:高等教育出版社,2009

2 郭長虹. 重構CDIO特色的工程圖學課程體系[J].圖文學報,2013(3)

篇8

關鍵詞: 數據挖掘技術;課程;教學

Key words: data mining technology;course;teaching

中圖分類號:G642.0 文獻標識碼:A 文章編號:1006-4311(2011)25-0155-01

0 引言

數據挖掘技術是電子商務專業的一門重要專業課程,它是信息化時代對信息與數據管理的必然要求。一方面,在生產、生活和商業活動中,我們產生了海量的數據,這些數據有著不同的表現形式,如最常見的超市記錄單、各種各樣的公司或商業數據庫,還包括音頻、視頻等;另一方面,我們需要從這些數據中尋求規律,對數據進行“挖掘”,使數據發揮更大的作用[1]。數據挖掘正是從大量的數據中提取出隱含的、以前不為人所知的、可信而有效的知識[2]。數據挖掘技術教學的目的就是要使學生掌握典型的數據挖掘技術,并能夠運用數據挖掘技術解決實際問題,為今后運用數據挖掘技術解決實際問題打下扎實的基礎。

1 數據挖掘技術課程特點

數據挖掘技術具有自己獨特的課程特點:

1.1 新穎性 1995年,在加拿大召開了第一屆知識發現和數據挖掘國際學術會議(International Conference on Knowledge Discovery and Data Mining),由于把數據庫中的數據形象地比喻為“礦床”,“數據挖掘”一詞很快流傳開來[3]。數據挖掘的發展僅有10余年的時間,數據挖掘技術課程是一門新興學科。

1.2 內容廣 數據挖掘包括關聯規則挖掘、分類規則挖掘、特征規則挖掘、時序規則挖掘、偏差規則挖掘、聚類規則挖掘和預測這七大任務,相應的,每種任務都有自己專門的挖掘技術[4],如關聯規則挖掘的典型技術為Apriori算法及其衍生技術,分類規則挖掘的典型技術為ID3或C4.5決策樹算法及其改進算法等。

1.3 有深度 數據挖掘技術作為一門計算機與數據處理相結合的新興學科,具有一定的難度。其中的任何一個技術都可以獨立成篇,如粗糙集分類算法自原理至實例推廣就是一門單獨的課程;作為數據處理的重要內容,聚類算法同樣可以獨立成籍。

1.4 交叉性 誠如前面所述,數據挖掘技術有著廣泛的支撐背景,既包括信息論方法和集合論方法等歸納學習類技術,又包括神經網絡方法、遺傳算法方法、蟻群算法等仿生物技術,還包括成熟的統計分析技術和模糊數學技術,此外還有公式發現類技術和可視化技術等。可以這樣說,數據挖掘總是在廣泛吸取其他各門學科的先進技術,并加以轉化、發展的。

2 數據挖掘技術教學過程存在的問題剖析

數據挖掘技術作為一門新學科、新課程,發展迅速,但是其缺點也是不言而喻的,主要包括:

2.1 課程教材不統一 目前,數據挖掘技術的教材層出不窮,這些教材盡管總體涵蓋內容相近,均自成體系,但是有的細節卻并不一致,如多數教材主張采用E-R圖進行數據倉庫(數據挖掘通常總是與數據倉庫連接在一起的)設計,但也有教材持反駁態度[3];對數據倉庫系統的體系結構說法也不盡一致,不同的教材給出不同的體系結構,有的甚至將數據結構等同于體系結構[5]。這主要是由于學科和課程的新穎性導致的,使得教材的編寫多帶有研究探索的性質,未能達成統一。

2.2 教學重點不統一 教材的不統一和學時的不統一(如有的院校是36課時,有的是48課時)導致教學重點也不統一,有的考慮到學生掌握知識的淺顯性,將重點放在統計分析技術,而對神經網絡技術和遺傳算法技術等相對較難的技術一筆帶過;有的則考慮到體系的完整性,對所有數據挖掘技術等同對待,均勻筆墨。

2.3 教學方式不統一 數據挖掘技術是一門實驗技術較強的課程,但是有的教師在安排授課時,僅設置理論課時,沒有實驗課時;有的教師則將課程直接放在實驗室來上,偏重于對學生實驗技巧的掌握。當然,更多的是將實驗課時與理論課時交錯進行的。對實驗安排的處理也不盡相同,有的分組進行,有的則由學生獨立完成。

3 提高數據挖掘技術課程效果的對策建議

3.1 精心編排課程講義 課程教材是授課的首要基礎,一本好的教材不僅便于教師的備課、授課,更有利于學生的理解。當然,教材與課時、教學大綱有著密切關系,教師在選擇教材時應充分考慮學生的學科基礎、授課課時數、教學大綱規定的培養目標等各種因素,從大量層出不窮的教材中選擇最理想的教材,適當的時候也可根據相關教材,整理一份恰當的講義教材,組織學生使用。

3.2 合理安排教學內容 數據挖掘技術的教學內容應考到學科體系的完整性,既要為學生打牢理論基礎,又要突出學生實踐能力的培養。因此要以“掌握理論、強化應用、突出能力”作為數據挖掘技術課程的培養目標,通過精選具有充分代表性、源于實際問題的典型例題與案例,使它們能基本覆蓋在實際中最常見的數據挖掘問題,在講解這些從實踐中抽取并經過精心改造和設計的例題和案例的過程中,逐步地建立起學生應該掌握的數據挖掘技術理論框架。

4 結束語

數據挖掘技術教學具有十分重要的現實意義,通過科學講述數據挖掘技術,有助于培養學生對理論知識的現實應用轉化能力,培養學生從現實世界出發提出問題、分析問題和解決問題的能力。數據挖掘技術的教學應以培養學生能力為主線,精心組織教學內容,有效采用多種方式,增進學生對知識的理解與掌握,顯著提高教學效果與質量。

參考文獻:

[1]陳文偉.數據倉庫與數據挖掘教程[M].北京:清華大學出版社,2006.

[2]Jiawei Han,Micheline Kamber著.范明,孟小峰譯.數據挖掘:概念與技術[M].北京:機械工業出版社,2007.

篇9

中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2008)16-21267-03

Data Mining Based Course Competence Development of C Programming Language for Vocational College

GUO Xiao-chen1,2

(Chenzhou Vocational Technical College,Chenzhou 423000,China)

Abstract:In this paper we utilize the data mining technology into the course of C programming language in vocational colleges in order to classify and predict the examination result, and eventually find out the implied information. This is helpful to make guidance for improving the quality of teaching and deepen the teaching reform.

Key words: data mining; concept description;class comparision; C Programming Language

1 引言

C語言程序設計課程是計算機應用和電子信息工程專業的必修程序設計課,是知識性、技能性和實踐性很強的課程。主要培養學生利用計算機來處理實際問題的能力和培養學生程序設計的思維能力,使學生能夠掌握C語言的基本語法和算法,能利用C語言進行基本的程序設計。

C語言程序設計主要由數據描述、程序控制兩大模塊組成,包括基礎數據類型、流程控制、函數和復雜數據類型等四個單元的內容。筆者從事多年的C語言程序設計教學工作,如何利用有效數據分析工具,將所積累的豐富的數據轉換為有價值的知識,了解和分析學生的知識掌握及能力培養情況,并采用相應的教學改革。

2 數據挖掘技術的概念和內涵

數據挖掘(DataMining)是對大量的、不完全的、有噪聲的、模糊的、隨機的實際數據,進行抽取、轉換、分析和模型化處理,從而提取能輔助決策的關鍵性數據,并能結合應用領域的特點,推導出有用的知識的過程;簡而言之,數據挖掘就是深層次的數據信息分析方法。通常采用概念/類描述、關聯分析、分類和預測、聚類分析及演變分析等方法來完成數據挖掘。數據挖掘的過程是一個線性的過程,依據不同信息平臺的數據類型,采用面向環境的管理方式,實現面向環境要求的數據挖掘。數據挖掘的過程一般由數據準備、數據挖掘、結果的解釋與評估四個階段組成。

3 數據挖掘技術在《C語言程序設計》課程能力培養分析中的應用

3.1 數據倉庫的建立

挖掘所需要的數據來源于某高職院校近3年來計算機應用和電子信息工程兩專業近860名學生的C語言程序設計這門課程的期末考試成績、實驗成績及實習成績,給定屬性學號(ID)、姓名(name)、性別(gender)、專業(major)、科類(section)、成績(result)。成績部分包括考試成績(test_result簡稱為t_r)、實驗成績(experimental_result簡稱為e_r) 、實習成績(practice_result簡稱為p_r)及總分數(total_score簡稱為t_s),其中總分數=考試成績×70%+實習成績×20%+實驗成績×10%。通過對考試試卷的分析統計,基礎數據類型(Foundation Data Type簡稱為FDT)、流程控制(Process Control簡稱為PC)、函數(Function簡稱為F)和復雜數據類型(Complicated Data Type簡稱為CDT)四個單元的分數比重分別為20%,30%,20%,30%,綜合考慮各單元的內容,匯總統計出各單元的滿分分值為14,21,14,21。

該數據挖掘任務可以用DMQL表示如下:

Define cub discretmath〔ID,name,gender,section,major,result〕。

total_score=sum (result);

define dimension result(test_result,Programes_result,practice_ result);

define dimension test_result(FDT,PC,F, CDT)。

數據倉庫的結構如表1:

3.2 數據的預處理

由于現實中的數據多半是不完整的、有噪聲的、不一致的,某些學生的成績會因教師個人感情或其它因素而分數偏高或偏低,從而導致現有分數含有一定偏差的噪聲數據,對此可以通過數據的預處理技術改進數據的質量,提高其后的挖掘過程的精度和性能。本文利用數據清理中的聚類中K_平均算法找出孤立點,并利用分箱技術將噪聲去掉。表2為經過數據預處理的二維視圖。

以上數據倉庫中的數據,就是經過預處理后,得到的是集成的、概念分層的、不含有噪聲的數據,該數據可以用來進行準確的數據挖掘工作。

3.3概念/類描述

3.3.1數據概化

數據庫中的數據和對象通常包含原始概念層的細節信息,在多數情況下,感興趣的一般是在不同抽象層上得到的數據的量化信息或統計信息。因此,首先采用解析特征化進行屬性相關分析,來幫助識別不相關或弱相關屬性,將它們排除在概念描述過程之外。概化過程如下:

1)收集目標類數據,它由計算機專業的集合組成,對比類數據取電子信息工程專業的集合;

2)用保守的屬性概化閾值進行面向屬性的歸納,通過屬性刪除和屬性概化進行預相關分析。

ID:由于ID存在大量不同值,并且其上沒有概化操作符,該屬性被刪除;name:由于name存在大量不同值,并且其上沒有概化操作符,該屬性被刪除;gender:由于gender只有兩個不同值,該屬性保留,并且不對其進行概化;major:假定已定義了一個概念分層,允許將屬性major概化到值{計算機應用,電子信息工程};section:假定已定義了一個概念分層,允許將屬性科類概化到值{理科,文科,對口};total_score:該屬性存在大量不同值,因此應當概化它。假定存在total的概念分層,將分數數值區間{100_85,84一70,69_60,59_0}按等級(grade){A,B,C,D}分組,這樣該屬性可以被概化。

表3通過對表2的數據進行概化得到的關系

3.3.2類比較的實現

通過概化處理,數據倉庫中的屬性基本已經得到了單個類的描述。但我們希望挖掘一個描述是它能將一個類與其它可比較的類相區分,因此采用挖掘類比較來實現。現給定了屬性gender, section,major, test_result,program_result,practice_ result和grade。

1)專業類別分析

首先確定目標類與對比類為屬性major中計算機應用和電子信息工程兩個不同專業的學生;其次,對兩個數據上進行維相關分析,不相關或弱相關的維從結果類刪除;再次,在目標類上進行同步概化,產生主目標類關系,如表4所示。

從表4可以看出,與電子信息工程專業相比,計算機應用專業的學生趨向平均分、實習成績及實驗成績這三部分分數較高,體現出學生在知識應用能力和計算機編程能力上較強,但對知識掌握出現兩極分化嚴重,針對這部分基礎知識掌握不牢固的學生,教師在執教時就應考慮加強基礎知識的鞏固。相對而言電子信息工程專業的學生對基礎知識的掌握基本較好,但對該課程的靈活應用有所欠缺,這就使得在教學過程中應適當注重培養學生的應用能力,加強對他們編程、實驗及實習的輔導。

2)性別類別分析

首先確定目標類與對比類為屬性gender中的男和女;其次,對兩個數據上進行維相關分析,不相關或弱相關的維從結果類刪除;再次,在目標類上進行同步概化,產生主目標類關系,如表5所示。

表4 主類(計算機應用)與目標類(電子信息工程)關系 表5 主類(男)與目標類(女)關系

從表5可以看出,與女生相比,男生從總體上對該門課程的學習效果較差,不及格率較高,且優秀率低,基礎知識掌握不牢固,體現出不少男生學習態度不端正,目的不明確,缺乏學習的積極性。而女生這門課的成績比男生好,優秀率高,及格率高,對基礎知識掌握牢固,但在知識的應用能力方面欠佳不能很好地靈活運用;由此可見,教師在教學過程中須考慮學生的性別差異,因材施教。

3)科類類別分析

首先確定目標類與對比類為屬性section中文科類、理科類和對口類;其次,對兩個數據上進行維相關分析,不相關或弱相關的維從結果類刪除;再次,在目標類上進行同步概化,產生主目標類關系,如表6所示:

從表6可以看出,與理科類、文科類相比,通過對口高招進來的學生不管對理論知識的掌握還是在實踐技能上都比較突出,且目的性非常強。而文科類與理科類相比, 文科類對基礎知識的學習優于理科類,但在知識的應用能力上較差,理科類則恰恰相反。可見,教師在教學過程中除了考慮普遍學生存在的問題外,還需要注意學生的差異,對于對口類學生而言應多準備一些相對大的項目,讓其能“吃飽”,而對于理科類和文科類學生一方面要加強理論基礎知識的學習指導,另一方面要適當注意培養其應用能力,加強對編程及實踐方面的輔導。

4 結論

利用多年的C語言程序設計課程的成績的數據,通過數據挖掘技術探索和發現兩個專業學生對這門課程的知識掌握及能力培養的情況,可以有針對性地進行教學內容和教學方式的改革,使得學生更好地掌握C語言程序設計這門課的知識,培養各方面的能力,為以后的課程學習、專業發展打下堅實的基礎。

參考文獻:

[1] JiaweiH,MichelineK.DataMiningConceptsandTechniquo5[M].Beijing:China Machine Press,2006.

[2] 朱明.數據挖掘[M].合肥:中國科技大學出版社,2O02.

[3] 張錦祥.高級程序設計語言課程教學改革與實踐[J].浙江教育學院學報,2007(4)71-76.

篇10

YANG Nan-yue

(Industrial Training Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China)

Abstract: Since personalized teaching has been implemented in multimedia technology teaching in the past five years, a lot of teaching data accumulated from multimedia technology online learning platform. The article introduced data mining and analysis technology to process these data in order to obtain support and decision-making reference for the improvement of the quality of personalized teaching. First, the snowflake model of courses selection for data warehouse was built. Then the Apriori algorithm was used to dig out the inner link between the students’ media technology achievements and the final grade. And then cluster analysis with k-means algorithm on all students’ scores was conducted. Finally, the calculated results were visualized and analyzed. Practice proved that data mining and analysis technology is a useful tool for quantitative analysis in the teaching.

Key words: data mining; snowflake model; association rule; cluster analysis; personalized teaching

我校的多媒體技術公選課面向全校各年級各專業本科生開課,因此選修本課程的學生來源較復雜,其計算機基礎參差不齊。過往統一步調的授課模式滿足不了不同層次學生的需求,所以從2011年開始,本門課程實施教學改革,以多媒體技術在線學習平臺為基礎,結合課堂授課開展個性化教學,把多媒體技術包含的四大媒體技術課程:圖像處理、音頻處理、視頻處理和動畫制作做成講座的形式,每一門課程分別包含兩到三次的講座,學生根據自己的情況選聽選學。每門媒體技術不同難易度的學習資料都放在學習平臺里,學生可以自由選擇學習資源,并通過網絡或課堂與同學和老師進行學習交流。考核方式為每一門課程最后一次講座講完后在學習平臺上進行隨堂考試,要求每位學生至少選考其中三門。本門課程期末考試也在學習平臺上進行,要求全體學生都必須參加。本教改實施五年來,學生反應良好,同時多媒體技術學習平臺網站上存在著大量學生成績和教師教學及管理過程中的相關數據,那么這些數據之間存在著怎樣的聯系,是否蘊藏著教與學之間的知識和規律?由于數據挖掘技術能夠發現隱藏在海量數據中的潛在聯系和規則,從而預測未來的發展趨勢[1],因此我們把該技術引入學習平臺中的信息資源管理系統,把大量積累的教學基礎數據建立數據倉庫[2],在這基礎上運用數據挖掘手段從中快速準確地提取出重要的信息和有價值的知識,找出影響學習成績的因素,為進一步改善個性化教學的教學質量提供數據支持和決策參考。

1 數據倉庫多維數據模型的建立

數據倉庫的邏輯數據模型是多維數據模型。目前使用的多維數據模型主要有星型模型和雪花模型。一個典型的星型模式包括一個大型的事實表和一組邏輯上圍繞這個事實表的維度表[3]。雪花模型是對星型模型的擴展,將星型模型的維度表進一步層次化,原來的各維度表被擴展為小的事實表,形成一些局部的層次區域[3-4]。建立本課程數據倉庫時,為了減少數據冗余,改善查詢性能我們采用雪花模型結構,如圖1所示。建立以學生選課為中心的選課事實表,三個主維度表“學生表”、“成績表”和“時間表”分別通過“學生鍵”、“成績鍵”和“時間鍵”與事實表直接關聯。其中,主維度表中的“學生表”和“成績表”都有各自的二級維度表,與事實表間接關聯[5]。

2 采用Apriori算法的關聯規則挖掘

關聯規則用于揭示數據與數據之間未知的相互依賴關系,即在給定的一個事物數據庫D,在基于支持度-置信度框架中,發現數據與項目之間大量有趣的相關聯系,生成所有的支持度和可信度分別高于用戶給定的最小支持度(min_sup)和最小可信度(min_conf)的關聯規則。關聯規則挖掘算法歸結為下面兩個問題:(1)找到所有支持度大于等于最小支持度(min_sup)的項目集(Item Sets),即頻繁項目集(Frequent Item Sets)。(2)使用步驟(1)找到的頻繁項目集,產生期望的規則。兩步中,第(2)步是在第(1)步的基礎上進行的,工作量非常小,因此挖掘的重點在步驟(1)上,即查找數據庫中的所有頻繁項目集和它的支持度[4]。本課題對多媒體技術課程學習平臺中所有考試成績進行關聯規則挖掘,采用Apriori算法查找頻繁項目集。

Apriori算法通過逐層迭代來找出所有的頻繁項目集L。用戶需要輸入事物數據庫D和最小支持度閥值min_sup。實現過程為:

1)單次掃描數據庫D計算出各個1項集的支持度,得到頻繁1項集構成的集合L1。

2)連接:為了產生頻繁K項集構成的集合,通過連接運算預先生成一個潛在頻繁k項集的集合Ck。

3)剪枝:利用Apriori算法“任何非頻繁的(k-1)項集必定不是頻繁k項集的子集”的性質,從Ck中刪除掉含有非頻繁子集的那些潛在k項集。

4)再次掃描數據庫D,計算Ck中各個項集的支持度。

5)剔除Ck中不滿足最小支持度的項集,得到由頻繁k項集構成的集合Lk。

Apriori算法如下:

[(1)L1=find_frequent_1-itemsets(D)(2)for(k=2;Lk-1≠?;k++) do begin(3)Ck=apriori_gen(Lk-1); //新的潛在頻繁項集(4)for all transactions t∈D do begin(5) Ct=subset(Ck,t);//t中包含的潛在頻繁項集(6)for all candidates c∈Ct do begin(7) c.count++;(8)end;(9)Lk=c∈Ckc.count≥inmsup(10)end;(11)Answer=UkLk;]

求出頻繁項集L后,1)對于L中的每一個頻繁項目集l,產生l的所有非空子集。2)對于l的每一個非空子集s,如果,[sup_count(l)sup_count(s)≥min_conf],則輸出規則:SL-S[4]。

本課題對近五年選修多媒體技術的學生所有成績數據進行清洗,填補空缺值,去噪,類型轉換,集成等處理后放入數據倉庫中,系統采用Apriori算法找出所有的頻繁項集。為了便于進行關聯規則的挖掘,對成績數據進行離散化處理,轉變成標稱型變量[5]。成績score(簡化為“s”)在85-100區間的表示“優秀”,標記為“1”,在70-84區間的表示“中等”,標記為“2”,在60-70區間的表示“合格”,標記為“3”。多媒體技術每門媒體技術課程:圖像處理、音頻處理、視頻處理、動畫制作和最后的期末考試分別用A、B、C、D、E表示。學生的學號用StudentID表示,那么每個學生選修的N門課和最后期末考試的成績可以表示為{StudentID,Asa,Bsb,Csc,Dsd,Ese},其中Sa,Sb,Sc,Sd,Se的取值范圍是{1,2,3}。例如{ 2011204543021,A3,B1,D3,E3}表示學號為2011204543021的學生,選修了圖像處理,音頻處理和動畫制作這三門媒體技術,其中圖像處理成績為合格,音頻處理成績為優秀,動畫制作成績為合格,期末考試成績為合格,該名學生沒有選修視頻處理,故沒有這門科目的成績。

設定最小支持度閥值min_sup為3%,最小置信度閥值min_conf為70%,系統采用Apriori算法進行數據挖掘,得到滿足最小置信度閥值的規則和相應的置信度如表1。

挖掘結果分析:表1的關聯規則體現學生選修的媒體技術課程種類、科目數量與期末考試成績之間的相互關系。可以看到期末考試成績屬于中等(E2)或合格(E3)級別的,學生全選四門媒體技術比只選學三門的置信度高,即選課數量多的較容易及格或獲得中等的期末成績。另外,在選課種類方面,選B這門課,即選音頻處理的學生比較多,是一個概率比較高的事件,可能這門課內容比較少和易掌握,因此選學選考的學生就多。但這門課的成績對期末考試成績影響不明顯,說明教師這門課出的考題區分度低,沒能反映出學生的水平層次。在最小支持度閥值min_sup為3%的情況下,選A(圖像處理),C(視頻處理)和D(動畫制作)這幾門課并獲得優秀成績(A1,C1,D1)的很少,即小概率事件被過濾掉了,沒能挖掘出它們與期末成績之間的關聯性。但這幾門課程成績中等或合格與期末成績存在內在關系,也就是說如果這幾門課成績都是中等的,期末考試成績大部分都為中等,一小部分可以達到優秀。如果這幾門課成績都是合格,期末考試成績就是合格。說明這幾門課程的考題比較真實反映出學生掌握技能的實際水平,致使期末綜合性的考試成績與學生平時掌握程度相符合。這也意味著個性化教學具有一定的成效。

本課題對近五年的學生多媒體技術每科成績與期末成績進行聚類分析,把學生劃分到若干不同的類中,分析各個類的特征,從而考察實施個性化教學后的效果。設定85分,75分和65分為三個初始的聚類中心,對學生的所有成績進行聚類分析,找出同一類別學生的學號,以此為索引,查找到該類中各個學生的專業與年級,繪制出餅狀圖,再繪制出該類學生所選各門媒體技術的平均分柱狀圖,通過這幾個圖表考察不同專業不同年級學生在本門課程優秀中等合格若干成績區間的分布情況,從而檢查實施個性化教學的效果,為今后的改進方案提供參考。例如調整后得到的最終聚類中心為82分的學生,各門媒體技術的平均分和專業、年級分布如圖3~圖5所示。

從上面幾個圖可以看出,成績為優秀的學生主要來自美術、計算機和電信這幾個專業,大三、大四的學生比較多。分析其中的原因,主要是美術學院很多專業課需要用二維、三維圖像軟件或視頻軟件進行制作和處理,他們對這門課程已經有一定的基礎,所以學起來比較輕松,也容易取得高分。而計算機和電信專業中高年級的學生學習和使用軟件的能力比較強,因此掌握多媒體技術各個媒體軟件較其他專業學生快,并且能夠靈活運用,因而較易取得比較優異的成績。

最終聚類中心為64分的學生,各門媒體技術的平均分和專業、年級分布如圖6~圖8所示。

主站蜘蛛池模板: 平邑县| 泽普县| 绥宁县| 阳春市| 德令哈市| 托克托县| 布尔津县| 宕昌县| 稻城县| 蓬莱市| 长乐市| 西吉县| 武强县| 灌云县| 西华县| 名山县| 介休市| 柳河县| 余姚市| 张家口市| 京山县| 兴化市| 正安县| 株洲市| 四川省| 石棉县| 颍上县| 抚宁县| 石林| 宁南县| 渝北区| 西城区| 青冈县| 探索| 东丰县| 正蓝旗| 大石桥市| 安国市| 盐津县| 监利县| 长岛县|