緒論:寫作既是個人情感的抒發,也是對學術真理的探索,歡迎閱讀由發表云整理的11篇數據挖掘學習計劃范文,希望它們能為您的寫作提供參考和啟發。
[3]任友群,鄭旭東,吳F瑜.深度推進信息技術與教育的融合創新――《教育信息化“十三五”規劃》(2016)解讀[J].現代遠程教育研究,2016(5):3-9.
[4]楊現民,唐斯斯,李冀紅.發展教育大數據:內涵、價值和挑戰[J].現代遠程教育研究,2016(1):50-61.
[5]余鵬,李艷,呂鵬.高等院校大數據挖掘與決策分析體系的應用研究[J].現代教育技術,2016,26(8):102-108.
[6]朱漢民.中國傳統文化導論[M].長沙:湖南大學出版社,2010.
[7]歐陽劍波.中國傳統文化、、西方文化碰撞的當代審視[J].青海社會科學,2011(6):17-21.
[8]楊玲.從網絡流行語看大眾文化特征[D].武漢:華中師范大學,2006.
[9]郭志剛.社會統計分析方法:SPSS軟件應用[M].北京:中國人民大學出版社,1999.
[10]安興茹.我國詞頻分析法的方法論研究(I)――統計分析要素的界定、分類及問題[J].情報雜志,2016,35(2):75-80.
[11]程樹銘,呂亞萍.試論語義特征分析法[J].江蘇理工學院學報, 2015(3):25-30.
[12]張敏.數據挖掘技術及應用[J].信息技術,2010,34(8):167-169.
[13]齊英艷,李建國.當代西方思想文化對中國青年知識分子的影響[J].中國青年研究,2008(9):25-30.
就連一向以關心國際金融形勢為主的世界銀行也在2012年11月了一份名為《降低熱度》的報告。報告指出,如果我們任由全球變暖的趨勢持續,到本世紀末,全球氣溫將會上升4℃。
報告認為,這一后果將是災難性的:沿海城市可能被淹沒;糧食生產風險增大;水資源匱乏情況將進一步惡化;生物多樣性會遭遇不可逆轉的損失。
2012年年末,國際能源署(IEA)了《2012年世界能源展望》(下稱《展望》),對2035年前的全球能源趨勢作出了預測。在報告中,IEA悲觀地表示:“各國在哥本哈根氣候會議上商定的,到本世紀中葉,將地球溫度上升控制在2℃以內這一目標正變得難以實現”。
未來我們該如何應對全球氣候持續變暖的挑戰?《中國經濟周刊》記者獨家連線IEA首席經濟學家法提赫·比羅爾(Fatih Birol),請他來為我們解讀:面對能源和氣候危機,我們還能做些什么。
可持續發展任重道遠
IEA在《展望》中指出,即使考慮到未來各國的發展政策,我們依然不能確保全球能源體系能夠進入可持續發展的軌道。
《展望》預測,從現在到 2035 年,全球能源需求將增長三分之一以上,其中60%的需求增長來自中國、印度和中東地區。盡管世界各國對于低碳能源的使用與開發都處于穩步增長的狀態,但是未來化石能源(煤炭、石油和天然氣)仍將主導全球能源的消費與使用結構。
在過去10年里,煤炭幾乎占據全球能源消費增長的50%,其增速甚至超過了其他所有可再生能源。報告預測,中國的煤炭需求將在2020年達到頂峰,并將持續至2035年。
誰來代替核電?
為了減緩全球氣候變暖的趨勢,各國都鼓勵發展清潔能源,許多國家都把核電作為未來重要的發展方向。但福島核事故令核電風光不再,許多國家紛紛重新評估核政策。誰來代替核電成為一個棘手的問題。
《展望》指出,目前全世界電力需求正在以近兩倍于世界能源需求的速度增長。盡管在2035年前,煤炭依然是全球發電的主要燃料,但在全球新建發電能力規劃中,一半的新增能力將以可再生能源作為燃料。
《展望》預測,到2015年,全球可再生能源將成為全球第二大電力來源,并在2035年接近第一大電力來源——煤炭的發電量。
可再生能源迅速增長的原因在于其技術成本逐年下降、化石燃料價格不斷上升。此外,各國對可再生能源的補貼不斷上升也是一個重要原因。2011年,全球對各種可再生能源的補貼約為880億美元,2035年將增至近2400億美元。
對話比羅爾:中國將成為全球綠色能源投資的領頭羊
《中國經濟周刊》:目前世界各國在能源利用,尤其是節能減排方面的進展如何?
比羅爾:幾乎全世界各大能源消費國都已經宣布了自己的目標和措施:中國的目標是到2015年將二氧化碳排放量降低16%;美國則采用了新的燃料經濟標準;歐盟承諾到2020年,將把能源需求削減20%;日本試圖到2030年將電力消費削減10%。雖然這些舉措有助于改善過去10年全球能源效率表現不佳的局面,但是全球節能減排可挖掘的潛力依然十分巨大。
《中國經濟周刊》:IEA對于改進能源使用效率有哪些建議?
比羅爾:我們認為世界各國在能源效率利用方面都還存在著巨大的、未被發掘的潛力。一般來說,我們可以從工業產業、交通運輸、發電和建筑等四個方面去尋找可降低能耗的機會。大量的研究數據表明,目前世界上在建筑領域方面尚有五分之四的潛力未被挖掘, 而工業產業領域有一半以上的潛力尚待開發。
中國目前在建筑領域的能耗控制已經取得了巨大成就,但在其他方面仍有很大的進步空間。我相信,世界各國只要在這四個領域內制定出一系列可行政策,一定可以降低能耗,提升經濟效率。
《中國經濟周刊》:在過去的10年里,中國的節能環保產業大約以15%~20%的增長率逐年遞增,您如何評價這些產業的增長?
比羅爾:最近這些年中國在降低能耗、提高能源使用效率方面進行了巨大的投資,這些投入也為中國經濟帶來了巨大的財富。目前全球風機產量約有30%來自中國,全球約有20%的太陽能發電量來自中國,可以說,中國環保產業的發展之路影響全球。
我們預計未來中國將在風能領域投資6000億美元,在太陽能領域投資2000億美元,這將使得中國成為全球綠色能源投資的領頭羊。我相信,中國在節能環保產業的技術將會不斷提升,并將造福世界。
中圖分類號:TP311.13 文獻標識碼:A
0引言
隨著我國高等教育信息化建設的快速發展,許多高校都已經建立起了校園精品課程、數字化圖書館、網絡實驗室等信息化應用,在知識共享上不斷完善求新。同時,校園服務、校園信息、在線教學等數字化校園平臺的建設實現了數據的共享與系統的整合。
傳統的學生成績分析還停留在簡單的查詢及簡單的數字統計階段。如查詢某個學生的某門課程的成績,統計某門課程的優、良、中、差各個成績段的學生人數,統計成績的均值、方差、置信度等。己有的分析研究僅僅從理論上對可行的評價機制進行討論,而隱藏在這些數據后的其他有用信息很難能夠發掘出來。
另一方面,信息化應用中獲取的大量教學信息使得各種新的屬性不斷出現,增加了學生的信息存量,大量的學生信息以及學習數據沒有發揮其相應的作用。這些信息從一定的角度上反映了學生在新的教學模式下所特有的學習行為,為研究學生的學習行為提供了依據與基礎。本文就是在這些大量的數據基礎上,結合數據挖掘的決策樹分類技術,從學生的學習成績入手,收集、整理和分析學生的行為信息,總結和發掘在新的學習模式下對教學質量及其學習效果的影響,為教師日常教學和學生學習的改進提供依據。
1數據挖掘技術綜述
數據挖掘(Data Mining),就是從大量的、不完全的、有噪聲的、模糊的、隨機的原始數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用、可信的信息和知識的過程 。是一門廣義的交叉學科,它的發展和應用涉及到不同的領域,尤其是數據庫、人工智能、數理統計、可視化、并行計算等 。
數據挖掘技術有兩大基本功能,即描述功能和預測功能。描述功能是指描述數據庫中數據的一般性質。預測功能是指對當前數據進行推斷,以便做出預測。
數據挖掘研究的對象是大量隱藏在數據內部的有價值的信息,如何獲取有價值感興趣的信息是我們所要解決的主要問題。接下來簡單介紹數據挖掘中應用較為廣泛的常用的一些技術。
1.1決策樹方法
決策樹算法的目的是通過向數據學習,獲得輸入變量和輸出不同取值下的數據分類和預測規律,并用于對新數據對象分類的預測。
1.2關聯規則
關聯規則用來揭示數據與數據之間未知的相互依賴關系。由一個條件和一個結果組成的,形如 IF...THEN 的簡單形式就叫做規則,關聯規則挖掘就是掃描整個數據集,從中找出具有給定的最小支持度和最小置信度的關聯規則。其中最具代表性的是R.Agrawal 提出的 Apriori 算法。
1.3神經網絡
神經網絡是以人腦為基礎的抽象模型,它模擬真實人腦神經網絡的結構和功能,將眾多結構和功能極其簡單的神經元通過各種方式聯接成一個復雜的網絡結構,以實現復雜的智能行為,構成一個類似于人腦結構的非線性預測模型,通過學習進行模式識別。神經網絡具有兩大特點――自學能力和自適應能力。
1.4聚類分析
聚類是將數據集分成若干不同的類,使得在同一類的數據對象盡可能相似,而不同類中的數據盡可能相異。聚類與分類的根本區別在于:分類需要事先知道所依據的對象特征,而聚類是在不知道對象特征的基礎上要找到這個特征。
以上介紹了數據挖掘的基本知識,包括數據挖掘的概念、數據挖掘的功能、數據挖掘的過程及步驟,以及數據挖掘中常用的各種技術。而且現在的數據挖掘軟件,不管是開源還是商用都已經很成熟了,也提供易用的可視化界面,集成了數據處理、建模、評估等一整套功能。本文嘗試使用Spss modeler[7,8]數據挖掘工具,采用決策樹分類技術,對所采集的學生考試成績數據進行分析挖掘,形成分類規則,從而更好的分析和預測成績數據。
2高校學生成績的決策樹模型
2.1決策樹技術
決策樹技術是通過學習,獲得輸入變量和輸出變量不同取值下的數據分類和預測規律,并用于對測試集的分類預測。它主要由兩個階段組成。
第一階段,建樹階段。選取訓練數據集進行學習,導出決策樹。建樹的流程圖如圖1所示:
第二階段,剪枝階段。用測試數據集檢驗決策樹,如果所建立的決策樹不能正確的回答所研究的問題,我們要對決策樹進行剪枝以解決過分適應數據的問題,直到建立一棵正確的決策樹。剪枝的目的是降低由于訓練集的噪聲而產生的起伏。
決策樹技術之所以是數據挖掘領域中運用較多的分類和預測主要技術,原因有三:一是決策樹構造的分類器易于理解;二是采用決策樹分類,其速度快于其他分類方法;三是采用決策樹的分類方法得到的分類準確性優于其他方法。
SPSS Modeler提供了包括C5.0、CHAID、CART和QUEST在內的經典決策樹算法,C5.0是在決策樹的ID3算法基礎上發展起來的。決策樹的核心問題之一是決策樹分枝準則的確定,C5.0以信息增益率為標準確定最佳分組變量和分割點。其關鍵的概念是信息熵。
2.2學生成績分析
分析影響學生成績的因素,可以通過數據挖掘技術從定量的角度精確展現學生成績分析的多個方面,找出影響學生成績的主要因素,以此來幫助教師和教學部門制訂相應的措施,有利于提高教學質量和增強教學效果。因此,本文采用SPSS Modeler14.1數據挖掘工具,對采集的學生考試成績數據進行分析挖掘,形成分類規則,從而更好的分析和預測成績數據。具體的信息挖掘的操作步驟如下:
2.2.1確定挖掘對象、目標及其數據采集
以本校2014-2015 年度第一學期所講授的“計算機大學基礎”為例,對象是 2014 的部分學生,共 931人。希望根據學生的考試情況來分析挖掘出哪些因素對學生成績有影響。數據的采集來自于考試系統中導出的數據。計算機大學基礎考點所占的分數如下:單項選擇15分、填空5分、windows基礎知識10分、計算機網絡10分、word操作20分、excel操作20分、ppt制作10分、access數據庫10分,總計100分。由考試系統導出的數據中包含了考生的基本信息如姓名、班級、學號和機器號等信息。也包含了考生所做試卷的編號及其交卷后的剩余時間等重要信息。
2.2.2數據的預處理
所收集的原始數據還不能直接用于挖掘,因為這些數據一般是不完整的、含噪聲的、不一致的,需要對這些數據進行預處理,以提高數據挖掘對象的質量,有助于提高后面挖掘過程的精度和性能。因此,對數據變量的管理和樣本管理是建立數據模型的前提和基礎。圖2表示了對學生成績數據進行的預處理數據流,其中包含了對數據源的追加、合并、填充和過濾。最終確定了進行分類的重要輸入字段為:單選、填空、widows、網絡、word、excel、ppt、access、試卷編號和剩余時間(已經將時間格式轉換為以秒為單位);分類的輸出即目標確定為考生的大學計算機基礎成績(已經將其離散化為好、中、不及格),為后續的建模做準備。
2.2.3決策樹在學生成績分析中的應用
決策樹的生長過程本質是對訓練樣本反復不斷遞歸過程, 根據SPSS Modeler提供的的C5.0算法、QUEST算法、CHAID算法和CART算法,對預處理后的數據流分別進行建模和比較,具體的算法思想和內容不再贅述,其建模的流程和C5.0算法結果如圖3所示:由圖3(b)中的模型結果可以看出評估模型中每個預測變量的相對重要性。通過這一點,我們看到Excel成績在此個案中最顯著,而其他變量的因子依次為:Access、填空、單選、ppt、word等成績。這也說明了Excel,Access和填空對學生來說不容易得分,大部分同學掌握還有待加強。而學生對ppt、word、網絡和windows題目掌握較好。
由圖4所示的分析結果可以看出:經過剪枝的決策樹模型的準確率為達到了88.1%,模型提取的分類的成績結果為“好”的規則如圖4(a)所示。由決策樹提取的分類規則對大學生英語學習有著重要的指導作用,同學們可以根據自己實際學習情況,參考決策樹挖掘結果,找出自己的學習薄弱環節,進行針對性的學習訓練,對通過大學計算機考試的幾種情況有所了解,為自己制定學習計劃和學習目標提供參考。從上面的規則我們可以看出:在考試中,單選、excel和Access部分的得分對考試成績為“好”的影響是最為重要的,其次是填空和word,其余部分對考試的影響較小。因此,同學們在準備考試的時候可以將excel和Access作為重點來進行強化訓練,提前調整自己的學習計劃、完善自己的學習方法、科學的提高學習成績。
此外,由圖4(b)和圖5所示的模型對比結果可以看出:經過剪枝的決策樹C5.0算法模型的測試和訓練的準確率比其他幾個分類算法要高。模型一致性誤差對比可以看出:在檢驗的樣本集合上,4個模型對255個樣本有相同的預測值,占52.9%。225個樣本預測結果不同,占47%。可見,4個模型預測結果相同的比例屬于中等水平;進一步,在相同預測結果的255個樣本中,有232個預測正確,占91.7%,21個預測錯誤占8.3%。因此,模型的總體預測精度一般,根據分析可進行樣本的平衡處理或在模型參數上更細致的調整。
3小結
本文研究數據挖掘技術中的決策樹模型,采用SPSS Modeler工具軟件對大學計算機基礎的考試成績進行分析,通過數據預處理,為決策樹模型準備數據,實現了成績分類挖掘的全過程,通過生成的決策樹規則分析計算機大學基礎考試中的題型對考試成績的影響情況,從中找出規律指導考生調整學習計劃、完善學習方法、科學有效提高學習成績。從實驗分析的結果和模型的對比可以看出,該決策樹模型的分類效果是良好的。
參考文獻
[1] 伍順比.新世紀我國高等教育信息化的回顧與展望[J].教育探索,2011(6):135-137.
一、學生成績管理的現狀
隨著高校辦學規模的不斷擴大以及學校專業的不斷增多,均使得學校的教育管理工作變得越來越復雜化,越來越難管理,特別是針對學生成績信息的管理,由于學生的倍增,成績的管理與維護工作更是艱難。做好成績管理工作,對學校的發展擁有特定的實際意義,也是各個學校最為關心并且要迫切解決的重要問題,所以隨著學校對成績信息資源利用要求的提高,原本的成績管理模式已經不能夠再滿足學校的實際應用需求,只有設計更為有用的,能夠挖掘出學生成績價值信息中隱藏的價值,才是最符合學校應用的應用系統。
二、學生成績管理的作用
在高等學校的發展過程中,教學質量,一直都是各個高校最為關注的重點問題,而學生的成績是各個學校教學質量優劣的一個最重要的體現,因此,如何促進學校全體學生更好的提升學習成績,關系到學校的長遠發展計劃,而對學生的成績管理分析工作,是一個系統化的工作,所以通過對學生成績的綜合分析,明確學生在學習過程中的不足,有針對性的為學生解決學習上的困難,提升學生的整體綜合素質與學習成績,不管是對學校還是生活個人都擁有非常重要的積極促進作用。
三、數據挖掘技術成績管理分析
數據挖掘技術在成績管理中的應用,主要體現在學生成績分析、考試題目優化、教學評價、教學方式選擇以及課程的合理設置等幾個方面。
(一)學生成績分析。學生的主要任務就是學習,學習成績也是學生在校期間表現優劣與否的最直觀的體現,也是學生在校期間所學知識掌握程度的最直觀的表現方式,所以對學生提供一個全面客觀的評價,是學校應該擁有的責任,也是對學生最好的關愛表現方式,然而在學校的成績管理工作進行時,通常的做法只是簡單的把學生的考試成績錄入到學校的系統軟件,而通過數據挖掘技術對學生成績進行分析之后,可以充分的找出學生成績優劣與否與學生自身、與學校環境以及教師的教學質量之間的關系,進而為更客觀的評價學生成績的高低是學生自身原因造成的還是與學校有直接的關聯,為進一步的更好的學習計劃的制訂提供了理論依據。
(二)考試題目優化。考試的目的是為了更好的檢驗教師的教學效果以及學生的學習成果,是教學過程中一個重要的階段。學校在教學時,通常是以期末考試成績為評價學生的學期成績的一個重要標準,然而在不同的考試教學下,學生的考試成績是不相同的,如果僅僅以成績評定一個教師或者學生是不客觀的,為了更好的評定教學效果及學生學習的成果就要發掘學生成績高低相關的影響,是試題較難還是教師教學方式的問題,因此就需要對這些因素進行分析,以探索更為有效的方法來評價試題的難易與成績的關系,進而為下次試卷的出題提供幫助。
(三)教學評價。評定學生對新接觸事物理解及掌握程度是教育工作者的一個重要職責,通過對學生學習成績的評定,可以觸發學生的學習動力,也是考查學生真實水平的一種比較有效的方式。在學生成績評價時,教師也要注意評價內容要客觀全面、評價方式多樣并注重自評與互評的結果,獲取成績評價數據才是最可靠有效的。針對學校不同學生的不同成績評價數據,可以利用數據挖掘工具,對這些數據進行挖掘分析,通過工具獲取不同學生最終的成績結果,進而可以更客觀的排除人為因素對學生評價的影響,也可以對學生的不足及時給予及時指正改正,不但減輕了教師的工作量還克服了教師主觀評價給學生造成的不利影響,為更好的營造學習氛圍以及學生之間的關系提升提供了很大幫助。
(四)教學方法選擇。不同的教師在教授課程時因為人員之間的差異,使用的教學方式也互不相同,也因此導致了學生考試成績可能也互不相同,為了消除因教師教學方式差異給學生成績造成的危害,就需要對不同教師教學模式下學生的成績信息進行分析,以選擇更優的教學方式實現對學生的教學,學生成績數據挖掘技術的應用正好可以滿足這一要求,通過對不同教學方式下學生成績差異的研究,可以協助教育工作者更好的判別采取何種教學方式對學生學習才更有幫助,進而提高學生的整體學習水平。
(五)課程合理設置。許多課程之間往往還存在著一定的關聯關系,擁有固定的先后順序,只有把前修課程學習完成之后才可以繼續接下來的課程學習,否則會直接影響后續課程的理解與接受,影響學生的正常學習;在高等學校,通過對成績數據價值信息的挖掘,可以利用學校成績數據庫中存放的歷屆學生各科考試成績信息結合數據挖掘的相關技術進行分析,并通過相關的數據挖掘算法分析這些數據信息中隱藏的潛在的影響學生學習的價值信息,最終找出影響學生考試成績的原因,并根據這些原因制訂出相應合理的課程安排計劃,為學生更好的學生服。
(六)學生特征挖掘。通過成績與環境因素的影響數據挖掘的研究,教師可以很好的掌握每個學生的學習狀況,學生個人特征,并根據學生之間的不同差異,因材施教,最終把學生往更好的學習發展方向引導。為了更好的研究這一關系,可以利用數據挖掘工具,對學生學習成績數據進行挖掘分析,通過挖掘工具的分析,不但可以獲取不同學生最終的成績結果,而且可以更客觀的排除人為因素對學生評價的影響,最終對學生的不足及時給予及時校正,不但減輕了教師的工作量還克服了教師主觀評價給學生造成的不利影響,為更好的營造學習氛圍以及學生之間的關系提升提供了很大幫助。
參考文獻:
[1]張興科,王浩. 通過數據挖掘技術預測學生學習成績[J]. 科技信息(科學教研), 2007,(22) :198-206.
Key words data mining; association rules; teaching management; teaching plan
0 引言
近幾年來華留學生教育進入快速發展時期,我國已經成為國際學生流動的重要目的地國家之一。隨著我校留學生規模的不斷擴大,如何更有效地對來華留學生進行教學管理已成為一個重要的研究課題。而運用數據挖掘技術,從大量的留學生相關數據中挖掘出一些有價值的信息,將更有利于構建切合我校留學生實際的培養體系,更好地保證培養質量。
一方面,從招生角度上來講。目前我校留學生的生源渠道主要分為三類:第一類是由中國國家留學基金委直接分配至我校學習的獲中國政府獎學金的學生。第二類是學生自己通過網上申請,我校根據學生提供的材料進行審核錄取。第三類是由國外大學或中介機構根據協議推薦來我校學習的學生。由于外國留學生來自不同的國家,之前在各自不同的教育體系中接受高中教育,文化課背景差異很大,這就導致生源的質量參差不齊。運用數據挖掘技術可以找到其中有價值的信息,如哪個國家的教育水平相對較高,來自哪個國家的學生平均申請成績較好,使用何種母語更容易融入中國高校教學等。這為招生工作提供了參考,從招生源頭提高留學生質量。
另一方面,從教學管理角度來講。目前,我校留學生數據庫中存放著歷屆學生的各科考試成績,海量的數據只是單純地記載了數據信息,對學生信息、成績等數據的處理一般還停留在簡單的數據備份和查詢階段,如傳統數據庫技術可以查詢最高分最低分和平均分等表層信息,但卻無法發現隱藏數據之間的規律或者說有指導意義的知識。大量有價值的信息被淹沒在海量數據中。事實上不論是課程與課程之間,還是課程的設置之間,與學生成績都存在著千絲萬縷的聯系,現階段已有的數據并沒有發揮其真正的價值,而運用數據挖掘技術則可能更好地發現隱藏在數據背后的豐富信息。通過對學生成績數據庫中所包含的各種類型數據進行相應的處理,如:抽取、轉換、分析和模型化處理,從中尋找影響學生學習成績的眾多因素,以及這些因素所涉及到的相關問題。應用數據挖掘技術分析學生的成績水平,使學生深入了解其在學生整體中的相對位置,由此來調整個人學習計劃。同時,幫助教師和學校決策者洞悉教學過程中存在的問題,進而反思教學質量。還可以根據關聯規則挖掘得到的一系列有價值的規則,分析檢查課程體系的合理性,比如:相關課程之間的銜接與先后順序是否恰當等,根據分析結果最大限度地優化培養計劃和決策。此外,利用數據挖掘技術還可以發現數據中存在的潛在關系與規則,比如:根據學生的出勤次數和作業的上交情況預測學生成績發展趨勢等。為教師的教學環節提供建設性的意見和建議,為學生管理工作提供有價值的決策支持,從而幫助學校做出實時適時的決策調整,使得學生管理工作有的放矢。
1 數據倉庫與數據挖掘
1.1 數據倉庫
傳統數據庫在聯機事務處理(OLTP)中獲得了較大的成功,而傳統數據庫中只保留當前的管理信息,缺乏決策分析所需要的大量歷史信息,故不能滿足管理人員的決策分析要求。為了解決這一問題,進行相關決策分析,數據倉庫應運而生。簡而言之,數據倉庫就是能夠滿足決策分析所需要的數據環境。數據倉庫的概念,由“數據倉庫之父”W.H.Inmom博士提出:數據倉庫是一個面向主題的,集成的、與時間有關的,非易失的數據集合,為管理部門提供決策支持。它實際上是一個特殊的數據庫,這種系統稱為OLAP系統。本文中我們就利用留學生成績數據庫中的各種類型的數據建立相應的數據倉庫,為數據挖掘提供數據平臺。
1.2 數據挖掘
近年來隨著信息技術的迅猛發展,人們所擁有的數據信息急劇增大。如何從大量隨機的數據中挖掘出一些有價值的信息,成為一個重要的研究課題,由此帶動了數據挖掘技術的產生和飛速發展。數據挖掘就是從大量的,不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的,但又有潛在的有用信息和知識的過程,是數據庫中的知識發現的核心。可以說,有數據積累的地方,就有數據挖掘技術的用武之地。
數據挖掘的分析方法分為:聚類分析,關聯分析,時序模式分析和分類分析。其中聚類分析是指通過數據本身具有的相似特點把海量數據集歸納為若干個簇,即“物以類聚”。同一簇中的數據之間相距小,相似度高;不同簇中的數據之間相距較大,數據相異度高。關聯分析是指利用關聯規則進行數據挖掘,其主要評價標準有:支持度、置信度、興趣度等。本文中我們將數據挖掘技術與留學生教學管理相結合,挖掘在留學生教學管理中隱藏的有價值的信息,為留學生管理提供決策指導與決策支持。
2 數據挖掘在教學領域中的應用
數據挖掘與數據倉庫相結合,是完成決策分析的關鍵因素。教務數據主要存儲在關系型數據庫中,其主要任務是執行聯機事務和查詢處理,對其中大量的教學信息及數據的應用僅限于某些單方面的分析,而缺乏相關的綜合分析,大部分數據難以再次利用,不能滿足決策分析的要求,為此需要對各種類型的數據進行抽取,轉換、匯總加載到留學生成績數據倉庫中,借助數據挖掘技術,為教學提供決策支持服務。
在留學生成績數據庫中,包含著多種類型的數據,它們既相互獨立又相互聯系。運用數據倉庫的理論和方法,對這些數據進行適當的預處理,即可產生支持教學決策所需要的信息。留學生成績倉庫的應用模型如圖1所示。
根據留學生成績的特點,以學生成績分析為主題建立星型結構的留學生成績倉庫。星型結構主要由事實表與維度表兩部分構成。事實表是星型模型的核心,維度表是事實表的附屬表,一個事實表一般擁有一組維度表,每個維度表都通過主鍵與事實表相連,維度表之間通過事實表的中介相互建立聯系。該數據倉庫主要涉及到的信息有:留學生基本信息,教師信息,課程信息,試卷信息,知識點信息及專業信息等。星型結構的留學生成績數據倉庫的具體構建情況如圖2所示。
2.1 數據挖掘在成績分析中的應用
定性評價在生活中有著廣泛的應用,我們往往把學生成績硬性地劃分為:優、良、中、差四個等級。而這種傳統的硬性區間劃分法,存在著眾多弊端。例如將成績90分定為“優”,而成績79分確定為“良”,這往往只是根據經驗但卻缺乏理論指導,而實際上二者之間并沒有那么明顯的差距。如果我們利用數據挖掘中的聚類分析法對學生成績進行適當處理,就可以有效地對學生成績進行等級劃分,為學生學習和教師的教學提供更合理的參考標準。在合理的等級劃分基礎上,我們就可以利用關聯規則挖掘技術對學生成績進行多角度、多方向的深入分析,獲得可以為教學工作提供決策支持的有價值的隱藏規則。比如:學生成績的好壞跟作業上交情況有著明顯的關系,該規則說明教師可以通過及時督促學生上交作業來提高學生成績。此外,我們也可以采用決策樹挖掘技術來分析影響學生某門課程成績的主要因素。比如:針對學生出勤率,作業上交情況,國籍,學生中英文水平四個因素對學生成績的影響程度進行決策樹挖掘分析,我們發現學生出勤率、作業上交情況以及學生的中英文水平是影響學生成績的主要因素,而國籍則是次要因素。由此說明較高的出勤率、良好的作業上交情況以及較好的中英文水平是學生取得良好成績的重要保障。
2.2 數據挖掘在培養計劃制定中的應用
培養計劃對一個專業的學習至關重要,一個好的培養計劃將會獲得事半功倍的效果,反之,將會產生事倍功半的結果。目前我校對于本科留學生雖然部分課程有全英文授課模式,但是就培養方案、教學計劃來講,大部分課程與本專業國內學生的幾乎一樣。而我國大學課程大綱的起點都是按照和國內高中畢業的程度銜接制定的,特別是數理化這樣銜接性很強,對基礎和選修課程要求很高的課程,大部分留學生不能跟上學習進度,教學效果較差,學習困難較大。
傳統的教務系統無法為留學生的培養計劃的制定提供建設性的決策支持。然而,利用數據挖掘技術對留學生信息維表,課程維表和學生成績維表進行關聯規則挖掘,則可以找出不同課程之間的關聯,從而為留學生單獨制定一套行之有效的特殊培養方案,適當調整外國留學生的必修和選修課程,提高教學效果和質量。如對石油工程專業留學生課程成績進行關聯規則挖掘,獲得等級為“優”的課程之間存在的有價值的規則,如表1所示。
相應的規則解釋有:(1)規則2 表明,“高等數學(Ⅱ)I”與“高等數學(Ⅱ)II”作為“理論力學”的先行課程的信任度為88.3%,因此“高等數學(Ⅱ)I”與“高等數學(Ⅱ)II”作為“理論力學”的先行課程比較合理。(2)規則3表明,“理論力學”作為“材料力學”先行課的信任度為90.6%,所以“理論力學”作為“材料力學”的先行課程比較合理。(3)規則4表明,“理論力學”和“材料力學”作為“油田開發地質”的先行課程的信任度為86.0%,所以“理論力學”和“材料力學”作為“油田開發地質”的先行課程比較合理。綜合(1)(2)(3)可知,高等數學(Ⅱ)(I ,II),理論力學,材料力學,油田開發地質這四門課程的合理開課順序應該是:(1)高等數學(Ⅱ)(I ,II)(2)理論力學(3)材料力學(4)油田開發地質。如果對上面列出的規則進行多次推導,可以得出“石油工程”這個專業大致合理的開課順序:(1)高等數學(Ⅱ)I、高等數學(Ⅱ)II;(2)高等數學(Ⅱ)(I ,II),理論力學,材料力學,油田開發地質;(3)測井綜合解釋,鉆井工程、油藏工程、氣藏工程,石油工程的全面設計;(4)環境保護在石油和天然氣領域,強化開采理論。
由上述的關聯規則及相應的結果解釋,我們可以清楚地看到,相關課程成績之間存在較高的關聯程度,先行課程的學習情況將直接影響其后續課程的學習。我校即可根據上述結論為學習“石油工程專業”的本科留學生合理安排課程順序,使其獲得良好的學習效果。
2.3 數據挖掘在留學生選課方面的應用
高校愈來愈注重個性化人才培養,學校教育方式越來越人性化、多樣化,學生自主選課就成為課程改革的必然產物。但由于留學生初到中國對環境的不熟悉,包括一開始的語言障礙、溝通障礙,顯然對中國高校的課程設置了解有限,這樣有可能致使他們選課僅僅是憑表面感覺來進行。如:學生在選擇“中國概況”這門課的時候,可能僅僅是因為對中國歷史文化的好奇,而并不了解應如何合理選擇其他相關課程來加深對這門課程的理解。“中國概況”這門課程需要有一定中文語言基礎,盲目選課將導致留學生對中國概況的學習僅限于皮毛,而不能深入了解中國歷史文化。
現有的選課系統不能為學生選課提供建設性意見,但如果利用數據挖掘技術對學生漢語成績進行關聯規則挖掘,找出課程之間的關聯,就可以在學生選擇某門課時為其推薦相關課程,完善學生在該領域的學習體系。若獲得如下規則:“中級漢語”和“中國概況”成績等級為“優”;該規則說明漢語水平高低與中國概況的了解程度有較強的關聯程度,所以我們在學生選擇“中國概況”這門課程的時候,就應當向其推薦“中級漢語”,從而加強學生對該課程的學習。
2.4 數據挖掘在教學中其他方面的應用
1 個性化信息服務概述
所謂個性化信息服務就是針對不同用戶提供不同的服務策略和服務內容的服務模式。個性化信息服務基于“用戶需要什么,我們就提供什么”的理念。其特征為:以用戶滿意為中心、雙向溝通的零距離及面向用戶深層心理需求。
遠程教育平臺中個性化信息服務通常體現在:
(1)個性化信息檢索:通過記錄跟蹤學習者的檢索內容,了解學習者的興趣、偏好、學習特點和習慣,主動為學習者推送相關信息和對查詢結果進行分類。
(2)個性化信息推薦:在分析了解學習者的個人興趣和習慣的基礎上,通過信息檢索、信息過濾、數據挖掘等技術,對可提供的資源及服務進行分類組織,將學習者可能感興趣的學習資源進行智能推薦。
(3)個性化信息咨詢:學習者利用交互式咨詢臺,即通過教育平臺的聊天軟件、網絡會議等方式,與教育專家、名師等進行實時的交流[2]。
(4)個性化信息反饋與輔導:針對學生的認知水平與特點,提供個別指導、提出下一步的學習建議,幫助制定學習計劃和方案等。
2遠程教育中個性化信息服務的應用領域
遠程教育平臺中個性化信息服務涉及用戶建模、個性化信息檢索、信息推送、個性化推薦、機器學習機制、智能Agent技術應用、網站自適應技術應用、數據挖掘技術應用等。
2.1數據挖掘技術的應用
數據挖掘技術是實現遠程教育平臺個性化信息服務的核心技術之一。判斷數據挖掘所得信息是否有價值,就應該看所得信息是否具先前未知、有效和可實用這三個特征。數據挖掘就是深層次的數據分析方法,流程如下圖1所示:
常用的數據挖掘算法有決策樹算法、遺傳算法、粗糙集、神經網絡、Apriori算法等。從廣義上講,關聯分析是數據挖掘的本質。關聯知識挖掘,在遠程教育平臺中得到了廣泛應用。
2.2 其他相關應用領域
(1) 用戶模型的創建
用戶模型的創建是提供個性化服務的基礎和核心,用戶建模是指從有關用戶興趣和行為的信息(如瀏覽行為、瀏覽內容、背景知識等)中歸納出可計算的用戶模型的過程。
(2) 資源文件的描述
資源描述文件可以用基于內容和基于分類的方法來表示。基于內容的方法是利用資源本身的信息來表示資源;基于分類的方法是通過將文檔進行歸類來表示資源。
(3)個性化信息檢索及推送
個性化信息檢索技術,是指能夠根據用戶的興趣和個性化行為特點進行檢索,為用戶提供個性化檢索結果的技術。
個性化信息檢索涉及許多檢索算法和建模技術,如基于詞匯相關度模型、語義網、智能Agent和概念網的個性化信息檢索模型等。個性化信息檢索實現流程如圖2所示:
信息推送就是在分析了解用戶興趣偏好和信息需求的前提下,通過一定的技術標準或協議,有目的地將用戶感興趣的信息發送給用戶。
(4) 協作過濾推薦技術
協作過濾推薦技術是目前應用最為成功的個性化推薦技術,其核心思想是先找到與其有相似興趣的其他用戶,然后將相似用戶感興趣的內容推薦給此用戶。
(5) 智能Agent技術應用
智能Agent不需要或很少需要用戶的干預和指導而智能完成用戶委托任務,根據用戶要求自動過濾、收集用戶感興趣的信息,并且能根據用戶指定的時間將其傳遞到用戶指定的“地點”,成為用戶與資源之間的中介而很少需要用戶的干預。
3具有個性化信息服務的遠程教育平臺
國外比價典型的代表有:加拿大的Simon Fraser大學開發的Virtual―U、美國Pennsylvania 州立大學開發的WISH和挪威fronter公司開發的ClassFronter(課堂先鋒)等。
國內的網絡教育平臺研究還處于起步階段,但已有越來越多的高校和研究單位意識到網絡教育平臺的重要性,例如滬江英語網校、Vclass平臺等。
4 小結
遠程教育平臺中的個性化信息服務系統是一個依托信息資源系統,利用相關技術建立起來的標準化知識服務系統平臺,可以為用戶提供多種類型的信息服務。
【參考文獻】
[1]汪鋒.基于遠程教育個性化服務的研究[D].昆明.昆明理工大學,2004.
[2]李詠梅.淺談個性化信息服務系統的構建[J].信息服務,2011, 41(1):102-106.
[3]孫丹.基于用戶信息行為的個性化知識服務研究[D].武昌:華中師范大學,2012.
[4]毛國君,段麗娟,王實.數據挖掘原理與算法(第二版)[M].北京:清華大學出版社,2007.
[5]陳安.數據挖掘技術與應用[M].北京:科學出版社,2006.
[6]丁琳,吳長永.數據挖掘在遠程教育個性化服務中的應用[J].網絡教育與遠程教育,2002,9(2):15-23.
[7]劉美玲.基于數據挖掘技術的個性化學習系統研究[D].揚州:揚州大學,2009.
[8]曲貴英,馮麗娜.基于用戶系統模型的個性化信息服務系統研究[N].哈爾濱商業大學學報,2007-03-25(3):355-360.
[9]Witten I H,Franke.Practical Automatic Key-phrase Extraction[C].Proceeding of the 4th ACM Conference on Digital Library,2000:254-255.
[10]Tumey P D.Learning Algorithms for Key Phrase Extraction [J].Information Retrieval,2000,2(4):303-336.
[11]李樹青.個性化信息檢索技術綜述[J].情報理論與實踐, 2009,5(7):109-111.
[12]鄒顯春,謝中.電子商務與web數據挖掘[J].計算機應用.2000,5(21):36-41.
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2012)03-0534-02
Application of Network Teaching Decision Support Platform Based on Data Mining
CAO Zhi-yong1, LU Han-yu2
(1.Department of Science and Technology, Guizhou Radio & TV University, Guiyang 550004, China; 2.Department of Computer and In? formation Engineering, Guizhou University, Guiyang 550003, China)
Abstract: For modern distance education, educational differences in personality characteristics of the object with the traditional mode of distance education resources produced great unity of contradictory problems. Combination of data mining technology, design technology, based on data mining decision support network teaching platform, the platform provides network teaching platform, in addition to basic functions, but also by data mining analysis of server log data, and analysis of the form of graphic interface results of user feedback, and then implement the restructuring of the site and the student’s personalized service.
Key words: data mining; distance education; WEB log; network teaching platform
隨著計算機和互聯網的應用發展,現代遠程教學平臺的缺陷日益突出。依據傳統的學習理論設計的網絡教學平臺難以適應現代遠程教育的需要。如:缺乏個性化、網站結構不合理等。網絡教學作為一種新型的教學手段,由于其時空不限、資源共享和交互性好等優點,較好的增強了學生的學習興趣,提高了學生的自學能力,培養了學生的學習主動性,為此筆者開發了基于數據挖掘的網絡教學決策支持平臺。
1數據挖掘
數據挖掘(Data Mining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取潛在的、不為人知的有用信息、模式和趨勢。通俗地說,數據挖掘就是從數據中發掘信息或知識,又稱為數據庫中的知識發現(Knowledge Discover in Database,KDD)。
數據挖掘技術應用于Internet,于是有了Web數據挖掘,根據數據挖掘的過程,常常把Web挖掘的分為4個基本步驟:數據收集、數據預處理、模式識別、模式分析。
1)數據的收集:在網絡教育平臺上,有大量的信息可以利用(如用戶的訪問日志、注冊信息、答疑信息、考試成績、作業情況、交流信息和學習進度等)。根據挖掘的目的明確收集學習者什么樣的數據。
2)數據預處理:這保證數據挖掘質量的關鍵,主要包括進行冗余數據的清除,以及對錯誤數據和缺失數據的修復,將其轉化成適合模式發現的、具有良好格式的數據抽象。對日志中的原始數據進行預處理,包括數據凈化、用戶識別、會話識別和路徑補充等。
3)模式識別:是對預處理后的數據用數據挖掘算法來分析數據。首先確定挖掘的目的是進行分類、聚類、關聯規則發現等,確定了任務再決定使用的挖掘算法。
4)模式分析:解釋并評估結果,對數據挖掘得到的知識結果進行分析,清除無用或錯誤的知識,將感興趣的規則、模式,以圖形界面的方式提供給使用者。
2網絡教學決策支持平臺的模型構建
網絡決策支持教學平臺由于不受時間和空間限制的優越性,如今越來越受到廣大師生的歡迎。圖1為筆者開發的網絡教學決策支持平臺模型,平臺按照功能分解分為學生平臺、教師平臺、個性化處理中心、學習調度系統四個模塊,具體模塊功能如下:
2.1學生平臺模塊
首先,獲取學習者的基本狀況、學習現狀,以判斷學生的學習特征。其次,系統設計有實時監控學習者行為的功能,通過跟蹤采 集子系統進行學習數據的采集,如學生當前所學知識點,在頁面停留時間,練習與測試成績等。這些數據可以通過web服務器、客戶端以及服務器來獲取。最后,呈現由學習調度系統所推薦的學習內容。
2.2教師平臺模塊
主要提供教學資源庫管理界面。教師既可以利用“課程資料管理”,在線編輯相關課程的基本信息,也可上傳資源,平臺支持PPT、DOC、PDF等文件類型。教師可以利用“在線考試管理”管理試題庫,隨機抽題組卷,系統可自動對學生答題情況進行評分,教師可利用論壇管理來管理論壇的帖子。
2.3個性化處理中心模塊
個性化處理中心是一個數據挖掘引擎,是個性化智能學習系統中的核心。主要完成兩個工作:其一是學習者特征庫的構建。結合最新采集的信息與學習者特征庫中的數據資源進行新的分析,建立和完善學習者特征庫;其二是分析處理模塊。應用頻繁模式挖掘、分類和聚類技術、序列模式等數據挖掘算法,來處理“消噪”后的數據,最終發現用戶的訪問模式。
2
.4學習調度系統模塊
學習調度系統是根據個性分析處理中心處理后的個性參數來調度其它子系統,并選擇合適的教學資源,并將頁面反饋給用戶以滿足其需求;同時,把用戶在子系統中的個性活動信息反饋給個性化分析中心,然后由個性分析中心進行再加工,來更新學習者特征庫。
圖1基于數據挖掘的網絡教學決策支持平臺模型
3基于數據挖掘的網絡教學決策支持平臺
筆者設計開發的基于數據挖掘技術的網絡教學決策支持平臺。平臺的教學功能主要有:課程創建與管理、課程資源、互動評價、在線測試、作業和練習及學習記錄跟蹤分析等。該平臺為教師、學生提供了強大的施教和學習的網上虛擬環境,成為師生溝通的橋梁。
3.1系統登錄與注冊
登陸平臺的主要有三種身份:系統管理員、教師、學生。系統管理員:主要負責修改系統配置,維護課程,用戶信息,可根據學校的根據實際情況設定、添加、管理用戶。教師:管理教學、組織教學內容、編輯課件、在線考試、審批作業、組織在線答疑、統計分析學生學習情況等。學生:選修課程、安排學習計劃、查看課程內容、提交作業、參加在線測試、查看學習成績、協作學習和交流、參與學校社團交流等。
3.2課程管理
教學資源是網絡教學平臺中的重要部分,資源的種類以及展現方式,很大程度上決定了平臺的質量。教師負責自己的課程內容的建設、開展教學。平臺支持任何電子文檔、Word、PowerPoint、圖片、音頻、視頻等。
3.3作業管理
布置一個任務,學生可以上載合乎要求的文件。作業有三種類型:1)要求學生上載一個文件:教師布置作業,指明交作業的最后日期,然后學生提交一個文件,作業內容在這個文件中;2)離線項目,不提交文件;3)在線文本,這類作業讓學生在線編輯文本提交。
3.4測試管理
測驗模塊允許教師設計、編制測驗,包括選擇題、是非題、匹配題和簡答題,可以生成試題庫,今后,教師出題測試就可以直接由題庫產生,題目可以隨機選題,隨機排序,題庫的建立,可以手工錄入,也可以文件導入的方式進行。
3.5 BBS討論
平臺同時為用戶提供BBS交流工具,增強學習效果。通過BBS討論,可以實時或非實時與學生交流,打破了空間和時間的限制。
3.6數據挖掘功能
統計分析是數據挖掘最基本的技術,通過對采集并存儲到數據庫中的數據進行加工處理,提供圖形化界面實現對學生在線學習行為的實時統計分析。我們的平臺通過對Web服務器日志數據進行統計分析。
3.7對學生的學習過程進行評價
平臺設置有全面的跟蹤和日志功能,對每一個學生學習過程的每個細節、行為和操作,包括訪問課程的次數、學習者參與的程度、停留的時間、參與討論的情況等進行全程跟蹤,從而實現對學生學習過程的評價。
4結束語
筆者開發的網絡教學決策支持系統已經與計算機應用基礎課程集成在一起,并在貴州電大的測試服務器上,通過對網絡決策支持系統和電大在線的比較研究可以看出,網絡決策支持系統平臺的優點主要在于強調遠程教育的網絡學習過程;加強了教師與學生、學生與學生或學生與資源的互動;突出了網絡學習的環境建設,加強了個性化學習的支持;優化了網站的結構。同時借助數據挖掘技術,對學生大量的評教數據進行處理,提高教學評價的效率,為教師和教學管理部門提供決策支持。
參考文獻:
[1] Hand D,Maunila H.數據挖掘原理[M].張銀奎,譯.北京:機械工業出版社,2003.
[2]張峰.基于數據挖掘技術的教學管理應用研究[D].合肥:合肥工業大學,2011.
一、研究背景
對學習效率的研究是多學科、多領域的共同課題,近年來學者在管理學、心理學等領域對其進行了大量研究并取得一定的進展。但是國內外的研究多是從微觀因素出發研究其對學習效率的影響,偏重于闡述,很少定量分析其對學習效率的影響。有的學者研究了大學生的角色認知與學習行為之間的關系,得出了“讓大學生明白自己的角色地位和歷史使命有助于其成長成才”的結論[1]。還有學者將影響學習效率的因素概括性的分為學習主體、學習對象、學習手段和學習環境,特別是對學習環境進行了詳述,并提出了改進措施。然而外界客觀環境對學習主體的影響畢竟有限。[2]我們面臨的現實情況是:大學生對學習效率不滿,雖然努力通過各種方式提高學習效率,但收效甚微。
為了全面分析學習效率影響因素,我們查閱了大量的資料并展開深入研討,設計了內容合適的調查問卷,然后在國防科技大學的本科生群體中展開調查,對回收的問卷數字化處理,之后采用數據挖掘和系統工程方法進行研究。最終,對得出的結論使用社會科學方法開展進一步的研究和解釋。
二、問卷調查以及數據預處理
(一)調查問卷
基于研究目的和現實情況,我們以國防科學技術大學學生作為調查對象,采用自填式調查問卷。調查問卷中的問題主要包括以下幾個方面。
1.作為學習主體的學生的個人情況。包括學習態度、性格特點、健康狀況。關于這方面的問題有“你認為這門功課是不是你所愛好的方向?”“如果今天感到身體不適,那你覺得影響你的學習沒有?”“通常在表達一件事情上,我更看重:(A)說話給對方感受到的強烈印象;(B)說話表述的準確程度;(C)說話所能達到的最終目標;(D)說話后周圍的人際感受是否舒服”等。這部分更主要的是一些心理測試題,以便準確分析出應答者的個人情況。
2.學習的對象,即所學習的專業課。專業課的性質、難易程度、任課教員等都會對學習過程產生影響。這部分問題設置有“這門課的考核形式(考試/論文/大作業/其他)”、“你喜歡教師的上課風格嗎”等。
3.學習環境。主要包括對家庭環境、學校的自然環境以及學校的人文環境的相關調查。
4.學習手段。教師的教學方法、學生的學習方法對學習效率有著重要影響。這部分問題包括“你認為多媒體的應用作用怎么樣(很大/比較大/一般/幾乎沒影響)”、“如果遇到比較難的問題,你向教師或同學尋求幫助嗎(總是/經常/有時/很少/從不)”等。
問卷的所有題目均是選擇題,選項3~5個不等,共69道題,分兩次對同一批學生跟蹤調查完成。總共發放350份調查問卷,有效回收調查問卷302份。
通過以上調查問卷內容的設計,利用回收的結果與學生的專業課成績進行關聯分析(數據挖掘),從而得到科學可靠的結論。
(二)調查數據的預處理
問卷預處理包括問卷數據化以及無效數據的甄別。利用Excel表格對回收的調查問卷結果進行匯總,在錄入數據前先利用應答者的學號對每張問卷進行編號。在錄入時我們將問題的選項分別用1、2、3、4、5替換,然后在這些選項前加上代表題號的數字,從而加以區別(比如:40題的第一個選項被記錄為“401”),便于后續的統計分析和數據挖掘。每位學生的問卷結果記錄為一列,這樣該列就記錄了該同學對所有問題的選擇。
三、調查結果的數據挖掘
數據挖掘是通過分析大量數據來揭示有意義的新的關系趨勢和模式的過程。本次研究的工作就是通過挖掘回收的大量數據得到有價值的結論。
四、挖掘結果的分析
1.關于學習主體的分析。通過研究成績在80~90分的學生的問卷數據以及得到的有關關聯規則(支持度為10,置信度為0.8)(成績在90分以上的學生太少),發現有關聯規則:[(1)對學習內容進行預習、復習比較少;(2)對于實現目標比較努力,態度不強烈,也不迷茫;(3)贊同這門課在上午1、2節上會讓你有比較好的聽課效果]==>[成績在80~90分]
取得較高成績的學生不經常復習和預習。這個結果似乎出人意料,因為我們一般有這樣的印象:學習好的除了個別極聰明的(學得輕松),大部分都是非常刻苦學習的人。但是看他們后面的答題情況,問題就迎刃而解了。這部分同學中大多數人都認為自己比較努力,同時表示上午1、2節課的學習效率較高。可以看出他們能為了自己的目標而努力,也可以看出他們學習時的精神狀態較好。當代大學生基本都是“春困秋V夏打盹”,在早上表現得尤為明顯,晨間課提起精神比較難。而成績好的那部分同學早上的學習效率很高,說明其每天的學習狀態都不錯,聽課效率比一般人高,因此他們課下復習少卻還能取得好成績就不奇怪了。
2.關于學習客體的分析。通過研究成績在80~90分的學生的問卷數據以及得到的關聯規則(支持度為10,置信度為0.8)(成績在90分以上的學生太少),發現關聯規則:[認為教師上課速度較快,較難];[認為專業課有用]==>[成績在80~90分]
學習不存在問題的同學認為課程進度較快,難度較大,學習過程中存在吃力的時候。這似乎與我們平時的觀察不太一致,而且這不是個別現象。我們采訪了部分同學之后發現,“認為專業課有用”的同學,都會相當認真地去完成課程任務,而且課程越是難度大,就越能激起學生的緊迫感,所以他們能取得好成績就不足為奇了。
3.關于學習環境的分析。通過研究成績在80~90分的學生的問卷數據以及得到的有關關聯規則(支持度為10,置信度為0.8)(成績在90分以上的學生太少),發現關聯規則:[主要課余活動是社團活動],[課后完成作業時需要復習、查找相關資料],[感覺自己的學習投入時間與成績不成比例]==>[成績在80~90分]
成績好的學生,通常會把一定的時間投入到各種社團活動中去,這勢必會相應地減少學習時間,然而,學習時間的減少非但沒有讓他們學習退步,反而對學習有一定的促進作用。大學里,學生應以學業為主,但是學習并不是全部,在不荒廢學業的情況下,參加社團活動,以及發展自己的興趣愛好是必要的。特別是一些像電子、機械、計算機之類的社團,對于提升成績更具有直接作用。
4.關于學習手段的分析。支持度為20,置信度為0.8的強關聯規則:[上課時偶爾開小差,基本在學習]==>[課后完成作業時需要復習、查找相關資料]、[經常制訂學習計劃]==>[課后完成作業時需要復習、查找相關資料]
從上述的強關聯規則可以看出,好習慣呈現“扎堆現象”,一般上課認真聽講的學生也會主動去制訂自己的學習計劃并且經常調整,大部分學生能夠積極自主地完成作業,但這也反映出了大部分成績較好的學生有比較類似的學習習慣。
五、結論
學生的投入與產出不成正比終究是態度出了問題。我們總結了成績好的學生的共同特點:有目標、有緊迫感。而成績不理想的學生通常沒有合理分配自己的時間或者是沒有找到自己合理的定位,造成“沒玩好也沒學好”。這足以說明學習態度的重要地位,其次才是學習方法和客觀學習環境。
中圖分類號:TP301文獻標識碼:A文章編號:1009-3044(2010)03-753-02
Undergraduate's Major Guidance System: Implementation of Decision Tree Algorithm
DUAN Ying-jie
(Changzhou Liu Guo-jun Vocational Technology College, Changzhou 213003, China)
Abstract: Data mining is a technology that finds information with potential value from a large number of data. The decision tree method is a kind of typical classification algorithm, that processes data, generates readable rules and a decision tree model, and then analyses new data following the decision tree model. As an instance, the process of developing undergraduates' major guidance system is introduced in this paper. The paper tells basic knowledge of concepts, contents, essence, and main methods of data mining, narrates in detail the method and implementation of decision tree algorithm by MATLAB 7.0, and analyses the decision tree model in this application.
Key words: data mining; classification; decision tree; undergraduates' major guidance
隨著高校的成長和規模的擴大,在高校內都積累了大量的與學生資源相關的數據。在這些海量的數據的背后隱藏著許多重要的模式和知識。快速、準確、高效地將這些模式和知識挖掘出來,是高校提高學生資源管理水平和增強學校競爭力的一個重要手段。我們可以利用數據挖掘技術從海量數據中發現有價值的信息,幫助管理者通過對學生學習成績的分析和研究,了解和掌握學生的學習情況、需求、能力等,及時調整學習計劃,對學生專業方向選擇做出預測性的指導,從而為制訂人才需求規劃、人才培養提供比較客觀的決策支持。
1 決策樹分類數據挖掘系統建立和應用的一個典型過程
決策樹分類挖掘技術應用于大學生專業方向輔助指導中,可以通過對學生各科學習成績信息的分析,預測該學生所屬的專業類別,從而采取相應的教學計劃,這樣能夠提高學校的教學水平,避免學生的流失;還可以通過最小的教師資源投入獲得最大的收益。
下面,我們以計算機系為例,具體討論一下計算機系的學生的具體專業方向。
計算機學科的專業方向具體可以劃分為以下三個方面:
1) 計算機軟件專業;
2) 計算機網絡專業;
3) 計算機硬件專業。
決策樹方法是利用信息論中的信息增益尋找數據庫中具有最大信息量的屬性字段,建立決策樹的一個結點,再根據該屬性字段的不同取值建立樹的分支,并在每個分支子集中重復建立樹的下層結點和分支的過程。在對學生進行專業分類分析的過程中,決策樹分類數據挖掘系統建立和應用的一個典型過程是:
首先,根據學生的專業分類的標準,對學生所屬的專業進行劃分,這樣,每個現有的學生都具有一個確定的專業類別。
其次,根據歷史數據,主要是學生的各科學習成績數據和學生的專業分類數據,執行決策樹生成算法,生成一棵決策樹。
最后,在以上過程執行完畢后,當一個新的學生信息數據進入時,管理者可以在系統中調用決策樹模塊,根據學生的具體信息數據來預測學生所屬的專業類別。
2 系統實施的具體步驟
2.1 數據的收集和整理
數據的收集整理對于任何數據挖掘來說都是必不可少的,雖然對于不同的算法來說,收集數據的途徑是差不多的,但是整理方式卻大不一樣。整個數據的收集和整理可以大體分為數據的選擇,數據的預處理,數據的縮減三個步驟。數據挖掘的算法決定了整理的方式,整理結果形式上可以是一個表也可以是多個表,但最終要便于進行數據挖掘,內容上要與數據挖掘的目標一致,這是很明顯的。數據庫技術的廣泛使用,使得現在大量的數據是使用表的形式存放的,因此數據的整理體現在對表中的數據進行處理。
首先,對訓練表中的屬性進行選擇。根據在校學生各科的學習成績信息,我們將基礎課程和專業基礎課程作為訓練表中的非類別屬性也就是條件屬性,而將專業課程作為確定類別屬性也就是分類屬性的依據。如果非類別屬性中存在重復屬性則取平均值后保留為一個屬性,并剔除了成績表中與專業發展方向無顯著相關性的屬性如體育等課程屬性。類別屬性值通過將專業課程歸類后取平均,再求得最大值后確定,即:對某一記錄,硬件專業平均分為72,軟件專業平均分為69,網絡專業平均分為82,則該記錄確定為網絡專業,賦給屬性的值為2。2代表網絡專業,1代表軟件專業,3代表硬件專業。
其次,對訓練表中的每一列屬性的值進行規范化和離散化處理。考慮到教師的評分標準存在普遍偏高或偏低的情況,我們利用下面公式進行數據規范化處理:
y=(100*(x-min))/(max-min)
x是表中原始數據,max是本屬性列中屬性值最大的值,min是本屬性列中屬性值最小的值,得到規范化后的數據y。再將數據y進行離散化處理。若y∈[0 ,20] 則 y=1,若y∈[21,40] 則y=2,若y∈[41,60] 則y=3,若y∈[61,80] 則y=4,若y∈[81,100] 則y=5。
經過上述的工作之后,整個表就只是包含了影響專業發展方向的關鍵因素的條件屬性和分類屬性。為了能在以后的工作中使用數據更方便,我們將分類屬性提取出來,單獨存放在一張表中。
2.2 選取訓練實例集
我們從經過數據整理得到的樣本數據中進行抽樣,將抽樣數據作為訓練集輸入。
2.3 采用“分裂的優良性度量”來產生決策樹的每一級節點
使用“分裂的優良性度量”來選擇每一級最佳分類字段,當出現以下三種情形之一時可以停止分類:
1) 一個結點上的數據都是屬于同一類別;
2) 沒有剩余屬性可以再對數據樣本進行分割;
3) 分枝沒有訓練樣本。
3 決策樹模型準確度分析
本挖掘系統主要是通過決策樹ID3算法生成可讀的規則和決策樹模型,然后使用已經得到的決策樹模型對預測集里的每一條記錄,從樹的根結點開始,向下找出該記錄所屬的類。因此,整個決策樹挖掘子系統測試數據的準確度在很大程度上取決于已經建立的這個決策樹模型。
通過測試,我們發現這個決策樹模型的準確度較一般。
影響決策樹模型準確度的因素有多方面,通過對本系統的決策樹模型分析,我們可以發現目前存在于本挖掘系統中,影響模型準確度的一些主要因素:
3.1 挖掘庫中數據記錄的有限性
通過數據收集,我們得到以電子表格形式存儲的數據記錄為205條,經過數據整理之后,我們實際可以使用的數據記錄為173條,由于在系統實現過程中,我們還需要預留一部分數據進行數據分析準確度測試,因此,在放入訓練數據集進行決策樹模型生成訓練的實際數據記錄為150條。而使用決策樹ID3方法對于越大的數據庫使用效果越好,由于本次數據挖掘使用的挖掘庫中的數據記錄存在有限性,使得對ID3方法的使用效果產生影響。
3.2 數據預處理工作
通過對已經生成的決策樹模型的分析,我們發現在存放該模型的文件中出現了許多空訓練樣本集,盡管在程序設計的過程中已經使用語句if(~isempty(indices))和結束條件對訓練集為空的例子進行控制,但是,還是出現了大量的空例子。分析產生這種情況的主要原因之一是在數據預處理的過程中,對數據的處理不當造成的。我們最初對數據進行離散化處理時,用1 表示[0,59]之間的分數,用2表示[60,69]之間的分數,用3表示[70,79]之間的分數,用4表示[80,89]之間的分數,用5表示[90,100]之間的分數,對于考察科目的優、良、中、及格和不及格,我們分別對應用5、4、3、2、1來表示。而在實際應用中,存在這樣的情況:(1)由于教師的評分標準不同,導致學生的成績數據普遍偏高或者偏低;(2)數據表中學生每門課程的屬性值取值集中在{2,3,4},而對于屬性值取值{1,5}的數據記錄非常少。因此,我們在進行數據預處理工作的時候,應該考慮將1表示[0,69]之間的分數,用2表示[70,79]之間的分數,用3表示[80,100]之間的分數,對于考察科目的優、良、中、及格和不及格,也可以將等級為優與良的屬性取值合并為3,等級為及格和不及格的屬性值合并為1,分別對應用3、2、1來表示。
通過上述分析,我們找到了影響本挖掘系統建立的決策樹模型準確度的一些主要因素。
中圖分類號:G420文獻標識碼:A文章編號:1672-3791(2012)02(c)-0000-00
1 引言
隨著計算機技術和信息技術的發展,以網絡為載體、利用數字電子化方式開展的教學活動逐漸成為了目前最為重要的教學形式,這種教學形式的真正優勢在于能為學習者個體提供個性化的學習安排,而這種個性化的教育服務也勢必會進一步促進網絡教學的發展。
2 Web數據挖掘
Web數據挖掘,是在Web環境下數據挖掘技術的應用,是從Web的超鏈接結構、網頁內容和使用日志中提取有用的模式和隱含信息。Web上信息的表現具有多樣性,這也就決定了Web挖掘任務同樣也具有多樣性。根據處理對象的不同,Web挖掘一般可以分為Web內容挖掘、Web結構挖掘和Web日志挖掘三類。本課題重點研究Web日志挖掘。
Web日志挖掘的主要任務是從Web的服務器日志中抽取有意義的信息和模式。Web日志挖掘處理的是在用戶和網絡交互的過程中抽取出來的第二手數據。這些數據包括網絡服務器訪問記錄、服務器日志記錄、瀏覽器日志記錄、注冊信息、用戶對話等。對這些數據進行挖掘和分析可以幫助理解用戶的行為,進而改進載體站點的結構或者為用戶提供個性化的服務。那么在網絡教學中應用Web日志挖掘就可以通過挖掘相應站點的日志文件獲取學習者的訪問內容、停留時間、訪問頻度等,從而發現其學習訪問模式等有用信息,進一步提升整個網絡教學的品質。
Web日志挖掘的研究圍繞著分析Web站點性能、理解用戶意圖和改進Web站點設計三個應用方面進行,常用的技術主要有統計分析、關聯規則分析、序列模式分析、聚類與分類分析等。Web日志挖掘一般分為數據預處理、模式發現和模式分析三個基本階段。
2.1 數據預處理階段
服務器端數據、客戶端數據和服務器端數據收集都是Web日志挖掘的數據源。數據預處理階段的主要任務是將各種數據源得到的使用信息、內容信息和結構信息轉換成適合數據挖掘和模式發現所需要的數據模型。數據預處理是在將日志文件轉化為數據庫文件之后進行的,是為了得到可用于挖掘的可靠和精確的數據。這個過程一般分為數據清洗、用戶識別、會話識別和路徑補充4個步驟。
1)數據清洗是指刪除日志文件中一些與挖掘任務無關的數據,包括刪除、合并某些記錄,處理用戶請求訪問失敗的記錄等內容。2)用戶識別的主要任務是處理多個用戶通過服務器或防火墻訪問站點的情況,是將用戶和請求頁面相關聯的過程。3)會話識別的任務就是把屬于同一個用戶的同一次訪問請求識別出來,也就是將用戶的訪問記錄劃分成單個的會話。一般采用超時識別。4)路徑補充就是根據引用日志和網絡拓撲結構把訪問日志中沒有記錄的用戶補充到用戶會話文件之中,確保獲得用戶完整的訪問路徑。
2.2 模式發現階段
模式發現階段是Web日志挖掘的核心部分。經過數據預處理之后,應用一種合理的挖掘算法或綜合應用不同的算法,如關聯規則分析、聚類和分類技術等,來處理“消噪”后的數據,最終發現用戶的訪問模式和規律。
2.3 模式分析階段
Web日志挖掘的最后一步就是模式分析。通過模式挖掘之后,生成的規則數目龐大,表達晦澀,得不到很好的利用,這就需要對模式發現過程產生的規則和模式進行過濾,通過模式分析和應用技術處理之,選擇用戶易于理解和棘手的方式顯示出來。常用技術有可視化技術、聯機分析技術和智能查詢機制等。
3 網絡教學中的Web數據挖掘方法
3.1 關聯分析
關聯分析是尋找在同一個事件中出現的不同項的相關性。關聯分析發現關聯規則,運用在Web挖掘環境中的關聯規則是指發現用戶會話中經常被用戶一起訪問的頁面集合,這些頁面之間沒有順序關系。購物籃分析就是一個非常典型的關聯規則應用,該應用通過發現顧客放入“購物籃”中不同商品之間的聯系來分析顧客的購買習慣。在Web中,關聯規則作為啟發式規則,可以發現學習者對內容頁面之間的訪問關系,調整頁面之間的結構關系,預測學習者可能訪問的內容,使其最快捷地訪問到感興趣的內容。在網絡教學中就可以利用關聯分析尋找各門課程之間的內在聯系,根據A課程與B課程在一起瀏覽的情況,推導出A和B在一起是起著積極作用還是負面影響,進而可以選定課程之間的關聯,及時制定策略建立或刪除A和B課程之間的關聯。
3.2 分類分析
分類分析是預先定義好幾個類,然后將數據項映射到某個類中去。在Web日志挖掘中使用分類能夠將用戶配置文件歸屬到特定的用戶類別,建立數據各特定類別的用戶概圖。例如把學生的知識能力水平分成入門級、初級、中級和高級,利用分類技術將學習者投射到某一個級別中,為每個級別提供相應的個性化資源和學習支持服務,還可以用于遠程協作的學習小組分配。可以利用有監督的歸納學習算法來實現這種分類。
3.3 聚類分析
分類與聚類是不同的兩種方法,分類中的類及相關屬性是預先定義好的,其目的是運用分類算法將沒有劃分類別的數據標記為特定的類標號;而聚類中的類別事先并沒定義,其目的是將大量的個體數據,根據屬性之間的相似性,將原始數據集合劃分為若干個子集。在網絡教學中聚類是一個重要的方面,它幫助網站設計人員從用戶數據庫中發現不同的用戶群,并且用學習模式來刻畫不同的用戶群的特征。通過聚類分析可以幫助網站設計者更好地了解自己的用戶,使教學活動能夠在一定程度上滿足學生的要求。
3.4 序列模式分析
序列模式指在事務之間尋找相應的時序關系,在時序數據集中發現在時間上具有先后順序的數據項。根據序列模式的特點,利用序列模式分析技術我們可以對用戶的瀏覽趨勢進行分析,在網絡教學中學生的課程學習是循序漸進的,且具有一定的關聯和前后順序,進行序列模式分析可以預測學生的未來訪問模式,且有助于針對特定用戶群安排特定內容,可以解決遠程教育中針對各種層次學生進行因材施教的問題。
4 基于Web挖掘的個性化網絡教學系統
網絡教學作為一種基于Web的,以遠程方式進行的教學活動,打破了過去教師、學生面對面、共集一堂的時間和空間的限制,使更多的人能夠享受到有限的社會教育資源,而引入個性化后的網絡教學將是一個智能化的系統,可以更多且及時地了解到學生的狀況、需求、能力差異、學習進度、興趣愛好,并動態地根據這些因素調整學習計劃及進度,讓學生得到針對其個性化的教育。
4.1 系統模型
基于Web挖掘的個性化網絡教學系統設計思想是:通過獲取學習者在Web上的個人信息、學習行為信息和Web日志數據,如訪問頻度、內容、訪問時間長短及偏好,經過數據預處理、模式發現找出有用的規則和模式進行綜合分析,結合教學資源知識庫的信息,得出學習者學習過程的一般模式規律,對學習內容和進度進行自動組合,重構頁面間鏈接,為學習者提供良好的個性化服務,使學習者更好地發展自我。根據上述的設計思想,提出一種基于Web日志挖掘的個性化遠程教育系統模型,如圖1所示。
4.2 系統結構
4.2.1 數據預處理模塊
數據預處理模塊負責對服務器端的訪問日志進行預處理,以得到滿足Web日志挖掘要求的事務數據。主要是根據挖掘任務進行數據清洗、用戶識別、會話識別和事務識別。
1)數據清洗 數據清洗是整個預處理的基礎,主要是將有噪聲的、不一致的、冗余的數據從Web訪問日志中清除或合并。可以采用縱向縮減和橫向縮減進行清洗,例如當學習者對某個頁面發出訪問請求時,這個頁面中的圖形、腳本、圖像等資源就會被自動下載,并寫入日志數據中,但在網絡教學網站中,只有包含教學內容的HTML文件與用戶會話有關,而后綴名為.jpg,.gif和.jpeg的圖片文件,后綴名為.wav的音頻文件以及后綴名為.js和.cgi的腳本文件都屬于噪聲信息。這時我們就可以利用縱向縮減中的后綴過濾法進行數據清理。2) 用戶識別 用戶識別是為了得到同一用戶訪問的所有路徑的集合。用戶識別在對用戶進行訪問模式挖掘或聚類分析時尤為重要,因為群體是由個體組成的,只有對個體有了詳細的認識才能清楚地識別群體特征。3)會話識別 一個會話是學習者從進入到離開網絡教學站點這段時間內的一組網頁訪問,可以根據學習者登陸系統、完成學習、最后退出的過程來識別會話。Web日志中存儲著大量的訪問信息,時間跨度大,一名學習者可能在此期間多次訪問了該站點,那么會話識別的意義就在于可以將不同時間段內的學習者訪問區分開,將學習者多次訪問的頁面劃分成多次用戶會話。會話的劃分有多種方法,有基于時間劃分的,有基于站點拓撲結構劃分的。而最為常用的方法就是通過設置一個用戶在站點的持續時間或頁面停留時間閾值來識別用戶會話,如果請求時間超過閾值則認為新會話開始。4)路徑補充:由于本地緩存和服務器緩存的存在,使得難以識別學習者訪問的網頁序列,而路徑補充就是補全那些不完整的學習者訪問序列。路徑補充可以遵循一些原則,比如通過在網頁的標志中設置過期時間,使得本地緩存失效,這樣就可以保證Web日志記錄中保存了用戶的真實訪問路徑;還可以結合訪問日志、引用日志、日志和網站拓撲結構來實現路徑補充。在完成數據預處理之后會就能得到網絡教學系統中的Web訪問事務數據庫,學習者對網絡教學站點的訪問情況都將存儲在Web訪問事務數據庫中,每一個事務是一組內容頁面的集合,代表著學習者一次有意義的訪問。
4.2.2 Web挖掘引擎模塊
在Web事務庫中已經存儲了數據預處理的結果,下一步就可以離線利用統計分析和聚類方法進行Web事務庫挖掘。
1)統計分析 統計分析是Web挖掘中最基本的方法,也是分析用戶行為最常用的方法。通過記錄學習者經常訪問的URL,跟蹤統計學生訪問次數、總停留時間、該學習者的課程數、計算學習者對哪些課程停留時間較長等,得到學習者的學習特征風格,建立和完善學習者學習模型,建立學習者個性數據庫,為不同的學習者提供合適的學習策略提供幫助。2)聚類分析 將物理或者抽象對象的集合分組成為類似的對象組成的多個類的過程稱為聚類,其目標就是在相似的基礎上收集數據來分類。聚類分析不需要預先定義類的特點或屬性,而是從用戶的訪問行為中發現潛在性的知識,從而能更好地體現智能性。頁面(資源)聚類和學生聚類是實現個性化網絡教學最為重要的兩種方法。如果通過聚類發現若干個網頁屬于同一網頁(資源)聚類,當學生訪問其中一頁(資源)時,可推薦類中其它頁面(資源)。當學習者具有相似的學習習慣或學習興趣時,可以利用學生聚類法對他們提供相同的個性化服務。
4.2.3 知識庫應用模塊
應用統計分析、關聯規則分析、分類和聚類技術和序列模式等挖掘算法對Web事務庫進行了挖掘和分析,其結果存放在知識庫中,此時網站設計者可利用知識庫中的信息和模式為學習者提供合適的學習策略和學習建議,進一步改進網站結構,實現真正意義上的個性化信息服務。
5 結 語
Internet技術的發展和網絡的普及擴展了數據挖掘的應用范圍,利用Web數據挖掘技術對網絡教學網站上的各種數據源進行挖掘,把握用戶的興趣,有助于開展網站信息推送服務以及個人信息的定制服務。
參考文獻
[1] 馮春輝.Web日志挖掘在網絡教學中的應用研究.計算機技術與發展,2010,6.
[2] ,丁華福,姜倫.Web日志挖掘中數據預處理技術的研究.計算機技術與發展,2010,5.
[3] 李中,苑津莎,徐小彩.基于Web日志挖掘的客戶訪問興趣分析.華北電力大學學報,2009,5.
[4] 蘇新寧,楊建林,等.數據倉庫和數據挖掘.清華大學出版社,2006,4.
[5] 李燕風.Web訪問信息挖掘系統.計算機工程,2003,29(15).
[6] 張娥.Web使用模式研究中的數據挖掘.計算機應用研究,2000,3.
[7] 韓曉紅.網絡教學的特點與模式[J]. 甘肅高師學報. 2004(02).
1、引言
隨著互聯網應用技術的深入發展,人們對于各種網絡應用的需求正在急劇增加,同時各類網絡服務的競爭也日益加劇。如何為用戶提供更好的服務,是當今網絡應用服務商們所急需解決的問題。基于這種需求,個性化的Web服務研究正成為目前的一個研究熱點。
遠程教育以其便利、快捷、隨意的時間安排和廉價的收費正逐漸成為人們接受教育的一種新興的途徑,遠程教育作為一種學習手段,適用于高等教育、職業教育和成人教育。其教育對象存在著極大的差異性,主要體現在:個人學習目標的不同、學習能力的不同、認知風格不同。所以就需要針對性的提供差異性的教學內容和教學安排。而在現代遠程教育模式下,學生學習的過程就是在遠程教育網站頁面中跳轉活動的過程,他們的每個活動都是以教育網站上的一個頁面對象的點擊操作,這些點擊操作都能被完整地記錄在系統日志中,通過對日志的分析挖掘,一方面可以找出學生行為模式;另一方面,可以分析出遠程教育網站的結構組織是不是符合學生和教師學習和教學的規律。所以,將Web挖掘運用于遠程教育系統中,使之量身定做地為每個個體提供個性化的學習方案,從而進一步指導網站建設,是遠程教育獲得進一步發展的一個重要手段.
2.遠程教育與WebMining
2.1遠程教育
現代遠程教育是當代社會經濟和科技發展到一定程度以后所出現的一種新的遠程教育模式。它是在計算機和網絡、衛星系統的支持下,實現異地同步的圖像、聲音以及教學雙方的交流互動教學對傳統的教育模式帶來了一場全新的革命,其顯著特點是:
1)完全動態:各種學習資源是動態的,能夠采用多種交互方式進行上下傳,最新的教學信息也可以及時地反映到網上;
2)實時交互:能與教師、專家進行即時交流;
3)易于協作:學習者能夠按照某種劃分方式組成各種類型的小組,相互協作完成一定的課題項目,而且能夠在需要的時候得到教師、專家的幫助;
4)適應性學習方式:學習者可以根據個人的程度和喜好按排制定自己的學習計劃,教學內容能根據其選擇動態構建;
5)新穎全面:學校提供了豐富的而且不斷更新升級的學習資源,學生能夠很方便取得最好最新的學習資源,并以自己喜歡的格式展現出來。
這些特點反映了這樣一個趨勢,學習者不再是被動的接收教師的知識,他會主動去獲取相關信息其自主能力越來越強,由此對遠程教育系統提出了越來越高的要求,遠程教育系統應該也是一個能夠根據學習者行為信息不斷學習變化的系統,于是如何能夠從眾多的訪問者的大量訪問記錄中提取其行為信息來指導系統,從而提供更加完善服務就成為我們必須考慮的問題。
2.2WebMining
Internet的蓬勃發展使WebMining成為一個熱點。WebMining就是針對包括Web頁面內容、頁面之間的結構、用戶訪問信息等在內的各種Web數據,應用數據挖掘方法提取抽象的、潛在的、有用的知識。Web站點中主要有三類數據:內容數據、結構數據、使用數據。同時WebMining是指在WWW上挖掘有趣的、潛在的、有用的模式和信息的過程。也分成三類:WebContentMining、WebStructureMining、WebUsageMining。
WebContentMining是對Web頁面內容進行挖掘,從Web數據中發現信息。盡管人們可以直接從網上通過抓取建立索引,實現檢索服務來獲得資源,但是大量的“隱藏”信息只能通過內容挖掘來自動挖掘。
WebStructureMining是對Web頁面之間的結構進行挖掘。在整個Web空間,有用的知識不僅包含在頁面的內容中,而且也包含在頁面的結構中。Web結構挖掘主要針對的就是頁面的超鏈接結構,如果有較多的超鏈接指向它,那么該頁面就是重要的,發現的這種知識可用來改進搜索路徑等。
WebContentMining和WebStructureMining的對象都是網絡上的原始數據,而WebUsageMining不同于它們。它面對的是用戶和網絡交互過程中抽取出來的二手數據,這些數據主要是用戶在訪問Web時在Web日志(logs)里留下的信息,以及其它一些交互信息,包括:訪問日期、時間、用戶IP地址、服務器IP地址、方法、所請求URL資源、服務器響應狀態、用戶、發送字節等。WebUsageMining就是對ServerLogs、ErrorLogs、CookieLogs等日志信息,以及用戶的注冊數據等進行挖掘,以發現有用信息,并對學生訪問留下的日志文件進行分析提取,獲得關于學生學習的信息,作為對學生提供教學服務的依據。
學生在訪問網站時會留下許多信息。WebUsageMining技術能對這些信息進行挖掘,并利用這些信息建立起一個智能化的、個性化的遠程教育系統。這個系統通過對學習者學習行為的分析和研究,了解和掌握學生學習的情況、需求、能力、進度、興趣等,及時調整學習計劃,呈現符合個性的學習資源,使得每一個學生身邊仿佛有了能針對自身特點進行教學的“老師”而獲得個性化的教學服務
Web使用記錄挖掘的主要目標則是從Web網站的訪問日志記錄中獲取感興趣的模式,每個Web服務器都能有訪問日志文件,它記錄了訪問者的訪問和交互的信息。通過分析這些數據可以幫助網站管理者理解用戶的行為和Web結構,從而改進站點的設計。
3、WebUsageMining技術
個性化的遠程教育系統有許多可實現的方案和技術,基于WebMining系統的數據輸入一般有系統日志文件、用戶與系統交互數據(如學生注冊信息、考試成績等),但WebUsageMining技術主要用于對系統日志信息的挖掘。雖然WebUsageMining在具體實現時采用的結構和技術各不相同,但其主要過程都包括預處理、模式發現和模式分析。
3.1.預處理
預處理是Web挖掘中最關鍵的一個環節,其質量關系到使用挖掘過程和模式分析過程的質量。預處理包括數據清洗、用戶識別、會話識別、路徑補充和事件識別。
數據清洗其目的在于把日志文件中一些與數據分析、挖掘無關的項清除掉,如剔除CS-Uri-Stem項。還可剔除用戶請求訪問失敗的記錄,及用戶請求方法中不是GET的記錄。
用戶識別這是預處理的第二步,因為日志文件只是記錄了主機或服務器的IP地址,而要識別每一個用戶,則可采用Cookie技術和用一些啟發規則來幫助識別。
會話識別在時間區段較大的Web服務器日志中,用戶有可能多次訪問該站點。會話識別的目的就是將用戶的訪問記錄劃分成單個的會話。一般采用超時識別,如果用戶請求的頁面之間的時間超過一定間隔,則認為用戶開始了一個新的會話。
路徑補充確認Web日志中是否有重要的頁面訪問記錄被遺漏,這個問題的產生是由于Cache的存在所致。路徑補充的任務就是將這些遺漏的請求補充到用戶會話文件之中,也可以根據引用日志和網絡拓撲結構提供的信息把路徑補充完整。
事件識別事件識別是與要挖掘什么樣的知識有關,將用戶會話針對挖掘活動的特定需要進行事件定義。識別事件的方法有二:一個是ReferenceLength,一個是MaximalForwardReference。
3.2.模式發現(挖掘算法)
這個過程主要用一些挖掘算法來挖掘出規則、模式等。WebUsageMining中用到的Web日志分析及用戶行為模式的挖掘方法,主要用了統計分析、關聯規則、分類、聚類、序列模式等技術。
統計分析是分析用戶行為最常用的方法。通過求出現率、求平均、求中值等,統計最常訪問的網頁,每頁平均訪問的時間,瀏覽路徑的平均長度等,以獲得用戶訪問站點的基本信息。除此,還能提供有限的低層次的錯誤分析,比如檢測未授權入口點,找出最常見不變的URL等。在遠程教育系統中,可以分析該學生的訪問次數,總停留時間;該學生訪問的課程數;該學生對哪些課程停留時間較長等,還可統計網站某個時間段內訪問的次數,訪問次數最多的URL地址等。
關聯規則是通過分析用戶訪問網頁間的潛在聯系而歸納出的一種規則。關聯規則是如下的一種形式規則,如80%的用戶訪問Web頁面/company/product1時,也訪問了/company/product2,即只要訪問頁面A就有可能訪問B(或C……),在WebUsageMining中,人們經常使用的就是Apriori算法或其變形算法。在遠程教育系統中,關聯規則可發現用戶會話中經常被學生一起訪問的頁面集,這些頁面之間并沒有順序關系,我們可以根據這些學生群的相同興趣進行教學安排。同時,關聯規則還可作為啟發規則為遠程學生預取可能請求的頁面,以減少等待時間,建立起一個方便有效的學習環境。
聚類是把一組組個體按照相似性歸并成若干類別。在WebUsageMining領域包含著兩種聚類,即用戶聚類和頁聚類。“頁聚類”將內容相關的頁面歸在一個網頁組,對網上搜索引擎及提供上網幫助很有用;“用戶聚類”是將具有相似訪問特性的用戶歸在一起,在電子商務的市場分割和為用戶提供個性化服務中,能發揮巨大作用。
分類即將一組組個體分門別類的歸入預先設定好的幾個類中。在WebUsageMining領域,分類主要在于發展屬于特定類的用戶模型。它要求抽取出最能反映一個給定類的特性,通過誘導學習機制和分類的過程,并通過用戶歸入某一特定類,以對同一類別中的用戶提供相似的。分類的服務方法有:決策樹、貝葉斯算法、K近鄰分類器等。
在遠程教學中,可通過學生填寫的個人信息及學生訪問行為模式的分析,用分類或聚類方法劃分相似學生群體或個體,以提供相似或個性化的教學。遠程教育中的協作性學習也非常重要。根據關聯、分類分析,準確劃分目標群體,為小組分類提供可能性和依據。小組學習也是為學生個性化服務的最好模式之一。
序列模式試圖找出頁面依照時間順序出現的內在模式。如訪問Web頁面/company/products的客戶中,有30%的人曾在過去的一星期里用關鍵字M在Yahoo上做過查詢。序列模式可以用來做用戶的瀏覽趨勢分析,即一組數據項之后出現另一組數據項,從而形成一組按時間排序的會話,以預測未來的訪問模式,這將有助于針對特別用戶群安排特定內容。通過序列模式研究,可以解決遠程教育中針對各種層次學生進行因材施教的問題。
3.3.模式分析
模式分析是WebUsageMining中最后一項重要步驟。其通過選擇和觀察把發現的規則、模式和統計值轉換為知識,再經過模式分析得到有價值的模式,即我們感興趣的規則、模式,采用可視化技術,以圖形界面的方式提供給使用者。
在個性化的遠程教育系統中,除了對日志文件的挖掘,還要對用戶與站點的交互數據庫、課件樹、站點文件等進行挖掘,對學生作業與考試的完成過程與結果及提問、答疑情況進行分析,進行全方位的個性化教學服務。
4.個性化服務
隨著因特網的發展和普及,越來越多的用戶利用搜索引擎來搜索網上信息。盡管搜索引擎的發展已較成熟,但人們在使用中卻發現要準確、快速地查找自己所需的信息是越來越困難。主要原因有兩個:a一次搜索的檢索結果(一系列URL地址)可能有成千上萬條,而在這過于龐大的信息群中,有用信息只是其中的一小部分,并且常常發生收到或下載的信息難以消化的情況,即所謂的“認知過載”。b.目前的搜索引擎都是服務器端軟件,用戶需要嚴格按照各種引擎所要求的格式輸入查詢詞,但種種限制使用戶不知道如何貼切地表達自己的信息需求,也不知道如何更準確地尋找所需信息,即所謂的“迷航”。面對網絡信息服務的現狀,人們在尋求一種將信息用戶感興趣的信息主動推薦給用戶的服務方式,這便是個性化信息服務。個性化信息服務是在對用戶及其需求了解的情況下,即通過用戶研究,從數量龐大、增長迅速、類型復雜的網絡信息中提取出用戶真正需要的那一小部分提交給用戶,是以“用戶為中心”的服務原則在網絡環境下的具體體現。
5個性化的遠程學習框架
5.1個性化的遠程學習系統
實現個性化的遠程學習系統的關鍵就是在學習的各個階段對個體進行差異化的分析和處理。首先需要對參加學習的個體情況進行分類以安排相應的教學內容和進程;其次在學習的過程中,知識表示的內容需要根據對學習者的個性要求具有不同的形式;最后就是要對每一個階段的學習進行相應的評估和反饋。
個性化的遠程學習系統設計的基本思路是對每一個主題知識的學習,分別提供初、中、高三個不同類別的學習方案。通過使用SLIQ算法進行用戶分類,將學習者按學習能力分成不同的類別,類別會隨個體的學習情況進行調整,分類的依據是用戶的個人數據和學習情況歷史。
5.2用戶分類
不同的個體其背景各不相同,如個人的學習能力、興趣與學習習慣、原來基礎、努力程度,都存在巨大的差異。因此需要區分用戶群體,以便系統作出個性化的學習安排。對于每一個用戶都有很多屬性,有些顯然并不對個人的學習能力構成影響,比如地址、電子郵件等。有些是和學習能力密切相關的,比如學歷、職業、年齡和學習情況。
當用戶第一次注冊時,需要填寫有關個人信息,系統通過SLIQ算法得到的用戶類別信息將用戶歸入相應類別。用戶所屬類別會根據用戶個人信息的修改和其學習情況的改變而更改,比如某用戶原先的學習能力為“低”,經過一段時間的遠程課程學習以后,其學習能力提高為“中”,此用戶的類別將被重新計算,這樣該用戶的學習等級就可能會被提升。
顯然由于用戶的個人資料會隨時間而發生更改,而且用戶的學習能力也會發生變化,所以挖掘過程需要定期進行以保持結果的正確性。
5.3個性化的學習知識庫
學習知識庫按相應的主題組織學習素材,把一個主題組織成圍繞問題和答案的一系列知識單元來進行,對應每個主題分解成若干知識單元。知識單元之間相互是有聯系的,聯系有可能是錯綜復雜的,簡單的聯系可以是前序知識或后繼知識等;同時知識單元的掌握程度是由一組問題答案集來作為評估學生學習的效果,評估效果可以由評估模塊來測定,比如對這一單元知識是全部掌握、部分掌握、少量掌握還是沒有掌握;另外特定的知識單元對應于不同水平的知識表示,以適合具有不同類別的學生學習。
5.4個性化的知識表示
知識表示是系統提供給不同類別的學生學習的課程知識界面,是預先準備好的適合不同程度的學生學習的不同詳細程度的學習材料。
知識表示的示意如圖1:
知識表示可依據學生水平、背景的不同體現不同的層次:如簡單扼要的表示;帶相應解釋、說明和示例的表示;配有詳盡解釋和大量參考鏈接的表示。通過提供不同層次的知識表示以適合學生的個體差異。當然,不同的表示對應的是同一個知識點的學習,所以對應的問題集和期望的答案應是一致的。
當學生進入某個主題知識的學習時,一個知識單元呈現內嵌的知識給用戶,記錄他的反應,更新其掌握水平,產生下一個知識表示,當要求的掌握水平被達到了,則可轉入流程到另一個單元;如果沒有達到,則根據具體的掌握程度,或返回其前序知識的學習或提供更詳盡程度知識表示頁面的學習。因此學生的學習是根據其自身的基礎和掌握知識的快邁程度的不同而不同的。
6.個性化遠程教育系統實例
整個解決方案共分三大部分:第一部分是系統的總體結構;第二部分是系統的基本組成及工作流程;第三部分是實施和個性化服務支持。
1.基于Web的數據庫遠程教育管理系統的總體結構
根據遠程教育的實際需求和發展趨勢,提出基于Web的數據庫遠程教育管理系統的總體結構如圖2所示.該數據庫管理系統包括以下部分:
(1)Web瀏覽器,它是客戶端用于輸入查詢條件和顯示查詢結果的交互界面;
(2)Web服務器,它提供Internet服務,管理HTML構成的信息并提供對數據庫的存取接口以及用于接收用戶輸入的信息及形成查詢結果;
(3)TCP/IP(TransmissionControlProtocol/InternetProtocol),用于實現Web瀏覽器
圖2基于Web的數據庫遠程教育管理系統總體結構框圖
與Web服務器之間的網絡信息交換;
(4)CGI(CommonGatewayInterface),它是Web服務器運行外部程序的一種規范;
(5)數據庫服務器,用于實現課件的存儲和數據庫管理功能以及身份驗證、計費等,并提供分布式數據庫的搜索路徑和搜索規則,以有利于網絡資源共享和利用.
2.數據庫遠程教育管理系統的基本組成及工作流程
數據庫遠程教育管理系統的基本組成按功能可以大致分成如下幾部分:
(1)課件基本信息表
(2)課件存儲對應表
(3)課件讀取權限表
(4)課件計費表
(5)課件自測結果表
以課件基本信息表為例,其中包含的條目有:
課件編號、課件名稱、課程介紹、主講教師、開課單位、課程分類、瀏覽方式、計費方法、可否下載等主要內容,其它各表也均包含與自功能有關的項目,在此不一一列出.
對于某一訪問者,其簡單工作流程如圖3所示.
圖3訪問數據庫管理系統工作流程
3、設計說明核心功能的特點:
以知識點為核心組織網絡教學:以知識點為核心組織網絡教學突破了傳統教學以章節為主線的教學方式,有利于教師準確評估自己的教學效果,有利于學生對知識的準確把握,有利于網絡教材的編寫制作,同時為建立智能化的學習跟蹤、智能答疑提供了基礎。
自適應的學習機制:根據學生瀏覽課件的情況,比如哪種知識點看到多少,頁面瀏覽時間長短,就可以判斷出學生背景知識水平,知識點的掌握情況,個人的學習能力強弱。根據這些判斷的結果動態調整教學資源鏈接,提供最適合個人的學習資源,達到最佳的教學效果。同時為學生提供方便的個人資源管理工具,使學生能夠根據自己的需要組織自己的學習資源,與教師提供的資源形成互補,激發學生自主學習的興趣,發揮網絡教學的優勢。
智能答疑系統:系統可以方便快捷地解答學生的問題,同時結合知識點的結構分析學生問題的分布情況,指導教師采取進一步的輔導措施。教師可以根據自身教學的情況調整知識點的結構。
對象的行為跟蹤:教師通過查看學生的在線學習記錄,能夠了解到學生的學習情況,比如學生的自測情況,學生實驗的完成情況,作業、測試成績等,使教師可以方便準確的評估自己的教學效果。教師還可以根據學習跟蹤掌握學生在線行為,引導學生正確合理利用網絡教學資源。教務人員也可以通過該系統了解教師的教學情況,評估教學質量。
學生自我測評:學生可以隨時向系統發出申請,系統根據學生申請的難度要求和學生學習的范圍生成相應的試卷。學生完成試卷后系統自動批閱試卷并將批閱結果返回給學生,使學生能夠看到哪些知識點存在不足,以便在后續的學習過程中作相應的調整。
遠程考試系統:教師可以選擇人工或智能組卷方式,生成試卷對學生進行在線考試或測驗。學生的考卷經系統自動評分后存入成績庫,教師可按需要獲得各類統計分析信息。
先進的網絡教學管理系統:以教學服務管理為核心功能,同時提供教學分析和電子結算功能。模塊化設計便于不同部門構架適于自己的管理系統,通用標準數據交互為校際管理提供透明交互操作,教學行為分析與數據挖掘為網絡教學調整管理提供反饋數據。
7、總結:
從發展來看,利用計算機互連網開展遠程教育是必然趨勢,本文通過對Web日志的分析挖掘和對不同的用戶進行分類并提供相應的知識界面,采用數據挖掘技術,在大量的教學信息的基礎上,利用數據分析和挖掘工具,開發教育行為分析工具,指導學生學習和教師教學,提出了一個遠程個性化學習的框架模型。個性化學習的服務體現在學習知識庫的構建、個性化學習資料的呈現和學習進程的安排上。遠程教育的真正優勢在于提供符合用戶個體的個性化的學習安排,個性化的教育服務勢必會促進遠程教育的進一步發展,從而提供給用戶更加滿意的服務,可以相信,其應用前景極為廣闊.
【參考文獻】
1教育部文件.現代遠程教育工程教育資源開發標準.1999.10
2韓家煒,孟小峰,王靜,李盛恩.Web挖掘研究.計算機研究與發展.2001.4:405~414
3朱明.數據挖掘.合肥:中國科技大學出版社,2002.5
4汪啟軍,申瑞民.基于Web的遠程教育系統模型的研究.計算機工程.2000.12:157~159
5施建生.伍衛國.Web日志中挖掘用戶瀏覽模式的研究,西安交通大學學報.2001.35(6)621~624
6宋擒豹,沈鈞毅.Web日志的高效多能挖掘算法.計算機與發展.2001.3:328-333
7朱曉云.WEB數據與個性化服務中應用研究.情報雜志.2004.2
8李澤文基于WEB數據挖掘技術.現代計算機.2004.7
9童恒慶,梅清WEB日志挖掘數據預處理研究.現代計算機.2004.3
10謝維奇基于“電大在線”遠程教學平臺的WEB數據挖掘.教育信息化2004.10
11高巖胡靜濤WEB數據挖掘的原理、方法及用途2002.7
12陳恩紅等Web使用挖掘:從Web數據中發現用戶使用模式計算機科學.2001.5