緒論:寫作既是個人情感的抒發(fā),也是對學術(shù)真理的探索,歡迎閱讀由發(fā)表云整理的11篇大數(shù)據(jù)分析論文范文,希望它們能為您的寫作提供參考和啟發(fā)。
1.1反射率分析模塊
反射率的大小體現(xiàn)了氣象目標的降水粒子的密度分布及體積大小,在實際氣象技術(shù)中長期用于表示氣象目標的強度,在工作上采用dBZ單位表示。對于空管氣象雷達圖,數(shù)據(jù)顯示采用PPI(PlanPositionImage)顯示方式。該方式?jīng)Q定了一張氣象雷達圖由圓錐俯視平面上分析空間的回波構(gòu)成。在設(shè)計上簡單介紹其設(shè)計流程,首先必須讀取原始數(shù)據(jù),并判斷是否首次讀取,若為首次讀取則對其進行預(yù)處理,否則進行坐標轉(zhuǎn)換;其次進行圖像繪制并判斷是否需要改變仰角。此處需要關(guān)注的關(guān)鍵是如何進行數(shù)據(jù)的預(yù)處理。在實現(xiàn)上,對接收的數(shù)據(jù)進行反射率信息結(jié)構(gòu)體賦值。當然該結(jié)構(gòu)體包括了記錄實際仰角角度、數(shù)據(jù)文件路徑存儲、雷達波段判斷以及相關(guān)數(shù)據(jù)的偏移。通過掃描上述結(jié)構(gòu)體可以實現(xiàn)對雷達數(shù)據(jù)的預(yù)處理。
1.2速度分析模塊
多普勒雷達采用了速度退化模糊技術(shù)以擴大其對徑向風速測量不模糊的區(qū)間。結(jié)構(gòu)設(shè)計主要考慮數(shù)據(jù)顯示的徑向方式,流程設(shè)計則與反射模塊類似。當然在界面設(shè)計上,系統(tǒng)將提供對顏色配置的定義,使其人機交互更為快捷。
1.3天線穩(wěn)定性分析模塊
天線是雷達數(shù)據(jù)采集的關(guān)鍵部位,長期以來是影響雷達運行的主要關(guān)鍵點之一。其依賴于底下的電機進行旋轉(zhuǎn),目前大多數(shù)進口電機可以保證24小時安全運行。而運行時仰角提升和轉(zhuǎn)速的平穩(wěn)性直接影響雷達數(shù)據(jù)的采集。為此,我們通過在徑向數(shù)據(jù)上采用方位角及仰角進行掃描實現(xiàn)曲線圖監(jiān)控。通過選擇基數(shù)據(jù)再進行預(yù)處理后繪制相關(guān)曲線實現(xiàn)對天線運行狀態(tài)的評估。其中,曲線圖的繪制需要的參數(shù)為:縱坐標為氣象雷達實際運行的每層仰角均值;橫坐標為范圍角:0-360°。
1.4雷達組網(wǎng)分析模塊
按照民航局的總體規(guī)劃,未來空管將實現(xiàn)多氣象雷達覆蓋,在這過程,多個氣象雷達的組網(wǎng)將成為氣象雷達數(shù)據(jù)的主要來源。這種模式將使得數(shù)據(jù)覆蓋面更大、數(shù)據(jù)安全性更高、數(shù)據(jù)準確性更強。而與此同時帶來了雷達數(shù)據(jù)融合組網(wǎng)的技術(shù)難點。設(shè)計上,首先模塊將定義雷達站點配置信息,并與此同時提供組網(wǎng)雷達可選數(shù)據(jù);其次對選擇雷達數(shù)據(jù)進行數(shù)據(jù)預(yù)處理;再之則對雷達數(shù)據(jù)進行統(tǒng)計平均并做坐標轉(zhuǎn)換;最后進行拼圖處理。在這過程中,需要對雷達數(shù)據(jù)的強度進行自適應(yīng)調(diào)整、顯示范圍自適應(yīng)調(diào)整。與上述同理,系統(tǒng)核心在于預(yù)處理。在C#中定義List數(shù)據(jù)列表,并在定義其結(jié)構(gòu)為[站點標示][距離][方位角],對于數(shù)據(jù)讀取時,需要進行插值算法處理,此時的單時數(shù)據(jù)拼接分析可以實現(xiàn)不同仰角和方位角的篩選。為了控制系統(tǒng)數(shù)據(jù)的準確性可以在前端定義雷達數(shù)據(jù)方位角表,根據(jù)表進行映射處理。通常如若出現(xiàn)非連續(xù)數(shù)據(jù)可以在預(yù)處理上對其進行差值補償。在C#上可以采用反差圓補償方法。
關(guān)鍵詞:高校 圖書館 大數(shù)據(jù)研究 熱點可視化
中圖分類號:G250 文獻標識碼:A 文章編號:1672-3791(2016)07(a)-0019-02
大數(shù)據(jù)是繼Web2.0和云計算之后的又一個熱門詞匯,作為高校的文獻信息資源服務(wù)機構(gòu),高校圖書館擁有大量數(shù)據(jù),而大數(shù)據(jù)在高校圖書館服務(wù)的各個方面都有廣泛應(yīng)用[1]。維克托?邁爾?舍恩伯格和肯尼斯?克耶在其編寫的《大數(shù)據(jù)時代》中提出:“大數(shù)據(jù)”具有4V特點:Volume(數(shù)據(jù)量大)、Velocity(輸入和處理速度快)、Variety(數(shù)據(jù)多樣性)、Value(價值密度低),大數(shù)據(jù)的這4個特點得到了學者們的普遍認可。大數(shù)據(jù)背景下,數(shù)據(jù)量的急劇增長、信息技術(shù)的飛速變革都為高校圖書館的發(fā)展帶來了新的契機,推動了信息服務(wù)的升級,也為高校圖書館的研究帶來新的視角。數(shù)字時代,高校圖書館對數(shù)據(jù)的處理主要是將紙質(zhì)文獻資料數(shù)字化、網(wǎng)絡(luò)化,信息服務(wù)的目的是實現(xiàn)師生對學術(shù)數(shù)據(jù)的充分利用,進入大數(shù)據(jù)時代,對海量文獻數(shù)據(jù)的分析、處理將成為高校圖書館發(fā)展的新趨勢,高校圖書館的信息服務(wù)重心也會逐步由傳統(tǒng)的業(yè)務(wù)向深層次的數(shù)據(jù)挖掘服務(wù)轉(zhuǎn)移[2]。在這一大趨勢下,對大數(shù)據(jù)背景下高校圖書館研究熱點的可視化分析,有助于學者們把握高校圖書館當前的研究熱點和發(fā)展趨勢。
1 數(shù)據(jù)來源
以中知網(wǎng)及萬方數(shù)據(jù)平臺為主要數(shù)據(jù)庫檢索對象,檢索時間截至2016年7月15日。檢索方法一:以“高校圖書館”和“大數(shù)據(jù)”作為并列主題檢索詞進行精確檢索,不限發(fā)表時間及文獻類型,共得到488篇相關(guān)文獻。其中,期刊402篇、會議論文17篇、學位論文9篇,以“高校圖書館”作為檢索關(guān)鍵詞的文獻有303篇。檢索方法二:以“高校圖書館”和“大數(shù)據(jù)”作為并列題名檢索詞進行精確檢索,不限發(fā)表時間及文獻類型,共得到263篇相關(guān)文獻,其中,期刊224篇,以“高校圖書館”作為檢索關(guān)鍵詞的文獻189篇。綜合以上兩種方法對檢索結(jié)果進行可視化分析,提高查全率和查準率。
2 研究熱點及趨勢分析
大數(shù)據(jù)時代,數(shù)據(jù)將成為圖書館最重要的資產(chǎn)之一[3],高校圖書館的服務(wù)不再局限于提供簡單的文獻和信息服務(wù),而是更加注重運用大數(shù)據(jù)技術(shù)挖掘文獻和信息中所包含的數(shù)據(jù)和知識內(nèi)容,挖掘隱形知識,為教學和科學研究創(chuàng)新服務(wù)。對于大數(shù)據(jù)背景下高校圖書館研究熱點的分析,可以從研究熱點領(lǐng)域、研究熱點期刊分布和研究基金分布三大方面進行。
2.1 研究熱點領(lǐng)域分析
統(tǒng)計結(jié)果表明:學者們對于大數(shù)據(jù)背景下高校圖書館的相關(guān)研究在2013年開始呈現(xiàn)逐年增長的趨勢,相關(guān)知識點如圖1所示,圓形大小表示相關(guān)研究領(lǐng)域的研究熱度高低。
自2013年至今,學者們對于大數(shù)據(jù)背景下高校圖書館的研究熱點領(lǐng)域主要集中在信息服務(wù)、知識服務(wù)、服務(wù)創(chuàng)新、學科服務(wù)、數(shù)據(jù)挖掘方面,對于云計算、信息資源、數(shù)字圖書館、數(shù)據(jù)分析等方面也有涉及。在近兩年的研究中,除了一直熱度不減的信息服務(wù)、知識服務(wù)、學科服務(wù)問題之外,更加側(cè)重對個性化服務(wù)、數(shù)據(jù)分析的研究。在系統(tǒng)構(gòu)建方面的研究在近兩年興起,高校圖書館更加關(guān)注其自身生態(tài)系統(tǒng)的運行問題,學者們也在嘗試運用生態(tài)學、系統(tǒng)學等多學科方法來進行大數(shù)據(jù)背景下的高校圖書館研究。研究領(lǐng)域的變化說明了學者們對這一研究主題從理論研究向更加深入的技術(shù)性研究靠近。
2.2 研究熱點期刊分布
2.2.1 刊種統(tǒng)計
對于大數(shù)據(jù)背景下高校圖書館的研究,發(fā)文最多的期刊前六名依次是農(nóng)業(yè)圖書情報學刊、圖書館學刊、科技情報開發(fā)與經(jīng)濟、河南圖書館學刊、內(nèi)蒙古科技與經(jīng)濟、現(xiàn)代情報,其總計刊文量占全部刊種的53.52%。各個期刊對此主題的刊文,反應(yīng)出大數(shù)據(jù)背景下高校圖書館問題研究受到學者們的普遍重視。
2.2.2 核心期刊統(tǒng)計
刊文在核心期刊的數(shù)量統(tǒng)計分別為:(1)中文核心期刊55篇(59.1%)。(2)CSSCI中文社科引文索引(南大)32篇(34.41%)。(3)統(tǒng)計源期刊(中信所)4篇(4.3%)。(4)CSCD中國科學引文庫(中科院)2篇(2.15%)。核心期刊的刊文反應(yīng)出該主題成為學者們的重點關(guān)注領(lǐng)域,在大數(shù)據(jù)背景下高校圖書館方面的研究成果較深入。
2.3 研究基金統(tǒng)計
近年來大數(shù)據(jù)背景下的高校圖書館的相關(guān)研究基金項目共計38項,其中32項是2015年至今的基金項目。包含省市基金項目21項,占總基金項目的55.2%,國家社科基金項目8項,國家教育基金項目5項,國家自然科學基金項目1項,其他基金項目3項。基金項目立項的數(shù)量反映了該主題的研究熱度和深度都在不斷增加。
3 結(jié)語
目前,學者們對于大數(shù)據(jù)背景下高校圖書館的相關(guān)研究正處于高速發(fā)展的探索階段,對于如何利用大數(shù)據(jù)技術(shù)來提升高校圖書館信息服務(wù)的研究越來越深入。研究熱點不僅局限于信息服務(wù)、知識服務(wù)和學科服務(wù)方面,還涉及數(shù)字圖書館、學科館員、系統(tǒng)構(gòu)建等多領(lǐng)域,研究更加側(cè)重對個性化服務(wù)、數(shù)據(jù)分析的研究,高校圖書館作為服務(wù)教學、服務(wù)科研的文獻信息資源服務(wù)機構(gòu),深化基于大數(shù)據(jù)的相關(guān)服務(wù)是其未來發(fā)展的方向。
由于該文對大數(shù)據(jù)背景下高校圖書館的熱點分析主要是基于“大數(shù)據(jù)”和“高校圖書館”兩個關(guān)鍵詞構(gòu)成的檢索式,在文獻的查全率方面,漏查了只是應(yīng)用具體的方法進行高校圖書館數(shù)據(jù)分析的個別文獻,在相關(guān)文獻檢索中,有個別文獻是應(yīng)用具體的數(shù)據(jù)分析工具進行高校圖書館數(shù)據(jù)分析挖掘。這類數(shù)據(jù)分析工具的應(yīng)用,更加印證了數(shù)據(jù)分析方面的研究呈現(xiàn)增長的趨勢。
參考文獻
基金項目:華北理工大學研究生教育教學改革項目資助(項目編號:K1503)
基金項目:華北理工大學教育教學改革研究與實踐重點項目資助(項目編號:Z1514-05;J 1509-09)
G643;O21-4
谷歌公司的經(jīng)濟學家兼加州大學的教授哈爾?范里安先生過去說過統(tǒng)計學家將會成為像電腦工程師一樣受歡迎的工作。在未來10年里,人們獲得數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)、判斷數(shù)據(jù)、提取信息的能力將變得非常重要,不僅僅在教育領(lǐng)域,各行各業(yè)都需要數(shù)據(jù)專家,“大數(shù)據(jù)”時代的到來使得數(shù)據(jù)處理與分析技術(shù)日新月異,深刻的影響著各個行業(yè)、領(lǐng)域及學科的發(fā)展,尤其是與數(shù)據(jù)關(guān)系密切的行業(yè)及學科,而作為工科各專業(yè)碩士研究生重要的公共基礎(chǔ)課數(shù)理統(tǒng)計學是天生與數(shù)據(jù)打交道的學科。
怎樣在“大數(shù)據(jù)”時代背景下培養(yǎng)出適應(yīng)面向企業(yè)自主創(chuàng)新需求的數(shù)據(jù)分析人員或掌握現(xiàn)代數(shù)據(jù)處理技術(shù)的工程師,如何把當下流行的“大數(shù)據(jù)”處理技術(shù)與相關(guān)數(shù)理統(tǒng)計學課程教學有機的結(jié)合,以激發(fā)學生對數(shù)據(jù)處理與分析技術(shù)發(fā)展的興趣,這些都是我們在與數(shù)理統(tǒng)計學相關(guān)的課程教學中不得不思考的問題。然而,當前高校工科各專業(yè)碩士研究生數(shù)理統(tǒng)計教學的現(xiàn)狀卻與其重要程度相去甚遠,整個教學過程的諸多環(huán)節(jié)都存在較大的不足,主要表現(xiàn)為:1.教學內(nèi)容偏重理論,學生學習興趣不高;2. 輕統(tǒng)計實驗;忽略對統(tǒng)計相關(guān)軟件的教學;3.沒有注重數(shù)理統(tǒng)計的學習與研究生專業(yè)相結(jié)合,實用性強調(diào)不夠。4. 輕能力培養(yǎng);輕案例分析等。
這些現(xiàn)象導致的直接后果就是學生動手能力上的缺陷和創(chuàng)新能力的缺乏, 不能夠自覺利用數(shù)理統(tǒng)計知識解決實際問題, 尤其缺乏對統(tǒng)計數(shù)據(jù)的分析能力。因此,需要數(shù)理統(tǒng)計學隨著環(huán)境的變化不斷創(chuàng)新新的數(shù)理統(tǒng)計思維和教學內(nèi)容。避免教學內(nèi)容與大數(shù)據(jù)時代脫節(jié)。為此筆者在該課程的教學過程中,有意識地進行了一些教學改革嘗試。提出了幾點工科研究生數(shù)理統(tǒng)計教學的改革措施。
(1)調(diào)整教學內(nèi)容,將與數(shù)理統(tǒng)計相關(guān)的大數(shù)據(jù)處理案例引進課堂。有很多有普遍性的應(yīng)用統(tǒng)計實際案例,可以在本課程的教學過程中有選擇的引入介紹給學生,讓學生們了解利用所學統(tǒng)計方法進行實際數(shù)據(jù)分析的操作過程和得出結(jié)論的思維方法。以期解決工科研究生對確定性思維到隨機性思維方式的轉(zhuǎn)變的不適應(yīng)性。
(2)適應(yīng)大數(shù)據(jù)時代數(shù)理統(tǒng)計學課程的教學環(huán)境。實現(xiàn)教學方式的多樣性。大數(shù)據(jù)時代背景下,互聯(lián)網(wǎng)十分發(fā)達,學生根據(jù)自己的興趣去收集、整理和分析數(shù)據(jù),既可以改變他們對統(tǒng)計方法的進一步認識,也可以增加他們的學習興趣。甚至可以以專業(yè)QQ群,郵件的方式和同學、老師之間相互交流,交流者處于相互平等的地位,可以暢所欲言,隨時隨地都可以交流,起到事半功倍的效果。這種交流使得教師不再是知識的權(quán)威,而是把教師上課作為一種更好自主學習的引導,這種交流使得他們的思想變得更加成熟。同時參與各種網(wǎng)絡(luò)論壇,貼吧回答問題等使得他們更能體現(xiàn)自己的價值,這種交流也使得學生的學習熱情和學習精神得到更好的激發(fā)。
(3)引導工科研究生開展與本專業(yè)相結(jié)合的課題研究,強調(diào)實用性,注重統(tǒng)計思維能力培養(yǎng)。適應(yīng)大數(shù)據(jù)時代數(shù)理統(tǒng)計學課程教學環(huán)境,實現(xiàn)教學方式的多樣性。以期彌補學生缺少數(shù)據(jù)分析實例的訓練,解決學以致用的不足。在目前的數(shù)理統(tǒng)計教學安排下,受學時所限,如果相當一部分時間用來學習公式、定理的推導及證明,勢必沒有時間進行實際的數(shù)據(jù)分析練習。在大數(shù)據(jù)時代背景下,隨著海量數(shù)據(jù)、復雜形式數(shù)據(jù)的出現(xiàn),使得統(tǒng)計方法的發(fā)展和以前有了很大的不同,沒有實際的數(shù)據(jù)分析訓練,學生們就無法對統(tǒng)計的廣泛應(yīng)用性及重要性有深刻的體會,也不利于保持和提高他們的學習興趣。這要求具體工作者提出新的統(tǒng)計思想和方法,加深對已有統(tǒng)計思想的理解,以解決實際問題。
(4)改革成績評定方式。現(xiàn)有的考試模式為通過有限的一到兩個小時的期末考試,進行概念的辨析和理論及方法的推導計算,由此來判斷研究生關(guān)于數(shù)理統(tǒng)計課程的學習情況有很大的不足,特別是對可以利用軟件進行的某些實際數(shù)據(jù)分析的考察沒有辦法實現(xiàn)。因此,有必要通過日常課堂“論文選題―提交―討論”與期末理論考試相結(jié)合的形式對學生數(shù)理統(tǒng)計學習進行考核。加大對學生平時考察的力度,相應(yīng)地減少期末考試成績的比重。讓學生選擇一些與自己專業(yè)有關(guān)的數(shù)據(jù)進行嘗試性的數(shù)據(jù)分析、一些統(tǒng)計科普著作的讀書報告等并寫成論文的形式提交,做為對學生成績的評定方式,更能綜合、客觀地評價學生的學習情況。
數(shù)據(jù)分析在現(xiàn)代生活中發(fā)揮的作用越來越大,而道磽臣品椒可以與數(shù)據(jù)分析有機的結(jié)合,從而在提高數(shù)據(jù)分析效率的同時,保持分析結(jié)果的有效性,為生產(chǎn)和實踐活動提供準確的參考。以上的思考和建議僅是我們在教學研究和教學過程中的一點體會,還有許多工作亟待深入,比如適合工科研究生數(shù)理統(tǒng)計課程的大數(shù)據(jù)案例選取,與課程內(nèi)容的有效銜接;案例教學法如何實施;教學方式多樣化問題;課堂教學與網(wǎng)絡(luò)交流結(jié)合;理論介紹與軟件應(yīng)用訓練結(jié)合問題等。教學改革與實踐是一項艱巨的任務(wù),以培養(yǎng)學生的實際運用能力和正確解釋數(shù)據(jù)分析結(jié)果的能力為目的,強調(diào)統(tǒng)計思想和方法應(yīng)用的培養(yǎng),讓學生們了解利用所學統(tǒng)計方法進行實際數(shù)據(jù)分析的操作過程和得出結(jié)論的思維方法將是一項長期的工作。
參考文獻
中圖分類號:G64 文獻標識碼:A 文章編號:1009-3044(2016)33-0123-01
Abstract : With the theme of declare big data and applied technology major, this thesis was written by author from telecommunications engineering academy. It has researched and analysed the composition of big data, related technologies, application requirement about the data mining and the problems has been solved by big data technology; Also it described what kind of related knowledge and skills need to be master by higher vocation education students in school, analysed the teaching qualities contrast with the needs of modern enterprises in details, by all means this thesis will focus on practically personnel training and explore the thinking of vocational colleges’ big data application technology major.
Key words : big data background, professional technology, skills exploration
隨著網(wǎng)絡(luò)和數(shù)據(jù)信息科學的發(fā)展,數(shù)據(jù)在量和復雜度上的爆炸式增長讓人類進入了大數(shù)據(jù)時代。根據(jù)IDC監(jiān)測,人類產(chǎn)生的數(shù)據(jù)量正在成指數(shù)及增長,大約每兩年翻一番,以此速度在2020年之前會持續(xù)保持下去。大量數(shù)據(jù)源的出現(xiàn)則導致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長即數(shù)據(jù)結(jié)構(gòu)日趨復雜。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新的數(shù)據(jù)中獲取新的洞察力,并將其與已知I務(wù)細節(jié)相融合。大數(shù)據(jù)對各種行業(yè)似乎產(chǎn)生了前所未有的巨大影響,從制造商到旅游業(yè),從產(chǎn)品設(shè)計到消費者行為分析,大數(shù)據(jù)能提供前所未有的信息,幫助公商行業(yè)做出最好的決策。公商行業(yè)對合格的數(shù)據(jù)分析師或者數(shù)據(jù)工程師的需求很大。
人才市場需要會分數(shù)據(jù)并以有用的方式呈現(xiàn)信息的雇員。根據(jù)市場需求,高職院校需要培養(yǎng)學生成為具有數(shù)據(jù)應(yīng)用技能的人才以滿足市場需求。我們研究方向是調(diào)查公司企業(yè)所需要的技能和大學教的數(shù)據(jù)分析技能,對比兩方面的技能的差別。人才需求調(diào)研裼昧宋示矸絞講杉專家的意,專家分為相關(guān)專業(yè)學科教授和企業(yè)內(nèi)本行業(yè)專家。
大數(shù)據(jù)應(yīng)用技術(shù)專業(yè)的課程設(shè)置應(yīng)跟隨新技術(shù)的應(yīng)用,跟隨社會及企業(yè)需求,在新專業(yè)中重視培養(yǎng)專業(yè)技能和項目經(jīng)驗人才,課程設(shè)置應(yīng)貼合社會需求培養(yǎng)相應(yīng)的就業(yè)技能。需要研究關(guān)于合格的數(shù)據(jù)分析師或者數(shù)據(jù)工程師應(yīng)該具有什么資格及知識技能。調(diào)研的結(jié)果可以幫助學院開設(shè)有關(guān)大數(shù)據(jù)學科的學校及大數(shù)據(jù)有關(guān)的課程教材。
調(diào)研內(nèi)容如下表格:
綜上所述,十報告?zhèn)鬟_的是要重視高等職業(yè)教育,強調(diào)“要全面實施素質(zhì)教育,深化教育領(lǐng)域綜合改革,著力提高教育質(zhì)量,培養(yǎng)學生創(chuàng)新精神。”中國的職教體系也在深入發(fā)展改革的過程中。本調(diào)研是針對高等職業(yè)院校的大數(shù)據(jù)應(yīng)用技術(shù)專業(yè)的課程設(shè)置的進行探究,通過對大數(shù)據(jù)應(yīng)用技術(shù)專業(yè)在市場人才需求的研究,對全面實施素質(zhì)教育,重視學生的創(chuàng)新能力的培養(yǎng)具有重要意義。
參考文獻:
[1] 王星.大數(shù)據(jù)分析:方法與應(yīng)用[M].清華大學出版社,2013.9.
[2] 曹正鳳.數(shù)據(jù)分析統(tǒng)計基礎(chǔ)[M].電子工業(yè)出版社,2015.2.
[3] 屈澤中.大數(shù)據(jù)時代數(shù)據(jù)分析[M].復旦大學出版社,電子工業(yè)出版社,2015.7.
對于研究人員來講,方法論是開展一切研究的基礎(chǔ),也是進行研究的主要工具,能夠?qū)τ趪栏裨O(shè)計支持下的統(tǒng)計方法論的掌握,能夠幫助研究人員更加深刻的理解學術(shù)研究及學術(shù)規(guī)范。
一般來說,經(jīng)典的統(tǒng)計方法論也可以叫做嚴格設(shè)計支持下的統(tǒng)計方法論,之所以強調(diào)“設(shè)計”,是由于一切的環(huán)境、變量都具備一定的可控制性。無論是在自然科學領(lǐng)域還是社會科學領(lǐng)域,任何開展實驗研究的設(shè)計人員在實驗設(shè)計的過程中都會涉及經(jīng)典的統(tǒng)計方法論。
對于傳統(tǒng)的學術(shù)研究來講,可以分為七大步驟,分別來說是試驗設(shè)計、數(shù)據(jù)收集、數(shù)據(jù)獲取、數(shù)據(jù)準備、數(shù)據(jù)分析、結(jié)果報告以及模型。各部分的介紹及重要性介紹如下:
一、試驗設(shè)計
對于沒有自然科學背景的人來講,在理解試驗設(shè)計環(huán)節(jié)上是具有一定的難度的,當然心理學和教育學研究者是除外的。因為,大部分的社會科學領(lǐng)域?qū)W者和學生除了在高中進行過化學課、物理課、生物課做過試驗外,進入大學后,就已經(jīng)將大腦中的試驗想法和思維統(tǒng)統(tǒng)扔到了腦后,有的甚至是埋葬了,其實,這樣恰恰是不正確的,試驗思維對于社會科學領(lǐng)域人員來講也是至關(guān)重要的。對于自然科學背景的學生和老師來講就容易理解的多,然而受到很多國內(nèi)學術(shù)造假及數(shù)據(jù)造假的原因,原本熱情極高的碩士、博士也不得已加入了數(shù)據(jù)造假的大軍。就自然科學領(lǐng)域的學生和老師而言,數(shù)據(jù)是論文的主要支持部分,而這一點恰恰是國內(nèi)的所謂的文管類老師缺少的,而缺少的這一點,就是因為不懂得嚴格設(shè)計支持下的統(tǒng)計方法論造成的。
二、數(shù)據(jù)收集、獲取、準備
在數(shù)據(jù)收集、獲取上,不同專業(yè)的人采用的方法也是不同的,對于所謂的數(shù)據(jù)的理解也是不同的。但是對于學術(shù)研究來講,數(shù)據(jù)的收集也是要經(jīng)過設(shè)計,以社會科學領(lǐng)域來說,大多的數(shù)據(jù)來源是文獻以及通過調(diào)查問卷而獲得的數(shù)據(jù);自然科學可以通過文獻法、實驗分析法來獲得就可以了。
這里要強調(diào)的一點是任何數(shù)據(jù)收集、獲取過程,都是在一個嚴謹?shù)脑O(shè)計過程下產(chǎn)生的,往往很多碩士因為在實驗設(shè)計過程中考慮不全,造成了數(shù)據(jù)收集過程不嚴謹而帶來了很多誤差,這些如果在早期的試驗設(shè)計階段或者預(yù)測試階段就能夠調(diào)整的話,會減少很多很多的麻煩。
在數(shù)據(jù)的準備階段,也就是分析階段的前一步驟,需要對全體的數(shù)據(jù)進行審核和清洗工作,也就是說,盡量把誤差降到最低,刪除異常數(shù)據(jù)或者可能帶來極大誤差的數(shù)據(jù),對于自然科學領(lǐng)域人員來講,異常的數(shù)據(jù)可以通過平行試驗來進行處理,而社會科學領(lǐng)域則可以通過問卷審核的方法進行處理,但是對于兩種科學領(lǐng)域來講,經(jīng)驗豐富的研究者憑借研究經(jīng)驗,可以很容易發(fā)現(xiàn)異常數(shù)據(jù)。
值得注意的是,異常數(shù)據(jù)往往也能給研究帶來許多新的思考方向和研究方向,例如一些心理行為異常的結(jié)論、偏僻地區(qū)的高消費行為、數(shù)據(jù)統(tǒng)計中的異常節(jié)點都能夠幫助研究人員發(fā)現(xiàn)新的事物,對異常數(shù)據(jù)的歸納和總結(jié)也可以幫助研究人員鍛煉對于數(shù)據(jù)理解的思維能力,因此,對于異常數(shù)據(jù)的把握也是非常重要的,研究人員要深入分析才能發(fā)現(xiàn)其背后的本質(zhì)。
三、數(shù)據(jù)分析
對于數(shù)據(jù)分析來說,成為更多研究人員的羈絆,因為往往對于同一個學術(shù)研究,為達到一個相同的目的,可以采用不同的試驗設(shè)計以及不同的數(shù)據(jù)分析方法,而不同的分析方法也可以選擇自己擅長的數(shù)據(jù)分析軟件來進行。作為一名學術(shù)研究人員來講,要充分掌握自己所屬領(lǐng)域中常用數(shù)據(jù)分析方法。目前對于大部分的社會科學工作者來說,很多人并沒有很好的接受過相關(guān)的系統(tǒng)培訓,多以求助統(tǒng)計專業(yè)朋友或相近專業(yè)擅長統(tǒng)計的朋友來幫忙,或者課題組增加統(tǒng)計分析人員來達到目的。其實進行數(shù)據(jù)分析的過程是一種享受的過程,好比剝洋蔥,皮要一層一層的剝開。
現(xiàn)在的數(shù)據(jù)分析方向受到國際趨勢的影響,趨向大數(shù)據(jù)分析流,未來的市場調(diào)研領(lǐng)域也將跟隨著大數(shù)據(jù)分析進行發(fā)展,值得注意的是,雖然大數(shù)據(jù)分析在目前的國際社會和國內(nèi)社會研究中比較流行,但個體的數(shù)據(jù)行為也不容忽視,即小數(shù)據(jù)在一定程度上往往比大數(shù)據(jù)更具有競爭優(yōu)勢,也是研究機構(gòu)或企業(yè)對于被研究者或客戶充分細化掌握的重要方法。
四、結(jié)果報告與模型
結(jié)果的報告大多以學術(shù)報告或者學術(shù)論文的形式進行提交。在模型上,需要一定的邏輯辨識能力,這里強調(diào)的是,任何模型都是限制在假說之下的,這也是為什么大多數(shù)的學者的模型在應(yīng)用出來的時候,往往經(jīng)濟指數(shù)或者消費行為、組織行為都并沒有按照既定方式出現(xiàn)的原因。“模型就是模型而已”。
國外已有行為經(jīng)濟學專家開展被試群體的行為模型同被試群體受環(huán)境影響與模型之間的差異情況,杜克大學行為經(jīng)濟學教授Dan Ariely在一項研究表明,人們在冷靜情況下對于性偏好同性興奮后對于性偏好程度大為不同,也就是說性偏好模型如果是在被試冷靜情況下作答將與性興奮后作答完全不一樣,也恰恰說明了在一定的研究范圍內(nèi),模型就僅僅是模型而已。
總的來說,對于一名學術(shù)研究人員來講,嚴謹?shù)陌凑彰恳徊竭M行學習和體會都會得到很好的訓練,更多的學術(shù)體會和研究體會也需要不斷地開展各種研究,增加理解。
參考文獻:
大數(shù)據(jù)技術(shù)是一種新型技術(shù),其應(yīng)用領(lǐng)域比價廣泛,并且取得一定的成績。大數(shù)據(jù)技術(shù)在實際的應(yīng)用過程中,根據(jù)各個領(lǐng)域的需要,大數(shù)據(jù)技術(shù)也不斷在更新,以適合現(xiàn)代社會發(fā)展的需要。大數(shù)據(jù)技術(shù)主要用數(shù)據(jù)挖掘、數(shù)據(jù)分析領(lǐng)域中,能對數(shù)據(jù)進行科學整理、處理、提高數(shù)據(jù)的利用效率,互聯(lián)網(wǎng)+時代,各個領(lǐng)域工作基本都離不開網(wǎng)絡(luò),網(wǎng)絡(luò)時代數(shù)據(jù)量增多,如何科學有效的進行數(shù)據(jù)處理,提高數(shù)據(jù)的利用效率,這是需要解決的問題,大數(shù)據(jù)技術(shù)的產(chǎn)生,對數(shù)據(jù)的處理起到重要作用。
二、大數(shù)據(jù)技術(shù)應(yīng)用前景
大數(shù)據(jù)技術(shù)是一種新型技術(shù),具有廣泛的應(yīng)用前景,尤其在數(shù)據(jù)分析領(lǐng)域中,對提高數(shù)據(jù)的利用效率起到重要作用。大數(shù)據(jù)技術(shù)的進一步發(fā)展應(yīng)用,對科技的交叉融合發(fā)展也有著促進意義。科技交叉融合是現(xiàn)代科技發(fā)展的需要,現(xiàn)在很多問題利用一種技術(shù)不能實現(xiàn),需要多種技術(shù)結(jié)合使用,促進科技水平進一步提升,符合現(xiàn)代科技發(fā)展的需要。科技人才是企業(yè)發(fā)展的重要因素,尤其企業(yè)發(fā)展需要應(yīng)用型高級技術(shù)人才,在互聯(lián)網(wǎng)+時代,大數(shù)據(jù)技術(shù)方面的人才尤其缺乏,這也是大數(shù)據(jù)技術(shù)具有廣泛的應(yīng)用前景重要因素。
現(xiàn)在各個行業(yè)在發(fā)展的過程中都需要復合型的高級技術(shù)人才,大數(shù)據(jù)技術(shù)的實際應(yīng)用對促進其它行業(yè)的發(fā)展起到重要作用,大數(shù)據(jù)技術(shù)具有良好的應(yīng)用前景,對現(xiàn)代實際的應(yīng)用型思想起到重要作用。大數(shù)據(jù)技術(shù)在其它行業(yè)中的應(yīng)用提供了技術(shù)支持作用,大數(shù)據(jù)技術(shù)對促進其它行業(yè)的技術(shù)更新與改革起到重要作用,大數(shù)據(jù)技術(shù)在實際應(yīng)用過程中根據(jù)其它行業(yè)發(fā)展的需要,需要在技術(shù)上不斷更新,優(yōu)化環(huán)境,完善其職能,為企業(yè)行業(yè)發(fā)展提供技術(shù)保障。大數(shù)據(jù)技術(shù)在實際的應(yīng)用過程提升,符合大數(shù)據(jù)技術(shù)的發(fā)展需要。大數(shù)據(jù)技術(shù)在具體的應(yīng)用過程中,根據(jù)各個領(lǐng)域的需要,大數(shù)據(jù)技術(shù)需要不斷完善技術(shù),以適合現(xiàn)代各個行業(yè)發(fā)展的需要,大數(shù)據(jù)技術(shù)能為其發(fā)展提供技術(shù)支持。
三、大數(shù)據(jù)技術(shù)在高校非計算機專業(yè)中的應(yīng)用進行
(一)大數(shù)據(jù)技術(shù)在電子商務(wù)中的應(yīng)用
電子商務(wù)在互聯(lián)網(wǎng)+背景下得到快速發(fā)展,為高校電子商務(wù)專業(yè)的發(fā)展提供了機遇和挑戰(zhàn),電子商務(wù)專業(yè)在大數(shù)據(jù)技術(shù)作用下需要積極進行教學改革,以適合現(xiàn)代電子商務(wù)專業(yè)發(fā)展的需要,電子商務(wù)專業(yè)課程體系構(gòu)建需要符合現(xiàn)代電子商務(wù)產(chǎn)業(yè)發(fā)展的需要。在電子商務(wù)體系內(nèi)發(fā)揮大數(shù)據(jù)的優(yōu)勢,能有效建立完整的商務(wù)監(jiān)督體系,企業(yè)決策機制以及運作模式也要依托大數(shù)據(jù)技術(shù)的信息處理功能。電子商務(wù)產(chǎn)業(yè)的職業(yè)崗位能力涉及到大數(shù)據(jù)知識,電子商務(wù)專業(yè)在課程構(gòu)建的過程中需要把大數(shù)據(jù)相關(guān)知識納入課程體系中,能為學生職業(yè)崗位能力提升起到保障作用。大數(shù)據(jù)技術(shù)的實際應(yīng)用對提升電子商務(wù)專業(yè)建設(shè),教學模式改革,教學內(nèi)容整合,教學手段提升等都起到重要保障作用。
(二)大數(shù)據(jù)技術(shù)在會計領(lǐng)域中的應(yīng)用
大數(shù)據(jù)技術(shù)在會計領(lǐng)域中的應(yīng)用,對促進會計行業(yè)改革,高校會計專業(yè)教學改革都起到重要作用,同時完善會計專業(yè)人才培養(yǎng)方案,對提升學生職業(yè)技能起到重要作用。會計的職業(yè)崗位能力涉及到海量數(shù)據(jù),會計信息化時代大數(shù)據(jù)技術(shù)的應(yīng)用對提高會計的工作職能起到重要作用,符合現(xiàn)代大數(shù)據(jù)技術(shù)的應(yīng)用需要。大數(shù)據(jù)技術(shù)在會計領(lǐng)域中的應(yīng)用,尤其在會計信息系統(tǒng)建設(shè)中的應(yīng)用,對提高數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)處理能力的提升起到重要作用,會計行業(yè)涉及到數(shù)據(jù)很多,數(shù)據(jù)的種類、數(shù)據(jù)的形式都是多樣化,利用大數(shù)據(jù)技術(shù)處理數(shù)據(jù)比傳統(tǒng)的方式大大提高了工作效率,為會計行業(yè)的改革起到重要的技術(shù)支持作用,符合現(xiàn)代會計領(lǐng)域中的應(yīng)用需求。總之,大數(shù)據(jù)技術(shù)在非計算機專業(yè)中的應(yīng)用對促進其教學改革起到技術(shù)支持作用,大數(shù)據(jù)技術(shù)是一種新型技術(shù),其具有廣泛的應(yīng)用,大數(shù)據(jù)技術(shù)在高校非計算機專業(yè)中的應(yīng)用是專業(yè)發(fā)展的需要,也是社會發(fā)展對高校專業(yè)改革提出了新要求。大數(shù)據(jù)技術(shù)尤其在數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)處理等方面起到重要作用,適合互聯(lián)網(wǎng)+時代,高校非計算機專業(yè)發(fā)展的需要。
【計算機碩士論文參考文獻】
[1]我國大數(shù)據(jù)應(yīng)用現(xiàn)狀與發(fā)展趨勢分析[J].李亭亭,趙英豪.電子商務(wù).2016(06).
[2]探討大數(shù)據(jù)技術(shù)在疾病防控上的應(yīng)用[J].黃文莉.電子技術(shù)與軟件工程.2016(06).
中圖分類號:G642 文獻標識碼:B
文章編號:1671-489X(2016)18-0069-03
Abstract The advent of the era of big data has brought new vitality
and challenges for educational research. This paper uses bibliometric visualization software Cite Space to analyze thesis with key words data and education from CNKI based on Co-occurrence analysis of keywords, explore the hot issues in the field of educational research, summarize the research status and trends.
Key words big data; CiteSpace; education
1 引言
近年來,教育領(lǐng)域研究者開始關(guān)注大數(shù)據(jù)背景下的教育管理模式轉(zhuǎn)變、教育決策研究等內(nèi)容,大量基于大數(shù)據(jù)背景的教育領(lǐng)域研究論文逐年增加。以“大數(shù)據(jù)”“教育”為主題關(guān)鍵詞在CNKI中國知網(wǎng)進行搜索,僅選擇SCI、EI、中文核心、CSSCI四類來源期刊截止到2015年12月出版的文獻,共檢索到417條數(shù)據(jù),從2010年開始呈現(xiàn)出逐年上升的趨勢。對這些文章進行瀏覽和篩選,選擇與本研究主題相關(guān)的論文,共247篇。對這247篇文章的關(guān)鍵詞信息進行研究,分析大數(shù)據(jù)的出現(xiàn)對教育領(lǐng)域研究熱點及發(fā)展趨勢的影響。
2 教育領(lǐng)域熱點問題研究知識圖譜
CiteSpace軟件是一款引文可視化分析軟件,著眼于分析科學知識中蘊含的潛在信息,通過可視化的手段呈現(xiàn)科學知識的結(jié)構(gòu)、規(guī)律和分布情況[1],能對文獻進行作者分析、關(guān)鍵詞共現(xiàn)分析、機構(gòu)分析、作者共被引分析、文獻共被引分析等。關(guān)鍵詞共現(xiàn)分析是一種內(nèi)容分析技術(shù),通過分析在同一個文本主題中的款目對(單詞或名詞短語對)共同出現(xiàn)的形式,確認文本所代表的學科領(lǐng)域中相關(guān)主題的關(guān)系,進而探索分析學科領(lǐng)域的發(fā)展,發(fā)現(xiàn)學科的研究熱點和研究趨勢[2]。
使用CiteSpace軟件對下載的文獻進行關(guān)鍵詞共現(xiàn)分析,生成圖1所示關(guān)鍵詞共現(xiàn)知識圖譜,分析大數(shù)據(jù)的出現(xiàn)對教育領(lǐng)域研究熱點和趨勢的影響。關(guān)鍵詞出現(xiàn)的頻次由圓圈代表的節(jié)點反映,圓圈越大,表明關(guān)鍵詞出現(xiàn)次數(shù)越多,最大圓圈代表的關(guān)鍵詞是“大數(shù)據(jù)”。
根據(jù)圖1得到表1所示文獻關(guān)鍵詞、被引頻次、中心性等指標數(shù)據(jù)。中心性代表共現(xiàn)程度的高低,中心性越強,表明該關(guān)鍵詞與其他關(guān)鍵詞共同出現(xiàn)的幾率就越大,也就表示該關(guān)鍵詞在共現(xiàn)網(wǎng)絡(luò)中的影響力越大。從知識理論角度分析,頻次和中心性高的關(guān)鍵詞一般是某一段時期內(nèi)研究者共同關(guān)注的問題,也就是研究的熱點和前沿。表1中,“大數(shù)據(jù)”是頻次最高也是中心性最高的關(guān)鍵詞;“學習分析”頻次為23,中心性為0.22;“數(shù)據(jù)挖掘”頻次為13,中心性為0.15,等等這些都是熱門的研究主題。
3 大數(shù)據(jù)背景下教育領(lǐng)域的熱點研究
依據(jù)圖1和表1所示結(jié)果,將大數(shù)據(jù)背景下教育領(lǐng)域的熱點研究總結(jié)為以下幾個方面。
學習分析和數(shù)據(jù)挖掘 教育數(shù)據(jù)挖掘是數(shù)據(jù)挖掘在教育領(lǐng)域的新型應(yīng)用,主要目標為知識發(fā)現(xiàn)、決策支持和推薦等。學習分析是測量、搜集、分析和報告學生及其相關(guān)的學習環(huán)境的數(shù)據(jù),用以理解和優(yōu)化學習過程和學習環(huán)境[3]。
教育數(shù)據(jù)挖掘?qū)W⒂诩夹g(shù)層面,側(cè)重教育數(shù)據(jù)模型和模式的抽取,強調(diào)挖掘結(jié)果的自動化反饋;學習分析更注重研究有利于改善學習的干預(yù)措施。
2012年,美國教育部了報告《通過教育數(shù)據(jù)挖掘和學習分析促進教與學》[4],提出“數(shù)據(jù)驅(qū)動學校,分析變革教育”的大數(shù)據(jù)時代已經(jīng)來臨,要綜合運用教育數(shù)據(jù)挖掘和學習分析,構(gòu)建教育模型,探索教育變量,為教育教學提供有效支持。
在CNKI中以“學習分析”和“教育數(shù)據(jù)挖掘”為關(guān)鍵詞進行檢索,得到圖2所示的文獻數(shù)量趨勢圖。如圖2所示,2010年以前的文獻數(shù)量很少,但2010年之后開始呈指數(shù)式增長;2016年1―2月份刊登的相關(guān)主題期刊論文已有5篇,可以預(yù)計本年度,學習分析和數(shù)據(jù)挖掘仍將是大數(shù)據(jù)背景下教育領(lǐng)域的研究重點和熱點之一。
在線教育――興起與變革 以“在線教育”和“大數(shù)據(jù)”為關(guān)鍵詞進行搜索,得到圖3所示文獻數(shù)量趨勢圖。目前在線學習的發(fā)展趨勢主要有如下表現(xiàn)。
1)移動學習是大方向:隨著無線網(wǎng)絡(luò)的覆蓋,移動終端特別是手機用戶的增多,移動學習逐漸發(fā)展起來。
2)免費是大趨勢:目前在線學習存在各式各樣的免費現(xiàn)象,如免費試用、前期付費后期免費等形式。
3)細化管理是要求:任何一種在線學習方式,都離不開資源開發(fā)、管理和優(yōu)化等工作,需要設(shè)定管理要求,細化規(guī)則。
4)實現(xiàn)互動是必然:交互功能是在線學習軟件必然要設(shè)計的功能,大多數(shù)在線學習使用者表示學習過程中希望能有更多的互動交流。
5)個性化學習是亮點:學習分析和教育數(shù)據(jù)挖掘的出現(xiàn),使得在線學習存儲的大量數(shù)據(jù)能夠被更快速分析和使用,學習者可以隨時掌握學習狀況,開發(fā)商也可以掌握學習者的興趣點、學習特征等,為學習者推薦或制訂個性化的學習方案。
教育信息化 我國的教育信息化主要包含兩層含義:一是把提高信息素養(yǎng)納入教育目標,培養(yǎng)適應(yīng)信息社會的人才;二是把信息技術(shù)手段有效應(yīng)用于教育,注重教育信息資源的開發(fā)與利用。教育信息化的核心是教學信息化,要求在教育過程中較全面地運用現(xiàn)代信息技術(shù),促進教育改革,適應(yīng)信息化社會提出的新要求,深化教育改革,實施素質(zhì)教育。隨著大數(shù)據(jù)時代的來臨,教育信息化也在不斷進步,未來的教育信息化將在教育云平臺上進行展現(xiàn),現(xiàn)有的教育網(wǎng)、校園網(wǎng)將全面升級,實現(xiàn)互聯(lián)網(wǎng)、電信網(wǎng)、廣電網(wǎng)等跨平臺使用并支持移動設(shè)備。
在CNKI中以“教育信息化”和“大數(shù)據(jù)”為關(guān)鍵詞進行檢索,2013年共有3篇學術(shù)論文,2015年共有10篇,研究主題包括大數(shù)據(jù)時代的信息化教學、教師培訓、課程資源建設(shè)、教育輿情監(jiān)控等。
教育決策 以“教育決策”為關(guān)鍵詞搜索到上千篇學術(shù)論文,以“教育決策”和“大數(shù)據(jù)”為關(guān)鍵詞,2013年以來共有8篇論文。大數(shù)據(jù)將在教育決策中發(fā)揮越來越重要的作用已成為共識,但如何利用大數(shù)據(jù)進行決策是目前面臨的難題,如何解決這個難題也是研究者重點關(guān)注的領(lǐng)域。教育決策離不開數(shù)據(jù),大數(shù)據(jù)背景下的數(shù)據(jù)更加復雜、凌亂,呈現(xiàn)碎片化的特征,并且摻雜一些虛假數(shù)據(jù),如何收集、選擇數(shù)據(jù),是第一步需要做的事情。大數(shù)據(jù)對于教育決策的價值在于為教育服務(wù),將數(shù)據(jù)轉(zhuǎn)化為支持決策的信息,需要數(shù)據(jù)分析者具備綜合、全面的數(shù)據(jù)分析素質(zhì)和能力。大數(shù)據(jù)的核心是預(yù)測,隨著教育信息化和在線學習的持續(xù)發(fā)展,數(shù)據(jù)呈爆炸式增長,需要對數(shù)據(jù)進行整合、分析,發(fā)現(xiàn)新知識,為教育優(yōu)化服務(wù)。
4 數(shù)據(jù)推動決策
傳統(tǒng)決策過程主要依靠決策者的經(jīng)驗,主觀性較強,或多或少存在一些不足,難以充分發(fā)現(xiàn)教育過程中的潛在問題,無法真正有效地優(yōu)化教學、提高學生表現(xiàn)。信息化推動了人類發(fā)展,逐漸成為人類生活必不可少的重要部分;信息化技術(shù)普及的同時,也產(chǎn)生前所未有的海量數(shù)據(jù)。大數(shù)據(jù)時代的來臨,顛覆了傳統(tǒng)數(shù)據(jù)分析方法;大數(shù)據(jù)背景
下,利用數(shù)據(jù)挖掘方法發(fā)現(xiàn)問題、支持決策具有多方面的意義。
1)優(yōu)化教學、提高教育質(zhì)量。教師若能充分利用學生學習數(shù)據(jù),分析學生學習過程,可以更加快速、便捷、有效地了解學生,發(fā)現(xiàn)不足之處并及時反饋,提供改進意見等[5]。
2)為學校管理者制訂更加合理的教學計劃和方案提供決策支持。基于數(shù)據(jù)的教育決策能夠為管理者提供更加準確、合理的決策支持。基于數(shù)據(jù)的教育決策能夠提供從數(shù)據(jù)到?jīng)Q策,實施決策后產(chǎn)生的數(shù)據(jù)再到?jīng)Q策的一種良性循環(huán)過程[6]。
3)幫助地區(qū)甚至是國家級決策者進行科學判斷。數(shù)據(jù)推動決策具有相當明顯的優(yōu)勢,能為決策者提供全方位的視角。大數(shù)據(jù)分析得到的結(jié)果具有全面性、多視角性、參考性強等特點,能夠更好地為決策者提供決策支持。
5 結(jié)語
上文所分析出的教育領(lǐng)域熱點研究問題,都緊緊圍繞“數(shù)據(jù)推動決策”這一主題,學習分析和教育挖掘是分析方法和技術(shù);在線教育是數(shù)據(jù)來源;教育信息化是信息化大數(shù)據(jù)環(huán)境;教育決策則是根據(jù)數(shù)據(jù)制定決策并運用于教育教學。可見,利用數(shù)據(jù)推動決策已成為教育領(lǐng)域在大數(shù)據(jù)背景下最為重要的研究問題之一。
參考文獻
[1]陳悅,陳超美,胡志剛.引文空間分析原理與應(yīng)用:Cite Space實用指南[M].北京:科學出版社,2014.
[2]潘黎,王素.近十年來教育研究的熱點領(lǐng)域和前沿主題:基于八種教育學期刊2000-2009年刊載文獻關(guān)鍵詞共現(xiàn)知識圖譜的計量分析[J].教育研究,2011(2):47-53.
[3]Siemens G. Learning and Knowledge Analytics-Knewton-the future of education?[EB/OL].[2011-04-17].http:///?p=126.
與Kaggle合作的公司或機構(gòu),提交一些相關(guān)數(shù)據(jù)到Kaggle平臺,進而提出一個問題,Kaggle網(wǎng)站上來自世界各地的計算機科學家和數(shù)學家,也就是現(xiàn)在所說的數(shù)據(jù)科學家,將領(lǐng)取任務(wù),通過競賽產(chǎn)生最好的模型并獲得大獎(獎金由那些需要情報的公司提供),而且有機會提供咨詢服務(wù),而與Kaggle合作的公司或機構(gòu)將最終擁有數(shù)據(jù)分析的結(jié)果、模型等知識產(chǎn)權(quán)。
換句話說,Kaggle在數(shù)據(jù)問題和數(shù)據(jù)解決方案架起了一座橋梁。Kaggle對于參賽的數(shù)據(jù)科學家是免費的,它在組織這些競賽時會向企業(yè)收取費用。
到目前為止Kaggle已經(jīng)做出了許多突破性成功,包括幫助改進了微軟Kinect體感產(chǎn)品。
在Anthony Goldbloom看來,Kaggle上舉行的競賽,就像是職業(yè)高爾夫球巡回賽,他們試圖借此找到數(shù)據(jù)科學世界里面的伍茲(Tiger Woods)。今年29歲的Anthony是Kaggle的聯(lián)合創(chuàng)始人兼CEO。
Kaggle成功的關(guān)鍵就是它的社區(qū):近11萬名在線的數(shù)據(jù)科學家。這也是目前世界上最大的數(shù)據(jù)科學家社區(qū)。它是怎樣吸引到第一批用戶的?在Anthony看來,數(shù)據(jù)科學競賽是“吸引最聰明的,最奇怪和最有創(chuàng)意的數(shù)據(jù)科學家的非常有效的方式”。Kaggle早期是通過機器學習競賽來吸引用戶。早期的比賽項目比如基于悉尼的歷史交通數(shù)據(jù)來建立一個算法,來預(yù)測在悉尼的旅行時間等。
Kaggle目前的用戶主要分布在北美,澳大利亞和東歐。“我們通過與騰訊的合作,得到了一個來自中國的‘招生大戶’。” Anthony說。Kaggle與騰訊的合作,幫助后者解決了兩個問題,幫助騰訊建立了一套預(yù)測騰訊不同廣告的點擊率效果的算法,以及給騰訊微博建立了一種“關(guān)注”算法。
在Kaggle的客戶名單上,GE、微軟、Facebook、Tesco、福特等赫然在列,甚至包括NASA(美國宇航局),當然它也服務(wù)規(guī)模較小的企業(yè),幫助客戶解決所有的數(shù)據(jù)科學問題,例如提高銷售預(yù)測,客戶細分,留住客戶,優(yōu)化定價等等。
Kaggle并不是以眾包方式專注于大數(shù)據(jù)分析領(lǐng)域的唯一一家創(chuàng)業(yè)公司,類似的還有CrowdAnalytix,TunedIT等。Kaggle的優(yōu)勢是什么?
“超過10萬名的數(shù)據(jù)科學家在線,而且極其活躍,Kaggle已經(jīng)形成具有流動性的數(shù)據(jù)科學人才的市場。 TunedIT和CrowdAnaltix沒有太多的數(shù)據(jù)科學家,也不是一個活躍的社區(qū)。”Anthony這樣回答。
Kaggle還投資于基礎(chǔ)設(shè)施建設(shè),藉此能夠向企業(yè)或機構(gòu)客戶提供安全的數(shù)據(jù)托管服務(wù),據(jù)Anthony介紹,這種服務(wù)也是大部分客戶所要求的。
事實上,Kaggle還有一個創(chuàng)新之處,即該公司的新服務(wù)Kaggle Connect。通過該服務(wù),Kaggle可以對接這樣的“供需”:有特殊要求的企業(yè)或機構(gòu)客戶,可以聘請到最適合解決這個問題、具有特殊技能的數(shù)據(jù)科學家。Anthony稱他們是數(shù)據(jù)科學家里的“精英”,在Kaggle網(wǎng)站上排名前1%的一半,相當于大約500名數(shù)據(jù)科學家。
Kaggle是如何發(fā)現(xiàn)這些大數(shù)據(jù)分析領(lǐng)域的精英的?Anthony說,通過他們在科學競賽中的表現(xiàn),以及通過“競賽”積累積分在Kaggle上獲得的排名。據(jù)悉,Kaggle的排名榜,在專業(yè)人士圈內(nèi)有很大影響力,也成為該領(lǐng)域人員技術(shù)水平高低的公認標桿。
如此看來,Kaggle不僅僅是一個大數(shù)據(jù)分析的眾包平臺,而是創(chuàng)造了一個全新的勞動力市場和評價體系。對于那些希望利用大數(shù)據(jù)分析改進業(yè)務(wù)的企業(yè)來說,Kaggle的大數(shù)據(jù)分析的眾包模式,正好解決了兩大難題:人才和想法。
中圖分類號:TS941 文獻標志碼:A
The Influence of Industry Big Data Analysis on New Models of Design Thinking
Abstract: Based on discussing big data analyzing technology as well as enterprise case studies and tracking surveys, the paper states that such data analyzing technology will facilitate the generation of new models of design thinking, which will more rely on Internet technology, and systematically reorganize complicated resources and information into data that can be further used as an important guidance for new product design. These data will help enterprises realize cooperation of various participants, information sharing and tier management in the process of product design and R&D and improve the efficiency and benefits of their design and R&D system.
Key words: data analysis; design thinking; market positioning; precision marketing
在全球服裝紡織業(yè)格局中,中國還處于起步探索階段,缺少真正有市場競爭力的自主設(shè)計品牌。企業(yè)們普遍缺乏高效務(wù)實的設(shè)計創(chuàng)新能力,成為了我國服裝紡織行業(yè)的發(fā)展短板。面對國際品牌的激烈競爭,企業(yè)們需要建立自己的新型設(shè)計思維模式。更加適應(yīng)市場需求的新設(shè)計思維將是一套有理有據(jù)、高效靈敏的產(chǎn)品設(shè)計與管理系統(tǒng),這將有助于企業(yè)們更超前的把握市場發(fā)展動態(tài),更精準的分析產(chǎn)品的優(yōu)劣勢,更合理的籌劃銷售策略,更敏銳的找到未來商業(yè)機會從而打造企業(yè)及品牌的市場競爭實力。
目前在經(jīng)濟發(fā)達國家的服裝產(chǎn)業(yè)中,類似的研究已經(jīng)進行到了比較成熟的階段,如法國的Lectra(力克)公司,通過將其CAD/CAM 、三維技術(shù)與互聯(lián)網(wǎng)技術(shù)的結(jié)合,進行最優(yōu)化的數(shù)據(jù)傳輸,可以滿足企業(yè)在整個生產(chǎn)過程中從服裝系列設(shè)計到視覺化銷售的所有環(huán)節(jié)的需求。力克公司的發(fā)展資料為本文的研究提供了非常有價值的可參考實例。
1 針對服裝紡織產(chǎn)業(yè)大數(shù)據(jù)分析技術(shù)的研究
服裝紡織產(chǎn)業(yè)大數(shù)據(jù)分析技術(shù)是基于互聯(lián)網(wǎng)大數(shù)據(jù)分析的專業(yè)服裝設(shè)計和生產(chǎn)管理輔助工具。該分析技術(shù)采用的是個性化分布式數(shù)據(jù)挖掘技術(shù),通過對互聯(lián)網(wǎng)海量真實的服裝銷售數(shù)據(jù)的分析,監(jiān)控并分析網(wǎng)站,采用JAVA語言對網(wǎng)站中各種內(nèi)容信息進行智能化的分析和挖掘,多維度、全方位對服裝屬性數(shù)據(jù)進行篩選,可甄別出不同時間段、不同地域、不同年齡層次、不同性別甚至不同消費習慣的服裝購買者對服裝顏色、款式、面料、尺寸等屬性的偏好,并形成直觀易懂的可視化報表,從而對設(shè)計和生產(chǎn)管理者形成指導,更加方便直接的形成“設(shè)計指導書”或者“生產(chǎn)指導書”。能夠使產(chǎn)品更加符合品牌特征和市場需求,極大地提高設(shè)計生產(chǎn)效率,減少成本與避免試錯風險。
在數(shù)據(jù)分析技術(shù)的層面上,它是基于html的個性化分布式數(shù)據(jù)挖掘系統(tǒng)。核心內(nèi)容是監(jiān)控并分析網(wǎng)站,生成Excel表格形式的報表,報表包含關(guān)鍵詞和網(wǎng)站的鏈接地址。這種分析為采用Java語言對網(wǎng)站中的各種內(nèi)容信息進行智能化的分析與挖掘。相當于目標網(wǎng)站名單讀取模塊,采用Excel表格存儲目標網(wǎng)站列表和關(guān)鍵詞,并且用Java語言讀取信息,并利用web界面即時呈現(xiàn)監(jiān)控結(jié)果。
2 服裝紡織產(chǎn)業(yè)大數(shù)據(jù)分析技術(shù)對設(shè)計思維影響的實例研究
參與本次研究項目的北京相與文化發(fā)展有限公司,是一家由中法意等多國設(shè)計師和業(yè)內(nèi)人士組成的專業(yè)服裝紡織品品牌孵化和設(shè)計營銷整合機構(gòu)。
2014年公司開始進行自主開發(fā)和使用基于互聯(lián)網(wǎng)的服裝設(shè)計大數(shù)據(jù)分析系統(tǒng),如圖 1 所示,針對某款產(chǎn)品的數(shù)據(jù)分析結(jié)果,將對設(shè)計工作產(chǎn)生重要的引導作用。設(shè)計師們會根據(jù)數(shù)據(jù)分析結(jié)果來判斷設(shè)計思路是否合理,改變了傳統(tǒng)設(shè)計流程中過于強調(diào)設(shè)計師主觀感受的不穩(wěn)定性,將基于互聯(lián)網(wǎng)的海量數(shù)據(jù)經(jīng)過精準的篩選和整理,生成直觀可視化的數(shù)據(jù)報表,并且形成多點共享和分級管理的平臺化工具,將設(shè)計研發(fā)流程模塊化,迅速找到針對市場切實有效的產(chǎn)品設(shè)計賣點和營銷方式,可以極大地提高服裝設(shè)計師和生產(chǎn)管理者的工作效率,降低了設(shè)計研發(fā)成本并有效減少了企業(yè)在新品設(shè)計研發(fā)方面的試錯風險。
為了調(diào)研資料的充分性和客觀性,本論文還調(diào)研了參與10家生產(chǎn)銷售與男士T恤相關(guān)的服裝企業(yè)。在男士T恤這個產(chǎn)品品類的設(shè)計開發(fā)之前,這些企業(yè)想去了解該產(chǎn)品的設(shè)計研發(fā)方向的需求集中體現(xiàn)在以下幾個方面,如基礎(chǔ)風格、花型圖案、面料材質(zhì)、款式細節(jié)和服飾工藝等;并且在這幾個需求里面,關(guān)于花型圖案的調(diào)研量最大,這個環(huán)節(jié)也就成為了企業(yè)們最為關(guān)注的問題所在,另外占比量22%位居其次的款式細節(jié),也成了男士T恤的另一個設(shè)計重點。以上調(diào)研的數(shù)據(jù)比例圖示(圖2),充分證明了企業(yè)對產(chǎn)品的設(shè)計研發(fā)方向的設(shè)定,是有著比較明晰準確的需要點的,占比29%的企業(yè)都認為要將花型圖案作為男士T恤的設(shè)計重點。如果通過產(chǎn)業(yè)數(shù)據(jù)分析技術(shù),能比較清楚地告知這些企業(yè),在服裝設(shè)計研發(fā)的時候,是否要優(yōu)先關(guān)注哪些方面以及如何把握這些方面的設(shè)計工作,這無疑對企業(yè)把控產(chǎn)品與市場需求的貼合度方面是有重要幫助的。
3 產(chǎn)業(yè)大數(shù)據(jù)分析技術(shù)對新型設(shè)計思維模式的影響
“積累、效率、協(xié)作、降本”―― 代表著新型設(shè)計思維模式核心要素的,將給產(chǎn)品的設(shè)計研發(fā)思維帶來全新突破,將有力地幫助中國數(shù)以萬家企業(yè)將設(shè)計真正轉(zhuǎn)化為生產(chǎn)力并最終打造核心競爭能力,完善品牌體系并全面提升品牌價值。
將與產(chǎn)品相關(guān)的市場數(shù)據(jù)進行搜集整理和分析,在互聯(lián)網(wǎng)大數(shù)據(jù)分析技術(shù)的幫助下,找到對企業(yè)的產(chǎn)品設(shè)計研發(fā)最具有參考價值的類比信息,不同于傳統(tǒng)設(shè)計模式的主觀化和分散化,新一代的設(shè)計思維模式需要將資源和信息模塊化,形成支持系統(tǒng);從而在企業(yè)的整體產(chǎn)品設(shè)計研發(fā)流程中實現(xiàn)多點協(xié)作、信息共享和分級管理,極大地提高了流程的效率,降低了錯誤判斷市場導向帶來的經(jīng)營風險,節(jié)省了設(shè)計開發(fā)的時間和成本,同時新型設(shè)計思維模式又會強化對于流程中每個環(huán)節(jié)的工作指標的評估,從而達成有效良性的管理機制。
中圖分類號:G25 文獻標識碼:A 文章編號:1672-3791(2016)10(b)-0150-02
在科學技術(shù)的影響下,學術(shù)資源建設(shè)速度越來越快。例如:中國最大的學術(shù)資源建設(shè)商――中國知網(wǎng),已經(jīng)從期刊論文向國內(nèi)外期刊論文發(fā)展,在圖書資源收藏方面收集了大量資源,可以給行業(yè)機構(gòu)、學術(shù)等提供大量文獻。在此種發(fā)展形式下,數(shù)字圖書館承受了較大壓力,如何在未來發(fā)展中更好生存,已經(jīng)成為人員研究的主要問題,必須及時對其進行分析。
1 國內(nèi)外研究與啟示
1.1 國內(nèi)外相關(guān)論述對我國的影響
隨著大數(shù)據(jù)時代的到來,人們對數(shù)據(jù)的需求量不斷增大。目前國外相關(guān)研究已經(jīng)從理念、技術(shù)和數(shù)據(jù)等方面進行了很多研究。美國加州大學伯克利分校圖書館的Huwe在《構(gòu)建數(shù)字D書館》一書中明確指出,大數(shù)據(jù)與數(shù)字化圖書館的發(fā)展方向吻合,可以借助數(shù)字圖書館進行信息采集和收集,進而挖掘用戶行為,幫助人們了解閱讀行為與信息的聯(lián)系。Borgman等人將嵌入式技術(shù)成功安裝于數(shù)字圖書館系統(tǒng)中,增加了數(shù)字圖書館功能,可以實現(xiàn)圖書分類、收集處理和關(guān)聯(lián)等各項操作,促進了數(shù)字圖書館與網(wǎng)絡(luò)技術(shù)的融合,發(fā)揮了大數(shù)據(jù)的作用。
國內(nèi)研究人員曾建勛曾在《數(shù)字圖書館論壇》中明確指出,大數(shù)據(jù)時代將數(shù)據(jù)數(shù)字圖書館數(shù)據(jù)管理、收集等服務(wù)的深層次發(fā)展,對數(shù)字圖書館人員提出了較高要求。另外武漢大學生陳傳夫等也從理念、發(fā)展知識和財政投入機制等,分析了圖書館素質(zhì)等問題,并提出了相關(guān)應(yīng)對措施。
從上述研究均可看出大數(shù)據(jù)對數(shù)字圖書館帶來的發(fā)展機遇和挑戰(zhàn),促進了數(shù)字圖書館和大數(shù)據(jù)的融合。為了促進高校圖書館和我國公共圖書館在大數(shù)據(jù)時代的發(fā)展,發(fā)揮數(shù)字圖書館在人們的生活或科學研究中的作用,必須深入思考,及時轉(zhuǎn)變觀念,提高數(shù)字圖書館的競爭力。
1.2 啟示與思考
從當前的發(fā)展狀況來看,學術(shù)資源建設(shè)商已經(jīng)在大數(shù)據(jù)時代取得了很大進展,不僅包含網(wǎng)絡(luò)資源與期刊,還涉及各種文獻資源,可以查找作者、文獻關(guān)系與學者等關(guān)系,給數(shù)字圖書館的發(fā)展帶來了很大壓力。所以圖書館相關(guān)人員必須提高思想認識,將資源建設(shè)商帶來的威脅作為新的機遇。在實際工作中,必須積極吸取圖書館建設(shè)資源,擴展圖書館資源范疇,進行各種資源的有機結(jié)合,同時還要充分發(fā)揮資源價值,促使各種資源的整合,深入挖掘數(shù)據(jù)規(guī)律,認真分析數(shù)據(jù)規(guī)律,發(fā)現(xiàn)數(shù)據(jù)潛在價值。從服務(wù)角度上分析,圖書館還要向眾多資源建設(shè)商學習,從用戶角度探索問題,給用戶提供人性化服務(wù),滿足用戶對資源的需求。
經(jīng)過分析發(fā)現(xiàn),大數(shù)據(jù)時代,必須要改變傳統(tǒng)的思維模式,形成適合數(shù)字圖書館發(fā)展的模式,適應(yīng)大數(shù)據(jù)時代的發(fā)展,充分利用大數(shù)據(jù)促進數(shù)字圖書館的發(fā)展,讓數(shù)字圖書館在人們的生活、學習和工作中發(fā)揮更大作用。
2 淺析數(shù)字圖書館的大數(shù)據(jù)思維
數(shù)字圖書館的大數(shù)據(jù)思維主要表示從大數(shù)據(jù)角度思考并分析數(shù)字圖書館發(fā)展中存在的問題,實現(xiàn)數(shù)字圖書館和大數(shù)據(jù)時代的有機融合,增加數(shù)字圖書館產(chǎn)品種類,提高數(shù)字圖書館服務(wù)水平。
2.1 建設(shè)數(shù)字圖書館資源
第一,擴大數(shù)字圖書館資源范圍。資源是數(shù)字圖書館發(fā)展的基礎(chǔ),也是提高數(shù)字圖書館服務(wù)質(zhì)量的主要方法。在長期發(fā)展中,圖書館非常重視資源建設(shè),主要是圖書、期刊及學位論文等資源。為了在大數(shù)據(jù)時代下發(fā)展,必須創(chuàng)新思維,引入一些數(shù)據(jù)庫資源或一些社會熱點信息等內(nèi)容,以用戶的搜索習慣作為數(shù)字圖書采集參考,深入挖掘各種數(shù)據(jù)之間的聯(lián)系,實現(xiàn)可再生資源的生產(chǎn)、收集和儲存,擴大數(shù)字圖書資源范圍。第二,提高數(shù)字圖書館資源整合度。大數(shù)據(jù)時代的主要特點是數(shù)據(jù)類型較復雜,單純的文本信息已經(jīng)不能被大數(shù)據(jù)時展用戶吸取,可以實現(xiàn)資源整合向綜合信息服務(wù)轉(zhuǎn)變。為了滿足不同用戶的需求,還可以實現(xiàn)文獻和政府等信息的整合,擴大社會資源和數(shù)字圖書館的聯(lián)系,將公眾最關(guān)注的問題引入到社會資源整合中。第三,加強數(shù)字圖書館資源加工深度。在大數(shù)據(jù)時代,雖然數(shù)字圖書館結(jié)構(gòu)信息具有較強的表現(xiàn)形式,但主要體現(xiàn)在資源庫內(nèi)部。在大數(shù)據(jù)時代下,必須及時擴展數(shù)字資源和外界的聯(lián)系,構(gòu)建全社會數(shù)字圖書館資源架構(gòu)。同時進行圖書館資源深度加工時,必須從知識結(jié)構(gòu)向知識建構(gòu)加工方向發(fā)展。例如:從圖書館文獻資源中分析知識結(jié)構(gòu),利用知識單位和文獻建立知識建構(gòu),形成新知識。
2.2 靈活應(yīng)用數(shù)字圖書館技術(shù)
大數(shù)據(jù)時代,數(shù)字圖書館技術(shù)已經(jīng)開始從處理局部數(shù)據(jù)向更廣的區(qū)域發(fā)展。從圖書館技術(shù)體系分析主要進行信息處理、組織架構(gòu)、分析預(yù)測、服務(wù)技術(shù)等操作。
第一,應(yīng)用語義技術(shù)。大數(shù)據(jù)環(huán)境中可以采用語義實現(xiàn)復雜數(shù)據(jù)的聯(lián)系。當前數(shù)字圖書面臨的主要問題是將語義加入數(shù)字文獻信息中。所以必須將本體技術(shù)、人工智能等先進技術(shù)應(yīng)用到實際工作中,讓數(shù)據(jù)間形成語義關(guān)系,促進收錄資源和知識挖掘等各項操作。目前語義技術(shù)已經(jīng)廣泛應(yīng)用到圖書領(lǐng)域中,如:漢語主題詞表、圖書分類法等均是依靠語義發(fā)展起來的。知識相互間的語義關(guān)系,不僅可以幫助用戶及時獲取知識,還可以獲得有用知識途徑。第二, 數(shù)據(jù)聚類技術(shù)。數(shù)據(jù)聚類是實現(xiàn)信息相互聚集的過程。在繁雜的數(shù)據(jù)中,只有靈活應(yīng)用聚類技術(shù),才能發(fā)揮信息服務(wù)、處理等各種功能。在大數(shù)據(jù)背景下,利用數(shù)據(jù)聚類可將不同數(shù)據(jù)劃分成相互聯(lián)系、主體相近的小數(shù)據(jù),給用戶信息檢索、選擇和分析提供很大方便,給用戶個性化服務(wù)提供了數(shù)據(jù)支持。第三,信息分析技術(shù)。大數(shù)據(jù)時代可以充分利用信息分析技術(shù)。可以將大數(shù)據(jù)技術(shù)融入到書籍圖書館中,拓展了數(shù)據(jù)分析工作,給用戶提供了高端服務(wù)。例如:聯(lián)機分析技術(shù)可給在線用戶提供數(shù)據(jù)支持;定量定性分析技術(shù)可以在數(shù)字圖書館中得到充分應(yīng)用。
2.3 數(shù)字圖書館的定位
第一,打破傳統(tǒng)資源框架束縛。大數(shù)據(jù)給圖書館提供了較廣闊的發(fā)展空間,滿足了用戶對不同信息的需求,在信息采集、收集和服務(wù)等方面均發(fā)生了變化。數(shù)字圖書館進行定位時,必須打破傳統(tǒng)資源框架,將數(shù)據(jù)理念融于到數(shù)字圖書館建設(shè)中,所以不僅要采用傳統(tǒng)的方法進行信息采集,還要進行網(wǎng)絡(luò)信息自動獲取,構(gòu)建語義關(guān)系、數(shù)據(jù)聯(lián)系等信息組織框架。
第二,建立全方位服務(wù)信息。傳統(tǒng)圖書館主要進行文獻服務(wù)。數(shù)字化圖書館服務(wù)資源發(fā)生了變化,服務(wù)形式開始從被動化向主動化發(fā)展。一方面向全社會提供服務(wù);另一方面,提供全新資源服務(wù);最后不斷擴展服務(wù)與傳播方式,全面擴展數(shù)字圖書館服務(wù)。
第三,定位數(shù)字圖書館員。大數(shù)據(jù)時代對圖書館員提出了更高要求,每館員都要有敏銳的數(shù)據(jù)分析能力;及時了解學術(shù)變化;掌握大數(shù)據(jù)分析技術(shù);熟練使用各種數(shù)據(jù)分析工具和軟件,準確定位網(wǎng)絡(luò)資源,促進數(shù)字圖書館的發(fā)展。
3 結(jié)語
大數(shù)據(jù)時代給數(shù)字圖書館帶來了挑戰(zhàn),是數(shù)字圖書館的一種巨大轉(zhuǎn)型,可以擴展數(shù)字圖書館數(shù)據(jù)資源,提高數(shù)字圖書館服務(wù)功能;同時,還要不斷思考資源框架、技術(shù)應(yīng)用模式和服務(wù)功能,與廣大學術(shù)資源建設(shè)商共同發(fā)展。
中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2014)05-0013-07
Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies
Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.
Key words big data; big data analytics; intelligence studies; adaptability
大數(shù)據(jù)分析(Big Data Analytics,BDA)是以“深度的發(fā)現(xiàn)分析、引領(lǐng)行動”作為目標的工作[1-2],它包括由多個任務(wù)組成的高度重復執(zhí)行的步驟[3-4]。BDA通常要集成多種分析技術(shù)與軟件工具,以便讓海量數(shù)據(jù)的處理及分析變得更加容易,從數(shù)據(jù)中提取有用信息并形成結(jié)論,用來驗證、指導及規(guī)范組織或個人的決策行動;BDA的執(zhí)行過程一般包括問題需求及假設(shè)提出、數(shù)據(jù)獲取及記錄、信息抽取及清洗、數(shù)據(jù)整合及表示、選擇建模及分析方法、結(jié)果詮釋、評測結(jié)果有效性及監(jiān)控等幾個階段。從以上BDA的定義及過程來看,BDA與情報學領(lǐng)域中的情報研究(也稱情報分析)在本質(zhì)上是一致的,兩者至少在方法與技術(shù)(以下簡稱方法)上可以相互借鑒或補充。本文基于情報學的視角,關(guān)注哪些BDA方法可以為情報研究提供借鑒,并解決情報研究的相關(guān)問題。因此,本文首先概略總結(jié)BDA的方法體系,然后探討B(tài)DA方法在情報研究中的適用性。
1 大數(shù)據(jù)分析的方法分類
到目前為止,尚沒有公認的BDA方法的分類體系,甚至對BDA包括哪些方法,也有不同的認識。本文首先綜述現(xiàn)有的相關(guān)研究,并以此為基礎(chǔ)提出我們的分類體系。
1.1 相關(guān)研究
不同學者對BDA方法的看法各有差異,概括起來,主要有三種分類體系,分別是面向數(shù)據(jù)視角的分類、面向流程視角的分類以及面向信息技術(shù)視角的分類。
(1)面向數(shù)據(jù)視角的BDA方法分類。這類研究主要是以BDA處理的對象“數(shù)據(jù)”作為分類依據(jù),從數(shù)據(jù)的類型、數(shù)據(jù)量、數(shù)據(jù)能夠解決的問題、處理數(shù)據(jù)的方式等角度對BDA方法進行分類。
Power[5]依據(jù)分析需求將數(shù)值型數(shù)據(jù)的分析方法劃分為三類:①若是模式理解及對未來做出推論,可采取歷史數(shù)據(jù)及定量工具進行“回顧性數(shù)據(jù)分析”;②若要進行前瞻及預(yù)測分析,可采取歷史數(shù)據(jù)及仿真模型進行“預(yù)測性數(shù)據(jù)分析”;③若要觸發(fā)事件,可采取實時數(shù)據(jù)及定量工具進行“規(guī)范性數(shù)據(jù)分析”。美國國家研究委員會在2013年公布的《海量數(shù)據(jù)分析前沿》研究報告中提出了七種基本統(tǒng)計數(shù)據(jù)分析方法[6],包括:①基本統(tǒng)計(如一般統(tǒng)計及多維數(shù)分析等);②N體問題(N-body Problems)(如最鄰近算法、Kernel算法、PCA算法等);③圖論算法(Graph-Theoretic Algorithm);④線性代數(shù)計算(Linear Algebraic Computations);⑤優(yōu)化算法(Optimizations);⑥功能整合(如貝葉斯推理模型、Markov Chain Monte Carlo方法等);⑦數(shù)據(jù)匹配(如隱馬爾可夫模型等)。
針對非純粹的數(shù)值型數(shù)據(jù),Li、Han[7]梳理了面向“時空數(shù)據(jù)”(Spatiotemporal Data)的BDA方法,通過對動態(tài)數(shù)據(jù)挖掘出主體的預(yù)測性,如運用物理工程領(lǐng)域的傅立葉變換(Fourier Transform)及自相關(guān)匹配(Autocorrelation)偵查某一時間區(qū)段的信號、發(fā)生的事件或生物基因中的周期性節(jié)律,也可運用時間序列方法預(yù)測地點位置的變化;魏順平[8]以教育領(lǐng)域為例,梳理了面向?qū)W生與學習環(huán)境的“學習分析方法”(Learning Analytics),此方法集成了內(nèi)容分析、話語分析、社會網(wǎng)絡(luò)分析、統(tǒng)計分析、數(shù)據(jù)挖掘等多種方法,從中挖掘?qū)W習的各種語義關(guān)系,并回答“誰在學、學什么、怎么學、學的結(jié)果如何”等問題,為教學與優(yōu)化學習提供參考。
Mohanty等人[3]從數(shù)據(jù)獲取(Data Ingestion)角度,依照處理的數(shù)據(jù)量從小至大的順序,區(qū)分出八種分析方法:①流分析(Streaming Analytics),以預(yù)定模式及時處理數(shù)據(jù)流;②高速的數(shù)據(jù)采集(High Velocity Data Ingestion),不轉(zhuǎn)換任何格式,可稍晚處理; ③鏈結(jié)分析(Linkage Analysis),構(gòu)建不同數(shù)據(jù)源的關(guān)系與鏈接;④罕見事件偵查(Rare-Event Detection),從龐大數(shù)據(jù)集中尋找特定模式;⑤數(shù)據(jù)聚合(Data Mash-Ups),需要對數(shù)據(jù)屬性發(fā)展故事線或鏈接關(guān)系進行分析;⑥文本分析(Text Analytics),如觀點挖掘或社會網(wǎng)絡(luò)分析等;⑦時間序列分析(Time-Series Analysis),通過模式偵測及事件發(fā)生概率來處理時空數(shù)據(jù);⑧數(shù)據(jù)辯論(Data Forensic),用于數(shù)據(jù)科學家探索大規(guī)模數(shù)據(jù)集。
Chen等人[9]認為,在商業(yè)智能分析發(fā)展的過程中,商業(yè)智能分析經(jīng)歷了從處理結(jié)構(gòu)化程度較高的數(shù)據(jù)、到處理網(wǎng)絡(luò)上半結(jié)構(gòu)化數(shù)據(jù)、再到處理移動數(shù)據(jù)的發(fā)展,涵蓋了五類核心的分析方法:①數(shù)據(jù)分析,涉及數(shù)據(jù)倉儲、ETL、聯(lián)機分析及數(shù)據(jù)挖掘等分析技術(shù),可應(yīng)用在時間序列挖掘、網(wǎng)站挖掘、空間數(shù)據(jù)挖掘等;②文本分析,涉及信息檢索、查詢處理、相關(guān)反饋等分析技術(shù),可應(yīng)用在QA系統(tǒng)、觀點挖掘、多語義分析、可視化分析等;③網(wǎng)站分析,涉及信息檢索、網(wǎng)絡(luò)爬蟲、日志分析等分析技術(shù),可應(yīng)用在云計算、社會網(wǎng)絡(luò)分析、網(wǎng)站可視化等;④網(wǎng)絡(luò)分析,涉及信息計量、引用網(wǎng)絡(luò)、數(shù)學網(wǎng)絡(luò)模式等分析技術(shù),可應(yīng)用在鏈結(jié)分析、社區(qū)發(fā)現(xiàn)、社會影響力及擴散模式等;⑤移動分析,可應(yīng)用在移動通訊服務(wù)、個性化分析、游戲營銷分析等。
(2)面向流程視角的BDA方法分類。這類研究主要是依據(jù)BDA的步驟和階段對BDA方法進行分類。
美國計算社區(qū)協(xié)會出版的《大數(shù)據(jù)的機會與挑戰(zhàn)》白皮書指出BDA是一個多階段任務(wù)循環(huán)執(zhí)行過程[4],從整體看,其分析的過程包括了五個階段,每一個階段都包含該階段需要使用的方法:①數(shù)據(jù)獲取及記錄,從各種感知工具中獲取的數(shù)據(jù)通常與空間時空相關(guān),需要及時分析技術(shù)處理數(shù)據(jù)并過濾無用數(shù)據(jù);②信息抽取及清洗,從異構(gòu)數(shù)據(jù)源抽取有用信息,并轉(zhuǎn)換為結(jié)構(gòu)化的格式;③數(shù)據(jù)整合及表示,將數(shù)據(jù)結(jié)構(gòu)與語義關(guān)系轉(zhuǎn)換為機器可讀取、自動解析的格式;④數(shù)據(jù)建模及分析,從數(shù)據(jù)中挖掘出潛在規(guī)律及知識,涉及可擴展的挖掘算法或知識發(fā)現(xiàn)等方法;⑤詮釋,為了讓用戶容易解讀分析結(jié)果,可視化分析技術(shù)變得十分重要。此外,嚴霄鳳、張德馨[10]依照搜集、分析到可視化的流程,梳理了適用于大數(shù)據(jù)的關(guān)鍵技術(shù),包括:遺傳算法、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘、回歸分析、分類、聚類、關(guān)聯(lián)規(guī)則、數(shù)據(jù)融合、機器學習、自然語言處理、情感分析、網(wǎng)絡(luò)分析、空間分析、時間序列分析等多種方法。
(3)面向信息技術(shù)視角的BDA方法分類。這類研究強調(diào)大數(shù)據(jù)技術(shù)本身涉及到的新型信息技術(shù),將大數(shù)據(jù)處理架構(gòu)、大數(shù)據(jù)計算模式、大數(shù)據(jù)系統(tǒng)等作為BDA方法分類的依據(jù)。
孟小峰、慈祥[11]著眼于大數(shù)據(jù)處理框架,梳理了數(shù)據(jù)抽取與集成、數(shù)據(jù)分析及數(shù)據(jù)解釋所使用的分析方法,在數(shù)據(jù)抽取與集成方面,可區(qū)分為基于物化(Materialization)或ETL的方法、基于聯(lián)邦數(shù)據(jù)庫或中間件的方法、基于數(shù)據(jù)流的方法以及基于搜索引擎的方法等四類;在數(shù)據(jù)分析方面,傳統(tǒng)的數(shù)據(jù)挖掘、機器學習或統(tǒng)計分析面臨數(shù)據(jù)規(guī)模、算法調(diào)整等困難,需進一步發(fā)展;在數(shù)據(jù)解釋方面,引入可視化技術(shù)或交互式的數(shù)據(jù)分析過程,有助于用戶理解分析結(jié)果。覃雄派等人[12]認為,非關(guān)系數(shù)據(jù)管理(如MapReduce)擴展了數(shù)據(jù)分析的多維視角,使數(shù)據(jù)分析的生態(tài)系統(tǒng)從“大量數(shù)據(jù)的移動”轉(zhuǎn)向“直接對數(shù)據(jù)進行分析”。
2012~2013年在印度召開了兩次BDA國際研討會[13-14],會上分別就BDA中的機器學習面臨數(shù)據(jù)規(guī)模與多維度問題、可擴展的機器學習算法(如隨機映射、隨機梯度下降等)、機器學習在MapReduce的應(yīng)用、社交媒體數(shù)據(jù)挖掘(如話題檢測與跟蹤、地點推理、語義連接等)、高維數(shù)據(jù)降維分析(如主成分分析、因子分析、經(jīng)典相關(guān)分析等)、圖像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及圖像比對分析(如特征提取、Iterative Methods)等進行了探討。2013年IEEE計算機協(xié)會在美國召開大數(shù)據(jù)國際研討會,BDA結(jié)合MapReduce、Hadoop等模型的分析方法仍是主流,研究的內(nèi)容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。
1.2 BDA方法的分類――面向?qū)哟蔚腂DA方法框架
上述三種視角的BDA分類各有特點,都有一定的道理。從面向數(shù)據(jù)的視角來看,BDA方法正從統(tǒng)計(Statistics)轉(zhuǎn)向挖掘(Mining),并提升到發(fā)現(xiàn)(Discovery)和預(yù)測(Prediction)。基于流程的BDA分類則更能反映BDA過程的集成性(Integration),也就是說,在完成一項分析任務(wù)時,需要綜合使用多種方法。從面向信息技術(shù)的BDA分類中可以看出,這種分類方式強調(diào)使用新技術(shù)對傳統(tǒng)數(shù)據(jù)處理方法進行改進和創(chuàng)新,同時更重視新型系統(tǒng)架構(gòu)與分析方法的集成,例如,各種數(shù)據(jù)挖掘算法的MapReduce化,就是這方面的典型實例。
本文認為,如果綜合上述三種分類體系中體現(xiàn)的層次性,將可以更準確描述BDA方法。在此,本文提出一個面向?qū)哟蔚腂DA分類框架,將BDA方法分為統(tǒng)計、挖掘、發(fā)現(xiàn)、預(yù)測及集成五個層次,并初步歸納出17種BDA相關(guān)方法(見表1)。
2 BDA方法在情報研究中的適用性探討
如前所述,BDA與情報研究在本質(zhì)上有共同之處,BDA方法可為情報研究提供借鑒,因此,探討B(tài)DA方法對情報研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報研究的分析對象特征、方法的可移植性[15]等因素,對本文所列舉的17種面向?qū)哟蔚腂DA方法在情報研究中的適用性進行分析。
2.1 可直接移植的方法
可直接移植方法是指這些方法的原理、流程、算法等可以直接應(yīng)用于情報研究,用來對情報研究的數(shù)據(jù)源(如科技文獻、網(wǎng)絡(luò)資源等)進行處理,解決情報研究過程中的一個或幾個步驟中要解決的問題。在本文所列舉的17種面向?qū)哟蔚腂DA方法中,數(shù)據(jù)挖掘、文本挖掘、知識發(fā)現(xiàn)、觀點挖掘、話題演化分析、多元統(tǒng)計分析、時間序列分析、海量數(shù)據(jù)的基本統(tǒng)計方法、高維數(shù)據(jù)降維分析方法、多源數(shù)據(jù)融合方法等10種方法均屬于可直接移植方法,其中有些方法在情報研究中已經(jīng)有多年的應(yīng)用歷史。
(1)數(shù)據(jù)挖掘與文本挖掘。數(shù)據(jù)挖掘與文本挖掘是不同概念,兩種方法分別使用不同的發(fā)現(xiàn)技術(shù),文本挖掘?qū)儆诨谟嬎銠C語言學及統(tǒng)計方法的發(fā)現(xiàn)技術(shù),用來揭示文本中的詞與句法特征;數(shù)據(jù)挖掘以數(shù)據(jù)庫中的大量結(jié)構(gòu)化的數(shù)據(jù)挖掘為基礎(chǔ),用來揭示數(shù)據(jù)中潛在的、可能的數(shù)據(jù)模式及關(guān)聯(lián)規(guī)律[16]。在情報學領(lǐng)域的實踐應(yīng)用中,數(shù)據(jù)挖掘多應(yīng)用在圖書館自動化技術(shù)與服務(wù)方面,例如,館藏采購決策、個性化服務(wù)、信息檢索、讀者管理、館藏布局等。文本挖掘在情報研究的價值在于彌補了情報學專門分析方法對科技文獻內(nèi)在知識挖掘不足的缺欠,例如,祝清松、冷伏海[17]為了解決引文分析方法無法揭示論文的研究內(nèi)容這個問題,提出引文內(nèi)容分析,先建立基于規(guī)則的引文內(nèi)容抽取來識別引用句,再通過基于C-value多詞術(shù)語識別算法找出高被引論文主題,相比于引文分析,這種方法較能提供客觀的語義信息與文獻之間的語義關(guān)系。
(2)知識發(fā)現(xiàn)。情報研究中所說的知識發(fā)現(xiàn),主要是指基于文獻的知識發(fā)現(xiàn),例如,張樹良、冷伏海[18]在共詞、共引、文本挖掘等方法基礎(chǔ)上,提出了“基于文獻的知識發(fā)現(xiàn)”,包括:基于相關(guān)文獻、基于非相關(guān)文獻及基于全文獻三種條件下的知識發(fā)現(xiàn),完整揭示文獻的知識結(jié)構(gòu)與演化情況。在網(wǎng)絡(luò)環(huán)境下,李楠、張學福[19]認為關(guān)聯(lián)數(shù)據(jù)的RDF數(shù)據(jù)模型、數(shù)據(jù)訪問機制、URIs及自描述數(shù)據(jù)等規(guī)范所形成的數(shù)據(jù)共享環(huán)境,為知識發(fā)現(xiàn)提供了新的研究潛力,包括知識發(fā)現(xiàn)的范圍被擴展成全球數(shù)據(jù)空間、高效率理解及處理數(shù)據(jù)間的語義關(guān)系等。簡言之,知識發(fā)現(xiàn)從不同數(shù)據(jù)源之間的復雜關(guān)系中獲得隱含的知識或規(guī)律,甚至可對未來進行預(yù)測。
(3)觀點挖掘與話題演化分析。觀點挖掘與話題演化分析兩種方法實際上是數(shù)據(jù)挖掘及文本挖掘的具體及深化應(yīng)用。觀點挖掘主要有三種挖掘任務(wù):情感分類、基于特征的觀點挖掘、比較語句和關(guān)系挖掘[20],例如,黃曉斌、趙超[21]通過對網(wǎng)絡(luò)輿情信息的文本挖掘,找出不同民眾對某一社會事件的情緒、態(tài)度及觀點,再通過關(guān)聯(lián)分析找出網(wǎng)絡(luò)輿情信息的各種關(guān)聯(lián)性。趙潔、溫潤[22]認為微博情感分析的關(guān)鍵是觀點句識別,并根據(jù)文本特征的差異性,提出了基于新詞擴充和特征選擇的觀點句識別方法,即先擴充情感詞典來提高分詞準確率,再結(jié)合微博特征進行句子選取。話題演化分析方法是近年文本挖掘的研究熱點,借助不同的話題模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,獲取文本中的一組詞語,表示為某一話題的集合,再引入時間信息模擬該話題隨著時間推移所表現(xiàn)的受關(guān)注程度及關(guān)注點的變化[23]。又例如,賀亮、李芳[24]利用LDA模型抽取科技文獻中的話題(即主題詞),再計算話題的強度與內(nèi)容演化,從而區(qū)分熱門與冷門話題及其歷年特征詞的演化趨勢。
(4)多元統(tǒng)計分析與時間序列分析。多元統(tǒng)計分析與時間序列分析兩種方法也是情報研究常見的定量分析方法[25],前者研究客觀事物中多個變量(或多個因素)之間相互依賴的統(tǒng)計規(guī)律,后者則是基于隨機過程理論和數(shù)理統(tǒng)計學方法,研究動態(tài)數(shù)據(jù)序列的規(guī)律性。這兩種分析方法的一個重要特點在于能基于歷史數(shù)據(jù)的變化,評價事物現(xiàn)狀或預(yù)測事物未來的發(fā)展。
(5)海量數(shù)據(jù)的基本統(tǒng)計分析方法。海量數(shù)據(jù)的七種基本統(tǒng)計分析方法適用于情報研究的原因是,專家們普遍認為,在現(xiàn)有硬件技術(shù)條件下要開發(fā)一個海量數(shù)據(jù)分析系統(tǒng)的難度過高,且高性能計算領(lǐng)域也面臨許多困難,因而轉(zhuǎn)向?qū)ふ夜餐ǖ幕A(chǔ)性計算方法來幫助運算[6],同時這些統(tǒng)計方法也經(jīng)常應(yīng)用于數(shù)據(jù)挖掘或文本挖掘。對情報研究來說,處理的數(shù)據(jù)量不及高性能計算領(lǐng)域的海量數(shù)據(jù),因此可以容易地應(yīng)用這些基本統(tǒng)計分析方法。盡管如此,隨著情報研究處理的文本量增加,包括文獻計量或信息計量方法在內(nèi)的定量分析方法,仍然要經(jīng)常借鑒基礎(chǔ)性的計算方法,并進行公式改進。
(6)高維數(shù)據(jù)降維分析方法。高維數(shù)據(jù)降維分析方法反映了海量的數(shù)值型數(shù)據(jù)在數(shù)據(jù)縮減的重要性,常見的降維(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相關(guān)分析、獨立成分分析、投影尋蹤等[26]。高維數(shù)據(jù)經(jīng)常存在大量的弱相關(guān)內(nèi)容或噪音,通過線性(如主成分分析、典型相關(guān)分析等)或非線性(如投影尋蹤、核方法等)映射可以將數(shù)據(jù)樣本從高維空間映射到低維空間,從而提高機器學習的效率[27-28]。情報研究在處理文本語料時,廣泛使用基于向量空間模型來表示文本,形成的高維特征集會對文本分類或機器學習的效果產(chǎn)生很大影響,通過特征選擇(如特征頻率、互信息等)進行特征抽取(如PCA、LSI、NMF等),轉(zhuǎn)換成一個低維的特征集來提高訓練效果,是非常必要的[29]。
(7)多源數(shù)據(jù)融合方法。多源數(shù)據(jù)融合方法是解決大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)整合而提出的方法,例如,為了解決不同研究階段產(chǎn)生的各類科學數(shù)據(jù)集成問題,白如江、冷伏海[30]認為解決關(guān)鍵在于中間件構(gòu)建,例如,通過基于XML模型將異構(gòu)數(shù)據(jù)源的元數(shù)據(jù)映射到全局視圖,解決了不同數(shù)據(jù)源的關(guān)系描述問題,并提供用戶可靈活訂制查詢規(guī)則;但基于XML模型只能提供語法層次的整合,為了提供數(shù)據(jù)在語義層次的整合,可通過基于語義模型對XML的對象進行分類,在對象模型的基礎(chǔ)上生成邏輯規(guī)則,揭示隱含在科學數(shù)據(jù)中的語義信息。此外,也可以通過基于物化或ETL方法、基于數(shù)據(jù)流方法或其他方法對異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取出實體與關(guān)系,再進行數(shù)據(jù)集成或數(shù)據(jù)清洗[11]。多源數(shù)據(jù)融合方法是進入數(shù)據(jù)分析之前的重要任務(wù),對情報研究來說,需要多種來源支持情報分析工作,包括同型異源信息、異質(zhì)異構(gòu)信息、多語種信息等,都需要通過異源信息字段的映射、拆分、濾重、加權(quán)等進行融合分析[31]。
2.2 調(diào)整后移植的方法
調(diào)整后移植的方法是指其在原本的領(lǐng)域已經(jīng)成功應(yīng)用,但由于該方法最早或成功應(yīng)用的領(lǐng)域在任務(wù)需求、數(shù)據(jù)處理、分析過程有自身的特點,若移植到情報研究時,需要根據(jù)情報研究自身的特征進行調(diào)整。數(shù)據(jù)可用處理及分析方法、時空數(shù)據(jù)分析等兩種分析方法就屬于這類情況。
(1)數(shù)據(jù)可用處理及分析方法。大數(shù)據(jù)環(huán)境中容易產(chǎn)生許多劣質(zhì)數(shù)據(jù)來降低數(shù)據(jù)可用性,為了提高數(shù)據(jù)可用性及數(shù)據(jù)質(zhì)量,李建中及劉顯敏[32]梳理了數(shù)種數(shù)據(jù)可用性的相關(guān)方法,包括高質(zhì)量數(shù)據(jù)獲取與整合、數(shù)據(jù)錯誤自動檢測與修復、弱可用數(shù)據(jù)處理與分析等,分別解決了大規(guī)模數(shù)據(jù)集預(yù)處理階段常見的一致性、精確性、完整性、時效性及實體同一性等問題。對情報研究來說,情報素材、產(chǎn)品形式及工作任務(wù)分解的質(zhì)量控制是情報工作的核心[33],其中,情報素材的質(zhì)量對后續(xù)的情報分析成敗存在著至關(guān)重要的作用,當數(shù)據(jù)或信息是錯誤或不完整時,提煉出來的情報勢必會存在缺陷或錯誤。過去對情報研究的質(zhì)量控制取決于人,如果能引入數(shù)據(jù)可用處理及分析方法解決數(shù)據(jù)或信息源可能存在的不一致、不精確、遺漏、滯后或重復等問題,有助于提高情報分析素材的可用性與正確性。
(2)時空數(shù)據(jù)分析。時空數(shù)據(jù)分析是地球信息科學相關(guān)領(lǐng)域的研究熱點,其中最常使用“周期”(Periodic Behavior)分析,例如天氣預(yù)報、環(huán)境監(jiān)控、地理信息系統(tǒng)、城市交通網(wǎng)絡(luò)管理等都是常見的應(yīng)用實例[7]。現(xiàn)有研究的多數(shù)做法是采取基于時間序列的方法進行周期建模,但建模過程容易出現(xiàn)對象可能沒有周期、時間點分布不一定呈現(xiàn)周期性等問題,為了解決這些問題,王閱等人[34]提出基于ERP的周期檢測方法解決周期長度定義問題,孟志青等人[35]提出多粒度時間文本下的周期模式挖掘算法解決時態(tài)文本數(shù)據(jù)挖掘問題。對情報研究來說,時間是文本中一個重要的屬性,如文獻發(fā)表規(guī)律、輿情監(jiān)控、科研人員的研究主題周期等。在原有數(shù)據(jù)基礎(chǔ)上增加時間維度進行長時段分析是多數(shù)研究的常見做法,但并沒有呈現(xiàn)出其中的周期性規(guī)律,特別是文本中的規(guī)律特征較難發(fā)現(xiàn),如果能引入此類方法,將有助于找出情報演化的周期模式。
2.3 不適用的方法
考慮學科領(lǐng)域差異,本文認為 “翻譯生物信息學分析”及“學習分析方法”兩種專門研究方法不適合情報研究。
(1)翻譯生物信息學分析。翻譯生物信息學分析是生物信息學的專門分析方法,這種方法是依據(jù)特定目的整合多數(shù)據(jù)源及促進領(lǐng)域知識的有效利用,其結(jié)果可應(yīng)用在生物醫(yī)學研究、產(chǎn)生支持醫(yī)療人員在治療點中的“可操作的決策”(Actionable Decision),同時能對人類與疾病的關(guān)聯(lián)關(guān)系提供更好的理解。生物信息學為了找出更多基因與疾病的關(guān)系,通過翻譯生物信息學分析,可以將分析方法與工具開發(fā)從系統(tǒng)層面橫跨到分子、個人或全人類層面,分析視角從單一基因或多肽(Polymorphic)挖掘的研究轉(zhuǎn)向新基因或遺傳性狀組合與預(yù)測研究[36]。從分析方法的操作過程來說,考慮到數(shù)據(jù)源的特殊性(如DNA編碼數(shù)據(jù)、蛋白質(zhì)結(jié)構(gòu)等)、分析視角、工具構(gòu)建及使用等因素,并不符合情報學的學科研究特色。
(2)學習分析方法。學習分析方法是搜集、分析及評測學習者及其學習語境的分析方法,目的在于理解與優(yōu)化學習及其學習環(huán)境[8]。從UNESCO IITE機構(gòu)在2012年11月出版的學習分析方法政策簡報可知,學習分析方法的數(shù)據(jù)分析功能是基于數(shù)據(jù)挖掘從而開展相關(guān)分析內(nèi)容,包括行為分析、學習資源瀏覽分析、各種關(guān)聯(lián)分析與影響因素分析等。雖然數(shù)據(jù)挖掘是情報研究的常見方法,但學習分析方法的結(jié)果意義在于解釋學習者的學習語境,為教師或管理者提供決策支持,從而改善學習者的學習習慣及促進學習效果。由于這種方法有其特定的含義和應(yīng)用環(huán)境,離開了學習語境,方法的內(nèi)涵和外延可能就會產(chǎn)生變化,因此,難以移植到情報研究。
2.4 需要繼續(xù)關(guān)注的方法
基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務(wù)智能分析,是近年研究探討較多的方法,但目前尚未形成一個成熟且完善的方法體系,例如,MapReduce或Hadoop等之類的工具還在持續(xù)發(fā)展中,本身也存在不斷的改進空間,它們與各種分析方法的集成缺乏公認的標準和規(guī)范,同樣地,對于關(guān)注圖像與事物之間關(guān)聯(lián)的圖模型分析與挖掘也尚沒有發(fā)展出固定的技術(shù),又例如,商務(wù)智能分析被定義為由數(shù)據(jù)倉庫、ETL、聯(lián)機分析、數(shù)據(jù)挖掘、客戶關(guān)系管理、知識管理等多種技術(shù)融合的一組系統(tǒng),通過BI系統(tǒng)管理組織內(nèi)部及個人相關(guān)的商業(yè)數(shù)據(jù)、專家信息及知識,涉及數(shù)據(jù)的融合、取用及分析等方法與工具[37-38],目前也沒有標準化的體系架構(gòu)。
因此,本文還無法明確回答上述三種方法將如何應(yīng)用于情報研究、在應(yīng)用過程中需要做哪些調(diào)整、這些方法與現(xiàn)有的情報研究方法的關(guān)系如何等相關(guān)問題,但可以肯定的是,這些方法對未來的情報研究具有借鑒價值,例如,一旦情報研究的處理對象(即數(shù)據(jù))積累到了一定程度,成為傳統(tǒng)關(guān)系數(shù)據(jù)庫處理不了的大數(shù)據(jù),那么,使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如,圖模型分析與挖掘可補充情報研究在圖像分析的不足,而商務(wù)智能分析可理解為一套集成系統(tǒng),可應(yīng)用在情報機構(gòu)的知識庫或機構(gòu)典藏,找出組織的知識缺口等方面。
3 結(jié)語
大數(shù)據(jù)時代就是一個數(shù)據(jù)分析的時代,學界和業(yè)界提出了很多大數(shù)據(jù)分析的方法與技術(shù),這些方法與技術(shù)對情報研究產(chǎn)生了積極的借鑒作用,本文總結(jié)了大數(shù)據(jù)分析的方法,提出面向?qū)哟蔚腂DA方法框架,歸納總結(jié)了其中的17種BDA方法,并從可直接移植、將調(diào)整后移植、不適用于情報研究以及需要繼續(xù)關(guān)注等四個方面對這些方法在情報研究中的適用性進行了分析,以期為情報研究借鑒或移植BDA相關(guān)方法提供參考,促進情報研究的理論與實踐發(fā)展。
參考文獻:
[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.
[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.
[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.
[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.
[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.
[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.
[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.
[8]魏順平. 學習分析技術(shù):挖掘大數(shù)據(jù)時代下教育數(shù)據(jù)的價值[J]. 現(xiàn)代教育技術(shù),2013, 23(2): 5-11.
[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.
[10]嚴霄鳳,張德馨. 大數(shù)據(jù)研究[J].計算機技術(shù)與發(fā)展, 2013, 23(4): 168-172.
[11]孟小峰,慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計算機研究與發(fā)展,2013, 50(1): 146-169.
[12]覃雄派,王會舉,杜小勇,等. 大數(shù)據(jù)分析――RDBMS與MapReduce的競爭與共生[J].軟件學報,2012, 23(1): 32-45.
[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.
[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.
[15]王煉,武夷山. 方法移植對科學計量學研究的方法論啟示[J]. 科學學研究,2006, 24(4): 503-507.
[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.
[17]祝清松,冷伏海. 基于引文內(nèi)容分析的高被引論文主題識別研究[J]. 中國圖書館學報,2014,(1):39-49.
[18]張樹良,冷伏海. 基于文獻的知識發(fā)現(xiàn)的應(yīng)用進展研究[J]. 情報學報,2006, 25(6): 700-712.
[19]李楠,張學福. 基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)應(yīng)用體系研究[J]. 圖書情報工作,2013,(6):127-133.
[20]王輝,王暉昱,左萬利. 觀點挖掘綜述[J]. 計算機應(yīng)用研究,2009,26(1):25-29.
[21]黃曉斌,趙超. 文本挖掘在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用[J]. 情報科學,2009:(1): 94-99.
[22]趙潔,溫潤. 基于新詞擴充和特征選擇的微博觀點句識別方法[J]. 情報學報,2013,32(9): 945-951.
[23]單斌,李芳.基于LDA話題演化研究方法綜述[J]. 中文信息學報,2010, 24(6): 43-49.
[24]賀亮,李芳. 科技文獻話題演化研究[J]. 現(xiàn)代圖書情報技術(shù),2012,(4): 61-67.
[25]查先進.信息分析[M].武漢:武漢大學出版社,2011.
[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.
[27]胡潔. 高維數(shù)據(jù)特征降維研究綜述[J]. 計算機應(yīng)用研究,2008,(9): 2601-2606.
[28]吳曉婷,閆德勤. 數(shù)據(jù)降維方法分析與研究[J]. 計算機應(yīng)用研究,2009,(8):2832-2835.
[29]陳濤,謝陽群. 文本分類中的特征降維方法綜述[J]. 情報學報,2005,24(6): 690-695.
[30]白如江,冷伏海. “大數(shù)據(jù)”時代科學數(shù)據(jù)整合研究[J]. 情報理論與實踐,2014, 37(1): 94-99.
[31]化柏林. 多源信息融合方法研究[J]. 情報理論與實踐,2013,(11): 16-19.
[32]李建中,劉顯敏. 大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性[J].計算機研究與發(fā)展,2013,50(6):1147-1162.
[33]王延飛,王林蘭. 論情報研究質(zhì)量[J].圖書情報工作,2010,54(10):35-39.
[34]王閱,高學東,武森,等. 時間序列周期模式挖掘的周期檢測方法[J]. 計算機工程,2009, 35(22): 32-34.
[35]孟志青,樓婷淵,胡強.多粒度時間文本數(shù)據(jù)的周期模式挖掘算法[J]. 計算機科學,2013,(S2): 251-254.
[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.