<dfn id="a4kkq"></dfn>
<ul id="a4kkq"></ul>
    • 數(shù)據(jù)分析的方法大全11篇

      時(shí)間:2023-08-10 17:02:19

      緒論:寫作既是個(gè)人情感的抒發(fā),也是對學(xué)術(shù)真理的探索,歡迎閱讀由發(fā)表云整理的11篇數(shù)據(jù)分析的方法范文,希望它們能為您的寫作提供參考和啟發(fā)。

      數(shù)據(jù)分析的方法

      篇(1)

      最簡單的拆分方法就是不看平均值,看數(shù)據(jù)分布。因?yàn)榉?是“總和”或者“平均”類的統(tǒng)計(jì)數(shù)據(jù)都會丟失掉很多重要的信息。例如李嘉誠來我們公司參觀,這一時(shí)間我們公司辦公室里的“平均資產(chǎn)”就會因?yàn)槔罴握\一個(gè)人 被抬高到人均幾億身家。如果有人根據(jù)這個(gè)“平均資產(chǎn)”數(shù)據(jù)來判定說我們辦公室的人都是豪華游艇的潛在顧客,這自然是荒謬的。

      可實(shí)際上,我們每天都在做著類似的判斷,比如當(dāng)我們聽到說顧客“平均在線時(shí)間”是3分34秒,就可能根據(jù)這個(gè)時(shí)間來進(jìn)行業(yè)務(wù)決策,例如設(shè)置“停留時(shí)間超過3分34秒為高價(jià)值流量”,或者設(shè)置系統(tǒng),在用戶停留了3分34秒還沒有下單的話就彈出在線客服服務(wù)窗口。我們設(shè)置這些時(shí)間點(diǎn)的根據(jù)是“平均停留時(shí)間”,在我們的想象里,我們的每個(gè)顧客都有著“平均的”表現(xiàn),停留時(shí)間大致都是3分34秒,可實(shí)際上真正的顧客訪問時(shí)間有長有短,差別巨大:

      在一些數(shù)據(jù)中我們可以看得出來,訪客平均停留在頁面的時(shí)間非常的短暫,具體的也就是說,問需要在淘寶數(shù)據(jù)分析上面下工夫的,那么,究竟該怎么弄才能比較好的呢?這個(gè)就看個(gè)人是怎么想的了,這里也就不多說了。

      再舉一個(gè)例子,比如我們看到上個(gè)月平均訂單金額500元/單,這個(gè)月也是500元/單,可能會覺得數(shù)字沒有變化。可是實(shí)際上有可能上個(gè)月5萬單都是400~600元,而這個(gè)月5萬單則是2萬單300元,2萬單400元,5千單500元,5000單超過2500元 ——客戶購買習(xí)慣已經(jīng)發(fā)生了巨大變化,一方面可能是客戶訂單在變小(可能是因?yàn)楫a(chǎn)品單價(jià)下降,采購數(shù)量減少,或者客戶選擇了比較便宜的替代品),另一方面 出現(xiàn)了一些相對較大的訂單(可能是中小企業(yè)采購,或者是網(wǎng)站擴(kuò)充產(chǎn)品線見效了)。——看數(shù)據(jù)分布可以讓我們更容易發(fā)現(xiàn)這些潛在的變化,及時(shí)的做出應(yīng)對。

      二、拆因子

      很多時(shí)候我們很難直接從數(shù)據(jù)變化中分析出具體的原因,這時(shí)可以考慮拆分因子,將問題一步步細(xì)化找尋原因。

      例如網(wǎng)站轉(zhuǎn)化率下降,我們要找原因。因?yàn)椤稗D(zhuǎn)化率”=“訂單”/“流 量”,所以“轉(zhuǎn)化率”下降的原因很可能是“訂單量下降”,“流量上升”,或者兩者皆是。按照這個(gè)思路我們可能發(fā)現(xiàn)主要的原因是“流量上升”和“訂單量升幅 不明顯”,那么

      下面我們就可以來拆解“流量”的構(gòu)成,例如拆成“直接訪問流量”、“廣告訪問流量”和“搜索引擎訪問流量”再看具體是哪部分的流量發(fā)生了變 化,接下來再找原因。這時(shí)我們可能看到說是搜索引擎訪問流量上升,那就可以再進(jìn)一步分析是付費(fèi)關(guān)鍵詞部分上升,還是自然搜索流量上升,如果是自然流量,是 品牌(或者網(wǎng)站名相關(guān))關(guān)鍵詞流量上升,還是其他詞帶來的流

      量上升——假如最后發(fā)現(xiàn)是非品牌類關(guān)鍵詞帶來的流量上升,那么繼續(xù)尋找原因——市場變化(淡季旺季之類),競爭對手行動,還是自身改變。假如剛好在最近把產(chǎn)品頁面改版過,就可以查一下是不是因?yàn)楦陌孀屗阉饕媸珍涀兌啵瑱?quán)重變高。接下來再分析自己到底哪里做對了幫助網(wǎng)站SEO了(比如把頁面導(dǎo)航欄從圖片換成了文字),把經(jīng)驗(yàn)記下來為以后改版提供參考;另

      一方面還要分析哪里沒做好(因?yàn)樾略隽髁康遣]有相應(yīng)增加太多銷售),研究怎樣讓“產(chǎn)品頁面”更具吸引力——因?yàn)閷芏嗨阉饕媪髁縼碚f,他們對網(wǎng)站的第一印象是產(chǎn)品頁面,而不是首頁。

      三、拆步驟

      還有些時(shí)候,我們通過拆分步驟來獲取更多信息。

      舉兩個(gè)例子:

      第一個(gè)例子:兩個(gè)營銷活動,帶來一樣多的流量,一樣多的銷售,是不是說明兩個(gè)營銷活動效率差不多?

      如果我們把每個(gè)營銷活動的流量拆細(xì)去看每一步,就會發(fā)現(xiàn)不一樣的地方。營銷活動B雖然和營銷活動A帶來了等量的流量,可是這部分流量對產(chǎn)品更感興趣,看完著陸頁之后更多的人去看了產(chǎn)品頁面。可惜的是雖然看產(chǎn)品的人很多,最后轉(zhuǎn)化率不高,訂單數(shù)和營銷活動 A一樣。

      這里面還可以再深入分析(結(jié)合之前提到的分析方法,和下一章要說的細(xì)分方法),但是光憑直覺,也可以簡單的得出一些猜測來,例如兩個(gè)營銷活動的顧客習(xí)慣不太一樣,營銷活動 B的著陸頁設(shè)計(jì)更好,營銷活動 B的顧客更符合我們的目標(biāo)客戶描述、更懂產(chǎn)品——但是我們的價(jià)格沒有優(yōu)勢等等這些猜想是我們深入進(jìn)行分析,得出行動方案的起點(diǎn)。至少,它可以幫助我們

      更快的累計(jì)經(jīng)驗(yàn),下次設(shè)計(jì)營銷活動的時(shí)候會更有的放矢,而不是僅僅寫一個(gè)簡單report說這兩個(gè)營銷活動效果一樣就結(jié)案了。(注:這是個(gè)簡化的例子,實(shí)際上還可以分更多層)

      第二個(gè)例子可能更常見一些,比如網(wǎng)站轉(zhuǎn)化率下降,我們可以拆成這樣的漏斗:

      這樣拆好之后,更能清楚地看到到底是哪一步的轉(zhuǎn)化率發(fā)生了變化。有可能是訪客質(zhì)量下降,都在著陸頁流失了,也可能是“購物車–>登錄”流失了(如果你把運(yùn)費(fèi)放到購物車中計(jì)算,很可能就看到這一步流失率飆升),這樣拆細(xì)之后更方便我們分析。

      曾經(jīng)有一個(gè)例子就是轉(zhuǎn)化率下降,市場部查流量質(zhì)量發(fā)現(xiàn)沒問題,產(chǎn)品經(jīng)理查價(jià)格競爭力也沒問題——最后發(fā)現(xiàn)是技術(shù)部為了防止惡意注冊,在登錄頁面加了驗(yàn)證碼(而且那個(gè)驗(yàn)證碼極度復(fù)雜),降低了“登錄頁面–>填寫訂單信息“這一步的轉(zhuǎn)化率。

      四、細(xì)分用戶族群

      篇(2)

      分析網(wǎng)站流量這是首要工作,如果是網(wǎng)站建設(shè)初期,那么此時(shí)的流量分析就只要記住網(wǎng)站登陸搜索引擎后的流量基數(shù)即可。如果是網(wǎng)站建設(shè)中期的話,就要記錄網(wǎng)站流量一周的平均值,如果是網(wǎng)站建設(shè)后期的話,就要記錄網(wǎng)站流量的階段性波動值!記錄好了流量值之后,就可以很好的計(jì)劃出下一步優(yōu)化推廣的流量值了。

      網(wǎng)站優(yōu)化數(shù)據(jù)分析方法二:關(guān)鍵詞分析

      網(wǎng)站關(guān)鍵詞分析也是網(wǎng)站優(yōu)化的重要工作之一!分析現(xiàn)在網(wǎng)站關(guān)鍵詞的布局,分析網(wǎng)站有流量的關(guān)鍵詞,分析網(wǎng)站還沒有覆蓋的與網(wǎng)站業(yè)務(wù)相關(guān)的關(guān)鍵詞,分析出網(wǎng)站主關(guān)鍵詞的排名情況,分析關(guān)鍵詞的設(shè)計(jì)是否合理。分析頂級關(guān)鍵詞是否占據(jù)了搜索引擎首頁的排名,分析搜索關(guān)鍵詞的質(zhì)量高不高,與網(wǎng)站業(yè)務(wù)的相關(guān)度如何?!分析關(guān)鍵詞轉(zhuǎn)化率如何等等。

      篇(3)

      中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)03-0104-02

      1 綜述

      1.1 簡介

      在數(shù)字化時(shí)代,需要新一代系統(tǒng)架構(gòu)提升業(yè)務(wù)創(chuàng)新能力。在新一代系統(tǒng)架構(gòu)中,大數(shù)據(jù)是核心要素。業(yè)務(wù)應(yīng)用能否自主發(fā)現(xiàn)與自助獲得高質(zhì)量的大數(shù)據(jù),就成為業(yè)務(wù)創(chuàng)新成敗的關(guān)鍵。這就要在搭建大數(shù)據(jù)平臺時(shí),就著手大數(shù)據(jù)治理相關(guān)建設(shè)。

      1.2 需求和意義

      從某種意義上說大數(shù)據(jù)治理架構(gòu)需要以元數(shù)據(jù)為核心、提高大數(shù)據(jù)質(zhì)量、透明化大數(shù)據(jù)資產(chǎn)、自助化數(shù)據(jù)開發(fā)、自動化數(shù)據(jù)、智能化數(shù)據(jù)安全,提升大數(shù)據(jù)平臺服務(wù)能力,讓大數(shù)據(jù)平臺變得易使用、易獲得、高質(zhì)量。

      但是,目前很多技術(shù)解決方案存在諸多安全和效率隱患:業(yè)務(wù)系統(tǒng)多,監(jiān)管力度大;數(shù)據(jù)量龐大且呈碎片化分布,急需提升大數(shù)據(jù)質(zhì)量;數(shù)據(jù)格式不規(guī)范、難以在短時(shí)間內(nèi)找到所需數(shù)據(jù);數(shù)據(jù)在各階段的應(yīng)用角度不同,需要降低系統(tǒng)間的集成復(fù)雜度。

      2 功能設(shè)計(jì)

      2.1 總體架構(gòu)

      本文講述的數(shù)據(jù)分析方法及實(shí)現(xiàn)技術(shù)是建立在Hadoop/Spark技術(shù)生態(tài)圈的基礎(chǔ)之上,以實(shí)現(xiàn)用戶集成處理、、清理、分析的一個(gè)統(tǒng)一的數(shù)據(jù)處理平臺;按數(shù)據(jù)類別分為線數(shù)據(jù)、歸檔數(shù)據(jù);按數(shù)據(jù)格式分為非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù);按數(shù)據(jù)模型分類為范式化模型數(shù)據(jù)、維度模型數(shù)據(jù);按數(shù)據(jù)采集頻度分為非實(shí)時(shí)數(shù)據(jù)、準(zhǔn)實(shí)時(shí)數(shù)據(jù)處理架構(gòu);并提供數(shù)據(jù)中心平臺與安全管理方案,為企業(yè)級用戶建立一個(gè)通用數(shù)據(jù)處理和分析中心。如圖1所示。

      2.2 在線數(shù)據(jù)

      在線數(shù)據(jù)在線通過接口去獲得的數(shù)據(jù),一般要求為秒級或速度更快。首先應(yīng)當(dāng)將數(shù)據(jù)進(jìn)行區(qū)分:在線數(shù)據(jù)、或歸檔數(shù)據(jù)。本平臺中采用:Storm或Spark Streaming框架進(jìn)行實(shí)現(xiàn)。Spark Streaming將數(shù)據(jù)切分成片段,變成小批量時(shí)間間隔處理,Spark抽象一個(gè)持續(xù)的數(shù)據(jù)流稱為DStream(離散流),一個(gè)DStream是RDD彈性分布式數(shù)據(jù)集的micro-batch微批次,RDD是分布式集合能夠并行地被任何函數(shù)操作,也可以通過一個(gè)滑動窗口的數(shù)據(jù)進(jìn)行變換。

      2.3 歸檔數(shù)據(jù)

      歸檔數(shù)據(jù)是在線存儲周期超過數(shù)據(jù)生命周期規(guī)劃的數(shù)據(jù),處理的要求一般在分鐘級或速度更慢。通常歸檔數(shù)據(jù)的計(jì)算量、數(shù)據(jù)量、數(shù)據(jù)復(fù)雜度均超過試試數(shù)據(jù)處理。本平臺中采用:Hadoop、Spark技術(shù)生態(tài)體系內(nèi)的框架進(jìn)行計(jì)算,這里不詳細(xì)闡述。

      2.4 非結(jié)構(gòu)化數(shù)據(jù)

      通常非結(jié)構(gòu)化的數(shù)據(jù)不一定具備字段,即使具備字段其長度也不固定,并且字段的又可是由可不可重復(fù)和重復(fù)的子字段組成,不僅可以包含結(jié)構(gòu)化數(shù)據(jù),更適合處理非結(jié)構(gòu)化數(shù)據(jù)。常見的非結(jié)構(gòu)化數(shù)據(jù)包括XML、文本、圖象、聲音、影音、各類應(yīng)用軟件產(chǎn)生的文件。

      針對包含文字、數(shù)據(jù)的為結(jié)構(gòu)化數(shù)據(jù)應(yīng)當(dāng)先利用數(shù)據(jù)清洗、數(shù)據(jù)治理工具進(jìn)行提取,這項(xiàng)工作目前仍依賴技術(shù)員進(jìn)行操作,由于格式的復(fù)雜性所以難以使用自動化方式進(jìn)行較為高效的批處理。在治理數(shù)據(jù)的過程中,需要根據(jù)情況對數(shù)據(jù)本身額外建立描述數(shù)據(jù)結(jié)構(gòu)的元數(shù)據(jù)、以及檢索數(shù)據(jù)的索引服務(wù),以便后續(xù)更佳深度利用數(shù)據(jù)。

      2.5 結(jié)構(gòu)化數(shù)據(jù)

      結(jié)構(gòu)化數(shù)據(jù)具備特定的數(shù)據(jù)結(jié)構(gòu),通常可以轉(zhuǎn)換后最終用二維的結(jié)構(gòu)的數(shù)據(jù),并且其字段的含義明確,是挖掘數(shù)據(jù)價(jià)值的主要對象。

      本平臺中主要使用Hadoop Impala和Spark SQL來進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的處理。Impale底層采用C++實(shí)現(xiàn),而非Hadoop的基于Java的Map-Reduce機(jī)制,將性能提高了1-2個(gè)數(shù)量級。而Spark SQL提供很好的性能并且與Shark、Hive兼容。提供了對結(jié)構(gòu)化數(shù)據(jù)的簡便的narrow-waist操作,為高級的數(shù)據(jù)分析統(tǒng)一了SQL結(jié)構(gòu)化查詢語言與命令式語言的混合使用。

      結(jié)構(gòu)化數(shù)據(jù)根據(jù)采集頻度可以繼續(xù)分類為:非實(shí)時(shí)數(shù)據(jù)、準(zhǔn)實(shí)時(shí)數(shù)據(jù)。

      2.6 準(zhǔn)實(shí)時(shí)數(shù)據(jù)

      通常準(zhǔn)實(shí)時(shí)數(shù)據(jù)是指數(shù)據(jù)存儲在平臺本身,但更新頻率接近于接口調(diào)用數(shù)據(jù)源的數(shù)據(jù)。適合用于支持?jǐn)?shù)據(jù)和信息的查詢,但數(shù)據(jù)的再處理度不高,具有計(jì)算并發(fā)度高、數(shù)據(jù)規(guī)模大、結(jié)果可靠性較高的特點(diǎn)。通常使用分布式數(shù)據(jù)處理提高數(shù)據(jù)規(guī)模、使用內(nèi)存數(shù)據(jù)進(jìn)行計(jì)算過程緩沖和優(yōu)化。本平臺主要采用Spark SQL結(jié)合高速緩存Redis的技術(shù)來實(shí)現(xiàn)。Spark SQL作為大數(shù)據(jù)的基本查詢框架,Redis作為高速緩存去緩存數(shù)據(jù)熱區(qū),減小高并發(fā)下的系統(tǒng)負(fù)載。

      2.7 非實(shí)時(shí)數(shù)據(jù)

      非實(shí)時(shí)數(shù)據(jù)主要應(yīng)用于支持分析型應(yīng)用,時(shí)效性較低。通常用于數(shù)據(jù)的深度利用和挖掘,例如:因素分析、信息分類、語義網(wǎng)絡(luò)、圖計(jì)算、數(shù)值擬合等。

      非實(shí)時(shí)數(shù)據(jù)根據(jù)數(shù)據(jù)模型可繼續(xù)分類為:范式化模型數(shù)據(jù)、維度模型數(shù)據(jù)。

      2.8 范式化模型

      范式化模型主要是針對關(guān)系型數(shù)據(jù)庫設(shè)計(jì)范式,通常稻菔遣捎玫諶范式3NF或更高范式。面向近源數(shù)據(jù)查詢、數(shù)據(jù)主題的整合。范式化模型數(shù)據(jù)的數(shù)據(jù)存儲區(qū),建議使用并行MPP數(shù)據(jù)庫集群,既具備關(guān)系型數(shù)據(jù)庫的優(yōu)點(diǎn),又兼顧了大數(shù)據(jù)下的處理。

      2.9 基于維度模型

      維度模型數(shù)據(jù)主要應(yīng)用于業(yè)務(wù)系統(tǒng)的數(shù)據(jù)挖掘和分析。過去多維度數(shù)據(jù)處理主要依賴OLAP、BI等中間件技術(shù),而在大數(shù)據(jù)和開源框架的時(shí)代下,本技術(shù)平臺采用Hadoop Impala來進(jìn)行實(shí)現(xiàn)。Impala并沒有使用MapReduce這種不太適合做SQL查詢的范式,而是參考了MPP并行數(shù)據(jù)庫的思想另起爐灶,省掉不必要的shuffle、sort等開銷,使運(yùn)算得到優(yōu)化。

      3 應(yīng)用效果

      本系統(tǒng)在不同的業(yè)務(wù)領(lǐng)域上都可以應(yīng)用,以2016年在某銀行的應(yīng)用案例為例:該銀行已完成數(shù)據(jù)倉庫建設(shè),但眾多數(shù)據(jù)質(zhì)量問題嚴(yán)重影響了數(shù)據(jù)應(yīng)用的效果,以不同的數(shù)據(jù)存儲方式,以更高的要求去進(jìn)行數(shù)據(jù)的統(tǒng)一管理。通過組織、制度、流程三個(gè)方面的實(shí)施,以元數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量平臺為支撐,實(shí)現(xiàn)了數(shù)據(jù)管控在50多個(gè)分支,60個(gè)局,1000余處的全面推廣,實(shí)現(xiàn)了全行的覆蓋;管理了120個(gè)系統(tǒng)和數(shù)據(jù)倉庫,顯著提升了新系統(tǒng)的快速接入能力;通過14個(gè)數(shù)據(jù)規(guī)范和流程明確了數(shù)據(jù)管控的分工;數(shù)據(jù)考核機(jī)制的實(shí)施,使其在數(shù)據(jù)質(zhì)量評比中名列前茅。

      4 結(jié)語

      本文介紹了大數(shù)據(jù)下數(shù)據(jù)分析方法及實(shí)現(xiàn)技術(shù)的大體設(shè)計(jì)和思路,從需求分析、總體架構(gòu)和數(shù)據(jù)處理以及數(shù)據(jù)分析這幾個(gè)方面來介紹。文章在最后介紹出了這種平臺的應(yīng)用效果。筆者相信這些思路和技術(shù)能夠在業(yè)務(wù)中能得到很好的應(yīng)用。

      篇(4)

      Key Words:Social survey data;Three-dimension matrix;Hypergraph

      社會調(diào)查是了解各方面信息的重要途徑之一,社會調(diào)查數(shù)據(jù)主要是通過調(diào)查問卷的方法得到的。由于社會調(diào)查數(shù)據(jù)的維數(shù)較高,加上人為主觀因素,數(shù)據(jù)類型主要為二元變量、離散變量、序數(shù)變量等為主,所以對于社會調(diào)查數(shù)據(jù)的分析和處理大都基于統(tǒng)計(jì)學(xué),只對單一題目進(jìn)行統(tǒng)計(jì)學(xué)分析,其分析方法主要是基于題型進(jìn)行處理的,對于題目和題目之間的關(guān)系很少關(guān)心[1]。許多數(shù)據(jù)挖掘算法因?yàn)榉N種限制無法在社會調(diào)查的數(shù)據(jù)分析中得到應(yīng)用。因?yàn)榉椒ǖ南拗疲袁F(xiàn)在很多社會調(diào)查只能驗(yàn)證事先想好的內(nèi)容和假設(shè),很少可以對高維數(shù)據(jù)進(jìn)行相對復(fù)雜的回歸分析處理。

      根據(jù)以上存在的問題,該文建立了基于三維矩陣的數(shù)學(xué)模型,將單選題、多選題和排序題用向量形式進(jìn)行表示,每一題定義為空間中的一個(gè)維度,從而所有的題目就可以構(gòu)成一個(gè)N維空間。每份問卷的信息用一個(gè)M×N矩陣表示。這樣表示可以將所有問卷內(nèi)容當(dāng)作一個(gè)整體,作為后續(xù)算法的基礎(chǔ)。

      1 社會調(diào)查數(shù)據(jù)的特點(diǎn)

      通常情況下,社會調(diào)查數(shù)據(jù)特點(diǎn)如下。

      (1)相關(guān)性。對于一個(gè)樣本個(gè)體而言,它具有本身的多個(gè)特征,這些特征之間就具有一定的相關(guān)性。對于多個(gè)樣本而言,個(gè)體與個(gè)體的特征之間具有相關(guān)性。如果樣本隨時(shí)間而變化,那么該樣本在不同時(shí)刻的特征之間又具有相關(guān)性。因此,由于上述多個(gè)原因使得社會調(diào)查數(shù)據(jù)具有了復(fù)雜的相關(guān)性,傳統(tǒng)的統(tǒng)計(jì)學(xué)調(diào)查難以解決這樣的問題。

      (2)離散性。因?yàn)樯鐣{(diào)查數(shù)據(jù)是通過自填式問卷、網(wǎng)絡(luò)調(diào)查數(shù)據(jù)庫等方法得到,所以社會調(diào)查數(shù)據(jù)一般以離散變量為主,且這些數(shù)據(jù)之間只有標(biāo)示作用,并沒有嚴(yán)格的邏輯關(guān)系。

      (3)模糊性。社會調(diào)查數(shù)據(jù)當(dāng)中不可避免的會接觸到各種表達(dá)方式和概念,因此,它具有模糊性。

      因?yàn)橛勺蕴钍絾柧砘蚪Y(jié)構(gòu)式訪問的方法得到的社會調(diào)查數(shù)據(jù)具有以上特點(diǎn),所以在實(shí)際應(yīng)用中基于統(tǒng)計(jì)學(xué)的處理方法只能籠統(tǒng)的顯示數(shù)據(jù)的部分特性,如頻數(shù)、離散程度等[2]。對于數(shù)據(jù)之間的關(guān)系只能分析出維數(shù)極少的大致的關(guān)系。

      而且利用軟件進(jìn)行數(shù)據(jù)挖掘時(shí),因?yàn)楝F(xiàn)有的軟件中的數(shù)據(jù)挖掘算法對于數(shù)據(jù)類型和格式要求較高,所以能應(yīng)用到的數(shù)據(jù)挖掘算法很少。就算是數(shù)據(jù)要求較低的關(guān)聯(lián)分析,其結(jié)果也存在大量的冗余。因此,我們需要建立一個(gè)合適的社會調(diào)查數(shù)據(jù)的數(shù)學(xué)模型來完善原先的方法并使跟多的數(shù)據(jù)挖掘方法可以運(yùn)用到其中,使得結(jié)果更準(zhǔn)確。

      2 社會調(diào)查數(shù)據(jù)的建模

      研究中我們發(fā)現(xiàn),三維矩陣可適用于社會調(diào)查數(shù)據(jù)的建模。

      2.1 三維矩陣的定義

      三維矩陣的定義:由n個(gè)p×q階的矩陣組成的n×p×q階的矩陣A稱為三維矩陣,又稱立體陣。Ak,i,j表示三維矩陣A的第k層,第i行,第j列上的元素。其中n,p,q分別表示三維矩陣的高度,厚度和寬度。

      2.2 三維矩陣模型的建立

      調(diào)查問卷的題目一般有三種類型:單選題、多選題和排序題。這三類題目都可以表示成向量的形式,其中每一道單選題、多選題可以表示成一個(gè)向量,排序題可以表示成多個(gè)向量組成的矩陣。對于單選題和多選題,可以按選項(xiàng)的順序可以表示成一個(gè)向量,其中選中的項(xiàng)用“1”表示,未選中的項(xiàng)用“0”表示。對于排序題,可以表示成一個(gè)n×n的方陣,其中n表示該排序題的選項(xiàng)個(gè)數(shù),。這樣,每一題就可以定義為空間中的一個(gè)維度,從而所有的題目就可以構(gòu)成一個(gè)N維空間。每份調(diào)查問卷的信息用一個(gè)M×N矩陣表示(M為題目的最大選項(xiàng)數(shù)),其在每一維上的選擇稱之為一個(gè)元素,這樣每份問卷的信息就包括了N個(gè)元素。以第1,2,3題數(shù)據(jù)為例,其中第1題為單選題選擇“B”,用向量表示為一個(gè)元素,第2題為多選題選擇“ACE”,用向量表示為一個(gè)元素,第3題為排序題順序?yàn)镃BADEFIHG,用矩陣表示,每一個(gè)列向量是一個(gè)元素,如圖1所示。

      那么,假設(shè)有一問卷信息用一個(gè)大小為M×N的矩陣表示。K份的問卷信息就可以用K個(gè)大小為M×N的矩陣表示。將這K個(gè)矩陣疊加,形成一個(gè)三維矩陣。這個(gè)三維矩陣就是我們建立的三維矩陣數(shù)學(xué)模型,如圖2所示。

      在圖2中我們看到,該三維矩陣數(shù)學(xué)模型有三個(gè)坐標(biāo)軸,它們分別是題目,人數(shù),選項(xiàng)。題目軸以每一道題為一個(gè)單位;人數(shù)軸以每一份問卷為一個(gè)單位;選項(xiàng)軸的刻度為A,B,C,D,E,F(xiàn)等題目選項(xiàng),其個(gè)數(shù)為該調(diào)查問卷中選項(xiàng)最多的題目的選項(xiàng)個(gè)數(shù)。

      在此基礎(chǔ)之上,這樣的三維矩陣具有以下性質(zhì)。

      (1)在題目軸中選取對應(yīng)的題目,將三維矩陣面向豎切得到截面1(如圖2中01所示),截面2表示每一道題所有人選擇的信息。

      (2)在人數(shù)軸中選取對應(yīng)的人,將三維矩陣橫切得到橫截面1(如圖2中02所示),橫截面1表示對應(yīng)的人選擇所有題目的信息。

      在得到三維矩陣后,可對它進(jìn)行像素化處理,置1的元素用黑點(diǎn)代替,置0元素的則空白,在得到像素化三維矩陣后我們可以將三維矩陣沿著人數(shù)維度上向下投影,這樣就可以得到一個(gè)具有濃黑不一的點(diǎn)的平面。通過這些點(diǎn)的濃度,可以知道每一選項(xiàng)選擇的人數(shù)。接下來我們可用灰度級表示點(diǎn)的濃度,篩選出濃度大于一定程度的點(diǎn),在此基礎(chǔ)上進(jìn)行后續(xù)算法處理。

      上述三維矩陣數(shù)學(xué)模型具有數(shù)學(xué)三維矩陣的所有性質(zhì),可依據(jù)調(diào)查問卷的需求進(jìn)行轉(zhuǎn)置,加權(quán)、相乘、篩選等數(shù)學(xué)處理,另外在數(shù)學(xué)處理的基礎(chǔ)上,采用超圖理論可以大大豐富了調(diào)查問卷的處理方法。

      3 基于超圖算法的調(diào)查問卷分析技術(shù)

      超圖是離散數(shù)學(xué)中重要的內(nèi)容,是對圖論的推廣[3]。超圖是有限集合的子系統(tǒng),它是一個(gè)由頂點(diǎn)的集合V和超邊集合E組成的二元對,超圖的一條邊可以有多個(gè)頂點(diǎn)的特性,這與一般的圖有很大不同。超圖分為有向超圖與無向超圖兩類,在無向超圖的每條超邊上添加方向后得到的有向二元對就是有向超圖。超圖在許多領(lǐng)域有廣泛的應(yīng)用。

      大家可以利用無向超圖表示每一道題的選擇情況,先將這每一題的每一個(gè)選項(xiàng)設(shè)成一個(gè)節(jié)點(diǎn),然后將三維矩陣從上向下投影,如果某一題的若干個(gè)選項(xiàng)同時(shí)被一個(gè)人選擇,就用一條超邊包圍這些節(jié)點(diǎn),那么選這些選項(xiàng)的人越多,投影得到的超邊就越濃。這樣就用超圖表示了問卷中每道題的信息,可以進(jìn)行聚類處理。

      利用有向超圖,可以將關(guān)聯(lián)規(guī)則表示成有向超圖的形式,在得到了關(guān)聯(lián)規(guī)則后,設(shè)實(shí)際中得到的關(guān)聯(lián)規(guī)則的形式為:,前項(xiàng)和后項(xiàng)都是由多個(gè)項(xiàng)組成的集合。該文定義一條關(guān)聯(lián)規(guī)則由一條有向超邊表示,有向超邊的頭節(jié)點(diǎn)表示關(guān)聯(lián)規(guī)則的前項(xiàng),有向超邊的尾節(jié)點(diǎn)表示關(guān)聯(lián)規(guī)則的后項(xiàng)。每條有向超邊的頭節(jié)點(diǎn)和尾節(jié)點(diǎn)均可以為多個(gè),如此便成功表示了復(fù)合規(guī)則,從而可以使用相關(guān)算法進(jìn)行冗余規(guī)則檢測。

      通過基于有向超圖的冗余規(guī)則檢測就可以將關(guān)聯(lián)規(guī)則之間存在著的大量冗余檢測出,減少挖掘資源的浪費(fèi),從而增加了挖掘結(jié)果的有效性。

      傳統(tǒng)的聚類方法都對原始數(shù)據(jù)計(jì)算它們之間的距離來得到相似度,然后通過相似度進(jìn)行聚類,這樣的方法對于低維數(shù)據(jù)有良好的效果,但是對于高維數(shù)據(jù)卻不能產(chǎn)生很好的聚類效果,因?yàn)楦呔S數(shù)據(jù)的分布有其特殊性。通過超圖模型的分割實(shí)現(xiàn)對高維數(shù)據(jù)的聚類卻能產(chǎn)生較好的效果。它先將原始數(shù)據(jù)之間關(guān)系轉(zhuǎn)化成超圖,數(shù)據(jù)點(diǎn)表示成超圖的節(jié)點(diǎn),數(shù)據(jù)點(diǎn)間的關(guān)系用超邊的權(quán)重來表示。然后對超圖進(jìn)行分割,除去相應(yīng)的超邊使得權(quán)重大的超邊中的點(diǎn)聚于一個(gè)類中,同時(shí)使被除去的超邊權(quán)重之和最小。這樣就通過對超圖的分割實(shí)現(xiàn)了對數(shù)據(jù)的聚類。具體的算法流程如下。

      首先,將數(shù)據(jù)點(diǎn)之間的關(guān)系轉(zhuǎn)化為超圖,數(shù)據(jù)點(diǎn)表示為超圖節(jié)點(diǎn)。如果某幾個(gè)數(shù)據(jù)點(diǎn)的支持度大于一定閾值,則它們能構(gòu)成一個(gè)頻繁集,就將它們用一條超邊連接,超邊的權(quán)重就是這一頻繁集的置信度,重復(fù)同樣的方法就可以得超邊和權(quán)重。

      然后,在基礎(chǔ)此上,通過超圖分割實(shí)現(xiàn)數(shù)據(jù)的聚類。若設(shè)將數(shù)據(jù)分成k類,則就是對超圖的k類分割,不斷除去相應(yīng)的超邊,直到將數(shù)據(jù)分為k類,且每個(gè)分割中數(shù)據(jù)都密切相關(guān)為止,同時(shí)保持每次被除去的超邊權(quán)重和最小,最終得到的分割就是聚類的結(jié)果。

      篇(5)

      一、數(shù)據(jù)統(tǒng)計(jì)分析的內(nèi)涵

      數(shù)據(jù)分析是指運(yùn)用一定的分析方法對數(shù)據(jù)進(jìn)行處理,從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數(shù)據(jù)統(tǒng)計(jì)分析就是運(yùn)用統(tǒng)計(jì)學(xué)的方法對數(shù)據(jù)進(jìn)行處理。在實(shí)際的市場調(diào)研工作中,數(shù)據(jù)統(tǒng)計(jì)分析能使我們挖掘出數(shù)據(jù)中隱藏的信息,并以恰當(dāng)?shù)男问奖憩F(xiàn)出來,并最終指導(dǎo)決策的制定。

      二、數(shù)據(jù)統(tǒng)計(jì)分析的原則

      (1)科學(xué)性。科學(xué)方法的顯著特征是數(shù)據(jù)的收集、分析和解釋的客觀性,數(shù)據(jù)統(tǒng)計(jì)分析作為市場調(diào)研的重要組成部分也要具有同其他科學(xué)方法一樣的客觀標(biāo)準(zhǔn)。(2)系統(tǒng)性。市場調(diào)研是一個(gè)周密策劃、精心組織、科學(xué)實(shí)施,并由一系列工作環(huán)節(jié)、步驟、活動和成果組成的過程,而不是單個(gè)資料的記錄、整理或分析活動。(3)針對性。就不同的數(shù)據(jù)統(tǒng)計(jì)分析方法而言,無論是基礎(chǔ)的分析方法還是高級的分析方法,都會有它的適用領(lǐng)域和局限性。(4)趨勢性。市場所處的環(huán)境是在不斷的變化過程中的,我們要以一種發(fā)展的眼光看待問題。(5)實(shí)用性。市場調(diào)研說到底是為企業(yè)決策服務(wù)的,而數(shù)據(jù)統(tǒng)計(jì)分析也同樣服務(wù)于此,在保證其專業(yè)性和科學(xué)性的同時(shí)也不能忽略其現(xiàn)實(shí)意義。

      三、推論性統(tǒng)計(jì)分析方法

      (1)方差分析。方差分析是檢驗(yàn)多個(gè)總體均值是否相等的一種統(tǒng)計(jì)方法,它可以看作是t檢驗(yàn)的一種擴(kuò)展。它所研究的是分類型自變量對數(shù)值型因變量的影響,比如它們之間有沒有關(guān)聯(lián)性、關(guān)聯(lián)性的程度等,所采用的方法就是通過檢驗(yàn)各個(gè)總體的均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響。(2)回歸分析。在數(shù)據(jù)統(tǒng)計(jì)分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對應(yīng)的因果變化往往無法用精確的數(shù)學(xué)公式來描述,只有通過大量觀察數(shù)據(jù)的統(tǒng)計(jì)工作才能找到他們之間的關(guān)系和規(guī)律,解決這一問題的常用方法是回歸分析。回歸分析是從定量的角度對觀察數(shù)據(jù)進(jìn)行分析、計(jì)算和歸納。

      四、多元統(tǒng)計(jì)分析方法

      (1)相關(guān)分析。相關(guān)分析是描述兩組變量間的相關(guān)程度和方向的一種常用的統(tǒng)計(jì)方法。值得注意的是,事物之間有相關(guān)關(guān)系,不一定是因果關(guān)系,也可能僅僅是伴隨關(guān)系;但如果事物之間有因果關(guān)系,則兩者必然存在相關(guān)關(guān)系。(2)主成分分析。在大部分?jǐn)?shù)據(jù)統(tǒng)計(jì)分析中,變量之間是有一定的相關(guān)性的,人們自然希望找到較少的幾個(gè)彼此不相關(guān)的綜合指標(biāo)盡可能多地反映原來眾多變量的信息。所謂的主成分分析就是利用降維的思想,把多指標(biāo)轉(zhuǎn)化為幾個(gè)綜合指標(biāo)的多元統(tǒng)計(jì)分析方法,很顯然在一個(gè)低維空間識別系統(tǒng)要比在一個(gè)高維空間容易的多。(3)因子分析。因子分析的目的是使數(shù)據(jù)簡單化,它是將具有錯綜復(fù)雜關(guān)系的變量綜合為數(shù)量較少的幾個(gè)因子,以再現(xiàn)原始變量與因子之間的相互關(guān)系,同時(shí)根據(jù)不同因子,對變量進(jìn)行分類。這些因子是不可觀測的潛在變量,而原先的變量是可觀測的顯在變量。(4)聚類分析。在市場調(diào)研中,市場細(xì)分是最常見的營銷術(shù)語之一,它按照一定的標(biāo)準(zhǔn)將市場分割為不同的族群,并使族群之間具有某種特征的顯著差異,而族群內(nèi)部在這種特征上具有相似性。聚類分析就是實(shí)現(xiàn)分類的一種多元統(tǒng)計(jì)分析方法,它根據(jù)聚類變量將樣本分成相對同質(zhì)的族群。聚類分析的主要優(yōu)點(diǎn)是,對所研究的對象進(jìn)行了全面的綜合分析,歸類比較客觀,有利于分類指導(dǎo)。(5)判別分析。判別分析是判別樣品所屬類型的一種多元統(tǒng)計(jì)方法。若在已知的分類下,遇到新的樣本,則可利用此法選定一種判別標(biāo)準(zhǔn),以判定將該新樣品放置于哪個(gè)類中。由定義我們可以知道判別分析區(qū)別于聚類分析的地方,而在判別分析中,至少要有一個(gè)已經(jīng)明確知道類別的“訓(xùn)練樣本”,從而利用這個(gè)數(shù)據(jù)建立判別準(zhǔn)則,并通過預(yù)測變量來為未知類別的觀測值進(jìn)行判別。與聚類分析相同的地方是,判別分析也是利用距離的遠(yuǎn)近來把對象歸類的。

      參考文獻(xiàn)

      篇(6)

      學(xué)生每一個(gè)學(xué)習(xí)行為的背后,都是有目的、有價(jià)值、有意義的。簡言之,學(xué)生自己要真正認(rèn)識到這種學(xué)習(xí)是有用的,哪怕僅僅是因?yàn)橛腥ぁ⒑猛妫拍芗ぐl(fā)學(xué)生進(jìn)行相關(guān)學(xué)習(xí)的愿望和興趣。對于數(shù)據(jù)分析觀念的培養(yǎng),教師有必要替學(xué)生問一個(gè)“為什么”,問題不必明確提出,但一定要把相關(guān)信息告訴學(xué)生,引發(fā)學(xué)生強(qiáng)烈的認(rèn)知沖突,才會產(chǎn)生進(jìn)行數(shù)據(jù)收集、整理與分析的欲望,才會使他們認(rèn)識到學(xué)習(xí)數(shù)據(jù)分析的必要性,產(chǎn)生興趣,從而建立與培養(yǎng)其初步的數(shù)據(jù)分析觀念。

      以二年級上冊“統(tǒng)計(jì)”一課的學(xué)習(xí)為例,學(xué)生首次接觸“統(tǒng)計(jì)”的相關(guān)內(nèi)容。在學(xué)生尚不真正知道與理解該詞的確切含義的情況下,教材提供的課例是“統(tǒng)計(jì)最喜歡的動物”,以統(tǒng)計(jì)圖形式呈現(xiàn)出喜歡四種動物(小貓、小狗、小兔、烏龜)的學(xué)生的人數(shù),并提供了3道題目,但教材始終沒有告訴學(xué)生,“為什么我要學(xué)習(xí)這個(gè)知識”、“為什么我要進(jìn)行數(shù)據(jù)分析”。此時(shí),對這一問題的提出與引導(dǎo)學(xué)生思考,只能由教師在不動聲色中完成。所以,教學(xué)時(shí),利用學(xué)生愛吃零食的特點(diǎn),我調(diào)整了教學(xué)思路,首先,我征得學(xué)生同意,打算用班上賣廢品的錢給學(xué)生買糖吃。此舉得到學(xué)生們的一致歡迎;其次,我要求5個(gè)小組長提前去學(xué)校門口的超市,了解糖塊的種類與價(jià)格,并告知其他同學(xué);再次,我要求班委成員負(fù)責(zé)了解班上每一名同學(xué)的需求并進(jìn)行分類、計(jì)算總量。每人限一塊,以便于合理安排買糖的數(shù)量與花費(fèi);再次,將買來的糖帶入教室,上課,進(jìn)行相關(guān)的數(shù)據(jù)整理與分析;最后,完成全部教學(xué)任務(wù)后,吃糖。

      當(dāng)我將此想法與實(shí)際的授課過程講給其他老師聽時(shí),有老師笑談“孩子們學(xué)習(xí)的動力就是吃糖”。我不否認(rèn)這是學(xué)生們積極參與教學(xué)活動的動力之一,因?yàn)槭孪任矣懈嬖V學(xué)生全部的活動過程與“完不成就不會有糖吃”的話。但不可否認(rèn)的是,對于二年級的學(xué)生來說,為了達(dá)成“每個(gè)同學(xué)都能吃到自己想吃的糖”這一目標(biāo),要在活動的每一個(gè)步驟都進(jìn)行相關(guān)數(shù)據(jù)的收集、整理與分析,才能正確且順利地完成任務(wù)。簡言之,等于我們告訴學(xué)生,“為什么要進(jìn)行數(shù)據(jù)分析”、“只因?yàn)槲覀冃枰_(dá)成一定的目的”,并且,活動的每一步驟的數(shù)據(jù)分析都有學(xué)生親自進(jìn)行,并明確知曉這樣做的原因——當(dāng)然不是教師的程式化的要求,這就使得學(xué)生的數(shù)據(jù)分析工作是主動的,各成員之間是相互合作的,既使學(xué)生愉快地接受了數(shù)據(jù)分析的內(nèi)容與過程,也在增強(qiáng)學(xué)生數(shù)據(jù)分析觀念的同時(shí),培養(yǎng)了學(xué)生主動學(xué)習(xí)與合作的精神。

      二、挖掘數(shù)據(jù)中蘊(yùn)藏的深層信息,體驗(yàn)數(shù)據(jù)分析的應(yīng)用價(jià)值

      篇(7)

      [中圖分類號]G819[文獻(xiàn)標(biāo)識碼]A[文章編號]1005-6432(2013)46-0099-02

      1引言

      探索性數(shù)據(jù)分析方法是一種新型的統(tǒng)計(jì)分析手段,近年來在許多行業(yè)得到了廣泛的應(yīng)用,并取得了明顯成效。其強(qiáng)調(diào)了數(shù)據(jù)本身的價(jià)值,可以更加客觀地發(fā)現(xiàn)數(shù)據(jù)的規(guī)律,找到數(shù)據(jù)的穩(wěn)健耐抗模式,從而發(fā)掘出數(shù)據(jù)的隱藏信息。本文從職工平均工資的實(shí)際數(shù)據(jù)出發(fā),利用探索性數(shù)據(jù)分析中的工具,直觀地探索華東六省職工平均工資的規(guī)律,挖掘數(shù)據(jù)特征和有價(jià)值的信息。

      2華東六省職工平均工資的描述性分析

      職工平均工資指企業(yè)、事業(yè)、機(jī)關(guān)單位的職工在一定時(shí)期內(nèi)平均每人所得的貨幣工資額。它表明一定時(shí)期職工工資收入的高低程度,是反映職工工資水平的主要指標(biāo)。由于中國城市眾多,各地經(jīng)濟(jì)發(fā)展水平有較大的差異,生活水平和生活質(zhì)量也各有不同,為了縮小地理差異對研究數(shù)據(jù)的影響,得到較為準(zhǔn)確和有意義的結(jié)果,這里只選用了2010年華東地區(qū)六個(gè)省的職工平均工資運(yùn)用探索性數(shù)據(jù)分析方法做初步的描述性分析和研究,每個(gè)省選取了9個(gè)大城市。

      為了更加簡單直觀地對比各個(gè)省市的數(shù)據(jù),我們繪制了箱線圖,如圖1所示。對華東六省進(jìn)行對比中,可以看到只有江西省和福建省是有離群值的,說明了這兩省中存在著個(gè)別城市職工平均工資與同省其他城市相比特別大,其他幾省的數(shù)據(jù)就不存在離群值。對于四分展布,可以得到大小關(guān)系,安徽>江蘇>浙江>山東>福建>江西,可知安徽和江蘇中城市的職工平均工資差異較大,福建和江西相比起來,則分布得更加集中。

      圖1華東六省2010年職工平均工資水平箱線圖

      綜合對比各個(gè)省的中位數(shù),可以發(fā)現(xiàn)江蘇省平均職工工資水平最大,江西省最小,從經(jīng)濟(jì)上反映了地區(qū)經(jīng)濟(jì)發(fā)展差異,江蘇緊靠上海,處在華東的中心,交通系統(tǒng)發(fā)達(dá),同時(shí),長三角江蘇占了大部分,其靠海的地理優(yōu)勢給它帶來了更多的經(jīng)濟(jì)發(fā)展機(jī)會,導(dǎo)致了職工工資水平中位數(shù)相差如此大。

      同時(shí)可以直觀地看出安徽省數(shù)據(jù)對稱性最好,除了福建省數(shù)據(jù)呈現(xiàn)左偏趨勢外,其他省都呈現(xiàn)右偏的趨勢,其中江西省的數(shù)據(jù)最為嚴(yán)重,主要是受到了兩個(gè)離群值的影響,為了使其更對稱,我們運(yùn)用探索性數(shù)據(jù)分析方法中的對稱變換方法,在經(jīng)過R軟件的計(jì)算后,得到職工平均工資的對稱性變換圖,如圖2所示。

      圖2江西省2010年職工平均工資水平對稱性變換圖

      進(jìn)行對稱性變換后,運(yùn)用R軟件擬合曲線,得到:

      由圖3可以看出,在進(jìn)行對稱匹配變換之后,江西省的兩個(gè)離群值消失了,數(shù)據(jù)變得更加集中,趨勢也更加易于分析和研究。這樣的數(shù)據(jù)會給分析帶來便利,更加清晰和直觀地表現(xiàn)出數(shù)據(jù)的本質(zhì)特征。

      圖3江西省2010年職工平均工資水平匹配

      3結(jié)論

      使用探索性數(shù)據(jù)分析技術(shù)具有耐抗性和穩(wěn)健性的特點(diǎn),通過箱線圖可以簡單直觀地看出數(shù)據(jù)間的差異,華東六省中浙江、江蘇省職工平均工資較高,安徽、山東、福建省處于中間,江西省最低。安徽省的數(shù)據(jù)較為分散,同時(shí)數(shù)據(jù)比較對稱,而江西省的數(shù)據(jù)有著極大的右偏性,在經(jīng)過了對稱、匹配變換后,仍然與華東地區(qū)其他省的數(shù)據(jù)有較大的差異,可能是由離群值太大造成的。

      參考文獻(xiàn):

      篇(8)

      所謂的交通事故預(yù)測是根據(jù)已發(fā)生交通事故的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),在對事故原因進(jìn)行分析的基礎(chǔ)上,探尋事故規(guī)律,以針對交通事故做出更為合理的推測和判斷。當(dāng)前,交通事故預(yù)測方法相對較為多樣,如回歸分析、時(shí)間序列等,雖然都能對交通事故做出科學(xué)合理的決策性指導(dǎo),但各具優(yōu)缺點(diǎn)和適用條件,因而有關(guān)人員應(yīng)在遵循交通事故預(yù)測思想的基礎(chǔ)上,對幾種主要預(yù)測方法進(jìn)行分析,確保交通部門人員能夠根據(jù)實(shí)際情況而合理選擇交通事故預(yù)測方法。

      1 交通事故預(yù)測思想

      交通事故對人類造成的危害相對較大,對人類產(chǎn)生嚴(yán)重的威脅。從我國發(fā)展實(shí)踐中可知,交通事故在一定程度上制約我國經(jīng)濟(jì)的發(fā)展進(jìn)程,尤其對人類社會福利、醫(yī)療保險(xiǎn)等方面的影響較大。據(jù)不完全統(tǒng)計(jì),2015年全年間,我國交通事故約為10597358起,死亡人數(shù)約為68432人,財(cái)產(chǎn)損失高達(dá)10億元以上。可見,交通事故威脅隱患相對較大。交通事故預(yù)測能夠根據(jù)已發(fā)生交通事故進(jìn)行統(tǒng)計(jì)、分析、處理,在遵循規(guī)律的基礎(chǔ)上,對未來可能發(fā)生的交通事故作出科學(xué)合理的預(yù)測,該預(yù)測結(jié)果以科學(xué)邏輯推斷為基礎(chǔ)。就交通事故原因而言,道路環(huán)境、交通條件、車輛、駕駛員等都是影響因素。通過交通事故預(yù)測,我國交通部門人員能夠?qū)煌ㄊ鹿首鞒隹茖W(xué)合理的判斷和制定有效的預(yù)防策略,以最大限度降低和消除交通事故隱患。

      2 交通事故主要預(yù)測方法

      2.1 回歸分析預(yù)測法

      回歸分析預(yù)測法在交通事故預(yù)測中的有效應(yīng)用,主要分為線性回歸和非線性回歸兩種方法。首先,背景交通工程研究所人員提出線性回歸分析預(yù)測法,通過對自變量和因變量之間關(guān)系問題的探討,對因變量趨勢加以預(yù)測,其模型為:

      Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。

      其中X1-X11分別表示臨時(shí)人口、常住人口、機(jī)動車輛、自行車、道路長度、道路面積、燈控路口、交通標(biāo)志、交通標(biāo)線、失控部位、交警人數(shù)。

      其次,英國倫敦大學(xué)SemeedR.J教授對歐洲國家十余載的交通事故資料進(jìn)行研究,提出非線性回歸分析預(yù)測法。對此,他建立冪函數(shù)曲線事故模型,

      即:D=0.0003。其中D為交通事故死亡人數(shù);N是機(jī)動車保有量;P為人口數(shù)量。

      回歸分析預(yù)測法能夠?qū)煌ㄊ鹿视绊懸蛩亻g的因果關(guān)系加以反應(yīng),以達(dá)到預(yù)測結(jié)果的目的,但對變化趨勢的反應(yīng)可能較為遲鈍。該預(yù)測方法適用于樣本量較大、數(shù)據(jù)波動小和極具規(guī)律性的預(yù)測實(shí)踐中。

      2.2 時(shí)間序列預(yù)測法

      時(shí)間序列預(yù)測法主要有兩種類型,分別為移動平均預(yù)測法和指數(shù)平滑預(yù)測法。首先,移動平均預(yù)測法是比較簡單的平滑預(yù)測技術(shù),通過計(jì)算項(xiàng)數(shù)時(shí)序平均值,對長期發(fā)展趨勢變化做出科學(xué)合理的預(yù)測。內(nèi)蒙古科技大學(xué)韋麗琴、徐勇勇利用時(shí)間序列ARIMA模型做出科學(xué)合理的預(yù)測分析,對交通事故加以預(yù)測。其次,指數(shù)平滑預(yù)測法的通式為:

      Ft+1=αxt+(1-α)Ft

      時(shí)間序列預(yù)測法屬于定量預(yù)測方法,擬合效果良好,但在短期預(yù)測中,受諸多因素干擾影響較大,使預(yù)測結(jié)果具有不確定性。該方法適用于國內(nèi)縣區(qū)等區(qū)域范圍較小的預(yù)測實(shí)踐中。

      2.3 灰色馬爾科夫鏈預(yù)測法

      道路交通系統(tǒng)屬于動態(tài)時(shí)變系統(tǒng),但影響交通安全的因素多且復(fù)雜。在灰色馬爾科夫鏈預(yù)測法的指導(dǎo)下,相關(guān)人員能夠通過灰色預(yù)測模型,做出短期預(yù)測,以縮小預(yù)測區(qū)間,提高預(yù)測效率。云南交通職業(yè)技術(shù)學(xué)院王剛對灰色馬爾科夫鏈預(yù)測法而建立模型,對交通事故進(jìn)行預(yù)測,根據(jù)實(shí)踐可知,基于該模型的預(yù)測精確度十分高,取得良好的預(yù)測成效。

      灰色預(yù)測以短期預(yù)測為主,馬爾科夫鏈預(yù)測以長期預(yù)測為主,通過二者結(jié)合,可提高預(yù)測精度,但如若數(shù)據(jù)變化大,則灰色模型的吻合度和精度下降。借助該預(yù)測方法,能夠?qū)顟B(tài)下的轉(zhuǎn)移規(guī)律加以預(yù)測,并揭示交通事故時(shí)序變化總趨勢。

      2.4 貝葉斯預(yù)測法

      貝葉斯預(yù)測法主要相對于交通事故中的車速問題而言。在交通事故中,車速是重要影響因素,如若車輛速度過快,則駕駛員反應(yīng)的時(shí)間較少,其應(yīng)急策略不足,造成重大交通安全隱患。貝葉斯預(yù)測法能夠?qū)ξ磥斫煌ㄊ鹿拾l(fā)生的可能性進(jìn)行預(yù)測。該預(yù)測方法應(yīng)用中,必須建立在交通事故和車速有關(guān)聯(lián)的基礎(chǔ)之上,有助于交通部門人員更好開展數(shù)據(jù)統(tǒng)計(jì)和交通流進(jìn)行觀測。

      2.5 灰關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡(luò)預(yù)測法

      就灰關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡(luò)預(yù)測法而言,哈爾濱工業(yè)大學(xué)交通研究所和中國城市規(guī)劃設(shè)計(jì)研究院的裴玉龍與張宇提出該方法,旨在通過交通事故影響因素分析,對事故進(jìn)行進(jìn)一步解析,并建立合理的模型理論和確定預(yù)測指標(biāo),對未來交通事故發(fā)展趨勢加以預(yù)測。該預(yù)測方法的適應(yīng)性較強(qiáng),在我國交通事故預(yù)測工作實(shí)踐中有著較為有效的運(yùn)用,可解決傳統(tǒng)預(yù)測方法難以解決的問題,建立在BP網(wǎng)絡(luò)基礎(chǔ)之上,并利用計(jì)算機(jī)開展輔計(jì)算活動。

      2.6 多層遞階預(yù)測方法

      多層遞階預(yù)測方法能夠規(guī)避傳統(tǒng)統(tǒng)計(jì)預(yù)測方法的缺陷,以現(xiàn)代控制理論“系統(tǒng)辨識”為重要基礎(chǔ),對對象的未來狀態(tài)做科學(xué)的預(yù)測。動態(tài)系統(tǒng)數(shù)學(xué)模型為:y(k)=。在交通事故預(yù)測中,多層遞階預(yù)測方法是大數(shù)據(jù)時(shí)代背景下的重要處理方式,有利于增強(qiáng)預(yù)測效果。

      3 結(jié)論

      交通部門對交通事故進(jìn)行合理的預(yù)測,有利于提高道路交通系統(tǒng)的安全系數(shù)。所以,相關(guān)人員合理選擇交通事故預(yù)測方法具有必要性,為規(guī)避交通事故而做出科學(xué)合理的決策。目前,使用較多的交通事故預(yù)測方法主要有:回歸分析預(yù)測法、時(shí)間序列預(yù)測法、灰色馬爾科夫鏈預(yù)測法、貝葉斯預(yù)測法、灰關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡(luò)預(yù)測法等,因其各具優(yōu)缺點(diǎn)和適用條件,因而要求相關(guān)人員必須對系列問題進(jìn)行深入探究,確保公路交通事故預(yù)測的有效性。

      參考文獻(xiàn)

      [1]李景文,高桂清.交通事故預(yù)測分析[J].中國安全科學(xué)學(xué)報(bào),2015,6(01):20-23.

      [2]劉志強(qiáng).道路交通事故預(yù)測方法比較研究[J].交通與計(jì)算機(jī),2013,19(05):7-10.

      篇(9)

      一、分壓電路特性研究及參數(shù)的變化

      首先,用1000Ω滑線變阻作分壓器,負(fù)載電阻用1000Ω(K=1),測出滑線電阻滑動端的位置參數(shù)X和U/Umax分壓比,并作出U/Umax的關(guān)系曲線。其次,同上,用1000Ω滑線電阻和500Ω的負(fù)載電阻(K=0.1),測出X和U/Umax,記錄不同的K值。在Matlab軟件中編寫下列程序?qū)崿F(xiàn)分壓電路實(shí)驗(yàn)數(shù)據(jù)的處理和圖像的擬合:

      x0=0:0.1:1.0;

      y1=[0 0.24 0.48 0.58 0.72 0.92 1.12 1.58 2.18 3.42 4.46];

      z1=max(y1);

      y2=[0 0.38 0.72 0.98 1.32 1.72 2.02 2.48 3.26 4.18 4.64];

      z2=max(y2);

      y3=[0 0.40 0.82 1.18 1.58 2.02 2.40 2.98 3.62 4.32 4.52];

      z3=max(y3);

      y4=[0 0.18 0.28 0.34 0.48 0.58 0.78 1.02 1.66 2.98 4.48];

      z4=max(y4);

      n=3;

      p1=polyfit(x0,y1,n)

      p2=polyfit(x0,y2,n)

      p3=polyfit(x0,y3,n)

      p4=polyfit(x0,y4,n)

      xx=0:0.01:1.0;

      yy1=polyval(p1,xx);

      yy2=polyval(p2,xx);

      yy3=polyval(p3,xx);

      yy4=polyval(p4,xx);

      plot(xx,yy1/z1,'r',x0,y1/z1,'.r')

      hold on;

      plot(xx,yy2/z2,'k',x0,y2/z2,'.k')

      hold on;

      plot(xx,yy3/z3,'b',x0,y2/z2,'.b')

      hold on;

      plot(xx,yy4/z4,'g',x0,y4/z4,'.g')

      hold off;

      由實(shí)驗(yàn)可得不同K值的分壓特性曲線,如圖1所示。從曲線可以清楚看出分壓電路有如下幾個(gè)特點(diǎn):第一,不論R0的大小,負(fù)載RZ的電壓調(diào)節(jié)范圍均可從0■E;第二,K越小電壓調(diào)節(jié)越不均勻,曲線線性程度越差,細(xì)調(diào)程度較差;第三,K越大電壓調(diào)節(jié)越均勻,因此要電壓U在0到Umax整個(gè)范圍內(nèi)均勻變化,則取K>1比較合適。

      圖1 不同K值的分壓特性曲線

      二、制流電路特性研究及參數(shù)的變化

      首先,用1000Ω滑線變阻作制流器,負(fù)載電阻用100Ω(K=0.1),測出滑線電阻滑動端的位置參數(shù)X和分壓比I/Imax,并作出I/Imax-x的關(guān)系曲線。其次,同上,用10000Ω滑線電阻和20Ω的負(fù)載電阻(K=0.02),測出X和I/Imax,記錄不同的K值,并作出關(guān)系曲線,在Matlab軟件中編寫下列程序?qū)崿F(xiàn)制流電路實(shí)驗(yàn)數(shù)據(jù)的處理和圖像的擬合:

      x0=0:0.1:1.0;

      y1=[0.04 0.04 0.08 0.12 0.18 0.22 0.30 0.52 1.02 3.58 4.18];

      z1=max(y1);

      y2=[0.04 0.04 0.08 0.12 0.18 0.24 0.30 0.52 0.92 2.38 4.98];

      z2=max(y2);

      y3=[0.02 0.02 0.02 0.04 0.12 0.18 0.28 0.40 0.70 2.98 3.52];

      z3=max(y3);

      y4=[0.01 0.01 0.01 0.01 0.02 0.08 0.20 0.30 0.60 1.20 2.0];

      z4=max(y4);

      n=3;

      p1=polyfit(x0,y1,n)

      p2=polyfit(x0,y2,n)

      p3=polyfit(x0,y3,n)

      p4=polyfit(x0,y4,n)

      xx=0:0.01:1.0;

      yy1=polyval(p1,xx);

      yy2=polyval(p2,xx);

      yy3=polyval(p3,xx);

      yy4=polyval(p4,xx);

      plot(xx,yy1/z1,'r',x0,y1/z1,'.r')

      hold on;

      plot(xx,yy2/z2,'k',x0,y2/z2,'.k')

      hold on;

      plot(xx,yy3/z3,'b',x0,y2/z2,'.b')

      hold on;

      plot(xx,yy4/z4,'g',x0,y4/z4,'.g')

      hold off;

      (上接第47頁)

      圖2 不同值的制流特性曲線

      圖2表示不同K值的制流特性曲線,從曲線可以清楚地看到制流電路有以下幾個(gè)特點(diǎn):第一,K越大電流調(diào)節(jié)范圍越小;電流調(diào)節(jié)越均勻,曲線線性程度較好;第二,K(K≥1)時(shí)調(diào)節(jié)的線性較好;第三,K較小時(shí)(即R0>RZ),電流調(diào)節(jié)范圍大,電流調(diào)節(jié)越不均勻,曲線線性程度越差,細(xì)調(diào)程度較差;第四,不論R0大小如何,負(fù)載RZ上通過的電流都不可能為零。第五,制流電路適用于負(fù)載電阻較小,功耗較大,電壓調(diào)節(jié)范圍較小的場合。

      綜上所述,當(dāng)負(fù)載電阻較大時(shí),要求調(diào)節(jié)范圍較寬時(shí)宜采用分壓電路。相反,在負(fù)載電阻較小,功耗較大且調(diào)節(jié)范圍不太大時(shí),選用制流電路較好。

      參考文獻(xiàn):

      [1]陳玉林,李傳起.大學(xué)物理實(shí)驗(yàn)[M].北京:科學(xué)出版社,2007:186-190.

      篇(10)

      統(tǒng)計(jì)應(yīng)用作為數(shù)學(xué)的重要領(lǐng)域,在大多數(shù)情況下,數(shù)據(jù)被收集并且通過一定方法在系統(tǒng)中存儲,重要策略被記錄,并應(yīng)用于其他領(lǐng)域。隨著數(shù)據(jù)恢復(fù)方法和統(tǒng)計(jì)分析方法的逐步集成,大數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)分析方法在財(cái)務(wù)管理中變得越來越重要。面對當(dāng)今全球化的壓力和經(jīng)濟(jì)市場的激烈競爭,使用財(cái)務(wù)管理的統(tǒng)計(jì)整合是提高有效管理效率,優(yōu)化資源分配和科學(xué)行為的有效步驟。通過市場經(jīng)濟(jì)的發(fā)展和經(jīng)濟(jì)水平的不斷提高,數(shù)據(jù)集成和財(cái)務(wù)管理水平運(yùn)用了大數(shù)據(jù)的統(tǒng)計(jì)分析。在建立大規(guī)模數(shù)據(jù)的經(jīng)濟(jì)增長政策時(shí),技術(shù)在宏觀經(jīng)濟(jì)研究中起著重要作用。大數(shù)據(jù)統(tǒng)計(jì)分析的作用正在增加,其在管理中的用途正在進(jìn)一步擴(kuò)大。顯然,加強(qiáng)對經(jīng)濟(jì)發(fā)展大數(shù)據(jù)統(tǒng)計(jì)分析技術(shù)的使用對促進(jìn)經(jīng)濟(jì)增長和提高管理效率非常重要。

      一、大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域運(yùn)用的意義

      為響應(yīng)市場環(huán)境和公司治理內(nèi)容的變化而促進(jìn)使用公司治理統(tǒng)計(jì)數(shù)據(jù)的需求主要體現(xiàn)在兩個(gè)方面:

      (一)宏觀經(jīng)濟(jì)方面發(fā)展有若干規(guī)律。為了尋找有關(guān)經(jīng)濟(jì)發(fā)展的規(guī)律,強(qiáng)大的數(shù)據(jù)分析技術(shù)在宏觀經(jīng)濟(jì)學(xué)中的應(yīng)用非常重要。一方面,大數(shù)據(jù)分析統(tǒng)計(jì)數(shù)據(jù)用于從宏觀經(jīng)濟(jì)發(fā)展行業(yè)收集數(shù)據(jù),對相關(guān)行業(yè)信息進(jìn)行實(shí)證分析,并調(diào)查行業(yè)發(fā)展和行業(yè)問題。使用SPS,Stata和其他數(shù)據(jù)分析軟件,中國擁有最重要的發(fā)展法;同時(shí),發(fā)現(xiàn)工業(yè)發(fā)展規(guī)律,規(guī)范工業(yè)發(fā)展,開辟新的經(jīng)濟(jì)發(fā)展方式也很重要[1]。

      (二)企業(yè)經(jīng)營管理方面1.提升企業(yè)競爭力的必然要求當(dāng)前,業(yè)務(wù)發(fā)展的競爭越來越激烈。競爭壓力主要?dú)w因于國內(nèi)市場經(jīng)濟(jì)帶來的經(jīng)濟(jì)化以及國內(nèi)市場競爭激烈加入的外國公司的影響。公司必須面對激烈的市場競爭。大眾市場信息的統(tǒng)計(jì)分析將調(diào)整生產(chǎn)和管理策略,并為業(yè)務(wù)發(fā)展的戰(zhàn)略調(diào)整作出有效的決策。2.提升企業(yè)管理水平的必然要求一方面,諸如運(yùn)營管理、財(cái)務(wù)管理、風(fēng)險(xiǎn)管理和企業(yè)資源管理等相關(guān)任務(wù)變得越來越復(fù)雜。需要統(tǒng)計(jì)分析方法來對豐富的業(yè)務(wù)操作信息進(jìn)行分類和匯總,為業(yè)務(wù)管理決策提供有效的信息。同時(shí),企業(yè)需要不斷滿足產(chǎn)品和服務(wù)生產(chǎn)方向的政治要求。由于需要與相關(guān)部門合作,例如運(yùn)營財(cái)務(wù)管理、規(guī)避財(cái)務(wù)風(fēng)險(xiǎn),因此需要建立相關(guān)部門的統(tǒng)計(jì)數(shù)據(jù),以提高決策效率[2]。

      二、大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域的運(yùn)用

      利用大數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)分析技術(shù)研究宏觀經(jīng)濟(jì)發(fā)展政策,對促進(jìn)行業(yè)發(fā)展至關(guān)重要。另一方面,如何獲取有關(guān)復(fù)雜數(shù)據(jù)管理的重要信息,在業(yè)務(wù)流程和管理方面為公司制定有效的決策是重中之重。關(guān)鍵在于掌握財(cái)務(wù)管理的大數(shù)據(jù)分析方法,并使用大數(shù)據(jù)統(tǒng)計(jì)分析技術(shù)來分類和提供業(yè)務(wù)流程管理,隱藏的規(guī)則以及來自異常數(shù)據(jù)點(diǎn)的大量信息。為了應(yīng)對突況,管理人員需要制訂正確的決策計(jì)劃。本文主要討論宏觀經(jīng)濟(jì)應(yīng)用管理領(lǐng)域的統(tǒng)計(jì)數(shù)據(jù)分析方法,以及業(yè)務(wù)管理、財(cái)務(wù)管理、風(fēng)險(xiǎn)管理和管理的六個(gè)方面。如:

      (一)宏觀經(jīng)濟(jì)方面關(guān)于宏觀經(jīng)濟(jì)產(chǎn)業(yè)的運(yùn)作和發(fā)展有若干規(guī)律。為了找到宏觀經(jīng)濟(jì)發(fā)展方法,統(tǒng)計(jì)分析技術(shù)對于穩(wěn)定經(jīng)濟(jì)增長和調(diào)查潛在的經(jīng)濟(jì)危機(jī)很重要。當(dāng)前,不僅學(xué)者,業(yè)務(wù)經(jīng)理也開始了解計(jì)算機(jī)技術(shù)的使用,并開始通過統(tǒng)計(jì)分析來發(fā)現(xiàn)工業(yè)發(fā)展中的若干問題,學(xué)習(xí)工業(yè)發(fā)展的原理。為了找出答案,我們選擇了相關(guān)的影響因素并采取了相應(yīng)的行動,采取措施提高工業(yè)發(fā)展效率。

      (二)企業(yè)運(yùn)營管理方面通常,在日常工作程序和工作相關(guān)領(lǐng)域中存在某些特定的業(yè)務(wù)管理和操作規(guī)則。另一方面,通過將統(tǒng)計(jì)信息應(yīng)用于業(yè)務(wù)的運(yùn)營和管理,公司可以通過分析大數(shù)據(jù)的統(tǒng)計(jì)信息來獲得規(guī)律。這將幫助公司節(jié)省一些資源,避免重復(fù)的任務(wù)并節(jié)省公司的業(yè)務(wù)資源。如果該政策是從科學(xué)的統(tǒng)計(jì)評估階段得出的,則情況與正常情況不同的企業(yè)高管應(yīng)仔細(xì)考慮潛在的風(fēng)險(xiǎn)。

      (三)企業(yè)營銷管理方面企業(yè)需要建立大型數(shù)據(jù)管理系統(tǒng)來收集有關(guān)企業(yè)提供的產(chǎn)品或服務(wù)的市場交易信息。因此,消費(fèi)者的熱點(diǎn)必須與受管理的信息系統(tǒng)對齊,以使其隱藏在協(xié)同交易信息中。確定消費(fèi)者對需求的偏好并確定消費(fèi)者需求。公司的主要產(chǎn)品和服務(wù)根據(jù)消費(fèi)者的喜好運(yùn)作,可以滿足消費(fèi)者的需求,替代市場上的非反應(yīng)性產(chǎn)品和服務(wù)。同時(shí),開發(fā)新產(chǎn)品和服務(wù)企業(yè)領(lǐng)導(dǎo)者可以提供有效的決策信息,并為消費(fèi)者創(chuàng)建新的熱點(diǎn)[3]。

      (四)企業(yè)財(cái)務(wù)管理方面應(yīng)用管理統(tǒng)計(jì)信息。它通過審查有關(guān)生產(chǎn)過程和運(yùn)營的統(tǒng)計(jì)數(shù)據(jù)(尤其是財(cái)務(wù)數(shù)據(jù)),進(jìn)行定性和定量分析,幫助評估相關(guān)活動,例如商業(yè)投資。財(cái)務(wù)管理是開展業(yè)務(wù)必不可少的部分,這對于減輕公司的財(cái)務(wù)風(fēng)險(xiǎn)和提高公司資源分配的效率至關(guān)重要。通過統(tǒng)計(jì)分析對商業(yè)經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分類和分析,可以為高管、投資者和其他相關(guān)利益相關(guān)者提供有效的決策信息。

      (五)企業(yè)人力資源管理方面將統(tǒng)計(jì)應(yīng)用于公司的人力資源管理,并使用統(tǒng)計(jì)分析技術(shù)結(jié)合公司業(yè)務(wù)管理部門的特征,選擇適當(dāng)?shù)姆椒▉硖岣咝省H肆Y源管理很重要,人才基本上是企業(yè)的無形資產(chǎn),在部門保留相關(guān)的人力資源是業(yè)務(wù)發(fā)展的關(guān)鍵。回歸站評估法用于預(yù)測企業(yè)發(fā)展的人力資源需求,動態(tài)分析法用于根據(jù)狀態(tài)預(yù)測人力資源的變化。將這兩個(gè)方面結(jié)合起來可以大大提高業(yè)務(wù)資源的效率。

      (六)企業(yè)風(fēng)險(xiǎn)管理方面使用統(tǒng)計(jì)分析技術(shù)對業(yè)務(wù)流程中的大量業(yè)務(wù)信息進(jìn)行分類和分析,發(fā)現(xiàn)隱藏的規(guī)則和數(shù)據(jù)差異。重要的是,業(yè)務(wù)主管需要進(jìn)行預(yù)測,做出正確的決定,解決事件并發(fā)現(xiàn)潛在危險(xiǎn)。意思是如果統(tǒng)計(jì)數(shù)據(jù)分析有些奇怪,則需要找出業(yè)務(wù)流程中具有的某些規(guī)則,因此業(yè)務(wù)主管需要尋找更多異常條件,尤其是財(cái)務(wù)管理,要注意關(guān)注狀態(tài)的變化。另一方面,對公司財(cái)務(wù)信息進(jìn)行統(tǒng)計(jì)分析是公司規(guī)避財(cái)務(wù)風(fēng)險(xiǎn)的有效手段之一。

      三、完善大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)

      管理領(lǐng)域運(yùn)用的措施在本文中,我們將了解如何從六個(gè)方面分析大數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù):宏觀經(jīng)濟(jì)活動、業(yè)務(wù)管理、風(fēng)險(xiǎn)管理、財(cái)務(wù)管理、資源管理和財(cái)務(wù)管理人員。這被認(rèn)為是財(cái)務(wù)管理數(shù)據(jù)大規(guī)模統(tǒng)計(jì)方法的一種改進(jìn)。必須在三個(gè)方面進(jìn)行現(xiàn)場應(yīng)用:

      (一)社會宏觀經(jīng)濟(jì)層面盡管存在宏觀經(jīng)濟(jì)法則,但根據(jù)過去的經(jīng)驗(yàn),由于缺乏安全可靠的數(shù)據(jù)和分析方法,宏觀經(jīng)濟(jì)法則的分析則一直被認(rèn)為是偽科學(xué)。大數(shù)據(jù)分析技術(shù)提供了探索宏觀經(jīng)濟(jì)法則的機(jī)會,大數(shù)據(jù)技術(shù)使用數(shù)據(jù)創(chuàng)建系統(tǒng),而使用許多信息技術(shù)的科學(xué)分析是宏觀經(jīng)濟(jì)法研究中的重要一步。特別是,某些行業(yè)使用行業(yè)信息和對經(jīng)濟(jì)趨勢預(yù)測的全面分析來幫助識別和克服復(fù)雜的工業(yè)發(fā)展挑戰(zhàn),可以提高宏觀經(jīng)濟(jì)發(fā)展效率。

      (二)企業(yè)經(jīng)營管理層面在公司上載和數(shù)據(jù)受限的情況下,企業(yè)很難優(yōu)化管理功能以提高性能[2]。由于業(yè)務(wù)經(jīng)理的管理理念和管理水平受到限制,因此很難斷定業(yè)務(wù)開發(fā)操作和管理流程是否存在問題。統(tǒng)計(jì)分析技術(shù)可用于計(jì)算和評估每個(gè)關(guān)鍵決策或業(yè)務(wù)戰(zhàn)略適合性的有效性。如果由于大數(shù)據(jù)分析技術(shù)而導(dǎo)致預(yù)期的數(shù)據(jù)銷量存在矛盾,該公司可以調(diào)整其總體戰(zhàn)略并進(jìn)行業(yè)務(wù)變更以優(yōu)化管理理念。

      (三)行業(yè)與行業(yè)之間存在著一定的鴻溝無論是快速消費(fèi)品行業(yè)、食品行業(yè)還是大型公司,其經(jīng)營理念和經(jīng)濟(jì)結(jié)構(gòu)在公司治理方面都存在根本差異。統(tǒng)計(jì)數(shù)據(jù)分析技術(shù)使公司能夠了解整個(gè)行業(yè)的消費(fèi)者需求的性質(zhì),分析社會經(jīng)濟(jì)狀況,能夠了解共同的業(yè)務(wù)條件和業(yè)務(wù)發(fā)展情況,并優(yōu)化或區(qū)分劣質(zhì)產(chǎn)品。在某些情況下,此更改是提高產(chǎn)品價(jià)格的高級更改,如果消耗量和消耗品減少,則可以降低產(chǎn)品價(jià)格。產(chǎn)品必須能夠升級以滿足顧客需求。產(chǎn)品行業(yè)、食品行業(yè)或大型行業(yè)具有不同的經(jīng)營理念和財(cái)務(wù)結(jié)構(gòu),還在進(jìn)行公司管理。但是,各個(gè)行業(yè)的業(yè)務(wù)方向取決于消費(fèi)者的需求。換句話說,公司開發(fā)了產(chǎn)品的功能并使產(chǎn)品的功能適應(yīng)消費(fèi)者的需求。對于公司而言,通過優(yōu)化生產(chǎn)結(jié)構(gòu)并提供更多定價(jià)和功能來說服更多消費(fèi)者也很重要。

      (四)企業(yè)財(cái)務(wù)管理層面財(cái)務(wù)管理貫穿公司治理的整個(gè)過程。公司財(cái)務(wù)管理非常有效,但是存在諸如財(cái)務(wù)管理的巨大風(fēng)險(xiǎn)之類的問題。對公司財(cái)務(wù)信息進(jìn)行統(tǒng)計(jì)分析是防范財(cái)務(wù)風(fēng)險(xiǎn)的有效手段之一。公司需要管理其日常收入和支出,并進(jìn)行大規(guī)模會計(jì)處理。企業(yè)可以使用大數(shù)據(jù)分析技術(shù)來監(jiān)測財(cái)務(wù)管理功能并確保標(biāo)準(zhǔn)化業(yè)務(wù)的財(cái)務(wù)安全。利用統(tǒng)計(jì)分析技術(shù)和大數(shù)據(jù),公司可以預(yù)測潛在的市場和行業(yè)風(fēng)險(xiǎn),以提供最佳解決方案,還可以提供分析大數(shù)據(jù)的方法,可以跟蹤異常并快速發(fā)現(xiàn)異常。

      四、結(jié)語

      本文首先從宏觀經(jīng)濟(jì)方面、企業(yè)經(jīng)營管理方面等兩個(gè)方面對大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域運(yùn)用的意義進(jìn)行了分析,然后從宏觀經(jīng)濟(jì)方面、企業(yè)運(yùn)營管理方面、企業(yè)營銷管理方面、企業(yè)財(cái)務(wù)管理方面、企業(yè)人力資源管理方面以及企業(yè)風(fēng)險(xiǎn)管理方面等方面對大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域的運(yùn)用進(jìn)行了分析,最后從社會宏觀經(jīng)濟(jì)層面、企業(yè)經(jīng)營管理層面、行業(yè)與行業(yè)之間存在著一定的鴻溝以及企業(yè)財(cái)務(wù)管理層面等方面提出了完善大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域運(yùn)用的措施。大數(shù)據(jù)分析技術(shù)被廣泛用于宏觀經(jīng)濟(jì)預(yù)測、業(yè)務(wù)管理和公司風(fēng)險(xiǎn)管理,它在優(yōu)化公司治理和運(yùn)營結(jié)構(gòu),有效改善公司治理以及提高公司統(tǒng)一性和核心競爭力等方面發(fā)揮著重要作用,可以使公司在激烈的市場競爭中有一席之地。

      【參考文獻(xiàn)】

      [1]張琳.大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域中的運(yùn)用淺析[J].營銷界,2019(38):291-292.

      [2]杜珉.大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域中的運(yùn)用探析[J].山西農(nóng)經(jīng),2019(12):27.

      [3]陳雪琴.大數(shù)據(jù)統(tǒng)計(jì)分析方法在經(jīng)濟(jì)管理領(lǐng)域中的應(yīng)用[J].山西農(nóng)經(jīng),2019(5):37.

      篇(11)

      一、數(shù)據(jù)缺失的程度與機(jī)制

      數(shù)據(jù)缺失的程度、機(jī)制均影響處理方法的選擇。方法不適當(dāng)也會帶來有偏的參數(shù)估計(jì)M1、方差估計(jì)與統(tǒng)計(jì)檢驗(yàn),甚至影響數(shù)據(jù)分析效用。

      (一)數(shù)據(jù)缺失的程度

      借助某一變量上數(shù)據(jù)缺失的比率X描述數(shù)據(jù)缺失的程度。缺失比率X如何應(yīng)用方面,當(dāng)X<10%時(shí)應(yīng)當(dāng)保留這些賊并對其哳搬的艦曾建議,當(dāng)X>15%時(shí)可以考慮刪除采用刪除法;MRaymond與Roberts則認(rèn)為X>40%時(shí)才考慮刪除這些數(shù)據(jù)。

      (二)缺失機(jī)制

      缺失數(shù)據(jù)與諸多變量等相關(guān),處理方法的性質(zhì)依賴這些相依關(guān)系的特征。為論述方便,記全部變量Y觀測值中那些完整的變量為Yobs、不完整的為Ymis。如果缺失值與Y相互獨(dú)立無關(guān),則缺失數(shù)據(jù)為完全隨機(jī)缺失(MACR,missingcompletelyatrandom)的,是特殊情形。此時(shí)缺失值是總體的一個(gè)簡單隨機(jī)抽樣。如果缺失值僅與Yobs相關(guān)聯(lián)、與Ymis相互獨(dú)立,則是隨機(jī)缺失(MAR,missingatrandom)。如果Yobs與Ymis之間存在著依賴關(guān)系,則稱非隨機(jī)缺失(NMAR,notmissingatrandom),是不可忽略的。

      二、單一借補(bǔ)

      單一借補(bǔ)用一個(gè)借補(bǔ)值替代全部缺失值,后用完全數(shù)據(jù)方法分析數(shù)據(jù)。單一借補(bǔ)是缺失數(shù)據(jù)處理中最通用方法之一,有多種方法。

      (一)推理借補(bǔ)與最近鄰借補(bǔ)

      根據(jù)已有信息推斷缺失數(shù)值,該方法簡單易行,可提供準(zhǔn)確借補(bǔ)值,或者近似準(zhǔn)確借補(bǔ)值,同等情況下可優(yōu)先進(jìn)行推理借補(bǔ)。例,信息收集時(shí)已提供有姐弟信息的某被試“獨(dú)生子女”一項(xiàng)空著,可推斷為“否”。最近鄰借補(bǔ)選用與缺失數(shù)據(jù)提供者相類似的被試數(shù)據(jù)替代該缺失值。按照匹配變量找到一個(gè)以缺失數(shù)據(jù)提供者類似的被試時(shí),可還用例如歐式距離等來度量類似程度。

      (二)均值借法

      均值借補(bǔ)用已得數(shù)據(jù)的均值替代全部缺失值。借補(bǔ)值易均值形成尖峰,嚴(yán)重扭曲數(shù)據(jù)分布。當(dāng)數(shù) 據(jù)缺失非MACR時(shí),將低估統(tǒng)計(jì)量方差,導(dǎo)致參數(shù)估計(jì)偏差,且不適用需方差的復(fù)雜分析。

      (三)回歸借補(bǔ)

      回歸借補(bǔ)可分為線性回歸借補(bǔ),非參數(shù)回歸借補(bǔ)等。本文主要關(guān)注線性回歸借補(bǔ),用Yk關(guān)于數(shù)據(jù)完全的變量回歸模型,回歸值替代缺失值。建立回歸方程時(shí)有一次或多次迭代之分。多次迭代中,預(yù)測變量以逐步進(jìn)人模型,獲得預(yù)測力最佳、最精簡的變量組合;回歸值替代缺失值,后建立新模型;如此,至回歸系數(shù)變化不顯著。是類別變量時(shí),則考慮進(jìn)行變換,進(jìn)行線性回歸。同時(shí),我們還應(yīng)注意到利用嚴(yán)格的回歸方程進(jìn)行預(yù)測,易人為增大變量之間的關(guān)系。多數(shù)情況下,教育學(xué)、心理學(xué)討論的變量大多都不是相互獨(dú)立的。選擇該方法時(shí),須考慮當(dāng)預(yù)測變量與變量Y是否存在高度的相關(guān)關(guān)系。其構(gòu)造借補(bǔ)值的邏輯清晰,相對客觀。該方法能得到合乎邏輯的結(jié)果,尤其滿足正態(tài)分布時(shí)。數(shù)據(jù)模擬實(shí)驗(yàn)表明,方法加精確。

      三、多重借補(bǔ)

      多重借補(bǔ)(multipleimputation,MI)基于缺失值的預(yù)測分布或統(tǒng)計(jì)模型的方法:提供多個(gè)借補(bǔ)值依次替代各個(gè)缺失值、構(gòu)造個(gè)“完全數(shù)據(jù)”,121,191211后運(yùn)用完全數(shù)據(jù)統(tǒng)計(jì)方法分別分析多個(gè)數(shù)據(jù)集;分別得到數(shù)個(gè)分析結(jié)果,擬合這多個(gè)結(jié)果,獲得對缺失值的估計(jì)等,甚至是置信區(qū)間、P值。MI具備例如連續(xù)性的優(yōu)良統(tǒng)計(jì)性質(zhì)。

      (一)回歸預(yù)測法與傾向得分法

      回歸借補(bǔ)基于已有數(shù)據(jù)建立回歸模型、嵌入借補(bǔ)值。先確定觀察協(xié)變量,傾向得分法賦予一個(gè)條件概率。即對各Y產(chǎn)生一個(gè)觀測值缺失概率,并以傾向得分表示。依據(jù)傾向得分對數(shù)據(jù)分組,組內(nèi)進(jìn)行近似貝葉斯Bootstrap(ABB)借補(bǔ)。

      (二)似然的方法

      1.極大似然估計(jì)

      從理論上來看,極大似然法(MaximumLikelihood,ML)至今仍是參數(shù)點(diǎn)估計(jì)中的重要方法。既定模型下缺失值的諸多估計(jì)均可基于似然函數(shù)進(jìn)行。ML利用總體數(shù)量特征的分布函數(shù)等,建立未知參數(shù)的估計(jì)量。將Y作為未知變量0,構(gòu)造關(guān)于e的似然函數(shù),后求的參數(shù)的極大似然估計(jì)量,甚至在參數(shù)空間內(nèi)的置信區(qū)間,或者置信區(qū)域。

      參數(shù)極大似然估計(jì)量(MLE)具有不變性,推廣至多元變量時(shí)該優(yōu)良性質(zhì)亦成立。這恰能滿足實(shí)際研究需要。基于其漸進(jìn)最優(yōu)性質(zhì)等,ML成為參數(shù)估計(jì)的常用方法,諸如SPSS10.0、LISREL8.7等軟件包均收人該方法。

      2.期望極大化算法

      期望極大化算法(Expectation-Maximizationalgorithm,EM)是ML有效方法,主要用來計(jì)算基于不完全數(shù)據(jù)的MLE15。當(dāng)由于觀測過程局限帶來數(shù)據(jù)部分缺失時(shí),或似然估計(jì)因似然函數(shù)不是解析函數(shù)而無效時(shí)可選用該方法。EM是一種迭代算法,每次迭代似然函數(shù)值都將有所增加,進(jìn)而保證參數(shù)估計(jì)值收斂到一個(gè)局部極大值。此外,EM可自動實(shí)現(xiàn)參數(shù)約束。基于軟件數(shù)據(jù)模擬表明X<30%時(shí)EM算法可得到比較好的結(jié)果。

      3.MCMC方法

      當(dāng)缺失值分散在多個(gè)變量時(shí),回歸法基于對回歸系數(shù)的估計(jì)獲得借補(bǔ)值。復(fù)雜缺失模型中,回歸系數(shù)的估算又依賴于借補(bǔ)值。這里似乎存在某種循環(huán)論證痕跡。此時(shí),可考慮迭代法中馬爾科夫蒙特卡洛方法(MarkovChainMonteCarloAlgorithm,MCMC)。MCMC利用馬爾可夫鏈進(jìn)行蒙特卡洛積分,可基于無后效性隨機(jī)過程探討數(shù)量關(guān)系、預(yù)測變量,還可有包括0出1?抽樣等多種具體算法。基于多元抽樣MCMC有諸多優(yōu)點(diǎn),足夠長的時(shí)間使得雅過程驗(yàn)時(shí),MCMC可得卿常麵的結(jié)果。171MCMC是與具體的模型結(jié)合的,自身有不少擴(kuò)展方法,且不同MCMC方法對缺失數(shù)據(jù)的參數(shù)估計(jì)之間存在差異。不過,X<30%時(shí)MCMC方法得到結(jié)果與完全數(shù)據(jù)時(shí)擬和較好。這些研究支持MCMC是處理缺失數(shù)據(jù)的有效方法,軟件包SPSS17.0等均收人該方法。

      四、不處理

      借補(bǔ)值是缺失數(shù)據(jù)的主觀估計(jì)值。引人的主觀值可能改變原信息系統(tǒng),甚至帶進(jìn)新噪音、導(dǎo)致分析錯誤。不處理確保了原有信息不變,并進(jìn)行分析,其主要包含貝葉斯網(wǎng)與人工神經(jīng)網(wǎng)絡(luò)。不過,后者的具體應(yīng)用仍有限、待進(jìn)一步探索與實(shí)證。研究開始關(guān)注神經(jīng)網(wǎng)絡(luò)在心理學(xué)中的具體應(yīng)用。

      (一)貝葉斯網(wǎng)

      貝葉斯網(wǎng)絡(luò)(BayesianNetworks)是一個(gè)有向無圈圖,W能描述不確定性因果關(guān)聯(lián)的模型。該有向無圈圖帶有概率注解,能夠表示隨機(jī)變量的因果關(guān)系與概率關(guān)系,網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)能夠表明如何從局部的概率分布獲得完全的聯(lián)合概率分布。分析缺失數(shù)據(jù)時(shí),貝葉斯網(wǎng)將結(jié)合先驗(yàn)知識與樣本數(shù)據(jù)對數(shù)值計(jì)算進(jìn)行推理,得到最佳值。其最大程度利用數(shù)據(jù)蘊(yùn)含的信息,是具有魯棒性的方法。

      缺失數(shù)據(jù)下學(xué)習(xí)貝葉斯網(wǎng)有各類算法,不少算法是通過對含缺失數(shù)據(jù)的信息系統(tǒng)完備化得到所需統(tǒng)計(jì)因子,最終將問題轉(zhuǎn)化為完全數(shù)據(jù)下學(xué)習(xí)貝葉斯的網(wǎng)的問題。例如,結(jié)構(gòu)EM(StructureEMAlgorithm)通過EM算法獲得期望統(tǒng)計(jì)因子。數(shù)據(jù)非隨機(jī)缺失可以通過引人隱藏變量轉(zhuǎn)化為隨機(jī)缺失問題,m似乎可以僅討論隨機(jī)缺失情況下算法。隨著研究的推進(jìn),新的、優(yōu)良的算法相繼涌現(xiàn),并得到模擬實(shí)驗(yàn)的支持。例如,數(shù)據(jù)缺失下貝葉斯網(wǎng)絡(luò)增量學(xué)習(xí)算法IBN-M。甚至穩(wěn)健的貝葉斯方法能夠適用于含缺失數(shù)據(jù)的結(jié)構(gòu)方程分析中,此時(shí)的結(jié)構(gòu)方程模型選擇固定方差。

      建構(gòu)貝葉斯網(wǎng)可由專家人工建構(gòu)。其中,因果關(guān)系、網(wǎng)絡(luò)結(jié)構(gòu)是不可或缺的。這需對分析領(lǐng)域有相應(yīng)了解,至少對變量間關(guān)系較清楚。在心理學(xué)等領(lǐng)域中應(yīng)用尚待深入研究,該方法運(yùn)用前景令人期待。

      (二)貝葉斯網(wǎng)適用軟件能夠?qū)崿F(xiàn)貝葉斯網(wǎng)的軟件包不少。Netica是最重要軟件之一,可免費(fèi)下載功能有限的版本。專門進(jìn)行數(shù)值計(jì)算的語言Matlab,其編程量較少、調(diào)試程序方便、呈現(xiàn)學(xué)習(xí)所得結(jié)構(gòu)也不繁瑣,國內(nèi)文獻(xiàn)也更多地涉及Matlab。BNTtolkit是基于Matlab開發(fā)的,提供不少基礎(chǔ)函數(shù)庫,能夠進(jìn)行參數(shù)學(xué)習(xí)與結(jié)構(gòu)學(xué)習(xí),且完全免費(fèi)。缺乏圖形用戶界面、無法將基本函數(shù)集成相應(yīng)系統(tǒng)是其“硬傷”。

      五、結(jié)論與討論

      實(shí)際應(yīng)用中,刪法“浪費(fèi)”不少數(shù)據(jù),統(tǒng)計(jì)力低下,盡量選用其它方法。當(dāng)滿足MAR缺失機(jī)制且人在10%時(shí),對刪法可運(yùn)用對有多個(gè)項(xiàng)目的量表的數(shù)據(jù)處理。當(dāng)滿足MAR、變量相關(guān)聯(lián),可考慮均值借補(bǔ)。當(dāng)變量之間高相關(guān)且X>20%Ht,可考慮回歸借補(bǔ)。

      主站蜘蛛池模板: 日韩精品区一区二区三VR| 久久亚洲精品成人AV| 无码人妻精品一区二区三区66| 久久精品国产69国产精品亚洲| 一本一本久久a久久精品综合麻豆 一本色道久久88综合日韩精品 | 国产精品视频一区二区三区不卡| 日韩一区精品视频一区二区| 九九久久精品无码专区| 亚洲欧洲国产日韩精品| 国产亚洲色婷婷久久99精品| 亚州日韩精品专区久久久| 国产亚洲色婷婷久久99精品91| 国产亚洲精品xxx| 国产午夜无码精品免费看| 中文精品久久久久人妻不卡| 久久精品国产亚洲Aⅴ香蕉| 在线电影国产精品| 精品久久一区二区| 国产人妖乱国产精品人妖| 午夜精品久久久久久久| 亚洲精品视频在线看| 日韩精品在线播放| 久久亚洲中文字幕精品一区四 | 精品国产sm捆绑最大网免费站| 午夜一级日韩精品制服诱惑我们这边| 国产精品免费久久久久影院| 欧美精品第欧美第12页| 国产精品999| 99re66热这里只有精品| 国产在线精品一区二区中文| 精品亚洲aⅴ在线观看| 久久丫精品国产亚洲av不卡| 青青草原精品99久久精品66| 亚洲精品无码永久在线观看你懂的| 久久精品国产精品亚洲| 久久激情亚洲精品无码?V| 久久精品无码一区二区三区日韩 | 精品久久久久中文字幕日本| 久久久久久久久无码精品亚洲日韩| 少妇精品无码一区二区三区| 色国产精品一区在线观看|