<dfn id="a4kkq"></dfn>
<ul id="a4kkq"></ul>
    • 數(shù)據(jù)挖掘論文大全11篇

      時(shí)間:2023-03-22 17:38:25

      緒論:寫作既是個(gè)人情感的抒發(fā),也是對學(xué)術(shù)真理的探索,歡迎閱讀由發(fā)表云整理的11篇數(shù)據(jù)挖掘論文范文,希望它們能為您的寫作提供參考和啟發(fā)。

      數(shù)據(jù)挖掘論文

      篇(1)

      2模糊集理論的引入

      在討論實(shí)際問題的時(shí)候,需要判定模糊概念涵義,如判斷某個(gè)數(shù)據(jù)在模糊集的定義和歸屬,這時(shí)就需要普通集合與模糊集合可依某種法則相互轉(zhuǎn)換。模糊理論中的截集是模糊集合和普通集合之間相互轉(zhuǎn)換的一座橋梁。

      3基于事務(wù)間數(shù)值型關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法

      假設(shè)有一就業(yè)數(shù)據(jù)庫,先通過數(shù)據(jù)整理,將原始數(shù)據(jù)記錄值區(qū)間[0,10]偏置10個(gè)單位。由此就得到了經(jīng)過偏置后的數(shù)據(jù)庫記錄。再依滑動窗口方法,設(shè)maxspan=1(該值可以依實(shí)際情況的需要來定),就可將偏置后的數(shù)據(jù)庫數(shù)據(jù)整理轉(zhuǎn)化為擴(kuò)展事務(wù)數(shù)據(jù)庫。再把擴(kuò)展事務(wù)數(shù)據(jù)庫記錄通過隸屬度函數(shù)轉(zhuǎn)化為對應(yīng)的隸屬度。

      篇(2)

      1.1數(shù)據(jù)庫環(huán)境的異構(gòu)型

      Web上的每個(gè)站點(diǎn)就是一個(gè)數(shù)據(jù)源,數(shù)據(jù)源之間是異構(gòu)的,外加上各個(gè)站點(diǎn)的信息和組織的不同,Web網(wǎng)站就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。要對這些數(shù)據(jù)進(jìn)行挖掘,首先,要解決各個(gè)站點(diǎn)之間的異構(gòu)數(shù)據(jù)集成,提供用戶統(tǒng)一界面,從復(fù)雜的數(shù)據(jù)源中取得所需的有用的信息知識。其次,有關(guān)Web上的數(shù)據(jù)查詢。

      1.2數(shù)據(jù)結(jié)構(gòu)的半結(jié)構(gòu)化

      Web上的數(shù)據(jù)比較復(fù)雜,各個(gè)站點(diǎn)的數(shù)據(jù)都獨(dú)立設(shè)計(jì),具有動態(tài)可變性。雖然Web上的數(shù)據(jù)形成半結(jié)構(gòu)化數(shù)據(jù)。這些問題是進(jìn)行Web數(shù)據(jù)挖掘所面臨的最大困難。

      2XML技術(shù)在Web數(shù)據(jù)挖掘中的優(yōu)勢

      Web數(shù)據(jù)的異構(gòu)使Web數(shù)據(jù)挖掘變得十分困難,通過XML可以解決這個(gè)問題。因?yàn)閄ML文檔具有很好的自我描述性,他的元素、子元素、屬性結(jié)構(gòu)樹可以表達(dá)極為豐富的語義信息,能夠很好的描述半結(jié)構(gòu)化的數(shù)據(jù),因此在網(wǎng)絡(luò)數(shù)據(jù)集成、發(fā)送、處理和顯示的方面。開發(fā)人員能夠用XML的格式標(biāo)記和交換數(shù)據(jù)。XML在三層架構(gòu)上為數(shù)據(jù)的處理提供了有用的途徑。利用XML,Web設(shè)計(jì)人員能夠構(gòu)建文檔類型定義的多層次互相關(guān)聯(lián)的系統(tǒng)、元數(shù)據(jù)、數(shù)據(jù)樹、樣式表和超鏈接結(jié)構(gòu)。基于XML的Web數(shù)據(jù)挖掘技術(shù),能夠使不同來源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起,解決Web數(shù)據(jù)挖掘的難題。

      2.1XML技術(shù)在Web數(shù)據(jù)挖掘中具體作用利用XML技術(shù)我們在Web數(shù)據(jù)挖掘中可以完成以下幾點(diǎn):

      2.1.1集成異構(gòu)數(shù)據(jù)源

      XML是一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以完成和關(guān)系數(shù)據(jù)庫中的屬性一一對應(yīng),從而實(shí)施精確地查詢與模型抽取。XML可以搜索多個(gè)不同數(shù)據(jù)庫的問題,以實(shí)現(xiàn)集成。

      2.1.2和異構(gòu)數(shù)據(jù)進(jìn)行交換

      在Web數(shù)據(jù)挖掘程中,用戶需要和異構(gòu)數(shù)據(jù)源進(jìn)行數(shù)據(jù)交換,XML通過自定義性及可擴(kuò)展性來標(biāo)識各種數(shù)據(jù),從而描述從各站點(diǎn)搜集到的Web頁中的數(shù)據(jù)。XML的出現(xiàn)解決了數(shù)據(jù)查詢的統(tǒng)一接口。

      2.1.3過濾信息并顯示

      XML描述數(shù)據(jù)本身,可以使得定義的數(shù)據(jù)以不同的方式顯示,對獲取的信息進(jìn)行裁減和編輯以適應(yīng)不同用戶的需求。以不同的瀏覽形式提供給不同的用戶。

      3基于XML的Web數(shù)據(jù)挖掘模型

      我們通過對XML及Web數(shù)據(jù)挖掘的分析,設(shè)計(jì)了一個(gè)基于XML的Web數(shù)據(jù)挖掘模型通過提供一個(gè)Web數(shù)據(jù)挖掘的集成環(huán)境,提高數(shù)據(jù)挖掘系統(tǒng)的整體性能。工作流程如下:系統(tǒng)根據(jù)用戶要求搜集Web資源,經(jīng)數(shù)據(jù)轉(zhuǎn)換器處理成相應(yīng)的XML數(shù)據(jù)存儲,提供給挖掘器使用;挖掘器則根據(jù)要求從選取相應(yīng)的算法挖掘,輸出挖掘結(jié)果;用戶根據(jù)自己的滿意度,獲得需要的挖掘結(jié)果,調(diào)整挖掘要求進(jìn)入新一輪數(shù)據(jù)挖掘。通過系統(tǒng)的維護(hù)我們可以加入新的挖掘算法,實(shí)現(xiàn)升級。

      3.1各模塊具體功能

      3.1.1數(shù)據(jù)收集

      從Web站點(diǎn)上采集數(shù)據(jù)并存儲,獲得挖掘內(nèi)容。針對異構(gòu)數(shù)據(jù)源,可以多種方式提出相關(guān)需求,挖掘的重點(diǎn)是Web內(nèi)容和Web使用的數(shù)據(jù)。把用戶訪問網(wǎng)站留下原始日志數(shù)據(jù)進(jìn)行清洗、過濾和轉(zhuǎn)換處理,轉(zhuǎn)變成統(tǒng)一處理的數(shù)據(jù)結(jié)構(gòu),構(gòu)建日志數(shù)據(jù)庫。

      3.1.2轉(zhuǎn)換器

      對檢索得到的數(shù)據(jù)用XML技術(shù)進(jìn)行預(yù)處理,建立半結(jié)構(gòu)化數(shù)據(jù)模型,抽取其特征的元數(shù)據(jù),用結(jié)構(gòu)化的形式保存,為挖掘模塊提供所需的數(shù)據(jù)。

      3.1.3挖掘器

      不同的挖掘算法有不同適用情況,挖掘綜合器根據(jù)具體的需求和挖掘方法的不同選擇策略到挖掘算法庫中去選擇挖掘算法或種組合算法執(zhí)行挖掘任務(wù)。隨著應(yīng)用的深入,知識庫中的算法和規(guī)則不斷的豐富。挖掘算法庫是挖掘分析方法的綜合庫,以插拔的形式組織存放各種挖掘算法。314結(jié)果生成與評估以直觀的方式提交挖掘結(jié)果,便于用戶的評估。通過模式分析和興趣度度量,若結(jié)果使得用戶滿意,數(shù)據(jù)挖掘結(jié)束,輸出用戶感興趣的內(nèi)容;否則可以在此重新提出挖掘要求,重新挖掘。

      3.2系統(tǒng)各模塊實(shí)現(xiàn)方法

      3.2.1數(shù)據(jù)收集

      數(shù)據(jù)的收集也涉及數(shù)據(jù)挖掘的技術(shù),其過程是:通過人工輸入辦法,給出查詢主題,找到相關(guān)的Web頁,然后,通過相應(yīng)的數(shù)據(jù)挖掘的算法對訓(xùn)練數(shù)據(jù)集提煉,利用提煉出的數(shù)據(jù)模式,進(jìn)行更大范圍的搜索,以獲取更多的數(shù)據(jù)源。最終形成較新和有效XML文檔。

      3.2.2數(shù)據(jù)的轉(zhuǎn)換處理

      數(shù)據(jù)抽取轉(zhuǎn)換是模型實(shí)現(xiàn)一個(gè)重要環(huán)節(jié),其主要方法是把現(xiàn)有的Web頁面轉(zhuǎn)換成XML格式,并使用相關(guān)工具處理XML結(jié)構(gòu)數(shù)據(jù)檢要把HTML中含有的與主題無關(guān)的標(biāo)記過濾掉,然后轉(zhuǎn)化到XML的格式存儲。目前Web頁面到XML文檔的轉(zhuǎn)換,有兩部分?jǐn)?shù)據(jù)構(gòu)成:一是XML數(shù)據(jù),二是非XML數(shù)據(jù)。XML數(shù)據(jù),可以直接將它們提交給下一個(gè)模塊。對于非XML數(shù)據(jù),本文的實(shí)現(xiàn)方法是用到Tidy以改正HTML文檔中的常見錯(cuò)誤并生成格式編排良好的等價(jià)文檔,還可以使用Tidy生成XHTML(XML的子集)格式的文檔。通過構(gòu)造相應(yīng)的Java類完成將數(shù)據(jù)從HTML到XML的轉(zhuǎn)換。

      3.2.3挖掘方法

      (1)文本分類:文本分類是指按預(yù)先定義的主題類別,把集合中的每個(gè)文檔確定一個(gè)所屬類別。這樣,用戶能夠方便地瀏覽文檔,并限制搜索范圍來使查找更為容易。利用文本分類技術(shù)對大量文檔進(jìn)行快速、有效地自動分類。有關(guān)的算法通常采用TFIDF和NaiveBayes等方法。

      (2)文本聚類:文本聚類與分類的不同之處在于,聚類不需要預(yù)先定義好的主題類別,它是將把文檔集合分成若干個(gè)簇,要求同簇內(nèi)文檔內(nèi)容相似度最大,而不同簇間的相似度最小。Hearst等人研究表明聚類假設(shè),即與用戶查詢相關(guān)的文檔通常會聚類比較靠近,而遠(yuǎn)離與用戶查詢不相關(guān)文檔。可以利用文本聚類技術(shù)把搜索引擎檢索結(jié)果分成若干個(gè)簇,用戶只要考慮那些相關(guān)的簇,就能夠縮小所需要瀏覽的結(jié)果數(shù)量。目前,常用的文本聚類算法,分為兩種:以G-HAC等算法為代表的層次凝聚法,以k-means等算法為代表的平面劃分法。

      (3)關(guān)聯(lián)分析:關(guān)聯(lián)分析是指從文檔集合中發(fā)現(xiàn)不同詞語之間關(guān)系Brin提出一種從大量文檔中查找一對詞語出現(xiàn)模式算法,在Web上尋找作者和書名的模式,從而發(fā)現(xiàn)數(shù)千本在Amazon網(wǎng)站上查找不到的新書。

      (4)模式評價(jià):Web數(shù)據(jù)挖掘中十分重要的過程就是模式評價(jià)。常用的方法有預(yù)留法和交叉實(shí)驗(yàn)法,將數(shù)據(jù)分成訓(xùn)練集和測試集兩部分,學(xué)習(xí)和測試反復(fù)進(jìn)行,最后用一個(gè)平均質(zhì)量模型來確定模型質(zhì)量的好壞。

      (5)預(yù)留法:從數(shù)據(jù)集合隨機(jī)抽取預(yù)定大小一個(gè)子集作為測試集,其他數(shù)據(jù)則作為訓(xùn)練集。

      (6)交叉驗(yàn)證法:把整個(gè)數(shù)據(jù)集合按照所要進(jìn)行的學(xué)習(xí)測試循環(huán)次數(shù)分成一定數(shù)目的子集,在每次循環(huán)中,選取其一個(gè)子集作為測試集,其它子集并集則作為訓(xùn)練集。

      篇(3)

      2技術(shù)關(guān)鍵

      本系統(tǒng)采用基于營銷目的的商戶聚類,技術(shù)關(guān)鍵包括三部分內(nèi)容:數(shù)據(jù)預(yù)處理中的特征選擇、基于限制目標(biāo)的商戶精確聚類和基于聚類結(jié)果的多層關(guān)聯(lián)規(guī)則算法的研究。

      2.1特征選擇

      假定獲取的數(shù)據(jù)的維數(shù)為n,通常情況下n是很大的一個(gè)數(shù),為簡化模型,也為了防止模型陷入過擬合(維數(shù)災(zāi)難),需要進(jìn)行降維處理,即僅把對項(xiàng)目改造判定起關(guān)鍵作用的因素挑選出來。本系統(tǒng)采用PCA算法來進(jìn)行降維處理,過程如下:

      1)計(jì)算標(biāo)準(zhǔn)化后的矩陣Z的樣本的協(xié)方差矩陣Cov;

      2)計(jì)算協(xié)方差矩陣Cov的本征向量e1,e2,…,en的本征值。本征值按大到小排序;

      3)投影數(shù)據(jù)

      到本征矢張成的空間之中,利用貢獻(xiàn)分析取前m個(gè)向量Y1,Y2,…,Ym。

      2.2基于營銷目標(biāo)限制的商戶精確聚類算法

      現(xiàn)有聚類算法一般沒有約束條件,只根據(jù)相似度來進(jìn)行聚類,為了能夠體現(xiàn)約束條件,需要在聚類相似度或者樣本距離之間把限制條件增加進(jìn)去,這樣在樣本聚類的時(shí)候即可使得具有相同營銷特性的樣本或者客戶被劃分到同一個(gè)類中。煙草終端商戶的大部分屬性是分類屬性,例如:地區(qū)、類別等,此外還有數(shù)字型屬性、日期型屬性,由于存在不同類型的屬性,常規(guī)的聚類算法無法使用,為此,采用把數(shù)字屬性和日期屬性劃分區(qū)間的思路,這樣可以轉(zhuǎn)化成分類屬性的方式來進(jìn)行聚類。進(jìn)而可建立如下商戶模型:分類對象X∈Ω,X=[A1=x1]∧[A2=x2]∧…∧[Am=xm],其中xj∈DOM(Aj),1≤j≤m,為簡便起見,將對象X∈Ω用向量(x1,x2,…,xm)表達(dá),如果屬性Aj的值不存在,則Aj=ε。令Χ={X1,X2,…,Xn}為n個(gè)分類對象的集合,用集合方式表達(dá)分類對象,則Xi={xi,1,xi,2,…,xi,m},如果屬性Aj的值不存在,則集合中不出現(xiàn)xi,j,容易得到|Xi|≤m。如果存在Xi,j=Xk,j,1≤j≤m,則Xi=Xk。為方便聚類,利用聚類匯總來壓縮原始數(shù)據(jù),從而達(dá)到提高算法效率的目的。一個(gè)類C可以由如下三元組(n,I,S)來表示。其中n為類C中的對象數(shù)量,I={i1,i2,…,iu}是C內(nèi)所有屬性值的集合,S={s1,s2,…,su},其中sj為ij在類C中的數(shù)量,ij∈I,1≤j≤u。集合S按升序排列,即s1≤s2≤…≤su,這同時(shí)也暗示集合I的元素按其在C中的數(shù)量按升序排列。三元組(n,I,S)被稱作類C的聚類匯總CS,CS的三個(gè)成員分別記作CS.n、CS.I和CS.S;對于CS.I的任一元素ij∈CS.I,則記作CS.I.ij,對于sj∈CS.S,則記作CS.S.sj,其中1≤j≤u。

      2.3基于煙草營銷的多層關(guān)聯(lián)規(guī)則的研究

      針對本項(xiàng)目,對關(guān)聯(lián)規(guī)則定義進(jìn)行擴(kuò)展,對形如:XY的關(guān)聯(lián)規(guī)則,不再限定X和Y為一個(gè)項(xiàng)目集,而把X和Y定義為條件的合取范式,每個(gè)條件Ai=True/False為布爾表達(dá)式。此時(shí)的Ai為一個(gè)項(xiàng)目集,它的含義與原來的X和Y的含義相同,如果把結(jié)果中的條件布爾表達(dá)式寫成Cj=True/False,則關(guān)聯(lián)規(guī)則有如下形式:(A1=True/False)∧(A2=True/False)∧…∧(An=True/False)(C1=True/False)∧(C2=True/False)∧…∧(Cm=True/False)關(guān)聯(lián)規(guī)則的開采問題可以分解成以下兩個(gè)子問題:

      ①從數(shù)據(jù)集合或交易集合D中發(fā)現(xiàn)所有的頻繁項(xiàng)目集。

      篇(4)

      二、數(shù)據(jù)挖掘的方法

      1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個(gè)變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測變量集的對數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

      2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對這些規(guī)則要進(jìn)行有效的評價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。

      3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價(jià),此外,聚類分析還用于對孤立點(diǎn)的檢測。并非由聚類分析算法得到的類對決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對數(shù)據(jù)的聚類趨勢進(jìn)行檢驗(yàn)。

      4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個(gè)結(jié)點(diǎn)說明了對實(shí)例的某個(gè)屬性的測試,該結(jié)點(diǎn)的每一個(gè)后繼分支對應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對應(yīng)的樹枝向下移動。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

      5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對人腦或其他計(jì)算機(jī)來說極為復(fù)雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。

      6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來更新當(dāng)前群體的一組假設(shè),來實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過程;變異(突變)是對某些個(gè)體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。

      7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

      8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。

      事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

      三、結(jié)束語

      目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。

      參考文獻(xiàn):

      篇(5)

      由于信息技術(shù)的迅速發(fā)展,現(xiàn)代的檔案管理模式與過去相比,也有了很大的變化,也讓如今的檔案管理模式有了新的挑戰(zhàn)。讓人們對信息即時(shí)、大量地獲取是目前檔案管理工作和檔案管理系統(tǒng)急切需要解決的問題。

      一、數(shù)據(jù)挖掘概述

      (一)數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘是指從大量的、不規(guī)則、亂序的數(shù)據(jù)中,進(jìn)行分析歸納,得到隱藏的,未知的,但同時(shí)又含有較大價(jià)值的信息和知識。它主要對確定目標(biāo)的有關(guān)信息,使用自動化和統(tǒng)計(jì)學(xué)等方法對信息進(jìn)行預(yù)測、偏差分析和關(guān)聯(lián)分析等,從而得到合理的結(jié)論。在檔案管理中使用數(shù)據(jù)挖掘技術(shù),能夠充分地發(fā)揮檔案管理的作用,從而達(dá)到良好的檔案管理工作效果。(二)數(shù)據(jù)挖掘技術(shù)分析。數(shù)據(jù)挖掘技術(shù)分析的方法是多種多樣的,其主要方法有以下幾種:1.關(guān)聯(lián)分析。指從已經(jīng)知道的信息數(shù)據(jù)中,找到多次展現(xiàn)的信息數(shù)據(jù),由信息的說明特征,從而得到具有相同屬性的事物特征。2.分類分析。利用信息數(shù)據(jù)的特征,歸納總結(jié)相關(guān)信息數(shù)據(jù)的數(shù)據(jù)庫,建立所需要的數(shù)據(jù)模型,從而來識別一些未知的信息數(shù)據(jù)。3.聚類分析。通過在確定的數(shù)據(jù)中,找尋信息的價(jià)值聯(lián)系,得到相應(yīng)的管理方案。4.序列分析。通過分析信息的前后因果關(guān)系,從而判斷信息之間可能出現(xiàn)的聯(lián)系。

      二、數(shù)據(jù)挖掘的重要性

      在進(jìn)行現(xiàn)代檔案信息處理時(shí),傳統(tǒng)的檔案管理方法已經(jīng)不能滿足其管理的要求,數(shù)據(jù)挖掘技術(shù)在這方面確有著顯著的優(yōu)勢。首先,檔案是較為重要的信息記錄,甚至有些檔案的重要性大到無價(jià),因此對于此類的珍貴檔案,相關(guān)的檔案管理人員也是希望檔案本身及其價(jià)值一直保持下去。不過越是珍貴的檔案,其使用率自然也就越高,所以其安全性就很難得到保障,在檔案管理中運(yùn)用數(shù)據(jù)挖掘技術(shù),可以讓檔案的信息數(shù)據(jù)得到分析統(tǒng)計(jì),歸納總結(jié),不必次次實(shí)物查閱,這樣就極大地提升了檔案相關(guān)內(nèi)容的安全性,降低檔案的磨損率。并且可以對私密檔案進(jìn)行加密,進(jìn)行授權(quán)查閱,進(jìn)一步提高檔案信息的安全性。其次,對檔案進(jìn)行鑒定與甄別,這也是檔案工作中較困難的過程,過去做好這方面的工作主要依靠管理檔案管理員自己的能力和水平,主觀上的因素影響很大,但是數(shù)據(jù)挖掘技術(shù)可以及時(shí)對檔案進(jìn)行編碼和收集,對檔案進(jìn)行數(shù)字化的管理和規(guī)劃,解放人力資源,提升檔案利用的服務(wù)水平。第三,數(shù)據(jù)挖掘技術(shù)可以減少檔案的收集和保管成本,根據(jù)檔案的特點(diǎn)和規(guī)律建立的數(shù)據(jù)模型能為之后的工作人員建立一種標(biāo)準(zhǔn),提升了檔案的鑒定效率。

      三、檔案管理的數(shù)據(jù)挖掘運(yùn)用

      (一)檔案信息的收集。在實(shí)施檔案管理工作時(shí),首先需要對檔案信息數(shù)據(jù)的收集。可以運(yùn)用相關(guān)檔案數(shù)據(jù)庫的數(shù)據(jù)資料,進(jìn)行科學(xué)的分析,制定科學(xué)的說明方案,對確定的數(shù)據(jù)集合類型和一些相關(guān)概念的模型進(jìn)行科學(xué)說明,利用這些數(shù)據(jù)說明,建立準(zhǔn)確的數(shù)據(jù)模型,并以此數(shù)據(jù)模型作為標(biāo)準(zhǔn),為檔案信息的快速分類以及整合奠定基礎(chǔ)。例如,在體育局的相關(guān)網(wǎng)站上提供問卷,利用問卷來得到的所需要的信息數(shù)據(jù),導(dǎo)入數(shù)據(jù)庫中,讓數(shù)據(jù)庫模型中保有使用者的相關(guān)個(gè)人信息,通過對使用者的信息數(shù)據(jù)進(jìn)行說明,從而判斷使用者可能的類型,提升服務(wù)的準(zhǔn)確性。因此,數(shù)據(jù)挖掘技術(shù)為檔案信息的迅速有效收集,為檔案分類以及后續(xù)工作的順利展開,提供了有利條件,為個(gè)性化服務(wù)的實(shí)現(xiàn)提供了保證。(二)檔案信息的分類。數(shù)據(jù)挖掘技術(shù)具有的屬性分析能力,可以將數(shù)據(jù)庫中的信息進(jìn)行分門別類,將信息的對象通過不同的特征,規(guī)劃為不同的分類。將數(shù)據(jù)挖掘技術(shù)運(yùn)用到檔案管理中時(shí),可以簡單快速地找到想要的檔案數(shù)據(jù),能根據(jù)數(shù)據(jù)中使用者的相關(guān)數(shù)據(jù),找尋使用者在數(shù)據(jù)庫中的信息,使用數(shù)據(jù)模型的分析能力,分析出使用者的相關(guān)特征。利如,在使用者上網(wǎng)使用網(wǎng)址時(shí),數(shù)據(jù)挖掘技術(shù)可以充分利用使用者的搜索數(shù)據(jù)以及網(wǎng)站的訪問記錄,自動保存用戶的搜索信息、搜索內(nèi)容、下載次數(shù)、時(shí)間等,得到用戶的偏好和特征,對用戶可能存在的需求進(jìn)行預(yù)測和分類,更加迅速和準(zhǔn)確的,為用戶提供個(gè)性化的服務(wù)。(三)檔案信息的整合。數(shù)據(jù)挖掘技術(shù)可以對新舊檔案的信息進(jìn)行整合處理,可以較為簡單地將“死檔案”整合形成為“活檔案”,提供良好的檔案信息和有效的檔案管理。例如,對于企事業(yè)單位而言,培訓(xùn)新員工的成本往往比聘請老員工的成本要高出很多。對老員工的檔案信息情況進(jìn)行全體整合,使檔案資源充分發(fā)揮作用,將檔案數(shù)據(jù)進(jìn)行總結(jié)和規(guī)劃,根據(jù)數(shù)據(jù)之間的聯(lián)系確定老員工流失的原因,然后建立清晰、明白的數(shù)據(jù)庫,這樣可以防止人才流失,也能大大提高檔案管理的效率。

      四、結(jié)語

      綜上所述,在這個(gè)信息技術(shù)迅速跳躍發(fā)展的時(shí)代,將數(shù)據(jù)挖掘技術(shù)運(yùn)用到檔案管理工作中是時(shí)展的需求與必然結(jié)果。利用數(shù)據(jù)挖掘技術(shù),可以使檔案管理工作的效率大大提升,不僅減少了搜索檔案信息的時(shí)間,節(jié)省人力物力,避免資源的浪費(fèi),還能幫助用戶在海量的信息數(shù)據(jù)中,快速找到所需的檔案數(shù)據(jù)信息。數(shù)據(jù)挖掘技術(shù)的運(yùn)用,使靜態(tài)的檔案信息變成了可以“主動”為企事業(yè)單位的發(fā)展,提供有效的個(gè)性化服務(wù)的檔案管家,推動了社會的快速發(fā)展。

      作者:于然 單位:揚(yáng)州市體育局辦公室

      【參考文獻(xiàn)】

      篇(6)

      2增量子空間數(shù)據(jù)挖掘算法

      為了能夠有效地在復(fù)雜網(wǎng)絡(luò)中挖掘出目的數(shù)據(jù)流,使用了復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)流密度的分析方法在對復(fù)雜網(wǎng)絡(luò)進(jìn)行社區(qū)劃分后,通過對社區(qū)網(wǎng)絡(luò)進(jìn)行無向環(huán)路遍歷并得到社區(qū)網(wǎng)絡(luò)的所有環(huán)路。接下來挖掘算法先后挖掘出目的數(shù)據(jù)流所屬的社區(qū)以及環(huán)路,最終確定目的數(shù)據(jù)流的具置。

      2.1基于社區(qū)網(wǎng)絡(luò)遍歷的數(shù)據(jù)流挖掘

      當(dāng)數(shù)據(jù)流i與社區(qū)k的相關(guān)度最大時(shí),說明數(shù)據(jù)流i位于社區(qū)k的可能性就最大。但是當(dāng)多個(gè)數(shù)據(jù)流的大小區(qū)別不大時(shí),以數(shù)據(jù)流的大小作為指標(biāo)來定義相關(guān)度會導(dǎo)致挖掘精度較低。這里我們也引入數(shù)據(jù)流的特征集和數(shù)據(jù)流中的分組隊(duì)列長度來計(jì)算相關(guān)度。

      2.2基于多增量空間的數(shù)據(jù)流挖掘

      在采用基于社區(qū)網(wǎng)絡(luò)遍歷的數(shù)據(jù)流挖掘方法得到數(shù)據(jù)流的所屬社區(qū)后,我們接著采用基于多增量空間的數(shù)據(jù)流挖掘方法來挖掘出數(shù)據(jù)流的所屬環(huán)路。先將社區(qū)網(wǎng)絡(luò)的環(huán)路進(jìn)行多增量空間擴(kuò)展,即先得到

      目標(biāo)數(shù)據(jù)流所經(jīng)過的環(huán)路,再得到數(shù)據(jù)流所經(jīng)過的節(jié)點(diǎn)與時(shí)間的相關(guān)系數(shù),這樣就可以在時(shí)空上確定目的數(shù)據(jù)流位于環(huán)路的哪個(gè)節(jié)點(diǎn)中。

      3實(shí)驗(yàn)結(jié)果

      為了驗(yàn)證本文提出的基于復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)流密度的增量子空間數(shù)據(jù)挖掘算法的效果,我們通過matlab7.0軟件進(jìn)行算法仿真,其中仿真的復(fù)雜網(wǎng)絡(luò)由多種網(wǎng)絡(luò)形式組成,網(wǎng)絡(luò)節(jié)點(diǎn)有200個(gè),數(shù)據(jù)流大小為500bytes,節(jié)點(diǎn)的接收能耗為10nJ/bit,發(fā)射能耗為50nJ/bit,進(jìn)行信號處理和功率放大的能耗為10nJ/bit。其他節(jié)點(diǎn)干擾而產(chǎn)生的能量消耗為5nJ/bit。在對本文算法進(jìn)行分析的過程中,我們采用了對比分析的方法,Lopez-Yanez等人提出一種基于時(shí)間序列數(shù)據(jù)挖掘的新的關(guān)聯(lián)模型,該模型是基于伽瑪分類,是一種監(jiān)督模式識別模型,目的是為了挖掘已知模式中的時(shí)間序列,以預(yù)測未知的值。由Negrevergne等人提出的一種PARAMINER算法:一個(gè)通用的模式挖掘算法的多核架構(gòu)。多核架構(gòu)采用的是一種新的數(shù)據(jù)集縮減技術(shù)(稱之為EL-還原),在算法中通過結(jié)合新的技術(shù)用于處理多核心架構(gòu)的并行執(zhí)行數(shù)據(jù)集。為了驗(yàn)證本文算法的挖掘有效性,我們分別在增多節(jié)點(diǎn)數(shù)量和社區(qū)網(wǎng)絡(luò)數(shù)的情況下獲取算法的數(shù)據(jù)挖掘精度。實(shí)驗(yàn)采用的精度為NMI[16],實(shí)驗(yàn)結(jié)果如圖3和圖4所示。在不同節(jié)點(diǎn)數(shù)量下基于復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)流密度的增量子空間數(shù)據(jù)挖掘算法的挖掘精度更高,挖掘精度高于85%,而文獻(xiàn)[14]的挖掘精度在77%以上,挖掘精度在76%以上。因?yàn)椤⑻岢龅年P(guān)聯(lián)模型、提出的多核架構(gòu)沒有準(zhǔn)確把握數(shù)據(jù)流在不同時(shí)間段里與環(huán)路位置的相關(guān)情況。而本文算法采用社區(qū)網(wǎng)絡(luò)遍歷和多增量空間的方法可以有效地確定這種相關(guān)性。圖4為不同社區(qū)數(shù)下的算法挖掘精度,從圖中可以看出,當(dāng)社區(qū)網(wǎng)絡(luò)的種類增多時(shí),會對算法的挖掘精度造成影響,本文算法的挖掘精度在社區(qū)數(shù)為10時(shí)是95.7%,當(dāng)社區(qū)數(shù)增加到50時(shí)為87.5%。而基于時(shí)間序列數(shù)據(jù)挖掘方法的挖掘精度在社區(qū)數(shù)為10時(shí)是88.6%,在社區(qū)數(shù)為50時(shí)是77.4%,而PARAMINER算法在社區(qū)數(shù)為10時(shí)是86.7%,社區(qū)數(shù)為50時(shí)是78.2%。因此從數(shù)據(jù)分析來看,本文算法的數(shù)據(jù)挖掘精度在社區(qū)數(shù)增多時(shí)仍能保持在較高水平。

      篇(7)

      1.1領(lǐng)域本體對特定專業(yè)領(lǐng)域中的概念及之間關(guān)系的描述,即為領(lǐng)域本體,它是對一個(gè)應(yīng)用領(lǐng)域的描述,具體來說,分為本體知識庫和領(lǐng)域本體模式兩種成分,進(jìn)而描述特定的領(lǐng)域知識和信息,即為領(lǐng)域本體模式,此外,模式描述了應(yīng)用領(lǐng)域的知識構(gòu)成或靜態(tài)信息。而所謂的顧客價(jià)值需求領(lǐng)域本體,描述的是邏輯關(guān)系、描述的對象是顧客價(jià)值需求目標(biāo)概念機(jī)需求行為概念,明確則是指概念及約束是顯式的定義,基于其具有計(jì)算機(jī)刻度的特點(diǎn),構(gòu)成了形式化,研究目的將領(lǐng)域體原語定義的具體情況如下:定義一:顧客價(jià)值需求領(lǐng)域本體的概念構(gòu)成,Concerpts={Concerpts1,Concerpts2,Concerpts3},式中,顧客機(jī)制需求特性概念用Concerpts1表示,顧客的價(jià)值需求決策行為概念用Concerpts2表示,如環(huán)境約束分析、方略設(shè)計(jì)、實(shí)施等;顧客的基本特征概念則用Concerpts3表示。定義二:顧客價(jià)值需求領(lǐng)域本體形式化為三元組:ODomain={Concerpts,Relations,Instances},式中,領(lǐng)域概念的集合用Concerpts表示,領(lǐng)域概念間的關(guān)系集合用Relations表示,而ODomain為領(lǐng)域本體,本體實(shí)例的集合則用Instances表示,形成三元組。定義三:顧客價(jià)值需求領(lǐng)域本體的關(guān)系集合表示的是概念集合中各個(gè)概念之間的關(guān)系,具體數(shù)來,表現(xiàn)為n維笛卡爾積的子集。關(guān)系集合中存在5種關(guān)系,有Part-of:某個(gè)概念是另一個(gè)概念的屬性。Means-end:不同需求概念之間因果解構(gòu)關(guān)系。Subclass-of:概念之間的繼承關(guān)系。Drive-adjust:不同需求概念之間因果解構(gòu)關(guān)系。Attibute-of:某個(gè)概念是另一一個(gè)概念屬性。也就是行為感知影響目標(biāo)調(diào)整,且目標(biāo)驅(qū)動行為,二者關(guān)系密切。定義四:領(lǐng)域模式在應(yīng)用域的實(shí)例,即顧客價(jià)值需求領(lǐng)域本體的實(shí)例。如“大學(xué)生的移動產(chǎn)品需求”本體、“政府顧客的移動產(chǎn)品需求”本體等。

      1.2任務(wù)本體對特定任務(wù)或行為求解方法的描述即為任務(wù)本體,對其的設(shè)計(jì),應(yīng)當(dāng)以顧客需求管理領(lǐng)域決策信息及問題的需求為基礎(chǔ),有文獻(xiàn)指出,顧客吸引、識別、保持及發(fā)展,為顧客生命周期管理涉及到的4個(gè)管理主題,如表1所示,也包括了上述主題的決策分析問題。綜合數(shù)據(jù)挖掘的任務(wù)來看,其囊括了一個(gè)或多個(gè)挖掘子任務(wù)、挖掘算法等,結(jié)合本次研究,實(shí)施了對該領(lǐng)域的任務(wù)本體原語定義的設(shè)計(jì),如下:OTaske=(Taskea,Inputsa,Methodsa,Outputsa)上式中,挖掘任務(wù)本體用OTaske表示;α管理主題下Taskea挖掘任務(wù)的輸出變量用Inputsa表示,如興趣參量、聚類變量、規(guī)則前、后件變量;α管理主題下的挖掘任務(wù)用Taskea,如顧客細(xì)分以及需求特征描述等;挖掘結(jié)果輸出表達(dá)形式或格式用Outputsa表示,如聚類中心、“類”聚類變量均值、“類”樣本數(shù)等;挖掘方法用Methodsa表示,如K-means聚類。另外,α∈(識別顧客,吸引、保留和發(fā)展顧客)共同構(gòu)成了任務(wù)本體。

      2對本體下顧客需求數(shù)據(jù)挖掘過程的改進(jìn)

      結(jié)合現(xiàn)實(shí)發(fā)展中的相關(guān)問題,在本體的顧客需求數(shù)據(jù)挖掘過程的改進(jìn)方面,主要體現(xiàn)了挖掘目和任務(wù)、方法的選擇及確定及數(shù)據(jù)源轉(zhuǎn)化、約束參數(shù)的選擇等。這種方式下,對目標(biāo)的搜索范圍進(jìn)行了有效的縮小,進(jìn)而在此基礎(chǔ)上提高了挖掘質(zhì)量和效率,如圖1所示。

      2.1支持管理決策的挖掘任務(wù)首先要進(jìn)行的是對數(shù)據(jù)挖掘任務(wù)和目標(biāo)的確定,基于操作中驗(yàn)證或探索可支持實(shí)際管理決策的信息結(jié)構(gòu),具有較大的價(jià)值,其知識內(nèi)容包括了規(guī)則、規(guī)律、模式及關(guān)系等,結(jié)合文中研究主題,依據(jù)顧客需求相應(yīng)決策問題來進(jìn)行具體數(shù)據(jù)挖掘任務(wù)的設(shè)置,在對挖掘任務(wù)和目標(biāo)的完善方面,有效地結(jié)合了領(lǐng)域知識的本體模型。在對應(yīng)概念及關(guān)系語義匹配方面,根據(jù)該領(lǐng)域需求目標(biāo)、行為信息的本體模型來進(jìn)行,繼而確定本次數(shù)據(jù)挖掘任務(wù)。

      2.2挖掘數(shù)據(jù)空間及預(yù)處理在具體的實(shí)施過程中,以數(shù)據(jù)挖掘任務(wù)和領(lǐng)域本體模型為基礎(chǔ),指導(dǎo)完成數(shù)據(jù)集成、選擇以及預(yù)處理3個(gè)環(huán)節(jié),這便是挖掘數(shù)據(jù)空間及預(yù)處理,細(xì)分有以下內(nèi)容:(1)提取、歸并處理多數(shù)據(jù)庫運(yùn)行環(huán)境中顧客數(shù)據(jù),以及遺漏和洗清臟數(shù)據(jù)等;(2)基于數(shù)據(jù)來進(jìn)行數(shù)據(jù)的選擇方面的需求,應(yīng)依據(jù)數(shù)據(jù)挖掘任務(wù)需要分析的數(shù)據(jù)來實(shí)施,進(jìn)而有效減少了不相關(guān)或冗余的屬性,也得到了符合約束的數(shù)據(jù)挖掘有限數(shù)據(jù)基,實(shí)現(xiàn)了數(shù)據(jù)挖掘搜索效率的有效提高,使得相關(guān)屬性或遺漏等現(xiàn)象得到了有效避免;(3)基于顧客“需求行為”領(lǐng)域本體的概念語義即為預(yù)處理,旨在檢查轉(zhuǎn)載的數(shù)據(jù),確保其合法性,并及時(shí)修正其中的錯(cuò)誤,預(yù)處理其中的異常數(shù)據(jù)。

      2.3挖掘方法算法及執(zhí)行流程依據(jù)本次研究的需要,在具體的執(zhí)行過程中,設(shè)定先明確數(shù)據(jù)挖掘的任務(wù)和目的,詳細(xì)可分為驗(yàn)證性、探索性挖兩種,前者由用戶事先給定假設(shè),繼而在挖掘中發(fā)現(xiàn)蘊(yùn)含的某些規(guī)則或規(guī)律,對所做的假設(shè)進(jìn)行驗(yàn)證;其次,對操作過程中的挖掘方法和算法進(jìn)行確定,而挖掘方法和感興趣參數(shù)的設(shè)置則要根據(jù)挖掘任務(wù)來進(jìn)行,如表1所示;最后,確定挖掘結(jié)果的表達(dá)方式,一般有神經(jīng)網(wǎng)絡(luò)、樹結(jié)構(gòu)以及規(guī)則(模板)等[6]。

      2.4評價(jià)挖掘結(jié)果作為整個(gè)實(shí)施過程的最后一個(gè)環(huán)節(jié),對于挖掘結(jié)果的評價(jià)和詮釋,對于整個(gè)操作過程具有十分重要的意義,在具體的評價(jià)過程中,不能有違背領(lǐng)域本體知識的行為,并要及時(shí)參與領(lǐng)域本體的概念關(guān)系,且還要采取相應(yīng)的方法來提高綜合評價(jià)的有效性,如置信度、支持度以及興趣度等等,在必要的情況下,實(shí)施方應(yīng)當(dāng)反饋調(diào)整參數(shù)或約束等,繼而形成對用戶感興趣知識的重新挖掘,對其進(jìn)行完善,基于本體用嚴(yán)格的邏輯語言表述過程中產(chǎn)生的新知識,需及時(shí)在實(shí)踐過程中的檢驗(yàn)與完善,使得整個(gè)過程具有較高的可信度,收到良好的執(zhí)行效益。

      篇(8)

      二、最小二乘法擬合直線

      最小二乘法是一種數(shù)學(xué)優(yōu)化技術(shù)。它以某一社會、經(jīng)濟(jì)或自然現(xiàn)象為對象,尋找一擬合曲線,以滿足給定對象系統(tǒng)的一組觀測數(shù)據(jù)。通常要求選擇的擬合曲線會使各觀測數(shù)據(jù)到擬合曲線的誤差的平方和最小。

      本文研究銷售企業(yè)(如商場)異常客戶的性質(zhì)。設(shè)一段時(shí)期內(nèi)客戶的累計(jì)消費(fèi)金額為y,對應(yīng)的消費(fèi)時(shí)期為x。假定測得客戶的n個(gè)數(shù)據(jù)(x1,y1),…,(xn,yn),則在XOY平面上可以得到n個(gè)實(shí)驗(yàn)點(diǎn):Pi(xi,yi)(i=1,…n),這種圖形稱為“散點(diǎn)圖”(如圖1,圖2)。在利用最小二乘法進(jìn)行分析時(shí),各種非線性關(guān)系的擬合曲線均可線性化,因此此處選擇直線y=ax+b作為擬合直線,尋求x與y之間近似線性關(guān)系時(shí)的經(jīng)驗(yàn)公式。其中a為直線的斜率,b為直線在y軸上的截距。

      如果Pi(i=1,…n)全部位于同一條直線上,則可認(rèn)為變量之間的關(guān)系為y=ax+b,但一般情況下不會如此。記估計(jì)值=axi+b,則各實(shí)驗(yàn)點(diǎn)與擬合直線之間的誤差為εi=-yi=(axi+b)-yi,它反映了用直線y=ax+b來描述(xi,yi)時(shí),估計(jì)值與觀測值yi之間的偏差大小。則有:

      要求偏差越小越好。但由于εi可正可負(fù),簡單求和可能將很大的誤差抵消掉,只有平方和才能反映二者在總體上的接近程度,這就是最小二乘原則。于是問題歸結(jié)為根據(jù)這一要求來確定y=ax+b中的a和b,使得最小。因?yàn)镕(a,b)是關(guān)于a、b的二次函數(shù)并且非負(fù),所以其極小值總是存在的。根據(jù)羅彼塔法則,F(xiàn)取最小值時(shí),有:

      于是得到了符合最小二乘原則的相應(yīng)解:

      三、基于斜率的異常客戶挖掘算法

      1.問題描述

      本文的目的是研究某一消費(fèi)時(shí)期內(nèi),異常客戶的消費(fèi)傾向。取異常客戶一年內(nèi)各月份的累計(jì)消費(fèi)金額為參考,記錄的數(shù)據(jù)如下(表1,表2)。根據(jù)其散點(diǎn)圖(圖1,圖2)可以看出,客戶的累計(jì)消費(fèi)金額隨時(shí)間都呈上升趨勢,所以難以觀察出該客戶是否對商場保持持久的忠誠度,是否有轉(zhuǎn)向競爭對手的可能。基于斜率的異常客戶挖掘算法正是要解決識別客戶性質(zhì)這一問題。

      2.算法描述

      算法:Outlier_Analysis。根據(jù)輸出的a值來判斷異常客戶的性質(zhì):積極的或消極的。

      輸入:客戶數(shù)據(jù),即參考點(diǎn),由有序點(diǎn)對(xi,yi)表示;參考點(diǎn)的個(gè)數(shù)n。

      輸出:a(直線的斜率),b(直線在y軸上的截距)。

      方法:

      (1)初始化a、b。

      (2)對客戶的n個(gè)觀測數(shù)據(jù)(即n個(gè)記錄點(diǎn))進(jìn)行相關(guān)數(shù)據(jù)計(jì)算:

      (3)ifa<0then

      客戶購買金額呈減少趨勢,為消極客戶

      else

      篇(9)

      2、系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

      2.1系統(tǒng)開發(fā)與運(yùn)行環(huán)境硬件環(huán)境:CPUIntelI3380M/RAM2G/硬盤320G軟件配置:操作系統(tǒng):Windows7SP1開發(fā)工具:2005/VisualC#數(shù)據(jù)庫管理系統(tǒng):MSSQLServer2008輔助軟件:SPSSClementine11.1;SQLServer2008AnalysisServices(SSAS)

      2.2主要技術(shù)與系統(tǒng)實(shí)現(xiàn)通過對上述對客戶購買數(shù)據(jù)挖掘系統(tǒng)模型的分析可知,該系統(tǒng)主要由用戶接口模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)格式轉(zhuǎn)換模塊、數(shù)據(jù)庫生成模塊和數(shù)據(jù)挖掘引擎模塊等組成。1)用戶接口模塊本系統(tǒng)最終目的還是為為客戶的決策提供支持,因此友好的界面設(shè)計(jì)是用戶與系統(tǒng)交互的基礎(chǔ)。簡潔而易于理解的界面有利于提高用戶對系統(tǒng)的使用效率。2)數(shù)據(jù)預(yù)處理模塊客戶訪問數(shù)據(jù)進(jìn)入數(shù)據(jù)預(yù)處理模塊進(jìn)行清洗,去除無關(guān)的信息,剝離出對數(shù)據(jù)挖掘有價(jià)值的數(shù)據(jù)。數(shù)據(jù)預(yù)處理模塊對原始訪問數(shù)據(jù)進(jìn)行分析,將用戶購買數(shù)據(jù)記錄逐條的分割成十個(gè)字段,分別為:u_id(訪問者編號),u_date(到訪日期),u_time(到訪時(shí)間),u_orderid(訂單編號),u_product(客戶購買的商品),u_bowser(使用的瀏覽器類型),page(首次到訪頁面),place(客戶所在地區(qū)),payment(支付方式),logistic(物流方式),同時(shí)刪除訪問數(shù)據(jù)中與以上字段不相干的數(shù)據(jù)。然后將經(jīng)過預(yù)處理的數(shù)據(jù)存入中間文件。3)XML轉(zhuǎn)換模塊該模塊程序使用.NET的相關(guān)的方法編寫,主要功能將預(yù)處理過的客戶購買數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)化XML格式的數(shù)據(jù)文件進(jìn)行存儲。該程序的主要實(shí)現(xiàn)原理是對經(jīng)過預(yù)處理的中間文件中的數(shù)據(jù)記錄逐個(gè)分割并存入數(shù)組,然后將數(shù)組的內(nèi)容按照XML的格式寫入文件,完成轉(zhuǎn)換。4)數(shù)據(jù)庫導(dǎo)入模塊利用.NET的相關(guān)方法并結(jié)合數(shù)據(jù)庫管理工具建立支持?jǐn)?shù)據(jù)挖掘的客戶購買數(shù)據(jù)庫,編寫相關(guān)程序?qū)⒁呀?jīng)轉(zhuǎn)換成XML格式的客戶訪問數(shù)據(jù)逐條的導(dǎo)入到數(shù)據(jù)庫并形成日志數(shù)據(jù)表方便進(jìn)行后續(xù)的數(shù)據(jù)挖掘。5)數(shù)據(jù)挖掘引擎模塊數(shù)據(jù)挖掘引擎是實(shí)現(xiàn)客戶購買數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)關(guān)鍵。優(yōu)秀的數(shù)據(jù)挖掘算法不僅可以使數(shù)據(jù)挖掘的結(jié)果更加準(zhǔn)確,也可以提高數(shù)據(jù)挖掘的效率。本系統(tǒng)主要用到的算法是該模塊利用數(shù)據(jù)挖掘算法對數(shù)據(jù)進(jìn)行挖掘,主要包括算法的優(yōu)化、日志數(shù)據(jù)表的刪除操作以及挖掘結(jié)果集的保存與刪除操作等。這里主要用到的算法是K-Means算法。主要是利用該算法發(fā)現(xiàn)最相似的客戶聚類,通過對聚類的分析來得出網(wǎng)店眾多的顧客一般的購買行為模式,從而可以適當(dāng)?shù)卣{(diào)整網(wǎng)站營銷的策略中的來提高網(wǎng)絡(luò)營銷的效果,進(jìn)而增加銷售量。

      篇(10)

      1.2分類。它能將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng),映射到給定類別中的一個(gè)。分類[3]定義了一種從屬性到類別的映射關(guān)系,給定樣本的屬性值,根據(jù)已知的模式將其劃分到特定的類中。

      1.3聚類分析。聚類是根據(jù)一定的規(guī)則,按照相似性把樣本歸成若干類別。在對樣本合理劃分后,對不同的類進(jìn)行描述。聚類通常用于將客戶細(xì)分成不同的客戶群,如有相同愛好的客戶群。

      1.4時(shí)間序列。按照時(shí)間的順序把隨機(jī)事件變化發(fā)展的過錯(cuò)記錄下來就構(gòu)成了一個(gè)時(shí)間序列。對時(shí)間序列進(jìn)行觀察、研究,找尋它變化發(fā)展的規(guī)律,預(yù)測它將來的走勢就是時(shí)間序列分析。

      1.5孤立點(diǎn)分析。孤立點(diǎn)在數(shù)學(xué)上是指坐標(biāo)滿足曲線方程,但并不落在曲線上的點(diǎn)。它也可以被看作是在數(shù)據(jù)集合中與大多數(shù)數(shù)據(jù)特征不一致的數(shù)據(jù)。對孤立點(diǎn)進(jìn)行分析極有可能發(fā)現(xiàn)重要的隱藏信息。

      1.6遺傳算法。它是一類借鑒生物界的進(jìn)化規(guī)律(適者生存,優(yōu)勝劣汰遺傳機(jī)制)演化而來的隨機(jī)化搜索方法;是一個(gè)以適應(yīng)度為目標(biāo)函數(shù),對種群個(gè)體施加遺傳操作,實(shí)現(xiàn)群體結(jié)構(gòu)重組,經(jīng)迭代而達(dá)到總體優(yōu)化的過程。目前,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于煙草行業(yè)的研究逐步受到重視。歐陽秀君,劉文在《數(shù)據(jù)挖掘技術(shù)在煙草CRM中的應(yīng)用》一文中[4],主要探討如何將數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則、聚類、分類方法應(yīng)用于煙草CRM中。康江峰,陳輝[5]將基于數(shù)據(jù)挖掘的技術(shù)應(yīng)用于對煙草精準(zhǔn)營銷策略的研究。王辛盟[6]采用數(shù)據(jù)挖掘技術(shù),利用SPSS統(tǒng)計(jì)軟件,以某煙草配送中心的訂單數(shù)據(jù)和客戶資料數(shù)據(jù)為數(shù)據(jù)源,用聚類的方法對客戶群進(jìn)行細(xì)分。鄭陽洋、劉希玉[7]采用基于多層次關(guān)聯(lián)規(guī)則挖掘技術(shù),對2007年山東省內(nèi)某地級市卷煙商業(yè)企業(yè)的銷售數(shù)據(jù)進(jìn)行分析,得到“消費(fèi)者在購買品名為紅河(軟甲)的客戶中,有57%會同時(shí)購買類名為八喜的卷煙”的規(guī)則。但以上對于煙草行業(yè)的數(shù)據(jù)挖掘研究的方法主要集中在關(guān)聯(lián)規(guī)則、聚類分析和分類三種方法上,在接下來的研究中,我將探討如何將更多的數(shù)據(jù)挖掘方法應(yīng)用于煙草行業(yè)的數(shù)據(jù)分析上。

      2數(shù)據(jù)挖掘技術(shù)在煙草行業(yè)中的應(yīng)用

      2.1聚類分析在卷煙銷售中的應(yīng)用為了便于日常卷煙銷售及統(tǒng)計(jì),通常根據(jù)卷煙的屬性對進(jìn)卷煙行分類,常見的卷煙分類方法如下:一是按照價(jià)位段劃分,5元以下、5-10元、10元以上等;二是按照利潤貢獻(xiàn)度,分為一類煙、二類煙、三類煙、四類煙和五類煙;三是按照卷煙品牌劃分,泰山系列、黃鶴樓系列、七匹狼系列等;四是按照產(chǎn)地劃分,魯產(chǎn)煙、滬產(chǎn)煙、外產(chǎn)煙等;五是按照焦油含量劃分,低焦油卷煙和高焦油卷煙。以上就卷煙的某一單一屬性對卷煙類別進(jìn)行區(qū)分,極大的方便卷煙的銷售管理工作,然而,消費(fèi)者在選擇卷煙時(shí),往往會考慮多方面的屬性,因此單一屬性的卷煙分類無法解釋消費(fèi)者偏好。因此需要引入基于多屬性的卷煙分類方法,由于卷煙規(guī)格多且本身具有多重屬性,基于主觀判別分類方法難以滿足分類要求,需借助統(tǒng)計(jì)學(xué)的方法對卷煙進(jìn)行科學(xué)分類。聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個(gè)類的分析過程,同一類別的樣本表現(xiàn)出較高的相似性。因此,可將聚類分析用于解決上述卷煙分類問題,根據(jù)多屬性相似程度將卷煙分成幾個(gè)類別,消費(fèi)者在同一類別中的香煙偏好無顯著差異,即同一類別中的香煙具有較高的替代效應(yīng)。在實(shí)際銷售過程中,當(dāng)某一牌號的卷煙斷貨、緊俏時(shí),可推薦此牌號所在類別的其它牌號的卷煙給消費(fèi)者作為有效替代。

      2.2時(shí)間序列用于卷煙銷售趨勢預(yù)測卷煙銷售市場季節(jié)性特別顯著,主要表現(xiàn)為兩個(gè)方面:一是市場以節(jié)假日為節(jié)點(diǎn),節(jié)前卷煙銷售迅猛,節(jié)后消費(fèi)趨于平淡;二是夏季是旅游市場的旺盛,旅游業(yè)帶動外來人口流動增加,卷煙銷售量也隨同增加。同時(shí),卷煙市場也受經(jīng)濟(jì)、人口結(jié)構(gòu)等方面因素影響,使得卷煙銷售量存在明顯的非線性特征,波動范圍比較大,傳統(tǒng)線性預(yù)測模型難以準(zhǔn)確預(yù)測。為了提高卷煙銷售預(yù)測精度,建立一個(gè)基于時(shí)間序列、能夠精確預(yù)測卷煙銷售量的模型已經(jīng)成為一種必然趨勢。時(shí)間序列由四個(gè)影響成分所組成,分別是長期趨勢、循環(huán)變動、季節(jié)變動、不規(guī)則變動。這四個(gè)影響成分與卷煙銷售市場的變動規(guī)律相吻合。通過建立卷煙銷售時(shí)間序列模型,對以往銷售的歷史數(shù)據(jù)進(jìn)行分析,能夠有效地預(yù)測未來卷煙銷售市場的走勢和發(fā)展規(guī)律,更好地掌握卷煙市場的供需關(guān)系。在此基礎(chǔ)上,做好備貨工作,設(shè)立合理庫存,實(shí)現(xiàn)有效的貨源供應(yīng)。通過對區(qū)域市場變化趨勢的預(yù)測并結(jié)合客戶實(shí)時(shí)經(jīng)營狀況,能夠?qū)蛻舻男枨罂偭孔龀鱿噙m應(yīng)的預(yù)測,確保做好客戶的合理定量工作,保障不同零售客戶需求。預(yù)測結(jié)果還可為制定公平合理的貨源投放政策提供依據(jù),使得各類貨源能夠投放至有相應(yīng)銷售能力的客戶手中,更好的滿足消費(fèi)者的需求。

      2.3孤立點(diǎn)分析用于煙草專賣執(zhí)法數(shù)據(jù)挖掘中的孤立點(diǎn)分析方法可以通過計(jì)算數(shù)據(jù)點(diǎn)之間的距離,稠密度等來模擬用戶之間的屬性差異,由此找到那些屬性特征與正常點(diǎn)差異非常大的用戶數(shù)據(jù)點(diǎn)。人們普遍認(rèn)為孤立點(diǎn)的存在極有可能是度量或執(zhí)行錯(cuò)誤所導(dǎo)致的,因其不符合數(shù)據(jù)的一般模型,所以在研究普遍現(xiàn)象時(shí),人們總是試圖使孤立點(diǎn)的影響最小化,而盡可能排除它們。然而,孤立點(diǎn)可能隱藏著比一般的數(shù)據(jù)更有價(jià)值的信息。近些年來,孤立點(diǎn)挖掘作為一個(gè)重要的研究課題,已被廣泛用于信用卡詐騙監(jiān)測、市場內(nèi)部交易偵測、工業(yè)設(shè)備故障探測等領(lǐng)域。在已建立的煙草分銷數(shù)據(jù)庫中儲存著大量客戶訂單信息,這些訂單信息包含多個(gè)維度,如用戶ID、商品編號、訂購數(shù)量、需求數(shù)量、同一品牌訂貨間隔等等。可利用孤立點(diǎn)挖掘算法對客戶訂單數(shù)據(jù)進(jìn)行分析,建立客戶評估監(jiān)測模型,找到以下“孤立點(diǎn)”:訂單金額高的,敏感牌號訂購量大的,敏感牌號訂購頻繁的,以往訂購敏感牌號頻率低但最近一段時(shí)間頻繁訂購的,按照商圈不具備高端敏感牌號銷路的卻頻繁訂購等等。這類訂單“異常”的客戶,或者稱為“孤立點(diǎn)”,可以被認(rèn)為是存在相當(dāng)大的“違規(guī)”可能性,我們的專賣執(zhí)法人員應(yīng)該對這一類的零售戶采取進(jìn)一步的跟蹤調(diào)查。孤立點(diǎn)數(shù)據(jù)分析,勢必成為專賣執(zhí)法的又一利器。

      2.4遺傳算法用于車輛配送線路優(yōu)化卷煙商業(yè)企業(yè)的銷售收益主要來自于訂單,銷售成本主要產(chǎn)生在物流配送的環(huán)節(jié)。所以,在假設(shè)銷售量不變的情況下,如何優(yōu)化線路配置,降低成本,最大化公司利潤,在當(dāng)前煙草行業(yè)面臨巨大的挑戰(zhàn)和壓力下,顯得尤為重要。因此,采用科學(xué)的、合理的方法來確定配送線路將是車輛優(yōu)化調(diào)度工作的重中之重,是物流系統(tǒng)優(yōu)化、物流科學(xué)化的關(guān)鍵。煙草商業(yè)企業(yè)已有的線路優(yōu)化系統(tǒng)中儲存有客戶商店位置、道路情況等信息,可以在此基礎(chǔ)上,利用遺傳算法對配送線路問題進(jìn)行優(yōu)化。將一系列實(shí)際中車輛配送的約束條件,轉(zhuǎn)換成二進(jìn)制編碼(染色體)并隨機(jī)產(chǎn)生初始種群,通過模擬達(dá)爾文的遺傳選擇和自然淘汰的生物進(jìn)化過程,并借助于自然遺傳學(xué)的遺傳算子進(jìn)行組合交叉和變異,逐代演化產(chǎn)生出越來越好的近似解,末代種群中的最優(yōu)個(gè)體經(jīng)過解碼,可以作為最終問題的近似最優(yōu)解,用以實(shí)現(xiàn)對車輛的優(yōu)化調(diào)度,即合理地進(jìn)行配貨優(yōu)化、貨物配裝優(yōu)化,特別是配送路線優(yōu)化。從而達(dá)到提高里程利用率,降低行駛費(fèi)用,減少車輛空駛里程,增加貨運(yùn)量,節(jié)約燃料,降低大修費(fèi)等,為企業(yè)帶來更大的經(jīng)濟(jì)效益。另外,車輛優(yōu)化調(diào)度在減少廢氣排放量,降低城市空氣污染方面也起到積極作用。

      篇(11)

      2利用數(shù)據(jù)挖掘技術(shù)建立客戶信用評價(jià)模型的實(shí)現(xiàn)方法

      數(shù)據(jù)挖掘技術(shù)是通過分析大量數(shù)據(jù),從中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)步驟。數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來;規(guī)律表示是盡可能以用戶可理解的方式將找出的規(guī)律表示出來。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析等。(1)數(shù)據(jù)挖掘方法。根據(jù)客戶信用價(jià)值評價(jià)指標(biāo)模型要求,在進(jìn)行綜合評價(jià)前,應(yīng)先確定指標(biāo)體系中各個(gè)指標(biāo)的評價(jià)值,可采用數(shù)據(jù)挖掘技術(shù)中聚類方法加以分析。聚類分析是將個(gè)體或?qū)ο蠓诸悾沟猛活愔袑ο笾g的相似性比與其他類的對象的相似性更強(qiáng)。目的在于使類間對象的同質(zhì)性最大化和類與類間對象的異質(zhì)性最大化。通過對聚類算法的分析,針對電力客戶信用分類的特征,提出了電力客戶信用評價(jià)算法.得到了不同客戶群的聚類中心以及客戶的隸屬度矩陣,為客戶群的特征分析提供了量化依據(jù),從而得到滿意的客戶聚類及分類結(jié)果。(2)數(shù)據(jù)挖掘算法。首先可采用K-means聚類算法對電力客戶樣本進(jìn)行分類,利用該算法,給定客戶分類個(gè)數(shù)k,按照樣本間距離最近的原則,將n個(gè)電力客戶劃分到k個(gè)分類中去。k個(gè)聚類中心代表了聚類的結(jié)果;進(jìn)而采用層次分析法將一個(gè)復(fù)雜的評價(jià)系統(tǒng),按其內(nèi)在的邏輯關(guān)系,以及評價(jià)指標(biāo)為代表構(gòu)成一個(gè)有序的層次結(jié)構(gòu),然后針對每一層的指標(biāo),運(yùn)用專家或管理人員的專業(yè)知識、經(jīng)驗(yàn)、信息和價(jià)值觀,對同一層次或同一域的指標(biāo)進(jìn)行兩兩比較對比,并按規(guī)定的標(biāo)度值構(gòu)造比較判別矩陣。從而確定指標(biāo)權(quán)重;最后根據(jù)聚類以后得出的各個(gè)類的中心點(diǎn),計(jì)算得出的k類電力客戶的信用得分,可以判斷其所屬的信用等級。

      主站蜘蛛池模板: 久久综合国产乱子伦精品免费| 国产精品污视频| 国产精品jizz视频| 精品一区二区三区色花堂| 国产精品国产三级国产专播 | 蜜臀AV无码国产精品色午夜麻豆 | 国产成人高清精品免费观看| 99久久er这里只有精品18| 亚洲精品午夜国产VA久久成人| 国产精品尹人在线观看| 久久精品一区二区| 国产精品对白交换视频| 无码欧精品亚洲日韩一区| 欧美激情精品久久久久久| 国产精品成人小电影在线观看| 99精品高清视频一区二区| 久久精品无码一区二区无码| 真实国产乱子伦精品一区二区三区| 精品一区二区三区高清免费观看 | 国产精品1024在线永久免费| 国产69精品久久久久777| 国产亚洲欧美精品久久久| 久久久久成人精品无码中文字幕| 真实国产乱子伦精品视频| 四虎成人精品在永久在线| 久久久久99精品成人片三人毛片| wwwvr高清亚洲精品二区| 亚洲精品电影网| 91精品观看91久久久久久| 免费91麻豆精品国产自产在线观看| 国产成人精品日本亚洲18图| 国产精品一二三区| 精品免费tv久久久久久久| 国产精品专区第二| 国产在线拍揄自揄视精品不卡| 国产精品亚洲午夜一区二区三区| 国产精品久久自在自线观看| 久久精品国产91久久综合麻豆自制 | 久久久久久国产精品无码超碰| 亚洲国产精品综合久久一线| 亚洲国产精品毛片av不卡在线|