首頁 > 精品范文 > 數(shù)據(jù)挖掘技術(shù)研究
時間:2022-07-17 22:06:00
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來了七篇數(shù)據(jù)挖掘技術(shù)研究范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創(chuàng)作。
1 空間數(shù)據(jù)挖掘研究概述
空間數(shù)據(jù)挖掘(spatial Data Mining,簡稱SDM),是指從空間數(shù)據(jù)庫中提取用戶感興趣的空間模式、普遍關(guān)系、數(shù)據(jù)特征的過程??臻g數(shù)據(jù)挖掘技術(shù)綜合數(shù)據(jù)挖掘技術(shù)與空間數(shù)據(jù)庫技術(shù),可用于對空間數(shù)據(jù)的理解、空間關(guān)系和空間與非空間關(guān)系的發(fā)現(xiàn)、空間知識庫的構(gòu)造以及空間數(shù)據(jù)庫的重組和查詢的優(yōu)化等,其根本目標(biāo)是把大量的原始數(shù)據(jù)轉(zhuǎn)換成有價值的知識,發(fā)現(xiàn)大量的地學(xué)信息中所隱含的規(guī)則。
空間數(shù)據(jù)挖掘是計算機技術(shù)、數(shù)據(jù)庫應(yīng)用技術(shù)和管理決策支持技術(shù)等多學(xué)科交叉發(fā)展的新興邊緣學(xué)科,一般來說,空間數(shù)據(jù)挖掘可分成空間分類、空間聚類、空間趨勢分析和空間關(guān)聯(lián)規(guī)則四類??臻g分類的目的是在空間數(shù)據(jù)庫對象的空間屬性和非空間屬性之間發(fā)現(xiàn)分類規(guī)則,是近年來空間數(shù)據(jù)挖掘領(lǐng)域中比較活躍的一個方向,常用的方法是決策樹??臻g聚類是在一個比較大的多維數(shù)據(jù)集中根據(jù)距離的度量找出簇或稠密區(qū)域,目前提出的空間聚類方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法??臻g趨勢分析指離開一個給定的起始對象時非空間屬性的變化情況,例如,當(dāng)離城市中心越來越遠時經(jīng)濟形勢的變化趨勢,空間趨勢分析需要使用回歸和相關(guān)的分析方法??臻g關(guān)聯(lián)規(guī)則是指空間鄰接圖中對象之間的關(guān)聯(lián),空間關(guān)聯(lián)挖掘多采用逐步求精的優(yōu)化思想,即首先用一種快速的算法粗略地對初始空間數(shù)據(jù)庫進行一次挖掘,然后再在裁剪過的數(shù)據(jù)庫上用代價高的算法進行進一步精化挖掘。
空間數(shù)據(jù)挖掘過程一般可分為數(shù)據(jù)篩選(消除原始數(shù)據(jù)的噪聲或不一致數(shù)據(jù))、數(shù)據(jù)集成(將多種數(shù)據(jù)源組合在一起)、數(shù)據(jù)選擇(根據(jù)用戶的要求從空間數(shù)據(jù)庫中提取與空間數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù))、數(shù)據(jù)變換(將數(shù)據(jù)統(tǒng)一成適合挖掘的形式)、空間數(shù)據(jù)挖掘(運用選定的知識發(fā)現(xiàn)算法,從數(shù)據(jù)中提取用戶所需的知識)、模式評估(根據(jù)某種興趣度度量并識別表示知識的真正有趣的模式),知識表示(使用可視化技術(shù)和知識表示技術(shù),向用戶提供挖掘的知識)等階段(見圖1)??臻g數(shù)據(jù)挖掘?qū)嶋H上是一個“人引導(dǎo)機器,機器幫助人”的交互理解數(shù)據(jù)的過程。
2 空間數(shù)據(jù)挖掘在GIS中的應(yīng)用
空間數(shù)據(jù)挖掘技術(shù)與地理信息系統(tǒng)(GIS)的結(jié)合具有非常廣泛的應(yīng)用空間。數(shù)據(jù)挖掘與GIs集成具有三種模式:其一為松散耦合式,也稱外部空間數(shù)據(jù)挖掘模式,這種模式基本上將GIS當(dāng)作一個空間數(shù)據(jù)庫看待,在G IS環(huán)境外部借助其它軟件或計算機語言進行空間數(shù)據(jù)挖掘,與GIS之間采用數(shù)據(jù)通訊的方式聯(lián)系。其二為嵌入式,又稱內(nèi)部空間數(shù)據(jù)挖掘模式,即在GIs中將空間數(shù)據(jù)挖掘技術(shù)融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結(jié)合,即盡可能利用GIS提供的功能,最大限度的減少用戶自行開發(fā)的工作量和難度,又可以保持外部空間數(shù)據(jù)挖掘模式的靈活性。
利用空間數(shù)據(jù)挖掘技術(shù)可以從空間數(shù)據(jù)庫中發(fā)現(xiàn)如下幾種主要類型的知識:普遍的幾何知識、空間分布規(guī)律、空間關(guān)聯(lián)規(guī)律、空間聚類規(guī)則、空間特征規(guī)則、空間區(qū)分規(guī)則,空間演變規(guī)則、面向?qū)ο蟮闹R。目前,這些知識已比較成熟地應(yīng)用于軍事、土地、電力、電信、石油和天然氣、城市規(guī)劃、交通運輸、環(huán)境監(jiān)測和保護、110和1 20快速反應(yīng)系統(tǒng)等資源管理和城市管理領(lǐng)域。在市場分析、企業(yè)客戶關(guān)系管理、銀行保險、人口統(tǒng)計、房地產(chǎn)開發(fā)、個人位置服務(wù)等領(lǐng)域也正得到廣泛關(guān)注與應(yīng)用,實際上,它正在深入到人們工作和生活的各個方面。
3 空間數(shù)據(jù)挖掘面臨的問題
(1) 多數(shù)空間數(shù)據(jù)挖掘算法是由一般的數(shù)據(jù)挖掘算法移植而來,并沒有考慮空間數(shù)據(jù)存儲、處理及空間數(shù)據(jù)本身的特點??臻g數(shù)據(jù)不同于關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),它有其特有的空間數(shù)據(jù)訪問方法,因而傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)往往不能很好地分析復(fù)雜的空間現(xiàn)象和空間對象。
(2) 空間數(shù)據(jù)挖掘算法的效率不高,發(fā)現(xiàn)模式不精練。面對海量的數(shù)據(jù)庫系統(tǒng),在空間數(shù)據(jù)挖掘過程中出現(xiàn)不確定性、錯誤模式的可能性和待解決問題的維數(shù)都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領(lǐng)域知識發(fā)現(xiàn)、去除與任務(wù)無關(guān)的數(shù)據(jù),有效地降低問題的維數(shù),設(shè)計出更有效的知識發(fā)現(xiàn)算法。
(3) 沒有公認的標(biāo)準(zhǔn)化空間數(shù)據(jù)挖掘查詢語言。數(shù)據(jù)庫技術(shù)飛速發(fā)展的原因之一就是數(shù)據(jù)庫查詢語言的不斷完善和發(fā)展,因此,要不斷完善和發(fā)展空間數(shù)據(jù)挖掘就必須發(fā)展空間數(shù)據(jù)挖掘查詢語言。為高效的空間數(shù)據(jù)挖掘奠定基礎(chǔ)。
(4) 空間數(shù)據(jù)挖掘知識發(fā)現(xiàn)系統(tǒng)交互性不強,在知識發(fā)現(xiàn)過程中很難充分有效地利用領(lǐng)域?qū)<抑R,用戶不能很好掌控空間數(shù)據(jù)挖掘過程。
(5) 空間數(shù)據(jù)挖掘方法和任務(wù)單一,基本上都是針對某個特定的問題,因而能夠發(fā)現(xiàn)的知識有限。
(6) 空間數(shù)據(jù)挖掘與其他系統(tǒng)的集成不夠,忽視了GIS在空間知識發(fā)現(xiàn)過程中的作用。一個方法和功能單一的空間數(shù)據(jù)挖掘系統(tǒng)的適用范圍必然受到很多限制,目前開發(fā)的知識系統(tǒng)僅局限于數(shù)據(jù)庫領(lǐng)域,如果要在更廣闊的領(lǐng)域發(fā)現(xiàn)知識,知識發(fā)現(xiàn)系統(tǒng)就應(yīng)該是數(shù)據(jù)庫、知識庫、專家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網(wǎng)絡(luò)等多項技術(shù)集成的系統(tǒng)。
上述問題使得從空間數(shù)據(jù)庫中提取知識比從傳統(tǒng)的關(guān)系數(shù)據(jù)庫中提取知識更為困難,這給空間數(shù)據(jù)挖掘研究帶來了挑戰(zhàn)。因此,空間數(shù)據(jù)挖掘在未來的發(fā)展中,還有很多理論和方法有待深入研究。
4 空間數(shù)據(jù)挖掘的發(fā)展趨勢
(1)空間數(shù)據(jù)挖掘算法和技術(shù)的研究??臻g關(guān)聯(lián)規(guī)則挖掘算法、時間序列挖掘技術(shù)、空間同位算法、空間分類技術(shù)、空間離群算法等是空間數(shù)據(jù)挖掘研究的熱點,同時提高空間數(shù)據(jù)挖掘算法的效率也很重要。
(2) 多源空間數(shù)據(jù)的預(yù)處理。空間數(shù)據(jù)內(nèi)容包括數(shù)字線劃數(shù)據(jù)、影像數(shù)據(jù)、數(shù)字高程模型和地物的屬性數(shù)據(jù),由于其本身的復(fù)雜性與數(shù)據(jù)采集的困難,空間數(shù)據(jù)中不可避免地存在著空缺值、噪聲數(shù)據(jù)及不一致數(shù)據(jù),多源空間數(shù)據(jù)的預(yù)處理就顯得格外重要。
(3)其他各種空間數(shù)據(jù)挖掘及其相關(guān)技術(shù)研究。如網(wǎng)絡(luò)環(huán)境下的空間數(shù)據(jù)挖掘、可視化數(shù)據(jù)挖掘、柵格矢量-體化空間數(shù)據(jù)挖掘、背景知識概念樹的自動生成、基于空間不確定性(位置、屬性、時問等) 的數(shù)據(jù)挖掘、遞增式數(shù)據(jù)挖掘、多分辨率及多層次數(shù)據(jù)挖掘、并行數(shù)據(jù)挖掘、遙感圖像數(shù)據(jù)庫的數(shù)據(jù)挖掘、多媒體空間數(shù)據(jù)庫的知識發(fā)現(xiàn)等。
【關(guān)鍵詞】數(shù)據(jù)挖掘 數(shù)據(jù)分類算法
在當(dāng)前的時代背景下,很多的行業(yè)都引入了大數(shù)據(jù)挖掘的理念,這既給計算機產(chǎn)業(yè)帶來了發(fā)展機遇,也帶來了挑戰(zhàn)。因為想要做好大數(shù)據(jù)挖掘的相關(guān)工作,就一定要掌握數(shù)據(jù)分類算法,而數(shù)據(jù)分類算法可稱得上是數(shù)據(jù)挖掘中的一道難關(guān)。隨著數(shù)據(jù)分析的研究不斷深入,人們開發(fā)了多種多樣的分類算法,用以不斷減輕其難度。通常都是以數(shù)據(jù)分類器為基準(zhǔn),進行相應(yīng)的數(shù)據(jù)分類,包括決策樹類、Bayes類、基于關(guān)聯(lián)規(guī)則類以及利用數(shù)據(jù)庫技術(shù)類,本文將對它們進行簡單的闡述。
1 決策樹分類算法
1.1 傳統(tǒng)算法
C4.5算法作為傳統(tǒng)的數(shù)據(jù)分類算法,有著很明顯的優(yōu)點,如規(guī)則簡單易懂,實際操作易于上手。但是隨著計算機的不斷普及,數(shù)據(jù)的規(guī)模變的越來越龐大,其復(fù)雜程度也是日漸增長。C4.5已經(jīng)逐漸無法滿足新時期的數(shù)據(jù)分類處理工作了。并且由于決策樹分類算法的規(guī)則,決定了在數(shù)據(jù)分類的過程中,要對數(shù)據(jù)進行多次重復(fù)的掃描和排序。特別是在構(gòu)造樹的時候,這種缺點更加明顯。這不僅會影響數(shù)據(jù)分析的速度,也浪費了更多的系統(tǒng)資源。對于大數(shù)據(jù)挖掘來說,C4.5更加無法勝任,因為C4.5算法的適用范圍十分有限,只能夠處理小于系統(tǒng)內(nèi)存數(shù)量的數(shù)據(jù),對于內(nèi)存無法保留的過于龐大的數(shù)據(jù)集,C4.5甚至?xí)霈F(xiàn)無法運行的情況。
1.2 衍生算法
(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而來,在其基礎(chǔ)上做了一些技術(shù)性的完善,例如增強了數(shù)據(jù)的排序技術(shù),并采取了廣度優(yōu)先的處理策略。這使得SLIQ算法能夠很好地記錄數(shù)據(jù)處理的個數(shù),并具有相當(dāng)優(yōu)秀的可擴展性,為處理大數(shù)據(jù)提供了基礎(chǔ)條件。但是SLIQ算法也存在一些缺點,由于它是以C4.5算法為基礎(chǔ)的,因此在進行數(shù)據(jù)處理時,仍需要將數(shù)據(jù)集保留在內(nèi)存中,這就導(dǎo)致SLIQ算法的可處理數(shù)據(jù)集的大小受到了限制。即數(shù)據(jù)記錄的長度一旦超過了排序的預(yù)定長度,SLIQ算法就很難完成數(shù)據(jù)處理和排序的工作。
(2)SPRINT 算法是為了解決SLIQ算法中數(shù)據(jù)集大小受到內(nèi)存限制的問題而開發(fā)出來的。SPRINT 算法重新定義了決策樹算法的數(shù)據(jù)分析結(jié)構(gòu),改變了傳統(tǒng)算法將數(shù)據(jù)集停留在內(nèi)存中的做法。值得一提的是,它沒有像SLIQ 算法那樣講數(shù)據(jù)列表存儲在內(nèi)存當(dāng)中,而是將其融合到了每個數(shù)據(jù)集的屬性列表中,這樣既避免了數(shù)據(jù)查詢時重復(fù)掃描造成的速度緩慢,又釋放了內(nèi)存的壓力。特別是在進行大數(shù)據(jù)挖掘時,由于數(shù)據(jù)的基數(shù)過大,在每個數(shù)據(jù)集的屬性列表內(nèi)尋找所需數(shù)據(jù)能夠大大節(jié)省分析的時間,對數(shù)據(jù)進行分類的工作也變得更加便捷。但是SPRIT算法同樣存在一些缺點,對于不具有可分裂屬性的數(shù)據(jù)列表,由于它只能在數(shù)據(jù)集內(nèi)進行分析,結(jié)果可能不是十分準(zhǔn)確,導(dǎo)致其拓展性受到了限制。
2 其他分類算法
2.1 Bayes分類算法
Bayes分類算法是利用概率統(tǒng)計學(xué)而開發(fā)出來的一種算法,在目前數(shù)據(jù)分類中應(yīng)用比較廣泛。但是其缺點也比較明顯,由于Bayes分類算法需要在分析之前對數(shù)據(jù)的特性做出一定的假設(shè),而這種假設(shè)往往缺少實際數(shù)據(jù)的理論支持,因此在數(shù)據(jù)分析過程中就很難做到準(zhǔn)確有效。在此之上,TAN算法又被開發(fā)出來,它是為了提高Bayes分類算法的假設(shè)命題的準(zhǔn)確率,也就是降低了NB任意屬性之間獨立的假設(shè)。
2.2 CBA分類數(shù)據(jù)算法
基于關(guān)聯(lián)規(guī)則的分類算法就是CBA分類數(shù)據(jù)算法。這種算法一般需要用到數(shù)據(jù)構(gòu)造分類器,在數(shù)據(jù)分析的過程中,先搜索到所有的右部為類別的類別關(guān)聯(lián)規(guī)則,這被稱為CAR;然后再從CAR中選擇合適的數(shù)據(jù)集。CBA算法中主要用到的是Apriori算法技術(shù),它能夠使?jié)撛诘臄?shù)據(jù)關(guān)聯(lián)規(guī)則呈現(xiàn)到表面,方便進行歸納整理。但是由于其在進行數(shù)據(jù)分類時容易出現(xiàn)疏漏,因此經(jīng)常采用設(shè)置最小支持度為0的辦法來減少遺漏的數(shù)據(jù),這就造成了算法的優(yōu)化作用不能完全發(fā)揮,降低了運行效率。
2.3 MIND和GAC-RDB算法分類算法
在大數(shù)據(jù)挖掘的背景下,未來數(shù)據(jù)分類算法的發(fā)展方向應(yīng)當(dāng)是以數(shù)據(jù)庫技術(shù)為基礎(chǔ)的的分類算法。盡管很久之前就已經(jīng)有一些專門研究數(shù)據(jù)庫的人員發(fā)現(xiàn)并提出了基于數(shù)據(jù)庫技術(shù)的分類算法,但是并沒有得到實際運用。因為在進行數(shù)據(jù)挖掘和數(shù)據(jù)分析的時候,很難將其與數(shù)據(jù)庫的系統(tǒng)集成,目前來說,MIND和GAC-RDB算法還能夠較好地解決這個問題。
2.3.1 MIND算法
MIND算法與決策樹算法有些相似,都是通過構(gòu)造數(shù)據(jù)分類器來進行數(shù)據(jù)分析。但是MIND算法采用了UDF方法和SQL語句來與數(shù)據(jù)庫系統(tǒng)實現(xiàn)關(guān)聯(lián)。在進行數(shù)據(jù)分析時,UDF方法能夠大大縮短對每個節(jié)點的數(shù)據(jù)特性進行分析的時間,這樣就在為數(shù)據(jù)庫的集成提供了理論基礎(chǔ)。SQL語句是通過對數(shù)據(jù)集的屬性進行分析,以便從中選擇出最合適的分裂屬性,然后給數(shù)據(jù)排序,這樣就節(jié)省了數(shù)據(jù)分類的時間。但是MIND算法還不能直接在數(shù)據(jù)庫系統(tǒng)中實現(xiàn)查詢功能,更重要的是,該算法的維護成本過高,不利于普及。
2.3.2 GAR-RDB算法
GAR-RDB算法在MIND算法的基礎(chǔ)上進行了更多的改進,能夠充分利用數(shù)據(jù)庫系統(tǒng)進行聚集運算,也就是實現(xiàn)了數(shù)據(jù)庫系統(tǒng)的集成。該算法擁有分類準(zhǔn)確,分析迅速,執(zhí)行更快的優(yōu)點,同時可拓展性也比較出色。更重要的是,它可以充分利用數(shù)據(jù)庫提供的查詢功能,從而避免了重復(fù)掃描數(shù)據(jù)集的現(xiàn)象,縮短了分析的時間,節(jié)約了系統(tǒng)資源。只要在自動確定參數(shù)取值的技術(shù)上進行一些改進,該算法就能很好地勝任大數(shù)據(jù)挖掘的數(shù)據(jù)處理工作。
3 總結(jié)
大數(shù)據(jù)挖掘是時展的潮流,因此數(shù)據(jù)分類算法的重要性也將隨著顯現(xiàn)。通過分析幾種不同的算法,能夠在數(shù)據(jù)分析速度、可擴展性和結(jié)果的準(zhǔn)確性上進行比較,從而選擇最適合的數(shù)據(jù)分類算法。它們都在不同程度上有著各自的優(yōu)缺點,因此要繼續(xù)深入研究以開發(fā)出更好的分類算法。
參考文獻
[1]錢雙艷.關(guān)于數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法的綜述,2014(13).
[2]劉紅巖.數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法綜述,2002(06).
關(guān)鍵詞:Web數(shù)據(jù)挖掘;電子商務(wù);XML應(yīng)用
中圖分類號:TP311.13文獻標(biāo)識碼:A文章編號:1007-9599 (2010) 10-0000-01
Web-based Data Mining Technology
Wang Wanchen
(Tianjin Polytechnic University,Tianjin300160,China)
Abstract:Web data mining referred to as Web mining,development from the data mining technology,also a new area of Web information.It help people intelligently and automatically get valuable knowledge from the mass information,reveal the objective world and the law of internal relations from these data,to solve practical problems in social development and for macro supporting decision-making.
Keywords:Web data mining;E-commerce;XML applications
一、引言
在20世紀(jì)60年代末,為了有效地管理和存取大量的數(shù)據(jù)資源,因此產(chǎn)生了數(shù)據(jù)庫技術(shù)。到了9O年代,人類的數(shù)據(jù)量可以用海洋來形容,同時也出現(xiàn)了一個問題,那就是“數(shù)據(jù)豐富,但信息貧乏”,為了解決這一問題,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。
二、基于web的數(shù)據(jù)挖掘需要解決的幾個問題
(一)異構(gòu)數(shù)據(jù)庫環(huán)境
Web上的每一個站點就是一個數(shù)據(jù)源。每個數(shù)據(jù)源都是異構(gòu)的,因而每一站點之間的信息和組織都不一樣,這就構(gòu)成了一個巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。如果想要利用這些數(shù)據(jù)進行數(shù)據(jù)挖掘,首先,必須要研究站點之間異構(gòu)數(shù)據(jù)的集成問題。其次,還要解決Web上的數(shù)據(jù)查詢問題。
(二)半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)
Web上的數(shù)據(jù)非常復(fù)雜,沒有特定的模型描述,每一站點的數(shù)據(jù)都各自獨立設(shè)計,并且數(shù)據(jù)本身具有自述性和動態(tài)可變性。因而。Web上的數(shù)據(jù)具有一定的結(jié)構(gòu)性,但因自述層次的存在。從而是一種非完全結(jié)構(gòu)化的數(shù)據(jù),這也被稱之為半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點。
(三)解決半結(jié)構(gòu)化的數(shù)據(jù)源問題
針對Web上的數(shù)據(jù)半結(jié)構(gòu)化的特點,尋找一個半結(jié)構(gòu)化的數(shù)據(jù)模型是解決問題的關(guān)鍵所在。除了要定義一個半結(jié)構(gòu)化數(shù)據(jù)模型外.還需要一種半結(jié)構(gòu)化模型抽取技術(shù),即自動地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù)。
三、Web數(shù)據(jù)挖掘的主要過程
Web數(shù)據(jù)的特點決定了對其進行有效數(shù)據(jù)挖掘具有極大的挑戰(zhàn)性。根據(jù)Web數(shù)據(jù)的特點。結(jié)合數(shù)據(jù)挖掘的一般過程,可以將Web數(shù)據(jù)挖掘流程描述如圖所示的數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、分析與評估和知識表述5個功能模塊。
圖1 面向Web數(shù)據(jù)挖掘功能模塊
(一)數(shù)據(jù)采集
按照主題相關(guān)的原則,數(shù)據(jù)采集模塊完成從外部的Web環(huán)境中有選擇地獲取數(shù)據(jù),為后面的數(shù)據(jù)挖掘提供素材和資源。Web環(huán)境所提供的數(shù)據(jù)源包括Web頁面數(shù)據(jù)、超鏈接數(shù)據(jù)和記錄用戶訪問情況的數(shù)據(jù)等。根據(jù)數(shù)據(jù)源形式的不同可以將Web數(shù)據(jù)挖掘分為基于內(nèi)容的挖掘、基于結(jié)構(gòu)的挖掘和基于用戶使用的挖掘等3種。每一種數(shù)據(jù)挖掘類型在數(shù)據(jù)采集過程中會使用不同的方法和技術(shù),但它們都有共同的基本過程。通常,數(shù)據(jù)采集由數(shù)據(jù)搜索、數(shù)據(jù)選擇和數(shù)據(jù)收集等3個相對獨立的過程組成。
(二)數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理模塊主要對數(shù)據(jù)采集所獲得的源數(shù)據(jù)進行加工處理和組織重構(gòu).構(gòu)建相關(guān)主題的數(shù)據(jù)倉庫.為下一步的數(shù)據(jù)挖掘過程創(chuàng)建基礎(chǔ)平臺。數(shù)據(jù)預(yù)處理是為數(shù)據(jù)挖掘所做的前期準(zhǔn)備,它主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)約簡等。
1.數(shù)據(jù)清理。
數(shù)據(jù)清理主要是去除源數(shù)據(jù)中的噪聲和無關(guān)數(shù)據(jù)。處理遺漏數(shù)據(jù)和清洗臟數(shù)據(jù),包括重復(fù)數(shù)據(jù)處理和缺值數(shù)據(jù)處理等.并且完成一些數(shù)據(jù)類型的轉(zhuǎn)換。例如將不同來源中的同類信息轉(zhuǎn)換成統(tǒng)一的存儲方式。
2.數(shù)據(jù)集成。
數(shù)據(jù)集成主要是將來自多個運動環(huán)境中的異構(gòu)數(shù)據(jù)進行合并處理,解決語義的模糊性問題。其并非是數(shù)據(jù)的簡單合并,而是對異構(gòu)數(shù)據(jù)進行統(tǒng)一化和規(guī)范化處理的復(fù)雜過程。數(shù)據(jù)約簡是在對挖掘任務(wù)和數(shù)據(jù)內(nèi)容充分理解的基礎(chǔ)上,通過尋找數(shù)據(jù)的有用特征。在盡可能保持數(shù)據(jù)信息原貌的前提下,最大限度地精減數(shù)據(jù)量,提高數(shù)據(jù)挖掘的算法效率。
(三)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘模塊是數(shù)據(jù)挖掘系統(tǒng)的核心部分,它的主要功能是運用各種數(shù)據(jù)挖掘技術(shù)。從海量的經(jīng)過預(yù)處理的數(shù)據(jù)中提取出潛在的、有效且能被人理解的知識模式。概括地講。數(shù)據(jù)挖掘的最終目標(biāo)只有描述和預(yù)測兩個,所謂描述就是用可理解的模式表達數(shù)據(jù)所包含的屬性和特征信息:而預(yù)測則是指根據(jù)屬性的現(xiàn)有數(shù)據(jù)值找出其規(guī)律性,進而推測出其在未來可能出現(xiàn)的屬性值。數(shù)據(jù)挖掘過程一般由數(shù)據(jù)準(zhǔn)備、挖掘操作、結(jié)果表達和解釋3階段組成。數(shù)據(jù)挖掘算法對數(shù)據(jù)有一定的要求,如數(shù)據(jù)冗余性小、數(shù)據(jù)屬性之間的相關(guān)性小、數(shù)據(jù)出錯率小等。而現(xiàn)實世界所采集到的數(shù)據(jù)通常具有雜亂性、冗余性、不完整性等特點,為此數(shù)據(jù)采掘必須經(jīng)過數(shù)據(jù)準(zhǔn)備階段以提高數(shù)據(jù)挖掘質(zhì)量。挖掘操作包括選擇合適的算法,進行挖掘知識的操作,最后證實發(fā)現(xiàn)的知識;表達和解釋階段是對結(jié)果進行分析,提取出最有價值的信息。如果獲得的信息不能使決策者滿意,則需要重復(fù)以上數(shù)據(jù)挖掘階段。
(四)分析與評估
分析與評估模塊是對數(shù)據(jù)挖掘所得到的知識模式進行可信度和有效性分析,并對其做出評估結(jié)論。為用戶的經(jīng)營決策提供信息支持。
(五)知識表述
知識表述模塊是指將利用數(shù)據(jù)挖掘工具從Web數(shù)據(jù)中挖掘出來的知識模式.用適當(dāng)?shù)男问奖憩F(xiàn)出來,以利于用戶接受和相互交流。
五、數(shù)據(jù)挖掘工具的評價標(biāo)準(zhǔn)
評價一個數(shù)據(jù)挖掘工具,需要從以下幾個方面來考慮:產(chǎn)生的模式種類的多少;解決復(fù)雜問題的能力;易操作性;數(shù)據(jù)存取能力;與其他產(chǎn)品的接口。基于Web的數(shù)據(jù)挖掘技術(shù)在處理極大量的數(shù)據(jù)時,如何提高算法效率的問題;對于挖掘迅速更新的數(shù)據(jù)的挖掘算法的進一步研究;在挖掘的過程中,提供一種與用戶進行交互的方法,將用戶的領(lǐng)域知識結(jié)合在其中;對于數(shù)值型字段在關(guān)聯(lián)規(guī)則中的處理問題;生成結(jié)果的可視化方面等等有待于進一步的研究。
六、結(jié)論
面向Web的數(shù)據(jù)挖掘是一項復(fù)雜的技術(shù),由于Web數(shù)據(jù)挖掘比單個數(shù)據(jù)倉庫的挖掘要復(fù)雜的多,因而面向Web的數(shù)據(jù)挖掘成了一個難以解決的問題。Web數(shù)據(jù)挖掘是目前信息技術(shù)中的研究熱點,它是現(xiàn)代科學(xué)技術(shù)相互滲透與融合的必然結(jié)果。Web挖掘的分類及其所涉及的關(guān)鍵技術(shù)都處于初級階段,互聯(lián)網(wǎng)在技術(shù)和應(yīng)用上的不斷發(fā)展將會極大地促進數(shù)據(jù)庫技術(shù)和數(shù)據(jù)挖掘技術(shù)的發(fā)展,研究數(shù)據(jù)挖掘在電子商務(wù)的應(yīng)用具有建設(shè)性的意義,對電子商務(wù)網(wǎng)站的設(shè)計、客戶關(guān)系管理、網(wǎng)絡(luò)營銷等方面起著重要的作用。
參考文獻:
[1]陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù).北京:電子工業(yè)出版社,2002
[2]謝丹夏.Web上的數(shù)據(jù)挖掘技術(shù)和工具設(shè)計.計算機工程與應(yīng)用,2001,6
[3]孫穎,毛波.基于數(shù)據(jù)挖掘技術(shù)的虛擬社區(qū)成員行為研究.計算機應(yīng)用,2003.1
[4]康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù).機械工業(yè)出版社,2004.1
[5]Jaideep Srivastava,Robert Cooley,Mukund Deshpande.Web Usage Mining:Discovery and Applications of Usage Patterns from Web Data.Sigkdd Explorations,2000(2):325-338
關(guān)鍵詞:數(shù)據(jù)挖掘;信息系統(tǒng)集成;K均值算法;聚類算法;BOM系統(tǒng)
中圖分類號:TP391
文獻標(biāo)識碼:A
文章編號:16727800(2017)004018503
0引言
充分利用企I信息系統(tǒng)集成中所產(chǎn)生的生產(chǎn)業(yè)務(wù)信息數(shù)據(jù)成為企業(yè)的關(guān)鍵技術(shù),數(shù)據(jù)挖掘技術(shù)則是企業(yè)系統(tǒng)中使用的技術(shù)之一。數(shù)據(jù)挖掘指對數(shù)據(jù)庫中的海量數(shù)據(jù)進行過程復(fù)雜的數(shù)據(jù)分析,從而獲得其中隱含信息的過程。根據(jù)用戶需求,選擇比較切合的數(shù)據(jù)挖掘算法,成為挖掘技術(shù)成功的關(guān)鍵。通過研究各種數(shù)據(jù)挖掘算法,筆者在眾多算法中選擇了K均值算法作為本文數(shù)據(jù)挖掘的基礎(chǔ)算法。
1K均值算法概述
1.1K均值算法概念
聚類問題是將給定的數(shù)據(jù)集合D劃分成一組聚類:{C1,C2,…},Ci∈D,使不同種類中的數(shù)據(jù)盡可能不相似(或距離較遠),同一種類中的數(shù)據(jù)盡可能相似(或距離較近)。聚類是一種無監(jiān)督的學(xué)習(xí),所謂無監(jiān)督學(xué)習(xí)指事先并不知道要找的內(nèi)容,即沒有目標(biāo)變量,它將相似的對象歸到同一個簇中[13]。K均值(Kmeans)算法在聚類算法中使用最為廣泛。首先根據(jù)分類的個數(shù)k,隨機地選取k個初始的聚類中心,當(dāng)然這個k值是難以確定的,并把每個對象分配給離它最近的中心,分別得到起始的聚類點。然后,將當(dāng)前每個聚類的中心作為新的聚類中心,并把每個對象重新分配到最近的中心。不斷地循環(huán)迭代,直到目標(biāo)函數(shù)的最小值,即最終的聚類中心點沒有移動。其中,目標(biāo)函數(shù)通常采用平方誤差準(zhǔn)則,即:其中,E表示所有聚類對象的平方誤差和,S是聚類對象,Mi是類Ci的各聚類對象的平均值,即:
其中,|Ci|表示類Ci的聚類對象數(shù)目。每一次迭代時,每一個點都要計算一遍它和各聚類中心的距離,并取最短距離的類作為該點所屬的類。直到E獲取最小值,最終表現(xiàn)為最后的聚類中心無法移動。一般k的典型取值為2~10。
1.2K均值算法計算模型
假設(shè)在一片小區(qū)域中有若干數(shù)據(jù)點,如圖1所示。先假設(shè)k=2,即最終這些數(shù)據(jù)點會聚類成兩個類。K均值算法具體解釋如下: (1)由于k=2,任意的兩個數(shù)據(jù)點被選作初始類的聚類中心(圖中用點F、G表示),如圖1(a)所示。 (2)將其余的各個點分配到距離最近的聚類中心點(本例中為F點、G點)所代表的類中,即求圖中所有點到各個聚類中心的距離。如果Si距離Ci近, 則Si屬于Ci聚類。如圖1(b)所示,A、B點與F點的距離相對G點更近,所以屬于F點聚類,C、D、E點與G點相對F點距離更近,所以屬于G點聚類。 (3)將聚類中心點F點、G點移動到“自己”的聚類中心,如圖1(c)、圖1(d)所示。 (4)重復(fù)步驟(2)、(3),直到每個類中的聚類對象(如圖1(e)中的點)不再重新分布為止,第一個點聚合了A、B、C,第二個點聚合了D、E,此時重復(fù)循環(huán)的迭代過程結(jié)束。
2.1系統(tǒng)概述
通過對K均值算法的介紹及其算法處理模型,筆者結(jié)合某制造型企業(yè)的信息化系統(tǒng)平臺用戶實際需求建立數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫的基礎(chǔ)上使用數(shù)據(jù)挖掘中的K均值算法對大量數(shù)據(jù)進行潛在信息的挖掘,并開發(fā)出基于K均值算法的挖掘器,輔助決策者進行決策。假如數(shù)據(jù)庫中的數(shù)據(jù)關(guān)于產(chǎn)品信息生成了k個聚類中心,即k個中心點point,將其余的各個點分配到距離最近的聚類中心點所代表的類中,距離為distance,并獲取距聚類中心距離最小的距離min2,將該元素歸類于距離聚類中心點最近的那個聚類中,核心代碼如下:
private void clusterSet() { float[] distance = new float[m]; for (int l = 0; l < length; l++) { for (int e = 0; e < m; e++) { distance[e] = distance(data.get(l), point.get(e)); } int min2 = min1(distance); cluster.get(min2).add(data.get(l)); } } //將聚類中心點移動到自己的聚類中心,求兩點誤差平方 private float result(float[] point1, float[] point) { float x = point1[0] - point[0]; float y = point1[1] - point[1]; float result1 = x * x + y * y; return result1; } //利用上述“求兩點誤差平方”的方法,計算誤差平方和準(zhǔn)則 private void result2() { float a1 = 0; for (int r = 0; r < cluster.size(); r++) { for (int j = 0; j < cluster.get(r).size(); j++) { a1 += result(cluster.get(r).get(j), point.get(r)); } } sum.add(a1); } //設(shè)置新的聚類中心 private void setNewPoint() { for (int h = 0; h < m; h++) { int n = cluster.get(h).size(); if (n != 0) { float[] newpoint = { 0, 0 }; for (int k = 0; k < n; k++) { newpoint[0] += cluster.get(h).get(k)[0]; newpoint[1] += cluster.get(h).get(k)[1]; } newpoint[0] = newpoint[0] / n; newpoint[1] = newpoint[1] / n; point.set(h, newpoint); } } } //對第2、3步進行重復(fù)迭代,直至得到算法最終結(jié)果 private void kmeans() { init(); while (true) { clusterSet(); result2(); if (n != 0) { if (sum.get(n) - sum.get(n - 1) == 0) { break; } } setNewPoint(); n++; cluster.clear(); cluster = cluster1(); } }
2.2零部件市場需求分析
在銷售系統(tǒng)“零部件市場需求分析”模塊,主要針對銷售信息以及產(chǎn)品信息所建立的數(shù)據(jù)倉庫中的信息進行數(shù)據(jù)挖掘。合同中記載了所銷售的產(chǎn)品圖號、數(shù)量、客戶相關(guān)信息等,同時根據(jù)產(chǎn)品圖號可以得到產(chǎn)品BOM信息。 產(chǎn)品BOM信息即該產(chǎn)品的設(shè)計信息,包括零件信息、物料進貨方式及加工作業(yè)方式、工藝信息、圖紙信息、層次碼、總數(shù)量等。其中零件信息主要有:零件圖號、零件名稱、材料、牌號、外形尺寸等;物料進貨方式及加工作業(yè)方式主要包括:物料類別(如:配套件、緊固件)、物料進場狀態(tài)(如:成品、半成品、毛胚)、加工方式(如:自加工、外加工)、加工內(nèi)容(如:金工、電工);工藝信息即零部件加工的工藝信息;圖紙信息包括圖紙幅面等;層次碼主要用來標(biāo)注該零部件在產(chǎn)品中的所處位置;總數(shù)量即表明該零部件在產(chǎn)品中該層次碼下的個數(shù)。 相同產(chǎn)品可能會有處于不同層次的相同零部件,不同產(chǎn)品可能會有相同零部件。因此,在所建立的數(shù)據(jù)倉庫基礎(chǔ)上,使用數(shù)據(jù)挖掘技術(shù)挖掘出查詢條件,從銷售的產(chǎn)品中具體細化到銷售需求較多的零部件,從而在企業(yè)決策時察覺出該情況。通過針對性地制定預(yù)投生產(chǎn)計劃、增加庫存,能夠幫助企業(yè)提高生產(chǎn)效率,對于市場快速反應(yīng),以提高市場占有率。 對于該部分功能,首先可以進行條件查詢。查詢屬性有:產(chǎn)品圖號、產(chǎn)品型號、代號、名稱、規(guī)格尺寸、長度寬度、材料、牌號、年份和客戶編號。 從查詢屬性看,這是多種搜索條件的組合;從數(shù)據(jù)挖掘角度看,這是在K-均值聚類算法設(shè)計的數(shù)據(jù)倉庫基礎(chǔ)上開發(fā)出來的一個數(shù)據(jù)挖掘工具。此項功能設(shè)計時是從月份出發(fā),將每年的銷量按照月份呈現(xiàn),因此“年份”是必選項,其余條件用戶可以自由組合。例如:選擇“2012年”,查詢結(jié)果如圖2所示。
該圖表示在2012年的銷售產(chǎn)品里對零部件數(shù)量進行匯總的結(jié)果。通過該數(shù)據(jù)挖掘器,提出了銷量最領(lǐng)先的4個零部件。曲線代表其在各月的銷售總數(shù)及市場需求總數(shù),單位以“百”計。每條曲線代表的零部件圖號在圖右側(cè)進行了說明。該表示方法直觀、清晰,可以給決策者提供明確的零部件市場需求變化曲線圖。通過聚類結(jié)果可知,“零件圖號”為“8UE.016.0211”的零件,從八月開始銷量減少,并且其它3種零件在六月開始需求量變大,從而可使決策者在來年制定更合理的方案,以提高企業(yè)競爭力。
2.3廢料統(tǒng)計情況分析
廢料統(tǒng)計情況分析主要是針對生產(chǎn)中由于工人誤操作、材料劣質(zhì)、機器故障等各種原因造成所領(lǐng)物料報廢,需要重新領(lǐng)料進行加工的情況進行統(tǒng)計分析。 物料是一個統(tǒng)稱,它包括可以直接領(lǐng)的成品、需要再加工的半成品,以及需要加工的原材料。因此,對于物料有一個物料編碼,專門對所有可領(lǐng)的成品、半成品、原材料進行唯一標(biāo)示。物料編碼根據(jù)零件圖號、零件名稱、材料、牌號、外形尺寸、物料進場狀態(tài)、物料類別、加工方式8個字段進行唯一性區(qū)分。根據(jù)編碼方式,產(chǎn)生唯一的物料碼,例如“A00B021”。該企業(yè)的物料有“定額”和“非定額”兩種情況?!岸~”即可以用個數(shù)來統(tǒng)計的零部件物料;“非定額”指無法用個數(shù)來統(tǒng)計的物料,如:5米長的銅線等。具體而言,本文主要研究針對某個工作令從生產(chǎn)開始到生產(chǎn)結(jié)束,所有定額物料的生產(chǎn)料廢情況。在工作令系統(tǒng)和領(lǐng)料單系統(tǒng)的基礎(chǔ)數(shù)據(jù)庫上建立數(shù)據(jù)倉庫。工作令系統(tǒng)的數(shù)據(jù)庫中存有工作令號、起始生產(chǎn)日期、結(jié)束生產(chǎn)日期及其它工作令的基本信息。領(lǐng)料單系統(tǒng)數(shù)據(jù)庫中的廢料表中存有料廢的物料編碼、材料、數(shù)量等信息。查詢屬性有:工作令號、合同號、起始時間和終止時間。 填入工作令號“2B7-1D044205”,點擊“查詢”按鈕,會通過數(shù)據(jù)挖掘方法統(tǒng)計該工作令下的所有零件材料料廢情況,如表1所示。
表1清晰表明了該工作令號“2B7-1D044205”中各個物料損失的比重。從表中可以看出,以廢料“A03B004”、
“D03E334”和“E17B231”為聚類中心的廢料占多數(shù),從而可以使企業(yè)決策者從這些材料損失中發(fā)現(xiàn)問題,分析物料損耗原因,如:采購質(zhì)量問題、工人操作失誤,還是其它可避免的各類原因。因此,該基于數(shù)據(jù)倉庫的數(shù)掘挖掘器,有利于輔助企業(yè)決策者從實際生產(chǎn)中找出各類潛在問題,從而制定合理的政策,降低生產(chǎn)損失,提高企業(yè)競爭力。
3結(jié)語
本文采用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)庫中積累的大量數(shù)據(jù)進行了分析處理,系統(tǒng)雖然實現(xiàn)了將基于K均值算法的數(shù)據(jù)挖掘技術(shù)應(yīng)用于信息化系統(tǒng)集成平臺中,但也只是實現(xiàn)了部分輔助決策功能。根據(jù)企業(yè)的具體使用情況,決策者肯定不會滿足于系統(tǒng)中已經(jīng)提供的決策支持功能,如何更近一步地發(fā)揮系統(tǒng)集成能力,開發(fā)更多決策支持功能,提高數(shù)據(jù)倉庫查詢速度,以滿足企業(yè)決策者更多需求,是下一階段研究的主要方向。
參考文獻:
[1]王欣,徐騰飛,唐連章,等.SQL Server2005數(shù)據(jù)挖掘?qū)嵗治鯷M].北京:中國水利水電出版社,2008:15.
[2]李銳,,曲亞東,等.機器學(xué)習(xí)實踐[M].北京:人民郵電出社,2013:184199.
[3]彭木根.數(shù)據(jù)倉庫技術(shù)與實現(xiàn)[M].北京:電子工業(yè)出版社,2002:321.
[4]陳文偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程[M].第2版.北京:清華大學(xué)出版社,2011:190.
[5]孫水華,趙釗林,劉建華.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:清華大學(xué)出版社,2012:122.
[6]李晶,陳驥.數(shù)據(jù)挖掘技術(shù)對ERP實施的重要性[J].福建電腦,2008(8):6061.
>> Web數(shù)據(jù)挖掘中XML技術(shù)應(yīng)用研究 XML在Web數(shù)據(jù)挖掘中的應(yīng)用 XML 在Web 數(shù)據(jù)挖掘中的應(yīng)用探討 基于XML的Web挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究 基于XML數(shù)據(jù)庫的Web應(yīng)用研究 數(shù)據(jù)挖掘在Web中的應(yīng)用研究 XML語言在Web開發(fā)中的應(yīng)用研究 基于XML的Web數(shù)據(jù)挖掘模型的設(shè)計研究 基于XML+Web Service的異構(gòu)數(shù)據(jù)交換技術(shù)應(yīng)用研究 Web數(shù)據(jù)挖掘在智能選課系統(tǒng)中的應(yīng)用研究 Web數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館中的應(yīng)用研究 數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究 Web數(shù)據(jù)挖掘及其在微博話題檢測中的應(yīng)用研究 Web數(shù)據(jù)挖掘技術(shù)在個性化網(wǎng)絡(luò)教學(xué)中的應(yīng)用研究 WEB數(shù)據(jù)挖掘技術(shù)及應(yīng)用研究 基于XML技術(shù)的電子政務(wù)WEB數(shù)據(jù)挖掘研究 基于XML的Web分布式數(shù)據(jù)挖掘系統(tǒng)研究 基于xml的web數(shù)據(jù)挖掘技術(shù)研究與實現(xiàn) Web數(shù)據(jù)挖掘在校園網(wǎng)搜索引擎系統(tǒng)中的應(yīng)用研究 電子商務(wù)中Web數(shù)據(jù)挖掘與應(yīng)用研究 常見問題解答 當(dāng)前所在位置:L,XHTML and CSS Bible[M].4版.北京:人民郵電出版社,2009
[3] Bing Liu.Web DATA MINING[M].北京:清華大學(xué)出版社,2009(4).
[4] 孟小峰.XML數(shù)據(jù)管理概念技術(shù)[M].北京:清華大學(xué)出版社.2009(10).
[5] 王建麗,丁振國.一種基于XML的Web數(shù)據(jù)挖掘技術(shù)[J].西安科技學(xué)院學(xué)報,2002,33(3).
[6] 沈潔,薛貴榮.一種基于XML的WEB數(shù)據(jù)挖掘模型[J].系統(tǒng)工程理論與實踐,2002(9).
>> 基于云計算的大數(shù)據(jù)挖掘平臺 云計算技術(shù)在醫(yī)療大數(shù)據(jù)挖掘平臺設(shè)計中的應(yīng)用 大數(shù)據(jù)+云計算 SAP倡導(dǎo)構(gòu)建實時云 基于云計算及大數(shù)據(jù)的移動數(shù)字教育平臺建設(shè)研究 Web數(shù)據(jù)挖掘在云計算平臺的實際運用 基于云計算平臺的物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究 Web數(shù)據(jù)挖掘在云計算平臺的實現(xiàn) 基于云計算和大數(shù)據(jù)的智慧農(nóng)業(yè)平臺 試論大數(shù)據(jù)和云計算平臺應(yīng)用 大數(shù)據(jù)和云計算平臺與應(yīng)用研究 大數(shù)據(jù)和云計算平臺應(yīng)用研究 云計算物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式的構(gòu)建方式 云計算時代的出國留學(xué)大數(shù)據(jù)構(gòu)建策略 大數(shù)據(jù)和云計算 基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)研究 基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)探討 一種基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)設(shè)計與實現(xiàn) 協(xié)同云計算下的差異區(qū)域數(shù)據(jù)挖掘平臺設(shè)計與實現(xiàn) 一種基于云計算數(shù)據(jù)挖掘平臺架構(gòu)的設(shè)計與實現(xiàn) 基于分布式思維的云計算數(shù)據(jù)挖掘平臺設(shè)計 常見問題解答 當(dāng)前所在位置:.
[5]康莉.“云計算”環(huán)境下電子商務(wù)安全問題及對策研究[J].信息技術(shù),2012(8):283284.
[6]李衛(wèi),李濟漢,張云勇,等.電信運營商云業(yè)務(wù)發(fā)展現(xiàn)狀分析與建議[J].互聯(lián)網(wǎng)天地, 2013(3):715.
[7]曲悅.淺談云計算在圖書館建設(shè)中的價值及問題[J].價值工程,2012(9):203204.
[8]馬錫坤,于京杰.醫(yī)院數(shù)據(jù)中心存在的問題及對策[J].中國醫(yī)學(xué)教育技術(shù),2013,4(27):215217.
[9]鄔賀銓.大數(shù)據(jù)時代的機遇與挑戰(zhàn)[J].信息化參考,2013(2):16.
[10]趙金明.大數(shù)據(jù)時代的高清視頻監(jiān)控存儲[J].中國鐵路,2013(4):8182.
[關(guān)鍵詞] 并行數(shù)據(jù)挖掘 體系結(jié)構(gòu) 商業(yè)智能 模式庫
引言
企業(yè)為迎接市場的挑戰(zhàn),必須對市場運作有準(zhǔn)確的分析。商業(yè)流通領(lǐng)域積累的大量交易數(shù)據(jù)中隱含著許多對商業(yè)決策有益的知識,傳統(tǒng)的分析方法很難從中提取出這些知識,利用數(shù)據(jù)挖掘技術(shù)可以得到準(zhǔn)確、及時的信息,決策人員以企業(yè)的數(shù)據(jù)倉庫為基礎(chǔ),通過聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘和決策規(guī)劃人員的專業(yè)知識,借助商務(wù)智能的核心技術(shù),利用企業(yè)中長期積累的海量數(shù)據(jù)可以實現(xiàn)四方面的應(yīng)用:客戶分類和特征分析、市場營銷策略分析、經(jīng)營成本與收入分析、欺詐行為分析和預(yù)防,數(shù)據(jù)挖掘技術(shù)可以發(fā)現(xiàn)這些隱藏的模式和關(guān)系。
并行數(shù)據(jù)挖掘體系結(jié)構(gòu)是并行數(shù)據(jù)挖掘技術(shù)研究的重要內(nèi)容,是實現(xiàn)并行數(shù)據(jù)挖掘的基礎(chǔ),選擇適當(dāng)?shù)?、高效的、具有較高性價比的商用并行體系結(jié)構(gòu)是整個研究工作的基礎(chǔ)。
一、通用數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)
特定領(lǐng)域的數(shù)據(jù)挖掘工具主要針對某個特定領(lǐng)域的問題提供解決方案。在進行數(shù)據(jù)挖掘算法設(shè)計時,設(shè)計者需要充分考慮特定領(lǐng)域的數(shù)據(jù)特點和挖掘需求等特殊性,并有針對性地對數(shù)據(jù)挖掘算法進行優(yōu)化。
通用的數(shù)據(jù)挖掘應(yīng)用系統(tǒng)大都以數(shù)據(jù)倉庫或大型關(guān)系數(shù)據(jù)庫為基礎(chǔ),且具有查詢、分析、表示等功能,它是企業(yè)決策支持系統(tǒng)的核心組成部分,可以將這些現(xiàn)有數(shù)據(jù)挖掘系統(tǒng)的共同特點抽象成圖1所示的結(jié)構(gòu)。
二、通用的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)的不足及改進思路
通用的數(shù)據(jù)挖掘系統(tǒng)己經(jīng)在一定程度上滿足用戶的需要,但是在應(yīng)用實施過程中也存在著一些問題和不足。主要有以下幾點:數(shù)據(jù)挖掘的效率有待進一步提高;歷史模式不能得到有效利用;不同系統(tǒng)之間的互操作性差;面向不同應(yīng)用對象的針對性不強。
數(shù)據(jù)挖掘往往面對的是巨大的數(shù)據(jù)集,即GB甚至TB數(shù)量級的數(shù)據(jù)集,數(shù)據(jù)挖掘技術(shù)研究的核心問題之一就是如何提高數(shù)據(jù)挖掘的效率,提高數(shù)據(jù)挖掘效率的途徑主要有以下幾個方面:
1.對數(shù)據(jù)集進行預(yù)處理,去除噪音數(shù)據(jù),按照挖掘要求對數(shù)據(jù)進行清理和遷移,盡可能減少挖掘的數(shù)據(jù)量。
2.針對各種數(shù)據(jù)挖掘和數(shù)據(jù)分析要求,研究、設(shè)計效率更高的各類數(shù)據(jù)挖掘算法。
3.提高數(shù)據(jù)挖掘系統(tǒng)應(yīng)用的硬件性能或者采用并行處理技術(shù)提高數(shù)據(jù)挖掘的速度。
4.借用緩存的概念,對挖掘結(jié)果進行存儲再利用,以提高用戶挖掘請求的響應(yīng)速度。
針對一般商業(yè)智能應(yīng)用領(lǐng)域的實際情況和需要,以提高數(shù)據(jù)挖掘應(yīng)用的效率為目標(biāo),本文將主要從并行處理技術(shù)和體系結(jié)構(gòu)方面對現(xiàn)有數(shù)據(jù)挖掘系統(tǒng)進行改進和提高。
三、并行數(shù)據(jù)挖掘體系結(jié)構(gòu)設(shè)計及特點
為解決通用數(shù)據(jù)挖掘系統(tǒng)中存在的一些問題和針對商業(yè)智能的特點,面向商業(yè)智能應(yīng)用的并行數(shù)據(jù)挖掘體系結(jié)構(gòu)如圖2所示,由6部分組成:
1.高性能并行計算環(huán)境:并行數(shù)據(jù)挖掘體系結(jié)構(gòu)中采用了高性價比的并行體系結(jié)構(gòu)COW(Cluster of Workstations)、數(shù)據(jù)挖掘算法由串行算法改為并行算法以及采用“緩存”概念將數(shù)據(jù)挖掘結(jié)果保存在模式庫中。并行處理技術(shù)的運用無疑對于數(shù)據(jù)挖掘效率的提高具有重要意義和實用價值,為數(shù)據(jù)挖掘效率的提高奠定了堅實的基礎(chǔ),對于商業(yè)智能應(yīng)用的推廣也具有重要作用。
2.數(shù)據(jù)源:數(shù)據(jù)倉庫和其他數(shù)據(jù)源是數(shù)據(jù)挖掘的基礎(chǔ),商業(yè)智能應(yīng)用系統(tǒng)應(yīng)具有多種數(shù)據(jù)來源的處理能力,例如普通文件(電子郵件等)、關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市等。
3.模式庫:為了提高數(shù)據(jù)挖掘的效率以及商業(yè)邏輯的處理速度,借助硬件內(nèi)存的“緩存”概念,將最近數(shù)據(jù)挖掘或者數(shù)據(jù)分析的結(jié)果(模式也許只是一個簡單的規(guī)則描述)保存在模式庫中,以便再次發(fā)生類似或者相同操作請求時能先在模式庫中查找挖掘結(jié)果,從而盡量避免每次都從海量數(shù)據(jù)中進行挖掘操作,這樣可以較大幅度提高處理速度。因此,模式庫的建立為歷史模式的有效利用提供了可能和基礎(chǔ)
另外,由于模式庫中存儲的是歷次挖掘出來的模式,可以從分析模式的變化來進行趨勢預(yù)測,從而為決策支持提供了更多的分析手段。
4.學(xué)習(xí)和推薦Agent:增加了一個用戶興趣分析檔案庫,由學(xué)習(xí)Agent進行更新維護,供推薦Agent分析使用。學(xué)習(xí)Agent將根據(jù)權(quán)值的計算方法對用戶興趣檔案中沒有出現(xiàn)過的關(guān)鍵字進行加權(quán)操作。推薦Agent根據(jù)已有的用戶興趣檔案,分析用戶可能感興趣的模式,并推薦給用戶。
5.并行數(shù)據(jù)挖掘工具/多維分析工具:數(shù)據(jù)挖掘是商業(yè)智能的核心,并行數(shù)據(jù)挖掘算法對于提高數(shù)據(jù)挖掘效率具有重要意義。為了適應(yīng)商業(yè)智能應(yīng)用的需要,僅提供多維分析工具是遠遠不夠的,應(yīng)盡可能多的提供對多種模式的支持。商業(yè)智能涉及關(guān)聯(lián)、分類、聚類、時序等模式,并行數(shù)據(jù)挖掘工具盡能包含對這些模式的支持,這也是衡量并行數(shù)據(jù)挖掘工具好壞的標(biāo)準(zhǔn)之一。
6.可視化工具:為用戶提供數(shù)據(jù)挖掘結(jié)果的自觀表示方法。
除上述特點外,通過對并行數(shù)據(jù)挖掘體系結(jié)構(gòu)的設(shè)計與改進在以下兩個方面取得了較好的效果:
(1)提高了系統(tǒng)之間的互操作性:現(xiàn)有的數(shù)據(jù)挖掘產(chǎn)品,對挖掘結(jié)果都有各自特殊的存儲格式,不同挖掘工具之間要共享挖掘的結(jié)果非常困難。然而,對模式的集中存儲就可以有效地解決上述問題,即設(shè)計類似SQL的查詢語言,或設(shè)計通用的模式庫接口。不同的挖掘工具通過使用模式查詢語言或調(diào)用模式庫接口的功能函數(shù)就可以共享模式庫中存儲的模式。
(2)并行處理能力強、可擴展性好、可用性高:改進后的并行數(shù)據(jù)挖掘體系結(jié)構(gòu)建立在可擴展機群之上,除了具有較高的.可伸縮的并行處理能力之外,系統(tǒng)的可擴展性也非常好,可以通過增加或者減少處理結(jié)點數(shù)調(diào)整系統(tǒng)的處理能力,從而適應(yīng)不同數(shù)據(jù)規(guī)模的處理需要,除此之外,系統(tǒng)的可用性高也是其顯著特點,一般情況下COW的可用性指標(biāo)都在99.9%以上,為商業(yè)智能應(yīng)用系統(tǒng)的穩(wěn)定運行提供了可靠保證。
四、結(jié)束語
并行數(shù)據(jù)挖掘體系結(jié)構(gòu)具有較高的并行處理能力和性價比,以及方便靈活的并行程序設(shè)計環(huán)境,對于實施商業(yè)智能應(yīng)用的客戶和應(yīng)用領(lǐng)域來講,具有可操作性。大多商業(yè)智能應(yīng)用客戶已經(jīng)或者容易獲得本文給出的并行處理環(huán)境,不需要投入大量的經(jīng)費購置專用的并行處理系統(tǒng)。
模式庫的提出是一種新的有益的探索。由于模式庫中存儲了歷史挖掘模式,如果其中的模式接近挖掘請求的時間,則可用這些模式自接作為挖掘的結(jié)果,不用再進行新的數(shù)據(jù)挖掘,在模式庫中進行查詢操作的響應(yīng)會明顯加快,大大提高了數(shù)據(jù)挖掘的效率。
參考文獻:
[1]熊忠陽:面向商業(yè)智能的并行數(shù)據(jù)挖掘技術(shù)及應(yīng)用研究[學(xué)位論文].重慶大學(xué),2004