時間:2022-05-21 10:30:09
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了一篇大數據處理論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
【摘 要】
分析了D2D通信中大數據的特征,重點闡述了數據篩選、預處理、建模等大數據處理的關鍵技術,并對提高大數據無線傳輸的穩定性、可靠性和高效性進行了探討和展望。
【關鍵詞】
5G 大數據 D2D
1 引言
在當前移動通信系統中,數據要經過基站、基站控制器、網關和交換機。隨著大數據背景下網絡流量迅猛增長,基站將不堪重荷。終端直通(D2D,Device-to-Device)通信作為第五代移動通信系統(5G)中的關鍵技術之一[1-2],可實現數據不經過基站直接傳輸(如圖1所示),借助提高空間利用率來進一步提高無線頻譜利用率,可使移動通信在眾多場景下變得更加直接和高效[1-3]。
但面對爆炸式的業務量,僅僅依靠D2D通信技術是遠遠不夠的。提升如何從各種各樣的數據(包括結構化、半結構化、非結構化數據等)中快速獲取有價值的信息的能力對于大數據分析與處理來說十分關鍵。業界對大數據的特征進行歸納,主要包括4個“V”[4],即數據體量巨大(Volumn)、數據類型繁多(Variety)、數據價值密度低(Value)、有很多實時數據要求快速處理(Velocity)。因此,傳統的數據表示方法不能適用于大數據的表示。如何對體量巨大、結構繁多的數據進行有效表示?如何通過結合D2D通信的特點,最大程度地壓縮數據的冗余度,挖掘出隱藏在數據背后的規律,從而使數據發揮出最大的價值?是D2D通信中大數據處理技術的核心目標。
本文首先從分析D2D通信系統中大數據的典型特征出發,分析大數據處理過程中所面臨的挑戰;然后具體分析了D2D通信系統中大數據的表示和處理方法;最后對未來研究方向做了展望。
2 D2D通信系統中大數據的典型特征
(1)數據量大
D2D通信為海量多媒體服務提供了一個強大的通信平臺,如海量文本、圖像、語音、音視頻等應用。但是,隨著采集設備成本的降低和存儲容量的增大,訓練樣本的數量往往非常巨大,如在很短的時間內所采集到的數據可以輕易地達到幾百TB。由于D2D通信中終端計算及存儲能力有限,如何有效地表示采集到的大數據集十分關鍵。由于D2D大數據集中數據的分布復雜多樣,因而需要采用具有較高普適性和較大靈活性的模型和方法來對數據的特征屬性進行表示和處理[5]。傳統的基于參數建立起的模型及其學習算法由于模型的結構固定,因此限定了其可以表示的數據特征。與參數模型相比,采用具有結構可調節的非參數模型及其學習算法在這樣的情況下具有更好的效果。
(2)數據的維度高
由于D2D通信中終端的異構性以及用戶需求的異構性,高維和超高維的數據不斷涌現。很顯然,數據維數越高(屬性越多),就可以更加全面地刻畫所描述的對象以及更好地分辨對象。然而,過高的維數不可避免地對數據的表示與處理提出了嚴峻的挑戰。研究表明,對于大部分觀測或采集到的高維數據而言,其主要信息存在于一個低維空間中。換句話說,該低維空間包含了高維數據中的全部或絕大部分的有用信息。因此,如何在低維空間中有效地刻畫高維數據的有用信息,也是D2D通信中大數據處理領域一個不容忽視并且極具挑戰性的問題。目前已經有一些隱空間模型和方法,如主成分分析、因子分析、獨立成分分析等可以用于完成此項任務,找到這樣的低維空間并將數據進行高效表示[7]。
(3)模型的復雜度和計算時間
傳統的通信系統處理數據時,由于數據量不大,因此可以采用較為復雜的模型來描述數據的特征。而在與D2D通信大數據相關的應用中,終端處理能力受限,如果仍然采用復雜的模型來處理大數據,則計算和時間成本將大大增加;另一方面,如果采用較為簡單的模型,可能不能完全表示和挖掘出大數據的關鍵特性。解決方法是:一方面,盡可能設計簡潔的模型及高計算效率的算法,從而降低模型的復雜度和計算時間;另一方面,利用終端的靈活性,可以采用并行計算和分布式計算技術,把原先一個終端上的數據表示和任務處理分攤到多個終端。通過設計相應的算法,實現多個節點的信息共享和協作,從而降低每個終端上模型的復雜度和計算時間[7]。
(4)算法的實時性和可擴展性
在D2D通信系統的大數據處理中,都需要對其中的大數據進行實時性表示與處理,即當新數據到來以及新類型出現時,算法能夠根據實際情況進行自適應的調節,以適應數據的變化。而傳統的學習算法偏重于離線算法,因此需要設計一些在線學習算法,對描述或表示數據的模型進行在線學習。其中,貝葉斯技術可以很方便地用于在線學習[8]。此外,在設計模型及其學習算法時,也需要考慮其多媒體應用的可擴展性。
3 D2D通信系統中大數據處理方法
基于D2D通信中大數據處理的具體特征,本文擬從用戶的感受出發,設計如下方案來高效地表示和處理D2D通信系統中的大數據,提取其中的有效信息,具體如下:
首先,從應用的內容出發,根據具體用戶業務需求和應用背景對大數據進行初步篩選。即只需要保存與所需任務相關的數據,去除無關數據,從而提高后續處理的效率。
其次,設計合理的算法,對大數據進行預處理,并且依據用戶體驗提取特征屬性。如前文所述,D2D通信中所采集到的大數據的維度(屬性)較大,因此對于大數據有效特征屬性的提取十分重要。此處可采用貝葉斯因子混合分析方法,通過該方法,可以找到一個數據有效信息相對集中的低維空間,從而可以將高維數據投影到低維空間中,最大程度地降低數據的冗余,完成數據的降維過程,從而可以在低維空間中完成后續的操作(如圖2所示)[9]。此外,該方法的另一個優點在于,由于得到了高維數據的低維有效表示,從而可以在某些條件下實現數據的可視化。
圖2 數據冗余度降低過程
最后,設計合適的模型來精確地描述提取出的大數據屬性,從而進一步用高效、簡約的形式來表示大數據。在現有的工作中,在用模型對大數據進行表示和處理方面已經開展了一些研究,取得了一些研究成果。具體地,選用混合模型來描述建模大數據的分布已成為主流,主要原因有兩點:
(1)D2D通信中業務種類多、網絡數據的分布較為復雜,而混合模型在理論上可以建模和描述任意復雜的數據分布。
(2)混合模型及其學習算法屬于生成方式的學習范疇,只要獲得準確的模型,則可以用該模型作為大數據的緊湊表示形式,因此,其比判別方式的學習具有更小的存儲、更低的傳輸和處理復雜度,并且有利于在線操作[10]。
此外,根據不同目標場景中的不同類型的數據,需要提出與之相對應的模型和配套學習算法,用其來表示大數據。例如,對于屬性較少(數據維度較低)的數據,采用所提出的無限成分t混合模型及其學習算法,估計出模型的參數,在后續的處理任務中只要關注參數就可以準確把握數據的特性。對于屬性較多的高維數據,則采用所提出的無限成分t因子混合分析器及其學習算法,對數據進行有效地表示。對于具有時間或空間相關性的數據而言,則可以采用所提出的具有stick-breaking先驗分布的t隱馬爾可夫模型及其學習算法對數據進行表示[11]。隱馬爾可夫模型的最大特點在于結構較為靈活,其可以根據數據的分布自適應確定模型的結構(如混合成分數目、因子維數等),并且對大數據中出現的離群點也具有較強的魯棒性。由于通過學習算法得到的模型精確描述了數據的分布,較好地完成了后續任務,網絡業務流量的識別與預測的正確率有了較大的提升[6]。
進一步考慮到大數據表示和處理中對于模型復雜度和計算時間的需求,需要設計與上述模型相關的分布式算法。通過該類算法,網絡中的各個終端只需要采集到部分數據,就可以通過節點間的協作來協同估計出反映整個數據特性的模型參數。需要注意的是,在通信網絡中,傳輸的代價比本地終端計算的代價要高得多。因而在協作過程中,各個終端只需要和在其通信范圍內的鄰居節點進行通信,并且只傳輸用于估計最終模型參數的充分統計量,而無需把自己持有的那部分數據傳輸給鄰居終端。這樣做的優點在于可以將對大數據的表示和處理分攤到各個終端上,從而最大程度降低了D2D終端的計算量。另一方面,由于充分統計量比原始數據量少很多,因此可以最大程度地降低傳輸代價,并且減少由于傳輸中丟包或其他錯誤、干擾等引起的系統性能的下降。
4 研究展望
對于未來D2D通信中大數據處理技術的研究可以從幾個方向開展:
(1)進一步地從高維大數據特征中壓縮冗余,剔除無關無用屬性,提取與應用目標相關的有用特征,將核學習、流形學習方法引入,解決大數據表示問題。
(2)利用半監督學習、遷移學習、集成學習等理論和技術,最大程度地挖掘大數據間的內在關聯信息。
(3)在現有模型和方法的基礎上,開發設計在線學習算法,實時完成大數據的處理任務。
(4)設計分布式學習以及大數據處理算法,進一步提高網絡節點之間協同處理和通信的能力,進一步降低網絡節點之前傳輸的數據量。
(5)針對具體應用,設計結構更加靈活,更具有普適性、魯棒性的模型,并且開發設計快速、高效的模型參數及結構估計方法,從而獲得更簡潔的大數據表示形式。
5 結束語
D2D技術被廣泛認為是5G的關鍵技術和解決無線大數據傳輸的有力工具。本文從D2D通信中大數據特征入手,分析面臨的挑戰,提出應對策略,展望研究方向,綜合探討了如何提高D2D大數據無線傳輸的穩定性、可靠性和高效性的問題。
[摘 要]計算機技術與網絡通信技術已經開始逐漸廣泛應用于電力自動化系統,電力自動化系統的數據處理呈現多樣化趨勢,更加復雜化。筆者主要是從電力自動化系統數據類型角度考慮,對于電力系統的快速準確處理進行了分析,對電力自動化系統中數據處理的相關問題進行了闡述和分析。同時探討了作為電力自動化系統發展方向的智能電網,對其拓撲結構和通信系統進行介紹。
[關鍵詞]大數據時代;電力自動化;數據處理
引言
電力系統是一個動態的系統,主要包含發電、變電、輸電和配電四個部分。 電力系統的動態性和實時性是由于電能不能存儲的特性決定的。 正是電力系統的動態性和實時性使得其在具體的運行過程中,會產生大量的實時數據,為電力系統中調度部門的操作帶來了巨大的困難, 電力自動化系統也就應運而生。 電力自動化系統為電力系統運行過程中產生大量實時數據的準確處理創造了條件。“大數據”時代最先被全球知名的咨詢公司麥肯錫提出來,其是生產決策的重要依據。 所謂的大數據時代,是指在互聯網技術下,企業的生產運營過程中相關數據的積累,其在商業、經濟和其他領域越來越突出,對相關決策具有十分重要的作用。
一、電力自動化系統的類型分類
1.基礎型數據:主要是與電力自動化系統中的電力設施設備屬性相關的數據,如,發電機、變壓器等電力設施設備的基礎數據。 對于這些數據一般是電力單位根據相關的數據規劃各自進行管理, 并通過相關數據服務器對其數據進行數據同步,便于調度中心對這些數據進行集中存儲、整理和相關計算。
2.實時數據:大多數是在電力系統運行過程中進行實時采集的數據,其數據量很大,對存儲空間的要求比較高。 這些數據是在電力系統運行過程中產生的, 通過對其進行糾錯處理后,能夠為調度部門或市場運營提供決策參考依據。 目前,我國電力自動化系統在實時數據處理方面比較成熟,對收集到的實時數據不需要進行相關的處理,只需要在數據輸入、輸出過程中建立一個穩定的接口即可。
3.日常管理的數據:主要是在電力系統運行過程中對各種相關數據進行統計,各部門對在工作中遇到的問題進行相關處理后的數據信息。 一般情況下,這些數據只需要在特定的范圍內進行同步和共享即可。 在電力系統運行過程中,建立這一類型數據同步和共享的數據平臺是十分必要的。 主要原因表現在以下幾個方面: ① 這些日常管理的數據在某種程度上反映電力系統中電力設施設備的運行情況; ② 方便電力系統中各個部門對日常管理數據的獲取,以便更好的開展部門工作。
4.市場經濟數據:隨著市場經濟的發展,電力系統的經濟效益越來越突出,電力系統運行中的相關數據對電力單位的發展具有重要影響,將其作為經濟性數據十分有必要。 市場經濟數據對城市建設規劃中的電力規劃有很重要的決策參考依據。 市場經濟數據具有非常大的擴展空間,其數據規劃的重點將是實時數據。
二、電力自動化系統中的數據統一性
數據一致性即數據的唯一性。 電力自動化系統在運行過程中,會產生大量的數據信息,這些數據信息大部分都是其子系統中特有的信息, 還有一部分是部分子系統中共有的數據信息,也就是各子系統之間的數據信息交叉現象。 每個子系統中的數據均存儲在其數據庫系統中,會對整個系統的數據存儲造成大量的數據冗余,使得電力系統中數據系統處理數據信息的效率不高,數據信息更新緩慢,甚至會造成數據信息的混亂,很大程度上降低了電力系統中數據系統的使用效率和可信度。在實際電力自動化系統運行過程中,通過對整個系統的數據庫系統進行統一管理,能夠在很大程度上保證數據信息的一致性。 對于部分離線數據庫系統來說,其數據信息的唯一性主要是通過利用離線數據庫在數據庫系統的服務器上,對數據庫系統的服務器進行統一維護。 對實時數據庫而言,主要是通過電力自動化系統在運行過程中,由實時數據庫系統中的管理系統進行統一、實時的管理,確保數據信息的一致性。
三、電力自動化系統中的數據容災
通常情況下,需要對電力自動化系統中的重要數據信息進行數據備份,再通過網絡通信技術將其傳輸到異地進行數據信息保存。 當發生災難后,可以由相關的計算機專業人員根據備份的數據對電力自動化系統中的數據進行程序恢復和數據恢復。 這有利于降低電力單位在數據信息備份方面的成本,操作也相對而言較為簡單方便。當電力自動化系統中需要備份的數據量逐漸增加時,就會出現數據信息存儲介質不易管理的問題,在發生災難后,也不
能夠及時的將大量的數據信息進行恢復。
四、電力自動化系統數據收集過程
電力自動化系統運行過程中的數據,主要是通過數據信息的采集、集中、整理和轉發來實現的。 根據數據類型的不同,采用不同的傳輸介質進行傳輸。 數據信息的通信方式主要有兩種: ① 有線傳輸,如,光纖、電纜等多種介質,具有數據信息傳輸的實時性和可靠性等優點; ② 無線傳輸,如,微波、無線擴頻等通信模式,具有無需鋪設通信通道、工作量少等優點。在實際的電力自動化系統運行過程中, 其涉及面十分廣、系統種類多,根據不同的部門需求的多個系統組成,能夠滿足每個部門在數據系統中獲取數據信息。 電力自動化系統中的設施設備的采購,可以適當的將一些先進的技術和經濟性能的指標進行考慮,再在操作技術上進行優化處理,以最大程度的實現電力單位的經濟效益和社會效益。
五、智能電網
1.智能電網中的網絡拓撲結構
智能電網中的網絡拓撲結構具有堅強、靈活的特點,能夠有效的解決電力系統中能源和生產力分布不均勻的問題,滿足電力企業大規模生產運輸過程中產生大規模數據的處理功能,實現資源的優化配置,減少電能損耗。 同時,智能電網中的網絡拓撲結構能夠有效的應對一些自然災害,如雨、雪等。
2.開放、 標準、 集成的通信系統
智能電網能夠對電力自動化系統進行及時有效的監控,主要在其具有識別故障早期征兆的預測能力和對故障做出相關的相應的能力。 智能電網是電力自動化企業的發展方向,能夠為電網規劃、建設和運行管理提供全面的數據信息,有利于大數據時代下電力自動化運行系統的穩定、安全和高效的運行。
六、結語
自動化系統的正常運行,一定要充分考慮到系統運行中數據信息的數量信息,便于數據的維修和存儲空間的無限擴展。文章主要是分析了自動化系統的數據類型,并且對其進行了詳盡的分析,對于相關問題進行了闡述,給電力自動化系統提供了更加廣闊的空間,并探究了智能電網在電力自動化運行系統中運行的優勢和未來的發展方向。
[摘 要]在當前新時期環境下,智能電網大數據處理技術在獲得飛速發展的同時也面臨著新的挑戰,本文首先對智能電網大數據的特點進行了分析,并且探討了智能電網大數據處理技術的發展現狀,重點分析其在當今新時期環境中面臨的挑戰。
[關鍵詞]智能電網 大數據處理技術 現狀 挑戰
隨著我國智能電網建設進程的不斷推進與深入,電網運行與設備監測過程中也產生了大量的數據信息,逐漸構成了當今信息學姐與研究人員重點關注的發數據,但大數據時代下電網的高效、穩定運行離不開相應的處理與存儲技術作為支撐。
1.智能電網大數據的應用特征
電網業務數據可以大致劃分為三類:第一是數據監測、設備檢測及電網運行;第二是電力企業營銷數據,如用電客戶、銷售量、交易電價等方面的信息數據;第三是電力企業的管理數據。[1]數據信息量十分巨大,并且隨著電網數據的不斷更新升級,數據類型也變得繁雜多樣。電網數據種類眾多、分布較廣,主要包括多媒體數據、文本數據、實時數據、時間序列變化等半結構化、非結構化以及結構化數據,不同類別的數據在查詢、處理方面的性能與頻度要求也存在很大差異。智能電網運行時的數據價值密度較低,例如電網監控視頻,其在實際監控管理的過程中,總數據中十分有用的信息量是非常少的,多數的數據都是正常數據。
2.智能電網大數據處理技術發展現狀分析
2.1 并行數據庫
關系數據庫主要負責對結構化數據進行存儲,從而提供嚴格依據規則快速處理事務的能力、邊界的數據查詢與分析能力、數據安全性保障以及多用戶并發訪問能力。應用強大的數據分析能力以及SQL查詢語言以及獨特的程序優勢獲得了廣泛的應用。[2]經管隨著智能電網建設的不斷加快,數據超出了關系型數據庫的管理范疇,地理信息圖片與音頻、圖片以及視頻等非結構化的數據逐漸成為需要處理與存儲的信息的一項重要組成部分。
2.2 云計算技術
隨著云計算平臺的出現及完善,大數據技術的需求也相繼出現,云計算的關鍵是數據并行處理與海量數據存儲技術。而在智能電網中,電力設備狀態監測設備的數據量應當是最為龐大的,而狀態監測數據不但包含了在線數據,還應當包括缺陷記錄、實驗記錄以及基本信息等,由于數據量極大,其對于實時性要求比企業的數據管理更高。當前,云計算技術在電力行業的發展依然處于初級的階段,現行的云計算平臺能夠充分滿足職能電網監控軟件運行的可擴展性與可靠性要求,但在數據隱私、安全性、一致性以及實時性方面存在缺陷,依然需要進一步優化與完善。
3. 智能電網大數據處理技術面臨的挑戰分析
3.1 大數據傳輸與儲存技術
隨著智能化的不斷發展,電力系統在運行過程中的電力設備監測數據與其他數據都會被記錄下來,數據量不斷增加,這對于電網運行監控以及數據的傳輸、存儲造成巨大的壓力,同時在一定程度上影響了電網智能化的發展。在智能電網大數據存儲方面,通過分布式文件保存的形式可以進行大數據存儲,然而可能對電力系統在數據實時處理方面產生影響。[3]因此,需要對電網大數據進行分門別類后再存儲。而重點是將其中非結構化的數據轉化為結構化數據,對于智能大數據處理技術來說依然較為困難。
3.2 數據處理時效性技術
對于大數據來說,其數據處理的速度是非常重要的。通常而言,數據的規模越大,需要分析與處理的時間也會越長。以往的數據存儲方案針對一定要求的數據量進行設計,其在大數據方面并不適用。[4]而在未來智能電網的大環境下,如何在發電、輸變電、用電等環節進行數據實時性處理是一個非常關鍵的問題。
3.3 異構多數據源處理技術
在未來智能電網要求貫通電網運行的每一個環節之中,時間新信息的高效采集與處理,并且逐漸朝著業務流、信息流以及電力流高度一體化的方向進行發展。所以,首先要做的就是如何整合大規模多源異構信息,為智能電網提供一個資源高度集約化配置的數據處理中心。對于海量的異構數據來說,如何構建出科學的模型進行規范表達以及如何在這個模型的基礎上實現數據的存儲、融合、查詢等是亟待解決的重要問題。
結語
我國智能電網系統的應用廣度與深度在不斷加強,大數據處理技術逐漸成為維護電網智能安全運行的一項重要手段。然而隨著電網智能運行的不斷發展,其在大數據處理一致性、隱私性、實時性等方面也面臨著相應的挑戰,未來智能電網的主要依托依然是大數據處理分析技術,所以必須尋找出妥善應對挑戰的策略,最終推動我國電力事業的長久穩定發展。
【摘 要】通過大數據的研究處理將獲得的有用信息服務于企業或機構,使其在競爭中取得優勢,來為企業提供更好的處理大數據的方法,幫助企業更深刻的理解客戶對其的需求和體驗,以利于業務的發展,用戶也可以更好地體驗移動互聯網各種資源。本文首先對移動互聯網大數據做了概述,然后分析了移動互聯網大數據處理中存在的問題,最后詳細闡述了移動互聯網的大數據處理關鍵技術。
【關鍵詞】移動互聯網;大數據;處理;排重;整合
一、移動互聯網大數據概述
移動互聯網大數據是指用戶使用智能終端在移動網絡中產生的數據,主要包括:與網絡信令、協議、流量等相關的網絡信息數據;與用戶信息相關的用戶數據;與業務相關的數據。
大數據提供客戶經歷的各種體驗的完整信息,可以詳盡到在任何時間、地點,結合移動客戶體驗方案來分析相關數據,從而幫助運營商更詳細掌握客戶體驗情況,提前預知網絡上可能發生的問題,及時做出合理響應,這些信息對運營商的服務提供很大的幫助。大數據分析為整個電信產業帶來了前所未有的機遇與挑戰,如何高效地發揮這些數據資源的作用,是擺在為運營商面前的關鍵問題。
二、移動互聯網大數據處理中存在的問題
(一)多源數據采集問題
大數據時代的數據存在如下幾個特點:多源異構、分布廣泛、動態增長、先有數據后有模式。舉例來說,一個用戶的一條位置信息的價值是很小的,但是很多這樣的低價值數據可以完整刻畫出用戶的運動軌跡,獲得本質上的價值提升。然而,在已有的數據采集系統中,數據收集不全面是一個普遍的問題,如何處理來自多源的數據是移動互聯網大數據時代面臨的新挑戰。其中,迫切需要解決如下幾個問題:
1.無線移動網絡結構復雜,需要在網絡中高效地采集數據。
2.多源數據集成和多類型數據集成的技術。
3.兼顧用戶的隱私和數據的所有權和使用權等。
(二)移動互聯網海量異構數據管理問題
據統計,2003年前人類共創造了5艾字節(Exabytes)的數據,而今天兩天的時間就可以創造如此大量的數據。這些數據大部分是異構數據,有些具有用戶標注、有些沒有;有些是結構化的(比如數值、符號)、有些是非結構化話的(比如圖片、聲音);有些時效性強、有些時效性弱;有些價值度高、有些價值度低。移動互聯網海量異構數據管理平臺包含以下關鍵研究和技術:海量異構大數據傳輸控制、大數據存儲、大數據質量管理。
(三)移動互聯網大數據實時數據挖掘問題
傳統意義上的數據分析(Analysis)主要針對結構化數據展開,且已經形成了一整套行之有效的分析體系。首先,利用數據庫來存儲結構化數據,在此基礎上構建數據倉庫,根據需要構建數據立方體進行聯機分析處理(OLAP,Online Analytical Processing),可以進行多個維度的下鉆(Drill-down)或上卷(Roll-up)操作。對于從數據中提煉更深層次的知識的需求促使了數據挖掘技術的產生,并發明了聚類、關聯分析等一系列在實踐中行之有效的方法。這一整套處理流程在處理相對較少的結構化數據時極為高效。但是,對于移動互聯網來說,涉及更多的是多模態數據挖掘,這些數據包括手機上的傳感器,包括加速度計、陀螺儀、指南針、GPS、麥克風、攝像頭、以及各種無線信號(如GSM、WiFi)和藍牙等。這些原始數據在不同維度上刻畫被感知的對象,需要經過不同層次的加工和提煉才能形成從數據到信息再到知識的飛躍。移動互聯網半結構化和非結構化數據量的迅猛增長,給傳統的分析技術帶來了巨大的沖擊和挑戰。
三、移動互聯網的大數據處理關鍵技術
(一)數據處理的整體框架
數據處理的整個過程如圖1所示,主要包括四個模塊:分詞(WordsAnalyze)、排重(ContentDeduplicate)、整合(Integrate)和數據。
這四個模塊的主要功能如下。
分詞:對抓取到的網頁內容進行切詞處理。
排重:對眾多的網頁內容進行排重。
整合:對不同來源的數據內容進行格式上的整合。
數據:包含兩方面的數據,Spider Data(爬蟲從網頁中抽取出來的數據)和 Dp Data(在整個數據處理過程中產生的的數據)。
(二)數據處理的基本流程
整個數據處理過程的基本步驟如下:
1.對抓取來的網頁內容進行分詞。
2.將分詞處理的結果寫入數據庫。
3.對抓取來的網頁內容進行排重。
4.將排重處理后的數據寫入數據庫。
5.根據之前的處理結果,對數據進行整合。
6.將整合后的結果寫入數據庫。
(三)數據處理的關鍵技術
1.排重。
排重就是排除掉與主題相重復項的過程,網頁排重就是通過兩個網頁之間的相似度來排除重復項。Simhash算法是一種高效的海量文本排重算法,相比于余弦角、歐式距離、Jaccard相似系數等算法,Simhash避免了對文本兩兩進行相似度比較的復雜方式,從而大大提高了效率。
采用Simhash算法來進行抓取網頁內容的排重,可以容納更大的數據量,提供更快的數據處理速度,實現大數據的快速處理。
Simhash算法的基本思想描述如下:輸入為一個N維向量V,比如文本的特征向量,每個特征具有一定權重。輸出是一個C位的二進制簽名S。
(1)初始化一個C維向量Q為0,C位的二進制簽名S為0。
(2)對向量V中的每一個特征,使用傳統的Hash算法計算出一個C位的散列值H。對1
(3)如果Q的第i個元素大于0,則S的第i位為1;否則為0。
(4)返回簽名S。
對每篇文檔根據SimHash算出簽名后,再計算兩個簽名的海明距離(兩個二進制異或后1的個數)即可。根據經驗值,對64位的SimHash,海明距離在3以內的可以認為相似度比較高。
2.整合。
整合就是把抓取來的網頁內容與各個公司之間建立對應關系。對于每一個公司來說,可以用一組關鍵詞來對該公司進行描述,同樣的,經過dp處理之后的網頁內容,也可以用一組關鍵詞來進行描述。因此,整合就變成了兩組關鍵詞(公司關鍵詞,內容關鍵詞)之間的匹配。
對于網頁內容的分詞結果來說,存在著兩個特點:(1)分詞結果的數量很大;(2)大多數的分詞對描述該網頁內容來說是沒有貢獻的。因此,對網頁的分詞結果進行一下簡化,使用詞頻最高的若干個詞匯來描述該網頁內容。
3.流處理系統。
移動互聯網的多源異構數據每時每刻都在大量產生著。數據探測模塊根據這些數據處理的不同要求,將數據分別送給實時處理系統和批處理系統。很多互聯網公司將根據業務的需求和處理的時間將劃分為在線、近線和離線三種方式來處理業務消耗的時間。這其中,在線處理的處理時間通常在毫秒級,一般采用流處理方式;離線處理的處理時間通常以天為單位,一般采用批處理方式。這樣會最大程度地利用好輸入/輸出系統。近線處理對其處理模式沒有特別的要求,處理的時間一般在分鐘級或小時級,在實際情況中多采用此處理方式,可根據需求靈活選擇。
四、結語
綜上,隨著移動互聯網的迅猛發展,客戶處理的業務越來越復雜,與其相關的大數據正逐漸增長,大數據分析技術已經成為各方關注的焦點。合理使用大數據將有效的發揮移動互聯網大數據的資源作用,使大數據為用戶獲得前所未有的體驗,為企業發展提供完整清晰的指引。
摘要:隨著大數據時代的到來,各行各業都受到不同程度的沖擊,管理會計也面臨著前所未有的挑戰,尤其在數據處理方面發生了巨大的變革。這些變革包括管理會計大數據的思維模式,數據的收集、存儲、加工、分析等數據處理方面的變革。
關鍵詞:管理會計 大數據時代 云計算
隨著互聯網時代的開啟,大數據概念開始在全球蔓延,我國也于2014年將“大數據戰略”上升為國家戰略,基于互聯網的大數據逐漸正改變著各行各業的傳統模式,作為會計重要分支的管理會計工作也遇到了前所未有的挑戰。
一、大數據時代的到來
(一)大數據時代的特點
“大數據時代”這一概念最早是由全球知名咨詢公司麥肯錫提出的,“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產要素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”業界普遍認為大數據的特點可以由四個“V”概括,即Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。大量是指相對于傳統的數據產生方式,現在的數據呈現出爆炸式增長的特點;多樣是指數據來源多樣繁雜,如數字、文字、圖片、音頻、圖像、網頁、地理位置信息等五花八門的數據形式;高速是指隨著云計算等先進技術的發展使得數據的計算能力突飛猛進,數據庫實時更新;價值是指價值密度低,比如一個小時的視頻也許只能采集到幾秒鐘有用的數據。自古以來商業的發展都是基于數據分析作出決策,但從未有一個時代像大數據時代這樣出現如此大規模的數據,如今的企業就像是漂浮在數據海洋上的巨輪,而管理會計需要做的就是及時準確地挖掘出有用的數據。
(二)大數據拉啟了管理會計新發展的序幕
1、海量數據為管理會計提供了重要的經營管理資源
管理會計職能的有效發揮必須建立在對數據的準確分析上,大數據時代數據呈現出樣本數據向全數據轉變的趨勢,使得管理會計的處理對象更加完整。對于任何企業來說,數據都是商業皇冠上最為耀眼奪目的寶石,在未來的商業競爭中,誰能夠占有更及時、更豐富的數據,誰才有可能在瞬息多變的市場中站穩腳跟。管理會計工作者要應勢而動,建立數據倉庫,做好數據資源的收集、存儲、挖掘及整理分析和共享的工作。
2、傳統的結構化數據已無法滿足管理會計的決策需求
一直以來,結構化數字數據作為管理會計的主要處理對象在企業決策中發揮了重要的作用,但隨著數據的爆炸式發展,企業自身信息系統中產生的標準化、結構化數據在企業所能獲得的數據中所占的比重越來越小,甚至不足15%,顯而易見,結構化數據在企業決策中所發揮的作用已非常有限。據統計資料顯示,企業的數據資源中85%屬于廣泛存在于社交網絡、物聯網等之中的非結構化或半結構化數據,這些數據被用來優化生產流程,增強客戶體驗。因此,企業管理者必須重視數據資源的全面性,特別是半結構化數據和非結構化數據的收集,為管理決策提供完整、準確的依據。
3、實時更新的動態數據促進企業數據處理能力的提高
大數據時代下,企業每天需要處理的數據以驚人的速度不斷增長,傳統的關系型數據庫已成為管理會計發展過程中的主要瓶頸,以沃爾瑪為例,通過建立數據倉庫,其每小時可以處理的交易記錄高達一百萬次,存儲數據規模多達2500TB,這是傳統的關系型數據庫絕對做不到的。鑒于人腦對數據處理能力的有限性,處理完的數據也需要以可視化的界面呈現出來,這也對管理會計提出了新的要求。
4、數據的價值取決于其及時性和預測性
大數據分析最重要的一點是保證數據的及時性,其次是預測性。以很多企業投入使用的臉譜識別系統為例,從進門的那一刻,人臉就被快速抓拍,通過技術分析可以明確地知道這個人是誰,他將要去哪里,這些曾經看似天方夜譚的事情已經實實在在的發生了,這個世界正在發生改變。數據的及時性和預測性對管理會計提出了更高的要求,構建數據倉庫、應用數據挖掘技術已是勢在必行。
二、大數據時代引發管理會計數據處理模式的重大變革
(一)管理會計數據搜集方式與內容的變革
傳統的會計核算系統中,數據源頭是各種紙質原始憑證,隨著互聯網技術和各種電子設備的廣泛應用,原始憑證由紙質慢慢過渡成為電子數據,并且不再由財務人員負責收集,而是廣泛分散在采購部門、生產車間、銷售部門、后勤部門等各業務部門,甚至是供應商、客戶、政府機構、中介機構等外部相關組織中。通過管理信息系統和互聯網直接采集信息,節省時間和成本的同時,也提高了數據的準確性。
大數據時代下,相對于傳統的結構化數據,半結構化和非結構化數據的運用是越來越廣泛。大量的數據出現在社交平臺、新聞網頁、各種客戶端等,并以音頻、視頻、圖片、符號等多種多樣的形式呈現出來,這些數據都有別于傳統的結構化數據,呈現出非線性的特征,但對于管理決策卻發揮著日益重要的作用,管理會計如何處理這些數據已是當務之急。如客戶在微信、微博、論壇等社交平臺中發表的對產品或服務的評價,如果加以處理和分析,完全可以用于管理決策支持。
(二)管理會計數據存儲方式與內容的變革
大數據時代,如何將復雜多樣的海量數據加工提煉成有用的信息以供管理者決策之用是所有企業需要解決的首要難題。目前的數據庫市場中,傳統的關系型數據庫仍處于主導地位,這類數據庫只能夠處理結構化數據,隨著數據來源與種類形式的日益多樣化,關系型數據庫在高并發讀寫、高吞吐率和海量數據存取、高可用性和高擴展性需求等方面越來越無法適應新的形勢,操作復雜、成本高昂,最關鍵的是數據處理的有限性已成為制約企業發展的瓶頸,如不及時轉變思路和更新技術,企業難逃被市場淘汰的命運。大數據倉庫是世界各國普遍采用的一種管理系統,包括數據的收集、預處理、存儲、整合、分析、數據挖掘和價值再造等多種功能模塊,保證數據被充分提煉和處理。企業也可以根據自己的實際需要,將大數據倉庫分為不同功能模塊,如存貨管理模塊、生產計劃模塊、銷售管理模塊等,明晰的模塊分類有利于數據的管理和使用,在這個基礎上,企業可以利用數據挖掘技術尋找能為企業創造價值的潛在信息。
(三)管理會計數據加工分析方式的變革
大數據時代下,數據挖掘已經成為一項應對海量數據必不可少的技術。“啤酒和尿不濕”已經成為了數據挖掘中最經典的案例,零售連鎖舉頭沃爾瑪公司擁有世界上最大的數據倉庫系統之一,在這里集合了其所有門店的詳細原始交易數據,在這些原始交易數據的基礎上,沃爾瑪利用數據挖掘工具對這些數據進行分析和挖掘,最后得出結論:跟尿不濕一起購買最多的商品竟是啤酒。在數據挖掘過程中需要用到回歸分析、趨勢分析、決策樹分析、時間序列分析等算法,而這些對于管理會計工作者來說顯得相當陌生。
以企業常見的投資決策為例,傳統的投資決策分析方法有內含報酬率法、凈現值法等,這些方法通常是依據單一渠道取得的相對準確的歷史數據進行分析,通過這種方法分析得出的結論相對滯后、單一,對于管理者決策只能發揮有限的參考作用。大數據時代下,企業投資決策通過搜集線上和線下數據、歷史資料和現時的業務數據、技術數據、企業上下游供應鏈數據、用戶數據、競爭對手數據、相關政策法規等一系列相關的完整數據后,再運用先進的數據挖掘技術做出最為可行的選擇。
(四)管理會計信息共享模式的變革
數據挖掘技術得以有效使用的前提是“信息孤島”現象的消失。傳統的數據庫模式下,不同業務部門之間都有自己獨享的數據中心,局部意識嚴重阻礙了信息共享觀念的普及,這種封閉的“信息孤島”管理模式在大數據時代下逐漸瓦解,在企業價值鏈甚至企業間價值鏈上正在逐步實現信息共享。如生產部門可以直接查詢庫存管理部門原材料的存儲情況,并根據生產需要及時通知采購部門,甚至在企業與供應商及客戶之間都可以實現信息共享,增強彼此間合作的親密度,形成穩固的伙伴關系以共同應對瞬息萬變的市場競爭,實現共贏的戰略合作局面。
三、積極應對大數據時代管理會計面臨的挑戰
(一)正確認識大數據時代對管理會計造成的沖擊
統計資料顯示,目前我國企業中約有50%的管理者并未對大數據戰略及互聯網時代對企業的影響引起重視,而且有38%的被調查者并不清楚大數據的概念,25%的被調查者對于大數據的理解存在偏差,甚至有些管理者認為大數據時代對其所在的企業不會產生任何影響。而對于中小企業來說,大數據戰略更是遙不可及,單是人才的培養就需要一筆不菲的投資,完全不符合成本效益原則。因此,大數據時代雖然已大踏步來到,并對很多傳統行業造成了巨大的沖擊,卻并未引起管理者的足夠重視,或者因為各種條件的限制而選擇了視而不見,這勢必會影響到大數據在管理會計中的應用。
(二)構建基于云計算的管理信息系統
大數據時代信息的存儲量相當可觀,據統計,百度每天新增的數據就有10TB,系統每天需要處理的數據則超過1PB,而完全顛覆傳統銷售模式的淘寶商城每天需要處理的數據高達50TB。隨著物聯網、互聯網、移動互聯網的廣泛使用,不同形式的數據鋪天蓋地,同樣需要巨大的存儲空間,而現有的數據庫幾乎無法存儲TB級別的數據,分析整理更無從談起。因此,能否對現有數據存儲系統更新換代,建立巨大的TB級的數據倉庫,將直接決定企業能否實現對數據的及時、完整的收集、存儲、分析、整理,最終決定企業的成敗與否。云計算模式應運而生,借助互聯網這一平臺提供快速、動態、虛擬、規模化的信息資源,滿足用戶結構化、半結構化乃至非結構化信息的多種分析需求。
(三)完善信息安全技術制度
如何保障信息安全是大數據時代及互聯網廣泛應用過程中必須要重視的一個問題。企業收集的數據中常常包含著其他企業、組織或者個人的隱私,這些信息一旦泄露,會給當事人、客戶、供應商等造成難以挽回的損失。在拉斯維加斯每年夏天舉辦的全球性的“黑客大會”上,讓人眼花繚亂的黑客技術輪番上演,這也為各大企業、組織、政府部門等敲響了警鐘,信息安全技術的發展和維護任重而道遠,如何保證信息安全成為了擺在每一個人面前的重大課題。
(四)注重適應大數據時代要求的管理人才的培養
目前,世界各國的大數據專業人才都面臨巨大的缺口。一項預測顯示,在未來六年內,僅美國一國就可能面臨14 萬至 19 萬擁有扎實分析技能的人才缺口,面臨的懂得使用相應工具分析大數據、作出合理決策的管理和分析人員的人才缺口更是高達 150 萬。人才的短缺勢必會阻礙企業開發、利用管理會計信息工作的進程。因此,能否及時培養掌握此類分析所需知識與技術的管理會計人才,對企業的發展至關重要。
大數據是人們認知世界的一種新的渠道和新的方法。大數據的應用可以看做是知識在計算機網絡上的新呈現,本文詳盡闡述了智能電網中大數據的特點,智能電網中大數據處理技術現狀和智能電網大數據處理技術面臨的挑戰等方面進行了深入的探討。
【關鍵詞】智能電網 大數據 云計算 并行數據庫 應用現狀
隨著智能電網建設的不斷深入和推進,電網運行和設備檢、監測產生的數據量呈指數級增長,使電力企業進入了大數據時代,對目前的數據存儲和處理技術提出了更高的要求。同時也對智能電網大數據的處理效率提出了更加嚴苛的要求,本文以現階段智能電網大數據處理的技術應用為出發點,基于大數據處理目前的技術水平,分別從傳輸性、存儲性、時效性、集成性和可視性等方面探討新技術背景下智能電網大數據處理面臨的機遇與挑戰。
1 智能電網中大數據的特點
智能電網業務中的基本數據按內容可以劃分成三大類。
(1)運行數據、設備檢測數據、設備實時狀態參數數據。
(2)電力企業營銷數據(用電客戶、電量報價等)。
(3)電力企業管理數據。
在上述類目可以再次細化為結構化數據和非結構化數據兩大類。但無論基于何種分類方式,大數據在智能電網中體現出來的特點是不變的,簡單概括為體量大、類型多,具體如下:
(1)數據體量大:即數據的數量和體積較為龐大。在智能時代的推動下,電網在數據吞吐量的級別已經從以往的TB級飆升為PB級。
(2)數據類型繁雜:由于電力企業自身存在的特殊性,加之其地理分布情況在區域上的差異性,電網企業涉及到的數據有著極為復雜的類別劃分,細分后的子類和子項同樣在數量上非常龐大,也正是由于這一特點,不同的數據類別對服務器端硬件設備及用戶端的系統平臺均有不同程度的配置、性能及處理需求,從而更是增加了電網企業內網及外設雙重建設項目的難度。
(3)數據價值密度低:異常數據出現的頻率低,同時也是對電網軟、硬件設備維修和檢測最有價值的。
2 智能電網中大數據處理技術現狀
2.1 并行數據庫
關系數據庫常用于結構化數據的存儲、整合及維護,可以實現的具體功能如下:
(1)可實現數據查詢及邏輯分析的快捷化、靈活性操作。
(2)可提供高標準規則強制下業務事項的高效處理。
(3)可承載一定數量的用戶同時發起數據訪問的系統壓力。
(4)可執行高級別安全機制。
得益于SQL嚴謹的數據查詢語言、高效率的數據分析層級以及脫離對程序依賴的高效率獨立化協同運行等絕對優勢,關系數據庫得到了業界的一致認可和推廣。但是智能電網的開發和組建已經今非昔比,其進展的速度早已將關系型數據庫的能力范圍甩在了身后,僅在非結構化數據存儲這一點能力上的局限,就使得目前多種主流數據類型如地理信息、高像素圖片以及各種音、視頻等格式文件無法滿足電力企業在數據存儲方面提出的全新的、更高標準的需求。
2.2 云計算技術
云計算平臺的誕生使得大數據技術尤為必要,能夠存儲海量數據并具備數據并行處理功能等核心技術,因此為電力設備實時狀態數據提供了強大的技術支持。實時狀態數據不僅類目眾多,數據量龐大,可靠性和實時性的標準高,使基于云計算技術的海量數據研究仍處在起步階段,即便能夠確保監控程序的延展性和可靠性,但更高標準的性能如安全和數據隱私等并未實現,仍需不斷探索。
3 智能電網大數據處理技術面臨的挑戰
3.1 大數據傳輸及存儲技術
智能時代數據量的日漸增多極大程度影響了電網智能化的發展,并在存儲系統、電網運行監控設備以及數據傳輸方面形成了諸多負擔。因此要進行分類存儲和分析系統中現有的大數據性能。非結構化數據在智能電網中存有的百分比較大,將此類非結構化數據演變成結構化數據,是當前智能大數據在存儲方面處理技術上存在的難題。
3.2 數據處理的時效性技術
大數據重點在于處理速度。一般情況下,處理時間與數據規模成正比,規模大的數據集處理的時間就越長。傳統的存儲方案僅能夠處理能力范圍內的一定量的數據,對大數據卻難以駕馭。隨著智能電網的不斷應用,實時數據處理將需貫穿于用電、輸變電和發電等各項關鍵環節中。
3.3 異構多數據源處理技術
未來智能電網能夠將貫通發電、調度以及變電、輸電、配電等幾項環節得以滿足,能夠將信息的全面采集、高效處理、流暢傳輸以及業務流、信息流和支撐電力流實現高度的一體化。因此,其主要功能是能夠整合出規模較大的多源異構信息,可以由資源集約化配置的數據中心提供給智能電網。目前海量異構數據需首要處理的問題在于,怎樣構建出一個能夠規范表達的模型,同時何以才能以該模型為基礎將數據融合以及查詢存儲同時高效進行。
3.4 大數據可視化化分析技術
針對難以量化的智能電網數據,在屏幕空間自身局限的顯示情況下,面向用戶提供一種更為簡便直觀的方式,是跨越性較大、難度較高的一項工作。在實踐中,可視化方法能夠分析規模較大的數據,將數據繪制為分辨率和精度較高的圖片,同時輔以交互工具,結合人的視覺系統,對算法參數和實時處理做出決定,并通過數據展開定量、定性的分析和觀察。
4 結語
智能電網系統在我國的應用日漸廣泛,大數據處理技術已然是智能電網安全運行的有利武器。但在電網智能化的發展進程中,實時、隱私等方面的性能需求對大數據技術本身提出了更嚴峻的挑戰,為了向全景實時電網時期邁進,我們必須制定有針對性的解決方案,為電力事業得以持續穩定發展貢獻出力量;推動我國社會主義現代化建設的步伐更快的向前邁進。
信息爆炸時代,大數據超大體量、離散性和非(半)結構化的特點已經遠遠超出了傳統數據管理方式所能夠承載的范疇。大數據要求全面革新原有的數據處理架構和有關技術,實現超大體量和復雜數據的存儲、高效傳輸和有用信息提取。圍繞大數據,云計算技術營運而生。云計算的出現為大數據的存儲和處理提供了可能,也為數據處理系統的功能擴展提供了重要保障。本文主要分析了大數據和云計算之間的關系,以及云計算環境下大數據處理技術。
【關鍵詞】云計算技術 大數據 數據處理
隨著物聯網、網絡、移動通信等的快速發展,特別是互聯網的普及使得信息傳播的規模和速度呈現幾何增長,人們獲取信息的途徑和方式開始變得異常豐富,人們事實上已經進入了“信息大爆炸”時代。與此同時信息傳播的大容量、高效性和準確性也對現有的數據處理體系提出了更高要求。根據大數據摩爾定律,人類世界的數據產生量將按照每兩年一倍的速率增長,預計2020年世界數據量將超過35億GB,“大數據”時代迫在眉睫。“大數據”具有離散型、隨機性、發散性、爆發性等特點。近年來,隨著云技術的興起全面革新了傳統的數據技術,大容量、多樣化、快速處理、信息價值性和準確性為了云技術背景下大數據處理的五大主要特征。如何利用云計算技術對大數據進行高效處理已經成為了信息技術發展亟待解決的關鍵問題。
1 大數據和云計算的關系
云計算技術是指利用集中式遠程計算資源池,通過按需分配的方式,為終端用戶提供強大而廉價的計算服務技術。云計算技術作為一種數據處理方式,其技術特點包括:一是資源池在物理上是對終端用戶完全透明的;二是能夠為任何行業提供規模化計算服務,其服務能力可看做是“無限”的;三是其應用部署快速便捷,服務能力和方式是可以完全按照終端客戶要求定制的,具有極強的彈性伸縮能力;四是云端數據獲取方便,能夠資源共享,用戶使用成本低廉。
云計算技術是目前最強大的數據存儲、傳輸和處理平臺,它是大數據處理的最優選擇。云計算能夠為大數據提供幾乎“無限”的存儲空間和處理能力,滿足其超大容量存儲和超級復雜的處理需求,也是傳統存儲方式無法實現的。云計算側重數據的計算處理,而大數據需要強大數據處理能力,因而它是云計算的處理對象。此外大數據所產生的業務需求也為云計算的實現提供了更多的形式。
2 基于云計算的大數據處理技術
2.1 大數據的采集技術
目前數據采集方式主要分為集中式和分布式兩大類。其中分布式的靈活性較強,而集中式的全局性較好。實際上大數據采集的對象通常包括組織內部和相互獨立組織間的各類數據,而云計算恰好具有并行處理的優勢,因而可采取混合式采集方式能夠更加有效地完成數據采集任務。即在各個組織內部采用集中式數據采集方式,通過在組織內配置中心服務器,作為集中式數據注冊機構,用于存儲和共享內部的數據。在相互獨立組織間,采用云計算的集群技術、虛擬化技術等在各獨立組織中心服務器間采用分布式采集方式實現數據采集、組織間對接和共享。大數據結構類型包括結構化、半結構和非結構化數據,因而在應用云計算技術進行分布式采集時,可依托其超強的擴展性和容錯力,將數據池內數據進行同構化,從而實現數據進行分類存儲。
2.2 大數據的存儲技術
由于超大體量、離散、復雜的數據特點,傳統數據存儲模式已經難以滿足大數據存儲要求。一方面單結點的數據倉庫在容量上難以滿足呈幾何增長的數據量,在運行效率上也難以滿足大數據的分析處理需求。另一方面傳統數據倉庫按行存儲模式,雖然可以實現大容量索引和視圖,但實際操作中其時間和空間過高。而云計算主要采取列式存儲模式,即區分數據不同屬性,不同屬性列都單獨存放。云計算中列式存儲的優勢在于在投影數據時只需查詢其屬性列,系統處理量和處理效率顯著提升。此外按數據屬性進行列式存儲,數據倉庫中相鄰列數據的相似性更高,因而能夠得到更高的數據壓縮率,進一步減少存儲所需空間。
2.3 大數據的挖掘技術
聯機分析能夠完成數據的復雜處理,得到直觀結果,實現決策性分析。云計算并行模式下聯機分析能夠基于數據全局,建立多維分析模型對數據進行多維度分析,從而盡可能獲得全面的分析結構。由此可見多維度分析是聯機分析的重要特征,而云計算技術下數據倉庫正好是通過多維數據組織的。
聯機分析對數據的處理僅僅只是表面的,其獲取的信息價值并不高,難以得到數據深層次的含義與內在關聯。而數據挖掘正是在聯機分析的基礎上,從超大體量的數據倉庫中提取數據所蘊含的隱性信息,并將這些信息用規律、概念或是模型等表現出來。基于云計算的數據挖掘主要采用分布式并行挖掘技術。與其他串行方式相比,云計算技術下并行數據挖掘能夠利用機器集群拆分分布式系統中的并行任務,并將拆分后的各個任務分別交由不同的機器去處理,從而實現大規模數據處理,其時間成本也大大降低。
2.4 大數據的可視化技術
上文所述數據挖掘可實現大數據的深層次、多維度分析,獲取更多有用信息。而云計算平臺下可視化技術則能夠將上述信息具體化,從而使數據及其有關結構的相關信息能夠更直觀地表現出來,更容易被發覺和理解。可視化技術是指在存儲空間中,將數據庫及其中數據以圖像(圖形)的形式表示出來,并在其中再采用其他的分析手段獲取圖像中所蘊含的未知信息。而原有的數據處理僅僅只能夠從數據本身入手,分析和觀察數據中的內在信息。云計算下的可視化技術不但能夠實現非空間數據的多維度圖像顯示,而且能夠實現檢索過程的直觀圖形顯示,從而幫助人們更好地挖掘和理解信息,信息檢索效率也大大提升。
3 結語
在數據爆炸時代,云計算的出現為大數據的存儲和處理提供了可能,也為數據處理系統的功能擴展提供了重要保障。以往的數據管理將收集和存儲作為重點,而在云計算模式下,大數據管理將更多地側重數據分析、挖掘及管理模式的創新。目前數據采集和統計技術已經較為成熟,利用云計算進一步豐富大數據的存儲和處理方式,實現更高層次的數據挖掘和可視化將是今后需要解決的問題之一。
摘 要
大數據主要包括結構化數據、非結構化數據兩部分,目前已具備應用價值大、數據量大、速度快等特點,這些特點對今后投資統計數據處理技術將帶來顛覆性變化,為此,本人結合從事多年統計數據處理經驗,重點闡述投資統計大數據在數據采集、存儲和分析涉及的主要關鍵技術。
【關鍵詞】投資統計 大數據處理 關鍵技術
本人從事多年統計工作,對投資統計大數據有著天然的親近感,投資統計就是搜集、整理、分析、應用數據。目前投資統計改革正在有序開展,我們要抓住改革契機,充分利用投資統計大數據具有海量、實時、多元處理特點,深刻解讀數據,創新研究思路,提高投資統計數據處理能力,提供投資統計分析具有數據全、分析深、研究透、成果新、有理有據的可行建議,成為黨政府、部門決策的重要參謀。
1 概述
1.1 大數據
投資系統中數據有三種類型分別是項目投資管理數據、聯網直報房地產投資數據、規下投資抽樣數據。根據投資數據內在結構,可以分為兩類,一類是結構化數據,統計系統的企業原始數據可以通過二維表形式反映的數據;另一類是非結構化數據,不能以二維表的形式來反映的數據,如文本、圖片、音頻、視頻等產生的數據。
與傳統投資統計不同,投資統計大數據可利用遙感技術和GIS技術進行動態監測,能夠獲取定期數據,對現有投資統計業務系統進行分析,主要表現在:一是為了能夠對投資統計系統運行獲取定期數據,要對投資項目進行定位,每個月節點都會產生大量的數據。二是PDA設備對投資統計項目樣本點的經常性變化。三是為了能夠把握重大項目投資進度,要求對投資統計系統運行中相關信息定期變樣采集。四是投資統計數據能夠定期與發改、住建、稅務等部門數據共享和數據比對。
1.2 特點
投資統計大數據具有以下特點:一是數據量大。隨著大數據的發展,投資統計數據TB級逐步上升到PB級。二是類型種類多。現在黨政領導對投資統計數據需求越來越準,要進行處理結構化和非結構化投資統計也越來越多,才能夠滿足需求。三是利用率低。如在定期監測重大投資項目過程中, 大部分監測過程中的數據在正常范圍之內,而非常少的監測異常數據是非常有用的,特別是投資項目數據異常值(如極大、極小值),要通過這些數據對比驗證,數據是否正確,因此有利用價值的數據占總數據的比例少。四是處理要快。處理投資統計大數據速度要求快,可以利用小型計算機和云技術在非常短時間內能夠分析數據,為黨政領導決策提供高質量的數據作為依據。
2 關鍵技術
2.1 采集技術
大數據的采集指利用很多個數據庫同時接收,從客戶端的傳輸來的數據,一般用戶可以通過這些數據庫,在客戶端能夠達到一般查詢和處理過程。 但是在大數據的采集過程中,最大的難點數據并發高,很有可能會同時成千上萬的用戶來進行訪問和操作,采用在采集端部署大量數據庫作為支持,能夠有效、科學地在投資數據庫之間進行負載均衡和分片,是數據采集技術的關鍵環節。
各類大數據分部不同的部門或項目,給數據的收集帶來一定難度,采用關系數據管理模型,運用Google 文件系統GFS 技術,具有縱向擴展功能,應對數據采集并發數高,也是確保實現高效獲取大數據的核心。
2.2 傳輸、存儲技術
投資統計系統采用聯網直報平臺,運行時會實時產生各式各樣的原始數據,特別定期用投資遙感監測中數據也會產生更多的數據,經過日月積累海量的數據,會給投資監控設備及數據傳輸、存儲系統造成沉重的負擔,并對投資統計系統發展造成很大的影響。
目前投資統計系統數據的傳輸,為了減輕數據傳輸量,大部分采用數據壓縮的方式,可以應用到投資統計數據傳輸,大大提速整個系統數據的傳輸,從而有效降低數據儲存的空間。若沒有建立有效批處理模型,在壓縮、解壓過程中仍然占用系統資源較大,浪費也很大,因此更急需建立有效的批處理模型是重要的。現在普遍采用MapReduce批處理模型,能夠在平常配置的計算機上實現并行化處理,且能夠分割輸入數據,在計算機組成的集群上統一調度,確保計算機的集群之間順暢的通信。
投資統計大數據存儲一般采用分布式保存方式,具有性能可靠性,可以解決海量數據的存儲問題,可有局限性,如投資統計系統運行時,隨時產生實時性數據,處理過程中還是不能夠全面應對,最好要根據不同類型的大數據性能先分析,然后再進行實時分類存儲。特別是投資遙感監測系統中非結構化數據占大數據比重非常大,需要解決大量非結構化數據轉變為結構化數據處理能力,是投資統計系統在大數據處理技術解決的關鍵問題。采用GFS的分布式文件系統主要對海量大文件而設計,而海量小文件可以用Haystack系統,可以用多個邏輯文件共同使用一個文件,解決小文件存儲的問題。
2.3 實時處理技術
解決投資統計大數據處理速度是至關重要,數據處理范圍越來越大,數據處理時間就越長,假如數據量處理的范圍超過了數據本來的處理能力,缺乏整個系統穩定運行,就會對投資統計系統運行產生不可估量的影響。雖然可以利用云計算系統,能夠提供投資統計系統服務,但是對特別聯網直報時間高峰期,現在也經常出現堵塞事件,造成企業統計人員無法準時上報數據,也對投資統計系統運行提出更高要求。
大數據產生的過程比較復雜,對有投資統計數據(結構化數據、半結構化數據和非結構化數據)進行基于各種統計算法的計算,必然存在數據的內涵不一致、記錄重復、或者感興趣擬處理的屬性指標不完整、或者含有噪聲(數據中存在錯誤和異常值)等各種問題,必須實時進行清洗和預處理,去掉噪聲和無關數據,便于后續的分析、分析處理。使用Sector廣域網的分布式系統,利用Sphere基本數據處理模型,針對不同的數據,能夠統一輸入數據流方式,進行實時大規模并行計算,在對數據進行分割,分割后數據轉交給SPE(具有處理引擎功能),能夠起到負載平衡。
2.4 分析技術
投資大數據分析主要通過分布式數據庫或者分布式計算集群,對現有已存儲的大量數據庫,分步驟能夠簡單的分類匯總、統計分析等,能夠實現普遍常見的分析需求,但是對于一些需要批處理基于半結構化或非結構化數據,利用可視化分析技術、高度集成技術,對圖像和投資原始數據及專業的大數據分析工具,進行與部門數據之間統計分析或比對。統計與分析這環節的主要特點涉及的面廣、量大,運行系統資源占用也非常高,特別是輸入輸出資源占用率高。隨著大數據的發展,用Bigtable分布式、按列存儲、多維表結構的實時分布式數據庫,可以對大數據結構化、半結構化和非結構化數據讀寫操作,使用SQL 語言進行大量數據的統計、查詢和分析操作,解決了可視化分析技術的擴展性,能夠有效提取重要數據、顯示合成圖像。用LOD技術采用策略處理大數據量的實時傳輸與可視化,實現按等級組織分塊,平常稱為“金字塔”結構。
大數據的分析技術與傳統的統計數據匯總分析方法有較大的差別,不能將原來的統計系統數據處理經驗簡單的移植到大數據的數據處理中去,需要針對不同的大數據對象,部署相應的數據采集環境,建立平值法、平滑法、預測法和頻率統計法等統計數據相關模型或算法,對投資統計大數據進行深度和廣度的對比分析或核查。
3 結束語
伴隨現代信息技術的迅猛發展,傳統的投資統計知識、理論、技術、方法等正處于大變革、大跨越、大發展之中,投資統計也面臨良好機遇。特別大數據時代的到來,投資統計大數據處理在遙感地理信息系統、全球定位系統等空間信息技術中應用,極大豐富了投資統計的數據來源,使投資統計工作如虎添翼,同時也對投資統計理念、數據來源和數據生產方式提出全新挑戰,繼續尋求有效的解決辦法,更要廣泛深入與國際、國內科研機構合作交流,不斷創新探索,有助于繁榮投資統計科學,傳播先進投資統計理念和方法,提升投資統計能力和水平。
摘要:隨著信息化技術的不斷發展,大數據處理技術給人們的生活和工作帶來了很多改變,要充分發揮大數據處理技術的作用,就要求深入、全面研究大數據處理技術,摸索出大數據處理技術的改進與完善對策。基于此,本文首先分析大數據的特征,然后探討大數據處理技術的Hadoop架構和Storm架構,并對比分析兩種架構的優缺點。
關鍵詞:大數據處理技術 Hadoop架構 Storm架構
大數據時代的超大數據體量以及占據一定比重的半結構化和非結構化數據的存在,就決定了傳統數據庫管理難以滿足需求。大數據技術將會成為IT領域的新一代技術和架構,會幫助人們存儲并管理好大數據,從復雜、龐大的數據里篩選出有價值的數據,加之各種技術以及產品的出現,很可能促使IT行業步入新的黃金時代。因此,分析研究大數據處理技術極具現實意義。
1 大數據特征
大數據具有以下四個特征:一是數據量龐大。大數據計算要存儲以及處理的數據量是十分龐大的,而且這些數據都處于不斷變化、增長以及更新的狀態,所以數據量就會越來越龐大。這就要求承擔處理數據任務的硬件設備必須具備很大的存儲能力和良好的處理技能。二是數據多樣化。在大數據時代需要處理的不單單是各種結構化數據,還有圖片、文字、聲音等非結構化數據,要識別并處理這些非結構化數據要耗費很大力量,而且識別度也需要進一步提升。三是數據快速型。大數據處理技術的目就是要能處理變化迅速的數據,摸索出其變化規律為決策提供輔助作用,確保數據的時效性以及各項決策的有效性。四是數據準確性。在處理數據的過程中必須要控制數據來源,確保數據準確性,而且要結合現實所需不斷更新數據處理技術,確保數據處理結果具備準確性和有效性。
2 大數據處理技術
2.1 Hadoop 架構
Hadoop架構的核心構成部分是HDFS,即Hadoop分布式文件系統,全稱Hadoop Distributed File Sytstem,以及Map Reduce分布式計算架構。其中HDFS以Master/Slave體系結構為基礎,在集群里任命一個主節點擔任Name Node,主要負責管理文件系統元數據,其余子節點擔任Datanode,主要負責保存具體的數據塊[1]。
Hadoop架構的關鍵點就是借助大量PC構成一個PC群以實現對數據的處理。在處理數據的時候,先分解數據,然后結合分配的相應電腦處理數據,最后整合數據處理結果。通過Hadoop平臺實際操作發現,在Hadoop平臺運行的時候,系統初始化需要較長的時間,如果是處理更新速度快的數據這是不容忽視的一個問題。并且,在處理某些小數據的時候,系統初始化時間就更久,對數據處理準確性的影響也就更大。所以,系統不適合處理較小數據。基于Hadoop架構對reduce任務進行處理的時候,各種技術問題就更加突出,在利用相應技術把數據轉為存儲實施處理的時候,不僅數據處理速度慢,還會占用很多的帶寬。所以,Hadoop架構在處理變化速度較快的非離線數據時還存在很多問題。
2.2 Storm架構
和Hadoop主從架構相同,Storm架構也是以Master/Slave體系結構為基礎,通過Nimbus與Supervisor兩種服務進程實現分布式計算機,其中Nimbus進程在集群主節點運行,主要負責分派與分發任務,Supervisor進程在集群從節點運行,主要負責任務的具體執行。Storm架構利用Spout/Bolt編程模型通過流式方式處理消息。消息流是Storm架構里對數據的基本抽象,一個消息流對應一條輸入數據封裝,不斷輸進的消息流通過分布式方式得到處理。Spout組件是消息的生產者,在Storm架構里屬于數據輸入源頭,能從多種異構數據源里獲得數據,同時發射消息流。Bolt組件主要負責對Spout組件發射的信息流進行接收,同時完成相應的處理邏輯。如果業務邏輯比較復雜,就可串聯多個Bolt組件,并且在每個組件里都編寫相應的功能,進而呈現出整體的處理邏輯。
2.3 架構對比
就總體結構而言,Hadoop和Storm是相似的,具體構成部分對比如表1所示。
通過對比,Storm架構具有以下優點:在Storm架構實際運行時,系統不用每次都初始化,數據處理效率較高,在處理較小數據時這一優勢更加顯著;Storm架構的信息處理模式能確保數據的高效處理,更好地滿足人們對UI數據的需求;spout組件能讀取不同形式數據里的消息流,并把讀取的消息流傳遞給bolt組件進行處理;結合處理業務量的大小以及業務難度的高低,Storm架構能串聯多個bolt組件實現消息流的有效處理,進而實現數據處理的高效性與快速性。
3 結語
在互聯網發展迅速的今天,新業務對數據處理的要求不斷提升,當傳統離線處理架構不能滿足需求時,就可以使用大數據處理技術架構。但信息社會的最大特點就是瞬息萬變,因此,對大數據處理技術我們也要不斷變革與創新,使大數據處理技術得到更好地完善,這樣才能更好地服務于社會、服務于人們。
摘 要:本文主要針對大數據的概念與特點、交通行業大數據發展現狀以及大數據在交通行業發展的淺見進行簡要分析。
關鍵詞:智能電網;交通運輸;大數據處理技術
一、大數據的概念與特點
顧名思義,大數據即一個體量特別大的數據集,大到無法使用傳統的數據處理工具、技術對其進行分析、加工、操作。而大數據技術,就是對大數據的處理技術的集合。可以說,大數據興起并非科技的突變,而是隨著人類社會結構化、半結構化、非結構化數據的急速增長應對而生的技術進步。大數據的特色之一是體量成級數增長。由于互聯網技術逐漸滲透人類生活的方方面面、以“物聯網”為方向的信息采集技術的逐漸普及以及包括“4G”在內的網絡傳輸技術的迅猛發展,在全社會,包括交通運輸行業,人類所擁有的數據量及其增速已經遠遠超過傳統信息技術預設的處理極限。限于科技發展的規律與速度,或者是人類智能體量的局限,信息技術專家們提出以“云計算”概念為核心的的一系列數據分布式處理技術作為階段性替代方案,以適應現階段的信息爆炸。
大數據技術與傳統信息處理技術有如下不同:使用分布式技術實現海量數據的處理。現代社會,“人類存儲信息量的增長速度比世界經濟的增長速度快4倍”,“大約每三年就能增長一倍”。為了解決這一問題,分布式技術成為信息處理的必然選擇。早期的信息處理技術通過固定的數據存儲設備、運算服務器實現信息化;隨著數據量以及運算需求的增加,發展出部署集中的集群的信息存儲與處理方式,一定程度上擴展了使用范圍;當數據量進一步增長,受益于網絡通信技術的升級換代和互聯網的飛速發展,“云計算”技術相應而生,通過將分散于各地的存儲、處理設備,實現可與巨型計算機媲美的海量數據處理能力。
大數據技術善于由結果推斷模型。不同于傳統的智能化技術,需要完善地建立數據模型,通過條件,推導結果。大數據技術著眼結果于海量數據,通過大量的事實總結規律,形成知識。傳統的建模實現智能化技術,一旦結果出現異常,就需要反溯,修訂模型,重新進行實踐。而大數據技術,則只通過對相關性的結果進行比較,便能總結歸納相關原理。大數據技術著眼于動態,而不是靜態。傳統信息處理技術著眼于當前數據的使用,業務辦理、行業監控,數據一旦使用,則降低或失去其實用價值,歷史數據需要人工的比對、判斷。大數據技術著眼于一段時間或全部時間上的動態發展數據,著眼于動態數據之間的聯系與發展規律,大數據技術長于整體的運算效率,而非個體的精確追蹤。由于數據處理能力的有限性,傳統的信息化技術對于有限的樣本進行分析與統計,更關注于奇異數值并加以分析,著力于對個體樣本的精確追蹤。而當大數據處理成為可能,數據的總體成為一個獨立樣本,一些奇異值由于發生概率太小,完全可以忽略,數據整體的運算效率成為重要指標。
如同哲學上的量變引起質變,大數據技術正是隨著信息化數據的不斷增長而產生并從根本上改變人對于數據存儲、應用的理解與認識。同時隨著數年的演進,大數據技術也正在逐步走向成熟。
2012年7月,美國知名IT咨詢顧問公司Gartner《2012年大數據技術成熟度曲線》,對大數據涉及的46種技術進行逐一分析。根據當時報告內容,對比當前發展現狀,我們可以看到大數據技術的成熟度已經達到一定的高度。2012年報告中提到的,將在2年內實現主流應用的列式存儲數據庫、預測分析、社交媒體監測等技術,已經成為近些年IT行業普遍實用的技術;報告中預測的2~5年內成為主流的云計算、內存數據庫、社交分析、文本分析等技術,當前在google、百度、facebook、阿里巴巴、新浪微博等處于IT技術前沿的互聯網公司,已經分別得到廣泛應用;而報高中認為5~10年才會得到普及的內容分析、混合云計算、社交網絡分析、地理信息系統等技術,以及認為10年以上才會普遍應用的物聯網技術也已經在不同程度上得到應用和推廣。
二、交通行業大數據發展現狀
交通行業是天然的大數據應用行業。傳統的靜態數據并非大數據,如路網的基礎信息,戶、車、人基本信息,這些數據隨著產業增長而逐步增長,一直在傳統信息處理技術預設的限度之內。但隨著互聯網與產業結合的不斷升級、物聯網―――車聯網的快速興起,3G、4G無線網絡的普及,行業數據量已經開始成級數增長。目前交通運輸行業大數據來源主要在3個方面:
基于互聯網的公眾出行服務數據,如大運輸聯網、網上售票、城市公交刷卡、公眾在線交通路線查詢、網購物流數據等。
如某公交一卡通截至2013年已經發卡超過3200萬張,日刷卡量超過1000萬人次;百度地圖手機應用日訪問量1億次,PC上的搜索量50億次中20%訪問和出行相關,每天約有1000萬人使用百度,其中70%和公交相關。
基于行業運營企業生產監管數據,如貨運源頭稱重數據,貨運、危險品運輸電子運單數據,客運進出站報班及例檢數據,營運車輛維修檢測數據,郵政包裹數據等。
如國家郵政局的數據顯示,2013年中國快遞業務量完成92億件,居世界第二,僅次于美國。業務量同比增長60%,最高日處理量已突破6500萬件。
基于物聯網、車聯網的終端設備傳感器采集數據,包括車輛相關動態數據:GPS位置信息、車輛能耗、車輛技術狀況信息,路網監控信息:卡口視頻監測、基于傳感器的路況監測、路上動態稱重設備、橋梁監測GPS等。
車輛位置信息采集僅舉一市為例,2013年10月,杭州市符合交通運輸部“兩客一危”定義且經營范圍、營運狀態、營運證有效期等狀態正常的車輛上線數為6329輛。車輛位置信息假設每5s傳輸一次,則每日位置信息接近1.1億條。北京市6.67萬輛的出租車GPS數據實時接入,日均數據量可以達到6G。
車流量監控數據,筆者曾參與河南省新鄉市動態稱重系統建設項目,僅一個信息采集點,2013年11月平均每天采集14000輛車左右,包括結構化數據與照片信息,每天產生的數據量是1791MB。
三、大數據實時處理技術
隨著大數據時代的來臨,各種應對大數據處理的解決方案應時代而生,7 年前,雅虎創建了一個用于管理、存儲和分析大量數據的分布式計算平臺 Hadoop,它作為一個批處理系統具有吞吐量大、自動容錯等優點,目前在海量數據處理方面已得到了廣泛應用。但是,Hadoop 本身存在的缺點是不能有效適應實時數據處理需求,為了克服該局限,一些實時處理平臺如 S4, Storm 等隨之產生了,他們在處理不間斷的流式數據方面有較大的優勢,下面將介紹和分析目前比較流行的大數據處理平臺。
1、Hadoop
Hadoop 是一個由 Apache 基金會開發的分布式系統基礎架構 [10] ,允許用戶在不了解分布式底層細節的情況下,開發分布式應用程序。Hadoop 主要由分布式文件系統(Hadoop Distributed File System,HDFS)和 MapReduce 計算框架兩部分組成。
HDFS 結構如圖 1 所示,三類節點 Namenode,Datanode,Client 之間的通信都是建立在 TCP/IP 的基礎之上的。Client 執行讀或寫操作時首先在本機臨時文件夾中緩存數據,當緩沖數據塊達到設定的Block 值(默認 64M) ,Client 通知 Namenode,Namenode 響應 Client 的 RPC 請求,將新文件名插入到分布式文件系統結構層次中,并在 Datanode 中找到存放該數據的 Block,同時將該 Datanode 及對應的數據塊信息告訴 Client,Client 便將數據塊寫入指定的數據節點。HDFS 有著高容錯性的特點,可以部署在低廉的(low-cost)硬件上,并且能提供高傳輸率(high throughput)來訪問應用程序的數據。
圖 1 HDFS 結構圖
MapReduce 是一種并行處理模型,主要有兩個處理步驟:map 和 reduce 。
Map 端處理流程如下:計算框架先將要處理的數據進行分片,方便 map 任務處理。分片完畢后,多臺機器就可以同時進行 map 工作。map 對每條記錄的處理結果以的形式輸出中間結果,map 輸出的結果會暫且放在一個環形內存緩沖區中,當該緩沖區快要溢出時,會在本地文件系統中創建一個溢出文件,將該緩沖區中的數據寫入這個文件。寫入磁盤之前,線程根據 reduce 任務個數生成相同數量的分區。當 map 任務輸出記錄時,會產生溢出文件,這時需將這些文件合并。文件不斷排序歸并后,最后生成一個已分區且有序的數據文件。最后將相應分區中的數據拷貝給相應的 reduce 任務。
Reduce 端處理流程如下:Reduce 會接收到不同 map 任務傳來的數據,如果 reduce 端接受的數據量相當小,則直接存儲在內存中,如果數據量超過了該緩沖區大小的一定比例,則對數據合并后溢寫到磁盤中。隨著溢寫文件的增多,后臺線程會將它們合并成一個更大的有序的文件,然后交給 reduce 函數處理,reduce 函數安裝用戶定義的業務邏輯對數據進行處理并輸出結果。
Hadoop 在本質上是一個批處理系統。數據被引入 Hadoop 文件系統 (HDFS) 并分發到各個節點進行處理。最后將處理結果匯總,生成的結果文件存放在 HDFS 上。
2、Storm
Storm 是 Twitter 開源的分布式實時計算系統 [8] ,Storm 具有高容錯性,水平擴展性好,快速,可靠處理消息的優點。Storm 的核心概念是“流(stream)”,流是一個無限的元組序列。Strom 為流轉換提供兩個基本組件:“Spouts”和“Bolts”。Spout 是一個輸入流組件,Spout 將數據傳遞給另一個組件(Bolt) 。Bolt 執行任務并創建新的流作為下一個 Bolt 的輸入流。 整個過程就是一個 “topology”。
Strom 集群有主要有兩類節點:主節點和工作節點。主節點上運行一個叫做“Nimbus”的守護進程,它負責在集群分發代碼、 分配任務和故障監測。 而每個工作節點運行一個叫做“Supervisor”的守護進程。Supervisor 監聽分配給它任務的機器,根據 Nimbus 的委派在必要時啟動和關閉工作進程,每個工作進程執行 topology 的一個子集,一個 topology 由很多運行在機器上的工作進程組成。
Nimbus 和 Supervisors 之間所有的協調工作是通過一個 Zookeeper 集群,Nimbus 的守護進程和Supervisors 守護進程的狀態維持在 Zookeeper 中或保存在本地磁盤上。這意味著 Nimbus 或 Supervisors進程殺掉,而不需要做備份,這種設計結構使得 Storm 集群具有很高的穩定性。
3、S4
S4(Simple Scalable Streaming System)是 Yahoo 的一個開源流計算平臺,它是一個通用的、分布式的、可擴展性良好、具有分區容錯能力、支持插件的分布式流計算平臺。S4 將流的處理分為多個流事件 Process Element(PE) ,每個 PE 唯一處理一種流事件。S4 將用戶定制的 PE 放在名為 Processing Element Container(PEC)的容器中。PEC 加上通信處理模塊就形成了邏輯主機 Processing Node(PN) 。PN 負責監聽事件,PEC 接收源 event,event 經一系列 PE 處理后,在通信層 Communication Layer的協助下分發事件或輸出事件處理結果。在分發事件的過程中,S4 會通過 hash 函數,將事件路由到目標 PN 上,這個 hash 函數作用于事件的所有已知屬性值上。通信層有“集群管理”,“故障恢復到備用節點”,“邏輯節點到物理節點映射”的作用。同時通信層還使用一個插件式的架構來選擇網絡協議,使用 zookeeper 在 S4 集群節點之間做一致性協作。
四、大數據在交通行業拓展的困境
1、行業信息化整體水平較低、數據的采集與整合困難
目前交通運輸行業信息化、智能化發展非常不均衡,廣大西部地區缺少信息化基礎,信息系統應用效果差,數據采集困難。信息化建設較早的省份,由于信息化建設缺乏統一規劃與頂層設計,系統建設、使用單位均不相同,交通運輸主管機構與各二級單位、信息化主管部門與業務部門分頭建設業務系統,系統技術架構差距大,基層單位上級機構多頭管理,造成數據來源不統一,信息孤島現象嚴重。各省信息化建設與應用水平的差距同樣造成部級數據整合困難,無法發揮實際的應用價值。
2、缺乏工作規范與要求,數據應用機制困難
交通運輸管理機構人員信息化水平差距較大,系統用戶缺乏應有的信息化思想,傳統的辦公方式與習慣難以改變。政府管理機構沒有針對信息化應用與數據的采集應用形成上下聯動,獎懲結合的管理機制。信息化應用游離于業務辦理之外,信息管理部門與業務部門各管一攤,無法真正將實際業務實現在線辦理,真正提高辦公效率創造信息價值。行業主管部門缺乏對行業企業生產監管數據進行采集的法律法規,也沒有面向企業提供數據服務,既沒有通過信息化手段對行業生產狀況進行全面掌握,也無法通過信息服務促進產業升級和變革。
3、行業從業人員信息化意識不強,大數據應用思路缺乏
交通運輸行業主管部門領導對數據指標價值與數據應用方式缺乏認識,一些信息化規劃、項目規劃不接地氣,系統重建設輕實用,實際應用價值不高,數據采集需求無法得到貫徹。如交通運輸部部省聯網項目,采集了全國絕大多數省份的戶車人基礎數據,但是既沒有制定政策法規,保證數據的更新與同步,也沒有進行數據指標的價值分析,實現真正有價值的應用,造成后期維護困難,數據逐漸陳舊,實用價值迅速流失。此外,全國各省、各地交通運輸行業信息化發展不均衡,部分地區信息化基礎設施較為落后,整體信息化水平有待加強。
五、大數據在交通行業發展的淺見
1、積極立法,確立數據采集與應用的重要性
通過研究并制定政策法規,面向部、省、市、縣各級交通主管部門及相關企業,將數據采集、整合的責任與義務進行明確規定,明確哪些信息化工作該哪級機構做,該哪些部門做,同時明確科技信息化主管部門在信息化建設中的地位并給予相應的監察、評定的權利,對行業企業明確信息化建設與數據采集方面的社會責任。另外,對交通運輸行業數據進行全面的梳理,數據保密性與應用價值進行分級,對數據的采集與應用進行立法,明確不同級別的管理機構可以對哪些數據自行進行分析和利用,那些數據可以開放給社會或企業使用,真正實現大數據的應用價值。
2、加快體制改革,設立數據采集與信息化和單位考評相結合的制度
結合國家行政體制改革,進一步改變交通運輸行業信息化項目建設傳統的上級規劃、立項、投資、監管、評審一體化管理模式,實現規劃與立項、資金使用與審計、項目監管與后評審的權責分離,讓信息化項目建設實際落地,上級單位更注重資金使用的控制與系統應用效果的后評審。盡快制定政策,將指定數據指標的采集和上報納入行業管理規定;通過體制改革,設立數據上報與信息化應用水平考核制度并實現常態化,同時實現數據上報制度與行業統計工作的全面結合,改變傳統的統計人工上報模式,用信息化數據支撐行業統計。考核制度包括3個層面:管理機構對企業考核;單位領導、信息化主管部門對業務部門的考核;上級主管部門對下級單位的考核。
3、加快信息化發展步伐,通過示范指導,引導大數據技術的引入與發展
在交通運輸行業信息化規劃與設計中,廣泛引入云計算等大數據處理技術,選擇試點單位,建設應用示范項目,總結大數據在交通運輸行業的應用方式方法與使用價值,對具有適用性的項目進行全國推廣,引導大數據技術的不斷發展。
結束語
大數據時代隨著全國交通運輸行業各機構、各部門、各企業數據量的迅速增長,以及IT企業交通運輸相關數據的迅速增長,逐漸在我們面前顯現,發展大數據技術,積極應對、抓住下一次信息化變革、產業浪潮的機遇,是實現交通運輸行業產業變革、結構優化、服務社會與公眾能力進一步提升的關鍵。
【摘要】 隨著互聯網、移動互聯網和物聯網的發展,我們已經迎來了數據大爆炸的時代,數據的快速增長帶來了數據存儲、處理、分析的巨大壓力,而大數據技術(Big data)的引入,不但滿足了系統功能和性能的要求,帶來良好的可擴展性,降低了IT部署的成本,還拓展了數據智能分析的應用領域。同時,大數據分析與云計算的發展密切相關,云計算是大數據處理的基礎,而大數據技術是云計算的延伸,云計算的分布式存儲和計算架構為大數據的快速處理和智能分析提供了一種合適的解決方案。本文將探討建立在云計算基礎上的大數據處理技術,包括分布式計算框架、分布式文件系統、大數據管理技術、實時流數據處理、機器學習以及可視化技術等。
【關鍵詞】 云計算 大數據 MapReduce Hadoop
一、大數據
1.1什么是大數據
大數據概念可以從四個維度去解,即三個V和一個C。三個V分別指的是數據量大(Volume)、數據種類多(Variety)和數據增長速度快(Velocity),最后一個C指的是處理、升級或利用大數據的分析手段比處理結構化數據要復雜的多(Complexity)。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像Map-Reduce一樣的并行計算框架將復雜的計算任務分配到“云”中成百上千的節點。
1.2大數據與云計算
大數據本身就是一個問題集,云計算技術是目前解決大數據問題集最重要最有效的手段。云計算提供了基礎的架構平臺,大數據應用在這個平臺上運行。目前公認為分析大數據集最有效手段的分布式處理技術,也是云計算思想的一種具體體現。
云計算是分布式處理、并行處理和網格計算的發展,或者說是這些計算機科學概念的商業實現。云計算將網絡上分布的計算、存儲、服務構件、網絡軟件等資源集中起來,基于資源虛擬化的方式,為用戶提供方便快捷的服務, 實現了資源和計算的分布式共享和并行處理,能夠很好地應對當前互聯網數據量高速增長的勢頭。
1.3大數據與Hadoop
Hadoop是一個Apache的開源項目,主要面向存儲和處理成百上千TB直至PB級別的結構化、半結構化或非結構化的大數據。Hadoop提供的Map-Reduce能將大數據問題分解成多個子問題,并將它們分配到成百上千個處理節點之上,再將結果匯集到一個小數據集當中,從而更容易分析得出最后的結果。
Hadoop項目包括三部分,分別是Hadoop Distributed File System(HDFS)、Map Reduce編程模型,以及Hadoop Common。Hadoop具備低廉的硬件成本、開源的軟件體系、較強的靈活性、允許用戶自己修改代碼等特點,同時能支持海量數據的存儲和計算任務。這些特點讓Hadoop被公認為是新一代的大數據處理平臺。 Hadoop同樣具備出色的大數據集處理能力,在獲取、存儲、管理和分析數據方面遠遠超越傳統的數據庫軟件工具。Hadoop經常在構建大數據解決方案時被用作基礎構架軟件。
二、大數據技術綜述
大數據處理不僅僅是Hadoop,許多特定的數據應用場景是需要實時分析和互動反饋的,這時候就需要利用包括內存檢索、流處理和實時計算等其他技術。而云計算的分布式存儲和計算架構開啟了大數據技術研究的大門,打造健全的大數據生態環境,所有這些技術結合在一起,才是一個完整的大數據處理系統。
2.1分布式計算框架
MapReduce是Google開發的一種簡化的分布式編程模型和高效的任務調度模型,用于大規模數據集(大于1TB)的并行運算,使云計算環境下的編程變得十分簡單。
MapReduce將數據處理任務抽象為一系列的Map(映射)和Reduce(化簡)操作對。Map主要完成數據的分解操作,Reduce主要完成數據的聚集操作.輸入輸出數據均以〈key,value〉格式存儲.用戶在使用該編程模型時,只需按照自己熟悉的語言實現Map函數和Reduce函數即可,MapReduce算法框架會自動對任務進行劃分以做到并行執行。
Pregel是Google 提出的迭代處理計算框架,它具有高效、可擴展和容錯的特性,并隱藏了分布式相關的細節,展現給人們的僅僅是一個表現力很強、很容易編程的大型圖算法處理的計算框架。Pregel的主要應用場景是大型的圖計算,例如交通線路、疾病爆發路徑、WEB 搜索等相關領域。
2.2分布式文件系統
為保證高可用、高可靠和經濟性,基于云計算的大數據處理系統采用分布式存儲的方式來保存數據,用冗余存儲的方式保證數據的可靠性。目前廣泛使用的分布式文件系統是Google的GFS和Hadoop團隊開發的GFS的開源實現HDFS。
GFS即Google文件系統,是一個可擴展的分布式文件系統,用于大型的、分布式的、對大量數據進行訪問的應用。GFS的設計思想不同于傳統的文件系統,是針對大規模數據處理和Google應用特性而設計的,運行成本低廉,并提供容錯功能。
HDFS即Hadoop分布式文件系統,受到GFS很大啟發,具有高容錯性,并且可以被部署在低價的硬件設備之上。HDFS很適合那些有大數據集的應用,并且提供了數據讀寫的高吞吐率。HDFS是一個master/slave的結構,在master上只運行一個Namenode,而在每一個slave上運行一個Datanode。HDFS支持傳統的層次文件組織結構,對文件系統的操作(如建立、刪除文件和文件夾)都是通過Namenode來控制,Datanode用來存放數據塊。
2.3大數據管理技術
互聯網數據已超出關系型數據庫的管理范疇,電子郵件、超文本、博客、標簽(Tag)以及圖片、音視頻等各種非結構化數據逐漸成為大數據的重要組成部分,而面向結構化數據存儲的關系型數據庫已經不能滿足數據快速訪問、大規模數據分析的需求,隨之而來,一系列新型的大數據管理技術和工具應運而生。
2.3.1 非關系型數據庫
NoSQL,也有人理解為Not Only SQL,它是一類非關系型數據庫的統稱。其特點是:沒有固定的數據表模式、可以分布式和水平擴展。NoSQL并不是單純的反對關系型數據庫,而是針對其缺點的一種補充和擴展。典型的NoSQL數據存儲模型有文檔存儲、鍵-值存儲、圖存儲、對象數據、列存儲等。而比較流行的,不得不提到Google的Bigtable,它把所有數據都作為對象來處理,形成一個巨大的表格,用來分布存儲大規模結構化數據,數據量可達PB級。而HBase是Hadoop團隊基于Bigtable的開源實現,使用HDFS作為其文件存儲系統。同時,Cassandra(K/V型數據庫)、MongoDB(文檔數據庫)和Redis等一系列優秀的非關系型數據庫產品如雨后春筍般問世。
2.3.2 數據查詢工具
Hive是Facebook提出的基于Hadoop的大型數據倉庫,其目標是簡化Hadoop上的數據聚集、即席查詢及大數據集的分析等操作,以減輕程序員的負擔.它借鑒關系數據庫的模式管理、SQL接口等技術,把結構化的數據文件映射為數據庫表,提供類似于SQL的描述性語言HiveQL供程序員使用,可自動將HiveQL語句解析成一優化的MapReduce任務執行序列.此外,它也支持用戶自定義的MapReduce函數。
PigLatin是Yahoo!提出的類似于Hive的大數據集分析平臺.兩者的區別主要在于語言接口.Hive提供了類似SQL的接口,PigLatin提供的是一種基于操作符的數據流式的接口.可以說Pig利用操作符來對Hadoop進行封裝,Hive利用SQL進行封裝。
Google Dremel是個可擴展的、交互式的即時查詢系統,用于完成大規模查詢結構化數據集(如日志和事件文件)。它支持類SQL語法,區別在于它只能查詢,不支持修改或者創建功能,也沒有表索引。數據被列式存儲,這樣有助于提升查詢的速度。Google將Dremel作為MapReduce的一種補充,被用于分析MapReduce的結果或者是作為大規模計算的測試。
2.4實時流處理技術
伴隨著互聯網業務發展的步調,以及業務流程的復雜化,企業的注意力越來越集中在“數據流”而非“數據集”上面,他們需要的是能夠處理隨時發生的數據流的架構,現有的分布式計算架構并不適合數據流處理。流計算強調的是數據流的形式和實時性。MapReduce系統主要解決的是對靜態數據的批量處理,當MapReduce任務啟動時,一般數據已經到位了(比如保存到了分布式文件系統上),而流式計算系統在啟動時,一般數據并沒有完全到位,而是經由外部數據源源不斷地流入,重視的是對數據處理的低延遲,希望進入的數據越快處理越好。數據越快被處理,結果就越有價值,這也是實時處理的價值所在。
流計算的數據本身就是數據流,不需要數據準備的時間,有數據流入就開始計算,解決了數據準備和延遲的兩個問題。現有的解決方案中,Twitter的Storm和雅虎的S4框架更適合數據流計算的場景。Storm是開源的分布式實時計算系統,可以可靠的處理流式數據并進行實時計算,單機性能可達到百萬記錄每秒,開發語言為Clojure和Java,并具備容錯特性。S4是面向流式數據和實時處理的,所以針對實時性較高的業務,可以很好地對數據做出高效的分析處理,而且系統一旦上線,很少需要人工干預,源源不斷的數據流會被自動路由并分析。對于海量數據,它和MapReduce都可以應對,但它能比后者更快地處理數據。
三、思考與展望
以云計算為基礎的信息存儲、分享和挖掘手段為知識生產提供了工具,通過對大數據分析、預測會使得決策更為精準,這對媒體融合具有重要意義。
新聞媒體的數據庫中擁有海量信息存儲,這些多媒體數據包括文字,圖片,視頻和音頻等多種格式,符合大數據處理的基本特征,利用大數據技術對這些資源進行存儲,計算和分析,了解用戶行為,挖掘數據本質和關聯,為領導提供決策支持,為終端用戶提供更好的服務和新聞定制,增強新聞信息產品的質量和影響力。
如今,在開源社區,圍繞Google MapReduce框架,已經成長出了一批優秀的開源項目。這些項目在技術和實現上相互支持和依托,逐漸形成了一個特有的“大數據”生態系統。系統為我們實現優質廉價的大數據分析和管理提供了堅實的技術基礎。
新聞媒體可以順應大數據的技術趨勢,加強技術調研,早日選型,搭建大數據處理平臺,利用云計算項目資源,將海量數據統籌管理,通過分析和挖掘,實現新聞產品的創新和跨越式發展,以現代化的傳播手段向世界展示中國。
摘 要 隨著我國社會經濟的快速發展,電力事業得到了長足的發展,特別是科技的進步,使得智能電網取得了一定程度的發展。智能電網的建立,有利于將電力系統發電、輸電、配電、用電實現全系統管理,隨著越來越多的新型技術應用到電力網絡中,特別是云計算平臺的應用,大量的異構數據積累,大數據處理技術的研究也應運而生。在新的時期,智能電網大數據處理面臨著新的機遇與挑戰,文章就分析智能電網大數據處理技術應用現狀,并探討在新時期大數據處理技術面臨的機遇與挑戰。
關鍵詞 智能電網;大數據處理技術;應用現狀;困境
在智能電網系統中,系統運行的各個環節都會產生大量的數據,如智能電表安裝、電力運行等環節。電力企業在一定時間間隔內對用電客戶的用電數據信息進行收集,從而構成電網客戶端大數據,根據對這些數據的分析更好的了解用電用戶的實際情況,以便科學合理的設置大數據處理系統。
1 智能電網大數據概述
1.1 智能電網系統中的大數據
電網系統中的數據可以分為三種類型,包括電網運行中設備監測數據、電網運營數據以及電網管理數據。
根據電網數據內在結構,可以將其分為結構數據以及非結構數據。其中結構數據包括關系庫中儲存的數據,隨著我國科技的進步,結構數據不斷的增長。跟結構數據不同的是,非結構數據不方便用二維邏輯表現,主要包括圖形處理數據以及視頻監控產生的數據。由于智能化的發展,非結構數據每年以60%的指數上漲,逐漸成為智能電網中重要的組成部分。
與傳統電網不同的是,智能電網具有很強的智能化,這就需要能夠對電網運行實時數據及時的獲取,目前智能電網大數據表現在以下幾個方面。
1)為了能夠實現對電網運行中實時數據的獲取,就必須設置越來越多的采集點,監測設備應用也越來越多,每一秒都會產生大量的數據。
2)設備對電網運行信息采樣的頻率越來越快。
3)為了掌握電網運行的細節,就需要對電網運行中相關信息的實時變樣采集。
1.2 智能電網大數據特點
智能電網中大數據具有以下幾個方面的特點。
1)智能電網數據量大。隨著智能化的發展,電網數據從TB級逐漸上升至PB級。
2)智能電網數據類型種類繁多。社會對電力需求量越來越多,為了能夠滿足電量數據要求,電網數據的種類也越來越繁雜,包括文本數據、媒體數據等結構數據,還包括非結構數據,在數據的應用以及處理上也不盡相同。
3)智能電網大數據利用價值密度較低。就以電網監控視頻為例,在實時監控的過程中,有用的數據占總數據的比例很少,絕大多數的數據都屬于正常數據,而少數的異常數據正是有用的數據,也才是對電網運行檢修提供有力依據的數據。
4)數據處理速度快,智能電網大數據處理速度可以用微秒計算,能夠在極短時間內分析數據,為電網運行決策的制定提供依據。
2 智能電網大數據處理技術應用面臨的挑戰
2.1 智能電網大數據傳輸、存儲技術
智能化的發展,電力系統運行過程中各項數據、以及電力設備監測數據被全部記錄下來,數據量越來越多,這給電網運行監控設備以及數據的傳輸、存儲系統造成巨大的負擔,并對電網智能化發展造成很大的影響。
對于智能電網大數據的傳輸,采用數據壓縮的方式能夠提高數據傳輸的效率,降低數據傳輸量。所以越來越多的網絡數據壓縮技術被應用到智能電網數據傳輸中,通過數據壓縮能降低數據儲存的空間,但在壓縮以及解壓過程中也會對系統中心帶來一定的資源浪費,需要更為合理的平臺支持。
對于智能電網大數據存儲方面,采用分布式文件保存的方式能夠實現對大量數據的存儲,但對電力系統實時性數據處理方面還有一定的局限性。所以需要對系統中大數據性能進行分析并實行分類存儲。
智能電網中非結構化數據占據很大的比重,在存儲方面需要將這些海量的非結構化數據轉換為結構化數據,這正是目前智能大數據處理技術面臨的困境。
2.2 大數據實時處理技術
對于智能電網來說,大數據的處理速度至關重要,數據的規模越大,數據處理的時間就越久,如果數據量的規模超過了處理技術承受的能力,難免對電網正常運行造成影響,這就需要確保數據傳輸、分析、處理的速度。云計算系統能夠為智能電網提供快速的服務,但也會造成網絡堵塞現象的發生,雖然堵塞的時間較短,也會對電網服務器造成障礙。
2.3 智能化大數據可視化分析技術
智能電網運行中會產生海量的數據,將這些數據及時分析處理,并在有限的屏幕中將其展示給電力用戶,這也是目前智能電網運行大數據處理面臨重要的挑戰。可視化分析技術能夠有效的處理大數據,并逐漸應用到實際電網運行中。可視化分析技術,利用高度集成技術、高分辨率圖像,以及交互工具,為電力用戶提供明朗的數據處理結果。
隨著科技水平的提升,可視化分析技術也面臨著挑戰,包括該技術的擴展性,以及重要數據的提取、顯示以及圖像合成方面的挑戰。
另外,還需要保證智能電網數據網絡的質量,對其進行定期檢修與維護,如果在數據網絡運行中出現故障,需要根據故障的現象,結合網絡診斷技術,找出故障發生的原因,從根源上排除故障,使數據網絡恢復正常。進行網絡故障診斷,不僅需要及時的恢復發生故障的網絡,不斷的改善調度數據網絡的性能,還需要掌握數據網絡的運行狀態,確保數據網絡的通信質量。
3 總結
我國智能化技術在電網系統中應用越來越廣泛,大數據處理技術成為了維護智能電網安全運行的主要手段。云計算為智能化數據處理、存儲提供有效的平臺,也能夠保證智能電網大數據能夠得到及時的分析與處理,為電網安全運行提供保障。但是隨著電網智能化程度逐漸深入,大數據處理技術在實時性、隱私性、一致性等方面也遇到了很大的挑戰,必須找出有效的解決方法,這就需要有關人員加大科研力度,不斷的探索,相信我國智能電網系統運行會越來越穩定,必將推動我國電力事業的健康發展。
摘 要
隨著云計算技術的不斷完善,為了促進大數據處理系統的功能多樣化,云計算技術在大數據處理系統上得到了廣泛的應用。本文重點研究了在多元因素的影響下的數據模型對大數據處理的影響,并據此提出了一種基于融合思想,采用了混合架構以及分散處理的云計算環境下的大數據處理系統的整體部署策略。
【關鍵詞】云計算 大數據處理 融合處理
1 引言
隨著網絡技術的發展,以及智能設備的普及,當前的數據增長速度已經呈現爆炸式增長,大數據時代已經來臨。目前專家對大數據處理系統方面的研究主要是基于云環境下的分布式部署以及網絡架構的融合和動態實時數據處理這三個方面。同時也取得了一定的研究成果,對于當前的云計算環境下的大數據處理系統的發展提供了很多理論和實踐基礎。
2 基于融合思想的大數據處理方案分析
云計算技術模式下,人機交互和數據處理以及網絡邏輯處理技術等都相對交融,處于深度融合狀態。因此基于融合思想的大數據處理方案就是以融合思想為核心,將云計算技術模式下的各種分散的網絡資源進行協同組織,然后再進行融合,從而充分發揮分散狀態下的資源優勢,形成一種整體性的比較優勢,因此這種融合式的大數據處理方案的應用前景十分廣闊。
在云計算技術模式下,大數據處理研究更多的著力點放在了大數據處理系統的構建、分散資源的協同以及相關的輔助技術等。從宏觀角度來看,可以氛圍內混合處理和混合管理兩個方面。其中混合管理的核心就是研究各種無線以及有線的處理機制和數據共享、資源共享機制的管理,同時還包括了分散數據管理機制和協同機制管理等。而混合處理的研究核心則是著力于系統運行模型和相關輔助技術上。
3 大數據處理系統的應用和處理系統分析
3.1 大數據處理系統的應用
大數據處理系統的應用主要包括三個方面:
(1)基于融合式架構的應用。這實際上就是一種客戶機/服務器架構模式,其中服務器主要負責應用系統的管理和控制以及相關應用的邏輯處理和數據調度等。而客戶端則是專門進行人機交互,當用戶想要執行數據處理分析人物時,通過客戶機向服務器發送請求,然后有服務器完成并返回給客戶端。這個融合式架構相對簡單,且容易維護,但是服務器功能有著極高的依賴,這也往往成為數據處理系統應用的瓶頸。
(2)分散式架構。這種架構的特點就是協同控制的節點都是平等地位,并且和處理系統有關的控制和管理模塊都是分散在各個客戶端上。客戶端擁有一定的自治屬性,因此具有通用性和靈活性和可擴展性等諸多優勢。但是由于數據采用分布存儲和分布操作,這樣在維護方面就變得較為困難,而且節點之間的實時同步和用戶動態注冊的應用也難以實現。
(3)混合式結構。這種結構擁有前兩兩種結構有點,通過服務器實現數據信息的統一維護,而客戶端一方面實現信息傳輸功能,同時也能夠和用戶在某些應用方面進行充分的交互,因此能夠有效減輕服務器端的壓力,這樣也能夠消除服務器端的瓶頸。提升系統的魯棒性和靈活性。
3.2 云計算技術下的大數據處理系統具體分析
3.2.1 系統架構
云計算技術環境下的大數據處理平臺的節點主要體現下面幾個特點:其一是節點分散性;其二是數據處理動態性;其三是數據來源混構性。
這個處理平臺架構采用了融合式的調度執行層和任務融合調度管理,并根據處理規則和不同的參數來調整處理引擎的數據和算法組合以及計算資源。對大數據資源的數據交互和任務分工工作進行了有效融合。同時在管理層,也對業務數據進行分布式存儲,提升了容錯處理能力。
3.2.2 系統處理流程
系統處理流程主要是對分散狀態數據進行處理,其關鍵就是對分散的數據進行提取,因此首先給其他應用提供數據接口。然后數據管理部分要融合數據資源,并在一定容忍度的基礎下,對不同的數據處理機制進行比較,進而優勢融合。最后數據處理中心則是對數據進行集中處理,然后統一分配數據資源,從而在數據中心實現數據處理的融合。
3.2.3 處理系統的部署
某信息產業園的大數據處理系統的部署是根據信息企業集群的需求,然后對現有分散數據資源進行挖掘,比如企業內部的ERP和SCM系統中的數據,通過對這些數據進行深度挖掘從而為該企業提供戰略發展資源。圖1就顯示了這個部署圖。
從部署圖可以看出,在這家企業中,ERP和SCM和CRM是其數據源,然后經過服務器處理之后,分布到n個數據庫,然后進行合并進入到大數據管理模塊,最終能夠實現數據查詢和數據決策服務。
4 結語
總而言之,目前采用融合式思想,在云計算技術條件下,對大數據處理系統進行部署的研究相對較少,特別是當前的信息產業,由于其自身的解決方案并不能夠實現大數據條件的比較優勢,所以本文提出的融合式的大數據處理技術,有效的提升了數據利用深度,拓展了大數據處理系統的應用范圍。