緒論:寫作既是個人情感的抒發,也是對學術真理的探索,歡迎閱讀由發表云整理的11篇云計算數據論文范文,希望它們能為您的寫作提供參考和啟發。
二、大數據與云計算對會計信息化的推進
(一)大數據拓展了會計信息化的資源利用范圍。
隨著數字化、軟件和處理能力的發展,對可利用的數據的范圍進行了進一步的擴大,企業必須敏感地認識到不同類型的信息通過深加工后能給企業帶來怎樣的財富,更要掌握哪些信息可以通過信息化技術和軟件的進步來實現。大數據時代,會計信息化不再只針對會計作業上產生的數據進行分析,而且云計算是世界各大搜索引擎及瀏覽器數據收集、處理的核心計算方式,因此可以通過云計算將零散的數據整合在一起,提煉其有價值的信息,再將這些信息與傳統的會計信息融合,挖掘被忽視的重要信息,提高會計管理決策能力和企業管理水平,這樣就能從行業中脫穎而出。
(二)促進了會計信息化成本降低。
傳統的會計信息化需要企業自身投入大量的基礎設施建設,同時還要考慮硬件與軟件的升級和維護,這方面是阻礙會計信息化發展的重要原因,特別是對中小企業的發展。而大數據與云計算融合后,用戶可以根據自己的利用資源的多少和時間的長短付費,不再需要前期大量的工作和資金投入。這樣,企業也能將重點放在自身的發展上,增強競爭優勢。
(三)提高了會計信息化的效率。
傳統的會計信息化受到時間和地域等條件的限制,這樣信息交流不及時,可能錯過稍縱即逝的機會,尤其是競爭激烈的大環境下,信息獲取的及時性更加重要的。在大數據時代的背景下,提供云計算的會計信息化系統只需通過互聯網就能隨時隨地的實現與客戶的溝通,及時地掌握所需的信息。同時,云計算強大的計算能力,可以更快地形成所需的各項指標,管理者能更快的了解企業的經營狀況并識別潛在的風險。
三、大數據和云計算對會計信息化的挑戰
(一)會計信息化共享平臺發展滯后。
目前,企業信息化逐步在向社會信息化發展,各企業在加工處理自己的會計信息時會形成這個行業整體的信息流。通過會計信息化共享平臺,各企業可以隨時知道自己的企業在整個行業或地區的地區和影響力,了解自己的強勢和弱勢,不斷強化自己的優勢并彌補自己的不足,實現動態地對公司的持續改善管理。這一平臺需要在云計算的基礎上發揮作用,而云計算供應商要求能夠滿足不同用戶、不同地域和不同業務規則的需求,所以對其適應性、擴展性以及靈活性要求比較高。我國在這方面起步比較晚,國內的云計算平臺建設滯后,使云會計這種新型會計信息化發展面臨很大的阻礙。
2云計算環境下工作流執行模型
科學工作流由工作流管理系統提交和管理,工作流管理系統駐留在提交主機,協調調度工作的流執行。工作流管理系統將工作流中的任務分配到虛擬機的工作節點,任務的執行所需要的數據可以從一個或多個輸入數據存儲點輸入。中間文件在工作流執行期間駐留在數據暫存站點。當工作流結束時,工作流管理系統刪除中間數據,同時將輸出文件從暫存站點轉存到輸出站點,然后永久性保存。根據工作流管理系統和目標執行環境的不同,多個數據站點可以協同工作。例如,在輸入數據已經駐留在計算節點的情況下,該計算節點和輸入點是相同的。圖2顯示了具有兩個任務的工作流,來說明工作流所需的文件是如何在邏輯上獨立的站點之間移動的。
3對象存儲應用于科學工作流中的數據管理
對象存儲系統主要包括存儲服務器、元數據服務器、客戶端等組成部分,其核心思想是將數據的讀和寫與元數據存儲分離,如圖3所示。存儲服務器主要負責數據存儲、智能的數據分布以及每個對象元數據的管理;元數據服務器主要提供對象存儲訪問、文件和目錄訪問管理以及客戶端緩存的一致性管理等功能。為了提供可擴展的可靠服務,對象存儲器的內部結構非常復雜。例如,亞馬遜的簡單存儲服務(S3)[12]通過REST(RepresentationalStateTransfer)、SOAP(SimpleObjectAccessProtocol)和APIs(ApplicationProgrammingInterfaces)提供檢索和刪除操作;它將一個對象的多個副本布局在存儲服務器上以提供錯誤情況下的冗余。很多網格存儲服務和為數據密集型應用設計的協議可以認為是對象存儲,這種架構對構建來自不同的執行環境的數據管理模式而言具有重要的借鑒意義。針對面向大數據工作流,利用對象存儲的優點,本文提出兩個方案:一是工作流中的3類數據文件都使用遠程的對象存儲;二是在計算節點上使用共享文件系統作為數據暫存點來存儲中間數據。
3.1單獨使用對象存儲
在這種情況下,所有的數據都存儲在對象存儲系統中,工作流管理系統需要從對象存儲中無縫檢索數據,為本地工作流任務使用。在這樣的設置中,工作流管理系統從對象存儲中檢索輸入文件和中間文件,然后,工作流中的任務對本地的POSIX文件系統做必要的輸入/輸出設置,任務完成時,工作流管理系統能夠將中間數據和輸出數據存儲到對象存儲中。這樣,即使工作流被部署在分布的資源上,科學應用只需要對POSIX做常規的輸入/輸出設置,就能完成工作流的執行。工作流管理系統與對象存儲的多次交互增加了工作流執行的開銷,而該開銷與分布資源上的計算相比并不算大。對象存儲中既有輸入數據也有中間數據,只要工作流系統與對象存儲能夠無縫檢索和存儲,那么任務執行可以在任何地方。如圖4中,任務t1可以在校園計算機集群上完成,而屬于同一工作流的任務t2可以在亞馬遜的EC2上完成,t1、t2使用亞馬遜的S3對象存儲作為中間數據文件的暫存。總之,數據存儲和執行環境的分離,使得工作流在分布資源上的執行更為容易。一個常見的情況是,當計算需求超過本地或校園計算所提供的資源時,將使用云資源。圖4也說明了工作流的數據移動情況。在這里,文件F-i被傳送到云中的高性能計算集群工作節點的本地文件系統。任務t1從該節點開始,讀入輸入文件F-i,然后寫入本地文件系統的中間文件F-t,F-t被傳回到作為數據暫存點的對象存儲中。F-t文件將從對象存儲中被檢索進入到EC2節點的本地文件系統。任務t2啟動后讀取F-t文件(該文件是由t1創建),然后將F-o寫到本地磁盤,再傳送到對象存儲中。以上所有的數據傳輸工作都由工作流管理系統完成。科學工作流中單獨使用對象存儲的明顯不足之處是,數據重復傳輸會引起在大數據處理過程中的延遲。工作流中的多個任務使用相同的文件,所以重復傳輸是顯而易見的[13][14]。對象存儲將對同一資源的重復請求認為是不同的請求,對象存儲通常以其良好的擴展性減輕這種重復對工作流性能造成的影響。另外,工作流系統可能在本地節點選擇緩存文件,或者利用集群中的共享文件系統來減輕此問題。延遲是整個工作流性能應該關注的問題,云對象存儲的設計提供了很高的帶寬,但對單個檢索或對象操作可能需要數秒鐘的延遲。對具有大量文件的數據密集型的科學工作流而言,這種延遲顯著增加了工作流運行的時間開銷。大型工作流中的另一個問題是多數中間文件需要被傳輸到對象存儲中由相關后續任務檢索并使用。由于商業對象存儲提供以GB為單位的存儲,并按遷移、存儲和檢索的請求數付費,所以重復傳輸也就意味著費用的增加。
3.2共享文件系統作為數據暫存
解決由數據重復遷移造成的延遲問題的方法之一,是工作流管理系統將中間文件暫存在POSIX兼容系統中,由多個計算節點文件系統共享,然后在一個資源節點上運行所有的計算。文件共享系統保存了工作流管理系統中所有任務的中間數據,在這種情況下,只有輸入輸出文件存儲在對象存儲中。由于中間文件不需要在對象存儲與計算節點之間傳送,從而可降低使用商業云對象存儲的費用。如圖5所示,是一個具有文件共享系統的高性能計算環境下具有2個任務的簡單工作流。文件F-i被工作流管理系統傳送到集群文件共享文件系統。任務t1在計算節點1上啟動,從共享文件系統中讀入文件F-i,然后將中間文件F-i-t寫入到共享文件系統中,任務t2在計算節點2上啟動,從文件共享系統中讀入F-i-t(由任務t1創建),然后將其輸出寫入到F-o,F-o由工作流管理系統送到對象存儲中,這種方法的優點在傳統的有高速并行超級計算環境中尤為顯著。例如,XSEDE(ExtremeScienceandEngineeringDiscoveryEnvironment)節點對多數科學工作流點有極大擴展性[15]。值得注意的是,如果第一個計算節點忙而需要將計算溢出到另一個節點時,這種隨數據布局任務的方法,損失了布局計算的靈活性。以上兩種方法各有所長,選擇使用哪種方法取決于工作流的類型和工作流執行的目標環境,這就要求工作流管理系統的開發具有彈性的數據管理方案,允許科學家有效使用對他們有用的基礎設施。工作流中的數據管理方案應該具有如下特征:首先,科學工作流管理系統允許任務和數據后綁定,任務依據資源的可用性映射到計算資源上,任務在執行時能夠發現資源,并從眾多存儲中選擇數據暫存位置;其次,在科學家只有一個計算資源可用的情況下,允許任務和數據的靜態綁定;再次,支持使用不同協議和不同安全機制訪問對象存儲。
4相關工作
工作流管理系統處理數據的方法很多,Swift[16]采用與本文所描述的第二種模式類似,使用本地文件系統或共享文件系統作為數據緩存,提交主機扮演數據暫存的角色。系統首先選擇一個計算站點來運行一個任務,然后將數據從提交主機推向該站點的文件系統,任務執行后,輸入的文件被回傳給提交主機,中間文件被留在共享文件系統中以便后續任務的執行。相對而言,本文將數據文件(包括輸入、輸出、中間文件)與提交主機分離,并使用不同的協議,具有更好的靈活性。其他工作流管理系統如Kepler[17],Triana[18]和Taverna[19]關注的是流式工作流中任務的調度和其他Web資源的調用,這些工作流具有圖形化的用戶界面,允許用戶搭建具有不同部件的工作流,但通常沒有涉及訪問大量數據集的問題。這些工作流中的數據管理很大程度上依賴于用戶,數據管理自動化非常有限。Kepler[20]引入了一個MapReduce執行器,允許執行采用MapReduce算法的混合工作流。Hadoop平臺通常用來運行數據密集型的科學應用,它所提供的文件操作與POSIX類似,允許隨機讀,但不允許隨機寫。在這種情況下,Hadoop平臺負責將輸入文件切片并分布在各個數據節點。而本文提出的方法主要針對工作流運行在多個不同的執行環境中,代碼不能MapReduce的情況。在XSEDE中,任務利用分布式文件系統如GPFS-WAN[21](GeneralParallelFileSystem-WAN)來訪問數據,分布式文件系統支持POSIX操作,可以對輸入和輸出文件進行遠程訪問。研究表明[22],將大型數據集布局在本地計算節點會更好,但這一策略也會帶來新的問題,如不同類型工作流的融合以及數據布局策略算法等。
【 Abstract 】 With the development of information technology in the electric power system, the requirement for data security is also more and more high. The problem of data security has become a common problem. This paper mainly analyzes the multidimensional immune cloud data security technology, analyzes the concept of cloud computing and data security, data security in cloud computing model, has made the thorough discussion on multidimensional immune security cloud data, for reference.
【 Keywords 】 cloud computing; multidimensional immune; data security
1 引言
云計算是目前計算機領域研究的重點課題,采用云計算技術可以設計出一種先進的信息應用模式,充分利用計算機資源。隨著互聯網技術的發展,計算機技術促進了云計算的開發和應用,使云計算的應用更加廉價和強大。基于多維免疫的云計算,可以給用戶的硬件使用帶來方便,云計算使用的是先驅簡單存儲服務和彈性云計算服務。隨著世界各大企業開始關注云計算,關于云計算安全的問題也出現了。只有保證云計算系統的數據機密性和完整性,才能促進云計算系統的科學性和安全性。云計算的安全正面臨著威脅,通過研究云計算技術,建立云計算的數據安全模型,多維免疫的云計算模型,這個模型是建立在云計算技術架構上的。運用免疫學原理,提出適合云計算架構的多維免疫算法。這個算法的優勢是以克隆算法為主要對象,是一種面向云計算的免疫算法。
2 云計算數據安全模型
云計算是下一代的IT架構。運用云計算,可以把應用軟件和數據遷移到很大的數據中心。云計算的這一特點帶來了很大的安全問題。要研究云計算數據的安全特征,就要首先了解云計算的數據安全模型。
2.1 云計算數據應用系統模型
云計算的平臺構架主要技術有并行編程的模式,分布式文件系統,數據處理模型。其層次如圖1所示。
云計算的數據應用共分為三個層次:應用層、索引層和數據存儲層。同時要了解云計算數據應用系統的三個要素:用戶、應用服務器和數據中心。這三個要素各有著不同的功能,用戶的功能是存儲數據,在數據計算的基礎上,計算個體用戶和組織用戶的數據。應用服務器的功能是維護云計算的系統。數據中心的功能是存貯實際的數據信息。但是,在云計算數據應用系統模型中,存在著很大的安全威脅,主要是來自傳統數據的威脅,容易受到影響的對象有客戶端、主從結構和病毒的傳播,通信的安全性。其中,病毒的傳播主要是通過互聯網的數據交易服務,病毒侵入計算機網絡系統,它的破壞性遠遠大于單機系統,用戶也很難進行防范?,F在的互聯網中,病毒一般有隱蔽性,傳播速度也很快。另外,病毒的制造技術也越來越高級,不僅可以破壞用戶的程序,還可以竊取信息,造成系統的交叉感染。這種感傳染性的病毒危害性非常大。對于通信故障,網絡中通常分為兩種類型的安全攻擊類型:主動攻擊和被動攻擊。常見的攻擊手段有偷竊、分析、冒充、篡改。對于數據安全來說,除了上述的數據安全,還有新數據的安全威脅,主要表現在幾個方面:保密失效威脅、分布式可用威脅、動態完整性威脅。
2.2 云計算數據安全模型
該數據安全模型主要分三個層次:第一層的功能是負責驗證用戶的身份,保證云計算中數據的安全;第二層的功能是負責對用戶的數據進行保密處理,保護用戶的隱私;第三層的功能是恢復用戶誤刪的數據,是系統保護用戶數據的最后一道防線。這三層結構是相互聯系,層層深入。首先要驗證用戶的身份,保證用戶的數據信息不被篡改。如果非法用戶進入的系統,則進入系統后還要經過加密保護和防御系統。最后是文件恢復的層次,這一層次可以幫助用戶在數據受損的情況下修復數據。
3 多維免疫的云數據安全
3.1 多維免疫算法
多維免疫算法的組成主要依靠生物原理、免疫系統的多維模型、多維免疫的基本原則組成。其中,生物原理是把生物學的理論應用在云計算中。人工免疫系統發展到現在,在免疫能力的發揮方面有了很大的發展。免疫能力的增長是一個漫長的過程,后天的免疫的生成更是一個艱難的過程。在一個系統生成初期,完全沒有后天的免疫能力,但是隨著身體的成長,免疫細胞逐漸增多,免疫系統也開始形成。多維免疫系統的形成也是這樣的。
3.2 多維免疫的數據安全原理
阻礙多維免疫的數據安全的因素主要有不可靠網絡、節點故障、超大規模的用戶訪問、數據更新引起的數據不一致性等。為了提高數據管理的安全性,云計算為用戶提供了一個一致的入口,只有向用戶提供透明的文件,進行文件數據的定位數據選擇。對于數據管理服務,應該注意,這項服務是連接用戶和系統的。應用服務器和數據中心共同組成了云計算數據應用系統。應用服務器主要目的是方便用戶訪問歷史和相關的文件信息。
3.3 多維免疫的云數據安全策略
主要包括文件分布的策略,HDFS 文件冗余度計算,多維免疫的文件分布,數據塊選擇機制等。對于云計算中的用戶文件,需要考慮到數據塊的數量分布、數據塊的顆粒度和數據庫的創建時間。多維免疫的文件分布中,首先要掌握文件分布的原理,多維免疫算法和云計算中文件的創建和文件塊的分配法是一致的。
4 結束語
多維免疫算法及其數據安全應用非常重要,首先需要制定科學的多維免疫算法的實現方案,通過研究云計算技術,建立云計算的數據安全模型,多維免疫的云計算模型,這個模型是建立在云計算技術架構上的。運用免疫學原理,提出適合云計算架構的多維免疫算法。然后全面了解多維免疫算法的數據安全的原理,掌握云計算的數據安全要素的特征。采用定量分析的方法,才能完善多維免疫的云計算數據安全管理內容。只有保證云計算系統的數據機密性和完整性,才能促進云計算系統的科學性和安全性。
云計算的安全正面臨著威脅,通過研究云計算技術,建立云計算的數據安全模型,多維免疫的云計算模型,保證云計算數據的安全性。
參考文獻
[1] 戴躍發.基于多維免疫的云計算數據安全技術研究[D].國防科學技術大學,2010.
[2] 李志勇,易燦,劉彥姝等.云計算數據保密與安全問題研究綜述[J].硅谷,2014,(19):52-52,66.
[3] 趙莉,王魁t.基于加密機制的云計算數據可靠存儲方案研究[J].信陽師范學院學報(自然科學版),2014,(4):593-596.
云計算發展至今,安全問題一直是影響其發展和推廣的因素之一,在云計算平臺應用過程中,由于云計算自身技術原因、應用者自身原因等導致的數據泄密、數據丟失等嚴重影響了用戶對云計算的信任和應用熱情,隨著計算機網絡安全的研究和發展,云計算安全問題得到了一定的解決,但面對當前云計算應用的現在,安全問題仍是重中之重。
1 云計算的發展概略
云計算機的發展大致經歷了四個階段,電廣模式階段、效用計算機階段、網略計算階段和云計算階段,當前意義上的云計算是近十幾年興起的,也就是云計算進入第三階段后得到了突飛猛進的發展,進入第四階段后不僅保持了持續發展的勁頭,還在應用推廣上得到了很大的拓展,當前云計算普遍應用于軍事、教育、經濟等各行各業,部隊對于云計算的應用非常重視,這一服務被廣泛的應用于部隊管理、通訊聯絡等方面,極大的促進了部隊的發展?;仡櫾朴嬎愕陌l展,最初是上世紀六十年代,“虛擬化”的提出及相關論文的發表是云計算發展的基礎,這一理論思想的提出是計算機的發展進入一個新的領域。此后三十多年間云計算雖有發展,但發展緩慢。直到1997年提出云計算學術定義,云計算的發展才進入實質性發展階段,緊接著虛擬技術的發展、軟件革命的開啟,將云計算的發展和應用推向了一個新的高度。2006年,彈性云計算服務的推出及“云計算”概念的提出促使云計算的發展應用區域成熟,這一技術服務得到了廣泛的應用,但其應用過程中的安全問題卻不容忽視。
2 云計算的特點分析
云計算的發展和廣泛應用離不開他強大的運算功能和其他輔助功能,每秒十萬億次的運算能力為用戶提供了很大方便、快捷,因此,強大的運算功能是云計算的一個重要特點,它運算不僅快且能同時解決大量的運算任務,其運算規模超大、計算機能力超強。其次,云計算是一個虛擬化的概念,它是依托于網絡存在的,可模擬核武爆炸、軍事演練等等,對部隊的信息化、智能化建設非常關鍵,這點也突顯了云計算的服務性。再次,云計算客戶端的接入非常方便,可以是常見的臺式計算機,也可是筆記本、手機等等,很多通信工具都可以接入云計算的數據中心,對其中的數據進行調用、存儲等。第四,云計算可以按需分配資、共享資源,用戶可以同時訪問,不受影響。且云計算有很強的可擴展性,其性價比非常高。綜上所述,云計算的應用效率高、可靠性強、可用性強,但也是因為云計算的這些特點,其應用過程中的安全問題備受關注,特別是牽扯商業機密、軍事機密等的一些數據信息的安全性更是受到了重視,而云計算的數據共享性、開放性,使這些機密的數據面臨很多的泄密風險、損壞風險和丟失風險。
3 云計算的安全問題及解決對策
3.1 云計算的安全問題
云計算的安全問題主要集中于數據的安全性和可靠性問題上,一方面,云計算是一個開放的服務平臺,云計算中的各種數據雖對數據所有者以外的其他用戶保密,但對于云計算的提供方是不保密的,這就增加了數據泄密的風險。此外,云計算數據庫為很多用戶提供服務,也就是說任何一個用戶端如果對云計算發起攻擊而且成功的話,云計算中的各種數據他都能夠很輕松的獲得、破壞,這些特性都將云計算的安全問題推向了一個更嚴峻的形勢,其應用過程的數據安全問題更顯重要,特別是部隊云計算的安全問題更是不可忽視。另一方,云計算的核心技術是資源虛擬和分布式并列構建,其數據存儲的關鍵是服務機構提供的服務平臺,這一服務平臺的安全性直接關系著云計算數據的安全性,一旦發生不可抗拒的自然災害(如水災、火災等),這些數據很容易被毀為一旦,很難修復。綜合以上兩點,云計算的安全問題主要集中于數據的泄露、丟失、損壞、被劫持幾個方面。導致這一問題的原因主要存在于三個方面,第一,黑客的惡意攻擊,在云計算平臺,黑客只要攻擊一個用戶的應用程序,就能夠獲得多用戶的數據信息,對云計算中的數據庫進行破壞、刪除、劫持等,因此黑客攻擊是云計算安全問題的首要問題。第二,用戶自己操作失去,導致數據丟失、泄密等問題發生,如用戶使用不安全的接口,導致數據信息泄密或不可用。第三,云計算的技術問題引起的云計算安全問題,如云計算技術不夠成熟,而被輕易的放入云端,導致云計算的應用程序存在漏洞進而導致云計算數據信息的安全問題。又如,云計算平臺數據共享和隔離問題,致使云計算平臺組件或應用程序只要收到攻擊,每一個用戶的數據信息都會面臨安全風險。
3.2 云計算安全問題的解決對策
當前解決云計算安全問題沒有特別有效的辦法,最常見的就是安裝殺毒軟件、防火墻等防治黑客攻擊,同時注意數據加密、備份,以防止數據泄密或被破壞、丟失,但數據加密也面臨著一些風險,例如,用戶對自己的數據加密后忘記了密碼,那么這些數據就會永遠的被“封存”,再也無法查看,又如用戶不小心泄露加密密匙,這就增加了數據的泄密風險。因此,除了常見的技術預防云計算安全途徑外,還應重視對云計算使用者的安全意識培養,例如,在數據加密時,一方面注意數據密匙的保護,以防遺忘和丟失。另一方面,數據密匙的設置不能太簡單(如用單純的一個數字、手機號碼等),而且應該定期更換,避免數據密匙泄露。此外,還要重視云計算相關軟件、技術的研發,在云計算安全問題上有突破性的建樹,以促進云計算平臺的應用和拓展。
4 結語
部隊應用云計算的方向很多,如部隊日常管理,研究項目模擬、信息采集處理等等,而且部隊云計算的安全性、可靠性要求較一般的社會企業、單位更高,研究云計算的發展及當前的應用缺陷,是對云計算安全性的探知,更是對如何更好的發揮云計算平臺效益的探索,對建設現代化部隊、信息化、智能化部隊意義重大。
參考文獻:
一、云計算基本概念
近些年,云計算這一概念在行業內被普遍提及,也隨之為這一技術帶來了巨大的發展。維基百科()對云計算的定義如下:一種基于互聯網的計算機新方式,通過互聯網上的異構、自治的服務為個人和企業用戶提供按需即取的計算。分析這一概念我們可以了解到,在互聯網時代,計算能力已經成為了一種“商品”在進行銷售,它就像我們日常生活中的水電、煤氣一樣,價格便宜,使用方便。目前,國內外的互聯網商業巨頭紛紛推出自己的云計算平臺,如google、微軟、IBM、亞馬遜等,并將其作為未來發展的重要戰略之一。因此,針對云計算的研究不僅是互聯網時代業界技術發展的重要趨勢,也具有十分重要的應用價值。
二、云計算的體系結構
云計算是一個革命性的舉措,它不僅帶來了IT模式的變化,也引發了IT服務的變革。在云計算時代,數據是自己的,而對于數據的計算、處理等操作,都可以交給云計算數據中心進行。云計算平臺可以看成是一個強大的“云”網絡,不僅將眾多并發的網格計算和服務連接起來,還利用虛擬化技術對每一個服務器能力進行拓展,這樣就通過云計算平臺使得各自的資源整合起來,擁有超級計算和存儲能力。從總體上看,云計算由三個基礎部分組成:基礎設施,網絡和終端。
三、云計算的關鍵技術
云計算是以數據為中心的一種數據密集型的超級計算方式,它在數據存儲和管理、編程模式和虛擬化等方面都具有自身獨特的技術。
(一)數據存儲和管理。云計算的數據一般采用分布式方式進行存儲和管理。為了保證數據的高吞吐率、可靠性及高利用率,冗余存儲的方式也時常采用。此外,鑒于云計算中對數據讀取和分析的頻率高于數據更新頻率,云計算系統的數據管理常采用列存儲的數據管理模式---將表按列劃分后存儲。
(二)編程模式。在云計算系統的編程實現過程中,應當盡可能的簡單化。究其原因,主要是因為簡單化的編程模式能夠為基于云計算服務的開發人員提供便利,可以幫助他們在進行后臺并行執行和任務調度時獲得相對透明的流程,進一步得幫忙他們專心于業務邏輯。
(三)虛擬化技術。虛擬化技術是云計算有別于一般并行計算的根本性特點,也是云計算中的一個關鍵技術。采用虛擬機技術對云計算資源進行管理具有以下幾點優勢:移動性、獨立性和高整合性。
四、云計算中的網絡拓撲設計
云計算作為基于互聯網的商業計算模型,其后端的網絡拓撲結構十分復雜。對云計算系統中后端大量的服務器進行有效地組織和管理一直是云計算研究中重要的方面,這是保證云計算系統穩定運行的關鍵。和一般的企業網絡、公網相比,云計算網絡結構的特點有以下幾方面不同:
(一)云計算系統后端網絡的復雜程度遠遠大于一般公司的網絡,因此,合理高效的網絡拓撲結構是云計算系統中的關鍵,其主要的作用在于為網絡中數據傳輸的暢通和穩定提供保證。
(二)云計算系統網絡內部的數據流量大,主要由于系統主要面向大量的用戶和大規模的業務處理。同時,還可能會有服務等級區分度較大的問題。
(三)云計算系統的中網絡需要保證高穩定性,這主要是由于用戶所有業務及數據都依賴云來開展。
(四)云計算系統需要有良好的可擴展性。云計算系統的規模較大,不可能一次性建設完成,而且用戶規模會隨服務的增加持續擴大,因此,如果沒有良好的可擴展性很難滿足要求。
圖 1. 云系統后端網絡結構示意圖
云計算系統中整個網絡的效率、穩定性和復雜度由核心交換層的網絡拓撲結構決定。顯而易見的,如果核心交換節點直接兩兩相【摘 要】本文的出發點為云計算的網絡需求,針對云計算系統中的網絡拓撲結構特點進行研究與分析,提出了云計算系統中網絡拓撲結構的基本思想――由中心的主干交換部分和樹狀子網組成;并給出了相應的實現解決思路。
【關鍵詞】云計算 網絡拓撲設計 算法實現
連,由此形成的全連通網絡抗穩定性是最優的,網絡的暢通性也能夠得到保證。但是,這樣拓撲結構的網絡其建設和維護的成本較高,各個核心交換節點中的路由和管理復雜度極高。另一方面,直接以各自交換節點為根生成最小生成樹也可以構建網絡,這樣的網絡拓撲結構相對簡單,成本低,但是其穩定性較差,容易造成網絡的不連通。
因此,一種合理且有效的方式可以簡化為如圖1所示的結構。通過對該網絡抽象化,將需要研究的問題突出顯示,即抽象化每一個子網為一個節點,給每個節點附上交換能力、子網流量和地理位置信息等特性。此時,針對網絡主干拓撲結構的設計問題就可以表示為如何在已知若干節點容量、地理位置信息和可能流量等信息的前提下,將這些節點互相連接并形成一個冗余小、網絡架設開銷小的網絡拓撲。
針對云計算網絡拓撲設計已有眾多研究者進行了深入的研究和討論,該問題可以表示成圖論中的一個數學模型:即抽象化云計算系統中的網絡節點和所有可能的鏈路,表示為圖論中圖的頂點和邊,抽象化帶寬、延時、鏈路長度等表示為圖的邊權重。
本文針對云計算系統后端網絡的特點,給出了云計算網絡拓撲結構組成---主干交換部分為中心和樹狀子網為結構。通過將該問題抽象化為數學模型,并求解該抽象化問題,能夠有效地計算出云計算系統的網絡拓撲結構。
參考文獻:
[1]鄧自立, 云計算中的網絡拓撲設計和Hadoop平臺研究,[D].中國科學技術大學. 2009. 學位論文
中圖分類號:P2文獻標識碼: A 文章編號:
一.引言。
隨著我國對建筑行業的工程質量和工程設施安全要求的不斷提高,相對的對其建筑前的設計和在建筑施工過程中也提出了更高的要求。尤其以GPS技術在測繪學的領域中起到了革命性的變革。,GPS測繪技術在科學技術的突飛猛進的現實面前是最好的映射。隨著時代的發展與進步,計算機技術作為相對社會高科技的結晶,在社會生活中各個領域都起到了相當重要的地位。
二.對GPS的認識。
GPS全球衛星定位技術、GIS地理信息系統和RS遙感技術等其他科學被利用到測繪工程中,測繪技術和各學科相互交叉、滲透,測繪工程中產生新的綜合性信息采集、處理、監控管理系統。
GPS的工作原理是通過高空的24顆衛星,由地面控制系統和用戶接收裝置組成,具有精度高、速度快、全天候、距離遠等特點。在工程測繪中,GPS定位技術的應用使的測量范圍大大延伸。利用GPS技術和水準測量資料可精化大地水準面,在進行城市、礦山等控制網時不需要造標觀測,在工程測繪中及靈活又方便,同時使用成本相對較低。再者GPS技術在測繪應用中的特點也是很明顯的,譬如定位精度高、觀測時間短、提供三維坐標、全天候作業、觀測站間無需通視、操作簡單、經濟效益好。
這樣的發展,使得GPS技術在工程測量、地形測繪、竣工測量及工程機械控制中都得到了廣泛的應用從現在形式不難發現,GPS定位系統在測繪中的應用朝著高精度、多功能、和集成式的方向迅速發展,當然GPS也將廣泛地應用于眾多的行業,甚至進入更高端的科學領域,促進人類文明的高度發展。
三.影響GPS測繪存在誤差的主要因素。
1.信號誤差
美國政府從其國家利益出發,通過降低廣播星歷精度,在GPS基準信號中加入高頻抖動信號等方法,人為降低普通用戶利用GPS進行導航定位時的精度。
2.衛星星歷誤差
在進行GPS定位時,計算在某時刻GPS衛星位置所需的衛星軌道參數是通過各種類型的星歷提供的,但不論采用哪種類型的星歷,所計算出的衛星位置都會與其真實位置有所差異,這就是所謂的星歷誤差。
3.衛星鐘差
衛星鐘差是GPS衛星上所安裝的原子鐘的鐘面時與GPS標準時間之間的誤差。
4.衛星信號發射天線相位中心偏差
衛星信號發射天線相位中心偏差是GPS衛星上信號發射天線的標稱相位中心與其真實相位中心之間的差異。
5.電離層延遲
由于地球周圍的電離層對電磁波的折射效應,使得GPS信號的傳播速度發生變化,這種變化稱為電離層延遲。電磁波所受電離層折射的影響與電磁波的頻率以及電磁波傳播途徑上電子總含量有關。
6.對流層延遲由于地球周圍的對流層對電磁波的折射效應,使得GPS信號的傳播速度發生變化,這種變化稱為對流層延遲。電磁波所受對流層折射的影響與電磁波傳播途徑上的溫度、濕度和氣壓有關。
7.控制網布設不合理或起算數據利用不合理引起的誤差。
8.GPS控制部分人為或計算機造成的影響。
9.由于GPS控制部分的問題或用戶在進行數據處理時引入的誤差等。
10.數據處理軟件的影響。
11.數據處理軟件的算法不完善對定位結果的影響。
四.提高GPS定位精度的有效辦法。
1.硬件的改進
2.采用合適的GPS接收機作業
當基線邊長大于10 km時,采用雙頻接收機。雙頻接收機的優點是:
①可以基本消除電離層延遲對點位坐標的影響,點間距離可達100 km;
②在快速靜態和動態測量中觀測時間比單頻機短。當基線邊長小于10 km時,可以采用單頻接收機。
3.作業前對GPS接收機進行鑒定
4.作業方法和手段的改進
5.選點的要求
選點的要求:
①點位應便于接收設備的架設和操作,視野開闊,被測衛星的地平高度角應大于15 °。
②應盡量消除多路徑影響,防止GPS信號通過其他物體反射到GPS天線上,因此應避開強反射的地面,避開強反射環境,如山谷、山坡、建筑物等。
③避開強電磁波干擾,設站應遠離雷達站、電臺、微波中繼站等。
綜上所述,GPS接收機常存在鐘誤差、通道間的偏差、鎖相環延遲、碼跟蹤環偏差、天線相位中心偏差等,所以必須先了解儀器性能、工作特性及其可能達到的精度水平。它是制定GPS作業計劃的依據,也是GPS定位測量順利完成的重要保證,所以對GPS測量儀器必須先進行作業前的檢驗,沒有檢驗的儀器是不能用于作業的。
五. 南方GPS的單點校正。
由于在實際測量工程中控制點個數不足,不能正常求取GPS的轉換參數,往往無法滿足工程的精度要求, 因此GPS單點定位精度的提升成為解決一直問題的重要手段。
GPS的點校正是建立在GPS接收機采集的WGS-84數據與地方控制位置之間的關系,采用一系列的數學轉換定義此關系。
將WGS84位置轉換到格網坐標的數學轉換是:
1.基準轉換:即從WGS84唯獨、精度和橢球高度坐標轉換到相對于地方測圖格網橢球的緯度、經度和橢球高度坐標;
2.地圖投影:是從地方橢球緯度和精度坐標轉換到地方測圖格網的北向和東向的坐標到WGS84高度的大地水準面模型,得到海水平面上的近似高程。
GPS在啟動基準在的時候必須獲取一個當前基準站所架設點位的WGS84經緯度坐標才能正常的發射,而轉換參數的計算也必須使用WGS84坐標,WGS84坐標的獲取有兩種方式:一種是由基準站直接讀取當前測出的經緯度坐標(GPS坐標每一秒刷新一次,每一次讀取的坐標都設有差異,誤差在1至2米之間);一種是事先布設好靜態控制網,從靜態處理結果中獲取。由于WGS84經緯度獲取的相對不確定性使得在求解轉換參數時必須首先確定一組公共控制點的WGS84經緯度坐標,這組坐標一旦確定以后每次啟動基準站時都要使用這一組WGS84經緯度坐標,否則使用轉換參數時的顯示坐標和實際施工做標間就會存在一個固定偏差,這個偏差是由所取的基準站WGS84經緯度坐標和用來計算轉換參數的WGS84經緯度坐標之間的差異產生的。
南方的RTK自動啟動基準站時取的坐標是基準站開機并達到狀態以后自動取得的WGS84經緯度坐標,這樣就會出現上述的固定偏差,工程之星軟件通過一個公共已知點求出的轉換參數來克服這個固定偏差,工程之星軟件中把這個過程稱為“校正”,因此南方GPS的單點校正精度得到了很大提高,其精度在一定范圍內可以滿足一般測量要求。
單點校正的特點是:距離已知點越近精度越高,一般的控制范圍為3-5公里。因此在使用單點校正的時候要注意工作地點不要距離控制點過遠,對精度要求高的測量工程盡量避免使用。
六.結束語
GPS控制布網靈活,操作簡單,有利于提高工作效率,降低生產成本,提高測量速度和工作效益。GPS控制只要觀測數據可靠,平面起算數據和高程起算數據設置合理,能得到較好的平面精度和高程精度。靜態GPS作業,基線較長時要適當延長觀測時間,以取得良好的觀測數據?;贕PS技術的特點,相信在我國今后的發展中,GPS技術將運用到社會生活的各個領域當中,為我國在基礎建設中繪制宏偉的藍圖,是我國贏得經濟、社會、人文發展的共贏,實現經濟效益最大化。
參考文獻:
[1] 麥衛東 Mai Weidong 淺談GPS測繪存在誤差及有效提高定位精度[期刊論文] 《科學之友》2010年36期
[2]李澤文 曾祥君 黃智偉 雷莉 馬洪江LI ZewenZENG XiangjunHUANG ZhiweiLEI LiMA Hongjiang基于高精度晶振的GPS秒時鐘誤差在線修正方法 [期刊論文] 《電力系統自動化》 ISTIC EI PKU 2006年13期
[3]何勇 葛曉鋒 俞海紅 方慧 農用GPS測試精度分析及提高精度方法的研究 [期刊論文] 《農業工程學報》 ISTIC EI PKU 2004年2期
[4]李澤文 姚建剛 曾祥君 鄧豐楚 湘輝 LI ZewenYAO JiangangZENG XiangjunDENG F基于數字鎖相原理的GPS高精度同步時鐘產生新方法[期刊論文] 《電力系統自動化》 ISTIC EI PKU2009年18期engCHU Xianghui
中圖分類號:TP3 文獻標識碼:A 文章編號:1672-3791(2014)07(c)-0016-02
1 城市信息化的發展趨勢
信息化時代瞬息萬變,移動互聯網、物聯網、云計算技術方興未艾,其增長速度超出人們的想像?;ヂ摼W應用從只能讀取內容的Web 1.0時展到人們可以參與共享內容的Web 2.0時代,再到現在已悄然邁進的智能化的Web 3.0時代;管理信息化應用從關注組織內部事務處理到關注組織內部工作流程,又在向組織內外協同處理的訴求發展。人們的信息化生活、生產活動逐漸從封閉、單一走向開放、智能,正邁向協同處理、信息智能的時代。城市作為人們生活和生產的載體,將無可避免地與信息產業技術發展趨勢相結合,從而衍生出具備智能的城市級信息系統。智慧城市信息系統作為信息產業新技術融合的產物,將控制和協同城市居民的生活和生產活動,使之更加便捷、高效、安全、和諧。
可以將城市比作一個有機的生物體,而將其信息系統比作生物體的神經系統。高等生物的神經末梢感受體內、體外環境的信息,通過周圍神經傳遞到中樞神經進行整合加工,再經周圍神經控制、協調生物體內部各系統的功能以及生物體和外部環境的平衡。物聯網感知和控制終端是智慧城市的神經末梢,寬帶通信基礎網絡構成周圍神經系統,而云計算數據中心作為城市智慧的大腦,三者共同構成智慧城市信息系統,以協調城市這個龐大的生物體各系統的運轉,以及城市和自然環境的平衡。城市將愈發依賴于這種高度互聯、高度協同的智慧的信息系統。
2 智慧城市的概念和關鍵能力
智慧城市應具備以下三個信息化關鍵能力。
2.1 信息的全面感知能力
城市中布有大量的感知終端,通過傳感器網絡,在運行、服務中捕獲到人們生活、生產以及城市環境的多種信息元數據。
2.2 海量的數據處理能力
具備海量的跨部門、跨行業異構數據的存儲能力,能夠對海量異構數據進行高效分析、計算和處理的能力,并且能夠構建基于數據分析和知識管理的智能應用能力。
2.3 智能的管理服務能力
在形成支撐智慧城市的行業智能應用的基礎上,建立面向服務的智慧城市綜合應用的統一公共管理平臺,為居民生活和各行業生產提供普適的、智能的應用與服務。
3 物聯網和云計算技術
智慧城市信息系統是一個面向城市管理、控制與服務的體系,它統一集中各行業數據與信息資源,為跨部門、跨行業建立協同處理和智能控制平臺。
對智慧城市關鍵能力的分析可以看到,物聯網和云計算能夠為構建智慧城市信息系統提供技術支撐,它們在寬帶通信基礎網絡的支撐下構成智慧城市信息系統的信息感知端和信息處理端。一方面,物聯網滲透入各行業,提供全面的城市感知和控制網絡。另一方面,云計算數據中心提供面向各個物聯網行業應用的集成,面向用戶和終端提供整體的智慧城市應用服務平臺。兩者之間由普遍覆蓋的寬帶通信網絡在平臺與終端之間提供網絡環境支撐。云計算構架在寬帶通信網之上,物聯網將主要依賴寬帶通信網來實現有效延伸,通過云計算模式可以支撐具有業務一致性的物聯網集約運營。
3.1 物聯網技術在智慧城市中的應用
物聯網是通信網和互聯網的拓展應用和網絡衍生,它利用感知技術與智能裝置對物理世界進行感知、識別,通過網絡傳輸互聯,進行計算、處理和知識挖掘,實現人與物、物與物信息交互和無縫鏈接,達到對物理世界實時控制、精確管理和科學決策的目的。
物聯網的網絡架構可以分為三層:感知層、網絡層和應用層。感知層對物理世界感知、識別并控制。網絡層實現信息的傳遞。應用層在對信息計算和處理的基礎上實現在各行業的應用。
物聯網的關鍵技術包括傳感與RFID融合技術、識別與環境感知技術、物聯網節點及網關技術、物聯網通信與頻管技術、物聯網接入與組網技術、物聯網軟件與算法、物聯網交互與控制、物聯網計算與服務等。物聯網的應用滲透智慧城市的方方面面,可以為智慧城市信息系統的感知和控制提供全面支持。這些應用概括起來有:(1)工業,如生產過程控制、供應鏈管理、能耗控制等。(2)農業,如農作物精細灌溉、生長環境監測、農產品流通追溯等。(3)商業,如自動販賣機、POS終端等。(4)金融服務,如“金卡工程”、二代身份證等。(5)交通,如交通流量監控、交通信號控制、電子收費、定位導航、車輛狀況診斷等。(6)電力,如智能變電站、智能用電、配電自動化等。(7)醫療衛生,如遠程診斷、醫療廢物監控等。(8)教育,如圖書信息推送、遠程教育等。(9)家居,如門禁、安防、電氣設備遠程控制等。(10)環境,如有害物質監測、氣候環境監測等。
3.2 云計算技術在智慧城市中的應用
社會經濟和信息化大發展,尤其是移動互聯網和物聯網應用的發展,提出了對海量信息的處理與低成本、普適化、智能化應用的需求。云計算因這些需求快速發展,獲得了顯著的商業成功。
云計算是一種新的計算方法和商業模式,即通過虛擬化、分布式存儲和并行計算以及寬帶網絡等技術,按照“即插即用”的方式,自助管理計算、存儲等資源能力,形成高效、彈性的公共信息處理資源,使用者通過公眾通信網絡,以按需分配的服務形式,獲得動態可擴展信息處理能力和應用服務。如果從計算效用的角度來看,云計算通過虛擬化技術形成可管理的彈性的資源池,充分提升機群的CPU和存儲的利用率,又通過分布式存儲技術和并行計算技術,充分利用機群并行處理的強大計算能力和快速響應能力,并通過中間件層對上層應用透明。構建智慧城市一體化智能控制服務平臺,需要處理對城市各方面的生活、生產活動以及環境的感知數據,運用統計學、機器學習、專家系統和自動規劃等多種方法,從原始數據中挖掘相關信息,提煉出信息中蘊涵的知識,發現規律,提供智能的城市管理、控制和服務。對海量信息的快速處理和智能挖掘需要巨大的存儲能力和計算能力,云計算的海量數據分布式存儲和并行處理能力為實現人工智能提供了重要的途徑。
云計算模式在顯著提高資源利用率的同時,降低了對用戶終端的要求。往往一個采用嵌入式芯片的終端就能承擔起用戶終端的功能,用戶可以通過簡單的終端來獲得服務器端強大的計算、存儲和應用程序資源。因此,云端高性能計算的支持可以降低傳感器終端的復雜性,減少終端功耗,簡化終端計算系統的軟件結構,使復雜的協同、上下文感知、自適應策略等功能放在云中實現,從而使終端的智能能夠得到顯著提高。
4 智慧城市信息系統的總體框架
智慧城市的總體框架如圖3所示,包括物聯網感知和控制層,云計算數據中心、數字化平臺、管理中心和應用五個層次。
(1)普遍部署的物聯網感知終端對城市系統和環境進行感知與采集,通過寬帶通信網絡對感知信息進行傳送。(2)在云計算數據中心對信息進行匯聚、提取和處理。(3)在數字化平臺實現行業集成的應用接口整合。(4)通過業務管理平臺實現用戶、業務、數據、安全、認證、授權和計費等管理功能。(5)最后實現各行業的應用服務。另外,標準、法規的完善和全局的統籌規范有利于保障整個信息系統的管理和控制,保證智慧城市的建設和運營,使系統真正具有智能運營、交付和服務能力。
5 智慧城市信息系統的網絡拓撲
智慧城市信息系統是智能的開放的系統,以城市數據中心為核心,以物聯網終端為觸角,由內而外分為六層。
(1)城市數據中心包括網絡數據中心、業務數據中心和用戶數據中心,共同構成城市數據系統。(2)云存儲、云計算和云網絡設備構成的云資源系統為城市信息系統提供云計算的能力,使其具有強大的計算能力與共享服務能力。(3)能力引擎系統提供資源和支撐能力的開放使用。(4)資源控制節點基于分布式架構技術,屏蔽系統內部復雜的物理和邏輯結構,實現自適應負載均衡能力、帶寬匯聚能力、分布式存儲能力、動態資源調度能力。(5)智能接入網關將傳感器終端接入云中,屏蔽不同傳感器終端的差異,進行不同終端接入的智能適配,實現統一接入。(6)終端指感知和控制,以及應用服務獲取的末端設備。
6 智慧城市發展建議
智慧城市的建設和發展需要現代信息通信技術支撐,需堅持開放合作與自主創新相結合,突破海量數據處理、智能終端系統、智慧化產業支撐平臺等關鍵技術。
另一方面,也需要依靠政府和行業主管部門制定發展規劃和扶持政策以大力推進智慧城市建設,從而構建良好的產業發展環境和配套措施,建設寬帶、普遍部署的通信基礎網絡。同時,需要推動跨行業聯合制定統一的標準體系研究,實現通信、數據、信息、應用、服務的協同。此外,還需要通過立法和監管,實現數據共享,提高信息管理水平,建立數據的隱私保護和信息安全管理機制。有了以上四個方面的共同保障,才具備打造一流的智慧城市服務環境,匯聚規?;漠a業集群,實現規模經濟和現代服務的條件。
參考文獻
一、SDN技術的發展歷史
2006年,SDN誕生于美國GENI項目資助的斯坦福大學Clean Slate課題。
2008年,基于Ethane 及其前續項目Sane的啟發, Nick McKeown 教授等人提出了OpenFlow 的概念,并于當年在ACM SIGCOMM 發表了題為《OpenFlow: Enabling Innovation in Campus Networks》的論文,首次詳細地介紹了OpenFlow 的概念。
2009年12月,OpenFlow規范了具有里程碑意義的可用于商業化產品的1.0版本,之后又進一步修訂推出了1.1、1.2、1.3、1.4版本。
在工業界,2010年1月,Google數據中心開始采用OpenFlow技術。
2011年3月,開放網絡聯盟ONF成立,標志著SDN/ OpenFlow從單純的學術研究正式過渡到產業化發展的軌道中。
2012年底,AT&T、英國電信(BT)、德國電信、Orange、意大利電信、西班牙電信公司和Verizon聯合發起成立了網絡功能虛擬化產業聯盟(Network Functions Virtualisation,NFV),旨在將SDN的理念引入電信業。除ONF外,包括互聯網工程任務組、國際電信聯盟、歐洲電信標準協議也在推動SDN的發展和應用。
二、應用場景
目前,SDN主要應用于通信技術領域,具體涉及校園網、移動網絡以及云計算網絡等,隨著SDN技術的深化發展,其應用領域會更加廣泛。
2.1應用于校園網
SDN最早誕生于斯坦福大學的Clean Slate課題,該課題主要是用于校園網絡的試驗創新,旨在改變設計已略顯不合時宜,且難以進化發展的現有網絡基礎架構,從而構建一個靈活高效的校園網。
2012年,國家“863”項目“未來網絡體系結構和創新環境” 獲得科技部批準。該項目是一個符合SDN思想的項目主要由清華大學牽頭負責,清華大學、中科院計算所、北郵、東南大學、北京大學等分別負責各課題,項目提出了未來網絡體系結構創新環境FINE(Future Internet innovation Environment)。
2.2應用于移動網
SDN邏輯上集中的控制平面能夠更好地實現網絡融合,使統一管理成為可能。利用SDN技術可以在固定網絡和移動網絡中實現無縫控制、提高VPN管理的靈活性等。
在運營商網絡中利用SDN技術不但能夠降低網絡管理難度,還能加快業務部署速度,提高網絡服務器的適應能力。
目前,我國三大移動運營商紛紛找有實力的SDN技術研發公司進行合作,如華為與電信運營商的合作,其合作的目的是將現有的網絡結構向SDN網絡結構轉型,以期能夠適應時代的潮流,為客戶提供更好的服務。
2.3應用于云計算網絡
隨著網絡通信技術的發展以及客戶需求的增長,傳統的存儲處理系統遠遠達不到數據處理的需求,因此提出了集群及云計算概念。
云計算數據中心的交換機管理結構復雜,因此需要對服務器和虛擬機進行快速配置和數據遷移。如果不能在大量的服務器集群中進行快速高效的尋址與數據傳輸,就極容易造成網絡擁塞,發揮不出網絡功能。
在數據中心網絡中部署OpenFlow交換機,可以借助SDN技術,實現高效尋址、優化傳輸路徑、負載均衡等功能,提供數據交換的效率。
三、展望
SDN是一種新興的網絡架構,屬于下一代網絡技術研究范疇,但又與其他下一代網絡技術研究方向有很大區別。由于SDN技術剛剛提出,因此目前使用軟件定義網絡還存在一些問題,如讓不同的網絡服務提供者互相交換網絡信息從商業的角度來說是不容易實現的,在實現數據平面和控制平面的分離時如何實現分離轉發和控制面的OpenFlow協議的完善等。
但是相信隨著SDN技術的發展,這些問題在不久的將來會得到妥善解決。
參 考 文 獻
與此同時,為了支撐起規模越來越龐大的應用,滿足企業、用戶越來越高的需求,數據中心自身也面臨著一系列發展阻礙和瓶頸,轉型成了當前數據中心的燃眉之急。
2011年8月,華爾街日報刊登了題為《為什么軟件正吞噬整個世界》的文章,被認為是拉開“軟件主世”序幕的信號。事實上,近些年,軟件確實滲透進了人們生活的每個角落,它甚至在悄然改變著數據中心,而且隨著軟件定義網絡(SDN)等概念的出現,業內人士認為,軟件定義的數據中心將會是傳統數據中心轉型升級的方向和趨勢。
無論你是否相信,從當前的各種反應來看,軟件定義的數據中心,這一新生概念正在被越來越多的人接受,而且已經被付諸實踐……
為云計算鋪路搭橋
對于生活在互聯網時代下的人們而言,數據中心并不算陌生名詞,但加上“軟件定義”4個字之后,我們又該如何定義這個新概念呢?
事實上,對于軟件定義的數據中心,目前并沒有規范的定義,比較常見的解釋是指將數據中心軟件與硬件(包括服務器、存儲、網絡等)剝離,抽象成純軟件的解決方案,從而實現IT資源的靈活配置和自動調度。如果用全球著名虛擬軟件廠商VMware(威睿)全球副總裁李嚴冰博士的話來說,軟件定義的數據中心更直觀的定義就是把數據中心所有傳統、物理、硬件的資源進行虛擬化和軟件化。
清華大學計算機系副教授李丹認為,通過軟件定義數據中心主要有三個好處:首先,能有效控制成本。數據中心能夠運行哪些應用主要由具體的服務商決定,不同服務對數據中心的網絡基礎設施架構有不同要求。如果是傳統數據中心,則需要根據用戶個性化的服務定制配套的硬件設備,成本非常高。而進行軟件定義之后,用戶可以利用控制器對數據中心上的物理資源和拓撲進行集中管理,運行相應服務時只需在控制器上對資源進行分配即可。這種方式不僅能有效控制成本,也能方便用戶靈活地管理數據中心。
其次,能使數據中心功能演進和革新的周期變短。按照傳統做法,如果用戶有新需求,需要告知設備制造商,然后制造商按要求將設備做好,再進行一系列標準化測試工作后,才能交付用戶使用,周期非常漫長。如果是軟件定義的數據中心,用戶自己就能通過編程進行升級換代,省去了中間很多環節。
最后,可以更好地支持云數據中心的虛擬化。虛擬化是云計算和云數據中心的核心技術,當有多個使用者時,云計算就像一個動態的資源地,通過軟件定義的方式,對資源進行動態的調度、管理、分配和釋放則會非常靈活和方便。
據了解,VMware應該是軟件定義的數據中心的最早提出者和實踐者。近年來,為了搶占發展先機,VMware先是高調收購軟件定義網絡領域的先鋒廠商Nicira,隨后又收購或投資Puppet Labs、GemStone、WaveMaker等數十家相關廠商和企業。透過這些“瘋狂”的舉動足以看出,VMware正在編織一張大網,網的核心就是軟件定義的數據中心。
面對這個新興領域,我國的反應也十分迅速,國家863計劃、基金委等在第一時間啟動了許多相關的重大基礎研究及關鍵技術攻關。今年3月,國家973計劃青年科學家專題“軟件定義的云數據中心網絡基礎理論及關鍵技術”項目也正式啟動,由清華大學和華中科技大學共同承擔完成。
李丹是5名研究人員之一,也是項目負責人。他告訴記者,作為973項目,意味著這次項目必須符合重大基礎研究的要求―既要解決國家和社會發展面臨的重大戰略需求,又要在技術上、理念上拿出很好的原始創新成果。這也是此次項目與其他項目的區別所在。
此外,李丹還介紹,此次項目將面向建設新一代云計算和互聯網基礎設施、培育戰略性新興產業的國家重大戰略需求,研究云計算數據中心環境下網絡設計的科學規律與技術原理,探索支持可軟件編程網絡節點和可擴展控制器的軟件定義云數據中心網絡架構,對網絡、計算和存儲資源進行聯合優化,保障云計算租戶的網絡性能要求,為新一代云計算和互聯網基礎設施建設、關鍵技術研發和產業化提供科學理論支持和核心技術支撐,進而推動國家戰略新興產業的發展。
為此,李丹團隊計劃圍繞可定制的網絡架構、資源利用率優化、多租戶資源管理和能耗系統控制等4個科學問題展開相關研究,力爭取得一系列高質量的學術成果,形成具有我國自主知識產權的核心技術,為國家培養一批優秀的青年學術帶頭人,以及建立一支理論知識扎實、技術攻關能力強、戰斗力過硬的研究隊伍,使我國在本領域的研究整體上達到國際先進水平,甚至在一些關鍵點上能夠達到國際領先水平。
“軟件定義的云數據中心的概念脫胎于軟件定義網絡(SDN),但其實無論是SDN,還是虛擬化,或者是軟件定義的數據中心,這一切都依附于云計算這個大背景。軟件定義的云數據中心與云計算、下一代互聯網及大數據之間,有著十分密切的關系。我們的研究某種程度上是為了解決這些領域在發展中所遇到的部分技術難題。”李丹認為,從這個層面看,軟件定義的數據中心,能夠推動云計算等相關產業的發展和進步,它所帶來的影響是深遠的。
緊密結合實際,避免流于形式
對于軟件定義的數據中心,有人投入其中,自然也有人“看熱鬧”?!翱礋狒[”的人們認為:“當初云計算、虛擬化概念剛出現時被炒上了天,后來事實證明有些所謂的新技術、新平臺,并沒有像描述的那樣達到期望的目標。所以,誰知道軟件定義的數據中心是真的‘有料’,還是只是新的炒作?”
在李丹看來,一項新的技術出現,避免不了被質疑。如果要讓人們信服,就不能只是新瓶裝舊酒,而是真真正正拿出新理念、新技術,同時還要轉化成成果,讓人們實實在在體會到好處。具體到李丹等人這次的項目而言,他們也希望研究成果不僅僅停留在論文層面,而是能在相關產業得到應用。
但是,成果轉化并非易事,很多研究最終沒能令人滿意多半是在這個環節出問題。對于初次承擔如此重大研究的李丹團隊而言,這是一個非常大的考驗,他們并不畏懼。李丹說:“理論與實踐并重,研究成果與實際緊密結合,一直是我們做研究的特點,也是團隊的指導思想。我們也時刻以此警戒自己,盡最大努力把這個項目做好,讓它發揮切切實實的作用?!?/p>
據悉,項目啟動半年至今,李丹等人已經在利用軟件定義網絡技術實現數據中心的虛擬化方面取得了初步成果,各項研究工作也在有序推進中。同時,為了更好地了解產業需求,解決實際問題,李丹表示,目前除了定期開會交流探討,他們還積極與中石油、華為、中興、百度、騰訊等公司、企業開展合作,爭取讓團隊的創新想法和技術能夠落地,甚至還能起到示范作用。
不是終極,但會是變革和趨勢
隨著關注度的不斷上升,有人認為,軟件定義的數據中心將會成為云計算數據中心的終極形態,但這種說法李丹并不認同,他認為:“技術發展是不斷演進的,很難說哪種技術會是終極,只能說現階段,軟件定義的數據中心是一種能夠很好地解決數據中心所面臨問題的比較前沿的方案和方法。”
據李丹介紹,現在很多新建的數據中心,都使用了大量SDN技術,而一些傳統數據中心,也在謀劃著轉型升級。未來,軟件定義的數據中心很可能會完全取代傳統數據中心。因此,李丹更認同“軟件定義的數據中心會是IT界的變革”這樣的說法。他說:“軟件定義的核
心理念之一就是開放化整個系統,將設備軟件化,功能開發化,這其實也是整個信息技術、IT技術發展的大趨勢?!?/p>
李丹舉例說:“最初IBM大型機軟硬件一體,沒有開放系統,也沒有應用軟件,用戶都是靠敲命令完成操作。后來微軟出了Windows操作系統,將硬件的各種功能通過應用編程接口開放給用戶,才有今天這樣方便的操作。手機的發展也是同樣趨勢。諾基亞手機是軟硬件一體的典型代表,最初用戶不能自行安裝、運行其他軟件。但后來除了打電話和發短信,用戶還希望手機能上網、玩游戲,甚至用戶還能隨時安裝自己需要的軟件。這就需要開放手機功能,于是手機操作系統安卓出現了?!?/p>
作者簡介:王金寶(1983-),男,黑龍江哈爾濱人,博士研究生,主要研究方向:云計算系統中的查詢處理和索引技術;
高宏(1966-),女,黑龍江哈爾濱人,博士,教授,博士生導師,主要研究方向:圖數據庫,數據挖掘,云計算數據管理。
云計算系統中查詢處理及優化技術研究綜述
王金寶, 高宏(哈爾濱工業大學 計算機科學與技術學院, 哈爾濱 150001)摘要:云計算系統中的查詢及優化技術是近年來倍受關注的熱點研究領域,綜合了并行計算、分布式計算和查詢處理及優化技術等方面的研究成果,具有廣闊的應用前景。云計算系統中的查詢和優化是一項基礎而重要的操作,被研究者們所廣泛關注,也涌現出了很多研究工作。總結了近年來云計算系統中的查詢處理和查詢優化方向的研究工作,討論了現有工作的內容和需要進一步研究的方向,并提供了廣泛的參考文獻。
關鍵詞:云計算; 查詢處理; 查詢優化
中圖分類號:TP393 文獻標識碼:A文章編號:2095-2163(2013)04-0051-04
Survey on Query Processing and Optimization in Cloud Systems
WANG Jinbao, GAO Hong
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001,China)
Abstract:Cloud computing is a research area with many hot research topics, which is widely concerned in recent years. Cloud computing integrates the technology of parallel computing, distributed computing, query processing and optimization and etc., and provides significant application perspective. Query processing and optimization is an essential and important operation in cloud systems, which is widely concerned by researchers, and there are also large amounts of research work on cloud query processing. This paper introduces and summarizes the research work on system, data management and query processing in cloud computing systems. This paper discusses the existing solutions and the possible future work, and provides with plenty of references.
Key words:Cloud Computing; Query Processing; Query Optimization
0云計算的背景和意義
作為一種新出現的計算模式,云計算(Cloud Computing)提供安全、可靠的數據存儲,可以對海量數據管理提供有效支持。云計算就是使用構建于低成本硬件和網絡設備基礎上的大規模計算機集群,資源可在集群用戶之間實現動態分配[1]。云計算具有以下特點:
(1)超大規模?!霸啤本哂邢喈數囊幠?,Google 云計算已經擁有100 多萬臺服務器,Amazon、IBM、微軟、Yahoo 等的“云”均擁有幾十萬臺服務器。企業私有云也一般擁有數百上千臺服務器?!霸啤蹦苜x予用戶前所未有的計算能力。
(2)虛擬化。云計算支持用戶在任意位置、使用各種終端獲取應用服務。所請求的資源來自“云”,而不是固定的、有形的實體。應用在“云”中某處運行,但實際上用戶無需了解、也勿需擔心應用運行的具置。
(3)高可靠性。“云”使用了數據多副本容錯、計算節點同構可互換等措施來保障服務的高可靠性。
(4)通用性。云計算不針對特定的應用,在“云”的支撐下可以構造出千變萬化的應用,同一個“云”可以同時支撐不同的應用運行。
(5)高可擴展性?!霸啤钡囊幠?梢詣討B伸縮,滿足應用及用戶數量增長的需要。
目前,TB/PB級海量數據的查詢處理技術已逐漸引起世界各國數據庫領域的研究學者和工業界人士的關注重視。人們在此領域開展了一定的研究工作。但是從數據庫的角度,系統的研究工作還較為少見,除了在TB/PB級海量數據的數據存儲、查詢語言等方面取得了一些成果外[2],在海量數據的代數操作及其實現技術、海量數據的查詢處理和優化技術等方面并未獲得顯著進展。傳統的數據庫系統既不能提供針對TB/PB 級數據的有效存儲與索引,也難以提供專門針對TB/PB 級海量數據的高性能基本數據操作算法以及高性能查詢處理技術。數據網格查詢處理的研究雖然取得了一定的進展,但是大多數查詢處理器都是針對特定應用的。數據網格查詢處理的研究工作主要集中在查詢處理的體系結構、基于服務思想的分布式查詢處理、基于語義本體的分布式查詢處理等幾個方面,而卻沒有從數據庫系統的角度進行進一步研究。由于云計算系統能夠提供可靠、安全的數據存儲,以及對TB/PB級海量數據的管理提供穩固、有利的支持。目前,基于云計算環境的TB/PB 級海量數據查詢處理技術的相關研究工作還處于初期階段,研究成果還未形成規模,在針對TB/PB 級海量數據的存儲與索引、各種數據操作算法、查詢優化處理等方面,還有大量的理論和技術問題需要解決,研究工作任重道遠。
基于此,開展研究基于云計算環境的TB/PB級海量數據查詢處理的關鍵技術和理論研究,包括TB/PB級海量數據的存儲與索引、數據的高效操作算法,查詢優化與處理技術具有很大的學術價值和實際意義。
1云計算系統概述
目前,將計算和存儲從客戶的PC端移動到大規模的服務平臺(數據中心)的思想逐漸流行,而為學術界熟悉與接受。這種態勢一方面可以利于用戶對個人數據的管理,用戶不需要對數據進行配置或備份操作,并且只要能連接到Internet就可以隨時隨地獲得數據;另一方面也可以方便服務供應商提供更好的服務,因為供應商可以通過隨時更新軟件來提高數據中心的服務質量。數據中心可以實現用戶以較低的代價成本獲得較高質量的服務?;谶@種服務模式,工業界近年來設計了眾多云計算系統,用于支持網絡自身服務所需的數據管理功能。第4期王金寶,等:云計算系統中查詢處理及優化技術研究綜述智能計算機與應用第3卷
GFS[3]集群由一個master和大量的chunkserver構成。文件被分成固定大小的塊。每個塊由一個不變的、全局唯一的64位的chunk-handle標識,chunk-handle是在塊創建時由master分配的。ChunkServer將塊當作Linux文件存儲在本地磁盤并可以讀/寫由chunk-handle和位區間指定的數據。每一個塊均可復制到多個chunkserver上。Master維護文件系統所有的元數據(metadata),包括名字空間、訪問控制信息、從文件到塊的映射以及塊的當前位置。GFS是Google網絡服務的后臺數據存儲系統。BigTable[4]是由Google提出的、構建于GFS之上的用于管理結構化數據的分布式數據模型,其管理的數據規模可以達到PB級。Google的眾多應用都構建于BigTable之上,如網絡索引、Google地球、Google商務等。BigTable數據模型使用行值、列值和時間標識作為哈希鍵值來定位結構化的目標數據。在分布式文件系統GFS和數據模型BigTable的基礎上,Google設計了并行編程模型MapReduce[5]用來在大規模集群環境中并行地處理TB/PB級數據。MapReduce將計算任務劃分成若干Map和Reduce過程,由用戶編寫Map和Reduce功能代碼。系統提供自動的并行化處理、計算節點狀態檢測、任務調度、負載平衡、容錯性。MapReduce為并行編程提供了很大的便利。MapReduce使用BigTable作為數據存儲模型,并將數據以及中間計算結果存儲在GFS中。
Amazon成功設計了Dynamo[1],將其作為具有高可靠性的分布式存儲系統,其存儲數據格式為。Dynamo采用環狀結構組織所有節點,并且采用consistent hashing劃分數據。Dynamo保證用戶總是可以執行寫操作,并提供多版本數據沖突的解決方案。系統中通過參數來實現可用性和容錯性的平衡,Dynamo采用冗余存儲來保證容錯性,當一個數據存儲節點出現問題以后,數據存儲即交由下一個節點進行處理。Amazon提出了具有可擴展性的云計算數據存儲服務Simple Storage Servic (S3) ,存儲數據。文獻[6]提出了在S3中構建數據庫的技術,包括S3中的B樹索引、日志、安全等方面。
作為Yahoo!公司的云計算平臺,PNUTs[7]重點關注了可擴展性和高可靠性,而放松了對一致性的要求。PNUTs只保證提供最終一致性,即用戶可以更新數據的任何一個副本,并最終可以將更新應用到該數據的所有副本。PNUTs系統分布在全球多個數據中心,具有可擴展性,可支持記錄數由幾萬條直至幾億條。數據容量增加不會影響性能。數據格式使用key/value存儲,保持數據的弱一致性,并提供了容錯機制。文獻[2]介紹了Yahoo!設計使用的其他網絡服務系統,包括云計算系統PNUTs[7]、ad-hoc分析查詢語言Pig、云平臺服務設計系統AppForce、網絡信息提取系統Purple Sox、GUESTS等。文獻[8]介紹了Yahoo!設計的Pig Latin查詢語言,該語言作用于MapReduce[3]系統中,使用類似SQL的聲明語法,并實現了MapReduce機群中數據分析查詢的各種基本操作。Pig Latin提供了相應的調試組件,用以提高生產效率。
Dryad[9]是微軟分布式并行計算基礎平臺,程序員可以利用數據中心的服務器集群對數據進行并行處理。Dryad程序員在操作數千臺機器時,無需關心并行處理的細節。Dryad則設計為伸縮于各種規模的計算平臺:從單臺多核計算機、到由幾臺計算機組成的小型集群,直至擁有數千臺計算機的數據中心。Dryad執行引擎負責處理大型分布式、并行應用程序中可能出現的各種難題:對計算機和其中的CPU進行調度,從通信或計算機的失敗中恢復,以及數據在節點之間的傳遞等等。微軟設計了可擴展的聲明語言SCOPE[10](Structured Computations Optimized for Parallel Execution),用于分析大規模數據集合。SCOPE無需用戶顯式的定義并行操作,實現了機群中的自動并行化。SCOPE使用關系數據和類似SQL語言的語法,并提供選擇操作、內連接、外連接和聚集操作功能,同時還支持用戶自定義的函數功能以及表達式的嵌套。
威斯康辛大學開發了Clustera[11]系統,用于提供具有可擴展性的系統功能,使得系統適用于不同的工作負載,包括計算密集型的任務、長期任務以及大規模數據集上的負載SQL查詢等。Clustera使用服務器和數據庫管理系統來管理工作負載信息和系統狀態,以此獲得通用性、可擴展性和更高性能。加利福尼亞大學設計實現了分布式文件系統Ceph[12]。Ceph在存儲數據時區分數據和中間結果,并使用偽隨機數據分布代替了數據定位表,以此獲取更好的性能和可靠性。Ceph Client 是 Ceph 文件系統的用戶。Ceph Metadata Daemon 提供了元數據服務器,而 Ceph Object Storage Daemon 提供了實際存儲(對數據和元數據兩者)。最后,Ceph Monitor 提供了集群管理。需要注意的是,Ceph 客戶,對象存儲端點,元數據服務器(根據文件系統的容量)可以有許多,而且至少有一對冗余的監視器。
文獻[12]針對MapReduce在處理異構數據以及關系數據連接操作時的相應缺點,將MapReduce編程模型做以改進,使其發展成為Map-Reduce-Merge模型。Map-Reduce-Merge在MR后期加入了一個Merge過程。Map-Reduce-Merge能夠表達關系代數中的各種操作以及一些連接算法。
綜上所述,現有的系統缺乏對海量數據復雜查詢處理功能的支持,只能提供基于鍵值的有效查詢處理。
2云計算系統中數據管理的研究工作
MapReduce被工業界廣泛接受,除了設計者Google使用MapReduce之外,Yahoo!使用開源的項目Hadoop實現了MapReduce的功能,并作為內部數據并行處理的基礎結構。大量研究人員在MapReduce系統中展開工作,研究各種數據管理技術在MapReduce中的實現方法以及MapReduce在數據管理領域的功能角色。如文獻[13]設計了高級的數據流系統Pig,設計目標是在SQL和MapReduce之間建立聯系通道。Pig系統實現了MapReduce系統中各種SQL基本操作的具體實現。文獻[14]在MapReduce系統中提出了大規模數據集上的學習樹模型的并行算法框架PLANET,定義了一系列分布式計算并在MapReduce中實現了其中的一個算法。文獻[15]同樣致力于MapReduce中SQL 語言的實現,并且實現了Aster Data System nCluster數據庫系統,支持多種用戶自定義函數功能。文獻[16]評估了MapReduce在多核或者多處理器系統中的適用性,并設計了Phoenix作為MapReduce在共享內存系統中的改進版本,其功能主要包括自動管理進程建立、動態任務調度、數據劃分以及處理器之間的容錯性。文獻[17]討論了并行數據庫和MapReduce之間的關系。文章指出并行數據庫和MapReduce是互補型技術,兩者可以互相借鑒,獲取更好的工作效率。并行數據庫和MapReduce都不能完全取代對方。文獻[18]研究了MapReduce系統中的自動優化問題,用以減輕調節系統的復雜性。文獻[19]通過測試研究MapReduce的系統性能,發現通過調整五種主要的設計因素,MapReduce的系統性能可以獲得大幅提升(2.5-3.5倍),而與并行數據庫系統的性能差異則明顯縮小。文獻[20]在MapReduce中使用三個階段的Map-Reduce方法實現了并行集合的相似性連接操作。算法通過有效的數據劃分平衡了工作負載并且實現了最小化備份參數。文獻[20]給出了算法在內存資源不足情況下的實現方法。文獻[21]討論了在現有云計算平臺(如Amazon的EC2)中部署數據管理系統的約束限制及機遇場合。論文提出如下觀點,大規模數據分析、決策支持系統與事務處理數據庫系統相比,更能利用云計算系統的優勢。同時指出,利用二者結合的無共享并行數據庫是云系統中數據庫研究的切實有效的出發點。文獻[22]使用大規模數據分析任務剖析比較了并行數據庫和MapReduce的性能。與MapReduce相比,并行數據庫的優勢主要表現在數據模式的支持,索引等提升性能的技術,SQL語言的表達能力。而MapReduce的優勢在于自動的并行化,任務的靈活性,高可靠的容錯能力,在異構環境中的運行能力。實驗表明,在集群同構且節點不發生失效的情況下,并行數據庫的性能要遠遠優于MapReduce。而在節點頻繁失效的情況下,并行數據庫的性能就會出現顯著下降,而MapReduce的性能影響則較小。HadoopDB[23]將數據庫管理系統和MapReduce結合,使用PostgreSQL開源數據庫管理系統作為MapReduce節點管理系統,而且使用Hadoop提供的MapReduce框架連接系統中的節點。HadoopDB具有較快的單機處理速度優勢,并且兼有MapReduce的異構有效性、容錯性的優勢。HadoopDB支持SQL語言。
3無線傳感器網絡上數據聚集調度的研究工作
文獻[24]提出了云計算數據存儲系統中批量插入數據的有效方法,系統中的數據按照key值范圍水平劃分并分布在各個存儲節點中。文獻[24]考慮了在數據插入過程中的數據遷移代價和插入后系統吞吐量之間的折中,而且也證明了問題屬于NP-hard問題。文獻[25]研究了如何在系統中有效的并行化范圍查詢的問題。本文考慮到存儲系統的客戶應用消耗數據的速度與查詢獲取結果的速度之間的差異,通過動態適應的方式增加或減少并行處理范圍內實現而需查詢的節點個數,以此使得系統并行獲取足夠的查詢結果發送到客戶應用。文獻[26]實現了在MapReduce中構建分布式數據流處理的系統。文獻[27]研究了在大規模分布式數據管理系統中使用索引和視圖的機制。本文使用兩種視圖,即遠程視圖表和本地視圖表,并以此提供了系統吞吐量和視圖更新速度之間的折中處理,同時也給出了構建和維護式圖標以及使用視圖回答聚集查詢、連接查詢、選擇查詢的方法。文獻[28]設計了可擴展的分布式關系表系統Crescando用以支持大量的查詢和更新,并提供可預測的操作延遲。Crescando使用并行協作的掃描指令以及數據流中“查詢-數據”連接技術保證工作負載的反應時間和結果的新度。Crescando在處理各種工作負載時不能取得最優性能,但是在工作負載未知,而且變化的情況下,Crescando卻具有獨特優勢。文獻[29]設計了云計算數據存儲系統Spinnaker,在數據的可獲取性和一致性之間達到了更新的折中。Spinnaker使用一致性備份協議取得了高可獲取性和timeline一致性,并在元組級的事務處理中實現了ACID。與Dynamo相比,Spinnaker具有更好的數據一致性,而只需付出較小的性能代價。文獻[30]設計了云計算平臺測試的模擬軟件CloudSim,用于簡化云計算中應用開發的性能評估。文獻[31,32]設計了云計算平臺中的單維索引CG-Index,用以支持key查詢和范圍查詢。CG-Index通過兩級索引結構,在本地構建B-Tree索引并選擇若干B-Tree節點為全局索引。系統中的節點則組織成BATON Overlay結構,其的全局索引負責回答系統中收到的查詢。文獻[33]設計了ecStore,將數據對象分布并備份于云計算集群環境中。文獻[34]設計了P2P數據管理系統中在線近似聚集的處理算法,通過不斷獲取數據,提高計算結果的精度。文獻[35]比較了現有云計算平臺的架構對構建云數據庫的影響,其主要研究對象是在線事務處理而不是在線分析處理。結果表明現有的主流云計算系統具有不同的架構,對于相同的工作負載也具有不同的性能。文獻[36]提出了一種分布式的B樹索引。該索引結構將數據索引緩存在各個存儲節點中,回答查詢時,首先檢查緩存內容是否過期,如果還未過期,則直接在本地回答查詢,否則需要執行相應更新操作。這種索引結構在數據更新快的情況下,效率嚴重下降。
4結束語
目前,云計算系統中數據管理方面的研究已經引起廣泛關注和濃厚興趣,而查詢處理和優化技術則是其中最為基礎、且最為重要的研究內容,對此已經開展了較為詳盡與深入的研究工作。本文中,歸納并總結了云計算系統、數據管理以及查詢和索引技術等方向已有的研究,并對可能的研究方向進行了簡要的分析與闡述。
參考文獻:
[1]DECANDIA G, HASTORUN D, JAMPANI M, et al. Dynamo: Amazon’s highly available key-value store. SOSP’07 October 14-17, Stevenson, Washington, USA,2007.
[2]Community Systems Group Yahoo! Research, Community Systems Research at Yahoo!, SIGMOD Record, September 2007,36(3).
[3]GHEMAWAT S, GOBIOFF H, LEUNG S T. The Google File System, SOSP’03, October 19-22, Bolton Landing, New York, USA,2003.
[4]CHANG F, DEAN J, GHEMAWAT S, et al. BigTable: A Distributed Storage System for Structured Data[C]∥ USENIX Symposium on Operating Systems Design and Implementation (OSDI) ,2006.
[5]DEAN J, GHEMAWAT S. MapReduce: Simplified Data Processing on Large Clusters. SODI ,2004.
[6]BRANTNER M, FLORESCU D, GRAF D, et al. Building Database on S3. SIGMOD’08.
[7]COOPER B F, RAMAKRISHNAN R, SRIVASTAVA U, et al. PNUTS: Yahoo!’s hosted data serving platform. VLDB’08, august 24-30, Auckland, New Zealand, 2008.
[8]OLSTON C, REED B, SRIVASTAVA U, et al. Pig Latin: A not-so-foreign language for data processing, SIGMOD’08, June 9-12, Vancouver, BC, Canada, 2008.
[9]ISARD M, BUDIU M, YU Yuan. Dryad: distributed data-parallel programs from sequential building blocks. EuroSys’07, march 21-23, Lisboa, Portugal, 2007.
[10]CHAIKEN R, JENKINS B, LARSON P-A, et al. SCOPE: easy and efficient parallel processing of massive data sets, PVLDB’08, August 23-28, Auckland, New Zealand.
[11]DEWITT D J, ROBINSON E, SHANKAR S, et al. Clustera: an integrated computation and data management system, PVLDB’08, August 23-28, Auckland, New Zealand, 2008.
[12]YANG H, DASDAN A, HSIAO R-L, et al. Map-reduce-merge: simplied relational data processing on large clusters. SIGMOD’07, June 12-14, Beiing, China.
[13]GATE A F, NATKOVICH O, CHOPRA S, et al. Building a high-level dataflow system on top of map-reduce: the pig experience. VLDB’09, August 24-28, Lyon, France, 2009.
[14]PANDA B, HERBACH J S, BASU S, et al. PLANET: massively parallel learning of tree ensembles with MapReduce. VLDB’09, August 24-28, Lyon, France, 2009.
[15]FRIEDMAN E, PAWLOWSKI P, CIESLEWICZ J. SQL/MapReduce: a practical approach to self-describeing, polymorphic, and parallelizable user-defined functions. VLDB’09, August 24-28, Lyon, France, 2009.
[16]RANGER C, RAGHURAMAN R, PENMETSA A, et al. Evaluating MapReduce for Multi-core and Multiprocessor Systems[C]∥HPCA '07 Proceedings of the 2007 IEEE 13th International Symposium on High Performance Computer Architecture.
[17]STONEBRAKER M, ABADI D, DEWETT D J, et al. MapReduce and Parallel DBMSs: Friends or Foes? Communication of the ACM, January, Vol. 53, No. 1.
[18]BABU S. Towards Automatic Optimization of MapReduce Programs, SoCC’10, June 10-11, Indianapolis, USA, 2010.
[19]JIANG Dawei, OOI B C, SHI Lei, et al. The performance of mapreduce: an in-depth study[C]// Proceedings of the VLDB Endowment, Vol 3, No. 1.
[20]BERNICA R, CAREY M J, LI Chen. Efficient parallel set-similarity joins using MapReduce. SIGMOD’10, June 6-11, Indianapolis, USA, 2010.
[21]ABADI D J. Data management in the Cloud: limitations and opportunities. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 2009.
[22]PAVLO A, PAULSON E, RASIN A, et al. A comparison of approaches to large-scale data analysis, SIGMOD’09, June 29- July 2, Providence, Rhode Island, USA, 2009.
[23]ABOUZEID A, BAJDA-PAWLIKOWSKI K, ABADI D, et al. HadoopDB: an architectural hybrid of MapReduce and DBMS technologies for analytical workloads. VLDB’09, August 24-28, Lyon, France, 2009.
[24]SILBERSTAIN A, COOPER B F, SRIVASTAVA U, et al. Efficient Bulk insertion into a distributed ordered table. SIGMOD’08, June 9-12, Vancouver, BC, Canada.
[25]VIFUSSON Y, SILBERSTEIN A, COPPER B F, et al. Adaptively parallelizing distributed range queries. VLDB’09, August 24-28, Lyon, France, 2009.
[26]LOGOTHETIS D, YOCUM K. Ad-Hoc data Processing in the Cloud. PVLDB’08, Auckland, New Zealand.
[27]AGRAWAL P, SILBERSTEIN A, COOPER B F. Asynchronous view for VLSD databases. SIGMOD’09, June 29- July 2, Providence, Rhode Island, USA, 2009.
[28]UNTERBRUNNER P, GIANNIKIS G, ALONSO G, et al. Predictable performance for unpredictable workloads. VLDB’09, August 24-28, Lyon, France, 2009.
[29]RAO Jun, SHEKITA E J, TATA S. Spinnaker: a consistent and highly available cloud data store,.VLDB’09, August 24-28, Lyon, France, 2009.
[30]CALHEIROS R N, RANJAN R, DE ROSE C A F, et al. CloudSim: a novel framework for modeling and simulation of cloud computing infrastructures and services.
[31]WU Sai, JIANG Dawei, OOI B C, et al. Efficient B-tree based indexing for Cloud data processing. VLDB, 2010.
[32]WU Sai, WU Kun-lung. An indexing framework for efficient retrieval on the cloud[J]. IEEE Data engineering Bulletin, 2009,32(1): 77-84.
[33]VO H T, CHEN Chun, OOI B C. Towards elastic transactional Cloud storage with range query support. VLDB, 2010.
中圖分類號:TP309 文獻標識碼:A 文章編號:1671-7597(2014)20-0142-03
實施云計算和云桌面對調整運控指揮中心的運行管理機構和運行方式,統一管理機場的整體運行;通過調整運行組織模式,進一步提升管理效能、提升協同決策能力、節約運營成本。但云平臺能否提供安全、穩定、持續的服務,能否保障用戶的數據安全,是所有用戶最為關注的問題。
目前,云計算在調整運控指揮中心的應用中起著重要的作用。因為系統有巨大的規模性、復雜性和開放性,所以它的安全性顯得尤為重要,并且經受嚴峻的挑戰。鑒于基于在指揮中心場景下的云平臺,安全性更加的復雜和不可控,對于多數據中心云計算平臺的安全管理,因其各個數據中心均可能進行交互,云安全的風險將隨著數據中心數量的增加而非線性增長。特別是對多數據中心的云平臺建設更為其管理帶來諸多的不便,如何在指揮中心環境下在不影響云計算平臺服務質量的前提下確保數據的隱私性和機密性,為實現這一目標,基于云計算安全保障技術的解決方案將變得尤為重要。
本文以運控指揮中心云計算安全需求為背景,通過云計算的服務模式、部署模式和各種云計算安全問題的現象。從技術和管理等方面分析了可能導致風險的原因,提出指揮中心在技術方面、管理方面可以采取的對策,本文旨在為指揮中心云計算發展提供新的思路,為當前時代下指揮中心云計算用戶的信息安全提供可行的建議。
1 新指揮中心解決方案
運控指揮中心云計算技術本身能夠為用戶提供從基礎設施服務到平臺服務到軟件服務的不同層面的服務。結合未來運控中心的業務模式,運控中心云平臺應支持以下四類云服務模式,云服務分別包括數據即服務(DaaS)、基礎設施即服務(IaaS)、軟件即服務(SaaS)和平臺即服務(PaaS),如圖1所示。運控指揮中心通過“云”將內部資源和可利用的外部資源相互鏈接,盡而使“私有云”部署在運控指揮計算中心內部,運控指揮中心“私有云”的服務模式如圖2所示。
云數據中心是運控指揮中心的重要組成部分之一,詳見如圖3所示。云數據中心的組成可劃分為云服務管理、前臺服務器、監測信息收集服務器和后臺集群。
指揮中心采用分布式全局文件系統旨在對分布在廣域環境下多個數據中心的大量的、異構的云計算存儲設備進行統一的抽象、管理與調度,為用戶提供全局一致的文件訪問接口和就近的訪問能力,為海量數據的我存儲、跨域的文件共享提供基礎支撐。
圖1 運控指揮中心“私有云”建設邏輯架構圖
圖2 運控指揮中心“私有云”服務模式
2 運控指揮中心云計算安全的關鍵技術
云計算在運控指揮中心的應用會遇到諸多困難,其中安全問題是最大的問題。安全問題已經是云計算在指揮中心不斷地推廣方面的非常大的障礙,包括技術層次、管理方面、以及法律和相關法規的復雜和綜合體。本文借助指揮中心的云計算的特性,建立了云計算安全架構。如圖4和圖5所示。
圖3 云數據中心架構
圖4 運控中心云計算安全架構
圖5 運控指揮中心安全解決方案概貌
由上圖可知,在運控指揮中心云計算環境下,無論是采取SaaS、PaaS、IaaS哪種服務模式都會面臨網絡傳輸數據帶來的風險,尤其是PaaS將應用程序部署在瀏覽器端更加依賴網絡的安全傳輸。針對此種情況可以使用下面的組件和協議提高瀏覽器和傳輸的安全:采用支持數字證書認證的安全套接層及其繼任者傳輸層安全協議是一種非常有效的辦法,因為這種協議支持大部分瀏覽器。能提供如下服務。
1)提供經過驗證的用戶與服務器,確保數據正確的傳送。
2)將數據加密,以防中途被攔截、盜取。
3)確保數據的完整性,以防傳輸過程中被篡改。
4)使用虛擬專用網(VPN),它能安全穿過網絡,提供在混論網絡下的安全穩定隧道,并且能幫助遠程用戶建立可信安全的傳輸。
2.1 虛擬化安全技術
虛擬技術是實現云計算的關鍵核心技術之一,如圖6所示。資源在云計算服務平臺中主要以租用、虛擬的方式向用戶供應,并且需要根據實際的運行需要的和物力資源綁定在一起。而由于是多用戶的資源共享,這些虛擬資源很可能和相同的物力資源被綁在一起。如果系統軟件中存在安全隱患,用戶數據可能會被盜用。所以運控指揮中心一定要保證用戶安全。虛擬化邊界隔離就是通過虛擬化防火墻實現數據中心的邊界隔離和訪問控制,現階段常用的虛擬化安全措施有虛擬機隔離、監控、可信平臺、網絡接入控制、信息流控制等等。虛擬化的安全技術雖然較為成熟,仍有改進和不斷完善的發展空間。提供ACL、Anti-DoS、IPsec VPN等功能;虛擬化資源隔離就是虛擬機之間通過VLAN實現二層隔離,通過安全組實現三層隔離和訪問控制。VM IP和MAC綁定,防止ARP欺騙攻擊;虛擬化資源隔離:虛擬機之間通過VLAN實現二層隔離,通過安全組實現三層隔離和訪問控制。VM IP和MAC綁定, 防止ARP欺騙攻擊;提供虛擬機級別的訪問控制手段,避免病毒、威脅在不同租戶間擴散,防止威脅蔓延智能、彈性安全防護,VM漂移、擴容無需人工配置安全策略。
圖6 運控指揮中心虛擬化安全技術示意圖
2.2 數據安全技術
運控指揮中心數據安全是客戶比較關注的問題。運控指揮中心數據可以劃分以下幾個階段。
1)運控指揮中心數據存儲位置,將所有數據存儲在不同服務水平協議法規允許的地理位置。
2)數據之間的融合??蛻魯祿貏e是保密、敏感數據不能在沒有被補償和控制條件下和其它數據之間的融合,這將在安全性和地理位置方面增加了難度。
3)數據備份和恢復重建計劃。首先數據是有效的,恢復和備份是非常重要的,目的是以免不必要的丟失及其被破壞。
4)刪除數據具有持久性。發展能夠高效地指導數據擦除與銷毀,并且使之有不再恢復的能力。
數據的加密、屏蔽、刪除技術、隔離、切分來解決數學安全問題。但是面臨的一個最大難題是如何做好數據的隔離和保密工作,并且此技術在平臺中怎樣能夠更好地發揮作用,能否像傳統環境下一樣有效,這些都是急需解決的問題,需要進一步去研究。
2.3 多數據中心云安全保障技術
本論文介紹了采取安全保障的措施。分別從運控指揮中心云計算安全監督體系、安全與隱私保護的角度加以說明。
2.3.1 搭建數據安全隱私保護為重要目標的云安全技術構架
以運控指揮中心云計算服務模式為起始研究出發點,分析、解決云計算的服務計算模式、數據存取訪問策略、動態虛擬化管理方式及其多用戶共享運營模式等等給數據安全和隱私保護帶來的挑戰為重點。
重點說明數據的是否存在及使用方面的性能。因為數據的通信的代價是巨大的,所以用戶們在下載數據之前必須驗證它的正確性。所以先要取一些樣本,借助理論知識驗證并證明概率分析的方法的正確性,進而判斷遠端的數據的完整性。
數據的隱私權。使用數據的企業及其用戶將私有云和指揮中心等同起來時,數據的服務商可以第一時間訪問這些數據。由此可以得出,也許由于工作失誤及其病毒攻擊及其系統故障引起的不安全等危險因素。所以服務商也不能保證其數學據是完全正確的。例如,數據是否丟失,隱私的保護等存在某個國家及其區域里,甚至數據是否完全被刪除等等。
控制云資源的訪問。每個運控指揮中心云在計算的條件下有自己的管轄范圍的資源及其用戶。當不在自己的區域管轄時,必須在域邊界進行認證的服務,主要是對于想要通過共享得到一些資源的用戶需要進行嚴格的訪問認證。當需要在很多區域訪問的時候,因為區域有的訪問限制條件,對制定互利共贏的訪問原則。這一戰略的成功實施需要有新的戰略的安全實施作為保護,同時還不能與原有的訪問戰略背離。
云資源訪問控制。在云計算的環境下,每個云應用都含在不同的安全管理域內部,各個安全域都管理著本地的資源與用戶。當用戶跨域來訪問資源的時候,需要在域邊界上設置認證服務,對來訪問共享資源的用戶必須經過統一身份認證及其管理。在跨多個域資源訪問中,各域有各自的訪問控制策略,在資源共享及其保護方面需要對共享資源制定公共的、雙方都認可的訪問控制策略。所以,需要策略合成。策略合成的時必須保證新策略的安全實施,新合成的策略不能背離每個域原有的訪問控制策略。
2.3.2 建立可控的云計算安全監管體系
在發展運控指揮中心云計算時,必須發展云計算監控技術體系,掌握技術的主動權以防被其它競爭對手控制和利用。和互聯網監控管理的體系相比,實施云計算監控管理必須解決以關鍵技術:
執行運控指揮云計算數據中心的內容審計工作。云計算數據中心的運行維護工作需要有一個高度集中的和統一管理的日志平臺。此平臺必須能在復雜網絡中高效率地收集和管理各類設備的日志,使得運行維護人員能夠便捷、直觀地看到網絡和系統當前運行情況,能夠及時發現黑客攻擊和其它的異常行為。此外,滿足條件的所有法規和要求的日志記錄及分析功能也必須考慮在內。在多個數據的中心場景下,多個數據中心遍布在相異的地方,每個設備的安全事件都各不相同。在無科學分析依據的前提下,每個設備的許多日志都無法關聯。從而得出,運控指揮中心的運行維護者不僅要有一個足夠強大的安全審計工具,而且還要管理與評估網絡系統運行狀況的平臺(全程審計并記錄問題的發現到問題的解決)。
鑒別及以防運控指揮中心的密碼類犯罪活動的發生。云計算的出現使得實施密碼破譯變得容易,在云計算平臺的支持下普通用戶也能夠輕松得以實現,這極大地威脅了各類密碼產品的安全性,這也是運控指揮中心云計算安全監管中亟待解決的難題。
2.4 運控指揮中心云資源訪問控制
云應用在運控指揮中心云計算的條件下都各自在不同的管轄域范圍內,每一個域掌管著當地的資源及其使用數據的用戶。當不在同一個區域管轄范圍內部訪問時,需要在區域的邊界設定通過的認證,同一掌管著訪問的用戶,使之有序的進行著。
傳統的訪問區域的認證措施和相關的技術已經很完善,而在云計算的方式上面新的策略還顯稚嫩,所以在對企業檢測掌管、保護數據和隱私權方面非常重要。
表1 運營模式下訪問控制技術的成熟度
SaaS PaaS IaaS
用戶管理,新用戶 可用 未成熟 理論成熟
用戶管理,用戶修改 可用 未成熟 未成熟
認證管理 可用 理論成熟 可用成熟
授權管理 理論成熟 未成熟 未成熟
2.5 運控指揮中心云端訪問安全服務技術
指揮中心云端訪問安全服務是部署在指揮中心內部或云端的安全策略執行點,介于云端服務消費者和云端服務供應商之間,的在云端資源被訪問的時候套用指揮中心安全策略。先前的很多案例中,早期采用的云端服務都不處在IT掌控內,而在云端訪問安全的服務中只能依靠企業在用戶訪問云端資源時來管控和掌握。
2.6 運控指揮中心以遏制和隔離為基礎的信息安全策略
特征碼(Signatures)在阻擋攻擊相當艱難的條件下,其中一種策略把位置的因素當作不可信因素,進而在隔離的環境下來處理和運行,這樣所運行的系統將不會被永久損害,更不會將此系統當作矢量來攻擊其它企業系統。提取、虛擬化、遠程顯示、和隔離技術,完全可以被用來建立如此的遏制環境,最希望得到的結果就是和利用一個“空氣隔離”的獨立系統處理不可信任的內容與應用程序是相同的。虛擬化和遏制策略都可以成為指揮系統深度防御防護策略的一個環節,到2016年時普及率將達到20%,將會改變2014年的幾乎沒有普遍利用的