學習啦>論文大全>學科論文>計算機論文>

淺談數(shù)據(jù)密集型數(shù)據(jù)資源云平臺的構建論文

時間: 謝樺657 分享

  云平臺是轉向云計算(cloud computing),是業(yè)界將要面臨的一個重大改變。各種云平臺(cloud platforms)的出現(xiàn)是該轉變的最重要環(huán)節(jié)之一。顧名思義,這種平臺允許開發(fā)者們或是將寫好的程序放在“云”里運行,或是使用“云”里提供的服務,或二者皆是。至于這種平臺的名稱,現(xiàn)在我們可以聽到不止一種稱呼,比如按需平臺(on-demand platform)、平臺即服務(platform as a service,PaaS)等等。但無論稱呼它什么,這種新的支持應用的方式有著巨大的潛力。以下是學習啦小編今天為大家精心準備的:淺談數(shù)據(jù)密集型數(shù)據(jù)資源云平臺的構建相關論文。內容僅供參考,歡迎閱讀!

  淺談數(shù)據(jù)密集型數(shù)據(jù)資源云平臺的構建全文如下:

  美國《福布斯》雜志稱“如今,在瀏覽新聞網(wǎng)站或者是參加行業(yè)會議時,想看不見或聽不到‘大數(shù)據(jù)’這個詞幾乎是不可能的”,大數(shù)據(jù)已經成為產業(yè)界、科學界和政府部門等各界的關注熱點。近幾年來, 《Nature》、《Science》等國際頂級學術期刊相繼出版專刊來推動大數(shù)據(jù)的研究,中國、美國等多國政府也展開了對大數(shù)據(jù)的研究部署工作。產業(yè)界已經率先認識到大數(shù)據(jù)所蘊含的海量價值及其戰(zhàn)略意義,Amazon、Google、IBM 等IT 巨頭紛紛探索應對大數(shù)據(jù)的解決方案,云計算逐漸成為他們共同的探索方向??茖W界也逐步意識到大數(shù)據(jù)的影響,認為隨著大數(shù)據(jù)時代的到來,科學研究已經進入數(shù)據(jù)密集型科學研究( Data-Intensive Science Research) 階段,中國論文網(wǎng)科學范式的轉變成為科學界的研究重點。本文探討了數(shù)據(jù)密集型科學研究的內涵和特征,以及科學界面臨的挑戰(zhàn),并構建了數(shù)據(jù)資源云平臺以幫助科研人員應對數(shù)據(jù)密集型科學研究中的問題。

  1 數(shù)據(jù)密集型科學研究的內涵及其特征

  數(shù)據(jù)密集型科學研究是直接從海量數(shù)據(jù)中發(fā)現(xiàn)科學規(guī)律的一種研究范式,是在大數(shù)據(jù)環(huán)境下對實驗科學、理論科學和模擬科學的繼承與發(fā)展。它由三個基本活動組成: 科學數(shù)據(jù)的采集、管理和分析,其數(shù)據(jù)來源主要有大型國際實驗,跨實驗室、單一實驗室或個人觀察實驗,個人生活等。在這一新的科學研究范式中,先利用科學儀器或者模擬方法采集數(shù)據(jù),然后通過計算機軟硬件設備進行數(shù)據(jù)的管理和分析,將處理分析后的數(shù)據(jù)、信息和知識存儲在計算機中。信息科學貫穿科學活動的始終,而科研人員對數(shù)據(jù)的審視是在整個科學活動中比較靠后的步驟才開始的。數(shù)據(jù)密集型科學研究作為科學大數(shù)據(jù)環(huán)境下科學研究的新發(fā)展,具有以下三個特征:

  ( 1) 數(shù)據(jù)驅動,而不是假設驅動。傳統(tǒng)階段,實驗科學、理論科學和模擬科學能夠獲得和使用的數(shù)據(jù)相對匱乏,只能采取假設驅動型研究方法,首先根據(jù)前人研究成果和自身知識進行假設,然后通過設計實驗、理論推導或者是計算機模擬等定義好的方法獲取相關數(shù)據(jù),對假設進行檢驗。而現(xiàn)在科學研究已經從數(shù)據(jù)缺乏時代過渡到數(shù)據(jù)泛濫時代,數(shù)據(jù)密集型科學研究不需要模型和假設,科研人員的關注重點也從“我要怎么驗證這個假設”轉變?yōu)?ldquo;我能從這些數(shù)據(jù)中發(fā)現(xiàn)什么關聯(lián)”,數(shù)據(jù)成為科研活動的起點和驅動力。

  ( 2) 強調可重復性。科學研究是人類認識世界、改造世界的重要手段,保證科研結果的可靠性和真實性是科學研究的前提,而可重復性是檢驗科學研究結果可靠性和真實性最有效的手段。在數(shù)據(jù)密集型科學研究中,技術的進步使數(shù)據(jù)傳播速度更快、范圍更廣,產生的影響也更大,所以為了更好地保障科學研究的可信賴性,必須更加重視科研活動的可重復性,從而盡快識別出錯誤的或者弄虛作假的科研結果,將負面影響降至最低。中國論文網(wǎng)

  ( 3) 相關關系,而不是因果關系。數(shù)據(jù)密集型科學研究通過對科學數(shù)據(jù)的分析和挖掘,直接從科學數(shù)據(jù)中發(fā)現(xiàn)科學規(guī)律,認識事物的相關關系,其精髓在于客觀,但不能像實驗科學、理論科學和模擬科學那樣檢驗邏輯上的因果關系。然而科學研究是人類認識世界的手段,其目的不僅是發(fā)現(xiàn)科學規(guī)律,還要探索規(guī)律運行的本質原因,得到相關性之后還需要結合前三種科學方法解釋因果性。

  數(shù)據(jù)密集型科學研究是對前三種科學的繼承與發(fā)展,將其作為一個新的、科學探索的第四種范式,具有重大的價值和意義,當然也面臨一些新的挑戰(zhàn)。

  2 數(shù)據(jù)密集型科學研究面臨的挑戰(zhàn)

  2. 1 科學數(shù)據(jù)層面的挑戰(zhàn)

  科學數(shù)據(jù)面臨來自諸多方面的挑戰(zhàn),但從研究的角度來說,根本挑戰(zhàn)在于其規(guī)模性、復雜性和特異性。

  ( 1) 規(guī)模性是科研大數(shù)據(jù)最明顯的特征,也是科研人員所面臨的首要問題,主要表現(xiàn)在原始數(shù)據(jù)的規(guī)模性和數(shù)據(jù)增速的規(guī)模性:

 ?、僭紨?shù)據(jù)的規(guī)模性??茖W研究是持續(xù)性的活動,傳統(tǒng)科學已經產生海量數(shù)據(jù)積累,如澳大利亞的平方公里陣列射電望遠鏡項目自開展以來,每天都能產生好幾個千萬億字節(jié)( PB) 的數(shù)據(jù);

 ?、跀?shù)據(jù)增速的規(guī)模性。隨著科研人員的研究方法和研究儀器越來越先進,科學研究能夠生成和獲取的數(shù)據(jù)量越來越多,數(shù)據(jù)量的增長速度已經超過了數(shù)據(jù)存儲能力的增長速度,導致數(shù)據(jù)存儲和處理能力與日益增長的數(shù)據(jù)量之間的矛盾愈加尖銳。

  ( 2) 復雜性是科研大數(shù)據(jù)的重要特征,給科學數(shù)據(jù)共享造成巨大困難,主要表現(xiàn)在數(shù)據(jù)類型的復雜性和數(shù)據(jù)結構的復雜化:

  ①數(shù)據(jù)類型的復雜性。美國國家科學委員從科研研究類型角度將科學數(shù)據(jù)分為4 個基本類別: 預測型、計算型、實驗型和記錄型,這種劃分方式模糊了具體學術活動下所收集到的數(shù)據(jù)類型的復雜性。計算機技術和科學方法的進步使科研人員能夠獲得的數(shù)據(jù)類型愈加復雜化,如核磁共振成像、基因序列、電子顯微鏡數(shù)據(jù)等形式;

  ②數(shù)據(jù)結構的復雜性。傳統(tǒng)科學數(shù)據(jù)主要以結構化的方式存儲在關系型數(shù)據(jù)庫中,但是隨著科研人員獲取數(shù)據(jù)的渠道和方式的多樣化,非結構化數(shù)據(jù)成為科學數(shù)據(jù)的主流形式。與結構化數(shù)據(jù)相比,非結構化數(shù)據(jù)的組織更加凌亂、復雜,給數(shù)據(jù)處理和共享帶來挑戰(zhàn)。

  ( 3) 特異性是科學數(shù)據(jù)區(qū)別于其他數(shù)據(jù)的關鍵特征,對科學數(shù)據(jù)共享和學術信息交流提出挑戰(zhàn),主要表現(xiàn)在認識的特異性和價值的特異性:

  ①認識的特異性。由于科學數(shù)據(jù)與客觀世界相分離,對科學數(shù)據(jù)的認識必然帶有主觀性,數(shù)據(jù)采集者認為是數(shù)據(jù)的采集物,接受者可能不這樣認為,觀測數(shù)據(jù)或者模擬數(shù)據(jù)可能是、或者頂多是“供述的證據(jù)”;

 ?、趦r值的特異性??茖W數(shù)據(jù)作為一種可重復利用的非消耗性資源,其價值增值需經過科研人員的利用來實現(xiàn)。影響科學數(shù)據(jù)增值程度的因素有兩個,一是科學數(shù)據(jù)本身的價值,決定理論上的最大增值程度;二是數(shù)據(jù)使用者的能力,決定實際增值程度,而科學數(shù)據(jù)的交流和共享能夠實現(xiàn)數(shù)據(jù)的多方利用,促使科學數(shù)據(jù)價值產生指數(shù)增長,所以如何實現(xiàn)科學數(shù)據(jù)共享成為科學界亟需解決的問題。

  2. 2 科學研究層面的挑戰(zhàn)

  首先,科研人員缺乏將數(shù)據(jù)轉化為知識的意識和方法。中國論文網(wǎng)一方面,科研人員沒有意識到科學數(shù)據(jù)的價值特異性,絕大部分科學數(shù)據(jù)會隨著科研人員的退休、項目的結束等原因被遺棄,無法被其他人員使用。另一方面,數(shù)據(jù)密集型科學研究具有無參考性,科學研究方法需要從傳統(tǒng)的假設驅動變?yōu)閿?shù)據(jù)驅動,科研人員必須培養(yǎng)數(shù)據(jù)敏感性,以數(shù)據(jù)為本,轉變自己的研究方法以實現(xiàn)數(shù)據(jù)價值最大化。

  其次,科研人員缺乏設備和技術支持。目前科研項目呈現(xiàn)金字塔型分布,第一層項目能夠得到國際財團機構或國家科學基金會的資助,獲得超級計算和存儲資源,而占大多數(shù)的第二層和第三層項目所獲得的資助相對有限,數(shù)據(jù)密集型科學研究的資源需求難以得到滿足??蒲腥藛T無法平等地獲取保證項目所需的資源支撐,延緩了知識創(chuàng)新進程,不利于科學的持續(xù)發(fā)展。

  最后,數(shù)據(jù)共享方面存在阻礙。一方面,不同地域、不同學科之間缺乏統(tǒng)一的交流平臺,雖然科學研究的地理分布性和跨學科性不斷加劇,但仍有接近87. 5%的數(shù)據(jù)未能形成數(shù)據(jù)源以供科研人員利用。另一方面,數(shù)據(jù)共享在具體實施層面,會涉及到各方面的利益,政策、制度等因素導致原始數(shù)據(jù)、研究方法等無法實現(xiàn)真正共享,跨國項目在此方面的問題尤為突出,因此,科學交流體系的完善值得引起科學界和國際方面的關注。

  3 云計算在數(shù)據(jù)密集型科學研究中應用的必要性分析

  云計算是一種利用互聯(lián)網(wǎng)實現(xiàn)隨時隨地、按需、便捷地訪問共享資源池( 如計算設施、存儲設備、應用程序等) 的計算模式,Gartner 公布的2014 年的技術成熟度曲線,Cloud Computing 正處于泡沫化的谷底期,已經度過了最危險的期望膨脹期,人們對云計算的認識逐漸趨于理性和成熟,業(yè)界也不再熱衷于炒作云計算概念,而是將實現(xiàn)云計算的成熟和規(guī)模應用作為努力的方向。Gartner 的2014 年十大技術和趨勢評選中的個人云時代、規(guī)模IT 都屬于云計算的應用,云計算真正與實際應用和環(huán)境融合,實現(xiàn)從探索向應用轉變,成為大數(shù)據(jù)時代個人和企業(yè)進行數(shù)據(jù)管理的必然選擇。

  在對數(shù)據(jù)管理的使用和認識上,很多科學領域都落后商業(yè)領域至少10 年,云計算在商業(yè)領域的廣泛應用對于科學領域具有借鑒意義,將云計算應用于數(shù)據(jù)密集型科學研究中具有可行性和必要性。

  第一,幫助科研人員應對科學大數(shù)據(jù)規(guī)模性帶來的存儲挑戰(zhàn)。超大規(guī)模是云計算最基本的特點,其底層由數(shù)十萬臺乃至數(shù)百萬臺的服務器集群組成,如Google 云計算中心已經具有幾百萬臺服務器,云計算中心通過運維管理、資源管理等機制整合和管理這些龐大的計算機集群,具備了海量數(shù)據(jù)存儲能力,能夠有效地應對科學大數(shù)據(jù)的規(guī)模性。此外,云計算采取橫向擴張方式,即增加更多的邏輯單元資源,與傳統(tǒng)通過增加單個邏輯單元資源性能的縱向擴展方式相比,中國論文網(wǎng)橫向擴展方式具有成本低、部署周期短、靈活性強等優(yōu)勢,能夠更好地應對科學大數(shù)據(jù)增速的規(guī)模性。

  第二,為科研人員提供面向非結構化數(shù)據(jù)的彈性計算能力,以應對科學大數(shù)據(jù)的復雜性。MapReduce 作為云計算系統(tǒng)中的關鍵數(shù)據(jù)處理組件,具有兩個核心理念: 一是將問題分而治之,分布式處理是面對海量數(shù)據(jù)時的首要選擇; 二是移動計算而非移動數(shù)據(jù),避免數(shù)據(jù)傳輸過程中產生的大量通信開銷。MapReduce 的設計初衷就是面向海量非結構化數(shù)據(jù)的處理,部署在海量基礎設施之上,使云計算具有能夠應對科學大數(shù)據(jù)規(guī)模性和復雜性的強大計算能力。結合虛擬化技術在云計算中的成功應用,云計算可以根據(jù)用戶實際使用情況對資源進行動態(tài)分配,及時滿足用戶對計算資源需求的變化,幫助科研人員應對突發(fā)情況。

  第三,實現(xiàn)數(shù)據(jù)的長期保存和可獲得性,為科學數(shù)據(jù)共享提供保障??茖W數(shù)據(jù)按照科研活動過程來劃分可以分為原始數(shù)據(jù)、推導和組合數(shù)據(jù)、文獻,這些數(shù)據(jù)是數(shù)據(jù)密集型科學研究的核心要素,因此必須保證科學數(shù)據(jù)的完整性、安全性和可獲得性。云計算中心具有完善的保障措施,在硬件方面采用了計算節(jié)點同構可互換、網(wǎng)絡和能源方面的冗余設計等措施,軟件方面采用了多副本容錯、心跳檢測等技術來保證數(shù)據(jù)的可獲得性和安全性。而且科學數(shù)據(jù)由云計算提供方統(tǒng)一管理,打破了原有數(shù)字資源分散的局面,有利于資源的有效流通、利用和共享,實現(xiàn)科學數(shù)據(jù)的價值特異性。

  第四,為科研活動建立統(tǒng)一平臺,使所有科研人員可以平等享有各種服務。服務是云計算的核心理念,也是云計算與傳統(tǒng)的并行計算、分布式計算、網(wǎng)格計算的一個關鍵區(qū)別。云計算是為了讓用戶能夠平等、透明地使用云計算資源,就像使用水電這樣的生活基礎設施一樣便捷。云計算通過向用戶提供統(tǒng)一的一體化平臺,將傳統(tǒng)的應用集成概念延伸為服務集成,從而將數(shù)據(jù)采集服務、數(shù)據(jù)存儲服務、數(shù)據(jù)管理服務、數(shù)據(jù)處理服務、數(shù)據(jù)參考咨詢服務等資源和服務能力集成到云計算系統(tǒng)中。

  4 數(shù)據(jù)資源云平臺的構建

  然而云計算技術并不能提供完整和通用的解決方案,為了滿足可重復性、數(shù)據(jù)共享等需求,需要運用信息資源管理領域相關技術,才能在更大程度上幫助科研人員應對科學大數(shù)據(jù)的挑戰(zhàn)。因此,數(shù)據(jù)資源云是以云計算為基礎,以數(shù)據(jù)密集型科學研究為主體,以信息資源管理相關技術為補充,以數(shù)據(jù)為核心,以科學活動過程為導向,以數(shù)據(jù)服務為目標的服務平臺。

  4. 1 云基礎服務平臺

  云計算基礎服務平臺是整個數(shù)據(jù)資源云的基礎,將物理基礎設施按照云計算平臺標準構建而成,為上層服務提供硬件支持和環(huán)境保障,科研人員可以充分利用平臺提供的軟硬件設施便捷地構建出大規(guī)模應用。其中虛擬化技術是實現(xiàn)科研人員在使用數(shù)據(jù)資源云時如同使用本地資源一樣的關鍵技術,它能夠對計算資源、存儲資源、網(wǎng)絡資源、科研設備等進行分配封裝,向用戶提供接口,以虛擬的形式提供給科研人員使用??蒲腥藛T可以將他們保存在本地磁盤的數(shù)據(jù)轉移到數(shù)據(jù)資源云中,交給專業(yè)人員進行集中管理,實現(xiàn)數(shù)據(jù)的長期保存,還可以通過接口訪問和使用各種大型儀器設備,平等獲取項目所需資源。

  4. 2 科學數(shù)據(jù)處理與服務層

  4. 2. 1 科學數(shù)據(jù)處理

  鑒于數(shù)據(jù)密集型科學研究的特征,數(shù)據(jù)資源云并非按照傳統(tǒng)的思路進行構建,而是遵循數(shù)據(jù)驅動的理念,以數(shù)據(jù)為起點,經過科學數(shù)據(jù)資源科學數(shù)據(jù)處理步驟之后才是科研人員審視,因此在科學數(shù)據(jù)處理方面,數(shù)據(jù)資源云采取的流程、技術都有別于傳統(tǒng)的假設驅動型平臺。

  首先,需要對實驗數(shù)據(jù)、模擬數(shù)據(jù)、科研人員信息等原始數(shù)據(jù)進行資源化。資源化的數(shù)據(jù)才能在后續(xù)的操作中產生更大的價值,通過數(shù)據(jù)集成消除數(shù)據(jù)之間的異構性,刪除重復數(shù)據(jù),對關聯(lián)數(shù)據(jù)進行邏輯上的封裝,減少后期處理中的資源開銷。為了滿足數(shù)據(jù)密集型科學研究可重復性的需求,數(shù)據(jù)世系管理成為科學數(shù)據(jù)處理過程中必不可少的環(huán)節(jié)。

  數(shù)據(jù)世系一般出現(xiàn)在包含多數(shù)據(jù)集的應用中,用于描述數(shù)據(jù)的產生并隨著時間推移而演化的整個過程。對于項目實施者來說,數(shù)據(jù)世系配合分布式文件系統(tǒng)的容災備份機制,可以在出現(xiàn)故障時,正確、快速地恢復數(shù)據(jù)。對于數(shù)據(jù)使用者來說,可以充分了解數(shù)據(jù)的演化過程,加深對實驗結果的理解,幫助實現(xiàn)科研成果的再現(xiàn),保證科研活動的可信賴性和可重復性。

  其次,科學數(shù)據(jù)分析是科研活動中的關鍵環(huán)節(jié),主要包括海量語義分析、科研人員需求分析和海量數(shù)據(jù)挖掘。語義技術可以對概念、術語等進行明確的機器編碼定義,并且能夠對它們之間的相互關系進行陳述性和條件性的定義,使跨區(qū)域、跨學科的數(shù)據(jù)能夠被科研人員、學生甚至是普通大眾所理解和使用,是促進數(shù)據(jù)共享的關鍵。在海量數(shù)據(jù)中挖掘規(guī)律是數(shù)據(jù)密集型科學研究的重要手段,數(shù)據(jù)資源云能為科研人員提供彈性計算能力,MapReduce 在海量數(shù)據(jù)和非結構化數(shù)據(jù)處理方面的能力已經得到了各界的認可。而云科學工作流在重復性和流程性工作方面的表現(xiàn)更加優(yōu)異,可以為科研人員提供可視化建模工具,使科研人員即使不具有程序設計知識也可以根據(jù)實際需要設計云科學工作流模型,表示科學工作流的任務及任務之間的關系。

  所以,MapReduce 和云科學工作流的結合可以幫助科研人員應對科學數(shù)據(jù)的規(guī)模性和復雜性。中國論文網(wǎng)此外,為了提高后續(xù)服務質量,需要根據(jù)科研人員的問題和所處問題環(huán)境,利用數(shù)據(jù)挖掘的方法和工具對他們的學習層次、科研經歷、研究方向等方面加以分析,挖掘他們的興趣點和知識需求點,形成隱性需求分析文檔,從而為后續(xù)的推送服務提供依據(jù)。

  最后,科研人員對處理結果的價值進行判斷和審視。在數(shù)據(jù)密集型科學中,科研人員不再直接參與科學數(shù)據(jù)的處理和分析,該任務由數(shù)據(jù)資源云來完成,他們的任務是在整個科學活動的后期審視和篩選處理分析的結果,將符合條件或者有價值的結果加工處理為知識,發(fā)布到數(shù)據(jù)資源云。如果結果不具有實際價值或者未達到預期效果,科研人員則向之前的環(huán)節(jié)反饋,數(shù)據(jù)資源云按照科研人員的反饋信息通過重新選擇數(shù)據(jù)、調整云科學工作流模型等方式來重新進行數(shù)據(jù)處理,以獲得滿意結果。

  4. 2. 2 數(shù)據(jù)服務

  鑒于數(shù)據(jù)密集型科學研究具有數(shù)據(jù)驅動、可重復性等特征,僅僅向科研人員提供知識已經無法滿足其資源需求,原始數(shù)據(jù)、推導和重組數(shù)據(jù)成為數(shù)據(jù)密集型科學研究中同等重要甚至更加重要的研究資源。數(shù)據(jù)資源云將數(shù)據(jù)服務作為特色服務,在保留傳統(tǒng)云服務平臺向用戶提供知識服務項目的同時,又創(chuàng)造性地將原始數(shù)據(jù)、推導和重組數(shù)據(jù)添加到服務內容中,力求向用戶提供更為全面的數(shù)據(jù)服務,滿足科研人員在數(shù)據(jù)密集型科學研究中的需求。

  知識層面的服務主要包括知識發(fā)布、知識推送和知識交流等環(huán)節(jié)。數(shù)據(jù)資源云能夠自動地將不同科研人員在不同時間、不同地點生產出來的科技知識進行發(fā)布,實現(xiàn)知識的即時公開,縮短知識發(fā)現(xiàn)到知識應用之間的時間。知識發(fā)布是知識服務的第一個環(huán)節(jié),為了實現(xiàn)知識服務效率的最大化,結合前期的科研人員需求分析結果,將最新知識推送給相關科研人員,加速知識流動速率,提高科研人員的科學生產力。數(shù)據(jù)資源云還為不同學科的科研人員提供交流平臺,打破不同學科之間的壁壘。

  同時,為從事具體學科研究的科研人員與信息科研人員提供了一種科研場景,實現(xiàn)特定領域科研需求與信息技術之間的大量交互,有助于相應領域語義語言、工具和應用系統(tǒng)的改進和完善。然而,在數(shù)據(jù)密集型科學研究中,知識與科研過程中產生的推導和重組數(shù)據(jù)與原始數(shù)據(jù)相比只是冰山一角,數(shù)據(jù)是科學研究的基礎,向用戶提供數(shù)據(jù)服務,可以提高其工作效率,加速知識創(chuàng)新,主要包括數(shù)據(jù)共享、數(shù)據(jù)溯源和數(shù)據(jù)可視化。

  首先,數(shù)據(jù)的長期保存和可獲取性保證了數(shù)據(jù)共享的可行性,語義分析、數(shù)據(jù)世系等技術保證了數(shù)據(jù)共享的價值性。數(shù)據(jù)資源云是一個開放合作的平臺,科研人員可以按需搜索、理解以及利用自己需要的數(shù)據(jù)資源,實現(xiàn)更大規(guī)模的數(shù)據(jù)流動,實現(xiàn)科學數(shù)據(jù)價值增值。其次,數(shù)據(jù)資源云可以向用戶提供數(shù)據(jù)溯源服務。數(shù)據(jù)資源云不僅可以發(fā)布研究成果等知識,還可以發(fā)布產生知識整個過程的源流信息和數(shù)據(jù),即在提供知識的同時,還可以提供該知識涉及到的支撐數(shù)據(jù)以及中間過程產生的整合信息、推導和重組數(shù)據(jù),以服務流的形式出現(xiàn),加深對數(shù)據(jù)的理解和認識。

  此外,數(shù)據(jù)可視化將海量數(shù)據(jù)通過平面或者立體圖形的方式呈獻給科研人員,根據(jù)前期的數(shù)據(jù)資源化和分析處理結果,對可視化圖形界面進行優(yōu)化,既可以向用戶提供數(shù)據(jù)的二維、三維的可視化效果,還可以添加時間維,向用戶提供四維的數(shù)據(jù)可視化界面,即數(shù)據(jù)隨著時間的變化而變化,產生動態(tài)感,實現(xiàn)過程可視化。此外,數(shù)據(jù)資源云在實現(xiàn)知識和數(shù)據(jù)同時在線的基礎上,通過數(shù)據(jù)的生命周期管理,可將數(shù)據(jù)和知識同時聯(lián)系在一起且可以交互操作。這樣用戶在查看某個研究成果時可以直接查看其原始數(shù)據(jù),甚至是重做其分析,同樣也可以從數(shù)據(jù)追溯到使用該數(shù)據(jù)的科研項目及其研究結果,提高科研活動的效率。

  5 結束語

  數(shù)據(jù)密集型科學研究是在科學大數(shù)據(jù)背景下產生的,傳統(tǒng)的數(shù)據(jù)管理技術無法有效地應對科學大數(shù)據(jù),云計算技術成為滿足現(xiàn)代科研人員科研需求的必然選擇。本文構建的數(shù)據(jù)資源云以云計算為主要框架,并結合了信息資源管理的相關技術,中國論文網(wǎng)是面向數(shù)據(jù)密集型科學研究的數(shù)據(jù)管理和服務平臺,能夠幫助科研人員解決數(shù)據(jù)密集型科學研究中的科學大數(shù)據(jù)問題,有利于促進數(shù)據(jù)共享和知識創(chuàng)新。但是數(shù)據(jù)資源云中仍然存在一些不足之處,比如如何高效集成不同類型的數(shù)據(jù)源、更好地保護數(shù)據(jù)安全等問題,并且本文沒有對數(shù)據(jù)共享、隱私保護等方面的政策制定問題進行探討,這些都有待在后續(xù)的研究中繼續(xù)完善。

【淺談數(shù)據(jù)密集型數(shù)據(jù)資源云平臺的構建】相關文章:

1.淺談大數(shù)據(jù)思維下示范中心網(wǎng)站信息系統(tǒng)的構建論文

2.淺談廣州開放型經濟發(fā)展階段與戰(zhàn)略選擇

3.關于發(fā)展互聯(lián)網(wǎng)運營模式的思考論文

4.關于建筑施工企業(yè)中計算機網(wǎng)絡技術的應用論文

5.淺析福建與東盟國家經貿合作發(fā)展的契機及對策

6.淺談水電站運行管理的問題

437434