首頁 >> 圖書情報學
              大數據質量測度模型構建
              2018年09月21日 11:17 來源:情報理論與實踐 作者:莫祖英 字號

              內容摘要:文章將大數據質量分為原始質量、過程質量和結果質量,并根據不同的數據處理階段分析其質量測度指標,通過專家打分計算各指標的權重值,從而構建大數據質量的測度模型。研究發現,大數據結果質量的重要性程度明顯高于原始質量和過程質量,說明大數據質量的重點在于面向應用的結果質量上,而結果質量的形成離不開原始質量和過程質量的保障。大數據質量測度是實施大數據質量管理與控制的重要基礎。

              關鍵詞:

              作者簡介:

                所謂大數據,是指由移動計算、社交網絡、傳感器和監控設備等信息源產生,主要包括用戶多媒體服務數據、服務系統監控與管理數據、用戶行為數據、服務市場環境和客戶關系數據等。大數據的來源復雜性和類型多樣性造成其價值密度低、提取難度大等特點,同時也給大數據質量管理帶來了困擾。大數據應用強調對總體數據的處理與分析、關注事物之間的相關關系以及對發展趨勢的分析預測,這就要求大數據在準確性、時效性、完整性、真實性等質量方面具有一定的保障。而大數據的規模性、高速性和數據來源及形式上的多樣性,使數據更可能產生不一致和沖突,這些都會導致大數據質量問題,因此在利用大數據進行分析時,需要對大數據質量進行評價,并實施一定的質量管理措施來保障大數據應用。

                

                1 大數據質量

                

                根據已有的對“大數據”概念的界定,發現“大數據”區別于傳統數據的本質特征是其數據規模已超出常規軟件的處理能力,只有采用新的處理技術、平臺等才能實現數據分析與預測的數據集合。大數據通常是由網站、傳感器、系統等設備自動生成,故具有真實性特征。根據Juran提出的“質量即適合于使用”這一觀點,大數據質量可以理解為“大數據中適合于進行數據分析、處理、預測等使用過程并滿足用戶需求的特征”。大數據處理流程主要包括數據收集、數據預處理、數據存儲、數據分析與挖掘、數據展示(可視化過程)、大數據應用等環節[1],數據質量貫穿于整個大數據流程,故可將大數據質量分為原始質量、過程質量和結果質量。

                

                1)原始質量。大數據原始質量是指數據采集過程中采集到的原始大數據的質量,包括數據的真實性、完整性、一致性、準確性、時效性、安全性等。大數據通常由系統、傳感器、網站等設備自動生成,它真實記錄了數據對象的變化狀態及其運行方式,體現了原始大數據的真實性特征,包括數據的可信性、真偽性、來源和信譽、有效性和可審計性等方面,同時要防止一些惡意攻擊性的“數據污染”。在完整性方面,包括時間上的完整性、數據值的完整性等;在一致性方面,包括同構或異構來源數據的一致性、格式一致性、編碼一致性等[2];在時效性方面,則是時間越近的原始大數據,其分析與預測的結果越準確。由于大數據多是由機器、系統、網站等自動采集或存儲的,其產生速度快、流通快,時間上呈現連續性特征,使原始大數據具有更強的時效性。

                

                2)過程質量。大數據過程質量指經過數據預處理、數據存儲等環節后的大數據質量,它為大數據分析與挖掘提供準備,其質量高低直接關系到大數據分析結果的價值。過程質量主要體現在大數據的安全性、可用性等方面。安全性質量包括數據來源的安全性、數據存取的安全性、權限管理、訪問控制等,以保障大數據的真實性。可用性質量是指經過采集、預處理并進行存儲的過程大數據可用于大數據分析、預測而獲取有價值信息的屬性,它是實現大數據價值的必要條件。

                

                3)結果質量。大數據結果質量指經過數據分析與挖掘、數據展示后產生的最終結果的質量,包括分析結果的價值性、直觀性、時效性、準確性、適用性等,且與用戶的需求和感知密切相關。不同質量屬性之間也是相互關聯的,如大數據分析結果的價值性離不開其準確性、時效性、適用性等質量特征,而價值性、適用性等特征又因用戶需求而異,直觀性、時效性和準確性則具有相對獨立性。

                

                總之,大數據質量與大數據的收集、處理、存儲、分析、可視化等過程密切相關,而在不同的階段其質量內涵不同,本文擬從原始質量、過程質量和結果質量3個方面來分析大數據質量測度的指標,并通過專家訪談與調研構建大數據質量測度模型,為實現大數據的質量評價與管理提供理論框架與指導。

                

                2 大數據質量測度指標分析

                

                大數據在不同階段的數據質量會受到各種處理技術、存儲技術、數據源、采集方式、大數據分析能力、預測能力、用戶的需求與感知、業務需求等各方面的影響,而不同類型大數據采用的分析與處理方法不同,數據質量的測度指標也不盡相同,本文分別從大數據的原始質量、過程質量和結果質量3個方面分析大數據質量的測度指標。

                

                2.1 原始質量測度指標

                

                1)數據源的規范性。數據源的規范性決定了所采集的大數據的規范性,它是保證大數據中獲取有效數據的重要因素。不規范的數據源會帶來大量的無效數據和無效的數據加工。

                

                2)數據源的安全穩定性。它是保證采集到的大數據具有真實性的重要條件。只有使不斷產生數據的數據源安全、穩定地運行,才能做到準確無誤地反映其描述的對象與實體,這就需要對數據源進行自動檢測與修復,以保證數據的真實性和準確性。

                

                3)數據采集的實時性。它是保障大數據時效性和價值性的重要條件,尤其是對于一些客觀事實類、動態變化類的數據以及它的時間特征,需做到數據采集的實時性。

                

                4)數據采集的無誤性。即確保所采集數據的準確性,不能存在與客觀事實不符的數據描述。需要對數據源進行自動檢測、修復等,以及設置基于規則的、基于主數據的錯誤發現。

                

                5)數據采集的完整性。大數據強調的是總體數據、全數據的分析與挖掘,因此在數據采集時盡可能保證所需數據的完整性。當然,數據不可能完全沒有缺失,其關鍵在于數據的缺失是否在不影響分析結果的可接受范圍內,或者可通過數據統計等方法來彌補缺失數據。數據采集的完整性可采用空值頻率等指標來表示。

                

                6)數據定義的一致性。大數據是異構數據,且類型多樣,要實現對多種數據類型、數據格式進行集成處理,需進行統一的數據定義與數據編碼,避免數據被模糊定義或錯誤定義,為后期的數據處理與分析埋下隱患。

              作者簡介

              姓名:莫祖英 工作單位:

              轉載請注明來源:中國社會科學網 (責編:閆琪)
              W020180116412817190956.jpg
              用戶昵稱:  (您填寫的昵稱將出現在評論列表中)  匿名
               驗證碼 
              所有評論僅代表網友意見
              最新發表的評論0條,總共0 查看全部評論

              回到頻道首頁
              QQ圖片20180105134100.jpg
              jrtt.jpg
              wxgzh.jpg
              777.jpg
              內文頁廣告3(手機版).jpg
              中國社會科學院概況|中國社會科學雜志社簡介|關于我們|法律顧問|廣告服務|網站聲明|聯系我們
              1 3 8 24 72倍投