政務行業大數據精細化治理與展望
一 前言
當今中國已經全面進入“大數據時代”。自十八屆五中全會首次提出“國家大數據戰略”以來,一系列政府文件、行業標準規范相繼出臺。大數據對政務工作的賦能也愈發明顯。尤其是在疫情常態化后,更是加速了政務大數據的融合、分析,精準科學疫情防控提供了有力支撐。在實現這些效果之前,勢必需要對海量數據實施精細化治理。
二 政務大數據的特點
大數據的特點包括海量、多源、異構、快速、價值密度不一、高價值應用等。其中,“海量”是指一個行業的數據量達到百億至萬億條,存儲規模達到PB級甚至ZB級。“多源”指來源地多、廣、雜,政務大數據要分析一個復雜場景,通常需要集合多個政府部門、企業以及公開或非公開采集的數據,這對數據匯聚的完整性、實時性以及匯聚后的標準化提出了更高的要求。由于來源多,勢必形成了“異構”特性,即多來源的數據格式不一、組成結構不一、統計維度不一、名稱不一等,甚至還有大量缺項、錯項、漏項及兩兩看似矛盾的問題存在,這就需要對數據進行大量的預處理?!翱焖佟敝感枰WC數據的時效性從而快速分析賦能于業務場景,這里分為實時分析和離線分析?!皟r值密度不一、高價值應用”指大數據分析不同于“小數據”分析,匯聚的數據要求“全”,以應對不定性的場景,但不一定每條數據都在數據分析場景中用到,因此價值密度不能保證,但是正因為數據全,因此理論上可以分析各類高價值的場景。如全國十四億人口的出行信息,大部分人的行程信息只有在被列入需要關注的對象時才用得到,但是要求隨時可查可分析。亦或是在沒有明確目標的情況下按某類規則進行碰撞,如尋找與某事件相關的人或車,這里要求數據完整無遺漏。
什么是數據治理?數據治理是對數據資產管理行使權力和控制的活動集合,其目的是將數據有序管理方便提取并提升數據的價值,本質是數據有序化和增值的過程。數據經過產生后,進入治理環節,其流程可粗略分為數據匯聚、數據接入、數據預處理、數據組織、數據治理,最終以數據服務的形式輸出,另外加上周邊的數據標準體系、數據安全體系、數據運營運維體系做支撐,從而構成完整的工程架構,如下圖所示:

其中數據匯聚是指按照統一的標準規范對多源數據分別采集匯集到統一的大數據平臺,并管理好數據最終下發或分享給同級或下級大數據平臺,供其進一步治理的過程。主要可分為數據采集、數據匯集、數據共享、數據監管等環節,因此對應的大數據平臺應該至少包含數據匯集管理、數據共享管理兩方面能力。
數據預處理是指按照數據接入環節的定義,針對規模巨大、類型多項、高速流轉、復雜多變、質量參差不齊、價值密度高低不一的特性的數據,以數據應用為導向,通過規范化處理,提升數據價值密度,服務于數據增值、應用。主要可包含數據的提取、清洗、關聯、比對、標識、分發。其中數據提取指根據定義的規則,從源格式數據中提取出目的格式數據,如結構化數據提取與非結構化數據提取等。數據清洗,是數據的初步標準化的主要環節,類似傳統的ETL過程,指根據定義規則進行垃圾數據的過濾、重復數據去重、格式轉換以及最終處理結果的校驗,生成滿足標準和質量要求的標準化數據。數據關聯是指按照定義的規則或算法,根據業務場景需要,對數據與數據之間進行關聯,以更好的描述同類型實體之間關系以及不同類型實體之間的關聯信息。數據比對是指按照規則對相似度較高的數據進行計算,方便命中驗證目標數據或做相似度關聯比較,如相同車輛比對、人臉比對、文本比對等。數據標識是指基于業務需要,對數據自身蘊含的特性進行顯化,按照不同數據特性打上不同標簽,并生成標簽知識庫的過程,如可標識數據屬性、數據可信度、是否重點關注群體、是否與某事件關聯等,此過程方便后期對數據篩選、快速檢索、數據重組、業務上的定性有十分重要的作用。經過預處理的數據,通過分發方式進入各個不同的數據庫中,形成大數據組織體系。
數據組織是指按照一定數據應用需求,按照數據定義的規范,對數據資源進行分維度、分類別的建庫過程,以數據的不同維度的重構來快速賦能業務需求,主要組織維度可以效仿數據湖生成標準化庫、按不同主題形成主題庫、按共性場景對要素進行關聯關系組織成資源庫、按不同業務細分形成不同的業務庫、按索引形成索引庫,也可將數據處理、治理、管理過程中的規則、算法、模型、字典、特征等單獨收集起來形成知識庫。
數據治管理是指通過對標準化數據進一步進行治理、管理,使數據形成價值增值、資源透明、動態可管、安全可控、持續維護、生長迭代的過程。數據治管理按照實際需要,可以包括數據資源生命周期管理、數據運維、數據質量管理、數據模型管理、數據標簽管理、數據安全分級、數據分類、數據資源目錄形成及管理、數據血緣分析與管理等,最終做到數據流通、資產全息、數據迭代、價值提煉、安全使用、動態監管等目的。此部分為數據價值增值和安全管理的關鍵環節。
在大數據平臺的設計思路中,數據只匯聚,不直接對外輸出,那么數據可以以數據服務的形式對外賦能,數據的服務可以大致分為基礎數據管理服務(如資源目錄管理、數據分級管理、數據分類管理、數據鑒權、數據模型管理、數據標簽管理等服務)、基礎數據操作服務(如增、刪、改、查、建表等)、數據基礎應用服務(如查詢檢索、比對、訂閱、數據分析、數據展示、數據推送等)等。通過定制各類服務,對外隔離原始數據,實現大數據中臺對業務的直接賦能,既增加了政務大數據平臺的高可用性,也保證了數據的安全。

四 政務大數據的展望
隨著技術與法律的健全,政務大數據經過多年發展,正在逐漸向貼近業務實戰、保護數據隱私、智能化決策的方向發展。未來大數據平臺與人工智能、隱私計算、區塊鏈、零信任、可信執行計算、密碼學等技術結合更加緊密,并借助5G、物聯網、云計算技術加速發展。目前來看,大數據平臺與人工智能已經有了初步結合,如非結構化數據提取、數據分類推薦、模型分析等過程的初步智能化,并通過細粒度的分級分類與權限動態匹配初步實現數據零信任安全。未來,政務大數據平臺還會在數據處理過程中諸如規則定義智能推薦、數據深度關聯建庫推薦、基于業務場景的數據智能分析和輔助決策、通過模型漂移及隱私計算服務實現異地多中心數據安全協同等方面,不斷加深與人工智能、隱私計算、5G通信、區塊鏈、物聯網等技術的深度融合,完善政務大數據平臺的“高可用”、“可生長”特性。另外,未來政務大數據平臺將不斷完善政務大數據平臺的軟件安全體系、硬件安全體系、網絡安全體系、數據安全體系,形成自身的“內生安全”與“外生安全”雙體系安全保障。
截止2021年,3044am永利系統數據創新業務相關產品及服務已廣泛運用于政府、部委、央企、金融、能源等多個領域,客戶覆蓋全國22個省、50多個地市、40余家部委央企及行業客戶。面向未來,3044am永利系統將持續聚焦數據創新領域產品技術研發,助力政府及企業盤活數據價值,重新定義城市數字經濟發展的動力模型,為數據治理工程有序推進提供“路線圖”,讓公眾共享數字經濟發展紅利。
3044am永利系統部委行業部解決方案架構師 孫紫宸
咨詢郵箱:sunzichen@