專家觀點 | 可信數據空間的功能與挑戰

日期:2025-07-04 17:20    來源:北京市政務服務和數據管理局

分享:
字號:        
  • 鄔

  7月4日下午,2025全球數字經濟大會數據要素發展論壇在國家會議中心成功舉辦。中國工程院院士鄔賀銓出席論壇並圍繞“可信數據空間的功能與挑戰”發表主旨演講。

專家觀點 | 可信數據空間的功能與挑戰

  鄔院士指出,可信數據空間(IDS)是基於共識規則,聯接多方主體,實現數據資源共享共用的一種數據流通利用基礎設施。其功能主要包括:提供數據源認證和接入身份認證,提供數據資源目錄以便快速檢索,提供數據格式和協議轉換軟體,對敏感數據提供過濾和去標識化,提供算力和數據挖掘工具軟體方便數據開發,支援明文計算和解密計算及同態加密計算,提供數據沙箱和數據流通安全合規管理,提供數據流通存證審計和交易清算結算服務。

  可信數據空間的相關方一是服務中介方,提供分析/整合/清理或語義豐富等附加數據服務,提高交換數據品質。二是應用商店,提供可部署在IDS連接器中的應用程式,以執行轉換、聚合或數據分析等任務。三是身份提供者,創建、維護、管理和驗證IDS參與者的身份資訊。其中,IDS連接器充當數據和服務的網關及應用程式和軟體的可信環境,跟蹤數據來源,允許參與者加入使用策略並強制執行。四是詞彙表,提供標準化描述符,使用共用詞彙表在語義級上融合不同格式和協議類型的數據。五是清算與結算,提供數據交換和金融交易的清算和結算服務。

  一、數據源認證與接入身份認證

  (一)源宿地址認證

  目的地認證:地址管理機構在分配IP地址時同時簽發RPKI(網際網路碼號資源公鑰基礎設施)認證證書。

  源地址校驗:通過監聽客戶主機與DHCP伺服器間交互的報文,獲得用戶的IPv6地址、MAC地址、接入設備端口等綁定關係,對指定端口的IP報文進行源地址校驗。

  (二)數據源認證

  IPv6可以提供APN6(基於IPv6的應用感知)和iFIT(隨流檢測)功能,可明確用戶身份,支援跨境數據流動管理和路徑溯源。

  (三)挑戰

  如何保證IPv6地址字段中用戶群ID和意圖屬性是真實的?

  用戶群ID和數據包意圖過於透明對於數據安全不是好事?

  需增加數字證書和零信任架構及屬性基加密(ABE)技術實現細粒度訪問控制(角色、場景、次數、動態許可權)?

  二、數據使用約束條件的設置與監督

  可信數據空間同時可有多個數據提供方,各自將制定自身數據開放利用的策略,但各數據提供方給出的約束條件差異較大時,將影響可信數據空間的推理結果的有效性,需要建立運營方與各數據提供方關於數據使用策略的協商機制。在數據有償使用場景下,使用方應參與協商,對數據提供方提出的約束條件有發言權。

  在這一方面,現有的挑戰是,在可信數據空間中企業往往既是數據提供方也是數據使用方,甚至還是數據運營方,三權分離的機制可能失效,如何保障數據使用約束條件的實施。

  三、數據資源目錄及檢索

  (一)數據的分類

  數據按格式或結構可劃分為結構化、半結構化和非結構化3類,按存儲形式可劃分為數據庫存儲、文件存儲、流數據、數據服務4類,按敏感程度可劃分一般數據和敏感數據2類。此外,數據還可按來源(內部、外部)、生成方式(原生、AI)、使用頻度(冷、熱)、流規模(大象流、老鼠流)、任務類型(IO密集、CPU密集)、預處理(清洗標注後的熟數據、生數據)等來劃分。

  (二)從數據包中識別數據類型的方法

  一是基於格式或內容識別,包括正則匹配、文本分類、元數據。二是基於存儲形式識別,包括結構化、半結構、非結構化。三是應用場景輔助識別,包括日誌文件、流數據等。

  (三)挑戰

  一是是否應該在APN6中嵌入標準化的數據分類標識以方便檢索?二是如何能得到更細分的數據類型(數據源的歸屬方、地理位置、生成時間、訪問頻次等)?三是從管理上希望知道哪些數據是敏感數據,但從安全上希望敏感數據類型不要明示?

  四、數據格式和協議轉換

  (一)推理計算需要統一數據/協議格式

  一是格式相容性。一些框架對應指定輸入格式(如TensorFlow要求張量格式),異構數據會中斷計算。二是?效率優化。統一格式可減少實時轉換的計算開銷,提升推理性能。三是?協議一致性。跨系統通信時需統一協議格式(如Protobuf),避免因協議解析錯誤導致業務異常。

  (二)數據格式和協議轉換工具

  一是可視化操作工具,包括Kettl、用友暢捷通等。二是零代碼線上工具,包括ALLtoALL、Convertio等。三是需要編程的工具,包括Xresloader、Dataknead等。

  (三)挑戰

  數據格式和協議轉換工具的操作在數據提供方的連接器內實施,但為簡化對中小企業連接器的要求,格式轉換操作可否在可信數據空間運營方內完成,但如何保證轉換時數據不外泄?

  五、數據的脫敏保護

  (一)數據脫敏技術

  去標識化使得非合作接收方無法識別特定自然人,難以還原敏感資訊,但合作方可以從中獲得敏感資訊。匿名化即便合作方也不能從中獲得敏感資訊,實現隱私有效保護。敏感數據通過差分隱私演算法動態脫敏,例如醫療數據共用時隱去患者身份證號末四位。

  (二)挑戰

  一是去標識化所用的加密技術能否等效同態加密以保證推理結果不失真?二是敏感數據在推理計算後的結果往往不具有敏感性,而且沙箱輸出時還有脫敏機制,因此敏感數據在進入可信數據空間推理前是否還需脫敏?

  六、算力與數據挖掘工具

  可信數據空間的算力與數據挖掘工具部署遵循“分層協同、按需調度”原則。

  (一)數據提供方/使用方的連接器內

  算力方面,整合基礎算力模組(如聯邦學習引擎、數據清洗工具),支援本地數據預處理和輕量化分析,確保原始數據不出域。例如製造業供應鏈連接器可運作庫存預測模型,基於邊緣計算實現實時數據加工。數據挖掘工具方面,預置通用型工具(如數據脫敏引擎、特徵提取組件),通過低代碼界面簡化操作流程,例如通過拖拉配置數據清洗規則。職責方面,提供方通過連接器封裝數據介面並聲明使用約束,僅開放輕量化本地算力供外部調用。使用方通過連接器申請運營方算力資源,在數字合約下使用工具,所有操作日誌實時上鏈存證。

  (二)可信數據空間運營方內

  算力方面,通過雲平臺提供高性能算力資源(如GPU集群、隱私計算節點),支援跨域數據聯合建模、大規模數據挖掘等複雜場景。例如部署虛擬沙箱環境,允許數據使用方在受控環境中調用算力工具進行數據價值挖掘。數據挖掘工具方面,搭建工具市場,提供AI模型訓練平臺、區塊鏈溯源工具、定制化隱私計算工具包等高級功能模組,用戶可通過API或訂閱服務調用。職責方面,運營方統一管理算力資源調度、工具許可權控制及數據流通審計,確保跨域協作符合安全要求。

  (三)挑戰

  一是對可信數據空間所需算力及模型需分內部和外部提供兩部分,在異構情況下如何協同?二是中小企業作為數據提供/使用方但其連接器可能不具有基本算力和數據挖掘軟體,可信數據空間運營方能否提供連接器所需基本算力和挖掘工具軟體而同時保障提供方數據安全?

  七、明文計算/解密計算/同態加密計算

  (一)明文計算

  僅在數據提供方/使用方內部可信執行環境(TEE)或安全沙箱中進行,適用於數據無需跨主體共用的低敏感場景(如企業內部數據分析)。

  (二)解密計算

  數據使用方在獲得明確授權後執行,需配合動態脫敏和許可權控制機制,適用於數據使用方可獲取密鑰(包括ABE)且具備安全防護能力的場景。

  (三)同態加密計算

  數據使用方在獲得明確授權後執行,需配合動態脫敏和許可權控制機制,適用於數據使用方可獲取密鑰(包括ABE)且具備安全防護能力的場景。

  (四)挑戰

  一是解密計算與同態加密計算都在可信數據空間運營方內執行以便原始數據不出域,如何保證運營方也是對數據可管不可見?二是同態加密對算力要求高時延大,挑戰有實時性要求的推理任務。

  八、數據沙箱和數據安全

  數據沙箱通過採用容器化或虛擬機技術構建隔離的虛擬計算環境,實現數據在受限空間內安全使用。數據提供方(策略主導)通過加密策略和數字合約定義數據使用條件並管理密鑰。數據空間運營方(發起與控制)構建沙箱底層架構(容器化隔離+TEE+區塊鏈),輸出脫敏且加浮水印可跟蹤和加噪反溯源的數據。數據使用方(操作受限)在運營方技術約束下從沙箱調用數據。

  在這一方面,現有的挑戰一是數據提供方/使用方/運營方的權責邊界模糊,數據提供方設定的細粒度許可權規則與沙箱的動態訪問控制機制可能衝突。二是沙箱需配置容器集群和TEE硬體資源以支撐大規模數據調用,如何平衡成本與性能?

  九、使用數據的行為存證和審計

  數據提供方/使用方的連接器整合數字合約引擎,解析並執行數據使用規則(如使用次數、時長、用途限制),違規操作實時阻斷並觸發審計報警。運營方生成跨境合規報告、記錄數據訪問/計算/輸出全流程日誌,與區塊鏈平臺對接,通過哈希上鏈,實現合約存證,支援穿透式審計和爭議溯源,使用方可以查詢但無法篡改或刪除審計記錄。

  (一)數據提供方

  對自身數據資源授權範圍和使用條件進行合規性審計;通過可信數據空間提供的工具驗證數據使用方的訪問行為是否符合預設規則。

  (二)可信數據空間運營方

  主導對數據流通主體身份認證、數據資源發佈、跨主體互認等環節的合規性驗證;通過區塊鏈實現操作日誌實時存證,溯源追責異常行為;提供統一的審計介面和工具,支援各方自主調用。

  (三)數據使用方

  審計自身在可信數據空間內的數據調用記錄,確保符合數據提供方設定的約束條件;對數據加工分析等使用環節的操作日誌進行完整性校驗,防止二次流轉或非授權使用。

  (四)監管機構

  監管機構依法可調取可信數據空間內的存證記錄;;?數據提供方和使用方均可經運營方提供的審計介面查詢相關的操作記錄及結果;?司法機構以可信數據空間記憶體證記錄作證。

  (五)挑戰

  一是沙箱內隱私計算過程可能因“黑盒化”導致審計鏈條斷裂,難以驗證計算合規性。二是目前的審計主要是存證行為合規,但數據合規以及倫理合規難以覆蓋。

  十、數據跨境流通合規管理

  (一)個人資訊保護影響評估/數據出境風險自評估:

  一是目的/範圍/方式等合法性/正當性/必要性;二是出境資訊的規模/範圍/種類/敏感度/風險;三是境外接收方承諾保護的義務/措施/能力等;四是在境外篡改/破壞/洩露/丟失/非法利用等風險;五是境外個人資訊保護政策和法規等。

  (二)可信數據空間與跨境數據流動管理

  一是連接器整合國際數據合規協議模板(如GDPR),實現自動化合規校驗。自動攔截違規操作(如跨境傳輸未脫敏數據)。二是在跨境數據空間沙箱部署聯邦學習中間件,動態適配國內外多重合規框架。三是採用同態加密實現敏感數據只在本地處理,確保在不洩露原始數據的前提下輸出滿足跨境使用需求的推理結果。

  (三)挑戰

  一是在可信數據空間中如何識別個人資訊及未脫敏數據?二是如發現在境外經審查允許出境的合規數據被非法使用時如何通過可信數據空間長臂管轄?

  綜上所述,可信數據空間是新型數據基礎設施,是國家數據要素體系的重要組成部分。推動可信數據空間的部署和應用,將有助於解決大量企業數據不會用、不能用、不敢用的問題,促進數據流通,激活數據要素,發揮數據要素價值。

  可信數據空間發展面臨不少挑戰,既要重視可信數據空間底層關鍵技術、演算法、晶片等自主創新,也要加強對可信數據空間運作模式及相關技術的開發,將可信數據空間的構建與自身網路安全的部署同步實施,通過實踐中試點探索,為我國可信數據空間的發展提供堅實保障。目前可信數據空間的應用對中小企業仍然有一定門檻,需要政府與産業鏈主要企業帶動,營造可信數據空間發展應用的生態。

您訪問的連結即將離開“首都之窗”門戶網站 是否繼續?

已歸檔