- 邬
7月4日下午,2025全球数字经济大会数据要素发展论坛在国家会议中心成功举办。中国工程院院士邬贺铨出席论坛并围绕“可信数据空间的功能与挑战”发表主旨演讲。
邬院士指出,可信数据空间(IDS)是基于共识规则,联接多方主体,实现数据资源共享共用的一种数据流通利用基础设施。其功能主要包括:提供数据源认证和接入身份认证,提供数据资源目录以便快速检索,提供数据格式和协议转换软件,对敏感数据提供过滤和去标识化,提供算力和数据挖掘工具软件方便数据开发,支持明文计算和解密计算及同态加密计算,提供数据沙箱和数据流通安全合规管理,提供数据流通存证审计和交易清算结算服务。
可信数据空间的相关方一是服务中介方,提供分析/集成/清理或语义丰富等附加数据服务,提高交换数据质量。二是应用商店,提供可部署在IDS连接器中的应用程序,以执行转换、聚合或数据分析等任务。三是身份提供者,创建、维护、管理和验证IDS参与者的身份信息。其中,IDS连接器充当数据和服务的网关及应用程序和软件的可信环境,跟踪数据来源,允许参与者加入使用策略并强制执行。四是词汇表,提供标准化描述符,使用共享词汇表在语义级上融合不同格式和协议类型的数据。五是清算与结算,提供数据交换和金融交易的清算和结算服务。
一、数据源认证与接入身份认证
(一)源宿地址认证
目的地认证:地址管理机构在分配IP地址时同时签发RPKI(互联网码号资源公钥基础设施)认证证书。
源地址校验:通过监听客户主机与DHCP服务器间交互的报文,获得用户的IPv6地址、MAC地址、接入设备端口等绑定关系,对指定端口的IP报文进行源地址校验。
(二)数据源认证
IPv6可以提供APN6(基于IPv6的应用感知)和iFIT(随流检测)功能,可明确用户身份,支持跨境数据流动管理和路径溯源。
(三)挑战
如何保证IPv6地址字段中用户群ID和意图属性是真实的?
用户群ID和数据包意图过于透明对于数据安全不是好事?
需增加数字证书和零信任架构及属性基加密(ABE)技术实现细粒度访问控制(角色、场景、次数、动态权限)?
二、数据使用约束条件的设置与监督
可信数据空间同时可有多个数据提供方,各自将制定自身数据开放利用的策略,但各数据提供方给出的约束条件差异较大时,将影响可信数据空间的推理结果的有效性,需要建立运营方与各数据提供方关于数据使用策略的协商机制。在数据有偿使用场景下,使用方应参与协商,对数据提供方提出的约束条件有发言权。
在这一方面,现有的挑战是,在可信数据空间中企业往往既是数据提供方也是数据使用方,甚至还是数据运营方,三权分离的机制可能失效,如何保障数据使用约束条件的实施。
三、数据资源目录及检索
(一)数据的分类
数据按格式或结构可划分为结构化、半结构化和非结构化3类,按存储形式可划分为数据库存储、文件存储、流数据、数据服务4类,按敏感程度可划分一般数据和敏感数据2类。此外,数据还可按来源(内部、外部)、生成方式(原生、AI)、使用频度(冷、热)、流规模(大象流、老鼠流)、任务类型(IO密集、CPU密集)、预处理(清洗标注后的熟数据、生数据)等来划分。
(二)从数据包中识别数据类型的方法
一是基于格式或内容识别,包括正则匹配、文本分类、元数据。二是基于存储形式识别,包括结构化、半结构、非结构化。三是应用场景辅助识别,包括日志文件、流数据等。
(三)挑战
一是是否应该在APN6中嵌入标准化的数据分类标识以方便检索?二是如何能得到更细分的数据类型(数据源的归属方、地理位置、生成时间、访问频次等)?三是从管理上希望知道哪些数据是敏感数据,但从安全上希望敏感数据类型不要明示?
四、数据格式和协议转换
(一)推理计算需要统一数据/协议格式
一是格式兼容性。一些框架对应指定输入格式(如TensorFlow要求张量格式),异构数据会中断计算。二是?效率优化。统一格式可减少实时转换的计算开销,提升推理性能。三是?协议一致性。跨系统通信时需统一协议格式(如Protobuf),避免因协议解析错误导致业务异常。
(二)数据格式和协议转换工具
一是可视化操作工具,包括Kettl、用友畅捷通等。二是零代码在线工具,包括ALLtoALL、Convertio等。三是需要编程的工具,包括Xresloader、Dataknead等。
(三)挑战
数据格式和协议转换工具的操作在数据提供方的连接器内实施,但为简化对中小企业连接器的要求,格式转换操作可否在可信数据空间运营方内完成,但如何保证转换时数据不外泄?
五、数据的脱敏保护
(一)数据脱敏技术
去标识化使得非合作接收方无法识别特定自然人,难以还原敏感信息,但合作方可以从中获得敏感信息。匿名化即便合作方也不能从中获得敏感信息,实现隐私有效保护。敏感数据通过差分隐私算法动态脱敏,例如医疗数据共享时隐去患者身份证号末四位。
(二)挑战
一是去标识化所用的加密技术能否等效同态加密以保证推理结果不失真?二是敏感数据在推理计算后的结果往往不具有敏感性,而且沙箱输出时还有脱敏机制,因此敏感数据在进入可信数据空间推理前是否还需脱敏?
六、算力与数据挖掘工具
可信数据空间的算力与数据挖掘工具部署遵循“分层协同、按需调度”原则。
(一)数据提供方/使用方的连接器内
算力方面,集成基础算力模块(如联邦学习引擎、数据清洗工具),支持本地数据预处理和轻量化分析,确保原始数据不出域。例如制造业供应链连接器可运行库存预测模型,基于边缘计算实现实时数据加工。数据挖掘工具方面,预置通用型工具(如数据脱敏引擎、特征提取组件),通过低代码界面简化操作流程,例如通过拖拉配置数据清洗规则。职责方面,提供方通过连接器封装数据接口并声明使用约束,仅开放轻量化本地算力供外部调用。使用方通过连接器申请运营方算力资源,在数字合约下使用工具,所有操作日志实时上链存证。
(二)可信数据空间运营方内
算力方面,通过云平台提供高性能算力资源(如GPU集群、隐私计算节点),支持跨域数据联合建模、大规模数据挖掘等复杂场景。例如部署虚拟沙箱环境,允许数据使用方在受控环境中调用算力工具进行数据价值挖掘。数据挖掘工具方面,搭建工具市场,提供AI模型训练平台、区块链溯源工具、定制化隐私计算工具包等高级功能模块,用户可通过API或订阅服务调用。职责方面,运营方统一管理算力资源调度、工具权限控制及数据流通审计,确保跨域协作符合安全要求。
(三)挑战
一是对可信数据空间所需算力及模型需分内部和外部提供两部分,在异构情况下如何协同?二是中小企业作为数据提供/使用方但其连接器可能不具有基本算力和数据挖掘软件,可信数据空间运营方能否提供连接器所需基本算力和挖掘工具软件而同时保障提供方数据安全?
七、明文计算/解密计算/同态加密计算
(一)明文计算
仅在数据提供方/使用方内部可信执行环境(TEE)或安全沙箱中进行,适用于数据无需跨主体共享的低敏感场景(如企业内部数据分析)。
(二)解密计算
数据使用方在获得明确授权后执行,需配合动态脱敏和权限控制机制,适用于数据使用方可获取密钥(包括ABE)且具备安全防护能力的场景。
(三)同态加密计算
数据使用方在获得明确授权后执行,需配合动态脱敏和权限控制机制,适用于数据使用方可获取密钥(包括ABE)且具备安全防护能力的场景。
(四)挑战
一是解密计算与同态加密计算都在可信数据空间运营方内执行以便原始数据不出域,如何保证运营方也是对数据可管不可见?二是同态加密对算力要求高时延大,挑战有实时性要求的推理任务。
八、数据沙箱和数据安全
数据沙箱通过采用容器化或虚拟机技术构建隔离的虚拟计算环境,实现数据在受限空间内安全使用。数据提供方(策略主导)通过加密策略和数字合约定义数据使用条件并管理密钥。数据空间运营方(发起与控制)构建沙箱底层架构(容器化隔离+TEE+区块链),输出脱敏且加水印可跟踪和加噪反溯源的数据。数据使用方(操作受限)在运营方技术约束下从沙箱调用数据。
在这一方面,现有的挑战一是数据提供方/使用方/运营方的权责边界模糊,数据提供方设定的细粒度权限规则与沙箱的动态访问控制机制可能冲突。二是沙箱需配置容器集群和TEE硬件资源以支撑大规模数据调用,如何平衡成本与性能?
九、使用数据的行为存证和审计
数据提供方/使用方的连接器集成数字合约引擎,解析并执行数据使用规则(如使用次数、时长、用途限制),违规操作实时阻断并触发审计报警。运营方生成跨境合规报告、记录数据访问/计算/输出全流程日志,与区块链平台对接,通过哈希上链,实现合约存证,支持穿透式审计和争议溯源,使用方可以查询但无法篡改或删除审计记录。
(一)数据提供方
对自身数据资源授权范围和使用条件进行合规性审计;通过可信数据空间提供的工具验证数据使用方的访问行为是否符合预设规则。
(二)可信数据空间运营方
主导对数据流通主体身份认证、数据资源发布、跨主体互认等环节的合规性验证;通过区块链实现操作日志实时存证,溯源追责异常行为;提供统一的审计接口和工具,支持各方自主调用。
(三)数据使用方
审计自身在可信数据空间内的数据调用记录,确保符合数据提供方设定的约束条件;对数据加工分析等使用环节的操作日志进行完整性校验,防止二次流转或非授权使用。
(四)监管机构
监管机构依法可调取可信数据空间内的存证记录;;?数据提供方和使用方均可经运营方提供的审计接口查询相关的操作记录及结果;?司法机构以可信数据空间内存证记录作证。
(五)挑战
一是沙箱内隐私计算过程可能因“黑盒化”导致审计链条断裂,难以验证计算合规性。二是目前的审计主要是存证行为合规,但数据合规以及伦理合规难以覆盖。
十、数据跨境流通合规管理
(一)个人信息保护影响评估/数据出境风险自评估:
一是目的/范围/方式等合法性/正当性/必要性;二是出境信息的规模/范围/种类/敏感度/风险;三是境外接收方承诺保护的义务/措施/能力等;四是在境外篡改/破坏/泄露/丢失/非法利用等风险;五是境外个人信息保护政策和法规等。
(二)可信数据空间与跨境数据流动管理
一是连接器集成国际数据合规协议模板(如GDPR),实现自动化合规校验。自动拦截违规操作(如跨境传输未脱敏数据)。二是在跨境数据空间沙箱部署联邦学习中间件,动态适配国内外多重合规框架。三是采用同态加密实现敏感数据只在本地处理,确保在不泄露原始数据的前提下输出满足跨境使用需求的推理结果。
(三)挑战
一是在可信数据空间中如何识别个人信息及未脱敏数据?二是如发现在境外经审查允许出境的合规数据被非法使用时如何通过可信数据空间长臂管辖?
综上所述,可信数据空间是新型数据基础设施,是国家数据要素体系的重要组成部分。推动可信数据空间的部署和应用,将有助于解决大量企业数据不会用、不能用、不敢用的问题,促进数据流通,激活数据要素,发挥数据要素价值。
可信数据空间发展面临不少挑战,既要重视可信数据空间底层关键技术、算法、芯片等自主创新,也要加强对可信数据空间运行模式及相关技术的开发,将可信数据空间的构建与自身网络安全的部署同步实施,通过实践中试点探索,为我国可信数据空间的发展提供坚实保障。目前可信数据空间的应用对中小企业仍然有一定门槛,需要政府与产业链主要企业带动,营造可信数据空间发展应用的生态。