院士觀點 | Data-centric AI 的基礎設施

日期:2025-07-04 18:28    來源:北京市政務服務和數據管理局

分享:
字號:        
  • 院士1
  • 院士1

  7月4日上午,2025全球數字經濟大會數據要素發展論壇在國家會議中心成功舉辦。中國科學院院士鄂維南出席論壇並圍繞“Data-centric AI 的基礎設施”發表主旨演講。

院士觀點 | Data-centric AI 的基礎設施

  鄂維南院士指出,AI發展正在經歷核心轉變,從“拼模型”到“拼數據”,從Model-centric AI(MCAI)到Data-centric AI(DCAI)的範式遷移,數據品質與多樣性成為突破AI能力的核心引擎。

  一、AI發展的核心轉變

  (一)AI發展的趨勢

  過去,AI 的成功和進步,依賴模型創新(如ChatGPT基於2017年的Transformer架構)

  未來的趨勢是,模型創新空間有限,數據品質與多樣性成為AI能力突破的核心。

  當前主流大模型(如GPT、Qwen、DeepSeek)架構高度同質化,性能差異主要源於數據而非模型本身。

  (二)數據是AI的新戰場

  資源枯竭:高品質公開數據消耗殆盡,私有數據與合成數據成為關鍵資源;

  處理低效:數據清洗、標注、評估高度依賴人工(如GPT-4需數百工程師耗時數月);

  企業困境:缺乏專業團隊處理保密性強、結構複雜的私有數據。

  (三)數據驅動的AI新範式

  用一套標準化的數據工具平臺,低門檻、低成本和高效率為AI準備數據。

  數據統一管理:原始數據→數據湖→AI數據庫(結構化+非結構化融合);

  數據智慧處理:自動化數據清洗、合成、評估工具;

  數據動態調度:根據模型反饋實時優化數據;

  (四)模型訓練的主要工作量在於數據的準備

  傳統AI開發中,數據準備佔據90%工作量:多模態數據(文本、圖像、視頻)格式混亂、品質參差、數量不足等問題嚴重制約模型效果。

  Data-centric AI的核心目標是通過標準化工具鏈,將數據準備轉化為自動化、可復用的“數據流水線”。

  二、人工智慧基礎設施

  (一)算力和數據

  在模型結構基本不變的情況下,大模型開發主要取決於大數據和大算力。

  算力基礎設施的底層是GPU和相應的工具,如CUDA。在此基礎上,TensorFlow等工具建立起了模型和算力之間的橋梁。它們一方面讓我們能夠快速簡便地搭建模型,另一方面也對模型的計算效率作了優化。

  在DCAI基礎設施裏,AI數據庫對標GPU作為最底層工具,(拓展了的)SQL+向量生態對標CUDA生態,DataFlow數據準備工具對標TensorFlow等模型搭建工具。在這個思路下,數據湖和數據倉庫就像是算力裏面的CPU。

  (二)AI數據庫

  代表産品:MyScale數據庫(國際首個AI數據庫)

  通過擴展SQL,實現結構化數據、向量、文本、時序、圖數據的異構融合存儲與聯合查詢。

  (三)數據準備工具DataFlow

  DataFlow的核心理念是像TensorFlow搭積木編程模型一樣編程數據:比如TensorFlow通過組合卷積層和激活層等基礎算子得到殘差塊,再堆疊多個殘差塊得到經典的ResNet模型。

  同樣地,DataFlow內置了100+通用處理算子,和20+創新處理算子,結合各個模組的特點以及各種通用和行業算子,針對任務構建算子組合管線。

  以強推理數據合成任務為例,該任務需要組合多個模組的算子:數據處理模組算子包括問題預處理、過濾、基於正確性的問題驗證演算法;數據合成模組算子包括問題合成&擴充、長思維鏈合成、偽答案生成器;數據品質評估模組算子包括合成問題正確性驗證調用、問題難度和類型分類。通過以上算子組合形成的配方最終構成強推理數據合成的管線;

  (四)基於AI數據庫的下一代LLM訓練新範式

  數據湖裏的原始多模態領域數據結構複雜且品質低,通過DataFlow的數據準備得到包含統計資訊的高品質的標準化數據,再通過DataFlex的動態調度來抽取、配比和推薦當前大模型最需要的數據,從而實現大模型的線上訓練。

  這種方式優點有三:基於AI數據庫可以支援高頻數據更新和查詢特點,可以做到訓練數據的實時選擇和知識線上更新。其次,整個訓練過程幾乎無需人工干預,訓練門檻低。最後,AI數據庫裏的知識更容易溯源,模型生成效果更準確安全性也更高。

  三、DCAI基礎設施賦能

  (一)賦能通用大模型預訓練效果

  更短時間:4天時間 vs4個月

  更少資源:用了1/10不到的算力

  更低門檻:自動數據準備 vs. 十幾位演算法工程師手工精心設計取得更好效果

  (二)賦能企業私有模型

  大模型+自動化微調數據準備

  8B RARE 醫療、法律和金融領域模型和 QwQ32B+RAG、GPT-4+RAG 相比,在各項問答指標上均大幅提升。

  實現低成本、高性能解決行業任務,深化推動大模型行業落地。

  (三)賦能專有知識庫和智慧體

  實現低門檻自動知識庫清洗,高效率、大規模知識庫清洗、輔助精確分塊知識檢索效果提升。

您訪問的連結即將離開“首都之窗”門戶網站 是否繼續?

已歸檔