國內第一個人工智慧數據訓練基地、北京最大的公共算力平臺同日啟用 最強算力設施練就“最強大腦”

日期:2024-03-30 09:42    來源:北京日報

分享:
字號:        

  如果把人工智慧大模型比作一位小學生,那麼數據訓練時所用的“語料”和“算力”,就相當於小學生“刷題”時使用的習題冊和計算器,幫助他掌握知識點、更快給出正確答案。

  如今,北京的大模型有了更全面的“習題冊”、更強大的“計算器”。3月29日,國內第一個人工智慧數據訓練基地、北京規模最大的公共算力平臺在經開區正式啟用,二者聯合起來,將幫助大模型領域企業,特別是初創企業練就“最強大腦”。

  北京最大公共算力平臺“點亮”

  國家信創園,一排排黑色的機櫃閃爍著GPU伺服器特有的光亮。對於許多大模型創業團隊而言,這些燈閃起來,心裏才算踏實。這意味著大模型開啟了訓練時刻。

  3月29日,北京亦莊人工智慧公共算力平臺正式點亮,算力規模在北京最大,可提供算力3000P。1P相當於每秒1000萬億次的計算速度。也就是説,這裡每秒就進行300億億次的計算,相當於超過百萬台高性能電腦的算力。

  “大模型最需要穩定的算力。”推出大模型産品已有三年的人民中科公司CEO侯黎明更真切地體會到算力的可貴。即便該公司的大模型已在政務服務等領域應用,但每隔一段時間就需要迭代升級,這就需要算力進行訓練了。過去,他需要四處尋找GPU卡,湊出來的算力並不穩定,有時候算力也不行。

  這是許多大模型企業面臨的問題,特別是初創團隊更是被算力扼住“喉嚨”。為此,近兩年本市佈局建設了多處公共算力平臺。這就像電力公司給供電一樣,只不過這些機櫃裏提供的是算力。因為規模大、穩定,所以公共算力可提高訓練的效率,進而降低大模型訓練耗費的時長。以往企業自己要算幾個月的事,在這裡十幾天就能搞定。

  “經開區規劃了超10000P的算力規模。”經開區相關負責人説,未來將推出支援政策,為人工智慧企業提供公共普惠的算力、創新領先的算網服務、細緻完善的解決方案,助推大模型訓練和行業應用。

  “監管沙盒”保障大模型訓練

  大模型的自我學習仰仗訓練。同日啟用的北京人工智慧數據訓練基地裏,已經有多款大模型正練就“最強大腦”。訓練中,大模型依靠基地“投喂”的語料,像學生“刷題”一樣不斷提升自己的能力,從而在未來上線後應付現實中的各種難題。

  這是國內最早啟用的人工智慧數據訓練基地,可以組織數據供給方、加工服務方、模型訓練方“進場”合作,推動高品質數據價值釋放,助力通用模型和行業垂類模型訓練精調。

  成為“第一個”,不只依靠算力這種“硬體”,更需要打通數據確權、安全等方面的機制。由於近些年在國內剛剛興起,當前沒有一套可以照搬模倣的模版,很多東西只能獨創。

  “訓練基地要幹的,不只是訓練。”運營訓練基地的北京亦莊智慧城市研究院公司總經理顏敏解釋,使用數據時會面臨所有權歸誰、是否可信、如何保障安全、收益如何分配等各種問題,都需要建立機制來規範。為此,基地針對大模型訓練的數據合規和場景應用了“監管沙盒”機制,為新技術創新迭代提供開放包容的政策保障,免除後顧之憂。

  數據不像普通的商品,使用方一旦獲得會不會複製外泄?為此,基地裏專門的存儲設備能讓數據“可用不可見”。從採集到存儲,再到初加工、精加工,最後到模型訓練,整個鏈條都是在訓練基地進行,跑不出去。“一旦發生糾紛,也有解決的兜底機制,邀請網際網路法院、知識産權局等來幫忙協調。”顏敏説。

  “1億算力券+1億模型券”服務企業

  人工智慧時代,算力成本決定創新成本。大模型的訓練、算力使用都要面臨一筆不小的支出,初創企業能否應付得了?

  “我們每年會發放1億元算力券,企業可申領用於算力租用,即領即享。”北京經開區管委會主任孔磊介紹。近日,經開區專門發佈了《關於加快打造AI原生産業創新高地的若干政策》,從推動算力賦能産業發展、構建高效協同創新體系、高水準建設北京數據基礎制度先行區、推動人工智慧應用場景賦能與開放、打造人工智慧産業集聚區、優化産業發展生態6個方面提出14條具體措施。

  除了算力券,亦莊每年還會發放1億元模型券,對購買技術自主可控基座大模型産品及服務進行補貼;開展“大模型+”行動,在自動駕駛、具身智慧、醫藥健康、工業製造等領域開放高品質應用場景,推動AI賦能千行百業。

  通過政策整合與創新,亦莊將持續推進人工智慧核心技術取得重大突破,全面構建自主可控軟硬體人工智慧産業生態。到2026年,亦莊將培育性能達到國際先進水準的通用大模型,打造人工智慧標桿應用場景10個,集聚人工智慧産業鏈企業100家,實現園區營業收入1000億元,建成人工智慧算力10000P。(曹政)

您訪問的連結即將離開“首都之窗”門戶網站 是否繼續?

已歸檔