數(shù)據(jù)家,idc官網(wǎng),算力,裸金屬,高電機房,邊緣算力,云網(wǎng)合一,北京機房,北京云計算,北京邊緣計算,北京裸金屬服務器,北京數(shù)據(jù)服務器,北京GPU服務器,高算力服務器,數(shù)據(jù)機房相關技術新聞最新報道
生成式AI和各種大模型給我們帶來全新的應用體驗,也對算力提出了更高的需求。對于數(shù)據(jù)中心運營管理者而言,由于GPU服務器的功率密度大幅提升,對數(shù)據(jù)中心的制冷設備和技術提出了更高要求。因此,他們除了關注算力本身之外,也更加關注數(shù)據(jù)中心功耗與散熱所帶來的各種問題。
在AI算力需求的強力驅(qū)動下,數(shù)據(jù)中心GPU服務器的數(shù)量大幅增加,所帶來的功耗問題日益突顯。我們知道,數(shù)據(jù)中心單機柜風冷的極限總功率為15kW,在機柜上架率不變下,GPU服務器所帶來的功率增長已經(jīng)逼近單機柜的極限值。然而,GPU的功耗還在不斷地增長。
今年NVIDIA GTC2024上,英偉達正式發(fā)布了GB200旗艦級GPU,這款產(chǎn)品包括兩個 GPU內(nèi)核,每個內(nèi)核功耗約為1200W,同時還擁有兩個Arm CPU,功耗在300W左右,那么僅僅這個產(chǎn)品的總功耗就達到了恐怖的 2700W左右。不難發(fā)現(xiàn),面對高功耗高密度場景,傳統(tǒng)的風冷顯然已經(jīng)無法滿足能耗和散熱需求,液冷技術以超高能效、超高熱密度等特點,成為智算中心溫控解決方案的必選項。
idc網(wǎng),算力,裸金屬,高電機房,邊緣算力,云網(wǎng)合一,北京機房,北京云計算,北京邊緣計算,北京裸金屬服務器,北京數(shù)據(jù)服務器,北京GPU服務器,高算力服務器,數(shù)據(jù)機房根據(jù)IDC的預測,2022-2027年,中國液冷服務器市場年復合增長率將達到54.7%,2027年市場規(guī)模將達到89億美元。
北京最新發(fā)布的《北京市算力基礎設施建設實施方案(2024—2027年)》對智算中心運營綠色化提出了明確的指導意義,指出本市新建和改擴建智算中心PUE值一般不超過1.25,年能耗超過3萬噸標煤的大規(guī)模先進智算中心PUE值一般不超過1.15。推進本市存量數(shù)據(jù)中心升級改造,到規(guī)劃期末所有存量數(shù)據(jù)中心PUE值均不高于1.35。
今年初,上海市通信管理局等11個部門聯(lián)合印發(fā)《上海市智能算力基礎設施高質(zhì)量發(fā)展 “算力浦江”智算行動實施方案(2024-2025年)》(以下簡稱《方案》)提出,到2025年,本市智能算力規(guī)模超過30EFlops,占比達到總算力的50%以上。其中,在綠色智算效能方面,《方案》要求到2025年,市新建智算中心PUE值達到1.25以下,存量改造智算中心PUE值達到1.4以下。智算中心內(nèi)綠色能源使用占比超過20%,液冷機柜數(shù)量占比超過50%。
實際上,浪潮、曙光、聯(lián)想等服務器廠商都在先后投入到液冷技術的研發(fā)上,并推出了自己的專利產(chǎn)品。
液冷散熱系統(tǒng)的主要優(yōu)勢在于較高的散熱效率和更低的能耗。
我們知道,在傳統(tǒng)風冷數(shù)據(jù)中心中,用于設備制冷散熱的能耗高達40%,且散熱效率并不高。受其限制,數(shù)據(jù)中心常規(guī)風冷一般設計為8-10kW的單機柜密度。由于液冷技術的導熱能力是空氣的25倍,帶走熱量是同體積空氣的近3000倍,可輕松擁有30kW以上的單機柜密度。
與此同時,部署液冷散熱系統(tǒng)之外,由于數(shù)據(jù)中心不再需要部署大量的空調(diào)制冷系統(tǒng),因此能夠節(jié)省大量的空間,進一步提高在單一機房內(nèi)的機柜部署密度,提升數(shù)據(jù)中心單位面積利用率。
雖然數(shù)據(jù)中心液冷散熱系統(tǒng)擁有諸多的優(yōu)勢,但同樣存在許多挑戰(zhàn)。目前來看,主要存在以下幾個方面的難題:
一是缺乏統(tǒng)一標準。無論是冷板式液冷技術,還是浸沒式液冷技術,目前行業(yè)還沒有一個統(tǒng)一的技術和建設標準,雖說百花齊放的狀態(tài)更有利于技術的發(fā)展,但同時不同的標準也給企業(yè)帶來了選擇難題和后期管理維護難題。
二是建設成本過高。相較于傳統(tǒng)的風冷式散熱,液冷數(shù)據(jù)中心的建設成本仍舊過高。另外,在一些老舊數(shù)據(jù)中心的改造方面,投入成本過高。
三是后期管理維護難度大。液冷技術發(fā)展快,且缺乏統(tǒng)一的技術和建設標準,給后期管理維護帶來了較大的難題。
四是安全問題。由于材料、制造工藝、連接方式、維護使用等多種因素的影響,冷板與電芯之間的密封性可能會導致冷卻液泄漏的風險。泄漏不僅會損害系統(tǒng)的性能和可靠性,還可能對周圍環(huán)境造成污染和安全隱患。
目前,主要的液冷散熱技術主要有以冷板液冷系統(tǒng)為代表的間接液冷技術和以浸沒式液冷系統(tǒng)為代表的直接液冷技術。由于兩者在散熱設計上不同,散熱效率也有著很大的不同。
一)間接液冷散熱技術
間接散熱技術是通過冷板等介質(zhì)與CPU、內(nèi)存、GPU、硬盤等表面進行接觸,利用冷卻液的流動,將熱量帶走。除了冷板等介質(zhì)之外,間接液冷散熱技術還包括熱交換器、管路、泵、冷卻液、控制系統(tǒng)等部件。
目前,冷板式液冷系統(tǒng)已經(jīng)成為間接液冷散熱技術的主要解決方案。間接液冷散熱技術的主要優(yōu)勢在于不需要改變現(xiàn)有服務器的形態(tài),設計技術難度低,部署難度相對較小,后期運維管理難度相對較低。此外,由于冷卻介質(zhì)大都采用乙二醇水溶液,成本更低。
不足之處在于散熱效率相對較低,并且由于組件較多,故障率相對要高一些。目前,冷板式液冷系統(tǒng)已經(jīng)成為大部分數(shù)據(jù)中心的選擇方案。
二)直接液冷散熱技術
直接液冷技術是將CPU、GPU、主板、內(nèi)存等直接與冷卻液進行接觸,通過冷卻液體直接流經(jīng)硬件表面吸收并帶走熱量。目前,直接液冷散熱技術有浸沒式液冷系統(tǒng)和噴淋式液冷系統(tǒng),根據(jù)冷卻介質(zhì)是否發(fā)生相變又可分為單相浸沒式和相變浸沒式。
與間接散熱技術相比,直接液冷技術的液體與熱源之間沒有中間傳導介質(zhì),熱量能夠更直接地傳遞到液體中,因此散熱效率更高。不過,直接液冷技術由于需要對整個數(shù)據(jù)中心進行重新改造與設計,因此難度更高,部署成本也更大。
目前,直接液冷技術主要用于對散熱效率要求較高的場景中。
毋庸置疑,液冷散熱系統(tǒng)一定是數(shù)據(jù)中心未來主流的散熱技術。
目前來看,冷板式液冷系統(tǒng)由于更加成熟,因此將成為率先進入數(shù)據(jù)中心的主流液冷散熱技術,而影響冷板式液冷散熱技術普及的成本、運維、安全等問題,也將隨著技術的發(fā)展,以及標準的統(tǒng)一得以解決。
當然,隨著技術的不斷發(fā)展,浸沒式液冷系統(tǒng)也將被廣泛應用到高密度的新建數(shù)據(jù)中心,進一步提高數(shù)據(jù)中心的散熱效率,并大幅提升算力水平。