Förbereda datacentret för GenAI-världen

”Vi är inte i Kansas längre” – Dorothy i ”Trollkarlen från Oz”

När man kliver in i världen av generativ AI (GenAI) är det som att kliva in i en ny värld, som är full av unika utmaningar och möjligheter. Precis som Dorothy behövde hjälp för att hitta rätt i Oz måste organisationer förbereda sina datacenter för att hantera kraven från AI-infrastrukturen.

Smaragdstadens beräkningskrav

Distribution av AI-infrastruktur innebär stora utmaningar. Den första är beräkningskraven, där modellträning utgör den tyngsta delen. Även för organisationer som inte tränar modeller från grunden utgör beräkningskraven för en stor språkmodells inferens, plus vektorinbäddning för Retrieval Augmented Generation (RAG) och finjustering, betydligt mer än det som används för dagens program.

För att uppfylla dessa krav är den fysiska storleken, vikten, kablarna, nätverket, strömförbrukningen och kylningsegenskaperna hos GPU-drivna generativa AI-servrar flera gånger större än motsvarande specifikationer för standardservrar. Det krävs noggrann planering för att organisationer ska få igång den här AI-infrastrukturen i sina datacenter.

Ett exempel är Dell PowerEdge XE9680-servern, som Dell har validerat för inferensanvändningsfall, en 6U-server med 8 NVIDIA H100-GPU:er. Tack vare dess robusta konstruktion och kylningskapacitet väger den här servern nästan 100 kg. Ett rack med 4 XE9680-servrar förbrukar 20–40 kW ström, innehåller mer än 100 kablar och väger omkring 450 kg.

Beroende på behoven och omfattningen för AI-distributionen kan du välja att följa rekommendationerna som beskrivs i den här bloggen på ditt datacenter som helhet eller på en dedikerad AI-del av datacentret.

Fågelskrämmans hjärna: datacenterkapacitet

I den klassiska berättelsen säger Fågelskrämman att han behöver en hjärna och hans plan är att följa Dorothy och hitta trollkarlen. I AI-infrastrukturvärlden är det viktigt att ha en plan för datacenterstorlek och utrymmesallokering för server- och rackinstallation, luftflödesoptimering och underhåll.

Distributionsspecialisterna hos Dell Services kan samarbeta med ditt team för att utforma utrymmet så att det kan hantera ett stort antal AI-infrastrukturrack på ett effektivt sätt och tillhandahålla ytterligare kapacitet för framtida expansion.

Det är viktigt att ordna racken så att de gör det möjligt att enkelt komma åt servrar och infrastruktur för underhåll om man vill ha en bra datacenterdesign, vilket även gäller AI-infrastruktur. Teamen bör ta fram ett schema för regelbundet underhåll som ska följas, inklusive regelbundna kontroller och byte av luftfilter, fläktar och kylaggregat efter behov.

Lejonets mod: effektiv hantering av luftflödet

Luftflödet är avgörande för att hantera den värme som servrar och infrastruktursystem genererar. AI-infrastruktur förbrukar mycket mer ström än traditionella servrar, vilket genererar mer värme och gör luftflöde och kylning ännu viktigare.

Organisationer bör använda strukturerade strategier för hantering av luftflödet, t.ex. inneslutning av varma och kalla gångar, samt att rikta kall luft direkt in i serverintag och rikta varm utblåsluft bort från utrustningen. Detta ökar kylningseffektiviteten och sänker energikostnaderna.

Plåtmannens hjärta: avancerad kraft och kylning

Till GPU-servrar med hög densitet är det viktigt att utvärdera ström- och kylningsbehoven. Planeringen bör omfatta bedömningar av det totala effektbehovet nu och i framtiden, för att säkerställa att det finns tillräckligt med resurser och reservsystem på plats för att stödja verksamheten utan avbrott. Datacenter som inte har utformats för AI-infrastrukturens högre krav riskerar att inte vara utrustade för att hantera GPU-täta servrar.

Överväg att investera i den senaste strömförsörjnings- och transformatortekniken som ger högre effektivitetsklassning. Dessa sänker inte bara energiförbrukningen utan minimerar även miljöpåverkan från datacentrets verksamhet. Använd avbrottsfri strömförsörjning (UPS) för nödström och energieffektiva strömfördelningsenheter (PDU) för att hantera och fördela ström effektivt i datacentret.

Dells team hjälper dig att bedöma kylbehovet för att hantera värmen som genereras av tunga AI-arbetsbelastningar. Det är inte säkert att traditionell luftkylning räcker till i takt med att AI-arbetsbelastningarna intensifieras. Implementering av vätskekylningslösningar kan minska det termiska fotavtrycket avsevärt, möjliggöra effektivare bortledning av värme och möjliggöra stabilitet och livslängd för konfigurationer med högre densitet.

Totos väg: kabelkomplexitet, layout och organisation

Vi får inte glömma Toto! Precis som när Toto ska hitta rätt väg genom det komplexa Oz omfattar vår AI-implementeringsmetod genomtänkta kabelhanteringslösningar som stöder ledning och värmehantering. Transportsystemen bör utformas för att separera ström- och datakablar, minimera störningar och förbättra både säkerheten och systemets tillförlitlighet.

I racket är det viktigt att skapa ordning för att förhindra att luften blockeras och göra det lätt för teknikerna att hitta rätt kabel. Dåligt dragna kablar kan göra att värme byggs upp och kan orsaka problem med switchinfrastruktur.

Dessutom innebär konfiguration av en ”pod” för Gen AI ofta att ett nätverksrack används till flera GPU-serverrack, vilket ger fler och längre kablar mellan racken. För att uppnå en systematisk organisation av denna större mängd kablar och anslutningar omfattar bästa praxis design och implementering av ett strukturerat kabel- och märkningssystem.

För att möjliggöra framtida tillväxt bör du installera justerbara kabelhanteringssystem som modulpaneler och justerbara rack. Dells AI-paket med professionella AI-tjänster omfattar driftsättningstjänster för infrastruktur som hjälper till med layout och hantering för kablar.

För att förenkla driftsättning på plats ytterligare kan Dell bygga, konfigurera, kabeldra och testa AI-infrastrukturen på fabriken, vilket avsevärt minskar mängden arbete som behöver utföras på ditt datacenter.

Dorothys visdom: överväganden vid bortskaffande av förpackningar

Vi på Dell är medvetna om de miljömässiga och logistiska konsekvenserna när det gäller att göra sig av med förpackningsmaterial. Välj återvinningsbara eller biologiskt nedbrytbara material för kabelförpackningar och implementera kasseringsprotokoll som prioriterar hållbarhet, vilket hjälper till att uppfylla lagstadgade krav och förbättra datacentrets miljöprofil.

Organisationer bör också utvärdera sina datacenter för att hitta möjligheter att minska strömförbrukningen (och relaterade kylbehov) för befintlig infrastruktur. Det kan bidra till att kompensera för vissa av behoven hos AI-infrastrukturen och minska koldioxidavtrycket.

Dells lösningar strävar efter att minimera avfall och hantera kasseringskostnader på ett effektivt sätt, så att distributionen av AI-infrastrukturen är lika miljövänlig som den är tekniskt avancerad.

Följ den gula tegelvägen till ett AI-redo datacenter

Precis som huvudpersonerna i ”Trollkarlen från Oz” övervann sina utmaningar med lite hjälp från sina vänner kan Dell Technologies hjälpa din organisation att ta er igenom resan mot ett GenAI-redo datacenter tack vare planering och support från experter.

Om du vill veta mer om hur du förbereder ditt datacenter för den nya AI-världen kan du se Dell Professional Services för GenAI eller kontakta din Dell-representant.

About the Author: Matt Liebowitz

Matt Liebowitz is the Global Multicloud lead for the Dell Technologies Consulting Services Portfolio. He focuses on thought leadership and service development for multicloud, automation and data center related Consulting services. Matt has been named a VMware vExpert every year since 2010 and is a frequent blogger and author on a wide range of cloud related topics. Matt has been a co-author on three virtualization-focused books, including Virtualizing Microsoft Business-critical Applications on VMware vSphere and VMware vSphere Performance. He is also a frequent speaker at the VMware Explore and Dell Technologies World conferences.