Norges største universitetseide superdatamaskin er bygget nesten utelukkende med Dell-maskinvare

Nå får NTNU-ansatte, forskere og studenter tilgang til enorm beregningskapasitet til avanserte eksperimenter innenfor blant annet kunstig intelligens og nanoteknologi.

Mange forskningsprosjekter krever tilgang til kraftige superdatamaskiner, for eksempel til simulering av ulike fysiske prosesser, opptrening av nevrale nettverk innenfor maskinlæring, eller big data-analyse. 

Norges teknisk-naturvitenskapelige universitet (NTNU) har i løpet av de siste fem årene bygget det som blir Norges største universitetseide «superdatamaskin», Idun. I disse dager utvides kapasiteten kraftig, med servere fra Dell Technologies utstyrt med kraftige datasenter-GPU-er fra NVIDIA.  

Takket være den nye maskinen kan ansatte og studenter ved NTNU i løpet av få minutter få tilgang til den beregningskapasiteten de trenger til sine prosjekter. 

– Vi har levert alt via vår partner Move AS – og NTNU har utelukkende benyttet Dell-utstyr når de har bygget opp Idun. Vi i Dell Technologies jobber jo med mange ulike kunder, men jeg synes det har vært spesielt moro å jobbe med NTNU på et så spennende prosjekt som dette og se hva de får til, sier Edvard Kristian Edvardsen, Data Center Sales Executive i Dell Technologies.  

Innenfor kunstig intelligens og maskinlæring er grafikkprosessorer (GPU-er) viktigere enn tradisjonelle prosessorer (CPU-er), ettersom GPU-ene har vist seg å være svært raske og effektive på den typen beregninger som brukes innenfor kunstig intelligens. Det er også grunnen til at NVIDIA har satset mye på kunstig intelligens, og til og med har utviklet sin egen ende-til-ende-plattform spesiallaget for akselerering av kunstig intelligens.  

Dell-serverne som er levert til NTNU benytter for øyeblikket til sammen 160 NVIDIA datasenter-GPU-er. GPU-ene er hovedsakelig av typen NVIDIA Tesla V100 og A100, som er de mest avanserte datasenter-GPU-ene laget for å akselerere kunstig intelligens. I tillegg består Idun av fire såkalte FPGA-er (Field Programmable Gate Array), som er en spesiell type brikke der man kan programmere hvordan brikken fungerer helt ned på logikknivå. Enkelt forklart kan man altså konstruere sin egen elektroniske brikke ved hjelp av programkode, i motsetning til en tradisjonell CPU eller GPU der logikken ikke kan endres.   

Hundre til tusen ganger større simuleringer 

Idun er et samarbeid mellom fakultetene på NTNU og IT-avdelingen, hvor målet er å tilby en «compute»-plattform med høy oppetid og som er profesjonelt administrert. Idun skal gjøre det mulig å raskt teste ut og lage prototyper av HPC-programvare – altså programvare for «High Performance Computing», eller superdatamaskiner på godt norsk.  

Gunnar Tufte
Gunnar Tufte er professor ved NTNUs Institutt for datateknologi og informatikk (IDI). Foto: NTNU

Alle fakulteter eller avdelinger kan kjøpe seg inn i klyngen ved å finansiere kapasitet. Per i dag er det NTNUs Institutt for datateknologi og informatikk (IDI) som har finansiert den største andelen.   

Gunnar Tufte er professor ved IDI, og forteller at den nye datamaskinklyngen er et fantastisk forskningsprosjekt som vil bli brukt til mye mer enn bare kunstig intelligens og maskinlæring. 

– I min forskningsgruppe bruker vi det for eksempel til enorme simuleringer innenfor nanoteknologi. Med Idun kan vi gjøre hundre til tusen ganger større simuleringer enn vi har kunnet tidligere, forteller Tufte. 

Han forteller videre at bruksområdene er mange, og at Idun brukes av både ansatte og studenter som har behov for regnekraft til ulike former for simuleringer og analyser. For eksempel bruker fysikere maskinen til å gjøre analyser og simuleringer ned på atomnivå, mens andre bruker det til språkforskning, finansielle simuleringer, og så videre.  

Sparer penger på å ha infrastrukturen på huset 

Senioringeniør Einar Næss Jensen ved NTNU mener det å gi alle ansatte og medarbeidere enkel tilgang til en infrastruktur som Idun gir en veldig god ressursutnyttelse. Det var aldri et godt alternativ å kjøpe beregningskapasitet hos noen av de store skyleverandørene. 

Gunnar Tufte ved IDI er enig: 

– Det hadde blitt fryktelig dyrt å ikke ha dette selv. Prisene vi fikk hos en offentlig skytilbyder tilsier at det fort kunne kostet 4,5 millioner kroner å kjøre et stort eksperiment. Det er mye billigere å ha det på huset, og investeringene betaler seg fort, sier Tufte. 

Ved å ha en felles infrastruktur, sikrer man at kapasiteten blir utnyttet mest mulig effektivt. 

– Når maskinen er ledig, er det bare å logge seg på og bruke den. Kanskje masterstudenten ikke visste at vedkommende trengte beregningsressurser da de startet masteroppgaven og ikke hadde planlagt for dette, sier Næss Jensen. 

Med en felles infrastruktur unngår NTNU at enkeltforskere og avdelinger kjøper inn egne maskiner.  

– Det er stor overhead på å få dette opp å kjøre, og slikt utstyr blir ofte også stående og samle støv, sier Næss Jensen. 

Han forteller at det er svært viktig for NTNU å ha en infrastruktur som gjør at de kan være en attraktiv partner for forskere. 

– Regner vi på GPU-timer, er dette en gullgruve. NTNU har nå ressurser man ikke har tilgang til andre steder, og det er viktig for oss å ha en lokal ressurs som dette. 

Han understreker at det finnes kraftigere superdatamaskiner i Norge som er en del av en nasjonal infrastruktur, som Sigma 2. Men Idun er så vidt han bekjent den største superdatamaskinen innenfor høyere utdanning – eid av utdanningsinstitusjonen selv. 

– Det skal være et lavterskeltilbud til NTNU-ansatte og studenter. En del bruker Idun til det vi kaller «rapid prototyping», der de lager prototyper på Idun, før de sender alt til de aller største HPC-maskinene senere. På Idun får de rask aksess og det er ingen køtider å snakke om. Har du kjøpt en andel i maskinen, har du garantert tilgang, sier Næss Jensen.  

Gjenbruker maskinvare – og overskuddsvarme 

Når den kraftige maskinvaren har gjort nytten sin i et gitt antall år, og kanskje er modent for utskiftning, så er maskinvaren fortsatt mer enn kraftig nok til at den kan brukes til andre og mindre beregningsintensive oppgaver.  

– Sett fra et miljøperspektiv er dette bra. Vi kan da flytte dem over i annen infrastruktur som ikke har de samme kravene, og vi får økt levetid på maskinvaren, sier Tufte. 

Datamaskiner som dette utvikler mye varme. Næss Jensen forteller at overskuddsvarmen fra Idun benyttes til oppvarming. 

– Alt av varme fra Idun-maskinen blir utnyttet. Det går inn i en varme-/kjølering som NTNU har på Gløshaugen. 

Han er svært fornøyd med samarbeidet universitetet har hatt med Dell i det krevende prosjektet.  

– For oss er det viktig å ha en stabil leverandør, og kunne forholde seg til én leverandør. Det gjør ting enklere, også driftsmessig og logistikkmessig. Dell har alltid stilt opp og jobbet hardt for at vi skal få til det vi ønsker, avslutter Næss Jensen. 

For mer informasjon, ta kontakt med Dell Technologies

Fakta om Idun  

Idun er en datamaskinklynge ved NTNU i Trondheim som totalt består av rundt 160 datasenter-GPU-er fra NVIDIA og 4 FGPA-er. Løsningen er bygget opp av blant annet Dells DSS 8440-plattform som er spesiallaget for akselerasjon av maskinlæring og som støtter opptil 10 NVIDIA Tesla V100-GPU-er per maskin. I tillegg benyttes også Dell PowerEdge-rackservere utstyrt med NVIDIA Tesla V100- og Tesla P100-GPU-er. Nodene i klyngen er koblet sammen via to nettverk, et Ethernet-nettverk og ett høyhastighets Infiniband-nettverk. GPU-nodene kommuniserer også via NVIDIA NVLink, som gir en vesentlig raskere kommunikasjon mellom GPU-ene (eller fra GPU til CPU) enn PCIe-baserte løsninger. 

Det er kjørt mer enn 5 millioner jobber på Idun siden oppstart, med 2,5 millioner det siste året.