L'High Performance Computing (HPC) (in italiano calcolo ad elevate prestazioni) è in continua evoluzione e, di conseguenza, lo sono anche i carichi di lavoro. Mano a mano che i set di dati diventano più grandi e più complessi, i carichi di lavoro dell'intelligenza artificiale (AI) come il deep learning sono sempre più al centro della scena. Un numero sempre crescente di carichi di lavoro di deep learning viene ora eseguito su sistemi HPC potenti, scalabili e a bassa latenza, risolvendo problematiche inimmaginabili dieci anni fa. I tradizionali carichi di lavoro HPC di scienze biologiche, produzione digitale, petrolio e gas, finanza e così via sono alimentati dal deep learning per generare informazioni più significative dai dati in meno tempo e con maggiore precisione. Intel è totalmente consapevole del ruolo critico che oggi svolgono i metodi di intelligenza artificiale per i carichi di lavoro HPC. Per soddisfare le esigenze di addestramento e soprattutto agevolare un processo decisionale più veloce per i modelli di AI, Intel ha collocato in primo piano questi carichi di lavoro con la nuova linea di processori scalabili di 2a generazione Intel® Xeon®.
I processori scalabili di 2a generazione Intel® Xeon®
I processori scalabili di 2a generazione Intel® Xeon® offrono una serie di funzionalità nuove e migliorate, tra cui la possibilità di implementare la memoria persistente Intel® Optane™ DC, maggiori velocità delle DRAM, maggiore capacità di elaborazione per set di istruzioni tradizionali come FP32 a precisione singola e nuova funzionalità di elaborazione per i carichi di lavoro di deep learning con il nuovo set di istruzioni Intel® Deep Learning Boost.
Deep Learning Boost sui processori scalabili di 2a generazione Intel® Xeon®
Il deep learning è il processo di sviluppo di modelli che utilizzano reti neurali artificiali costituite da molte unità di elaborazione indipendenti, o neuroni, connesse in un grafico ad alta densità. Le reti neurali hanno dimostrato una straordinaria capacità di identificare modelli sconosciuti o imprevisti in tutti i tipi di dati e sono stati applicati a domini che vanno dal riconoscimento e dall'analisi di immagini e video alla trasformazione dell'audio e della lingua, fino all'analisi del rilevamento di dati e anomalie di serie temporali.
Il processo di utilizzo delle reti neurali per lo sviluppo di modelli d'avanguardia è suddiviso in due fasi: addestramento, in cui i dati esistenti vengono utilizzati per insegnare alla rete neurale a identificare i modelli, e inferenza, dove il modello addestrato viene esposto a nuovi dati e ci si aspetta che prenda decisioni appropriate. In più, se da una parte il processo di addestramento delle reti neurali è al centro dell'innovazione hardware e software da diversi anni, è nell'inferenza che le aziende ricevono vantaggi dalla loro attività di intelligenza artificiale.
L'inferenza ha requisiti hardware diversi rispetto all'addestramento. L'addestramento richiede operazioni di aritmetica in virgola mobile a "mezza precisione" o a precisione singola e la possibilità di elaborare contemporaneamente molti vettori di grandi dimensioni di dati simili. L'inferenza ha requisiti di elaborazione totali molto inferiori, si concentra maggiormente sulla latenza (time-to-decision) e può utilizzare formati numerici a precisione inferiore, ad esempio numeri interi a 8 e 16 bit.
La linea di processori scalabili di 2a generazione Intel® Xeon® si concentra principalmente su questa seconda fase (inferenza), con una funzionalità completamente nuova, nota come Deep Learning Boost. Intel® Deep Learning Boost offre una ridotta precisione aritmetica (numeri interi a 8 e 16 bin) alle unità Xeon a 512 bit (Wide Vector Unit) (AVX512). Si tratta di un'enorme capacità per l'inferenza a precisione ridotta, in quanto i processori Intel® Xeon® compatibili con Deep Learning Boost sono in grado di elaborare simultaneamente 64 interi a 8 bit (o 32 interi a 16 bit) con un'unica istruzione hardware Se tutto questo si unisce alla possibilità di eseguire operazioni fused come le operazioni Fused Multiply-add (FMA) su questi vettori a bassa precisione e il throughput del sistema aumenta notevolmente.
Dell EMC ha analizzato i miglioramenti delle prestazioni realizzabili con Intel® Deep Learning Boost per l'inferenza della rete neurale. La figura sopra riportata mostra la misura del miglioramento che l'azienda potrebbe ottenere implementando i processori scalabili di 2a generazione Intel® Xeon® con la tecnologia Intel ®Deep Learning Boost. Mentre i processori scalabili di 1a generazione Intel® Xeon® (in codice "Skylake") sono in grado di elaborare 258 immagini al secondo nel benchmark di inferenza ResNet-50 a precisione singola (FP32) e 389 immagini al secondo con precisione di intero a 8 bit ridotta, le nuove istruzioni che il Deep Learning Boost porta ai processori scalabili di 2a generazione Intel® Xeon® possono superare il triplo del throughput con una precisione intero a 8 bit fino a 1278 immagini al secondo
Perché questo è importante
Cosa significa questo per la tua azienda? Ogni inferenza che il tuo modello di intelligenza artificiale esegue è un'informazione strategica che prima non avevi o un carico di lavoro automatizzato che elimina l'ostacolo per una decisione. Ciascuna di queste informazioni strategiche, ognuno di questi ostacoli rimossi, può tradursi in una nuova vendita, in un upsell aggiuntivo o in una decisione di investimento più rapida. Si tratta di denaro nella cassa dell'azienda.
Dal momento che le aziende subiscono la trasformazione digitale, l'utilizzo dell'intelligenza artificiale e in particolare del deep learning sarà fondamentale per restare competitivi in un mondo basato sui dati. Inoltre, se da una parte l'addestramento dei modelli di intelligenza artificiale è stato centrale in questa fase iniziale, l'inferenza è il modo in cui le aziende potranno davvero ottenere i vantaggi dell'intelligenza artificiale. I server Dell EMC PowerEdge con processori scalabili di 2a generazione Intel® Xeon® con Intel® Deep Learning Boost possono aiutare la tua azienda a realizzare il pieno potenziale dell'intelligenza artificiale attraverso un'inferenza dei modelli a prestazioni superiori. E prestazioni superiori si traducono in migliori risultati per l'azienda.