Indicazioni sulla scelta dell’hardware per Data Science

Create grafica, video e altro ancora straordinari con facilità utilizzando i nostri sistemi affidabili e ad alte prestazioni. Dedicate più tempo alla creazione e meno all’attesa.

Scienza dei dati – Requisiti di sistema

La scienza dei dati e l’analisi dei dati sono abbinate a metodi di apprendimento automatico, quindi ci sono alcune somiglianze con le nostre raccomandazioni hardware per ML/AI. Tuttavia, l’analisi dei dati, la preparazione, il munging, la pulizia, la visualizzazione, ecc. presentano sfide uniche per la configurazione del sistema. L’estrazione, la trasformazione e il caricamento (ETL) e l’analisi esplorativa dei dati (EDA) sono componenti fondamentali dei progetti di apprendimento automatico, oltre a essere indispensabili nei processi aziendali e nelle previsioni.

Processore (CPU)

Quale CPU è la migliore per la scienza dei dati?

Le due piattaforme CPU consigliate sono Xeon W di Intel e Threadripper PRO di AMD. Entrambi offrono un numero elevato di core, eccellenti prestazioni e capacità di memoria e un gran numero di corsie PCIe. Nello specifico, le versioni a 32 core di entrambi sono consigliate per il loro utilizzo e le prestazioni di memoria bilanciate.

Un numero maggiore di core della CPU rende i flussi di lavoro di data science più veloci?

Il numero di core scelti dipenderà dal carico previsto e dal parallelismo delle attività nel flusso di lavoro. Un numero maggiore di core può anche consentire più processi simultanei. Una raccomandazione semplice è per 32 core con una delle piattaforme Intel o AMD menzionate sopra. Il TR PRO a 96 o 64 core può essere l’ideale se si hanno attività parallele ad alto contenuto di dati con una notevole quantità di tempo impiegato nel calcolo, ma il ridimensionamento potrebbe non essere efficiente come con il 32 core se l’accesso alla memoria è un fattore limitante. In ogni caso, un processore a 16 core sarebbe probabilmente considerato minimo.

La scienza dei dati funziona meglio con le CPU Intel o AMD?

È soprattutto una questione di preferenza. Tuttavia, la piattaforma Intel sarebbe consigliata se il tuo flusso di lavoro potesse trarre vantaggio da alcuni degli strumenti di Intel oneAPI AI Analytics Toolkit, come Modin alternativo a Panda, ottimizzato per Intel, o le estensioni AVX-512.

Scheda video (GPU)

Dalla metà degli anni 2010, l’accelerazione delle GPU è stata la forza trainante che ha consentito rapidi avanzamenti nella ricerca sull’apprendimento automatico e sull’IA. NVIDIA ha avuto un impatto enorme in questo campo. Per la scienza dei dati, la GPU può offrire prestazioni significative rispetto alla CPU per alcune attività. Tuttavia, le GPU possono essere limitate dalla capacità di memoria e dalle applicazioni appropriate per le attività sui dati al di fuori dell’addestramento dei modelli.

Quale tipo di GPU (scheda video) è la migliore per la scienza dei dati?

NVIDIA domina l’accelerazione del calcolo su GPU ed è indiscutibilmente lo standard. Le loro GPU sono le più supportate e le più facili da usare. NVIDIA offre anche un’eccellente suite di applicazioni per la gestione dei dati chiamata RAPIDS. Gli strumenti NVIDIA RAPIDS possono offrire un notevole incremento del flusso di lavoro.

Di quanta VRAM (memoria video) ha bisogno la scienza dei dati?

Questo dipende dallo “spazio delle caratteristiche” dei dati. La capacità di memoria delle GPU è limitata rispetto alla memoria di sistema principale utilizzata dalle CPU e le applicazioni possono essere limitate da questa situazione. Per questo motivo è comune che un data scientist sia incaricato della “riduzione dei dati e delle caratteristiche” prima dell’addestramento del modello. Questo è spesso l’80+% del lavoro duro per i progetti di ML/AI. Per alcuni lavori, la memoria della GPU può essere un fattore limitante anche quando è disponibile uno strumento accelerato dalla GPU per il lavoro sui dati. Per i problemi di dati più grandi, potrebbero essere necessari i 48 GB disponibili su NVIDIA RTX A6000 – e anche questi potrebbero non essere sufficienti per i lavori che richiedono che tutti i dati siano residenti sul dispositivo. Il movimento dei dati può essere un collo di bottiglia perché le GPU hanno capacità di calcolo così elevate che possono essere lasciate inattive per gran parte del tempo in attesa che la memoria si sposti.

Le GPU multiple miglioreranno le prestazioni dei flussi di lavoro della scienza dei dati?

Per i lavori di analisi dei dati che possono sfruttare le GPU, averne più di una può aumentare il flusso di lavoro. Se si eseguono lavori di ML/AI, la presenza di più GPU può essere vantaggiosa poiché molti framework la prevedono. Per le attività orientate ai dati, la multi-GPU può essere un vantaggio semplicemente perché fornisce più memoria disponibile per facilitare il parallelismo delle attività. Tuttavia, non tutti i flussi di lavoro sfruttano bene la GPU, come discusso in precedenza.

È necessario NVLink quando si utilizzano più GPU per la scienza dei dati?

NVLink di NVIDIA fornisce un ponte di comunicazione diretto e ad alte prestazioni tra una coppia di GPU. L’utilità o meno di questa soluzione dipende dal tipo di problema. Per la formazione di molti tipi di modelli non è necessario. Tuttavia, per tutti i modelli che hanno una componente “storica”, come RNN, LSTM, serie temporali e soprattutto i modelli Transformer, NVLink può offrire un notevole incremento di velocità ed è quindi consigliato. Si noti che non tutte le GPU NVIDIA supportano NVLink, che può essere utilizzato solo per collegare due schede.

Memoria (RAM)

La capacità di memoria della CPU può essere il fattore limitante per alcune attività di analisi dei dati. Questo perché un intero set di dati di grandi dimensioni può essere residente in memoria (in-core). Esistono metodi e strumenti per l’analisi dei dati “out-of-core”, ma questo può rallentare le prestazioni.

Di quanta RAM ha bisogno la scienza dei dati?

Spesso è necessario, o perlomeno auspicabile, essere in grado di estrarre un intero set di dati in memoria per l’elaborazione e il lavoro statistico. Questo può significare grandi requisiti di memoria, fino a 1-2 TB di memoria di sistema a cui la CPU può accedere.

Archiviazione (SSD/HDD)

I requisiti di archiviazione sono simili a quelli della memoria della CPU. Sono i dati e i progetti a dettare i requisiti.

Qual è la configurazione di storage migliore per la scienza dei dati?

È consigliabile utilizzare uno storage NVMe veloce ogni volta che è possibile, poiché lo streaming dei dati può diventare un collo di bottiglia quando i dati sono troppo grandi per essere inseriti nella memoria di sistema. Lo staging delle esecuzioni dei lavori da NVMe può ridurre i rallentamenti delle esecuzioni. Le unità NVME sono comunemente disponibili con capacità fino a 4 TB. Insieme all’archiviazione NVMe veloce per i lavori di staging, è possibile utilizzare unità SSD di grande capacità per i dati che superano la capacità delle unità NVMe tipiche. Per le unità SSD è disponibile una capacità di 8 TB. Le unità a piatti possono essere utilizzate per l’archiviazione e per set di dati molto grandi. Sono ora disponibili capacità di oltre 18 TB.

Inoltre, tutti i tipi di unità di cui sopra possono essere configurati in array RAID. Ciò aggiunge complessità alla configurazione del sistema e può utilizzare slot sulla scheda madre che altrimenti potrebbero supportare GPU aggiuntive, ma può consentire di ottenere uno spazio di archiviazione compreso tra 10 e 100 terrabyte.

Dovrei usare lo storage collegato alla rete per la scienza dei dati?

Lo storage collegato alla rete è un’altra considerazione. È diventato sempre più comune che le schede madri delle workstation siano dotate di porte Ethernet da 10 Gb, che consentono connessioni di archiviazione di rete con prestazioni ragionevolmente buone senza la necessità di componenti aggiuntivi di rete più specializzati.

Cercate una workstation per la scienza dei dati?

Costruiamo computer su misura per il vostro flusso di lavoro.

Non sapete da dove cominciare? Possiamo aiutarvi!

Contattate oggi stesso uno dei nostri consulenti tecnici.