Blocchi di Costruzione per l'Addestramento e l'Inferenza dei Modelli di Base su AWS
L'addestramento e l'inferenza dei modelli di base su AWS richiedono una comprensione approfondita delle tecnologie di calcolo, rete e archiviazione. Per molto tempo, la "scalabilità" nei modelli di base significava una sola cosa: spendere più risorse di calcolo per l'addestramento pre-iniziale e le capacità aumentavano. Questa intuizione era supportata da lavori empirici come Kaplan et al. (2020), che riportavano tendenze prevedibili del potere-legge nella perdita quando si scala il modello dei parametri, la dimensione del set di dati e il calcolo di addestramento.
In pratica, queste tendenze giustificavano un investimento sostenuto in grandi capacità di acceleratori e nell'infrastruttura distribuita necessaria per mantenerli efficientemente utilizzati. Tuttavia, il fronte è cambiato e la scalabilità non è più una sola curva. La cornice di NVIDIA "da uno a tre leggi di scalabilità" enfatizza utilmente che, oltre all'addestramento pre-iniziale, le prestazioni aumentano sempre di più attraverso l'addestramento post-iniziale (ad esempio, fine-tuning supervisionato e metodi basati sull'apprendimento per rinforzo) e attraverso il calcolo del tempo di test ("lungo pensiero", ricerca/verifica, strategie multi-campionamento).
Infrastruttura
La principale infrastruttura per l'addestramento e l'inferenza dei modelli di base su AWS comprende tre blocchi di costruzione fondamentali: calcolo accelerato con grande memoria del dispositivo, interconnessione a larga banda per la comunicazione collettiva e archiviazione distribuita scalabile per i dati e i checkpoint.
Calcolo accelerato
Il calcolo accelerato costituisce la base dell'addestramento e dell'inferenza dei modelli di base su larga scala. AWS offre diverse generazioni di GPU NVIDIA come parte delle istanze di calcolo accelerate di Amazon EC2, tra cui la famiglia di istanze P5 e P6.
La tabella seguente riassume il throughput massimo per operazione per GPU per le operazioni di tensori densi BF16/FP16 e FP8, nonché la capacità e la larghezza di banda della memoria HBM, utilizzando specifiche di classe SXM/HGX che si allineano con i nodi multi-GPU basati su NVSwitch/NVLink.
- P5.48xlarge: 8 GPU NVIDIA H100, 30,72 TB di capacità di archiviazione locale
- P5.4xlarge: 1 GPU NVIDIA H100, 3,84 TB di capacità di archiviazione locale
- P5en.48xlarge: 8 GPU NVIDIA H200, 30,72 TB di capacità di archiviazione locale
- P6-b200.48xlarge: 8 GPU NVIDIA Blackwell B200, 30,72 TB di capacità di archiviazione locale
Rete
La rete a larga banda è essenziale per l'addestramento e l'inferenza dei modelli di base su larga scala. AWS offre diverse generazioni di interconnessioni a larga banda, tra cui Elastic Fabric Adapter (EFA) e NVLink.
EFA è un'interfaccia di rete per Amazon EC2 che fornisce la capacità di accesso diretto alla memoria remota (RDMA) utilizzando il protocollo Scalable Reliable Datagram (SRD). EFA riduce la latenza e migliora la velocità per le operazioni collettive nell'addestramento distribuito.
Archiviazione
L'archiviazione distribuita scalabile è necessaria per l'addestramento e l'inferenza dei modelli di base su larga scala. AWS offre diverse opzioni di archiviazione, tra cui archiviazione locale NVMe, Lustre e Amazon S3.
L'archiviazione locale NVMe è fornita come archiviazione istanza (effimera) con 30,72 TB di capacità lorda (8 × 3,84 TB NVMe SSD). Lustre è un file system distribuito open-source che fornisce un namespace condiviso con alta velocità aggregata tra molti client. Amazon FSx for Lustre fornisce Lustre come un servizio gestito.
Orchestrazione delle risorse
L'orchestrazione delle risorse è essenziale per l'addestramento e l'inferenza dei modelli di base su larga scala. AWS offre diverse opzioni di orchestrazione, tra cui Slurm e Kubernetes.
Slurm è un sistema di gestione delle risorse che fornisce la capacità di gestire le risorse di calcolo e di rete. Kubernetes è un sistema di orchestrazione del container che fornisce la capacità di gestire i container e di scalare le applicazioni.
Strumenti di sviluppo del modello
Gli strumenti di sviluppo del modello sono essenziali per l'addestramento e l'inferenza dei modelli di base su larga scala. AWS offre diverse opzioni di strumenti di sviluppo, tra cui PyTorch e JAX.
PyTorch è un framework di apprendimento automatico open-source che fornisce la capacità di sviluppare e di addestrare i modelli di base. JAX è un framework di apprendimento automatico open-source che fornisce la capacità di sviluppare e di addestrare i modelli di base.
Osservabilità
L'osservabilità è essenziale per l'addestramento e l'inferenza dei modelli di base su larga scala. AWS offre diverse opzioni di osservabilità, tra cui Prometheus e Grafana.
Prometheus è un sistema di raccolta delle metriche che fornisce la capacità di raccogliere e di monitorare le metriche delle applicazioni. Grafana è un sistema di visualizzazione che fornisce la capacità di visualizzare e di analizzare le metriche delle applicazioni.