Bandar Lampung (Lampost.co) — NVIDIA kembali menorehkan prestasi besar dalam dunia kecerdasan buatan (AI). Mereka meluncurkan arsitektur Blackwell Ultra pada ajang MLPerf Inference v5.1. Ajang ini adalah standar benchmark industri untuk mengukur performa AI.
Sistem GB300 NVL72 berbasis Blackwell Ultra berhasil memecahkan rekor kinerja inferensi, khususnya pada model bahasa besar (large language models/LLM) dan aplikasi AI generatif yang semakin kompleks. Pencapaian ini datang hanya enam bulan setelah debut Blackwell generasi sebelumnya, menandakan laju inovasi NVIDIA yang semakin agresif.
Performa Tinggi untuk Model Bahasa Besar
Pertumbuhan LLM dengan ratusan miliar parameter, ditambah proses penalaran yang melibatkan banyak token sebelum menghasilkan jawaban akhir. Hal ini menuntut performa komputasi jauh lebih tinggi. Blackwell Ultra hadir menjawab kebutuhan tersebut dengan lompatan teknologi yang signifikan.
Pada MLPerf Inference v5.1, sejumlah skenario baru diuji, termasuk DeepSeek-R1 dengan 671 miliar parameter, Llama 3.1 405B, Llama 3.1 8B, serta Whisper untuk pengenalan suara. Blackwell Ultra mencatatkan rekor performa per GPU di seluruh benchmark tersebut, sekaligus mempertahankan dominasinya pada uji yang sudah ada.
Lompatan Performa Dibanding Generasi Sebelumnya
Dibandingkan dengan sistem GB200 NVL72, Blackwell Ultra memberikan peningkatan hingga 45% kinerja per GPU. Jika dibandingkan dengan sistem berbasis Hopper, throughput per GPU melonjak sekitar 5 kali lipat. Hal ini didukung inovasi teknis, antara lain:
-
1,5x lebih tinggi NVFP4 AI compute
-
2x lebih tinggi compute pada lapisan atensi
-
1,5x kapasitas memori HBM3e
Selain itu, optimalisasi perangkat lunak juga menjadi kunci. NVIDIA mengandalkan NVFP4 quantization untuk mengecilkan ukuran model tanpa kehilangan akurasi, FP8 key-value cache untuk efisiensi memori, serta teknik paralelisme gabungan (expert parallelism + data parallelism) yang mempercepat pemrosesan.
Inovasi Efisiensi dan Teknologi Baru
Teknologi ADP Balance memastikan distribusi beban kerja GPU lebih seimbang, sementara CUDA Graphs menekan overhead CPU agar proses inferensi semakin efisien.
Salah satu terobosan penting adalah penerapan disaggregated serving pada Llama 3.1 405B. Dengan memisahkan fase context yang berat komputasi dan fase generation yang sensitif terhadap latensi ke GPU berbeda, throughput per GPU meningkat. Ini mencapai hingga 1,5x dibanding metode tradisional. Secara total, performa sistem Blackwell Ultra tercatat 5 kali lipat lebih tinggi dibanding Hopper.
Tak hanya itu, NVIDIA juga memperkenalkan Rubin CPX. Prosesor baru ini dirancang khusus untuk mempercepat pemrosesan konteks panjang pada LLM. Kehadiran Rubin CPX diyakini akan menjadi pondasi bagi generasi berikutnya dari sistem AI yang lebih cepat, efisien, dan cerdas.
Kesimpulan
Dengan Blackwell Ultra dan Rubin CPX, NVIDIA semakin mengukuhkan dominasinya dalam industri AI global. Rekor terbaru di MLPerf Inference v5.1 menunjukkan bagaimana kombinasi inovasi perangkat keras dan perangkat lunak mampu membuka jalan bagi masa depan AI yang lebih kuat, responsif, dan hemat sumber daya.