F5 dan Nvidia Perluas Kolaborasi Demi Efisiensi Infrastruktur AI

1 jam yang lalu

F5, perusahaan teknologi asal Amerika Serikat yang bergerak di bidang infrastruktur aplikasi dan keamanan siber, mengumumkan perluasan kerja sama strategis dengan Nvidia. Kolaborasi ini difokuskan untuk membantu perusahaan dalam mengoperasikan sistem kecerdasan buatan (AI) secara lebih efisien dan hemat biaya.

Melalui integrasi terbaru, kedua pihak berupaya meningkatkan output infrastruktur AI tanpa mengharuskan perusahaan terus menambah unit GPU baru yang mahal. Solusi ini menggabungkan platform BIG-IP Next for Kubernetes milik F5 dengan Nvidia BlueField-3 DPU.

Dikutip dari Tekno, kerja sama ini dirancang khusus untuk mengoptimalkan proses inferensi AI. Tahap ini merupakan momen saat model AI yang telah dilatih mulai memproses data untuk memberikan jawaban, ringkasan, atau gambar kepada pengguna akhir.

Pihak F5 mengungkapkan bahwa saat ini banyak perusahaan mulai beralih dari sekadar tahap eksperimen menjadi implementasi AI sebagai layanan bisnis yang mendatangkan profit. Hal ini memicu pergeseran perhatian industri dari sekadar kuantitas GPU menuju efisiensi penggunaan perangkat tersebut.

Dalam ekosistem AI modern, produktivitas diukur melalui satuan token, yang bisa berupa kata atau potongan data. Kecepatan produksi token sangat menentukan tingkat responsivitas layanan AI yang dirasakan oleh para pengguna.

Fenomena ini melahirkan istilah "tokenomics", yakni metode untuk mengukur nilai ekonomi dari produksi token AI. Metrik utamanya mencakup volume token yang dihasilkan, biaya produksi, hingga pendapatan yang sanggup diciptakan oleh setiap unit GPU.

Meningkatkan Output Ekonomi per Akselerator

Chief Product Officer F5, Kunal Anand, menyatakan bahwa infrastruktur AI kini bukan lagi sekadar soal akses ke GPU. Fokus utamanya telah berkembang menjadi upaya untuk memaksimalkan output ekonomi yang dihasilkan oleh setiap akselerator.

"Infrastruktur AI bukan hanya tentang akses ke GPU atau peningkatan skala implementasinya. Ia telah berevolusi menjadi upaya memaksimalkan output ekonomi per akselerator," kata Kunal Anand.

Anand menjelaskan bahwa BIG-IP Next for Kubernetes memungkinkan fasilitas AI memperlakukan produksi token sebagai metrik bisnis yang terukur secara akurat. Sistem ini diklaim mampu meningkatkan performa kerja GPU sekaligus memangkas biaya per token secara signifikan.

Cara Kerja Sistem Integrasi F5 dan Nvidia

Platform milik F5 kini memiliki kemampuan untuk membaca data telemetri dari infrastruktur Nvidia secara real-time. Informasi yang dipantau mencakup statistik Nvidia NIM, sinyal runtime Dynamo, hingga kondisi teknis GPU saat itu juga.

Dengan data tersebut, sistem dapat secara cerdas menentukan beban kerja AI mana yang paling tepat untuk dijalankan pada GPU tertentu. Pola ini serupa dengan sistem navigasi lalu lintas yang mengarahkan kendaraan ke jalur paling lancar untuk menghindari kemacetan data.

Pendekatan ini sangat krusial mengingat sistem AI saat ini semakin kompleks dengan munculnya agentic AI. Jenis AI ini mampu bekerja lebih mandiri dan sadar konteks, sehingga pengaturan trafik datanya jauh lebih rumit dibandingkan sistem load balancing konvensional.

Validasi Peningkatan Performa

Berdasarkan pengujian yang divalidasi oleh The Tolly Group, integrasi dengan Nvidia BlueField-3 DPU diklaim mampu meningkatkan token throughput hingga 40 persen. Selain itu, kecepatan time to first token (TTFT) tercatat meningkat hingga 61 persen.

Peningkatan ini juga dibarengi dengan pengurangan latensi permintaan sebesar 34 persen. Pencapaian tersebut dimungkinkan dengan memindahkan beban tugas networking, enkripsi, dan manajemen trafik dari CPU/GPU utama ke unit DPU Nvidia BlueField-3.

SVP Networking Nvidia, Kevin Deierling, menyebutkan bahwa langkah ini memberikan kekuatan bagi perusahaan untuk meningkatkan skala operasional secara ekonomis. Hal menarik lainnya adalah peningkatan performa ini tidak memerlukan modifikasi pada model AI yang sudah ada.

"F5 dan Nvidia bersama-sama memberdayakan perusahaan untuk meningkatkan skala inferensi pada AI factory secara efisien dan ekonomis," ujar Kevin Deierling.

Dengan teknologi ini, perusahaan tidak perlu melakukan pelatihan ulang (retraining) pada model AI mereka. Hal ini juga membantu meminimalisir risiko overprovisioning, atau pembelian kapasitas GPU berlebihan yang biasanya dilakukan hanya untuk mengantisipasi lonjakan beban kerja mendadak.