NVIDIA L4 GPU

NVIDIA L4 GPU İncelemesi – Düşük Güçlü Çıkarım Sihirbazı

NVIDIA L4 GPU Günümüzün yapay zeka dünyasının durmak bilmeyen yenilik selinde, çeşitli donanım platformlarının yeteneklerini ölçmek ve anlamak kritik öneme sahiptir. Yapay zekanın tamamı büyük eğitim GPU çiftlikleri gerektirmez; çıkarım yapay zekasının, özellikle uçta genellikle daha az GPU gücü gerektiren önemli bir bölümü vardır. Bu incelemede, L4’ün nasıl yığıldığını görmek için üç farklı Dell sunucusundaki çeşitli NVIDIA L4 GPU’lara ve MLperf dahil çeşitli iş yüklerine göz atacağız.

NVIDIA L4

NVIDIA L4 GPU

L4, özünde, yüksek hassasiyetli hesaplama görevleri için ideal olan FP32 performansında etkileyici bir 30,3 teraFLOP sunar. Becerisi, derin öğrenme verimliliği için çok önemli olan TF32, FP16 ve BFLOAT16 Tensör Çekirdekleri ile karma duyarlıklı hesaplamalara kadar uzanır; L4 Teknik Özellikler sayfası, 60 ila 121 teraFLOP arasındaki performansı belirtir.

Düşük hassasiyetli görevlerde L4, FP8 ve INT8 Tensör Çekirdeklerinde 242,5 teraFLOP ile parlayarak sinir ağı çıkarımını geliştirir. 300 GB/s bant genişliğiyle tamamlanan 24 GB GDDR6 belleği, büyük veri kümelerini ve karmaşık modelleri yönetebilmesini sağlar. L4’ün enerji verimliliği burada en çok dikkat çeken noktadır; 72W TDP, onu çeşitli bilgi işlem ortamlarına uygun hale getirir. Yüksek performans, bellek verimliliği ve düşük güç tüketiminin bu karışımı, NVIDIA L4’ü uç bilişim zorlukları için cazip bir seçim haline getiriyor.

R760'ın üstünde NVIDIA L4 GPU

NVIDIA L4 Özellikleri
FP 32 30,3 teraFLOP
TF32 Tensör Çekirdeği 60 teraFLOP
FP16 Tensör Çekirdeği 121 teraFLOP
BFLOAT16 Tensör Çekirdeği 121 teraFLOP
FP8 Tensör Çekirdeği 242,5 teraFLOP
INT8 Tensör Çekirdeği 242,5 ÜST
GPU Belleği 24GB GDDR6
GPU Bellek Bant Genişliği 300 GB/sn
Maksimum Termal Tasarım Gücü (TDP) 72W
Form faktörü 1 yuvalı düşük profilli PCIe
Ara bağlantı PCIe Gen4 x16
Teknik Özellikler Tablosu L4

Tabii ki, L4’ün fiyatı 2500 dolara yakın bir yerde, A2 kabaca yarı fiyatına geliyor ve eski (yine de oldukça yetenekli) T4’ün 1000 doların altında bir fiyata mevcut olmasıyla, bariz soru bu üç çıkarım GPU’su arasındaki farkın ne olduğudur.

NVIDIA L4, A2 ve T4 Teknik Özellikleri NVIDIA L4 NVIDIA A2 NVIDIA T4
FP 32 30,3 teraFLOP 4,5 teraFLOP 8.1 teraFLOP’lar
TF32 Tensör Çekirdeği 60 teraFLOP 9 teraFLOP Yok
FP16 Tensör Çekirdeği 121 teraFLOP 18 teraFLOP Yok
BFLOAT16 Tensör Çekirdeği 121 teraFLOP 18 teraFLOP Yok
FP8 Tensör Çekirdeği 242,5 teraFLOP Yok Yok
INT8 Tensör Çekirdeği 242,5 ÜST 36 ÜST 130 ÜST
GPU Belleği 24GB GDDR6 16GB GDDR6 16GB GDDR6
GPU Bellek Bant Genişliği 300 GB/sn 200 GB/sn 320+ GB/sn
Maksimum Termal Tasarım Gücü (TDP) 72W 40-60W 70W
Form faktörü 1 yuvalı düşük profilli PCIe
Ara bağlantı PCIe Gen4 x16 PCIe Gen4 x8 PCIe Gen3 x16
Teknik Özellikler Tablosu L4 A2 T4

Bu üç karta bakarken anlaşılması gereken bir şey, bunların tam olarak nesiller boyu bire bir değişim olmadığıdır; bu da T4’ün neden yıllar sonra hala bazı kullanım durumları için popüler bir seçim olarak kaldığını açıklıyor. A2, düşük güçlü ve daha uyumlu (x8’e karşı x16 mekanik) bir seçenek olarak T4’ün yerini almak üzere ortaya çıktı. Teknik olarak L4, T4’ün yerini alıyor ve A2, gelecekte bir noktada yenilenebilecek veya yenilenemeyecek bir arada yer alıyor.

MLPerf Çıkarımı 3.1 Performansı

MLPerf, adil ve ilgili AI donanım ve yazılım kıyaslamalarını sağlamak için kurulmuş, akademi, araştırma ve endüstriden AI liderlerinden oluşan bir konsorsiyumdur. Bu kıyaslamalar, makine öğrenimi donanımının, yazılımının ve hizmetlerinin çeşitli görev ve senaryolardaki performansını ölçmek için tasarlanmıştır.

Testlerimiz iki spesifik MLPerf kriterine odaklanmaktadır: Resnet50 ve BERT.

  • Resnet50: Bu, öncelikle görüntü sınıflandırması için kullanılan evrişimli bir sinir ağıdır. Bu, bir sistemin görüntü işlemeyle ilgili derin öğrenme görevlerini ne kadar iyi yerine getirebileceğinin iyi bir göstergesidir.
  • BERT (Transformatörlerden Çift Yönlü Kodlayıcı Gösterimleri): Bu kıyaslama, doğal dil işleme görevlerine odaklanarak bir sistemin insan dilini anlama ve işleme konusunda nasıl performans gösterdiğine dair bilgiler sunar.

Bu testlerin her ikisi de yapay zeka donanımının görüntü ve dil işlemeyi içeren gerçek dünya senaryolarındaki yeteneklerini değerlendirmek için çok önemlidir.

NVIDIA L4’ü bu kıyaslamalarla değerlendirmek, L4 GPU’nun belirli yapay zeka görevlerindeki yeteneklerinin anlaşılmasına yardımcı olmak açısından kritik öneme sahiptir. Ayrıca farklı konfigürasyonların (tekli, ikili ve dörtlü kurulumlar) performansı nasıl etkilediğine dair bilgiler sunar. Bu bilgiler, yapay zeka altyapılarını optimize etmek isteyen profesyoneller ve kuruluşlar için hayati öneme sahiptir.

Modeller iki temel modda çalışır: Sunucu ve Çevrimdışı.

  • Çevrimdışı Mod: Bu mod, tüm veriler aynı anda işlenmeye uygun olduğunda sistemin performansını ölçer. Sistemin büyük bir veri kümesini tek bir toplu iş halinde işlediği toplu işleme benzer. Çevrimdışı mod, gecikmenin birincil sorun olmadığı ancak aktarım hızı ve verimliliğin önemli olduğu senaryolar için çok önemlidir.
  • Sunucu Modu: Buna karşılık, sunucu modu, isteklerin teker teker geldiği gerçek dünya sunucu ortamını taklit eden bir senaryoda sistemin performansını değerlendirir. Bu mod gecikmeye duyarlıdır ve sistemin her isteğe ne kadar hızlı yanıt verebileceğini ölçer. Anında müdahalenin gerekli olduğu web sunucuları veya etkileşimli uygulamalar gibi gerçek zamanlı uygulamalar için gereklidir.

1 x NVIDIA L4 – Dell PowerEdge XR7620

Dell XR7620'de NVIDIA L4

Tek bir NVIDIA L4 ile donatılmış Dell PowerEdge XR7620’ye ilişkin son incelememizin bir parçası olarak , MLPerf de dahil olmak üzere çeşitli görevleri yürütmek için onu en uç noktaya taşıdık.

Test sistemi konfigürasyonumuz aşağıdaki bileşenleri içeriyordu:

  • 2 x Xeon Gold 6426Y – 16 çekirdekli 2,5 GHz
  • 1 xNVIDIA L4
  • 8 x 16 GB DDR5
  • 480 GB BOSS RAID1
  • Ubuntu Sunucusu 22.04
  • NVIDIA Sürücüsü 535
Dell PowerEdge XR7620 1x NVIDIA L4 Gol
Resnet50 – Sunucu 12.204,40
Resnet50 – Çevrimdışı 13.010,20
BERT K99 – Sunucu 898.945
BERT K99 – Çevrimdışı 973.435

Resnet50 ve BERT K99 için sunucu ve çevrimdışı senaryolardaki performans neredeyse aynıdır; bu da L4’ün farklı sunucu modellerinde tutarlı performansı koruduğunu gösterir.

1, 2 ve 4 NVIDIA L4’ler – Dell PowerEdge T560

Dell PowerEdge T560 Tower - Nvidia L4 GOU x4

İnceleme birimi yapılandırmamız aşağıdaki bileşenleri içeriyordu:

  • 2 x Intel Xeon Gold 6448Y (her biri 32 çekirdek/64 iş parçacığı, 225 watt TDP, 2,1-4,1 GHz)
  • PERC 12 RAID kartıyla 8 x 1,6 TB Solidigm P5520 SSD
  • 1-4x NVIDIA L4 GPU’lar
  • 8 x 64 GB RDIMM’ler
  • Ubuntu Sunucusu 22.04
  • NVIDIA Sürücüsü 535
Uçtan veri merkezine geri döndüğümüzde ve çok yönlü Dell T560 Tower sunucuyu kullandığımızda, L4’ün tek GPU testinde de aynı performansı gösterdiğini fark ettik. Bu, her iki platformun da L4’e darboğaz olmadan sağlam bir temel sağlayabileceğini gösteriyor.
Dell PowerEdge T560 1x NVIDIA L4 Gol
Resnet50 – Sunucu 12.204,40
Resnet50 – Çevrimdışı 12.872,10
Bert K99 – Sunucu 898.945
Bert K99 – Çevrimdışı 945.146

Dell T560’taki iki L4 ile yaptığımız testlerde, hem Resnet50 hem de BERT K99 testleri için performansta bu doğrusala yakın ölçeklendirmeyi gözlemledik. Bu ölçeklendirme, L4 GPU’ların verimliliğinin ve genel gider veya verimsizlik nedeniyle önemli kayıplar olmadan birlikte çalışabilme yeteneklerinin bir kanıtıdır.

Dell PowerEdge T560 2x NVIDIA L4 Gol
Resnet50 – Sunucu 24.407,50
Resnet50 – Çevrimdışı 25.463,20
BERT K99 – Sunucu 1.801,28
BERT K99 – Çevrimdışı 1.904,10

İki NVIDIA L4 GPU ile tanık olduğumuz tutarlı doğrusal ölçeklendirme, etkileyici bir şekilde dört L4 birimi içeren yapılandırmalara kadar uzanıyor. Paralel işleme ve kaynak yönetiminin karmaşıklığı nedeniyle, eklenen her GPU ile doğrusal performans kazanımlarını korumak giderek zorlaştığından, bu ölçeklendirme özellikle dikkate değerdir.

Dell PowerEdge T560 4x NVIDIA L4 Gol
Resnet50 – Sunucu 48.818,30
Resnet50 – Çevrimdışı 51.381,70
BERT K99 – Sunucu 3.604,96
BERT K99 – Çevrimdışı 3.821,46

Bu sonuçlar yalnızca açıklama amaçlıdır; rekabetçi veya resmi MLPerf sonuçları değildir. Resmi sonuçların tam listesi için lütfen MLPerf Sonuçları Sayfasını ziyaret edin .

Laboratuvardaki testlerimiz, NVIDIA L4 GPU’ların doğrusal ölçeklenebilirliğini doğrulamanın yanı sıra, bu birimlerin farklı operasyonel senaryolarda konuşlandırılmasının pratik sonuçlarına ışık tutuyor. Örneğin, L4 GPU’larla tüm yapılandırmalarda sunucu ve çevrimdışı modlar arasındaki performans tutarlılığı, bunların güvenilirliğini ve çok yönlülüğünü ortaya koyuyor.

Bu husus özellikle operasyonel bağlamların önemli ölçüde farklılık gösterdiği işletmeler ve araştırma kurumları için geçerlidir. Ayrıca, ara bağlantı darboğazlarının minimum etkisi ve çoklu GPU kurulumlarında GPU senkronizasyonunun verimliliği hakkındaki gözlemlerimiz, yapay zeka altyapılarını ölçeklendirmek isteyenler için değerli bilgiler sağlıyor. Bu bilgiler, yalnızca karşılaştırmalı değerlendirme rakamlarının ötesine geçerek, bu tür donanımların gerçek dünya senaryolarında en iyi şekilde nasıl kullanılabileceğine dair daha derin bir anlayış sunarak, yapay zeka ve HPC altyapısında daha iyi mimari kararlara ve yatırım stratejilerine yol gösterir.

NVIDIA L4 – Uygulama Performansı

Yeni NVIDIA L4’ün performansını kendisinden önceki NVIDIA A2 ve NVIDIA T4 ile karşılaştırdık. Önceki modellere göre bu performans yükseltmesini sergilemek için, tüm üç modeli de laboratuvarımızdaki bir sunucuya, Windows Server 2022 ve en yeni NVIDIA sürücüleri ile GPU test paketimizin tamamından yararlanarak yerleştirdik.

Bu kartlar aşağıdaki yapılandırmaya sahip bir Dell Poweredge R760 üzerinde test edilmiştir :

  • 2 x Intel Xeon Gold 6430 (32 Çekirdek, 2,1 GHz)
  • Windows Sunucusu 2022
  • NVIDIA Sürücüsü 538.15
  • 1x örnekleme için tüm kartlarda ECC Devre Dışı

R760 Yükselticide NVIDIA L4

Üç kurumsal GPU’dan oluşan bu grup arasındaki performans testini başlatırken, önceki A2 ve T4 modelleri arasındaki benzersiz performans farklarına dikkat etmek önemlidir. A2 piyasaya sürüldüğünde, daha düşük güç tüketimi ve eski T4’ün gerektirdiği daha büyük PCIe Gen3 x16 yuvası yerine daha küçük bir PCIe Gen4 x8 yuvasında çalışma gibi bazı önemli iyileştirmeler sunuyordu. En başından itibaren, özellikle ihtiyaç duyulan daha küçük ayak iziyle daha fazla sisteme yerleştirilmesine olanak sağladı.

Blender OptiX 4.0

Blender OptiX açık kaynaklı bir 3D modelleme uygulamasıdır. Bu test hem CPU hem de GPU için çalıştırılabilir, ancak burada diğer çoğu test gibi yalnızca GPU’yu yaptık. Bu kıyaslama, Blender Benchmark CLI yardımcı programı kullanılarak çalıştırıldı. Puan, dakika başına örnek sayısıdır; daha yüksek, daha iyidir.

Blender 4.0 (Daha Yüksek Daha İyidir) NVIDIA L4 NVIDIA A2 Nvidia T4
GPU Karıştırıcı CLI – Canavar 2.207.765 458.692 850.076
GPU Blender CLI – Junkshop 1.127.829 292.553 517.243
GPU Blender CLI – Sınıf 1.111.753 262.387 478.786

Blackmagic RAW Hız Testi

CPU’ları ve GPU’ları, Blackmagic’in video oynatma hızlarını test eden RAW Hız Testi ile test ediyoruz. Bu daha çok gerçek dünyadaki RAW kod çözme için CPU ve GPU performansını içeren hibrit bir testtir. Bunlar ayrı sonuçlar olarak görüntülenir ancak burada yalnızca GPU’lara odaklanıyoruz, bu nedenle CPU sonuçları atlandı.

Blackmagic RAW Hız Testi (Daha Yüksek Daha İyidir) NVIDIA L4 NVIDIA A2 NVIDIA T4
8K CUDA 95 FPS 38 FPS 53 FPS

Cinebench 2024 GPU

Maxon’un Cinebench 2024’ü, tüm CPU çekirdeklerini ve iş parçacıklarını kullanan bir CPU ve GPU oluşturma karşılaştırmasıdır. Yine GPU sonuçlarına odaklandığımız için testin CPU bölümlerini çalıştırmadık. Daha Yüksek Puanlar Daha İyidir.

Cinebench 2024 (Daha Yüksek Daha İyidir) NVIDIA L4 NVIDIA A2 NVIDIA T4
GPU 15.263 4.006 5.644

GPU PI’sı

GPUPI 3.3.3, GPU’lar ve CPU’lar aracılığıyla donanım hızlandırmayı kullanarak π (pi)’yi milyarlarca ondalık sayıya kadar hesaplamak için tasarlanmış hafif kıyaslama yardımcı programının bir sürümüdür. Hem merkezi hem de grafik işlem birimlerini içeren OpenCL ve CUDA’nın bilgi işlem gücünden yararlanır. CUDA’yı yalnızca 3 GPU’nun tamamında çalıştırdık ve buradaki sayılar, azaltma süresi eklenmeden hesaplama süresidir. Alçak daha iyi.

Saniye cinsinden GPU PI Hesaplama Süresi (Daha Düşük Daha İyidir) NVIDIA L4 NVIDIA A2 NVIDIA T4
GPUPI v3.3 – 1B 3.732s 19.799’lar 7.504s
GPUPI v3.3 – 32B 244.380’ler 1.210.801s 486.231s

Önceki sonuçlar her kartın yalnızca tek bir yinelemesini incelerken, aynı zamanda Dell PowerEdge T560 içindeki 5x NVIDIA L4 dağıtımına da bakma şansımız oldu .

Saniye cinsinden GPU PI Hesaplama Süresi (Daha Düşük Daha İyidir) 5x NVIDIA L4 ile Dell PowerEdge T560 (2x Xeon Gold 6448Y)
GPUPI v3.3 – 1B 0sn 850ms
GPUPI v3.3 – 32B 50 saniye 361 ms

Oktan tezgahı

OctaneBench, V-Ray’e benzer RTX desteğine sahip başka bir 3D oluşturucu olan OctaneRender için bir kıyaslama aracıdır.

 Oktan (Daha Yüksek Daha İyidir)
Sahne Çekirdek NVIDIA L4 NVIDIA A2 NVIDIA T4
İç mekan Bilgi kanalları 15.59 4.49 6.39
Doğrudan aydınlatma 50.85 14.32 21.76
Yol izleme 64.02 18.46 25.76
Fikir Bilgi kanalları 9.30 2.77 3.93
Doğrudan aydınlatma 39.34 11.53 16.79
Yol izleme 48.24 14.21 20.32
ATV’ler Bilgi kanalları 24.38 6.83 9.50
Doğrudan aydınlatma 54.86 16.05 21.98
Yol izleme 68.98 20.06 27.50
Kutu Bilgi kanalları 12.89 3.88 5.42
Doğrudan aydınlatma 48.80 14.59 21.36
Yol izleme 54.56 16.51 23.85
Toplam puan 491.83 143.71 204.56

Geek Bench 6 GPU

Geekbench 6, genel sistem performansını ölçen platformlar arası bir kıyaslamadır. Hem CPU hem de GPU kıyaslaması için test seçenekleri vardır. Daha yüksek puanlar daha iyidir. Yine sadece GPU sonuçlarına baktık.

Geekbench Tarayıcısında istediğiniz herhangi bir sistemle karşılaştırmalar bulabilirsiniz  .

Geekbench 6.1.0 (Daha Yüksek Daha İyidir) NVIDIA L4 NVIDIA A2 NVIDIA T4
Geekbench GPU OpenCL 156.224 35.835 83.046

Lüksmark

LuxMark, açık kaynaklı 3D işleme motoru LuxRender’ı sürdürenlerin ürettiği bir OpenCL platformlar arası kıyaslama aracıdır. Bu araç 3D modelleme, aydınlatma ve video çalışmalarında GPU performansına bakar. Bu inceleme için en yeni sürüm olan v4alpha0’ı kullandık. LuxMark’ta puan söz konusu olduğunda daha yüksek olan daha iyidir.

Luxmark v4.0alpha0 OpenCL GPU’lar (Daha Yüksek Daha İyidir) NVIDIA L4 NVIDIA A2 NVIDIA T4
Salon Bankı 14.328 3.759 5.893
Yemek Tezgahı 5.330 1.258 2.033

GROMACS CUDA

Ayrıca, özellikle CUDA için bir moleküler dinamik yazılımı olan derlenmiş GROMACS’ı da tedarik ediyoruz. Bu özel derleme, hesaplamalı simülasyonları hızlandırmak için gerekli olan 5 NVIDIA L4 GPU’nun paralel işleme yeteneklerinden yararlanmaktı.

Süreç, NVIDIA’nın CUDA derleyicisi olan nvcc’nin kullanımını ve ikili dosyaların sunucunun mimarisine uygun şekilde ayarlanmasını sağlamak için uygun optimizasyon işaretlerinin birçok yinelemesini içeriyordu. CUDA desteğinin GROMACS derlemesine dahil edilmesi, yazılımın GPU donanımıyla doğrudan arayüz oluşturmasına olanak tanır ve bu da karmaşık simülasyonlar için hesaplama sürelerini büyük ölçüde artırabilir.

Test: Gromac’larda Özel Protein Etkileşimi

Belirli bir protein etkileşimi çalışması için özel olarak tasarlanmış parametreler ve yapılar içeren, çeşitli Discord’umuzdan topluluk tarafından sağlanan bir girdi dosyasından yararlanarak bir moleküler dinamik simülasyonu başlattık. Sonuçlar dikkat çekiciydi; sistem günde 170.268 nanosaniyelik bir simülasyon hızına ulaştı.

GPU Sistem ns/gün çekirdek zaman (lar)
NVIDIA A4000 Whitebox AMD Ryzen 5950x 84.415 163.763
RTXNVIDIA 4070 Whitebox AMD Ryzen 7950x3d 131.85 209.692,3
5xNVIDIA L4 Dell T560 ve 2x Intel Xeon Gold 6448Y 170.268 608.912,7

Yapay Zekadan Daha Fazlası

Yapay zekanın tüm moda olduğu heyecanıyla, NVIDIA L4’teki modellerin performansına kapılmak kolaydır, ancak aynı zamanda video uygulamaları için bir olasılıklar alanının önünü açan birkaç başka püf noktası daha vardır. 720p30’da 1.040’a kadar eşzamanlı AV1 video akışına ev sahipliği yapabilir. Bu, içeriğin uç kullanıcılara canlı olarak yayınlanma biçimini değiştirebilir, yaratıcı hikaye anlatımını geliştirebilir ve sürükleyici AR/VR deneyimleri için ilginç kullanımlar sunabilir.

NVIDIA L4 aynı zamanda grafik performansını optimize etme konusunda da başarılıdır; bu, gerçek zamanlı işleme ve ışın izleme yeteneklerinde açıkça görülmektedir. Uç ofislerde L4, yüksek kaliteli, gerçek zamanlı grafik oluşturmanın gerekli olduğu yerlerde en çok ihtiyaç duyan son kullanıcılara VDI’da sağlam ve güçlü hızlandırılmış grafik hesaplama sağlama kapasitesine sahiptir.

Kapanış Düşünceleri

NVIDIA L4 GPU, çeşitli uygulamalarda benzersiz verimlilik ve çok yönlülük sunarak uç yapay zeka ve yüksek performanslı bilgi işlem için sağlam bir platform sağlar. Yoğun yapay zeka, hızlandırma veya video işlem hatlarını yönetme ve grafik performansını optimize etme yeteneği, onu uç çıkarım veya sanal masaüstü hızlandırma için ideal bir seçim haline getirir. L4’ün yüksek bilgi işlem gücü, gelişmiş bellek yetenekleri ve enerji verimliliği birleşimi, onu özellikle yapay zeka ve grafik ağırlıklı endüstrilerde uçtaki iş yüklerinin hızlandırılmasında önemli bir oyuncu olarak konumlandırıyor.

NVIDIA L4 büküm yığını

Hiç şüphe yok ki, bugünlerde BT kasırganının gözü yapay zekadır ve canavar H100/H200 GPU’lara olan talep tavan yapmaya devam ediyor. Ancak verilerin oluşturulduğu ve analiz edildiği uç noktaya daha sağlam bir BT kiti seti sağlanması yönünde de büyük bir baskı var. Bu durumlarda daha uygun bir GPU’ya ihtiyaç duyulur. Burada NVIDIA L4 öne çıkıyor ve T560’ta test ettiğimiz gibi tek bir birim olarak veya birlikte ölçeklendirilmiş olarak uç çıkarım için varsayılan seçenek olmalıdır.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir