Supermicro X13 SuperBlade

Supermicro X13 SuperBlade İncelemesi: Her Şeyi Yapabilen Yapay Zeka Cihazı

Supermicro, blade sunucu teknolojisinde öncü olmuştur ve SuperBlade sistemleri bunun bir kanıtıdır. Supermicro X13 SuperBlade kasa ve blade’lerin piyasaya sürülmesi, GPU özellikli blade’ler ve en yeni Emerald Rapids CPU’lar ile NVIDIA H100 GPU’ların entegrasyonu teknolojisinde yeni bir sayfa açıyor. Bu gelişmeler olağanüstü işlem gücü ve verimlilik sağlayarak X13’ü çeşitli üst düzey uygulamalar için ideal bir aday haline getiriyor.

Supermicro X13 SuperBlade şasi

Tasarım ve Özellikler

Supermicro X13 SuperBlade kasası, yüksek yoğunluğu ve esnekliğiyle bilinen tanıdık 8U kasa tasarımını koruyor. Her kasa 20’ye kadar blade’i destekler; en yeni teklif, Emerald Rapids CPU’ların ve NVIDIA H100 GPU’ların entegre edilmesiyle önemli ölçüde geliştirilmiştir. Bu güçlü kombinasyon, benzeri görülmemiş hesaplama yetenekleri sunmayı vaat ediyor. Ayrıca kasada 200G InfiniBand ve 25G Ethernet iletişimi bulunuyor ve bu da yüksek hızlı veri aktarımı ve ağ verimliliği sağlıyor.

Popüler Kullanım Durumları:

  1. Veri Analizi : Emerald Rapids CPU’ların gelişmiş işlem gücü ve NVIDIA H100 GPU’ların hızlandırılmış bilgi işlem yetenekleri ile X13 SuperBlades, zorlu veri analizi görevleri için son derece uygundur. Bu görevler, günümüzün veri odaklı dünyasında giderek daha kritik hale gelen gerçek zamanlı veri işleme ve kapsamlı veri madenciliği operasyonlarını içerir.
  2. Yapay Zeka ve Makine Öğrenimi : X13 SuperBlade’ler, yapay zeka ve makine öğrenimi modelleri, özellikle de önemli hesaplama kaynakları gerektiren derin öğrenme algoritmaları için gerekli gücü sunar.
  3. Yüksek Performanslı Bilgi İşlem : Mühendislikteki bilimsel simülasyonlar, tıbbi araştırmalar ve ileri hesaplamalı görevler, X13’ün gelişmiş performansından önemli ölçüde faydalanacak ve bu da onu yüksek performanslı bilgi işlem uygulamaları için birincil seçim haline getirecek.
  4. Bulut Bilişim : Blade’lerin artan yoğunluğu ve performansı, onları bulut hizmeti sağlayıcıları için ideal kılmaktadır. Yoğun sanallaştırma ve konteynerleştirme gerektirenler de dahil olmak üzere birçok bulut tabanlı uygulama ve hizmeti yönetebilirler.
  5. Ağ İletişimi ve İletişim : 200G InfiniBand ve 25G Ethernet iletişimiyle donatılan X13, yüksek bant genişliği ve düşük gecikmeli uygulamalarda öne çıkıyor ve bu da onu zorlu ağ oluşturma ve iletişim görevleri için uygun hale getiriyor. SuperBlade, harici ağ bağlantısı sayesinde bir merkez görevi görerek aynı raf veya veri merkezindeki geleneksel blade olmayan sunucularla InfiniBand ve Ethernet iletişimleri sağlayabilir.

Supermicro’nun sağladığı test donanımımızda toplam beş kanat vardı. Dördü tek bir işlemci ve PCIe hızlandırıcıyı alabilecek kapasiteyle donatılmıştı; bizim durumumuzda dört NVIDIA H100 ve bir çift işlemci kartı. Hesaplama blade’inin daha sonraki bir incelemesiyle devam edeceğiz; bu incelemenin uzunluğu, eklenmesinin biraz fazla olmasına neden oldu.

Supermicro X13 SuperBlade Veri Sayfası

Bileşen Tanım
Muhafaza 1x SBE-820H2-630
PSW 6x PWS-3K01A-BR
Fan 2x PWS-DF006-2F
BBP 1x AOC-MB-BBP01-P
CMM MBM-CMM-6
IB Anahtarı 1x SBM-IBS-H4020
TR Anahtarı 2x SBM-25G-200
Bıçak Yapılandırması
  • SBI-411E-5G:
    • 1x CPU 8562Y+
    • 8x MEM-DR532L-CL01-ER48
    • 2x HDS-SMN0-MZ1L23T8HBLAA7 (Samsung 3840G M.2 sürücüsü)
    • 1x GPU-NVH100-80
    • 1x SNK-P0088P
    • 1x AOC-IBH-X6HS-P
  • SBI-411E-5G: [Yukarıdakiyle aynı]
  • SBI-411E-5G: [Yukarıdakiyle aynı, Micron 480G M.2 sürücüsüyle]
  • SBI-411E-5G: [Yukarıdakiyle aynı, Micron 480G M.2 sürücüsüyle]
  • SBI-421E-5T3N:
    • 2x8562Y+
    • 512 Gb DDR5
    • 1x HDS-MMN-MTFDKBA480TFR1BC (Micron 480G M.2 sürücü)
    • 1x HDS-MUN-MTFDKCC3T8TDZ1AZ (Micron 3840G U.2 sürücüsü)
    • 2x SNK-P0088P
    • 1x AOC-IBH-X6HS-P

Supermicro X13 GPU SuperBlade’ler

GPU blade’leri, ön tarafta bir giriş ile ve GPU yerine bazı 2,5 inç NVMe yuvalarına sahip olan çift işlemci blade’imiz ile ilk bakışta güçlerini gizler.

Supermicro X13 SuperBlade GPU ve hesaplama blade'leri

Arka tarafta, bıçağı kasaya bağlayan ve tüm gücü ve verileri taşıyan göz kamaştırıcı sayıda pin bulunur.

İçeriye baktığımızda GPU blade’inde m.2 önyükleme SSD’lerini görebiliyoruz.

Yukarıdan hava yönlendirici kılavuzları görebiliriz. GPU blade’i ile Çift CPU blade’i arasındaki farka dikkat edin. GPU blade anakartı Çift CPU ile aynıdır ancak yalnızca arka G/Ç yarısıdır.

Ön tarafta ise farklı uygulamaları görmeye başlıyoruz. GPU blade’de bir PCIe yükseltici bulunurken CPU blade’de bir U.2 PCIe yükseltici bulunur ve PCIe yuvalarında çeşitli bileşenler barındırılabilir. Kasa, öncelikle temiz havanın GPU’ya çekilmesiyle pasif GPU’ların optimum şekilde soğutulması için tasarlanmıştır.

Kasanın arkasından başlayarak PSU’ları ve ağ bağlantısını görebiliriz. En üstteki tam genişlikli anahtar 200 Gbit NVIDIA Quantum InfiniBand içindir. Alttaki iki anahtardan büyüğü 25G ethernet, ortadaki küçük modül ise Şasi Yönetim Modülü içindir.

Supermicro X13 SuperBlade kasa arka

Supermicro X13 SuperBlade Kasa Yönetimi ve Dağıtımı

Bir Şasi Yönetim Modülünün (CMM) Supermicro’nun SuperBlade X13 kasasına entegre edilmesi, bireysel blade’lerin ötesine geçerek tüm rafı kapsayan bir dizi avantaj sunarak veri merkezi operasyonlarının genel verimliliğini ve yönetilebilirliğini artırır. CMM, SuperBlade X13 sisteminin yönetimini kolaylaştıran merkezi bir kontrol noktası görevi görür.

Tüm kasa işlevleri için tek bir cam panel, blade kasa gibi entegre platformlar için kritik öneme sahiptir. Her ne kadar bireysel blade’leri kapatıp açma yeteneği bazıları için önemli olsa da, diğer birçok işlev günlük yönetim rutinlerinde değerli bir rol oynar.

Supermicro’nun CMM’si kasayı izlemek, takılı blade’leri görüntülemek ve kasanın arkasına takılı entegre anahtarları yönetmek için merkezi bir iniş noktası sunar. Bu bant dışı yönetim aynı zamanda cihazın IP adreslerini de alır, böylece bu merkezi noktadan bağlı her cihaza kolayca geçiş yapabilirsiniz.

Kurulu her blade’in yönetimi, bağımsız bir Supermicro sunucunun yönetimine benzer. BIOS güncellemeleri gibi faaliyetler, daha önceki bir deneyde deneyimlendiği gibi BMC’si aracılığıyla gerçekleştirilir . Bu merkezi yaklaşım, tüm blade’lerde hızlı dağıtıma ve tutarlı güncellemelere olanak tanıyarak her bileşenin en son ürün yazılımı ve ayarlarla çalışmasını sağlar. Bu tür bir tekdüzelik, özellikle yapılandırma eşitsizliklerinin önemli verimsizliklere yol açabileceği yoğun bilgi işlem ortamlarında sistem kararlılığının ve performansının korunmasında hayati öneme sahiptir.

CMM’nin SuperBlade X13’ün yönetimindeki rolü, tüm rafın sağlığının izlenmesi ve kontrol edilmesine kadar uzanır. Güç tüketimini, soğutmayı, ağı ve sistem sağlığını denetleyerek raf performansına ilişkin bütünsel bir görünüm sağlar. Bu gözetim, potansiyel sorunların büyümeden önce tespit edilmesi ve ele alınması, kesinti süresinin en aza indirilmesi ve optimum operasyonel verimliliğin sürdürülmesi açısından çok önemlidir.

CMM, sunucu blade’lerini yönetmenin yanı sıra aynı tek arayüz üzerinden ağ yönetimini de yönetir. Bu, kullanıcıların her iki bağlı anahtarın anahtar yönetimi ekranlarına ilgili IP adresleri görüntülenerek kolayca erişmesine ve görüntülemesine olanak tanır. CMM ayrıca daha büyük dağıtımlar için komşu sistemlerle de iletişim kurarak kapsamlı bir yönetim paketi sağlayabilir.

Temelde CMM, SuperBlade X13’ün yönetimini bir dizi bireysel görevden uyumlu, akıcı bir sürece dönüştürür. Bu, her blade’in yönetimini basitleştiren ve tüm rack’in genel performansını ve güvenilirliğini artıran bir komuta merkezine sahip olmaya benzer. Blade ve raf yönetimine yönelik bu yaklaşım, özellikle ölçeklenebilirliğin, güvenilirliğin ve zamanın verimli kullanımının çok önemli olduğu veri merkezlerinde donanım yönetimi ekiplerine yardımcı olur.

Supermicro SuperBlade SBI-411E-5G – NVIDIA H100 Performansı

Yüksek performanslı bilgi işlemde, NVIDIA H100’e sahip SuperBlade SBI-411E-5G, dağıtılmış eğitim ve tek bıçaklı çıkarım için çok yönlü ve güçlü bir araçtır. Bu esneklik, özellikle değişen iş yüklerini yöneten veri merkezlerinde olduğu gibi, hesaplama taleplerinin önemli ölçüde dalgalandığı durumlarda belirgindir.

Supermicro X13 SuperBlade - NVIDIA H100 GPU

Dağıtılmış Eğitim Senaryoları

SuperBlade H100 düğümleri, karmaşık yapay zeka modelleri için hayati öneme sahip bir süreç olan dağıtılmış eğitimde öne çıkıyor. Büyük ölçekli bir sinir ağı modelinin geniş bir veri kümesi üzerinde eğitildiği bir senaryo hayal edin. Modelin eğitimi, her biri H100’ün gelişmiş GPU’larının gücünden yararlanan birden fazla blade’e dağıtılmıştır. Bu dağıtım, eğitim sürecini hızlandırır ve daha büyük modellerin ve pratik olmayan veri kümelerinin tek makinelerde işlenmesine olanak tanır.

200G InfiniBand burada kritik bir rol oynuyor. Yüksek bant genişliğine sahip, düşük gecikmeli iletişimi, blade’ler arasında hızlı ve verimli veri alışverişinin hayati önem taşıdığı dağıtılmış eğitim için çok önemlidir. Bu bağlantı, veri ve öğrenme parametrelerinin tüm blade’ler arasında tutarlı ve hızlı bir şekilde senkronize edilmesini sağlayarak yüksek hacimli veri işlemede sıklıkla karşılaşılan darboğazları en aza indirir.

Laboratuvarda Dağıtılmış Eğitim

Dağıtılmış eğitim, büyük ölçekli makine öğrenimi ve derin öğrenme görevlerine yaklaşımımızda devrim yarattı. Veri kraldır ve büyük miktardaki eğitim verisini verimli bir şekilde işleme yeteneği bir süredir darboğaz olmuştur. Burası açık kaynaklı kitaplıkların ve dört PCIe GPU’lu Supermicro SuperBlade X13 gibi güçlü donanımların, özellikle yüksek hızlı 200G InfiniBand ağı üzerinden bağlanıldığında oyunun kurallarını değiştirdiği yerdir.

TensorFlow ve PyTorch gibi açık kaynaklı kitaplıklar, her üreticinin desteği ve doğrulamasıyla makine öğrenimi topluluğunun temel öğeleri haline geldi. Makine öğrenimi modellerini geliştirmek ve ölçeklendirmek için sağlam, esnek ve sürekli gelişen çerçeveler sunarlar. Doğal dil işleme veya bilgisayarlı görmede kullanılanlar gibi karmaşık modelleri eğitirken hesaplama gereksinimi şaşırtıcı olabilir. SuperBlade X13’ün devreye girdiği yer burasıdır.

GPU özellikli X13 Blade

SuperBlade X13 platformu, yüksek yoğunluklu bilgi işlem yetenekleriyle tanınmaktadır ve bu da onu HPC ortamları için mükemmel bir seçim haline getirmektedir. H100 PCIe GPU’larla donatılmış iki kat genişlikte, yarım yükseklikte SBI-411E-5G blade’leri kullanan SuperBlade X13, çok büyük paralel işleme görevlerini yerine getirmek için kasa başına 10’a kadar GPU’yu destekler. Daha da önemlisi, blade’ler gerçekten herhangi bir zamanda yeniden yapılandırılabilir, bu da onları bir işletmenin yapay zeka iş yükleri değiştikçe son derece esnek hale getirir.

InfiniBand’in son derece düşük gecikme süresi ve yüksek verimle kasaya getirilmesi, veri ve model parametrelerinin düğümler arasında sürekli geçiş yapmasına yardımcı olur. Bu yüksek hızlı ağ, özellikle büyük ölçekli veri kümeleri ve karmaşık model mimarileriyle uğraşırken, dağıtılmış sistemlerde genellikle bir darboğaz olan veri aktarım süresini önemli ölçüde azaltır.

Bu kurulumda dağıtılmış eğitim için açık kaynak kitaplıkların entegre edilmesi birkaç önemli adımı içeriyordu. İlk olarak, GPU yeteneklerini tam olarak kullanabilmek için optimize edilmiş kapsayıcıları ve kitaplıkları seçmemiz gerekiyordu. Bu, bu kitaplıkların CUDA özellikli sürümlerini kullanarak GPU’nun işlem gücünden doğrudan yararlanabilmelerini sağlamaktan oluşur. İkincisi, InfiniBand’ın NCCL (NVIDIA Toplu İletişim Kütüphanesi) ile birlikte kullanılması ve toplu çoklu GPU/çok düğümlü iletişim için optimize edilmiş iletişim rutinleri sağlanması gerekir.

Uygulamada, bu platformda dağıtılmış bir eğitim görevi ayarlarken, her düğüm (bu durumda her SuperBlade) modelin bir bölümünü çalıştırır. Model parametreleri, InfiniBand ağının hızı ve düşük gecikme süresi sayesinde düğümler arasında gerçek zamanlı olarak senkronize edilir. Bu senkronizasyon, modelin yakınsaması ve doğruluğu açısından çok önemlidir.

TensorRT ve LLM’ler

NVIDIA’nın TensorRT Büyük Dil Modeli (LLM), yapay zeka ve makine öğreniminde önemli bir ilerlemeyi temsil ediyor. Verimlilik ve hız için tasarlanan TensorRT LLM, karmaşık yapay zeka görevlerini işlemedeki olağanüstü performansıyla bilinen Blade sunucu sistemleri ekosisteminin önemli bir bileşenidir. Tasarımı, teknik profesyonellerin ve BT karar vericilerinin ihtiyaçlarını karşılayarak modern veri merkezlerinin zorlu bilgi işlem gereksinimlerini karşılamak için sağlam bir çözüm sunar.

NVIDIA’nın TensorRT LLM’sinin teknik çerçevesi, yapay zeka ve derin öğrenmenin tüm potansiyelinden yararlanmak üzere tasarlanmıştır. Sinir ağı çıkarımını optimize etmek için tasarlandığı için yüksek performanslı bilgi işlem ortamları için ideal bir seçimdir. TensorRT LLM, eğitimli modelleri optimize edilmiş çalışma süresi motorlarına dönüştürme yeteneği sayesinde kayda değer bir verimlilik elde ederek gecikmeyi önemli ölçüde azaltır ve verimi artırır. Bu özellik esas olarak hızlı veri işlemenin ve minimum yanıt sürelerinin çok önemli olduğu Blade sunucu sistemlerine yarar sağlar. Ek olarak, NVIDIA’nın geniş GPU yelpazesiyle uyumluluğu, çok yönlülüğünü artırarak onu çeşitli BT ayarlarında ölçeklenebilir bir çözüm haline getiriyor.

NVIDIA TensorRT LLM’nin öne çıkan özelliklerinden biri de dağıtılmış eğitim kapasitesidir. Bu husus özellikle büyük ölçekli makine öğrenimi modellerinin norm olduğu ortamlarda çok önemlidir. Dağıtılmış eğitim, TensorRT LLM’nin birden fazla sistemden yararlanmasına olanak tanıyarak hesaplama yükünü verimli bir şekilde dağıtır. Bu, doğruluk veya performanstan ödün vermeden karmaşık modellerin eğitim süresinde önemli bir azalmaya yol açar. Çeşitli düğümler arasında dağıtılmış eğitim gerçekleştirme yeteneği, TensorRT LLM’yi genellikle büyük kuruluşlarda ve araştırma tesislerinde bulunan geniş BT altyapılarına son derece uyarlanabilir hale getirir. Ayrıca bu dağıtılmış yaklaşım, gelişmiş yapay zeka projelerinde ortak bir zorluk olan devasa veri kümelerinin işlenmesini kolaylaştırarak daha sağlam ve karmaşık yapay zeka modeli geliştirilmesine olanak tanıyor.

TensorRT LLM’nin optimizasyonu ve yüksek performanslı çıkarım yetenekleri, Blade sunucularının yoğun, birbirine bağlı doğasına idealdir. Blade sistemleri, TensorRT LLM’den yararlanarak karmaşık yapay zeka modellerini daha verimli bir şekilde yürütebilir, böylece daha hızlı işlem süreleri ve daha az gecikme elde edilebilir. Bu, özellikle finansal modelleme veya sağlık hizmetleri teşhisleri gibi gerçek zamanlı veri analizinin ve karar vermenin gerekli olduğu senaryolarda kritik öneme sahiptir.

Supermicro SuperBlade’i TensotRT LLM’nin dağıtılmış eğitim yetenekleri ve birden fazla sisteme uyarlanabilirliği ile birleştirmek, varlığın teknik profesyoneller ve BT karar vericileri için değerini artırır. Kuruluşlar, bu güçlü kombinasyondan yararlanarak büyük ölçekli yapay zeka projelerini verimli bir şekilde yönetebilir, böylece daha hızlı işlem, daha az gecikme ve ölçeklenebilir yapay zeka dağıtımları elde edebilir. Bunu kolaylaştırmak için kasa içerisinde Quantum InfiniBand ağını kullanıyoruz.

MLPerf ile Tek Blade Çıkarım Performansı Karşılaştırması

GPU blade’lerindeki düğüm başına bir CPU’dan bir GPU’ya mimari, özellikle tek blade çıkarım görevleri için yapay zeka ve veri analitiği iş yükleri için potansiyel faydalar sunar. Bu tasarım, dengeli bir işlem gücü oranı sağlayarak GPU’nun yeteneklerinin en iyi şekilde kullanılmasını sağlar.

Tek Blade Çıkarımı performansını test etmek için MLPerf 3.1 Inference’ı hem çevrimdışı hem de sunucuda çalıştırdık. BERT (Transformatörlerden Çift Yönlü Kodlayıcı Gösterimleri), öncelikle soru yanıtlama, dil anlama ve cümle sınıflandırma gibi doğal dil işleme görevleri için kullanılan transformatör tabanlı bir modeldir. ResNet-50, görüntü sınıflandırma görevleri için yaygın olarak kullanılan bir evrişimli sinir ağı (CNN) modelidir. Derin mimarisi ve verimli performansıyla bilinen ResNet modelinin 50 katmanlı bir çeşididir.

Tek Düğümlü Çıkarım
ResNet-50 – Çevrimdışı: 46.326,6
ResNet-50 – Sunucu: 47.717,4
BERT K99 – Çevrimdışı: 3.702,4
BERT K99 – Sunucu: 4.564,11
  • Çevrimdışı Mod: Bu mod, tüm veriler aynı anda işlenmeye uygun olduğunda sistemin performansını ölçer. Sistemin büyük bir veri kümesini tek bir toplu iş halinde işlediği toplu işleme benzer. Bu mod, gecikmenin birincil sorun olmadığı, ancak aktarım hızı ve verimliliğin önemli olduğu senaryolar için çok önemlidir.
  • Sunucu Modu: Buna karşılık, sunucu modu, isteklerin teker teker geldiği gerçek dünya sunucu ortamını taklit eden bir senaryoda sistemin performansını değerlendirir. Bu mod gecikmeye duyarlıdır ve sistemin her isteğe ne kadar hızlı yanıt verebileceğini ölçer. Web sunucuları veya etkileşimli uygulamalar gibi anında müdahalenin gerekli olduğu gerçek zamanlı uygulamalar için çok önemlidir.

Çıkarım görevlerinde GPU, hesaplamanın ağır yükünden öncelikli olarak sorumludur. Sistem, onu özel bir CPU ile eşleştirerek, GPU’nun, paylaşılan CPU veya platform kaynakları tarafından tıkanmadan verimli bir şekilde çalışabilmesini sağlar. Bu, canlı video analizi veya anında dil çevirisi gibi gerçek zamanlı veri işleme senaryolarında çok önemlidir.

İlginç bir şekilde, bu 1:1 CPU-GPU oranının performansta daha fazla öngörülebilirlik sağladığını gözlemledik. Her düğüm bağımsız olarak çalışarak tutarlı işlem süreleri sağlar ve çıkarım görevlerindeki değişkenliği azaltır. Bu öngörülebilirlik, yanıt süresinin kritik olduğu ortamlarda hayati öneme sahiptir.

Genel olarak SuperBlade H100’deki bir CPU’dan bir GPU’ya yapılandırması her iki bileşenin etkinliğini en üst düzeye çıkarır. Bu, her düğümün bağımsız modelleri ve süreçleri çalıştırmasıyla, her düğümün çıkarım görevleri için en iyi performansı sunmasını sağlar. Bu mimari, sistemin gerçek zamanlı veri işleme taleplerini verimli ve güvenilir bir şekilde karşılama yeteneğini geliştirir.

Uyarlanabilir İş Yükü Yönetimi

Tüm bilgiler dikkate alındığında SuperBlade sisteminin son derece uyarlanabilir olduğu açıktır. Çıkarım talebinin yüksek olduğu yoğun saatlerde, bu görevleri yerine getirmek için daha fazla GPU özellikli blade dinamik olarak tahsis edilebilir ve böylece gerçek zamanlı isteklerin verimli bir şekilde ele alınması sağlanır. Bunun tersine, yoğun olmayan saatlerde bu kaynaklar, yapay zeka modellerinin ince ayarının yapılmasına veya zamana daha az duyarlı görevlerin işlenmesine odaklanacak şekilde kaydırılabilir. Bu esneklik, kaynakların optimum şekilde kullanılmasına olanak tanıyarak SuperBlade sisteminin değişen hesaplama yüklerini yönetmede sağlam ve verimli olmasını sağlar.

Bu Senaryolarda 200G NVIDIA Quantum InfiniBand’ın Avantajları

SuperBlade H100 sistemine 200G InfiniBand’ın dahil edilmesi, yüksek hızlı veri aktarımının omurgasını sağlayarak bu senaryoları geliştirir. Dağıtılmış eğitim, blade’ler arasında verilerin daha hızlı senkronize edilmesini sağlar; bu, eğitim sürecinin tutarlılığını ve hızını korumak için gereklidir. Tek kanatlı çıkarım, büyük veri kümelerinin işlenmek üzere blade’e hızlı bir şekilde taşınabilmesini sağlar, gecikmeyi azaltır ve verimi artırır.

Quantum InfiniBand’da Neler Var?

Yüksek performanslı bilgi işlemin temel taşı olan InfiniBand, başlangıçta süper bilgi işlem kümeleri içinde giderek artan veri aktarımı ve iletişim taleplerini karşılamak için geliştirilen yüksek hızlı bir ara bağlantı teknolojisidir. Bu son derece uzmanlaşmış ağ çözümü yıllar içinde gelişerek son derece düşük gecikme süresi ve yüksek bant genişliği sunarak HPC ortamlarındaki sunucuları, depolama sistemlerini ve diğer bileşenleri bağlamak için ideal hale getirdi.

Gönderdiğimiz Supermicro X13 blade’ler 200G InfiniBand ağı ve 25G ethernet ile donatılmış olarak geldi. Bu, özellikle dağıtılmış eğitim ve diğer gecikmeli ve veri yoğunluklu görevler üzerinde çalışırken yararlı oldu. Yukarıda bahsedilen oldukça değişken (ve zaman alıcı) birkaç eğitim döneminden sonra, InfiniBand ağının blade kasasının sayısız pininde gizli olan gerçek dünya test ölçümlerini sağlamak için farklı bir ölçüme ihtiyacımız olduğunu belirledik. Çalıştırmadan çalıştırmaya ince ayarın aşırı değişkenliği göz önüne alındığında, bu görevler için bunun gibi çok düğümlü bir sistem kullanmanın etkisini veya etki eksikliğini ölçmeye çalışmak sorumsuzluk olacaktır. Sonuçlar şaşırtıcının da ötesindeydi.

 NVIDIA ClusterKit’e girin . NVIDIA ClusterKit, çok düğümlü GPU kümelerinin tüm potansiyelini test etmek için tasarlanmış bir araç seti olup, yapay zeka ve HPC uygulayıcılarına iş yüklerinin performansını, verimliliğini ve ölçeklenebilirliğini ölçmek için ilginç bir araç paketi sunar.

ClusterKit’te iki temel araca odaklandık:

  • Bant Genişliği Testi: Bant genişliği, HPC’de belirli bir zamanda ağ üzerinden iletilebilecek veri miktarını yansıtan kritik bir ölçümdür. Supermicro SuperBlade kurulumunda düğümler arasındaki çift yönlü (duplex) bant genişliğini ölçmek için NVIDIA ClusterKit’i kullandık. Çift yönlü ölçümler, verilerin her iki yönde aynı anda aktığı gerçek dünya senaryosunu yansıttıkları için önemlidir.
  • Gecikme Testi: Gecikme veya bir mesajın ağdaki bir noktadan diğerine gitmesi için geçen süre, bir diğer önemli performans ölçütüdür. Düşük gecikme, sıkı bir şekilde bağlı HPC uygulamalarında önemlidir. NVIDIA ClusterKit’in çift yönlü gecikme sürelerini doğru bir şekilde ölçme yeteneği, SuperBlade’lerdeki InfiniBand ağının yanıt verme hızına ilişkin değerli bilgiler sağladı.

ClusterKit ile SuperBlade InfiniBand ve H100 GPU Karşılaştırma Sonuçları

Bu bölüme girerken, her düğümün benzersiz bir etiketle (örneğin, smci-a7, smci-a1, vb.) tanımlandığını anlamak önemlidir. -1, -3, -5 ve -7’nin gösterimi, blade’in kasadaki fiziksel konumunu yansıtan ana bilgisayar adıdır.

İlk test, kümedeki çeşitli düğümler arasındaki çift yönlü bant genişliğini ölçmeye odaklandı. Test, 16 kez yinelenen 8.388.608 baytlık bir mesaj boyutunu içeriyordu.

GPU Doğrudan Testleri

İlk önce GPU Direct testlerine bir göz atıyoruz. Bu, bu yazının yazıldığı sırada mevcut olan en yeni ve en iyi SDK’ların ve araç takımlarının tümünü kullanarak blade platformunun mutlak maksimum verimini bildirir. Testin bant genişliğini çift yönlü olarak rapor ettiğini, yani bant genişliğinin her iki yönde de toplam olduğunu belirtmek önemlidir. Tek yön yaklaşık yarım olacaktır. Temel çıkarım, bant genişliğini sınırlayan faktörün 200G InfiniBand olduğudur, ancak daha sonra göreceğimiz gibi bu çok fazla endişe kaynağı değildir.

Divyansh Jain ile Supermicro SuperBlades üzerinde Infiniband ClusterKit Testi

Aşağıdaki matris GPUDirect kullanılarak çift yönlü bant genişliğini göstermektedir.

Bant Genişliği Matrisi MB/sn
Sıra/Düğüm smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0,0 49.221,6 49.193,6 49.223,6
1 (smci-a1) 49.221,6 0,0 49.219,5 49.142,7
2 (smci-a3) 49.193,6 49.219,5 0,0 49.219,7
3 (smci-a5) 49.223,6 49.142,7 49.219,7 0,0
Gecikme kullanım süresi

Sırada mikrosaniyelerle ölçülen dikkat çekici gecikme testi sonuçları vardı. GPU Direct testleri, birden fazla GPU’nun yerel olarak bir ana bilgisayara sahip olması kadar iyiydi.

Rütbe smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0,00 1.38 1.24 1.38
1 (smci-a1) 1.38 0,00 1.25 1.36
2 (smci-a3) 1.24 1.25 0,00 1.32
3 (smci-a5) 1.38 1.36 1.32 0,00

GPU Komşu Testleri

GPU komşu testlerine geçersek, bant genişliği yine çift yönlü olarak raporlanır, yani bant genişliği her iki yönde de toplamdır. Tek yön yaklaşık yarım olacaktır. Aşağıdaki matris, dört düğümün her birindeki H100 kartları arasındaki çift yönlü bant genişliğini gösterir. Bu, GPUDirect kitaplıklarının hızlandırılmasını kullanmaz. 1, 3, 5 ve 7’nin gösterimi, blade’in kasadaki fiziksel konumunu yansıtan ana bilgisayar adıdır.

Supermicro X13 SuperBlade InfiniBand Anahtarı

SBS-IBS-H4020 HRD InfiniBand Anahtarı

GPU Komşu Bant Genişliği (MB/s)

“GPU Komşu Bant Genişliği” testi, aynı sistem veya düğüm içindeki komşu GPU’lar arasındaki veri aktarım hızını ölçer. Bu ölçüm, çoklu GPU paralel işleme görevleri gibi birbirine yakın GPU’lar arasında sık veri alışverişi gerektiren uygulamalar için çok önemlidir. Bant genişliği ne kadar yüksek olursa veri aktarımı da o kadar hızlı olur ve bu da GPU’nun yoğun kullanıldığı uygulamalarda potansiyel olarak iyileştirilmiş performansa yol açar.

GPU Bant genişliği (MB/s)
smci-a1 ile smci-a7 30.653,9
smci-a5 ile smci-a3 30.866,7
Ortalama 30.760,3
GPU Bellek Bant Genişliği (MB/s)

“GPU Bellek Bant Genişliği” testi, verilerin GPU’nun kendisi tarafından GPU belleğinden okunma veya burada saklanma hızını değerlendirir. Bu bant genişliği, özellikle büyük veri kümeleri içeren veya görüntü işleme, simülasyonlar veya derin öğrenme gibi görevler için yüksek verim gerektiren uygulamalar için kritik bir performans unsurudur. Daha yüksek bellek bant genişliği, GPU’nun büyük hacimli verileri verimli bir şekilde işleme yeteneğinin daha iyi olduğunu gösterir. Bu test bize X13 Blade’lerin H100 GPU’ları sürdürmede sorun yaşamadığını gösteriyor.

GPU Bant genişliği
smci-a7-GPU0 55.546,3
smci-a1-GPU0 55.544,9
smci-a3-GPU0 55.525,5
smci-a5-GPU0 55.549,8
Ortalama 55.541,6
GPU’dan GPU’ya Bant Genişliği (MB/s)

Bu test, farklı GPU’lar arasındaki çift yönlü bant genişliğini ölçer. Birden fazla GPU’ya dağıtılmış karmaşık hesaplamalar içeren ve GPU’lar arasındaki veri aktarım hızının genel işlem süresini önemli ölçüde etkileyebildiği görevler için bu gereklidir. GPU’dan GPU’ya yüksek bant genişliği, çoklu GPU iş akışlarını ve paralel bilgi işlem görevlerini hızlandırmak için faydalıdır.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7-GPU0 0,0 30.719,8 30.817,7 30.823,8
smci-a1-GPU0 30.719,8 0,0 30.710,0 30.670,9
smci-a3-GPU0 30.817,7 30.710,0 0,0 30.835,1
smci-a5-GPU0 30.823,8 30.670,9 30.835,1 0,0
Ortalama 30.762,9
GPU0 – Uzak Ana Bilgisayar Bant Genişliği (MB/s)

“GPU0’dan Uzak Ana Bilgisayar Bant Genişliğine” testi, birincil GPU (GPU0) ile uzak ana bilgisayar sistemi arasındaki veri aktarım hızını ölçer. Bu, verilerin ana GPU ile ağ bağlantılı bir sistemin diğer bölümleri arasında sık sık taşınması gereken, dağıtılmış derin öğrenme eğitimi veya uzak sunuculardaki veri analizi gibi görevleri etkileyen dağıtılmış bilgi işlem ortamlarında hayati öneme sahiptir.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0,0 30.804,3 30.753,5 30.768,1
smci-a1 30.804,3 0,0 30.732,9 30.679,7
smci-a3 30.753,5 30.732,9 0,0 30.970,8
smci-a5 30.768,1 30.679,7 30.970,8 0,0
GPU Komşu Gecikmesi (μsaniye)

“GPU Komşu Gecikmesi” testi, küçük miktarda verinin bir GPU’dan komşu GPU’ya gitmesi için geçen süreyi ölçer. Özellikle gerçek zamanlı veri işleme veya GPU’lar arasında yüksek hızlı iletişim gerektiren, gerçek zamanlı işleme veya karmaşık bilimsel simülasyonlar gibi uygulamalarda gecikmenin daha düşük olması arzu edilir.

GPU Gecikme
smci-a1 ile smci-a7 11.03
smci-a5 ile smci-a3 11.01
GPU’dan Uzak Ana Bilgisayara Gecikme (μsaniye)

“GPU0’dan Uzak Ana Bilgisayara Gecikme” testi, birincil GPU (GPU0) ile uzak ana bilgisayar sistemi arasındaki veri iletişimindeki gecikmeyi ölçer. Bu gecikme, dağıtılmış bilgi işlem ortamlarında kritik bir faktördür ve bulut tabanlı oyun veya uzaktan veri işleme gibi GPU ile uzak sistemler arasındaki etkileşime dayanan uygulamaların yanıt verme hızını ve verimliliğini etkiler.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0,00 3.35 3.36 3.33
smci-a1 3.35 0,00 3.41 3.37
smci-a3 3.36 3.41 0,00 3.37
smci-a5 3.33 3.37 3.37 0,00
Ortalama 3.37

NVIDIA ClusterKit testleri, Supermicro SuperBlades’teki InfiniBand ağı için etkileyici performans ölçümlerini ortaya çıkardı. Çift yönlü bant genişliği testleri, InfiniBand’ın yeteneklerinin verimli şekilde kullanıldığını gösteren yüksek veri aktarım hızlarını ortaya çıkardı. Benzer şekilde, gecikme testleri minimum gecikmeler göstererek ağın zorlu HPC görevleri için uygunluğunu ortaya koydu. Bu, bu platformun bağımsız sistemlerle aynı performansı gösterdiği ve çok daha yüksek yoğunlukta bilgi işlem ve ağ iletişimi sunduğu anlamına geliyor; hepsi birleştirilmiş bir çözümde.

Bağımsız GPU Sunucu Testi

 Daha sonra, 4x NVIDIA H100’leri aynı anda 4’ünü de destekleyebilen bir Supermicro 4U AMD EPYC GPU Sunucusuna taşıdık , GPU’yu GPU’ya ve gecikmeye kadar test etmeye baktık. Çapraz bıçak iletişimi olmadan, yalnızca bu sunucudaki kartların performans profilini anlamaya çalıştığımızı anlamak çok önemlidir. Bu 4U sunucu, destekleyebileceği kartlar açısından esnek olsa da, Supermicro X13 SuperBlade Kasasının sunduğu olağanüstü şekillendirilebilirliğe sahip değil. Elbette Supermicro her zamanki gibi sıvı soğutmalı soketli GPU’lar da dahil olmak üzere her uygulama için bir çözüm sunuyor.

Öncelikle tek platformdaki 4 GPU’nun eşler arası Bant Genişliğine bakalım.

 Yazma Bant Genişliği (GB/s) – Tek Yönlü

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0,00 54.29 39.50 40.51
GPU1 54.60 0,00 40.55 40.22
GPU2 40.60 38.73 0,00 54.03
GPU3 40.99 40.33 53.79 0,00

Okuma Bant Genişliği (GB/s) – Tek Yönlü

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0,00 53.17 39.23 35.69
GPU1 53.70 0,00 36.96 41.02
GPU2 36.28 39.88 0,00 53.32
GPU3 40.40 37.08 53.68 0,00

Burada GPU0 ve GPU1 GPU’larının bir NUMA düğümünde, GPU2 ve GPU3’ün ise başka bir NUMA Düğümünde olduğunu unutmamak önemlidir. NUMA düğümünü geçmenin performans üzerindeki etkisini burada açıkça görebilirsiniz.

Kopyalama Motoru (CE) – Yazma Gecikmesi (bize)

Son olarak, GPU’dan GPU’ya olan gecikmeyi ölçüyoruz.

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0,00 1.67 1.64 1.64
GPU1 1.57 0,00 1.61 1.61
GPU2 1.66 1.69 0,00 1.65
GPU3 1.65 1.66 1.61 0,00

Beklendiği gibi, tüm GPU’ları tek bir platforma taşımak, Blade’in 200G IB bağlantılarına kıyasla bize 2 kat bant genişliği sağlıyor. Buradaki bant genişliği uygulama için dikkate alınması gereken bir husus olabilir, ancak mikrosaniye mertebesinde çalışan gecikme sayılarından bahsederken, hepsi tek bir kasadayken ortalama 1,6 us GPU’dan GPU’ya geçişin rapor edilmesinde büyük bir değişiklik yoktur. PCIe Veriyolunu geçmek zorunda kaldığınızda bıçaklarda 1,5us, IB anahtarı ve GPU’ya geri dönüş dikkat çekicidir. Ancak hikayenin tamamı bu değil  .

Çözüm

Supermicro X13 SuperBlade, Emerald Rapids CPU’ları ve NVIDIA H100 GPU’ları ile blade’in hizmet edebileceğinin memnuniyetle karşılanan bir evrimidir. Yetenekleri çeşitli yoğun hesaplamalı görevlere uzanır ve bu da onu veri analitiğinden yapay zeka ve bulut bilişime kadar çeşitli endüstriler için çok yönlü ve sağlam bir çözüm haline getirir. Yüksek performanslı bilgi işlem talebi artmaya devam ederken X13, Supermicro’nun sunucu teknolojisinde yenilikçiliğe ve mükemmelliğe olan bağlılığını göstererek bu zorlukların üstesinden gelmeye hazırdır.

Testlerden elde edilen her şey dikkate alındığında, bütünsel bir bakış açısıyla benzersiz ve son derece uyarlanabilir doğası sayesinde bu platformla özellikle ilgileniyoruz. Platformun uygulamasını bağlamsallaştırmak önemlidir.

Tüm yüksek işlem gücünüz için rafınızda Supermicro X13 Blade sisteminin bulunduğu bir araştırma departmanındaki bir senaryoyu hayal edin. Platformda yerleşik olarak bulunan merkezi yönetim altyapısını yalnızca blade’leri ve platformu kontrol etmek için değil, aynı zamanda diğer ekipman parçalarının kontrolü, ağ iletişimi ve yönetimi için bir merkez olarak da kullanabilirsiniz. Veriye aç GPU’ları beslemek için SuperBlade’lere yeterince güçlü bir depolama sunucusu yuvası bağladığınızda, tüm bitleri hat hızında modellerinize alabilirsiniz. Bu hayali senaryoda, tüm GPU’larımızın gün içinde farklı araştırmacılar tarafından kullanılmasını sağlayabiliriz ve ardından zamanı geldiğinde tüm blade’leri InfiniBand üzerinden bağlayıp birlikte çalışmasını sağlayabiliriz.

CPU ile GPU arasındaki bire bir ilişkinin bant genişliği testi, tam yüklü bir blade kasası göz önüne alındığında, blade sistemiyle ek kart GPU’larına sahip tek bir sunucudan daha iyi performans gösterebileceğinizi de gösterdi. Düzgün tasarlanmış dağıtılmış bir eğitim iş akışıyla, aslında tüm GPU’ların tek bir düğümde olması kadar iyi veya bundan daha iyi bir performans görebilirsiniz, ancak artık çift görevi kolayca üstlenerek ön GPU maliyetini yarıya indiren bir platforma sahip oluyorsunuz . En yeni CPU’ların desteği sayesinde, uygulamaya konulduktan sonra HDR InfiniBand’dan NDR’ye geçmeyi sabırsızlıkla bekliyoruz; çünkü bu, SuperBlade’leri tek bir GPU sunucu platformunda alabileceğiniz performansın çok üstüne ve ötesine taşıyacaktır.

Supermicro X13 SuperBlade kasası ve GPU blade’leri, gelişen veya düzenli olarak değişen yapay zeka ihtiyaçları için son derece uyarlanabilir, sağlam bir seçimdir. Platformda geçirdiğimiz uzun süre boyunca, DRAM, CPU ve GPU değişiklikleri veya yapay zeka dünyasında bilindiği şekliyle “başka bir gün” ihtiyacıyla karşılaştık ve bunların tümü platform tarafından kolaylıkla karşılandı. Genel olarak, platform sağlamdır ve kendisinden istenecek çok fazla şey bırakmadan yapay zeka alanı için ilgi çekici ve güçlü bir cihaz olarak karşımıza çıkar. Rakip sistemlerin fiyat noktaları göz önüne alındığında, bir bıçağın esnekliğinden yararlanabiliyorsanız, bu neredeyse rakipsizdir.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir