دو ویژگی مشخص برای NVIDIA DGX Spark برجسته است: حافظه ی یکپارچه 128 گیگابایتی در یک واحد دسکتاپ 4000 دلاری و یک شبکه ی داخلی درجه 200 گیگابایتی برای مرکز داده ها.پارچه با سرعت بالا آن را از ایستگاه های کاری معمولی متمایز می کنداین بررسی معیارهای استنباط توزیع شده در Dell، GIGABYTE،و انواع HP Spark در خوشه های دو گره 200GbE در مدل ها و بارهای مختلف کاراین همچنین موازی خط لوله (PP) را تجزیه و تحلیل می کند ، یک روش تقسیم جایگزین که از موازی تنسور پیش فرض NVIDIA (TP) بهتر است.
بافت شبکه 200 گيگابايت
هر Spark دو قفس QSFP56 را مجهز به یک SmartNIC ConnectX-7 یکپارچه می کند. محدود به پهنای باند PCIe Gen5 x4 ، حداکثر سرعت شبکه قابل استفاده در 200 گیگابایت ،با یک پورت کافی برای پهنای باند کامل؛ پورت دوم انعطاف پذیری توپولوژی را ارائه می دهد. سه پیکربندی رایج در دسترس است: پیوندهای مستقیم Spark-to-Spark 200Gb، توپولوژی حلقه بدون سوئیچ از طریق پورت های دوگانه 100Gb،و خوشه بندی ترکیبی با دسترسی به ذخیره سازی NVMe-oF با سرعت بالا. NVIDIA یک واحد دسکتاپ می فروشد، خوشه های دو گره معتبر، و تازه منتشر شده چهار گره تنظیمات.پیکربندی دو جرقه ای عملی ترین برای نتیجه گیری سبک تولید و تمرکز این آزمایش است.
دلایل جمع آوری جرقه
مزیت اصلی گسترش ظرفیت مدل است: دو Spark متصل می توانند مدل های پارامتر 120B را اجرا کنند که از محدودیت های حافظه واحد فراتر می روند.این پلتفرم به عنوان یک ابزار آموزشی مقرون به صرفه استNVIDIA Spark را برای مبتدیان طراحی می کند تا جریان های کاری هوش مصنوعی را یاد بگیرند، با راهنماهای رسمی که گسترش مدل، تنظیم دقیق و توسعه PyTorch / JAX را پوشش می دهد.خوشه های دو گره به علاوه تعادل چند گره و تجزیه و تحلیل تنگه های شبکه را بدون سخت افزار گران قیمت مرکز داده آموزش می دهند.به طور خاص، Spark برای نتیجه گیری تولید بهینه نشده است. محدود به پهنای باند حافظه و تاخیر بین گره، لینک 200GbE آن کندتر از اتصالات داخلی PCIe است.خوشه های بزرگتر دچار کاهش شدید عملکرد می شوند، با حجم کم توکن، آنها را به استفاده آموزشی به جای استفاده تجاری محدود می کند.
آزمایش عملکرد: PP در مقابل TP
انتخاب استراتژی موازی
NVIDIA به طور پیش فرض به TP، که هر لایه ترانسفورم را در دو GPU با مبادلات داده های مکرر کاهش می دهد، تقسیم می کند. در مقابل، PP مدل ها را به صورت لایه تقسیم می کند.انتقال فعال سازی فقط یک بار بین گره هادر پیوندهای 200GbE، PP ارتباطات بین گره ها را به حداقل می رساند. برای مدل های بزرگ در اندازه های دسته های بالا، PP به شدت از TP برتر است؛ TP فقط در سناریوهای چت کم تاخیر با یک درخواست برجسته است.
آزمایشات بر روی GPT-OSS-120B این شکاف را تأیید می کند. در اندازه دسته 128 ، PP 554.69 tok / s (2.20 × سریعتر از TP) را در بارهای کار متعادل ، 310.63 tok / s در مقابل 164.99 tok / s در وظایف سنگین پیش از پر کردن می یابد.لوله های TP فقط در اندازه دسته 1برای مدل های کوچک مانند Llama-3.1-8B ، TP به دلیل محاسبه لایه سبک ، بر اکثر اندازه های دسته ای تسلط دارد ، PP فقط در همزمان بودن بالا از TP پیشی می گیرد.
نتایج معیار چند مدل (PP=2)
سری GPT-OSS
برای GPT-OSS-120B، HP در بارهای کاری متعادل (504.88 توک / ثانیه) و پیش از پر کردن (441.63 توک / ثانیه) حداکثر سرعت را به دست آورد. برای GPT-OSS-20B،دِل تسلط داشت متعادل (976.77 tok / s) و سناریوهای پر کردن پیش (852.39 tok / s) ، در حالی که GIGABYTE وظایف رمزگشایی را (945.55 tok / s) رهبری می کند.
لاما ۳.۱ 8B
در دقت BF16، دِل بار های کاری متعادل (689.53 توک/ ثانیه) و کد شکنی (581.43 توک/ ثانیه) را هدایت کرد؛ گیگابایت آزمون های سنگین پیش پر کردن (539.27 توک/ ثانیه) را برنده شد. بهینه سازی FP4 سرعت تولید را به شدت افزایش داد:گیگابایت LED متعادل (1458.86 توکن در ثانیه) و وظایف پیش پر کردن (954.23 توکن در ثانیه). برای FP8 ، دل در سناریوهای متعادل (1105.42 توکن در ثانیه) و رمزگشایی (862.33 توکن در ثانیه) منجر به باریک شد.
مدل های میسترال و کوون
Mistral Small 3.1 24B حداقل شکاف را مشاهده کرد: GIGABYTE در 255.09 tok / s در بار کار متعادل به اوج خود رسید. برای Qwen3 Coder 30B (A3B Base) ، GIGABYTE وظایف سنگین پیش از پر کردن (1862.40 tok / s) را رهبری کرد.ديل در سيناريوهاي رمزگشايي برتري داشتتحت کوانتیزاسیون FB8، GIGABYTE از پیش پر کردن سنگین (3088.62 توک / ثانیه) ، در حالی که دل منجر به وظایف رمزگشایی (705.77 توک / ثانیه) شد.
خلاصه اوج تولید سیستم های دو طرفه
|
مدل
|
سناریو (BS ¢ 64)
|
Dell Peak Output (خروجی اوج)
|
گگابایت حداکثر خروجی
|
حداکثر خروجی HP
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
ISL/OSL مساوی
|
463.97 توک/ ثانیه
|
497.26 توک/ ثانیه
|
504.88 توک/ ثانیه
|
|
GPT-OSS-120B
|
پیش پر کردن سنگین
|
419.56 توک/ ثانیه
|
417.34 توک/ ثانیه
|
441.63 توک/ ثانیه
|
|
GPT-OSS-120B
|
رمزگشایی سنگین
|
451.18 توک/ ثانیه
|
494.37 توک/ ثانیه
|
474.85 توک/ ثانیه
|
|
GPT-OSS-20B
|
ISL/OSL مساوی
|
976.77 توک/ ثانیه
|
952.31 توک/ ثانیه
|
915.72 توک/ ثانیه
|
|
GPT-OSS-20B
|
پیش پر کردن سنگین
|
852.39 توک/ ثانیه
|
802.37 توک/ ثانیه
|
757.05 توک/ ثانیه
|
|
GPT-OSS-20B
|
رمزگشایی سنگین
|
938.65 توک/ ثانیه
|
945.55 توک/ ثانیه
|
865.78 توک/ ثانیه
|
|
لاما-۳-۱-۸-بی-اسنتر
|
ISL/OSL مساوی
|
689.53 توک/ ثانیه
|
687.48 توک در ثانیه
|
618.87 توک/ ثانیه
|
|
لاما-۳-۱-۸-بی-اسنتر
|
پیش پر کردن سنگین
|
515.45 توک/ ثانیه
|
539.27 توک/ ثانیه
|
463.39 توک/ ثانیه
|
|
لاما-۳-۱-۸-بی-اسنتر
|
رمزگشایی سنگین
|
581.43 توک/ ثانیه
|
576.91 توک/ ثانیه
|
531.07 توک/ ثانیه
|
|
Llama-3.1-8B-FP4
|
ISL/OSL مساوی
|
1427.39 توک/ ثانیه
|
1458.86 توک/ ثانیه
|
1413.51 توک/ ثانیه
|
|
Llama-3.1-8B-FP4
|
پیش پر کردن سنگین
|
884.22 توک/ ثانیه
|
954.23 توک/ ثانیه
|
843.57 توک/ ثانیه
|
|
Llama-3.1-8B-FP4
|
رمزگشایی سنگین
|
1008.98 توک/ ثانیه
|
1007.23 توک/ ثانیه
|
943.73 توک/ ثانیه
|
|
Llama-3.1-8B-FP8
|
ISL/OSL مساوی
|
1105.42 توک/ ثانیه
|
1089.85 توک/ ثانیه
|
1076.68 توک/ ثانیه
|
|
Llama-3.1-8B-FP8
|
پیش پر کردن سنگین
|
759.50 توک/ ثانیه
|
827.40 توک/ ثانیه
|
725.51 توک/ ثانیه
|
|
Llama-3.1-8B-FP8
|
رمزگشایی سنگین
|
862.33 توک/ ثانیه
|
855.81 توک/ ثانیه
|
800.78 توک/ ثانیه
|
|
"مسترال-سمال"
|
ISL/OSL مساوی
|
249.77 توک/ ثانیه
|
255.09 توک/ ثانیه
|
239.09 توک/ ثانیه
|
|
"مسترال-سمال"
|
پیش پر کردن سنگین
|
216.01 توک/ ثانیه
|
214.38 توک/ ثانیه
|
197.92 توک/ ثانیه
|
|
"مسترال-سمال"
|
رمزگشایی سنگین
|
238.44 توک در ثانیه
|
237.97 توک/ ثانیه
|
221.41 توک/ ثانیه
|
نتیجه گیری
دستگاه های Dell، GIGABYTE و HP Spark با تفاوت های عملکردی ناچیز، با منجر شدن به دسته های خاص کوچک، ارائه می دهند. تصمیمات خرید باید طراحی شاسی، عملکرد حرارتی، گارانتی،و پشتیبانی پس از فروش نسبت به تفاوت های ناچیز در شاخص های مرجعاستراتژی موازی بسیار تاثیر بیشتری نسبت به تغییرات OEM دارد: PP از TP برای نتیجه گیری دسته بندی شده بهتر است، در حالی که TP برای تعامل یک جریان کم تاخیر مناسب است.توصیه NVIDIA به TP با موقعیت Spark به عنوان یک دستگاه یادگیری تعاملی به جای زیرساخت های تولید مطابقت داردیک خوشه دو گره ای اسپارک به عنوان یک پلت فرم آموزشی مقرون به صرفه برای هوش مصنوعی توزیع شده عمل می کند. آزمایشات آینده خوشه های بزرگتر و آموزش مدل کوچک از انتهای به انتهای را پوشش می دهد.در حال انتظار لابراتوار 800Gb جابجا کردن سوئیچ.
شرکت فناوری چینجینگ جیوتونگ پکن، لمیتد
سندي يانگ، مدير استراتژي جهاني
واتساپ / وی چت: +86 13426366826
ایمیل: yangyd@qianxingdata.com
وب سایت: www.qianxingdata.com/www.storagesserver.com
تمرکز کسب و کار:
توزیع محصولات ICT / ادغام سیستم و خدمات / راه حل های زیرساخت
با 20+ سال تجربه توزیع فناوری اطلاعات، ما با مارک های پیشرو جهانی همکاری می کنیم تا محصولات قابل اعتماد و خدمات حرفه ای را ارائه دهیم.
استفاده از تکنولوژی برای ساختن یک جهان هوشمند، ارائه دهنده خدمات قابل اعتماد محصولات ICT شما
سندي يانگ، مدير استراتژي جهاني
واتساپ / وی چت: +86 13426366826
ایمیل: yangyd@qianxingdata.com
وب سایت: www.qianxingdata.com/www.storagesserver.com
تمرکز کسب و کار:
توزیع محصولات ICT / ادغام سیستم و خدمات / راه حل های زیرساخت
با 20+ سال تجربه توزیع فناوری اطلاعات، ما با مارک های پیشرو جهانی همکاری می کنیم تا محصولات قابل اعتماد و خدمات حرفه ای را ارائه دهیم.
استفاده از تکنولوژی برای ساختن یک جهان هوشمند، ارائه دهنده خدمات قابل اعتماد محصولات ICT شما



