| مشخصات NVIDIA L4 | |
|---|---|
| FP 32 | 30.3 ترافلاپس |
| هسته تنسور TF32 | 60 ترافلاپس |
| هسته تنسور FP16 | 121 ترافلاپس |
| هسته تنسور BFLOAT16 | 121 ترافلاپس |
| هسته تنسور FP8 | 242.5 ترافلاپس |
| هسته تنسور INT8 | 242.5 TOPs |
| حافظه GPU | 24 گیگابایت GDDR6 |
| پهنای باند حافظه GPU | 300 گیگابایت بر ثانیه |
| حداکثر توان طراحی حرارتی (TDP) | 72 وات |
| فاکتور فرم | PCIe کم پروفایل 1 اسلاته |
| اتصال | PCIe Gen4 x16 |
| نمودار مشخصات | L4 |
البته، با قیمت L4 در حدود 2500 دلار، A2 با تقریباً نصف قیمت، و T4 قدیمی (اما هنوز هم کاملاً توانا) که با قیمت کمتر از 1000 دلار دست دوم موجود است، سوال واضح این است که تفاوت بین این سه GPU استنتاجی چیست.
| مشخصات NVIDIA L4، A2 و T4 | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| FP 32 | 30.3 ترافلاپس | 4.5 ترافلاپس | 8.1 ترافلاپس |
| هسته تنسور TF32 | 60 ترافلاپس | 9 ترافلاپس | N/A |
| هسته تنسور FP16 | 121 ترافلاپس | 18 ترافلاپس | N/A |
| هسته تنسور BFLOAT16 | 121 ترافلاپس | 18 ترافلاپس | N/A |
| هسته تنسور FP8 | 242.5 ترافلاپس | N/A | N/A |
| هسته تنسور INT8 | 242.5 TOPs | 36 TOPS | 130 TOPS |
| حافظه GPU | 24 گیگابایت GDDR6 | 16 گیگابایت GDDR6 | 16 گیگابایت GDDR6 |
| پهنای باند حافظه GPU | 300 گیگابایت بر ثانیه | 200 گیگابایت بر ثانیه | 320+ گیگابایت بر ثانیه |
| حداکثر توان طراحی حرارتی (TDP) | 72 وات | 40-60 وات | 70 وات |
| فاکتور فرم | PCIe کم پروفایل 1 اسلاته | ||
| اتصال | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
| نمودار مشخصات | L4 | A2 | T4 |
یک نکته که هنگام بررسی این سه کارت باید درک کرد این است که آنها جایگزین های نسل به نسل دقیق نیستند، که توضیح می دهد چرا T4 سال ها بعد، یک انتخاب محبوب برای برخی موارد استفاده باقی مانده است. A2 به عنوان جایگزینی برای T4 به عنوان یک گزینه کم مصرف و سازگارتر (x8 در مقابل x16 مکانیکی) عرضه شد. از نظر فنی، L4 سپس جایگزین T4 است، در حالی که A2 در بین این دو قرار دارد که ممکن است در آینده به روز شود یا نشود.
عملکرد MLPerf Inference 3.1
MLPerf کنسرسیومی از رهبران هوش مصنوعی از دانشگاه ها، تحقیقات و صنعت است که برای ارائه معیارهای منصفانه و مرتبط سخت افزار و نرم افزار هوش مصنوعی تأسیس شده است. این معیارها برای سنجش عملکرد سخت افزار، نرم افزار و خدمات یادگیری ماشین در وظایف و سناریوهای مختلف طراحی شده اند.
آزمایش های ما بر دو معیار خاص MLPerf تمرکز دارد: Resnet50 و BERT.
- Resnet50: این یک شبکه عصبی کانولوشنال است که عمدتاً برای طبقه بندی تصویر استفاده می شود. این شاخص خوبی از این است که یک سیستم چقدر می تواند وظایف یادگیری عمیق مربوط به پردازش تصویر را مدیریت کند.
- BERT (نمایش های رمزگذار دو طرفه از ترانسفورمرها): این معیار بر وظایف پردازش زبان طبیعی تمرکز دارد و بینش هایی را در مورد عملکرد یک سیستم در درک و پردازش زبان انسان ارائه می دهد.
هر دو این آزمایش ها برای ارزیابی قابلیت های سخت افزار هوش مصنوعی در سناریوهای دنیای واقعی شامل پردازش تصویر و زبان حیاتی هستند.
ارزیابی NVIDIA L4 با این معیارها برای کمک به درک قابلیت های GPU L4 در وظایف خاص هوش مصنوعی حیاتی است. همچنین بینش هایی را در مورد اینکه چگونه پیکربندی های مختلف (تنظیمات تک، دو و چهارگانه) بر عملکرد تأثیر می گذارند، ارائه می دهد. این اطلاعات برای متخصصان و سازمان هایی که به دنبال بهینه سازی زیرساخت هوش مصنوعی خود هستند، حیاتی است.
مدل ها تحت دو حالت کلیدی اجرا می شوند: سرور و آفلاین.
- حالت آفلاین: این حالت عملکرد یک سیستم را زمانی که تمام داده ها برای پردازش همزمان در دسترس هستند، اندازه گیری می کند. این شبیه به پردازش دسته ای است، جایی که سیستم مجموعه داده بزرگی را در یک دسته پردازش می کند. حالت آفلاین برای سناریوهایی که تأخیر اولویت اصلی نیست، اما توان عملیاتی و کارایی مهم هستند، حیاتی است.
- حالت سرور: در مقابل، حالت سرور عملکرد سیستم را در سناریویی شبیه به محیط سرور واقعی، که درخواست ها یکی یکی وارد می شوند، ارزیابی می کند. این حالت به تأخیر حساس است و سرعت پاسخگویی سیستم به هر درخواست را اندازه گیری می کند. این برای برنامه های بلادرنگ، مانند سرورهای وب یا برنامه های تعاملی، که در آن پاسخ فوری ضروری است، ضروری است.
1 عدد NVIDIA L4 – Dell PowerEdge XR7620
به عنوان بخشی از بررسی اخیر ما از Dell PowerEdge XR7620، مجهز به یک NVIDIA L4 واحد، ما آن را به لبه بردیم تا چندین وظیفه از جمله MLPerf را اجرا کنیم.
پیکربندی سیستم تست ما شامل اجزای زیر بود:
- 2 عدد Xeon Gold 6426Y – 16 هسته ای 2.5 گیگاهرتز
- 1 عدد NVIDIA L4
- 8 عدد 16 گیگابایت DDR5
- 480 گیگابایت BOSS RAID1
- Ubuntu Server 22.04
- درایور NVIDIA 535
| Dell PowerEdge XR7620 1x NVIDIA L4 | امتیاز |
|---|---|
| Resnet50 – سرور | 12,204.40 |
| Resnet50 – آفلاین | 13,010.20 |
| BERT K99 – سرور | 898.945 |
| BERT K99 – آفلاین | 973.435 |
عملکرد در سناریوهای سرور و آفلاین برای Resnet50 و BERT K99 تقریباً یکسان است، که نشان می دهد L4 عملکرد ثابتی را در مدل های مختلف سرور حفظ می کند.
1، 2 و 4 عدد NVIDIA L4 – Dell PowerEdge T560
پیکربندی واحد بررسی ما شامل اجزای زیر بود:
- 2 عدد Intel Xeon Gold 6448Y (هر کدام 32 هسته/64 رشته، TDP 225 وات، 2.1-4.1 گیگاهرتز)
- 8 عدد SSD Solidigm P5520 با ظرفیت 1.6 ترابایت با کارت RAID PERC 12
- 1-4 عدد GPU NVIDIA L4
- 8 عدد 64 گیگابایت RDIMM
- Ubuntu Server 22.04
- درایور NVIDIA 535
| Dell PowerEdge T560 1x NVIDIA L4 | امتیاز |
|---|---|
| Resnet50 – سرور | 12,204.40 |
| Resnet50 – آفلاین | 12,872.10 |
| Bert K99 – سرور | 898.945 |
| Bert K99 – آفلاین | 945.146 |
در آزمایش های ما با دو L4 در Dell T560، ما این مقیاس پذیری تقریباً خطی را در عملکرد برای هر دو معیار Resnet50 و BERT K99 مشاهده کردیم. این مقیاس پذیری گواهی بر کارایی GPU های L4 و توانایی آنها برای کار در کنار هم بدون ضررهای قابل توجه ناشی از سربار یا ناکارآمدی است.
| Dell PowerEdge T560 2x NVIDIA L4 | امتیاز |
|---|---|
| Resnet50 – سرور | 24,407.50 |
| Resnet50 – آفلاین | 25,463.20 |
| BERT K99 – سرور | 1,801.28 |
| BERT K99 – آفلاین | 1,904.10 |
مقیاس پذیری خطی ثابت که ما با دو GPU NVIDIA L4 مشاهده کردیم، به طور چشمگیری به پیکربندی های دارای چهار واحد L4 نیز گسترش می یابد. این مقیاس پذیری به ویژه قابل توجه است زیرا حفظ سود عملکرد خطی با هر GPU اضافه شده به دلیل پیچیدگی های پردازش موازی و مدیریت منابع به طور فزاینده ای چالش برانگیز می شود.
| Dell PowerEdge T560 4x NVIDIA L4 | امتیاز |
|---|---|
| Resnet50 – سرور | 48,818.30 |
| Resnet50 – آفلاین | 51,381.70 |
| BERT K99 – سرور | 3,604.96 |
| BERT K99 – آفلاین | 3,821.46 |
این نتایج فقط برای اهداف نمایشی هستند و نتایج رقابتی یا رسمی MLPerf نیستند. برای لیست کامل نتایج رسمی لطفاً به صفحه نتایج MLPerf مراجعه کنید.
علاوه بر تأیید مقیاس پذیری خطی GPU های NVIDIA L4، آزمایش های ما در آزمایشگاه بر پیامدهای عملی استقرار این واحدها در سناریوهای عملیاتی مختلف نور می اندازد. به عنوان مثال، ثبات در عملکرد بین حالت های سرور و آفلاین در تمام پیکربندی ها با GPU های L4، قابلیت اطمینان و تطبیق پذیری آنها را نشان می دهد.
این جنبه به ویژه برای مشاغل و مؤسسات تحقیقاتی که زمینه های عملیاتی آنها به طور قابل توجهی متفاوت است، مرتبط است. علاوه بر این، مشاهدات ما در مورد حداقل تأثیر گلوگاه های اتصال و کارایی همگام سازی GPU در تنظیمات چند GPU، بینش های ارزشمندی را برای کسانی که به دنبال مقیاس بندی زیرساخت هوش مصنوعی خود هستند، ارائه می دهد. این بینش ها فراتر از اعداد معیار صرف هستند و درک عمیق تری از چگونگی استفاده بهینه از چنین سخت افزاری در سناریوهای دنیای واقعی ارائه می دهند و تصمیمات معماری بهتر و استراتژی های سرمایه گذاری در زیرساخت های هوش مصنوعی و HPC را هدایت می کنند.
عملکرد برنامه NVIDIA L4
ما عملکرد NVIDIA L4 جدید را با NVIDIA A2 و NVIDIA T4 که قبل از آن آمدند مقایسه کردیم. برای نمایش این ارتقاء عملکرد نسبت به مدل های گذشته، هر سه مدل را در یک سرور در آزمایشگاه خود، با Windows Server 2022 و آخرین درایورهای NVIDIA مستقر کردیم و از کل مجموعه تست GPU خود استفاده کردیم.
این کارت ها بر روی Dell Poweredge R760 با پیکربندی زیر آزمایش شدند:
- 2 عدد Intel Xeon Gold 6430 (32 هسته، 2.1 گیگاهرتز)
- Windows Server 2022
- درایور NVIDIA 538.15
- ECC غیرفعال شده بر روی تمام کارت ها برای نمونه برداری 1x
همانطور که آزمایش عملکرد را بین این گروه از سه GPU سازمانی آغاز می کنیم، مهم است که تفاوت های عملکردی منحصر به فرد بین مدل های قبلی A2 و T4 را در نظر بگیریم. هنگامی که A2 عرضه شد، بهبودهای قابل توجهی مانند مصرف انرژی کمتر و کار بر روی یک اسلات PCIe Gen4 x8 کوچکتر را ارائه داد، به جای اسلات PCIe Gen3 x16 بزرگتر که T4 قدیمی نیاز داشت. بلافاصله به آن اجازه داد تا در سیستم های بیشتری قرار گیرد، به خصوص با فرم فاکتور کوچکتر مورد نیاز.
Blender OptiX 4.0
Blender OptiX یک برنامه مدل سازی سه بعدی منبع باز است. این تست را می توان هم برای CPU و هم برای GPU اجرا کرد، اما ما مانند اکثر تست های دیگر در اینجا فقط GPU را انجام دادیم. این معیار با استفاده از ابزار کمکی Blender Benchmark CLI اجرا شد. امتیاز نمونه در دقیقه است، که بالاتر بهتر است.
| Blender 4.0 (بالاتر بهتر است) |
NVIDIA L4 | NVIDIA A2 | Nvidia T4 |
|---|---|---|---|
| GPU Blender CLI – Monster | 2,207.765 | 458.692 | 850.076 |
| GPU Blender CLI – Junkshop | 1,127.829 | 292.553 | 517.243 |
| GPU Blender CLI – Classroom | 1,111.753 | 262.387 | 478.786 |
Blackmagic RAW Speed Test
ما CPU ها و GPU ها را با Blackmagic RAW Speed Test که سرعت پخش ویدئو را آزمایش می کند، آزمایش می کنیم. این بیشتر یک تست ترکیبی است که شامل عملکرد CPU و GPU برای رمزگشایی RAW دنیای واقعی است. اینها به عنوان نتایج جداگانه نمایش داده می شوند اما ما فقط بر روی GPU ها تمرکز می کنیم، بنابراین نتایج CPU حذف شده اند.
| Blackmagic RAW Speed Test (بالاتر بهتر است) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Cinebench 2024 GPU
Cinebench 2024 Maxon یک معیار رندر CPU و GPU است که از تمام هسته ها و رشته های CPU استفاده می کند. باز هم از آنجایی که ما بر روی نتایج GPU تمرکز می کنیم، بخش های CPU تست را اجرا نکردیم. امتیازات بالاتر بهتر هستند.
| Cinebench 2024 (بالاتر بهتر است) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPU | 15,263 | 4,006 | 5,644 |
GPU PI
GPUPI 3.3.3 نسخه ای از ابزار سنجش سبک وزن است که برای محاسبه π (پی) تا میلیاردها رقم اعشار با استفاده از شتاب سخت افزاری از طریق GPU ها و CPU ها طراحی شده است. این از قدرت محاسباتی OpenCL و CUDA که شامل واحدهای پردازش مرکزی و گرافیکی است، بهره می برد. ما فقط CUDA را بر روی هر 3 GPU اجرا کردیم و اعداد در اینجا زمان محاسبه بدون زمان کاهش است.
| زمان محاسبه GPU PI بر حسب ثانیه (پایین تر بهتر است) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPUPI v3.3 – 1B | 3.732s | 19.799s | 7.504s |
| GPUPI v3.3 – 32B | 244.380s | 1,210.801s | 486.231s |
در حالی که نتایج قبلی فقط یک تکرار از هر کارت را بررسی کردند، ما همچنین فرصتی برای بررسی استقرار 5x NVIDIA L4 در Dell PowerEdge T560 داشتیم.
| زمان محاسبه GPU PI بر حسب ثانیه (پایین تر بهتر است) |
Dell PowerEdge T560 (2x Intel Xeon Gold 6448Y) با 5x NVIDIA L4 |
|---|---|
| GPUPI v3.3 – 1B | 0 ثانیه 850 میلی ثانیه |
| GPUPI v3.3 – 32B | 50 ثانیه 361 میلی ثانیه |
Octanebench
OctaneBench یک ابزار سنجش برای OctaneRender است، یک رندر کننده سه بعدی دیگر با پشتیبانی RTX مشابه V-Ray.
| Octane (بالاتر بهتر است) | ||||
| صحنه | هسته | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
| داخلی | کانال های اطلاعاتی | 15.59 | 4.49 | 6.39 |
| نورپردازی مستقیم | 50.85 | 14.32 | 21.76 | |
| ردیابی مسیر | 64.02 | 18.46 | 25.76 | |
| ایده | کانال های اطلاعاتی | 9.30 | 2.77 | 3.93 |
| نورپردازی مستقیم | 39.34 | 11.53 | 16.79 | |
| ردیابی مسیر | 48.24 | 14.21 | 20.32 | |
| ATV | کانال های اطلاعاتی | 24.38 | 6.83 | 9.50 |
| نورپردازی مستقیم | 54.86 | 16.05 | 21.98 | |
| ردیابی مسیر | 68.98 | 20.06 | 27.50 | |
| جعبه | کانال های اطلاعاتی | 12.89 | 3.88 | 5.42 |
| نورپردازی مستقیم | 48.80 | 14.59 | 21.36 | |
| ردیابی مسیر | 54.56 | 16.51 | 23.85 | |
| امتیاز کل | 491.83 | 143.71 | 204.56 | |
Geekbench 6 GPU
Geekbench 6 یک معیار چند پلتفرمی است که عملکرد کلی سیستم را اندازه گیری می کند. گزینه های تست برای سنجش CPU و GPU وجود دارد. امتیازات بالاتر بهتر هستند. باز هم، ما فقط نتایج GPU را بررسی کردیم.
شما می توانید مقایسه با هر سیستمی را که می خواهید در مرورگر Geekbench پیدا کنید.
| Geekbench 6.1.0 (بالاتر بهتر است) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Geekbench GPU OpenCL | 156,224 | 35,835 | 83,046 |
Luxmark
LuxMark یک ابزار سنجش متقابل پلتفرم OpenCL از سوی نگهدارندگان موتور رندر سه بعدی منبع باز LuxRender است. این ابزار عملکرد GPU را در مدل سازی سه بعدی، نورپردازی و کارهای ویدئویی بررسی می کند. برای این بررسی، ما از جدیدترین نسخه، v4alpha0 استفاده کردیم. در LuxMark، بالاتر بودن امتیاز بهتر است.
| Luxmark v4.0alpha0 GPU های OpenCL (بالاتر بهتر است) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Hall Bench | 14,328 | 3,759 | 5,893 |
| Food Bench | 5,330 | 1,258 | 2,033 |
GROMACS CUDA
ما همچنین GROMACS، یک نرم افزار دینامیک مولکولی، را به طور خاص برای CUDA کامپایل کردیم. این کامپایل سفارشی برای بهره برداری از قابلیت های پردازش موازی 5 عدد GPU NVIDIA L4، که برای تسریع شبیه سازی های محاسباتی ضروری است، انجام شد.
این فرآیند شامل استفاده از nvcc، کامپایلر CUDA انویدیا، همراه با تکرارهای متعدد پرچم های بهینه سازی مناسب بود تا اطمینان حاصل شود که باینری ها به درستی برای معماری سرور تنظیم شده اند. گنجاندن پشتیبانی CUDA در کامپایل GROMACS به نرم افزار اجازه می دهد تا مستقیماً با سخت افزار GPU ارتباط برقرار کند، که می تواند زمان محاسبات را برای شبیه سازی های پیچیده به طور چشمگیری بهبود بخشد.
آزمایش: تعامل پروتئین سفارشی در Gromacs
با استفاده از یک فایل ورودی ارائه شده توسط جامعه از دیسکورد متنوع ما، که حاوی پارامترها و ساختارهای متناسب با مطالعه خاص تعامل پروتئین بود، ما یک شبیه سازی دینامیک مولکولی را آغاز کردیم. نتایج قابل توجه بود - سیستم به نرخ شبیه سازی 170.268 نانوثانیه در روز دست یافت.
| GPU | سیستم | ns/day | زمان هسته (s) |
|---|---|---|---|
| NVIDIA A4000 | Whitebox AMD Ryzen 5950x | 84.415 | 163,763 |
| RTX NVIDIA 4070 | Whitebox AMD Ryzen 7950x3d | 131.85 | 209,692.3 |
| 5x NVIDIA L4 | Dell T560 با 2x Intel Xeon Gold 6448Y | 170.268 | 608,912.7 |
بیشتر از هوش مصنوعی
Sandy Yang/مدیر استراتژی جهانی
WhatsApp / WeChat: +86 13426366826
ایمیل: yangyd@qianxingdata.com
وب سایت: www.qianxingdata.com/www.storagesserver.com
تم
تماس با شخص: Ms. Sandy Yang
تلفن: 13426366826



