logo
خانه موارد

بررسی NVIDIA L4 GPU – جادوگر استنتاج کم مصرف

گواهی
چین Beijing Qianxing Jietong Technology Co., Ltd. گواهینامه ها
چین Beijing Qianxing Jietong Technology Co., Ltd. گواهینامه ها
نظرات مشتریان
کارکنان فروش Beijing Qianxing Jietong Technology Co.,Ltd بسیار حرفه ای و صبور هستند. آنها می توانند به سرعت نقل قول ارائه کنند. کیفیت و بسته بندی محصولات نیز بسیار خوب است. همکاری ما بسیار روان است.

—— 《Festfing DV》LLC

وقتی فوراً دنبال CPU اینتل و SSD توشیبا می‌گشتم، Sandy از Beijing Qianxing Jietong Technology Co., Ltd کمک زیادی به من کرد و محصولات مورد نیاز را به سرعت به من داد. من واقعا از او قدردانی می کنم.

—— کیتی ین

Sandy of Beijing Qianxing Jietong Technology Co.,Ltd فروشنده بسیار دقیقی است که هنگام خرید سرور می تواند اشتباهات پیکربندی را به موقع به من یادآوری کند. مهندسان نیز بسیار حرفه ای هستند و می توانند به سرعت فرآیند آزمایش را تکمیل کنند.

—— استرلکین میخائیل ولادیمیرویچ

ما از تجربه همکاری با شرکت پکن چیان‌شینگ جیه‌تونگ بسیار خوشحالیم. کیفیت محصول عالی است و تحویل همیشه به موقع انجام می‌شود. تیم فروش آنها حرفه‌ای، صبور و در پاسخگویی به تمام سوالات ما بسیار مفید است. ما واقعاً از پشتیبانی آنها قدردانی می‌کنیم و مشتاقانه منتظر یک مشارکت بلندمدت هستیم. اکیداً توصیه می‌شود!

—— احمد نوید

کیفیت: تجربه عالی با تامین کننده من. MikroTik RB3011 قبلا استفاده شده بود، اما در وضعیت بسیار خوبی بود و همه چیز به خوبی کار می کند. ارتباطات سریع و بدون مشکل بود،و تمام نگرانی هایم به سرعت حل شد. عرضه کننده ي خيلي قابل اطمينان

—— گران کولسیو

چت IM آنلاین در حال حاضر

بررسی NVIDIA L4 GPU – جادوگر استنتاج کم مصرف

March 13, 2026
در موج بی امان نوآوری در چشم انداز هوش مصنوعی امروز، سنجش و درک قابلیت های پلتفرم های سخت افزاری مختلف حیاتی است. همه برنامه های هوش مصنوعی به مزارع عظیم آموزش GPU نیاز ندارند - بخش حیاتی از هوش مصنوعی استنتاجی وجود دارد که اغلب به قدرت GPU کمتری نیاز دارد، به ویژه در لبه. در این بررسی، ما چندین GPU NVIDIA L4 را در سه سرور مختلف Dell و طیف وسیعی از حجم کارها، از جمله MLperf، برای ارزیابی عملکرد L4 بررسی می کنیم.
 
آخرین مورد شرکت بررسی NVIDIA L4 GPU – جادوگر استنتاج کم مصرف  0
 
NVIDIA L4
NVIDIA L4 GPU
در هسته خود، L4 عملکرد چشمگیر 30.3 ترافلاپس FP32 را ارائه می دهد که آن را برای وظایف محاسباتی با دقت بالا ایده آل می کند. قابلیت های آن به محاسبات با دقت ترکیبی از طریق هسته های تنسور TF32، FP16 و BFLOAT16 گسترش می یابد - ویژگی های حیاتی برای افزایش کارایی یادگیری عمیق. طبق برگه مشخصات L4، عملکرد در این حالت های دقت ترکیبی از 60 تا 121 ترافلاپس متغیر است.
 
L4 در وظایف با دقت پایین برتری دارد و با هسته های تنسور FP8 و INT8 خود 242.5 ترافلاپس را به رخ می کشد که به طور قابل توجهی عملکرد استنتاج شبکه عصبی را افزایش می دهد. مجهز به 24 گیگابایت حافظه GDDR6 و پهنای باند 300 گیگابایت بر ثانیه، می تواند به راحتی مجموعه داده های بزرگ و مدل های پیچیده را مدیریت کند. با این حال، آنچه بیشتر در مورد L4 برجسته است، بهره وری انرژی آن است: با TDP 72 وات، برای طیف گسترده ای از محیط های محاسباتی مناسب است. این ترکیب عملکرد بالا، بهره وری حافظه و مصرف کم انرژی، NVIDIA L4 را به گزینه ای جذاب برای رسیدگی به چالش های محاسبات لبه تبدیل می کند.
 
آخرین مورد شرکت بررسی NVIDIA L4 GPU – جادوگر استنتاج کم مصرف  1
 
مشخصات NVIDIA L4
FP 32 30.3 ترافلاپس
هسته تنسور TF32 60 ترافلاپس
هسته تنسور FP16 121 ترافلاپس
هسته تنسور BFLOAT16 121 ترافلاپس
هسته تنسور FP8 242.5 ترافلاپس
هسته تنسور INT8 242.5 TOPs
حافظه GPU 24 گیگابایت GDDR6
پهنای باند حافظه GPU 300 گیگابایت بر ثانیه
حداکثر توان طراحی حرارتی (TDP) 72 وات
فاکتور فرم PCIe کم پروفایل 1 اسلاته
اتصال PCIe Gen4 x16
نمودار مشخصات L4

 

 

البته، با قیمت L4 در حدود 2500 دلار، A2 با تقریباً نصف قیمت، و T4 قدیمی (اما هنوز هم کاملاً توانا) که با قیمت کمتر از 1000 دلار دست دوم موجود است، سوال واضح این است که تفاوت بین این سه GPU استنتاجی چیست.

مشخصات NVIDIA L4، A2 و T4 NVIDIA L4 NVIDIA A2 NVIDIA T4
FP 32 30.3 ترافلاپس 4.5 ترافلاپس 8.1 ترافلاپس
هسته تنسور TF32 60 ترافلاپس 9 ترافلاپس N/A
هسته تنسور FP16 121 ترافلاپس 18 ترافلاپس N/A
هسته تنسور BFLOAT16 121 ترافلاپس 18 ترافلاپس N/A
هسته تنسور FP8 242.5 ترافلاپس N/A N/A
هسته تنسور INT8 242.5 TOPs 36 TOPS 130 TOPS
حافظه GPU 24 گیگابایت GDDR6 16 گیگابایت GDDR6 16 گیگابایت GDDR6
پهنای باند حافظه GPU 300 گیگابایت بر ثانیه 200 گیگابایت بر ثانیه 320+ گیگابایت بر ثانیه
حداکثر توان طراحی حرارتی (TDP) 72 وات 40-60 وات 70 وات
فاکتور فرم PCIe کم پروفایل 1 اسلاته
اتصال PCIe Gen4 x16 PCIe Gen4 x8 PCIe Gen3 x16
نمودار مشخصات L4 A2 T4

 

 

یک نکته که هنگام بررسی این سه کارت باید درک کرد این است که آنها جایگزین های نسل به نسل دقیق نیستند، که توضیح می دهد چرا T4 سال ها بعد، یک انتخاب محبوب برای برخی موارد استفاده باقی مانده است. A2 به عنوان جایگزینی برای T4 به عنوان یک گزینه کم مصرف و سازگارتر (x8 در مقابل x16 مکانیکی) عرضه شد. از نظر فنی، L4 سپس جایگزین T4 است، در حالی که A2 در بین این دو قرار دارد که ممکن است در آینده به روز شود یا نشود.

عملکرد MLPerf Inference 3.1

MLPerf کنسرسیومی از رهبران هوش مصنوعی از دانشگاه ها، تحقیقات و صنعت است که برای ارائه معیارهای منصفانه و مرتبط سخت افزار و نرم افزار هوش مصنوعی تأسیس شده است. این معیارها برای سنجش عملکرد سخت افزار، نرم افزار و خدمات یادگیری ماشین در وظایف و سناریوهای مختلف طراحی شده اند.

آزمایش های ما بر دو معیار خاص MLPerf تمرکز دارد: Resnet50 و BERT.

  • Resnet50: این یک شبکه عصبی کانولوشنال است که عمدتاً برای طبقه بندی تصویر استفاده می شود. این شاخص خوبی از این است که یک سیستم چقدر می تواند وظایف یادگیری عمیق مربوط به پردازش تصویر را مدیریت کند.
  • BERT (نمایش های رمزگذار دو طرفه از ترانسفورمرها): این معیار بر وظایف پردازش زبان طبیعی تمرکز دارد و بینش هایی را در مورد عملکرد یک سیستم در درک و پردازش زبان انسان ارائه می دهد.

هر دو این آزمایش ها برای ارزیابی قابلیت های سخت افزار هوش مصنوعی در سناریوهای دنیای واقعی شامل پردازش تصویر و زبان حیاتی هستند.

ارزیابی NVIDIA L4 با این معیارها برای کمک به درک قابلیت های GPU L4 در وظایف خاص هوش مصنوعی حیاتی است. همچنین بینش هایی را در مورد اینکه چگونه پیکربندی های مختلف (تنظیمات تک، دو و چهارگانه) بر عملکرد تأثیر می گذارند، ارائه می دهد. این اطلاعات برای متخصصان و سازمان هایی که به دنبال بهینه سازی زیرساخت هوش مصنوعی خود هستند، حیاتی است.

مدل ها تحت دو حالت کلیدی اجرا می شوند: سرور و آفلاین.

  • حالت آفلاین: این حالت عملکرد یک سیستم را زمانی که تمام داده ها برای پردازش همزمان در دسترس هستند، اندازه گیری می کند. این شبیه به پردازش دسته ای است، جایی که سیستم مجموعه داده بزرگی را در یک دسته پردازش می کند. حالت آفلاین برای سناریوهایی که تأخیر اولویت اصلی نیست، اما توان عملیاتی و کارایی مهم هستند، حیاتی است.
  • حالت سرور: در مقابل، حالت سرور عملکرد سیستم را در سناریویی شبیه به محیط سرور واقعی، که درخواست ها یکی یکی وارد می شوند، ارزیابی می کند. این حالت به تأخیر حساس است و سرعت پاسخگویی سیستم به هر درخواست را اندازه گیری می کند. این برای برنامه های بلادرنگ، مانند سرورهای وب یا برنامه های تعاملی، که در آن پاسخ فوری ضروری است، ضروری است.

1 عدد NVIDIA L4 – Dell PowerEdge XR7620

 

آخرین مورد شرکت بررسی NVIDIA L4 GPU – جادوگر استنتاج کم مصرف  2

به عنوان بخشی از بررسی اخیر ما از Dell PowerEdge XR7620، مجهز به یک NVIDIA L4 واحد، ما آن را به لبه بردیم تا چندین وظیفه از جمله MLPerf را اجرا کنیم.

پیکربندی سیستم تست ما شامل اجزای زیر بود:

  • 2 عدد Xeon Gold 6426Y – 16 هسته ای 2.5 گیگاهرتز
  • 1 عدد NVIDIA L4
  • 8 عدد 16 گیگابایت DDR5
  • 480 گیگابایت BOSS RAID1
  • Ubuntu Server 22.04
  • درایور NVIDIA 535
Dell PowerEdge XR7620 1x NVIDIA L4 امتیاز
Resnet50 – سرور 12,204.40
Resnet50 – آفلاین 13,010.20
BERT K99 – سرور 898.945
BERT K99 – آفلاین 973.435

 

 

عملکرد در سناریوهای سرور و آفلاین برای Resnet50 و BERT K99 تقریباً یکسان است، که نشان می دهد L4 عملکرد ثابتی را در مدل های مختلف سرور حفظ می کند.

1، 2 و 4 عدد NVIDIA L4 – Dell PowerEdge T560

آخرین مورد شرکت بررسی NVIDIA L4 GPU – جادوگر استنتاج کم مصرف  3

پیکربندی واحد بررسی ما شامل اجزای زیر بود:

  • 2 عدد Intel Xeon Gold 6448Y (هر کدام 32 هسته/64 رشته، TDP 225 وات، 2.1-4.1 گیگاهرتز)
  • 8 عدد SSD Solidigm P5520 با ظرفیت 1.6 ترابایت با کارت RAID PERC 12
  • 1-4 عدد GPU NVIDIA L4
  • 8 عدد 64 گیگابایت RDIMM
  • Ubuntu Server 22.04
  • درایور NVIDIA 535
با بازگشت به مرکز داده از لبه و استفاده از سرور همه کاره Dell T560 Tower، متوجه شدیم که L4 در تست تک GPU نیز به خوبی عمل می کند. این نشان می دهد که هر دو پلتفرم می توانند پایه محکمی را برای L4 بدون گلوگاه فراهم کنند.
 
Dell PowerEdge T560 1x NVIDIA L4 امتیاز
Resnet50 – سرور 12,204.40
Resnet50 – آفلاین 12,872.10
Bert K99 – سرور 898.945
Bert K99 – آفلاین 945.146

 

 

در آزمایش های ما با دو L4 در Dell T560، ما این مقیاس پذیری تقریباً خطی را در عملکرد برای هر دو معیار Resnet50 و BERT K99 مشاهده کردیم. این مقیاس پذیری گواهی بر کارایی GPU های L4 و توانایی آنها برای کار در کنار هم بدون ضررهای قابل توجه ناشی از سربار یا ناکارآمدی است.

Dell PowerEdge T560 2x NVIDIA L4 امتیاز
Resnet50 – سرور 24,407.50
Resnet50 – آفلاین 25,463.20
BERT K99 – سرور 1,801.28
BERT K99 – آفلاین 1,904.10

 

 

مقیاس پذیری خطی ثابت که ما با دو GPU NVIDIA L4 مشاهده کردیم، به طور چشمگیری به پیکربندی های دارای چهار واحد L4 نیز گسترش می یابد. این مقیاس پذیری به ویژه قابل توجه است زیرا حفظ سود عملکرد خطی با هر GPU اضافه شده به دلیل پیچیدگی های پردازش موازی و مدیریت منابع به طور فزاینده ای چالش برانگیز می شود.

Dell PowerEdge T560 4x NVIDIA L4 امتیاز
Resnet50 – سرور 48,818.30
Resnet50 – آفلاین 51,381.70
BERT K99 – سرور 3,604.96
BERT K99 – آفلاین 3,821.46

 

 

این نتایج فقط برای اهداف نمایشی هستند و نتایج رقابتی یا رسمی MLPerf نیستند. برای لیست کامل نتایج رسمی لطفاً به صفحه نتایج MLPerf مراجعه کنید.

علاوه بر تأیید مقیاس پذیری خطی GPU های NVIDIA L4، آزمایش های ما در آزمایشگاه بر پیامدهای عملی استقرار این واحدها در سناریوهای عملیاتی مختلف نور می اندازد. به عنوان مثال، ثبات در عملکرد بین حالت های سرور و آفلاین در تمام پیکربندی ها با GPU های L4، قابلیت اطمینان و تطبیق پذیری آنها را نشان می دهد.

این جنبه به ویژه برای مشاغل و مؤسسات تحقیقاتی که زمینه های عملیاتی آنها به طور قابل توجهی متفاوت است، مرتبط است. علاوه بر این، مشاهدات ما در مورد حداقل تأثیر گلوگاه های اتصال و کارایی همگام سازی GPU در تنظیمات چند GPU، بینش های ارزشمندی را برای کسانی که به دنبال مقیاس بندی زیرساخت هوش مصنوعی خود هستند، ارائه می دهد. این بینش ها فراتر از اعداد معیار صرف هستند و درک عمیق تری از چگونگی استفاده بهینه از چنین سخت افزاری در سناریوهای دنیای واقعی ارائه می دهند و تصمیمات معماری بهتر و استراتژی های سرمایه گذاری در زیرساخت های هوش مصنوعی و HPC را هدایت می کنند.

عملکرد برنامه NVIDIA L4

ما عملکرد NVIDIA L4 جدید را با NVIDIA A2 و NVIDIA T4 که قبل از آن آمدند مقایسه کردیم. برای نمایش این ارتقاء عملکرد نسبت به مدل های گذشته، هر سه مدل را در یک سرور در آزمایشگاه خود، با Windows Server 2022 و آخرین درایورهای NVIDIA مستقر کردیم و از کل مجموعه تست GPU خود استفاده کردیم.

این کارت ها بر روی Dell Poweredge R760 با پیکربندی زیر آزمایش شدند:

  • 2 عدد Intel Xeon Gold 6430 (32 هسته، 2.1 گیگاهرتز)
  • Windows Server 2022
  • درایور NVIDIA 538.15
  • ECC غیرفعال شده بر روی تمام کارت ها برای نمونه برداری 1x
آخرین مورد شرکت بررسی NVIDIA L4 GPU – جادوگر استنتاج کم مصرف  4

همانطور که آزمایش عملکرد را بین این گروه از سه GPU سازمانی آغاز می کنیم، مهم است که تفاوت های عملکردی منحصر به فرد بین مدل های قبلی A2 و T4 را در نظر بگیریم. هنگامی که A2 عرضه شد، بهبودهای قابل توجهی مانند مصرف انرژی کمتر و کار بر روی یک اسلات PCIe Gen4 x8 کوچکتر را ارائه داد، به جای اسلات PCIe Gen3 x16 بزرگتر که T4 قدیمی نیاز داشت. بلافاصله به آن اجازه داد تا در سیستم های بیشتری قرار گیرد، به خصوص با فرم فاکتور کوچکتر مورد نیاز.

Blender OptiX 4.0

Blender OptiX یک برنامه مدل سازی سه بعدی منبع باز است. این تست را می توان هم برای CPU و هم برای GPU اجرا کرد، اما ما مانند اکثر تست های دیگر در اینجا فقط GPU را انجام دادیم. این معیار با استفاده از ابزار کمکی Blender Benchmark CLI اجرا شد. امتیاز نمونه در دقیقه است، که بالاتر بهتر است.

Blender 4.0
(بالاتر بهتر است)
NVIDIA L4 NVIDIA A2 Nvidia T4
GPU Blender CLI – Monster 2,207.765 458.692 850.076
GPU Blender CLI – Junkshop 1,127.829 292.553 517.243
GPU Blender CLI – Classroom 1,111.753 262.387 478.786

 

 

Blackmagic RAW Speed Test

ما CPU ها و GPU ها را با Blackmagic RAW Speed Test که سرعت پخش ویدئو را آزمایش می کند، آزمایش می کنیم. این بیشتر یک تست ترکیبی است که شامل عملکرد CPU و GPU برای رمزگشایی RAW دنیای واقعی است. اینها به عنوان نتایج جداگانه نمایش داده می شوند اما ما فقط بر روی GPU ها تمرکز می کنیم، بنابراین نتایج CPU حذف شده اند.

Blackmagic RAW Speed Test
(بالاتر بهتر است)
NVIDIA L4 NVIDIA A2 NVIDIA T4
8K CUDA 95 FPS 38 FPS 53 FPS

Cinebench 2024 GPU

Cinebench 2024 Maxon یک معیار رندر CPU و GPU است که از تمام هسته ها و رشته های CPU استفاده می کند. باز هم از آنجایی که ما بر روی نتایج GPU تمرکز می کنیم، بخش های CPU تست را اجرا نکردیم. امتیازات بالاتر بهتر هستند.

Cinebench 2024
(بالاتر بهتر است)
NVIDIA L4 NVIDIA A2 NVIDIA T4
GPU 15,263 4,006 5,644

GPU PI

GPUPI 3.3.3 نسخه ای از ابزار سنجش سبک وزن است که برای محاسبه π (پی) تا میلیاردها رقم اعشار با استفاده از شتاب سخت افزاری از طریق GPU ها و CPU ها طراحی شده است. این از قدرت محاسباتی OpenCL و CUDA که شامل واحدهای پردازش مرکزی و گرافیکی است، بهره می برد. ما فقط CUDA را بر روی هر 3 GPU اجرا کردیم و اعداد در اینجا زمان محاسبه بدون زمان کاهش است.

زمان محاسبه GPU PI بر حسب ثانیه
(پایین تر بهتر است)
NVIDIA L4 NVIDIA A2 NVIDIA T4
GPUPI v3.3 – 1B 3.732s 19.799s 7.504s
GPUPI v3.3 – 32B 244.380s 1,210.801s 486.231s

در حالی که نتایج قبلی فقط یک تکرار از هر کارت را بررسی کردند، ما همچنین فرصتی برای بررسی استقرار 5x NVIDIA L4 در Dell PowerEdge T560 داشتیم.

زمان محاسبه GPU PI بر حسب ثانیه
(پایین تر بهتر است)
Dell PowerEdge T560 (2x Intel Xeon Gold 6448Y) با 5x NVIDIA L4
GPUPI v3.3 – 1B 0 ثانیه 850 میلی ثانیه
GPUPI v3.3 – 32B 50 ثانیه 361 میلی ثانیه

 

 

Octanebench

OctaneBench یک ابزار سنجش برای OctaneRender است، یک رندر کننده سه بعدی دیگر با پشتیبانی RTX مشابه V-Ray.

Octane (بالاتر بهتر است)
صحنه هسته NVIDIA L4 NVIDIA A2 NVIDIA T4
داخلی کانال های اطلاعاتی 15.59 4.49 6.39
  نورپردازی مستقیم 50.85 14.32 21.76
  ردیابی مسیر 64.02 18.46 25.76
ایده کانال های اطلاعاتی 9.30 2.77 3.93
  نورپردازی مستقیم 39.34 11.53 16.79
  ردیابی مسیر 48.24 14.21 20.32
ATV کانال های اطلاعاتی 24.38 6.83 9.50
  نورپردازی مستقیم 54.86 16.05 21.98
  ردیابی مسیر 68.98 20.06 27.50
جعبه کانال های اطلاعاتی 12.89 3.88 5.42
  نورپردازی مستقیم 48.80 14.59 21.36
  ردیابی مسیر 54.56 16.51 23.85
امتیاز کل 491.83 143.71 204.56

 

 

Geekbench 6 GPU

Geekbench 6 یک معیار چند پلتفرمی است که عملکرد کلی سیستم را اندازه گیری می کند. گزینه های تست برای سنجش CPU و GPU وجود دارد. امتیازات بالاتر بهتر هستند. باز هم، ما فقط نتایج GPU را بررسی کردیم.

شما می توانید مقایسه با هر سیستمی را که می خواهید در مرورگر Geekbench پیدا کنید.

Geekbench 6.1.0
(بالاتر بهتر است)
NVIDIA L4 NVIDIA A2 NVIDIA T4
Geekbench GPU OpenCL 156,224 35,835 83,046

Luxmark

LuxMark یک ابزار سنجش متقابل پلتفرم OpenCL از سوی نگهدارندگان موتور رندر سه بعدی منبع باز LuxRender است. این ابزار عملکرد GPU را در مدل سازی سه بعدی، نورپردازی و کارهای ویدئویی بررسی می کند. برای این بررسی، ما از جدیدترین نسخه، v4alpha0 استفاده کردیم. در LuxMark، بالاتر بودن امتیاز بهتر است.

Luxmark v4.0alpha0
GPU های OpenCL
(بالاتر بهتر است)
NVIDIA L4 NVIDIA A2 NVIDIA T4
Hall Bench 14,328 3,759 5,893
Food Bench 5,330 1,258 2,033

GROMACS CUDA

ما همچنین GROMACS، یک نرم افزار دینامیک مولکولی، را به طور خاص برای CUDA کامپایل کردیم. این کامپایل سفارشی برای بهره برداری از قابلیت های پردازش موازی 5 عدد GPU NVIDIA L4، که برای تسریع شبیه سازی های محاسباتی ضروری است، انجام شد.

این فرآیند شامل استفاده از nvcc، کامپایلر CUDA انویدیا، همراه با تکرارهای متعدد پرچم های بهینه سازی مناسب بود تا اطمینان حاصل شود که باینری ها به درستی برای معماری سرور تنظیم شده اند. گنجاندن پشتیبانی CUDA در کامپایل GROMACS به نرم افزار اجازه می دهد تا مستقیماً با سخت افزار GPU ارتباط برقرار کند، که می تواند زمان محاسبات را برای شبیه سازی های پیچیده به طور چشمگیری بهبود بخشد.

آزمایش: تعامل پروتئین سفارشی در Gromacs

با استفاده از یک فایل ورودی ارائه شده توسط جامعه از دیسکورد متنوع ما، که حاوی پارامترها و ساختارهای متناسب با مطالعه خاص تعامل پروتئین بود، ما یک شبیه سازی دینامیک مولکولی را آغاز کردیم. نتایج قابل توجه بود - سیستم به نرخ شبیه سازی 170.268 نانوثانیه در روز دست یافت.

GPU سیستم ns/day زمان هسته (s)
NVIDIA A4000 Whitebox AMD Ryzen 5950x 84.415 163,763
RTX NVIDIA 4070 Whitebox AMD Ryzen 7950x3d 131.85 209,692.3
5x NVIDIA L4 Dell T560 با 2x Intel Xeon Gold 6448Y 170.268 608,912.7

بیشتر از هوش مصنوعی

در موج بی امان نوآوری در چشم انداز هوش مصنوعی امروز، سنجش و درک قابلیت های پلتفرم های سخت افزاری مختلف حیاتی است. همه برنامه های هوش مصنوعی به مزارع عظیم آموزش GPU نیاز ندارند - بخش حیاتی از هوش مصنوعی استنتاجی وجود دارد که اغلب به قدرت GPU کمتری نیاز دارد، به ویژه در لبه. در این بررسی، ما چندین GPU NVIDIA L4 را در سه سرور مختلف Dell و طیف وسیعی از حجم کارها، از جمله MLperf، برای ارزیابی عملکرد L4 بررسی می کنیم.
 
NVIDIA L4
NVIDIA L4 GPU
در هسته خود، L4 عملکرد چشمگیر 30.3 ترافلاپس FP32 را ارائه می دهد که آن را برای وظایف محاسباتی با دقت بالا ایده آل می کند. قابلیت های آن به محاسبات با دقت ترکیبی از طریق هسته های تنسور TF32، FP16 و BFLOAT16 گسترش می یابد - ویژگی های حیاتی برای افزایش کارایی یادگیری عمیق. طبق برگه مشخصات L4، عملکرد در این حالت های دقت ترکیبی از 60 تا 121 ترافلاپس متغیر است.
 
L4 در وظایف با دقت پایین برتری دارد و با هسته های تنسور FP8 و INT8 خود 242.5 ترافلاپس را به رخ می کشد که به طور قابل توجهی عملکرد استنتاج شبکه عصبی را افزایش می دهد. مجهز به 24 گیگابایت حافظه GDDR6 و پهنای باند 300 گیگابایت بر ثانیه، می تواند به راحتی مجموعه داده های بزرگ و مدل های پیچیده را مدیریت کند. با این حال، آنچه بیشتر در مورد L4 برجسته است، بهره وری انرژی آن است: با TDP 72 وات، برای طیف گسترده ای از محیط های محاسباتی مناسب است. این ترکیب عملکرد بالا، بهره وری حافظه و مصرف کم انرژی، NVIDIA L4 را به گزینه ای جذاب برای رسیدگی به چالش های محاسبات لبه تبدیل می کند.
 
با توجه به هیجان پیرامون هوش مصنوعی که به اوج خود رسیده است، آسان است که صرفاً بر عملکرد L4 با مدل های هوش مصنوعی تمرکز کنیم - اما این کارت چند ترفند دیگر در آستین خود دارد و دنیایی از امکانات را برای برنامه های ویدئویی باز می کند. L4 می تواند تا 1040 جریان ویدئویی AV1 همزمان را با سرعت 720p30 میزبانی کند، قابلیتی که می تواند نحوه پخش زنده محتوا را برای کاربران لبه تغییر دهد، داستان سرایی خلاقانه را ارتقا دهد و موارد استفاده هیجان انگیزی را برای تجربیات فراگیر AR/VR فعال کند.
 
NVIDIA L4 همچنین در بهینه سازی عملکرد گرافیکی، همانطور که از طریق مهارت آن در رندر بلادرنگ و ردیابی پرتو مشهود است، می درخشد. در یک محیط اداری لبه، L4 قادر به ارائه شتاب محاسباتی گرافیکی قوی و پرقدرت برای VDI است و به کاربران نهایی که برای کار خود به رندر گرافیکی با کیفیت بالا و بلادرنگ متکی هستند، خدمات می دهد.
 
افکار پایانی
GPU NVIDIA L4 پایه محکمی را برای هوش مصنوعی لبه و محاسبات با کارایی بالا فراهم می کند و کارایی و تطبیق پذیری بی نظیری را در طیف وسیعی از برنامه ها ارائه می دهد. توانایی آن در مدیریت حجم کارهای فشرده هوش مصنوعی، وظایف شتاب دهنده، یا خطوط لوله ویدئویی - همراه با عملکرد گرافیکی بهینه شده آن - آن را به گزینه ای ایده آل برای استنتاج لبه یا شتاب دهنده دسکتاپ مجازی تبدیل می کند. ترکیب منحصر به فرد L4 از قدرت محاسباتی بالا، قابلیت های حافظه پیشرفته و بهره وری انرژی، آن را به عنوان یک بازیگر کلیدی در پیشبرد شتاب دهی حجم کارهای لبه، به ویژه در صنایع با شدت هوش مصنوعی و گرافیکی، قرار می دهد.
 
آخرین مورد شرکت بررسی NVIDIA L4 GPU – جادوگر استنتاج کم مصرف  5
 
پشته پیچشی NVIDIA L4
هیچ شکی نیست که هوش مصنوعی در مرکز طوفان فعلی IT قرار دارد و تقاضا برای GPU های پیشرفته H100/H200 همچنان بسیار زیاد است. با این حال، فشار زیادی نیز برای استقرار زیرساخت های IT قوی تر در لبه وجود دارد - جایی که داده ها تولید و تجزیه و تحلیل می شوند. در این سناریوها، به یک GPU با اندازه مناسب تر نیاز است و NVIDIA L4 در اینجا برتری دارد. این باید انتخاب پیش فرض برای استنتاج لبه باشد، چه به عنوان یک واحد منفرد مستقر شود و چه در مقیاس با هم، همانطور که در T560 آزمایش کردیم.
 
شرکت فناوری Beijing Qianxing Jietong
Sandy Yang/مدیر استراتژی جهانی
WhatsApp / WeChat: +86 13426366826
ایمیل: yangyd@qianxingdata.com
وب سایت: www.qianxingdata.com/www.storagesserver.com

تم
اطلاعات تماس
Beijing Qianxing Jietong Technology Co., Ltd.

تماس با شخص: Ms. Sandy Yang

تلفن: 13426366826

ارسال درخواست خود را به طور مستقیم به ما (0 / 3000)