AMD نتایج بنچمارک MLPerf Inference v6.0 خود را اعلام کرد و پردازنده گرافیکی Instinct MI355X را به عنوان یک پلتفرم استنتاجی بسیار مقیاسپذیر معرفی کرد که قادر به پشتیبانی از استقرار تک گره، چند گره و ناهمگن است. فراتر از افزایش عملکرد افزایشی، این ارائه شامل بارهای کاری جدید، توان عملیاتی در مقیاس خوشه بیش از 1 میلیون توکن در ثانیه را نشان میدهد و قابلیت تکرار عملکرد ثابت را در یک اکوسیستم شریک در حال گسترش تأیید میکند.
معماری CDNA 4 هدفگذاری شده برای استنتاج با ظرفیت بالا
Instinct MI355X بر اساس معماری CDNA 4 AMD ساخته شده است و از طراحی چیپلت دو فرآیندی TSMC بهره میبرد: دایهای محاسباتی (XCD) از گره 3 نانومتری استفاده میکنند، در حالی که دایهای I/O از فناوری FinFET 6 نانومتری استفاده میکنند. بسته چند چیپلت شامل 185 میلیارد ترانزیستور است و از فرمتهای داده FP4 و FP6 پشتیبانی میکند - که برای استنتاج کارآمد مدلهای بزرگ حیاتی است. هر پردازنده گرافیکی مجهز به حداکثر 288 گیگابایت حافظه HBM3E (با پهنای باند حافظه 8 ترابایت بر ثانیه) است که امکان پشتیبانی از مدلهایی با حداکثر 520 میلیارد پارامتر را بر روی یک دستگاه واحد فراهم میکند. AMD تأکید میکند که این ترکیب تراکم محاسباتی و ظرفیت حافظه، نیاز به تقسیمبندی بیش از حد مدل را از بین میبرد، که یک مزیت کلیدی برای بارهای کاری استنتاجی در مقیاس بزرگ است.
این پلتفرم که در پیکربندیهای UBB8 موجود است، گزینههای خنکشونده با هوا و خنکشونده با مایع مستقیم را ارائه میدهد که با الزامات متنوع استقرار مراکز داده مطابقت دارد. قابل ذکر است که MI355X دارای TBP (توان طراحی حرارتی) 1400 وات با خنککننده مایع است که عملکرد بالاتری نسبت به همتای خنکشونده با هوای خود، MI350X، ارائه میدهد.
توان عملیاتی چند گرهای از 1 میلیون توکن در ثانیه فراتر میرود
یکی از دستاوردهای برجسته دور MLPerf v6.0، توان عملیاتی در مقیاس خوشه AMD است که از 1 میلیون توکن در ثانیه فراتر میرود. AMD با استفاده از پردازندههای گرافیکی Instinct MI355X، این نقطه عطف را با Llama 2 70B در هر دو سناریوی سرور و آفلاین، و همچنین با GPT-OSS-120B در حالت آفلاین به دست آورد.
گرافیک AMD MLPerf 1 میلیون توکن در ثانیه
این نتایج نشاندهنده تغییر رو به رشد صنعت به سمت ارزیابی عملکرد استنتاج در سطح خوشه است، به جای هر شتابدهنده منفرد. توان عملیاتی تجمعی و زمان ارائه به معیارهای اصلی برای تعیین آمادگی تولید در استقرارهای هوش مصنوعی در مقیاس بزرگ تبدیل شدهاند.
AMD همچنین کارایی مقیاسپذیری استثنایی را نشان داد. برای Llama 2 70B، یک پیکربندی 11 گرهای با 87 پردازنده گرافیکی، بیش از 1 میلیون توکن در ثانیه را در سناریوهای آفلاین، سرور و تعاملی با کارایی مقیاسپذیری از 93٪ تا 98٪ به دست آورد. برای GPT-OSS-120B، یک خوشه 12 گرهای با 94 پردازنده گرافیکی، توان عملیاتی مشابهی را با بیش از 90٪ کارایی مقیاسپذیری ارائه داد - که نشان میدهد عملکرد به طور مؤثر با گسترش استقرارها فراتر از یک سیستم واحد، ترجمه میشود.
افزایش نسل و عملکرد تک گرهای رقابتی
AMD بهبودهای قابل توجهی در نسلهای قبلی گزارش کرده است، به طوری که Instinct MI355X در Llama 2 70B Server نسبت به نسل قبلی Instinct MI325X، 3.1 برابر عملکرد بهتری ارائه میدهد و به 100,282 توکن در ثانیه میرسد. این بهبود ناشی از هر دو پیشرفت معماری CDNA 4 و بهینهسازیهای نرمافزار ROCm است. امتیازات آفلاین 4.4 برابر و امتیازات سرور 4.8 برابر نسبت به دورهای قبلی MLPerf بهبود یافتهاند، که عمدتاً ناشی از کوانتیزاسیون FP4 است - یک ویژگی کلیدی MI355X که توان عملیاتی بالاتری را برای بارهای کاری هوش مصنوعی باز میکند.
گرافیک نتایج استنتاج AMD در مقابل نسل قبلی
در مقایسههای تک گرهای با پلتفرمهای NVIDIA، MI355X رقابتپذیری قوی را نشان داد. در Llama 2 70B، این پردازنده گرافیکی در توان عملیاتی آفلاین با NVIDIA B200 برابری کرد، در عملکرد سرور به نزدیکی برابری رسید و در حالت تعاملی از آن پیشی گرفت. در مقایسه با NVIDIA B300، MI355X 92٪ عملکرد آفلاین، 93٪ عملکرد سرور را ارائه داد و در حالت تعاملی با 4٪ از آن پیشی گرفت. قابل ذکر است که MI355X همچنین کارایی هزینه برتری را ارائه میدهد و 40٪ توکن بیشتر در هر دلار نسبت به NVIDIA B200 ارائه میدهد.
فعالسازی مدل برای اولین بار پوشش را گسترش میدهد
MLPerf Inference v6.0 چندین بار کاری جدید را معرفی کرد و AMD از این دور برای نمایش فعالسازی سریع مدل استفاده کرد. GPT-OSS-120B، یک مدل ترکیبی از متخصصان، اولین حضور خود را در MLPerf با MI355X انجام داد و در هر دو سناریوی آفلاین و سرور نتایج رقابتی را در برابر سیستمهای NVIDIA به دست آورد.
AMD همچنین نتایجی را برای تولید متن به ویدئو Wan-2.2 ارائه کرد که نشاندهنده ورود آن به استنتاج چندوجهی و تولید ویدئو است. در حالی که ارائه رسمی بر تأخیر جریان تکی متمرکز بود، نتایج با پلتفرمهای موجود مطابقت داشت. تنظیمات پس از ارائه، عملکرد را بیشتر بهبود بخشید و نشاندهنده فضای بهینهسازی با بلوغ پشته نرمافزاری است.
این افزودنیها بر تعهد AMD به گسترش فراتر از معیارهای سنتی LLM برای پشتیبانی از بارهای کاری نوظهور هوش مصنوعی در موارد استفاده متنوع تأکید میکنند.
نرمافزار ROCm مقیاسپذیری و استنتاج ناهمگن را فعال میکند
AMD بخش زیادی از عملکرد و مقیاسپذیری MI355X را به پشته نرمافزار ROCm خود نسبت میدهد. پیشرفتهای کلیدی شامل اجرای بهینهشده FP4، ارتباط بهبود یافته GPU به GPU برای استنتاج توزیع شده و پشتیبانی از توزیع پویا بار کاری در محیطهای ناهمگن است - که برای استقرارهای ترکیبی GPU حیاتی است.
گرافیک نتایج استنتاج AMD MLPerf Instinct MI355X
یک ارائه ناهمگن نقطه عطف - که توسط Dell و MangoBoost توسعه یافته است - از سه مدل پردازنده گرافیکی AMD Instinct استفاده کرد: MI300X، MI325X و MI355X. این پیکربندی در Llama 2 70B Server به 141,521 توکن در ثانیه و در Llama 2 70B Offline به 151,843 توکن در ثانیه دست یافت. قابل ذکر است که پلتفرم MI355X در آزمایشگاه Dell در ایالات متحده قرار داشت، در حالی که سیستمهای MI300X و MI325X در کره بودند - که توانایی هماهنگی سیستمهای توزیع شده در مکانهای جغرافیایی را نشان میدهد.
رشد اکوسیستم و قابلیت تکرار
اکوسیستم شریک AMD در این دور MLPerf به طور قابل توجهی گسترش یافت و نه شرکت نتایجی را در چندین نسل پردازنده گرافیکی Instinct ارائه کردند. فروشندگان شرکتکننده شامل Cisco، Dell، Giga Computing، HPE، MangoBoost، MiTAC، Oracle، Supermicro و Red Hat هستند - که نشاندهنده پذیرش گسترده راهحلهای استنتاجی AMD در صنعت است.
ارائههای شرکا به شدت با نتایج داخلی AMD همسو بودند، معمولاً در حدود 4٪ و در برخی موارد در حدود 1٪. این سازگاری تأیید میکند که عملکرد MI355X در پلتفرمهای OEM و ابری قابل تکرار است، که خطر استقرار را کاهش میدهد و اعتماد به نتایج عملکرد واقعی را افزایش میدهد.
شرکت فناوری پکن Qianxing Jietong
سندی یانگ / مدیر استراتژی جهانی
واتساپ / وی چت: +86 13426366826
ایمیل: yangyd@qianxingdata.com
وب سایت: www.qianxingdata.com/www.storagesserver.com
تمرکز تجاری:
توزیع محصولات ICT / یکپارچهسازی سیستم و خدمات / راهحلهای زیرساخت
با بیش از 20 سال تجربه در توزیع IT، ما با برندهای پیشرو جهانی همکاری میکنیم تا محصولات قابل اعتماد و خدمات حرفهای ارائه دهیم.
با استفاده از فناوری برای ساختن دنیایی هوشمند" ارائهدهنده خدمات محصولات ICT مورد اعتماد شما!
سندی یانگ / مدیر استراتژی جهانی
واتساپ / وی چت: +86 13426366826
ایمیل: yangyd@qianxingdata.com
وب سایت: www.qianxingdata.com/www.storagesserver.com
تمرکز تجاری:
توزیع محصولات ICT / یکپارچهسازی سیستم و خدمات / راهحلهای زیرساخت
با بیش از 20 سال تجربه در توزیع IT، ما با برندهای پیشرو جهانی همکاری میکنیم تا محصولات قابل اعتماد و خدمات حرفهای ارائه دهیم.
با استفاده از فناوری برای ساختن دنیایی هوشمند" ارائهدهنده خدمات محصولات ICT مورد اعتماد شما!



