سیستم فایل موازی مقیاس ذخیرهسازی IBM از مدیریت حافظه پنهان KV توزیع شده همراه با NVIDIA Dynamo پشتیبانی میکند و سناریوهای استنتاج هوش مصنوعی در مقیاس بزرگ با حجم کاری وسیع زمینه را فراهم میکند.
IBM یک کتاب قرمز رسمی با عنوان منتشر کرده استزمینه بدون محدودیت: یک پلت فرم حافظه پنهان KV با کارایی بالا برای استنتاج هوش مصنوعی در مقیاس بزرگ، ارائه یک معماری مرجع معتبر کامل برای این راه حل مشترک. پشته یکپارچه سرورهای ذخیرهسازی Supermicro Petascale، شبکه اترنت طیف NVIDIA Spectrum-X و IBM Storage Scale Erasure Coding Edition (ECE) را برای ایجاد یک لایه ذخیرهسازی مشترک با کارایی بالا برای استنتاج هوش مصنوعی ترکیب میکند. به عنوان اسناد فنی معتبر منتشر شده توسط IBM ITSO (سازمان بین المللی پشتیبانی فنی)، IBM Redbooks راهنمای استقرار عملی و عمیق را برای محصولات زیرساختی IBM درجه سازمانی ارائه می دهد.
Redbook که توسط تیمهای مهندسی IBM، Supermicro و NVIDIA تالیف شده است، به یک نقطه درد اصلی در حجم کاری هوش مصنوعی با زمینه طولانی میپردازد. موارد استفاده از جمله دستیارهای گفتگوی چند چرخشی، برنامههای بازیابی RAG و خطوط لوله عامل مستقل، دادههای حافظه پنهان KV عظیم را در GPU HBM تولید میکنند. هنگامی که دادههای کش از منابع محدود HBM خارج میشوند، محاسبه مجدد مکرر باعث افزایش شدید تأخیر میشود و ذخیرهسازی حافظه پنهان KV درخواست متقابل دائمی را ضروری میسازد.
این راه حل از معماری کش سلسله مراتبی KV پنج لایه استفاده می کند که نیازهای تاخیر و ظرفیت مختلف را پوشش می دهد:
-
لایه G1: گره GPU محلی HBM
-
لایه G2: DRAM سیستم گره CPU
-
لایه G3: SSD محلی متصل مستقیم
-
لایه G3.5: حافظه فلش اشتراکی سطح پاد، با DPUهای NVIDIA BlueField با اتصال مستقیم به DPUهای سرور GPU
-
لایه G4: استخر ذخیره سازی مشترک بین اترنت خارجی متصل به همه سرورهای محاسباتی GPU
این راهاندازی چندلایه که سلسله مراتب حافظه و ذخیرهسازی سرتاسر را پوشش میدهد، تأخیر و گرادیان ظرفیت پیوسته را ارائه میکند. NVIDIA Dynamo را قادر میسازد تا مکانگذاری هوشمند حافظه پنهان، حذف خودکار و بارگذاری مجدد دادههای پویا را در کل پشته ذخیرهسازی انجام دهد، و به طور انعطافپذیری با الگوهای دسترسی به حجم کاری متنوع و بودجههای کل هزینه زیرساخت سازگار شود.
Storage Scale ECE که روی سرورهای ذخیره سازی Supermicro Petascale مستقر شده است، به عنوان ردیف حافظه پنهان سرد G4 عمل می کند. برای دادههای حافظه نهان KV غیر حساس به تأخیر، از جمله حالتهای مکالمه چند نوبتی غیرفعال، دادههای زمینه عامل مشترک و سوابق جستجوی تاریخی که نیازی به پاسخ فوری ندارند، بهینه شده است.
با توجه به نتایج آزمایش ثبت شده در Redbook، این معماری مرجع آماده تولید، به طور موثر هوش مصنوعی و خدمات استنتاج هوش مصنوعی عاملی را تسریع می کند. در آزمایشهای تک درخواستی TTFT (Time To First Token) در مقایسه با سرورهای GPU مستقل بدون حافظه کش KV Storage Scale خارجی، سیستم یکپارچه بدون توجه به تغییرات سریع طول، TTFT را پایدار نگه میدارد. به الف می رسدافزایش سرعت 56 برابریزیر توالی های ورودی 130k توکن و کاملاً نوسانات تأخیر استنتاج ناشی از طول های سریع طولانی را حذف می کند.
تحت فشار استنتاج چند کاربر همزمان، راه حل به بهبود عملکرد چشمگیری دست می یابد: افزایش توان عملیاتی درخواست از 0.19 RPS به 4.26 RPS، که نشان دهنده یک22 برابر افزایش توان. در همین حال، کل زمان پردازش برای 200 درخواست استنتاج تا 95٪ کاهش می یابد، تا حد زیادی کارایی استفاده از GPU و مقیاس پذیری کلی خوشه استنتاج را افزایش می دهد.
پشته همچنین عملکرد قوی را تحت آزمایشهای استرس همسایههای پر سر و صدا حفظ میکند. با چهار پایان مشتری که ترافیک ورودی/خروجی شبکه رقیب 200 گیگابایت بر ثانیه را ایجاد میکنند، سیستم یکپارچه همچنان با سرعت 3.6 RPS کار میکند و تمام 200 درخواست استنتاج را در عرض 55.56 ثانیه به پایان میرساند. توان عملیاتی آن باقی می ماند18 برابر بالاترنسبت به معماری محاسبه مجدد فقط GPU پایه.
تیم تحقیقاتی در Redbook نتیجهگیری کرد: «برای شرکتهایی که قصد دارند ROI را در سرمایهگذاریهای سختافزاری گرانقیمت GPU به حداکثر برسانند، این معماری یکپارچه تأیید شده یک رویکرد ساده و آماده برای تولید برای افزایش توان استنتاج، کاهش تأخیر انتها به انتها، پشتیبانی از همزمانی خدمات بالاتر و ایجاد زیرساختهای استنتاج هوش مصنوعی مقرونبهصرفهتر ارائه میدهد.»
کلمات کلیدی: SUPERMICRO، مقیاس ذخیره سازی IBM، NVIDIA Dynamo
پکن Qianxing Jietong Technology Co., Ltd.
سندی یانگ / مدیر استراتژی جهانی
WhatsApp / WeChat: +86 13426366826
ایمیل: yangyd@qianxingdata.com
وب سایت: www.qianxingdata.com/www.storagesserver.com
تمرکز تجاری:
توزیع محصول ICT/یکپارچه سازی سیستم و خدمات/راه حل های زیرساخت
با بیش از 20 سال تجربه توزیع فناوری اطلاعات، ما با برندهای پیشرو جهانی برای ارائه محصولات قابل اعتماد و خدمات حرفه ای همکاری می کنیم.
«استفاده از فناوری برای ساختن جهانی هوشمند» ارائهدهنده خدمات مورد اعتماد شما در زمینه فناوری اطلاعات و ارتباطات!