چک پوینت برای آموزش مدل هوش مصنوعی ضروری است، زیرا انعطاف پذیری، کارایی عملیاتی و توانایی از سرگیری یا تنظیم دقیق آموزش از حالت های ذخیره شده را تضمین می کند. با این حال، نیازهای بارهای کاری هوش مصنوعی مدرن - که با مدلهای پیچیدهتر و مجموعه دادههای آموزشی گسترده مشخص میشود - سیستمهای ذخیرهسازی را به محدودیتهای مطلق خود سوق میدهد.
نقش نقاط بازرسی در گردش کار هوش مصنوعی
چک پوینت در آموزش هوش مصنوعی یک فرآیند حیاتی است که شامل ذخیره دوره ای وضعیت کامل یک مدل در طول چرخه آموزشی آن است. این حالت شامل وزنها و پارامترهای مدل، حالتهای بهینهساز، زمانبندی نرخ یادگیری و ابردادههای آموزشی میشود. با ایجاد یک عکس فوری جامع از روند تمرین در فواصل زمانی خاص، چک پوینت تداوم تمرین را تضمین می کند و در صورت وقفه، بهبودی را امکان پذیر می کند.
نقاط بازرسی معمولاً در فواصل زمانی مبتنی بر تکرار (مثلاً هر هزار مرحله آموزشی) ضبط میشوند. آموزش مدل زبان بزرگ مدرن (LLM) - که می تواند هفته ها یا حتی ماه ها طول بکشد و منابع محاسباتی عظیمی را مصرف کند - به شدت به این نقاط بازرسی به عنوان یک شبکه ایمنی در برابر خرابی های احتمالی متکی است. به عنوان مثال، آموزش یک مدل کلاس GPT-4 می تواند بسته به اندازه مدل و پیکربندی آموزشی، نقاط بازرسی از چند صد گیگابایت تا چندین ترابایت ایجاد کند.
فرآیند آموزشی ایجاد شده توسط DALL-E
هدف اصلی چک پوینت فراتر از قابلیت پشتیبان گیری صرف است. این به عنوان یک مکانیسم حیاتی برای تمرین انعطافپذیری عمل میکند، و اجازه میدهد آموزش از آخرین حالت ذخیرهشده به جای شروع مجدد از ابتدا در موارد خرابی سیستم، قطع برق یا مشکلات سختافزاری از سر گرفته شود. علاوه بر این، نقاط بازرسی برای تجزیه و تحلیل مدل بسیار ارزشمند هستند: آنها محققان را قادر میسازند تا تکامل مدل را در مراحل مختلف آموزشی بررسی کنند و در صورت تشخیص کاهش عملکرد، احتمالاً به حالتهای قبلی برگردند.
از منظر ذخیره سازی، الگوهای نوشتن در حین بازرسی به ویژه قابل توجه است. هنگامی که یک نقطه بازرسی راه اندازی می شود، سیستم باید حجم عظیمی از داده ها را در یک الگوی انفجاری بنویسد. این یک نمایه ورودی/خروجی متمایز ایجاد میکند: دورههایی از فعالیت نسبتاً کم ذخیرهسازی در طول محاسبات آموزشی، و به دنبال آن عملیات نوشتن شدید و با پهنای باند بالا در حین بازرسی. این عملیات نوشتن معمولاً متوالی هستند و می توانند به طور قابل توجهی از سیستم های ذخیره سازی بهینه شده برای نوشتن های متوالی با پهنای باند بالا سود ببرند.
استراتژیهای موازی متفاوت در آموزش توزیعشده میتواند تأثیر قابلتوجهی بر رفتار ایست بازرسی داشته باشد. این استراتژیها بر زمانی تأثیر میگذارند که چک پوینت در طول آموزش رخ میدهد و اینکه کدام بخش از مدل ذخیره میشود. در راهاندازیهای آموزشی توزیعشده مدرن، چندین GPU ممکن است به طور همزمان بخشهای مختلفی از یک لایه را بنویسند و الگوهای پیچیده I/O ایجاد کنند. این قابلیت نوشتن موازی کلید کارایی است، اما به هماهنگی دقیق و سیستمهای ذخیرهسازی قوی نیاز دارد که میتوانند عملیات نوشتن همزمان را با حفظ ثبات دادهها انجام دهند. هر گونه تنگنا در این فرآیند می تواند منجر به تاخیر گسترده در آموزش شود.
بازرسی آهسته میتواند گلوگاههای آموزشی قابل توجهی ایجاد کند، زیرا کل فرآیند آموزشی باید در زمانی که ایست بازرسی در ذخیرهسازی نوشته میشود، متوقف شود. به عنوان مثال، در یک مجموعه آموزشی در مقیاس بزرگ، اگر ایست بازرسی هر چند ساعت یکبار 30 دقیقه طول بکشد، این می تواند منجر به چندین ساعت توقف انباشته در کل دوره آموزشی شود. این به طور مستقیم بر کارایی آموزش تأثیر می گذارد و هزینه های عملیاتی را افزایش می دهد - به ویژه در محیط های ابری که در آن منابع محاسباتی به صورت ساعتی صورتحساب می شوند.
بازرسی سریعتر همچنین به تیمها اجازه میدهد تا پستهای بازرسی را بیشتر ایجاد کنند و حداکثر از دست دادن دادهها را در صورت خرابی کاهش دهد. این رویکردهای آموزشی تهاجمی تر و چرخه های تکرار تجربی را بهبود می بخشد. علاوه بر این، زمانهای بارگذاری سریع ایست بازرسی آزمایش سریعتر با پیکربندیهای آموزشی مختلف و معماریهای مدل را تسهیل میکند، زیرا محققان میتوانند آسانتر از حالتهای قبلی برای آزمایش رویکردهای جایگزین بازیابی کنند.
توانایی سیستم ذخیره سازی برای مدیریت کارآمد این عملیات ایست بازرسی به یک عامل محوری در زیرساخت آموزشی کلی تبدیل می شود. راهحلهای ذخیرهسازی با کارایی بالا که میتوانند هم الگوهای نوشتن پشت سر هم در بازرسی و عملیات خواندن/نوشتن مداوم آموزش را مدیریت کنند، میتوانند به طور قابل توجهی کل زمان و هزینه آموزش مدلهای زبان بزرگ را کاهش دهند. بنابراین، ویژگیهای عملکرد زیرسیستم ذخیرهسازی - به ویژه توانایی آن در مدیریت نوشتنهای متوالی بزرگ و حفظ پهنای باند بالا، ملاحظات مهمی در طراحی زیرساختهای آموزشی LLM هستند.
برای این گزارش، ما به دنبال ارزیابی عملکرد SSD برای چک پوینت هوش مصنوعی، ارزیابی مزایای جدیدترین SSDهای Gen5 در زمانی که سرعت ایست بازرسی حیاتی است، در مقایسه با بزرگترین SSDهای QLC موجود در بازار - که اگر برای مدل در حال آموزش مفیدتر باشد، میتوانند تعداد زیادی از نقاط بازرسی را ذخیره کنند.
عملکرد نقطه بازرسی - معیار با DLIO
برای ارزیابی عملکرد دنیای واقعی SSD Solidigm در محیط های آموزشی هوش مصنوعی، از ابزار معیار داده و یادگیری ورودی/خروجی (DLIO) استفاده کردیم. DLIO که توسط آزمایشگاه ملی Argonne توسعه داده شده است، به طور خاص برای آزمایش الگوهای I/O در بارهای کاری یادگیری عمیق طراحی شده است، و بینش هایی را در مورد نحوه مدیریت سیستم های ذخیره سازی با چک پوینت، جذب داده ها و چالش های آموزش مدل ارائه می دهد.
با استفاده از DLIO، هدف ما اندازهگیری توان عملیاتی، تأخیر و قابلیت اطمینان درایو تحت سناریوهای نقطهبازرسی فشرده بود. در حالی که این آزمایش بر روی 61.44 ترابایت D5-P5336 انجام شد، داده های اولیه عملکرد نشان می دهد که نسخه 122 ترابایتی Solidigm D5-P5336 مشخصات عملکردی مشابهی ارائه می دهد. ما همچنین نتایج یک D7-PS1010 مبتنی بر TLC را برای نشان دادن مزایای PCIe Gen5 در این آزمایش قرار دادیم. ما این دو درایو را انتخاب کردیم تا هر دو دیدگاه را در پست های بازرسی به نمایش بگذاریم: یکی تمرکز بر روی سریع ترین زمان ایست بازرسی ممکن و دیگری بر روی ذخیره حداکثر تعداد نقاط بازرسی در یک SSD واحد.
پلتفرم انتخاب شده برای این کار Dell PowerEdge R760 ما بود که Ubuntu 22.04.02 LTS را اجرا می کرد. ما از بنچمارک DLIO نسخه 2.0 از نسخه 13 آگوست 2024 استفاده کردیم. پیکربندی سیستم ما به شرح زیر است:
- 2 عدد Intel Xeon Gold 6430 (32 هسته ای، 2.1 گیگاهرتز)
- 16 x 64 گیگابایت DDR5-4400
- 480 گیگابایت SSD Dell BOSS
- کابل های سریال Gen5 JBOF
- 7.68 ترابایت Solidigm D7-PS1010
- 61.44 ترابایت Solidigm D5-P5336
برای اطمینان از اینکه معیار ما منعکس کننده سناریوهای دنیای واقعی است، آزمایش خود را بر اساس معماری مدل LLAMA 3.1 405B انجام دادیم و از طریق torch.save() checkpointing را برای ثبت پارامترهای مدل، حالت های بهینه ساز و حالت های لایه پیاده سازی کردیم. راهاندازی ما یک سیستم 8-GPU را شبیهسازی کرد و یک استراتژی موازی ترکیبی را با پردازش موازی تانسور 4 طرفه و خط لوله دو طرفه که در 8 GPU توزیع شده است، پیادهسازی کرد. این پیکربندی به اندازههای ایست بازرسی 1636 گیگابایتی منجر شد که نشاندهنده الزامات آموزشی مدل زبان بزرگ مدرن است.
فرآیند آزمایش ما برای بار کاری پست بازرسی DLIO شامل پر کردن هر درایو تا سطح استفاده مشابه بود. برای Solidigm D5-P5336 با ظرفیت 61.44 ترابایت، هر پاس شامل 33 بازه ایست بازرسی، در مجموع 54 ترابایت بود. کوچکتر 7.68 ترابایت D7-PS1010 به راحتی در سه بازه ایست بازرسی قرار می گیرد که مجموعاً 4.9 ترابایت است. یک ایست بازرسی اضافی میتواند در D7-PS1010 جای بگیرد، اگرچه استفاده از آن را کمی بالاتر از آنچه میخواستیم به ارمغان آورد.
وقتی D5-P5536 61.44 ترابایتی مبتنی بر Gen4 QLC را با D7-PS1010 7.68 ترابایتی مبتنی بر Gen5 TLC مقایسه کردیم، بار کاری ایست بازرسی DLIO نتایج جالبی به همراه داشت. در اولین پاس، با پر شدن درایوها، شاهد شکاف بیشتری در عملکرد بین دو مدل SSD بودیم. سریعتر Gen5 PS1010 هر یک از نقاط بازرسی را به طور متوسط در 464 ثانیه تکمیل کرد، در مقایسه با Gen4 P5336 623 ثانیه. در پاس های دو و سه، فاصله به 579 و 587 ثانیه برای PS1010 و 676 و 680 ثانیه برای P5336 کاهش یافت.
برای مشاغلی که به دنبال کمترین فاصله ممکن در فواصل بازرسی هستند، Gen5 PS1010 مبتنی بر TLC مزیتی را در سریع ترین زمان تکمیل ارائه می دهد. اگر هدف حفظ بسیاری از نقاط بازرسی مقرون به صرفه باشد، Gen4 P5336 مبتنی بر QLC می تواند این کار را انجام دهد. ما اختلاف میانگین زمان های ایست بازرسی کمتر از 17 درصد را بین هر دو درایو در طی پاس های دو و سه اندازه گیری کردیم.
پهنای باند ذخیره سازی GPUDirect
در حالی که DLIO عملکرد فلش را در یک گردش کار AI نشان می دهد، حجم کار کاملاً مبتنی بر نوشتن است تا زمانی که یک نقطه بازرسی بازیابی شود. برای ترسیم تصویر کاملتری از Solidigm D7-PS1010 و D5-P5336 در بارهای کاری هوش مصنوعی، اندازه گیری پهنای باند خواندنی را با استفاده از GDSIO گنجانده ایم.
نحوه عملکرد GPU Direct Storage
به طور سنتی، زمانی که یک GPU داده های ذخیره شده در درایو NVMe را پردازش می کند، داده ها باید ابتدا از طریق CPU و حافظه سیستم قبل از رسیدن به GPU عبور کنند. این فرآیند باعث ایجاد تنگناها می شود، زیرا CPU به یک واسطه تبدیل می شود و تأخیر را اضافه می کند و منابع ارزشمند سیستم را مصرف می کند. GPU Direct Storage با فعال کردن GPU برای دسترسی مستقیم به داده ها از دستگاه ذخیره سازی از طریق گذرگاه PCIe، این ناکارآمدی را از بین می برد. این مسیر مستقیم سربار مربوط به جابجایی داده ها را کاهش می دهد و امکان انتقال سریعتر و کارآمدتر داده را فراهم می کند.
بارهای کاری هوش مصنوعی، به ویژه آنهایی که شامل یادگیری عمیق هستند، به شدت به داده ها نیاز دارند. آموزش شبکه های عصبی بزرگ نیازمند پردازش ترابایت داده است و هرگونه تاخیر در انتقال داده می تواند منجر به استفاده ناکافی از GPU و زمان طولانی تر آموزش شود. GPU Direct Storage با اطمینان از تحویل دادهها به GPU در سریعترین زمان ممکن، به حداقل رساندن زمان بیکاری و به حداکثر رساندن کارایی محاسباتی، این چالش را برطرف میکند.
مانند تست DLIO، هدف این است که تفاوتهای بین SSDهای پرسرعت Gen5 و درایوهای QLC با ظرفیت بالا را درک و مشخص کنیم. هر حجم کاری هوش مصنوعی یکسان نیست و هر درایو بسته به نیاز، مزایای مشخصی را ارائه می دهد.
تست ماتریس پیکربندی
ما به طور سیستماتیک هر ترکیبی از پارامترهای زیر را با NVIDIA L4 در پلت فرم آزمایشی خود آزمایش کردیم:
- اندازه بلوک: 1M، 128K، 64K، 16K، 8K
- تعداد موضوعات: 128، 64، 32، 16، 8، 4، 1
- تعداد شغل: 16
- اندازه دسته: 16
اولین نگاه ما به D5-P5336 مبتنی بر QLC بود که با استفاده از اندازه انتقال 1M در عمق IO 128 به سرعت 4.2GiB/s رسید. مزیت افزایش عمق IO در 32 کاهش یافت، جایی که حجم کار شروع به کاهش کرد.
در مرحله بعد، ما به Gen5 PS-1010 نگاه می کنیم که می تواند تا 6.2 گیگابایت بر ثانیه در اندازه بلوک 1M و عمق IO 128 مقیاس داشته باشد. یکی از زمینه های بهبود قابل توجه در اندازه بلوک 128K بود، جایی که در عمق IO 64 و 128، PS1010 پهنای باند خواندن دو برابر P5336 را ارائه می کرد.
لازم به ذکر است که هر دو SSD با استفاده از NVIDIA L4 تست شده اند. در حالی که Gen4 D5-P5336 در بالاترین سطح یا نزدیک به آن قرار دارد، پردازندههای گرافیکی NVIDIA مدل بالایی مانند H100 عملکرد بالاتری را با D7-PS1010 نشان دادند. سرعت یک درایو برای برخی از مشتریان عامل تعیین کننده نهایی است، در حالی که برخی دیگر تراکم کلی را در اولویت قرار می دهند.جامدادیراه حل هایی برایهر دو، با آنارائه QLC و TLC SSD.
نتیجه گیری
از آنجایی که مقیاس و پیچیدگی آموزش هوش مصنوعی در حال افزایش است، زیرساخت های ذخیره سازی زیربنایی نه تنها باید سرعت خود را حفظ کند، بلکه باید سرعت آن را نیز تعیین کند. آزمایشهای ما با دو SSD کاملاً متفاوت، اهمیت همراستایی راهحلهای ذخیرهسازی با اولویتهای آموزشی خاص را برجسته میکند - چه به معنای به حداقل رساندن تأخیر ایست بازرسی باشد و چه به حداکثر رساندن تراکم ایست بازرسی برای مقیاسپذیری مقرونبهصرفه.
در ارزیابی خود، ما Solidigm D5-P5336 (61.44 ترابایت) و D7-PS1010 (7.68 ترابایت) را تحت شرایط آموزش هوش مصنوعی واقعی آزمایش کردیم و از معیار DLIO و یک گردش کار چک پوینتینگ LLM ترکیبی موازی گسترده استفاده کردیم. ما معیارهایی را ثبت کردیم که عملکرد نوشتن پست بازرسی را در چندین آزمایش آزمایشی با پر شدن درایوها منعکس میکند و بر تفاوتهای عملکرد در زمانهای تکمیل بین D5-P5336 مبتنی بر Gen4 QLC و D7-PS1010 مبتنی بر Gen5 TLC تأکید میکند.

در حالی که D7-PS1010 سریعترین پستهای بازرسی ممکن را ارائه میکرد، D5-P5336 مزایای مقرون به صرفه و ظرفیت قانعکنندهای را نشان داد، تنها با یک مبادله عملکرد متوسط. ما بیشتر پهنای باند خواندن GPU Direct Storage (GDS) را با استفاده از GDSIO با پردازنده گرافیکی NVIDIA L4 بررسی کردیم. یافتههای ما نشان داد که Solidigm D5-P5336 پهنای باند خواندن تا 4.2 گیگابایت بر ثانیه با اندازه انتقال 1M ارائه میدهد، در حالی که D7-PS1010 افزایش قابلتوجهی به 6.2 گیگابایت بر ثانیه ارائه میدهد. هنگام استفاده از یک GPU قدرتمندتر مانند NVIDIA L40s یا H100/H200، عملکرد حتی چشمگیرتر خواهد بود.
با نگاهی به آینده، ظرفیت بیسابقه SSD 122 ترابایتی Solidigm D5-P5336 آماده است تا آموزش و استقرار هوش مصنوعی را تغییر دهد. از آنجایی که اندازه مدل و نیازهای ایست بازرسی همچنان در حال رشد هستند، این درایوهای با ظرفیت بالا سطوح جدیدی از کارایی و انعطافپذیری را باز میکنند و راهبردهای آموزشی را که قبلاً دست نیافتنی بودند، ممکن میسازند. رهبری Solidigm در راهحلهای SSD با ظرفیت بالا، سازمانها را قادر میسازد تا دادهها و نقاط بازرسی بیشتری را در درایوهای کمتری ذخیره کنند، در حالی که به حفظ زیرساختهای خود در آینده در برابر موج بعدی پیچیدگی هوش مصنوعی کمک میکند.
پکن Qianxing Jietong Technology Co., Ltd.
سندی یانگ / مدیر استراتژی جهانی
WhatsApp / WeChat: +86 13426366826
ایمیل: yangyd@qianxingdata.com
وب سایت: www.qianxingdata.com/www.storagesserver.com
تمرکز تجاری:
توزیع محصول ICT/یکپارچه سازی سیستم و خدمات/راه حل های زیرساخت
با بیش از 20 سال تجربه توزیع فناوری اطلاعات، ما با برندهای پیشرو جهانی برای ارائه محصولات قابل اعتماد و خدمات حرفه ای همکاری می کنیم.
«استفاده از فناوری برای ساختن جهانی هوشمند» ارائهدهنده خدمات مورد اعتماد شما در زمینه فناوری اطلاعات و ارتباطات!