logo
خانه موارد

مقیاس‌پذیری نقاط بازرسی هوش مصنوعی: تأثیر SSDهای با ظرفیت بالا بر آموزش مدل

گواهی
چین Beijing Qianxing Jietong Technology Co., Ltd. گواهینامه ها
چین Beijing Qianxing Jietong Technology Co., Ltd. گواهینامه ها
نظرات مشتریان
کارکنان فروش Beijing Qianxing Jietong Technology Co.,Ltd بسیار حرفه ای و صبور هستند. آنها می توانند به سرعت نقل قول ارائه کنند. کیفیت و بسته بندی محصولات نیز بسیار خوب است. همکاری ما بسیار روان است.

—— 《Festfing DV》LLC

وقتی فوراً دنبال CPU اینتل و SSD توشیبا می‌گشتم، Sandy از Beijing Qianxing Jietong Technology Co., Ltd کمک زیادی به من کرد و محصولات مورد نیاز را به سرعت به من داد. من واقعا از او قدردانی می کنم.

—— کیتی ین

Sandy of Beijing Qianxing Jietong Technology Co.,Ltd فروشنده بسیار دقیقی است که هنگام خرید سرور می تواند اشتباهات پیکربندی را به موقع به من یادآوری کند. مهندسان نیز بسیار حرفه ای هستند و می توانند به سرعت فرآیند آزمایش را تکمیل کنند.

—— استرلکین میخائیل ولادیمیرویچ

ما از تجربه همکاری با شرکت پکن چیان‌شینگ جیه‌تونگ بسیار خوشحالیم. کیفیت محصول عالی است و تحویل همیشه به موقع انجام می‌شود. تیم فروش آنها حرفه‌ای، صبور و در پاسخگویی به تمام سوالات ما بسیار مفید است. ما واقعاً از پشتیبانی آنها قدردانی می‌کنیم و مشتاقانه منتظر یک مشارکت بلندمدت هستیم. اکیداً توصیه می‌شود!

—— احمد نوید

کیفیت: تجربه عالی با تامین کننده من. MikroTik RB3011 قبلا استفاده شده بود، اما در وضعیت بسیار خوبی بود و همه چیز به خوبی کار می کند. ارتباطات سریع و بدون مشکل بود،و تمام نگرانی هایم به سرعت حل شد. عرضه کننده ي خيلي قابل اطمينان

—— گران کولسیو

چت IM آنلاین در حال حاضر

مقیاس‌پذیری نقاط بازرسی هوش مصنوعی: تأثیر SSDهای با ظرفیت بالا بر آموزش مدل

March 13, 2026
چک پوینت برای آموزش مدل هوش مصنوعی ضروری است، زیرا انعطاف پذیری، کارایی عملیاتی و توانایی از سرگیری یا تنظیم دقیق آموزش از حالت های ذخیره شده را تضمین می کند. با این حال، نیازهای بارهای کاری هوش مصنوعی مدرن - که با مدل‌های پیچیده‌تر و مجموعه داده‌های آموزشی گسترده مشخص می‌شود - سیستم‌های ذخیره‌سازی را به محدودیت‌های مطلق خود سوق می‌دهد.
 
آخرین مورد شرکت مقیاس‌پذیری نقاط بازرسی هوش مصنوعی: تأثیر SSDهای با ظرفیت بالا بر آموزش مدل  0
 
نقش نقاط بازرسی در گردش کار هوش مصنوعی
چک پوینت در آموزش هوش مصنوعی یک فرآیند حیاتی است که شامل ذخیره دوره ای وضعیت کامل یک مدل در طول چرخه آموزشی آن است. این حالت شامل وزن‌ها و پارامترهای مدل، حالت‌های بهینه‌ساز، زمان‌بندی نرخ یادگیری و ابرداده‌های آموزشی می‌شود. با ایجاد یک عکس فوری جامع از روند تمرین در فواصل زمانی خاص، چک پوینت تداوم تمرین را تضمین می کند و در صورت وقفه، بهبودی را امکان پذیر می کند.
 
نقاط بازرسی معمولاً در فواصل زمانی مبتنی بر تکرار (مثلاً هر هزار مرحله آموزشی) ضبط می‌شوند. آموزش مدل زبان بزرگ مدرن (LLM) - که می تواند هفته ها یا حتی ماه ها طول بکشد و منابع محاسباتی عظیمی را مصرف کند - به شدت به این نقاط بازرسی به عنوان یک شبکه ایمنی در برابر خرابی های احتمالی متکی است. به عنوان مثال، آموزش یک مدل کلاس GPT-4 می تواند بسته به اندازه مدل و پیکربندی آموزشی، نقاط بازرسی از چند صد گیگابایت تا چندین ترابایت ایجاد کند.
 
آخرین مورد شرکت مقیاس‌پذیری نقاط بازرسی هوش مصنوعی: تأثیر SSDهای با ظرفیت بالا بر آموزش مدل  1
 
فرآیند آموزشی ایجاد شده توسط DALL-E
هدف اصلی چک پوینت فراتر از قابلیت پشتیبان گیری صرف است. این به عنوان یک مکانیسم حیاتی برای تمرین انعطاف‌پذیری عمل می‌کند، و اجازه می‌دهد آموزش از آخرین حالت ذخیره‌شده به جای شروع مجدد از ابتدا در موارد خرابی سیستم، قطع برق یا مشکلات سخت‌افزاری از سر گرفته شود. علاوه بر این، نقاط بازرسی برای تجزیه و تحلیل مدل بسیار ارزشمند هستند: آنها محققان را قادر می‌سازند تا تکامل مدل را در مراحل مختلف آموزشی بررسی کنند و در صورت تشخیص کاهش عملکرد، احتمالاً به حالت‌های قبلی برگردند.
 
از منظر ذخیره سازی، الگوهای نوشتن در حین بازرسی به ویژه قابل توجه است. هنگامی که یک نقطه بازرسی راه اندازی می شود، سیستم باید حجم عظیمی از داده ها را در یک الگوی انفجاری بنویسد. این یک نمایه ورودی/خروجی متمایز ایجاد می‌کند: دوره‌هایی از فعالیت نسبتاً کم ذخیره‌سازی در طول محاسبات آموزشی، و به دنبال آن عملیات نوشتن شدید و با پهنای باند بالا در حین بازرسی. این عملیات نوشتن معمولاً متوالی هستند و می توانند به طور قابل توجهی از سیستم های ذخیره سازی بهینه شده برای نوشتن های متوالی با پهنای باند بالا سود ببرند.
 
استراتژی‌های موازی متفاوت در آموزش توزیع‌شده می‌تواند تأثیر قابل‌توجهی بر رفتار ایست بازرسی داشته باشد. این استراتژی‌ها بر زمانی تأثیر می‌گذارند که چک پوینت در طول آموزش رخ می‌دهد و اینکه کدام بخش از مدل ذخیره می‌شود. در راه‌اندازی‌های آموزشی توزیع‌شده مدرن، چندین GPU ممکن است به طور همزمان بخش‌های مختلفی از یک لایه را بنویسند و الگوهای پیچیده I/O ایجاد کنند. این قابلیت نوشتن موازی کلید کارایی است، اما به هماهنگی دقیق و سیستم‌های ذخیره‌سازی قوی نیاز دارد که می‌توانند عملیات نوشتن همزمان را با حفظ ثبات داده‌ها انجام دهند. هر گونه تنگنا در این فرآیند می تواند منجر به تاخیر گسترده در آموزش شود.
 
بازرسی آهسته می‌تواند گلوگاه‌های آموزشی قابل توجهی ایجاد کند، زیرا کل فرآیند آموزشی باید در زمانی که ایست بازرسی در ذخیره‌سازی نوشته می‌شود، متوقف شود. به عنوان مثال، در یک مجموعه آموزشی در مقیاس بزرگ، اگر ایست بازرسی هر چند ساعت یکبار 30 دقیقه طول بکشد، این می تواند منجر به چندین ساعت توقف انباشته در کل دوره آموزشی شود. این به طور مستقیم بر کارایی آموزش تأثیر می گذارد و هزینه های عملیاتی را افزایش می دهد - به ویژه در محیط های ابری که در آن منابع محاسباتی به صورت ساعتی صورتحساب می شوند.
 
بازرسی سریع‌تر همچنین به تیم‌ها اجازه می‌دهد تا پست‌های بازرسی را بیشتر ایجاد کنند و حداکثر از دست دادن داده‌ها را در صورت خرابی کاهش دهد. این رویکردهای آموزشی تهاجمی تر و چرخه های تکرار تجربی را بهبود می بخشد. علاوه بر این، زمان‌های بارگذاری سریع ایست بازرسی آزمایش سریع‌تر با پیکربندی‌های آموزشی مختلف و معماری‌های مدل را تسهیل می‌کند، زیرا محققان می‌توانند آسان‌تر از حالت‌های قبلی برای آزمایش رویکردهای جایگزین بازیابی کنند.
 
توانایی سیستم ذخیره سازی برای مدیریت کارآمد این عملیات ایست بازرسی به یک عامل محوری در زیرساخت آموزشی کلی تبدیل می شود. راه‌حل‌های ذخیره‌سازی با کارایی بالا که می‌توانند هم الگوهای نوشتن پشت سر هم در بازرسی و عملیات خواندن/نوشتن مداوم آموزش را مدیریت کنند، می‌توانند به طور قابل توجهی کل زمان و هزینه آموزش مدل‌های زبان بزرگ را کاهش دهند. بنابراین، ویژگی‌های عملکرد زیرسیستم ذخیره‌سازی - به ویژه توانایی آن در مدیریت نوشتن‌های متوالی بزرگ و حفظ پهنای باند بالا، ملاحظات مهمی در طراحی زیرساخت‌های آموزشی LLM هستند.
 
برای این گزارش، ما به دنبال ارزیابی عملکرد SSD برای چک پوینت هوش مصنوعی، ارزیابی مزایای جدیدترین SSDهای Gen5 در زمانی که سرعت ایست بازرسی حیاتی است، در مقایسه با بزرگترین SSDهای QLC موجود در بازار - که اگر برای مدل در حال آموزش مفیدتر باشد، می‌توانند تعداد زیادی از نقاط بازرسی را ذخیره کنند.
 
عملکرد نقطه بازرسی - معیار با DLIO
برای ارزیابی عملکرد دنیای واقعی SSD Solidigm در محیط های آموزشی هوش مصنوعی، از ابزار معیار داده و یادگیری ورودی/خروجی (DLIO) استفاده کردیم. DLIO که توسط آزمایشگاه ملی Argonne توسعه داده شده است، به طور خاص برای آزمایش الگوهای I/O در بارهای کاری یادگیری عمیق طراحی شده است، و بینش هایی را در مورد نحوه مدیریت سیستم های ذخیره سازی با چک پوینت، جذب داده ها و چالش های آموزش مدل ارائه می دهد.
 
آخرین مورد شرکت مقیاس‌پذیری نقاط بازرسی هوش مصنوعی: تأثیر SSDهای با ظرفیت بالا بر آموزش مدل  2
 
با استفاده از DLIO، هدف ما اندازه‌گیری توان عملیاتی، تأخیر و قابلیت اطمینان درایو تحت سناریوهای نقطه‌بازرسی فشرده بود. در حالی که این آزمایش بر روی 61.44 ترابایت D5-P5336 انجام شد، داده های اولیه عملکرد نشان می دهد که نسخه 122 ترابایتی Solidigm D5-P5336 مشخصات عملکردی مشابهی ارائه می دهد. ما همچنین نتایج یک D7-PS1010 مبتنی بر TLC را برای نشان دادن مزایای PCIe Gen5 در این آزمایش قرار دادیم. ما این دو درایو را انتخاب کردیم تا هر دو دیدگاه را در پست های بازرسی به نمایش بگذاریم: یکی تمرکز بر روی سریع ترین زمان ایست بازرسی ممکن و دیگری بر روی ذخیره حداکثر تعداد نقاط بازرسی در یک SSD واحد.
 

پلتفرم انتخاب شده برای این کار Dell PowerEdge R760 ما بود که Ubuntu 22.04.02 LTS را اجرا می کرد. ما از بنچمارک DLIO نسخه 2.0 از نسخه 13 آگوست 2024 استفاده کردیم. پیکربندی سیستم ما به شرح زیر است:

  • 2 عدد Intel Xeon Gold 6430 (32 هسته ای، 2.1 گیگاهرتز)
  • 16 x 64 گیگابایت DDR5-4400
  • 480 گیگابایت SSD Dell BOSS
  • کابل های سریال Gen5 JBOF
    • 7.68 ترابایت Solidigm D7-PS1010
    • 61.44 ترابایت Solidigm D5-P5336

برای اطمینان از اینکه معیار ما منعکس کننده سناریوهای دنیای واقعی است، آزمایش خود را بر اساس معماری مدل LLAMA 3.1 405B انجام دادیم و از طریق torch.save() checkpointing را برای ثبت پارامترهای مدل، حالت های بهینه ساز و حالت های لایه پیاده سازی کردیم. راه‌اندازی ما یک سیستم 8-GPU را شبیه‌سازی کرد و یک استراتژی موازی ترکیبی را با پردازش موازی تانسور 4 طرفه و خط لوله دو طرفه که در 8 GPU توزیع شده است، پیاده‌سازی کرد. این پیکربندی به اندازه‌های ایست بازرسی 1636 گیگابایتی منجر شد که نشان‌دهنده الزامات آموزشی مدل زبان بزرگ مدرن است.

آخرین مورد شرکت مقیاس‌پذیری نقاط بازرسی هوش مصنوعی: تأثیر SSDهای با ظرفیت بالا بر آموزش مدل  3

فرآیند آزمایش ما برای بار کاری پست بازرسی DLIO شامل پر کردن هر درایو تا سطح استفاده مشابه بود. برای Solidigm D5-P5336 با ظرفیت 61.44 ترابایت، هر پاس شامل 33 بازه ایست بازرسی، در مجموع 54 ترابایت بود. کوچکتر 7.68 ترابایت D7-PS1010 به راحتی در سه بازه ایست بازرسی قرار می گیرد که مجموعاً 4.9 ترابایت است. یک ایست بازرسی اضافی می‌تواند در D7-PS1010 جای بگیرد، اگرچه استفاده از آن را کمی بالاتر از آنچه می‌خواستیم به ارمغان آورد.

آخرین مورد شرکت مقیاس‌پذیری نقاط بازرسی هوش مصنوعی: تأثیر SSDهای با ظرفیت بالا بر آموزش مدل  4

وقتی D5-P5536 61.44 ترابایتی مبتنی بر Gen4 QLC را با D7-PS1010 7.68 ترابایتی مبتنی بر Gen5 TLC مقایسه کردیم، بار کاری ایست بازرسی DLIO نتایج جالبی به همراه داشت. در اولین پاس، با پر شدن درایوها، شاهد شکاف بیشتری در عملکرد بین دو مدل SSD بودیم. سریعتر Gen5 PS1010 هر یک از نقاط بازرسی را به طور متوسط ​​در 464 ثانیه تکمیل کرد، در مقایسه با Gen4 P5336 623 ثانیه. در پاس های دو و سه، فاصله به 579 و 587 ثانیه برای PS1010 و 676 و 680 ثانیه برای P5336 کاهش یافت.

برای مشاغلی که به دنبال کمترین فاصله ممکن در فواصل بازرسی هستند، Gen5 PS1010 مبتنی بر TLC مزیتی را در سریع ترین زمان تکمیل ارائه می دهد. اگر هدف حفظ بسیاری از نقاط بازرسی مقرون به صرفه باشد، Gen4 P5336 مبتنی بر QLC می تواند این کار را انجام دهد. ما اختلاف میانگین زمان های ایست بازرسی کمتر از 17 درصد را بین هر دو درایو در طی پاس های دو و سه اندازه گیری کردیم.

پهنای باند ذخیره سازی GPUDirect

در حالی که DLIO عملکرد فلش را در یک گردش کار AI نشان می دهد، حجم کار کاملاً مبتنی بر نوشتن است تا زمانی که یک نقطه بازرسی بازیابی شود. برای ترسیم تصویر کاملتری از Solidigm D7-PS1010 و D5-P5336 در بارهای کاری هوش مصنوعی، اندازه گیری پهنای باند خواندنی را با استفاده از GDSIO گنجانده ایم.

آخرین مورد شرکت مقیاس‌پذیری نقاط بازرسی هوش مصنوعی: تأثیر SSDهای با ظرفیت بالا بر آموزش مدل  5
نحوه عملکرد GPU Direct Storage

به طور سنتی، زمانی که یک GPU داده های ذخیره شده در درایو NVMe را پردازش می کند، داده ها باید ابتدا از طریق CPU و حافظه سیستم قبل از رسیدن به GPU عبور کنند. این فرآیند باعث ایجاد تنگناها می شود، زیرا CPU به یک واسطه تبدیل می شود و تأخیر را اضافه می کند و منابع ارزشمند سیستم را مصرف می کند. GPU Direct Storage با فعال کردن GPU برای دسترسی مستقیم به داده ها از دستگاه ذخیره سازی از طریق گذرگاه PCIe، این ناکارآمدی را از بین می برد. این مسیر مستقیم سربار مربوط به جابجایی داده ها را کاهش می دهد و امکان انتقال سریعتر و کارآمدتر داده را فراهم می کند.

بارهای کاری هوش مصنوعی، به ویژه آنهایی که شامل یادگیری عمیق هستند، به شدت به داده ها نیاز دارند. آموزش شبکه های عصبی بزرگ نیازمند پردازش ترابایت داده است و هرگونه تاخیر در انتقال داده می تواند منجر به استفاده ناکافی از GPU و زمان طولانی تر آموزش شود. GPU Direct Storage با اطمینان از تحویل داده‌ها به GPU در سریع‌ترین زمان ممکن، به حداقل رساندن زمان بیکاری و به حداکثر رساندن کارایی محاسباتی، این چالش را برطرف می‌کند.

مانند تست DLIO، هدف این است که تفاوت‌های بین SSD‌های پرسرعت Gen5 و درایوهای QLC با ظرفیت بالا را درک و مشخص کنیم. هر حجم کاری هوش مصنوعی یکسان نیست و هر درایو بسته به نیاز، مزایای مشخصی را ارائه می دهد.

تست ماتریس پیکربندی

ما به طور سیستماتیک هر ترکیبی از پارامترهای زیر را با NVIDIA L4 در پلت فرم آزمایشی خود آزمایش کردیم:

  • اندازه بلوک: 1M، 128K، 64K، 16K، 8K
  • تعداد موضوعات: 128، 64، 32، 16، 8، 4، 1
  • تعداد شغل: 16
  • اندازه دسته: 16

اولین نگاه ما به D5-P5336 مبتنی بر QLC بود که با استفاده از اندازه انتقال 1M در عمق IO 128 به سرعت 4.2GiB/s رسید. مزیت افزایش عمق IO در 32 کاهش یافت، جایی که حجم کار شروع به کاهش کرد.

آخرین مورد شرکت مقیاس‌پذیری نقاط بازرسی هوش مصنوعی: تأثیر SSDهای با ظرفیت بالا بر آموزش مدل  6

در مرحله بعد، ما به Gen5 PS-1010 نگاه می کنیم که می تواند تا 6.2 گیگابایت بر ثانیه در اندازه بلوک 1M و عمق IO 128 مقیاس داشته باشد. یکی از زمینه های بهبود قابل توجه در اندازه بلوک 128K بود، جایی که در عمق IO 64 و 128، PS1010 پهنای باند خواندن دو برابر P5336 را ارائه می کرد.

آخرین مورد شرکت مقیاس‌پذیری نقاط بازرسی هوش مصنوعی: تأثیر SSDهای با ظرفیت بالا بر آموزش مدل  7

لازم به ذکر است که هر دو SSD با استفاده از NVIDIA L4 تست شده اند. در حالی که Gen4 D5-P5336 در بالاترین سطح یا نزدیک به آن قرار دارد، پردازنده‌های گرافیکی NVIDIA مدل بالایی مانند H100 عملکرد بالاتری را با D7-PS1010 نشان دادند. سرعت یک درایو برای برخی از مشتریان عامل تعیین کننده نهایی است، در حالی که برخی دیگر تراکم کلی را در اولویت قرار می دهند.جامدادیراه حل هایی برایهر دو، با آنارائه QLC و TLC SSD.

نتیجه گیری

از آنجایی که مقیاس و پیچیدگی آموزش هوش مصنوعی در حال افزایش است، زیرساخت های ذخیره سازی زیربنایی نه تنها باید سرعت خود را حفظ کند، بلکه باید سرعت آن را نیز تعیین کند. آزمایش‌های ما با دو SSD کاملاً متفاوت، اهمیت هم‌راستایی راه‌حل‌های ذخیره‌سازی با اولویت‌های آموزشی خاص را برجسته می‌کند - چه به معنای به حداقل رساندن تأخیر ایست بازرسی باشد و چه به حداکثر رساندن تراکم ایست بازرسی برای مقیاس‌پذیری مقرون‌به‌صرفه.
 
در ارزیابی خود، ما Solidigm D5-P5336 (61.44 ترابایت) و D7-PS1010 (7.68 ترابایت) را تحت شرایط آموزش هوش مصنوعی واقعی آزمایش کردیم و از معیار DLIO و یک گردش کار چک پوینتینگ LLM ترکیبی موازی گسترده استفاده کردیم. ما معیارهایی را ثبت کردیم که عملکرد نوشتن پست بازرسی را در چندین آزمایش آزمایشی با پر شدن درایوها منعکس می‌کند و بر تفاوت‌های عملکرد در زمان‌های تکمیل بین D5-P5336 مبتنی بر Gen4 QLC و D7-PS1010 مبتنی بر Gen5 TLC تأکید می‌کند.
 
آخرین مورد شرکت مقیاس‌پذیری نقاط بازرسی هوش مصنوعی: تأثیر SSDهای با ظرفیت بالا بر آموزش مدل  8
 
در حالی که D7-PS1010 سریع‌ترین پست‌های بازرسی ممکن را ارائه می‌کرد، D5-P5336 مزایای مقرون به صرفه و ظرفیت قانع‌کننده‌ای را نشان داد، تنها با یک مبادله عملکرد متوسط. ما بیشتر پهنای باند خواندن GPU Direct Storage (GDS) را با استفاده از GDSIO با پردازنده گرافیکی NVIDIA L4 بررسی کردیم. یافته‌های ما نشان داد که Solidigm D5-P5336 پهنای باند خواندن تا 4.2 گیگابایت بر ثانیه با اندازه انتقال 1M ارائه می‌دهد، در حالی که D7-PS1010 افزایش قابل‌توجهی به 6.2 گیگابایت بر ثانیه ارائه می‌دهد. هنگام استفاده از یک GPU قدرتمندتر مانند NVIDIA L40s یا H100/H200، عملکرد حتی چشمگیرتر خواهد بود.
 
با نگاهی به آینده، ظرفیت بی‌سابقه SSD 122 ترابایتی Solidigm D5-P5336 آماده است تا آموزش و استقرار هوش مصنوعی را تغییر دهد. از آنجایی که اندازه مدل و نیازهای ایست بازرسی همچنان در حال رشد هستند، این درایوهای با ظرفیت بالا سطوح جدیدی از کارایی و انعطاف‌پذیری را باز می‌کنند و راهبردهای آموزشی را که قبلاً دست نیافتنی بودند، ممکن می‌سازند. رهبری Solidigm در راه‌حل‌های SSD با ظرفیت بالا، سازمان‌ها را قادر می‌سازد تا داده‌ها و نقاط بازرسی بیشتری را در درایوهای کمتری ذخیره کنند، در حالی که به حفظ زیرساخت‌های خود در آینده در برابر موج بعدی پیچیدگی هوش مصنوعی کمک می‌کند.
 
پکن Qianxing Jietong Technology Co., Ltd.
سندی یانگ / مدیر استراتژی جهانی
WhatsApp / WeChat: +86 13426366826
ایمیل: yangyd@qianxingdata.com
وب سایت: www.qianxingdata.com/www.storagesserver.com

تمرکز تجاری:
توزیع محصول ICT/یکپارچه سازی سیستم و خدمات/راه حل های زیرساخت
با بیش از 20 سال تجربه توزیع فناوری اطلاعات، ما با برندهای پیشرو جهانی برای ارائه محصولات قابل اعتماد و خدمات حرفه ای همکاری می کنیم.
«استفاده از فناوری برای ساختن جهانی هوشمند» ارائه‌دهنده خدمات مورد اعتماد شما در زمینه فناوری اطلاعات و ارتباطات!
اطلاعات تماس
Beijing Qianxing Jietong Technology Co., Ltd.

تماس با شخص: Ms. Sandy Yang

تلفن: 13426366826

ارسال درخواست خود را به طور مستقیم به ما (0 / 3000)