آزمایشگاه های Lightbits و ScaleFlux به یک100 تا 280 برابر افزایش عملکردبرای KV Cache workloads با استفاده از نرم افزار LightInferra Cache برای خواندن داده ها از SSD های ذخیره سازی محاسباتی ScaleFlux.
این دو شرکت داده های KV cache را به GPU ها در یک محیط مرکز داده FarmGPU عرضه کردند و این پیشرفت را در کنفرانس GTC Nvidia نشان خواهند داد.کش KV ویکتورهای توکن را در حافظه پهنای باند بالا GPU (HBM) ذخیره می کندهنگامی که ظرفیت HBM از بین می رود، بلوک های داده KV باید دوباره محاسبه شوند - یک فرآیند که زمان می برد و آموزش هوش مصنوعی و سرعت نتیجه گیری را کاهش می دهد.این کند شدن به ویژه با افزایش حجم کار هوش مصنوعی آشکار می شود.، که منجر به افزایش شدید تعداد توکن هایی می شود که برای تولید وکتورها استفاده می شوند.
نرم افزار کش KV به طور منطقی لایه کش را به بیرون گسترش می دهد: ابتدا به CPU x86 و DRAM آن در سرور GPU، سپس به درایوهای NVMe محلی در همان سیستم x86 و سپس به SSD های خارجی NVMe.این گسترش طبقه بندی شده نیاز به محاسبه مجدد وکتورهای توکن را از بین می برددر حالی که SSD های NVMe به طور طبیعی تاخیر دسترسی بیشتری نسبت به HBM یا DRAM دارند، بازیابی وکتورهای توکن پیش محاسبه شده بسیار سریعتر از محاسبه مجدد ده ها هزار مورد از آنها از ابتدا است.لایبتس و اسکال فلوکس ادعا می کنند که راه حل آنها به طور چشمگیری بازیابی داده های KV از SSD را تسریع می کند..
آرتور راسموسن، مدیر معماری هوش مصنوعی در آزمایشگاه های لایت بیتز، اظهار داشت: "ما حافظه استنتاج را از یک کش واکنشی به یک لایه داده هوشمند و جریان تبدیل می کنیم".
-چطور؟
با پیشبرد فقط داده های مهم و تحویل آن به GPU ها از طریق RDMA با سرعت بالا قبل از نیاز به آن، ما استال ها را که به طور سنتی عملکرد زمینه طولانی را محدود می کند از بین می بریم.نتیجه کمتر از Time-to-First-Token (TTFT) است، بهره وری پایدار تر در زیر بار واقعی و استفاده موثر از GPU به طور قابل توجهی بالاتر است.
کیت مک کی، مدیر ارشد معماری راه حل ها و مشارکت های فنی در ScaleFlux اظهار داشت:آنچه که ما در GTC نشان می دهیم یک نگاه اولیه به چگونگی قرار دادن اطلاعات هوشمندانه تر و مدیریت مداوم وضعیت توجه می تواند به سیستم های استنباط کمک کند تا در حالی که پنجره های زمینه ای رشد می کنند پاسخگو باشنداین یک همکاری است که ما می خواهیم در کنار اپراتورهای واقعی شکل دهیم.
هر دو Lightbits و ScaleFlux با هدف تشویق اپراتورهای ابر و زیرساخت ها به استفاده از نرم افزار و SSD های خود، از بین بردن زمان بیکار گران GPU.
بیایید ابتدا سهم ScaleFlux را بررسی کنیم، سپس به لایه نرم افزاری پیچیده تر Lightbits حرکت کنیم.
ScaleFlux SSD های NVMe و درایوهای ذخیره سازی محاسباتی (CSD) مجهز به فناوری کاهش نوشتن مبتنی بر سخت افزار (WRT) را ارائه می دهد.با فشرده سازی تسریع شده سخت افزاری و مدیریت متاداتا مبتنی بر SoC، این درایوها تا چهار برابر ظرفیت منطقی بیشتری نسبت به ذخیره سازی فیزیکی ارائه می دهند، در حالی که برای سیستم های میزبان کاملا شفاف هستند.این شرکت عضو کنسرسیوم Open Flash Platform (OFP) است.، که در حال کار بر روی تعریف مجدد زیرساخت داده های هوش مصنوعی با چگالی، تاخیر کم است،سیستم های انرژی کارآمد ارائه 10 برابر تراکم ذخیره سازی AI مبتنی بر فایل معمولی و تنها یک دهم مصرف انرژی.
با استفاده از این درایوهای ذخیره سازی، لایت بیتز پیشبرد هوشمند داده های KV Cache را اضافه می کندقبل ازGPU ها این نیاز را دارند، جلوگیری از توقف ناشی از ظرفیت KV ناکافی یا محاسبه مجدد بردار توکن گران قیمت.نرم افزار LightInferra آن از الگوریتم های کش KV Cache بهینه شده برای کشیدن داده های مورد نیاز به حافظه GPU در سرعت RDMA قبل از تقاضای واقعی استفاده می کند.
دوباره، چطور؟
نرم افزار بر روی میزبان x86 که در سرورهای GPU جاسازی شده اجرا می شود و الگوهای دسترسی به بلوک های داده KV Cache را ردیابی می کند.آن را یک موتور Sub-Linear Sparse Attention Prefetch (SLSAP) برای شناسایی بلوک های KV که به احتمال زیاد در آینده مورد نیاز هستند، کار می کند..
این موتور ترکیبی از هشینگ حساس به محل (LSH) با مدل سازی استفاده مجدد آماری را ترکیب می کند. تجزیه و تحلیل محل دسترسی تاریخی در محاسبات توجه برای امتیاز و اولویت بندی بلوک های KV.سپس آنهایی را انتخاب می کند که بیشترین احتمال درخواست شده توسط GPU را دارند..
این فرآیند انتخاب از کمبود ذاتی در دسترسی به داده های GPU استفاده می کند: اکثر توکن ها فقط به طور معنی دار به یک زیر مجموعه کوچک از توکن های قبلی مربوط می شوند. با جدا کردن این بلوک های با احتمال بالا،راه حل به طور چشمگیری حجم وکتورهای توکن را که باید به GPU ها منتقل شوند کاهش می دهد.
الگوریتم دوم بر الگوهای استفاده مجدد تمرکز دارد: توکن های اخیر، توکن های مشابه معنایی،و الگوهای ساختاری رایج در RAG یا سناریوهای چت چند نوبت اغلب مجدداً استفاده می شوند و اولویت بندی می شوند.
LightInferra این بلوک های توکن را ابتدا از DRAM سرور x86 یا در صورت لزوم از SSD های خارجی ScaleFlux بازیابی می کند و سپس آنها را از طریق پیوندهای RDMA به HBM GPU بارگذاری می کند.
لایت بیتس این رویکرد را در برابر محاسبه مجدد محتوای ذخیره شده از ابتدا با استفاده از بار های کاری مدل زبان بزرگ ، با اندازه گیری پیشرفت در Time-to-First-Token (TTFT) مقایسه کرده است.ارقام سرعت 100 تا 280 برابر گزارش شده مستقیماً از نتایج این آزمایش ها مشتق می شوند..

البته ما دوست داریم نتایج مقایسه ای را با سرعت افزایشی کیش Lightbits-ScaleFlux KV ببینیم
برنامه با شتاب دهنده KV Cache از DDN، Hammerspace، VAST Data، WEKA و دیگران
در دسترس نیست.
نمودار هایی وجود دارد که نشان می دهد چگونه LightInferra-ScaleFlux به تدریج بهبود یافته در بازسازی حافظه TTFT
با افزایش اندازه مدل

تمام داده های مربوط به معیار در نمودارهای مقیاس لوگاریکی ارائه شده است، که عمدتا برای متخصصان علوم کامپیوتر طراحی شده است، اما زبان ساده باعث می شود تا تاثیرات دنیای واقعی بسیار آسان تر باشد:نتیجه عملکرد پایدار Time-to-First-Token (TTFT) است زیرا مقیاس های زمینه از 100k توکن به سمت 1 میلیون و فراتر از آن.
همانطور که جان مایکل هاندز از FarmGPU می گوید، وقتی یک مکالمه 400k توکن از سر گرفته و سیستم باید کل KV cache را از ابتدا بازسازی کند،که به معنی دو دقیقه کامل زمان اجرا GPU با صفر توکن تولید شده است.LightInferra مدل اقتصادی را به طور کامل تغییر می دهد ٬ همان حجم کار اولین توکن خود را در کمتر از نیم ثانیه تولید می کند ، و یک سطح محصول غیرقابل دوام را به یک سطح سودآور تبدیل می کند.
لایبتس و اسکیل فلوکس این راه حل مشترک را به طور خاص برای مزارع نو کلاود GPU نسل بعدی طراحی کرده اند، جایی که گچ های بزرگ GPU صدها یا حتی هزاران بار کاری مدل هوش مصنوعی همزمان را اجرا می کنند.تقریباً هر یک از این بارهای کاری به محدودیت ظرفیت KV حافظه کش در حافظه پهنای باند GPU (HBM) می رسد.
در تنظیمات سنتی، تیم ها با دو گزینه گران قیمت روبرو می شوند: آهسته گرفتن وکتورهای توکن از ذخیره سازی عمومی خارجی،یا فرآیند بسیار وقت گیرتر برای محاسبه مجدد این بردارها از ابتدا که هر دو باعث می شوند GPU ها ساعت ها بیکار بمانند.ترکیب LightInferra و ScaleFlux این نقطه درد صنعت را به طور کامل از بین می برد.
جون مایکل هاندز، مدیر عامل FarmGPU اضافه کرد: ذخیره سازی شبکه ای سریع از Lightbits، موارد استفاده جدید زیادی را برای نتیجه گیری زمینه طولانی باز می کند.با ترکیب سرویس مدیریت شده ما با ذخیره سازی با عملکرد بالا Lightbits که روی درایوهای ScaleFlux NVMe اجرا می شود، ما می توانیم زمان اولین توکن را کاهش دهیم و استفاده از GPU را افزایش دهیم، به طور چشمگیری کل هزینه مالکیت (TCO) برای بار کاری استنباط را کاهش می دهیم.
تمرکز کسب و کار:
توزیع محصولات ICT / ادغام سیستم و خدمات / راه حل های زیرساخت
با 20+ سال تجربه توزیع فناوری اطلاعات، ما با مارک های پیشرو جهانی همکاری می کنیم تا محصولات قابل اعتماد و خدمات حرفه ای را ارائه دهیم.
استفاده از تکنولوژی برای ساختن یک جهان هوشمند، ارائه دهنده خدمات قابل اعتماد محصولات ICT شما