در Google Cloud Next، گوگل از نسل هشتم شتابدهندههای هوش مصنوعی خود رونمایی کرد: TPU v8t "Sunfish" برای آموزش و TPU v8i "Zebrafish" برای استنتاج، در کنار پارچه جدید مرکز داده Virgo. این تراشهها که برای عصر هوش مصنوعی طراحی شدهاند، برای آموزش مدلهای بزرگ ترکیبی از متخصصان (MoE) و ارائه توکن با تأخیر کم با قیمتگذاری مقرونبهصرفه بهینهسازی شدهاند. در حالی که پلتفرم میزبان و فابریک اتصال مشترک مشترک دارند، v8t و v8i در حافظه، SRAM، توپولوژی و تخصص سخت افزار متفاوت هستند.
سوپرپاد v8t از 9600 تراشه با 2 PB HBM پشتیبانی میکند و 121 EFLOPs محاسبات FP4 را ارائه میکند که عملکردی تقریباً سه برابری نسبت به نسل قبلی Ironwood دارد. v8i به 1152 تراشه با 288 گیگابایت HBM و 384 مگابایت SRAM روی تراشه مقیاس میشود که 80 درصد کارایی استنتاج بهتری نسبت به Ironwood ارائه میدهد. فابریک Virgo بیش از 134000 تراشه v8t را به هم متصل می کند و پهنای باند غیر مسدود کننده 47 Pb/s را با 4× توان عملیاتی هر شتاب دهنده و 40 درصد تأخیر کمتر فراهم می کند.
معماری بنیادی TPU در مقابل GPU
TPU ها ASIC های سفارشی هستند که با واحدهای ضرب ماتریس بزرگ (MXU)، SRAM با مدیریت نرم افزار و کامپایل زودرس مشخص می شوند. برخلاف برنامهریزی هستههای کوچک پویا GPU، TPUها دارای جریان داده قطعی با آرایههای سیستولیک هستند که برای استفاده از FLOPS در بارهای کاری متراکم ماتریس، حافظه پنهان و زمانبندی تاب را حذف میکنند. با این حال، TPU ها با اشکال پویا، پراکندگی نامنظم و شبکه های نمودار پیچیده دست و پنجه نرم می کنند، در حالی که پشتیبانی از اکوسیستم نرم افزاری باریک تری را ارائه می دهند که تحت سلطه JAX و XLA است.
تفاوت ساختاری در پشتیبانی اسپاسیت به وضوح TPU و GPU را متمایز می کند. هسته های تانسور NVIDIA به طور بومی از پراکندگی ساختاری 2:4 از طریق فشرده سازی در سطح دستورالعمل پشتیبانی می کنند. در مقابل، آرایههای سیستولیک TPU در حالت قفلی سفت و سخت عمل میکنند، و بدون توقف خط لوله یا سختافزار رفع فشار اضافی، پرش صفر را ناکارآمد میسازد. AWS Trainium2 با کمپرسورهای کمپرسور اختصاصی برای حفظ توان عملیاتی آرایه، راه حلی میانی را اتخاذ می کند.
TPU ها SparseCores را برای انجام وظایف جمع آوری پراکنده نامنظم برای جاسازی جداول و مسیریابی MoE ادغام می کنند. این هستههای تخصصی در مرتبسازی، جایگشت و بازآرایی دادهها برتری دارند، حجم کاری توصیهها و ارسال توکنهای متخصص را پوشش میدهند که MXUهای استاندارد نمیتوانند به طور کارآمد پردازش کنند.
TPU v8t "Sunfish": شتاب دهنده تمرین
تراشه آموزشی v8t دارای 216 گیگابایت حافظه HBM3e و 128 مگابایت SRAM است. دقت FP4 داخلی، توان عملیاتی در هر چرخه را دو برابر میکند و محاسبات تکتراشهای را به ۱۲.۶ PFLOPS میرساند. این یک اتصال سه بعدی توروس و پهنای باند ICI 19.2 ترابایت بر ثانیه ارتقا یافته را حفظ می کند، که برای ارتباطات جمعی مبتنی بر حلقه در آموزش در مقیاس بزرگ ایده آل است.
SparseCoreهای به ارث رسیده انتقال اطلاعات نامنظم همه به همه را MoE بهینه می کنند. دو ارتقاء حیاتی گلوگاههای مقیاس بزرگ را میشکنند: TPUDirect RDMA و TPUDirect Storage CPU میزبان را دور میزنند تا دسترسی مستقیم به حافظه TPU را فعال کنند و گذردهی ورودی/خروجی 10× سریعتر را ارائه دهند. علاوه بر این، v8t از پردازندههای Axion مبتنی بر Arm گوگل به عنوان پردازندههای میزبان استفاده میکند، که لرزش میزبان را جدا میکند و ثبات پیشپردازش را برای آموزش همزمان چند تراشهای افزایش میدهد.
TPU v8i "Zebrafish": شتاب دهنده استنتاج
v8i که برای بارهای کاری استنتاج محدود به پهنای باند حافظه ساخته شده است، تولید توکن با تاخیر کم را در اولویت قرار می دهد. دارای 384 مگابایت SRAM - سه برابر Ironwood - برای ذخیره کش KV روی تراشه و کاهش خواندن مکرر HBM. با دو هسته TensorCores و 288 گیگابایت HBM3e، محاسبات 10.1 PFLOPS FP4 را به دست میآورد، وظایف استنتاج دستهای کوتاه را برای استفاده پایدارتر با هم تداخل میکند.
با جایگزینی SparseCores، موتور شتاب دهنده اختصاصی Collectives Acceleration Engine (CAE) تأخیر همگام سازی روی تراشه را تا 5× کاهش می دهد و عملیات جمعی دسته کوچک مکرر را بهینه می کند. v8i توروس سه بعدی را برای توپولوژی Boardfly مبتنی بر Dragonfly رها می کند و حداکثر پرش تراشه به تراشه را از 16 به 7 کاهش می دهد و تأخیر همه به همه MoE را تا 50 درصد کاهش می دهد.
سلسله مراتب پارچه باکره و مشتری
Virgo به عنوان بافت مقیاس درون مرکز داده عمل می کند و معماری غیر مسدود کننده دو لایه را برای حذف اشتراک بیش از حد برای ترافیک هوش مصنوعی شرق به غرب اتخاذ می کند. با استفاده از سوئیچهای نوری MEMS، مسیریابی مجدد خطا در سطح میلیثانیه را امکانپذیر میکند و 97 درصد توان خوب را برای ابرپادهای v8t حفظ میکند. در ترکیب با مشتری - بافت مرکز داده های متقابل راه دور گوگل - سیستم اتصال لایه ای بیش از یک میلیون تراشه TPU را در یک خوشه منطقی با محاسبه کل FP4 1.7 ZFLOPS پشتیبانی می کند.
عملکرد، TCO و موقعیت بازار
بازده بالا و استفاده از مدل FLOPs پایدار (MFU) مزایای هزینه قانع کننده ای به TPU ها می دهد. در 40٪ MFU، هزینه های آموزش TPU 62٪ کمتر از NVIDIA GB300 است. در مقایسه سخت افزاری، عملکرد متراکم V8t FP4 بین GB200 و GB300 قرار می گیرد، در حالی که Google در خوشه بندی در مقیاس بزرگ با یک غلاف تک تراشه 9600 چیپ، بسیار فراتر از دامنه NVLink 72-GPU NVIDIA تسلط دارد.
با نگاهی به آینده، Vera Rubin، Rubin Ultra و Kyber NVIDIA شکاف عملکرد TPU را از سال 2026 تا 2027 کاهش خواهند داد. نقاط ضعف TPU عبارتند از HBM کوچکتر در هر تراشه، کمبود سخت افزار و سازگاری محدود با اکوسیستم. با این وجود، گوگل نقاط قوت خود را در خوشه بندی گسترده، تأخیر قطعی و کارایی هزینه برای حجم کاری وزارت انرژی حفظ می کند.
گوگل در حال توسعه زیرساخت های گرافیکی TPU و NVIDIA است. متا یک قرارداد چند میلیارد دلاری پذیرش TPU را در نظر دارد که از سال 2027 شروع می شود. به عنوان یک نسل تراشه دوگانه بهینه شده برای دوره نمایندگی، TPU v8 رقابت Google را در برابر NVIDIA Grace-Blackwell برای استقرار هوش مصنوعی در مقیاس بزرگ تضمین می کند.
پکن Qianxing Jietong Technology Co., Ltd.
سندی یانگ / مدیر استراتژی جهانی
WhatsApp / WeChat: +86 13426366826
ایمیل: yangyd@qianxingdata.com
وب سایت: www.qianxingdata.com/www.storagesserver.com
تمرکز تجاری:
توزیع محصول ICT/یکپارچه سازی سیستم و خدمات/راه حل های زیرساخت
با بیش از 20 سال تجربه توزیع فناوری اطلاعات، ما با برندهای پیشرو جهانی برای ارائه محصولات قابل اعتماد و خدمات حرفه ای همکاری می کنیم.
«استفاده از فناوری برای ساختن جهانی هوشمند» ارائهدهنده خدمات مورد اعتماد شما در زمینه فناوری اطلاعات و ارتباطات!
سندی یانگ / مدیر استراتژی جهانی
WhatsApp / WeChat: +86 13426366826
ایمیل: yangyd@qianxingdata.com
وب سایت: www.qianxingdata.com/www.storagesserver.com
تمرکز تجاری:
توزیع محصول ICT/یکپارچه سازی سیستم و خدمات/راه حل های زیرساخت
با بیش از 20 سال تجربه توزیع فناوری اطلاعات، ما با برندهای پیشرو جهانی برای ارائه محصولات قابل اعتماد و خدمات حرفه ای همکاری می کنیم.
«استفاده از فناوری برای ساختن جهانی هوشمند» ارائهدهنده خدمات مورد اعتماد شما در زمینه فناوری اطلاعات و ارتباطات!



