نگاهی عمیق به سوپرکامپیوتر xAI Colossus؛ بزرگترین خوشه پردازشی دنیا با 100,000 کارت گرافیک

به گزارش زعفران، ایلان ماسک، کارآفرین مشهور، اخیراً پروژه بزرگ خود را به نام xAI Colossus راه اندازی نموده است. این ابرکامپیوتر با 100,000 کارت گرافیک از نوع Nvidia HGX H100، به عنوان بزرگترین خوشه پردازشی هوش مصنوعی دنیا شناخته می گردد. Colossus که پس از یک فرآیند 122 روزه مونتاژ آنلاین شد، از سخت افزارهای پیشرفته و سیستم خنک کننده مایع برای پشتیبانی از پروژه های بلندپروازانه هوش مصنوعی ایلان ماسک بهره می برد. این پروژه با هدف آموزش مدل های هوش مصنوعی قدرتمند برای آینده طراحی شده و از آنجایی که این فناوری ها نیازمند پردازش های پیچیده هستند، Colossus می تواند تحول شگرفی در این حوزه ایجاد کند.

نگاهی عمیق به سوپرکامپیوتر xAI Colossus؛ بزرگترین خوشه پردازشی دنیا با 100,000 کارت گرافیک

طراحی فنی و ساختار پیشرفته Colossus

ابرکامپیوتر Colossus از چندین رک پردازشی حاوی سرورهای HGX H100 تشکیل شده که در هر رک 8 سرور واقع شده است و در هر سرور 8 کارت گرافیک H100 موجود است. این سیستم به وسیله شرکت سوپرمایکرو (Supermicro) و در داخل یک کیس 4U ساخته شده است که از خنک نماینده مایع پشتیبانی می نماید. هر رک دارای یک مانیفولد برای خنک سازی مایع است که به راحتی می توان آن را تعویض کرد و در پایین هر رک یک پمپ خنک نماینده اضافی و سیستم مانیتورینگ رک واقع شده است. به همین علت، Colossus قادر است عملکردی پایدار و با کارایی بالا را حتی در شرایط پردازشی شدید ارائه دهد.

این ابرکامپیوتر به گونه ای طراحی شده که به جای استفاده از شبکه های پیچیده تر مانند اینفینی بند (InfiniBand)، تمام پردازش ها را به وسیله اترنت (Ethernet) انجام می دهد. هر کارت گرافیک دارای کنترلر شبکه (NIC) با سرعت 400GbE است که سرعتی معادل 3.6 ترابیت بر ثانیه برای هر سرور فراهم می نماید. این سطح بالای پهنای باند به Colossus امکان می دهد که مدل های پیچیده هوش مصنوعی را با سرعت بسیار بالا آموزش دهد و پردازش های مورد احتیاج را در کمترین زمان ممکن انجام دهد.

تأمین انرژی و مدیریت مصرف در Colossus

مصرف انرژی Colossus به علت تراکم بالای پردازش و احتیاج به خنک سازی پیشرفته بسیار زیاد است. از این رو، ایلان ماسک از سیستم های پیشرفته ای برای تأمین انرژی پایدار استفاده نموده است. باتری های تسلا مگاپک (Tesla Megapack)، که هرکدام تا 3.9 مگاوات ساعت ظرفیت دارند، به عنوان یک واسطه برای ذخیره و توزیع انرژی به کار می روند. این باتری ها به علت تأخیر زمانی میلی ثانیه ای خود، قادرند احتیاجهای انرژی شدید و ناگهانی Colossus را مدیریت نمایند و از فشار روی شبکه برق و ژنراتورهای دیزلی ماسک بکاهند. این سیستم ها بعلاوه در صورت قطع برق یا اختلال در شبکه، توان مورد احتیاج ابرکامپیوتر را فراهم می نمایند تا از بروز مسائل احتمالی جلوگیری گردد.

علاوه بر باتری های مگاپک، ماسک 14 ژنراتور دیزلی اضافی را نیز برای پشتیبانی در مواقع ضروری اضافه نموده است. این ژنراتورها در کنار باتری ها، پایداری و قدرت عملکردی Colossus را تضمین می نمایند و باعث می شوند این سیستم در زمان اوج مصرف نیز بدون مشکل به کار خود ادامه دهد.

کاربردها و اهداف آینده Colossus

xAI Colossus در حال حاضر برای آموزش مدل های هوش مصنوعی متنوعی مورد استفاده قرار می گیرد که مهم ترین آن ها مدل چت بات Grok 3 است؛ این چت بات فقط برای کاربران اشتراکی X (پلتفرم توییتر سابق) در دسترس است و به عنوان یک چت بات با هدف متفاوت طراحی شده است. Colossus بعلاوه به عنوان سکوی آزمایشی برای آموزش مدل های پیشرفته هوش مصنوعی آینده مورد استفاده قرار می گیرد؛ مدل هایی که طبق ادعای طراحان آن، قابلیت های بسیار بیشتری از سیستم های فعلی دارند.

مرحله اول ساخت این ابرکامپیوتر به خاتمه رسیده، اما ماسک برنامه های گسترده تری برای آینده این سیستم در نظر گرفته است. Colossus قرار است در مراحل بعدی ارتقاء یابد و به آن 50,000 کارت گرافیک H100 و 50,000 کارت گرافیک نسل تازه H200 اضافه گردد، که این امر توان پردازشی Colossus را به طور چشمگیری افزایش خواهد داد. با این حال، چالش تأمین انرژی به ویژه برای فاز دوم Colossus، با مصرف انرژی بالا همچنان باقی است.

سوپرکامپیوترهای دیگر ایلان ماسک؛ از Cortex تا Dojo

Colossus تنها پروژه بزرگ هوش مصنوعی ماسک نیست. در کنار آن، پروژه های موازی دیگری مانند سوپرکامپیوتر Cortex در کارخانه گیگافکتوری تگزاس نیز تحت مالکیت ماسک قرار دارند. Cortex برای آموزش سیستم های خودران تسلا و توسعه مدل های هوش مصنوعی بینایی رایانه ای طراحی شده است. هدف از این پروژه ها افزایش قابلیت های خودران تسلا با تحلیل و پردازش داده های تصویری در مقیاس وسیع است.

سوپرکامپیوتر دیگری به نام Dojo نیز به زودی در بوفالو، نیویورک ساخته خواهد شد که پروژه ای 500 میلیون دلاری محسوب می گردد. Dojo به منظور توسعه هوش مصنوعی تسلا و آموزش مدل های پردازش تصویر مورد استفاده قرار خواهد گرفت. با سرمایه گذاری های بزرگی که ماسک در این زمینه انجام می دهد، او در کوشش است تا تسلا و xAI را به پیشتازان عرصه هوش مصنوعی تبدیل کند.

آینده Colossus و تاثیرات احتمالی

اگرچه پروژه Colossus با هدف بلندمدت آموزش مدل های پیشرفته هوش مصنوعی و ارائه راهکار های نوین طراحی شده، اما این سرمایه گذاری سنگین و پرچالش با خطرات مالی نیز همراه است. تحلیلگران صنعتی مانند رابین لی، مدیرعامل بایدو، پیش بینی نموده اند که بخش بزرگی از شرکت های هوش مصنوعی در صورت بروز بحران های مالی ممکن است با مسائل مالی روبرو شوند. با این حال، ماسک با توسعه پروژه های بزرگ و پیشرفته ای مانند Colossus، Cortex و Dojo، در کوشش است تا به عنوان یک پیشگام در این عرصه شناخته گردد.

این سرمایه گذاری ها نه تنها بر آینده شرکت های ماسک بلکه بر جهت گیری کلی صنعت هوش مصنوعی تاثیر خواهد گذاشت. Colossus به عنوان نمونه ای از آینده نگری و جاه طلبی ماسک، نقش مهمی در توسعه و پیشرفت فناوری های پردازش زبان طبیعی و سیستم های خودران خواهد داشت. این سیستم به عنوان یکی از بزرگترین سوپرکامپیوترهای هوش مصنوعی در دنیا، می تواند تاثیرات عمیقی بر نحوه توسعه و پیشرفت مدل های هوش مصنوعی در دهه های آینده بگذارد.

منبع

tomshardwareمنبع: یک پزشک
انتشار: 9 آبان 1403 بروزرسانی: 9 آبان 1403 گردآورنده: gsaffron.ir شناسه مطلب: 778

به "نگاهی عمیق به سوپرکامپیوتر xAI Colossus؛ بزرگترین خوشه پردازشی دنیا با 100,000 کارت گرافیک" امتیاز دهید

امتیاز دهید:

دیدگاه های مرتبط با "نگاهی عمیق به سوپرکامپیوتر xAI Colossus؛ بزرگترین خوشه پردازشی دنیا با 100,000 کارت گرافیک"

* نظرتان را در مورد این مقاله با ما درمیان بگذارید