تراشههای استنتاج هوش مصنوعی ۹۰ درصد ارزانتر میشوند؛ آینده در گرو سرعت پاسخگویی

استارتآپ تراشهسازی «دی-ماتریکس» (d-Matrix) که با حمایت شرکت «مایکروسافت» توسعه یافته، ایدهای مشابه را دنبال میکند. هدف اصلی این شرکت، ساخت تراشههایی است که فرآیند «استنتاج» در هوش مصنوعی را بسیار سریعتر، ارزانتر و کارآمدتر اجرا کنند. استنتاج، فرآیندی است که هنگام پاسخدهی هوش مصنوعی به پرسشهای کاربران رخ میدهد. سید شث، مدیرعامل دی-ماتریکس، در اجلاس وب قطر اعلام کرد که آینده هوش مصنوعی نه فقط به آموزش مدلهای بزرگ، بلکه به توانایی ارائه سریعترین و ارزانترین پاسخها وابسته خواهد بود.
شث تفاوت اساسی میان «آموزش» و «استنتاج» را برجسته ساخت. در حالی که آموزش مدلهای زبانی بزرگ نیازمند پردازندههای گرافیکی پیشرفته انویدیا یا واحدهای پردازش تانسوری گوگل است، مدیرعامل دی-ماتریکس معتقد است که پردازندههای گرافیکی برای اجرای استنتاج بهینه نیستند. وی این وضعیت را به تلاش برای تمیز کردن خانه با چکش و میخ تشبیه کرد، زیرا سختافزار موجود عمدتاً برای آموزش طراحی شده است.
تأسیس دی-ماتریکس بر این باور بنا شد که فرآیند استنتاج، سهم غالب را در حجم کاری هوش مصنوعی به خود اختصاص خواهد داد. شث تأکید میکند که استنتاج صرفاً یک مشکل محاسباتی نیست، بلکه ترکیبی از محاسبات و حافظه است؛ جایی که بخش حافظه موجب افزایش تأخیر میشود. در مدلهای زبانی بزرگ، مرحله اولیه پردازش یا «پیشپرکردن» (prefill) شامل دریافت اعلان و ساخت محتوا است، و سپس مرحله «رمزگشایی» برای تولید توکنهای پاسخ آغاز میشود. عملکرد در مرحله استنتاج، به شدت تحت تأثیر سرعت انتقال دادهها بین حافظه و واحدهای محاسباتی قرار دارد.
شث توضیح داد که زیرساختهای کنونی عمدتاً برای حجم کاری آموزشی بهینهسازی شدهاند که عملکرد در اوج بار را بر پاسخگویی متوسط اولویت میدهد. با این حال، در کاربردهای تعاملی هوش مصنوعی، «تأخیر» معیار حیاتی میشود، زیرا کاربران انتظار دارند پاسخها با سرعتی مشخص ارائه شوند.
راهکار ارائهشده توسط دی-ماتریکس، ترکیب دقیق محاسبات و حافظه در معماری تراشههای خود است. این شرکت با نزدیکسازی فیزیکی حافظه به واحدهای پردازشی و تنظیم جریان دادهها متناسب با الگوهای استنتاج، به دنبال کاهش تأخیر هر توکن و افزایش تعداد توکنهای تولیدی به ازای هر وات است. علاوه بر این، تراشهها به صورت ماژولار و در قالب «چیپلت» ساخته میشوند که ترکیب آنها بر اساس نیاز هر حجم کاری قابل تنظیم است.
این رویکرد مفهوماً به طراحی حافظه یکپارچه شرکت اپل نزدیکتر است تا ساختارهای سنتی پردازندههای گرافیکی. شث ادعا میکند که اجرای عملیات استنتاج با تراشههای دی-ماتریکس در حال حاضر ۹۰ درصد ارزانتر از معماریهای مبتنی بر واحد پردازش گرافیکی است و این بهینهسازیها ادامه خواهند یافت.
در تحولی مرتبط، شرکت «اوپنایآی» از تراشههای شرکت «سریبراس» برای اجرای استنتاج مدل خود استفاده میکند که منجر به افزایش ۱۵ تا ۲۰ برابری سرعت شده است، اگرچه رویکرد سریبراس با دی-ماتریکس متفاوت است.
به گزارش بخش اقتصاد وبانگاه بر اساس دادههای منتشرشده در ایسنا، دی-ماتریکس در حال حاضر تراشههای خود را در مقادیر اندک عرضه میکند، اما مدیرعامل آن پیشبینی کرده است که تولید انبوه در سال جاری به میلیونها عدد برسد.