تراشه‌های استنتاج هوش مصنوعی ۹۰ درصد ارزان‌تر می‌شوند؛ آینده در گرو سرعت پاسخگویی

استارت‌آپ دی-ماتریکس با حمایت مایکروسافت، تراشه‌هایی با معماری نوین برای بهینه‌سازی فرآیند استنتاج در هوش مصنوعی طراحی کرده که ادعا می‌کند هزینه اجرای این عملیات را تا ۹۰ درصد کاهش می‌دهد و سرعت پاسخ‌دهی را افزایش می‌دهد.
هم‌اکنون جهان سرمایه‌گذاری‌های سنگینی در حوزه هوش مصنوعی انجام می‌دهد، تا جایی که شرکت‌های نرم‌افزاری حتی در بخش انرژی هسته‌ای نیز سرمایه‌گذاری می‌کنند تا بتوانند تقاضای روبه‌رشد برای تولید محتوای متنی، تصویری و ویدیویی را تأمین کنند. با این حال، پرسش اینجاست که آیا می‌توان با راندمان بالاتر و مصرف انرژی کمتر، کارهای بیشتری در حوزه هوش مصنوعی انجام داد؟

استارت‌آپ تراشه‌سازی «دی-ماتریکس» (d-Matrix) که با حمایت شرکت «مایکروسافت» توسعه یافته، ایده‌ای مشابه را دنبال می‌کند. هدف اصلی این شرکت، ساخت تراشه‌هایی است که فرآیند «استنتاج» در هوش مصنوعی را بسیار سریع‌تر، ارزان‌تر و کارآمدتر اجرا کنند. استنتاج، فرآیندی است که هنگام پاسخ‌دهی هوش مصنوعی به پرسش‌های کاربران رخ می‌دهد. سید شث، مدیرعامل دی-ماتریکس، در اجلاس وب قطر اعلام کرد که آینده هوش مصنوعی نه فقط به آموزش مدل‌های بزرگ، بلکه به توانایی ارائه سریع‌ترین و ارزان‌ترین پاسخ‌ها وابسته خواهد بود.

شث تفاوت اساسی میان «آموزش» و «استنتاج» را برجسته ساخت. در حالی که آموزش مدل‌های زبانی بزرگ نیازمند پردازنده‌های گرافیکی پیشرفته انویدیا یا واحدهای پردازش تانسوری گوگل است، مدیرعامل دی-ماتریکس معتقد است که پردازنده‌های گرافیکی برای اجرای استنتاج بهینه نیستند. وی این وضعیت را به تلاش برای تمیز کردن خانه با چکش و میخ تشبیه کرد، زیرا سخت‌افزار موجود عمدتاً برای آموزش طراحی شده است.

تأسیس دی-ماتریکس بر این باور بنا شد که فرآیند استنتاج، سهم غالب را در حجم کاری هوش مصنوعی به خود اختصاص خواهد داد. شث تأکید می‌کند که استنتاج صرفاً یک مشکل محاسباتی نیست، بلکه ترکیبی از محاسبات و حافظه است؛ جایی که بخش حافظه موجب افزایش تأخیر می‌شود. در مدل‌های زبانی بزرگ، مرحله اولیه پردازش یا «پیش‌پرکردن» (prefill) شامل دریافت اعلان و ساخت محتوا است، و سپس مرحله «رمزگشایی» برای تولید توکن‌های پاسخ آغاز می‌شود. عملکرد در مرحله استنتاج، به شدت تحت تأثیر سرعت انتقال داده‌ها بین حافظه و واحدهای محاسباتی قرار دارد.

شث توضیح داد که زیرساخت‌های کنونی عمدتاً برای حجم کاری آموزشی بهینه‌سازی شده‌اند که عملکرد در اوج بار را بر پاسخگویی متوسط اولویت می‌دهد. با این حال، در کاربردهای تعاملی هوش مصنوعی، «تأخیر» معیار حیاتی می‌شود، زیرا کاربران انتظار دارند پاسخ‌ها با سرعتی مشخص ارائه شوند.

راهکار ارائه‌شده توسط دی-ماتریکس، ترکیب دقیق محاسبات و حافظه در معماری تراشه‌های خود است. این شرکت با نزدیک‌سازی فیزیکی حافظه به واحدهای پردازشی و تنظیم جریان داده‌ها متناسب با الگوهای استنتاج، به دنبال کاهش تأخیر هر توکن و افزایش تعداد توکن‌های تولیدی به ازای هر وات است. علاوه بر این، تراشه‌ها به صورت ماژولار و در قالب «چیپلت» ساخته می‌شوند که ترکیب آن‌ها بر اساس نیاز هر حجم کاری قابل تنظیم است.

این رویکرد مفهوماً به طراحی حافظه یکپارچه شرکت اپل نزدیک‌تر است تا ساختارهای سنتی پردازنده‌های گرافیکی. شث ادعا می‌کند که اجرای عملیات استنتاج با تراشه‌های دی-ماتریکس در حال حاضر ۹۰ درصد ارزان‌تر از معماری‌های مبتنی بر واحد پردازش گرافیکی است و این بهینه‌سازی‌ها ادامه خواهند یافت.

در تحولی مرتبط، شرکت «اوپن‌ای‌آی» از تراشه‌های شرکت «سریبراس» برای اجرای استنتاج مدل خود استفاده می‌کند که منجر به افزایش ۱۵ تا ۲۰ برابری سرعت شده است، اگرچه رویکرد سریبراس با دی-ماتریکس متفاوت است.

به گزارش بخش اقتصاد وبانگاه بر اساس داده‌های منتشرشده در ایسنا، دی-ماتریکس در حال حاضر تراشه‌های خود را در مقادیر اندک عرضه می‌کند، اما مدیرعامل آن پیش‌بینی کرده است که تولید انبوه در سال جاری به میلیون‌ها عدد برسد.

©‌ وبانگاه, ایسنا,فوربس

دکمه بازگشت به بالا