تکنیکی جدید که سرعت عملکرد شبکههای عصبی هوش مصنوعی را به طرز عجیبی افزایش میدهد
محققان در ETH زوریخ (موسسه فناوری فدرال زوریخ) تکنیک جدیدی را توسعه دادند که به طرز چشمگیری میتواند سرعت عملکرد شبکههای عصبی هوش مصنوعی را افزایش دهد. آنها روند استنتاجی را ارائه کردند که میزان محاسبات این شبکهها را بسیار کاهش میدهد.
به نقل از پیوست، در آزمایشی که توسط BERT انجام شد، یک مدل تبدیلکننده در وظایف زبانی متنوع استخدام شد و محققان موفق شدند بیش از ۹۹ درصد از محاسبات را کاهش دهند. این تکنیک خلاقانه همچنین میتواند اعمال شود برای مدلهای مبدلی که در مدل زبانی عظیم (LLM) مانند GPT-3 استفاده میشوند و امکان افزایش سرعت و کارآیی پروسه زبانی را ایجاد کند.
شبکههای سریع پیشخورد
مبدلها، شبکههای عصبی بنیادی LLMs، تشکیل شده از لایههای متنوع مانند لایههای توجه و لایههای پیشخورد. مورد بعدی، بخش قابل توجهی از پارامترهای مدل را به خود اختصاص میدهد، از نظر محاسباتی مطالبهگر هستند باتوجه به نیاز محاسبه محصول از تمام نورونها و ابعاد ورودی.
به هرروی، براساس یافتههای محققان، نورونهایی که لایههای پیشخورد را دارند، در طی روند استنتاج هرورودی باید فعال شوند. آنها توصیه میکنند به جای لایههای پیشخورد سنتی، از لایههای پیشخورد سریع (FFF) استفاده شود.
FFF استفاده میکند از یک عملیات ریاضی که به عنوان ضرب ماتریکس شرطی (CMM) شناخته میشود. که جایگزین ضرب ماتریکس متراکم (DMM) شده است و توسط شبکههای پیشخورد استفاده میشود.
در DMM، تمامی پارامترهای ورودی توسط شبکه نورونی تشدید میشوند ، روندی که از نظر محاسباتی همزمان هم متمرکز و هم ناکارآمد است. به عبارتی دیگر، CMM استنباط را به گونهای مدیریت میکند که ورودیها به تعداد انگشتشماری نورون برای پردازش شبکه نیاز دارند.
با تشخیص نورونهای درست برای هر محاسبه، FFF میتواند به طور چشمگیری بارگیری محاسباتی را کاهش دهد ، و آن را هدایت کند به مدلهای زبانی کارآمدتر و سریعتر.
شبکههای ارائه پیشنهاد سریع در عمل
محققان برای معتبرکردن تکنیکهای ابداعیشان، FastBERT یا همان مدل مبدل BERT گوگل را اصلاح کرده و توسعه دادند. FastBERT با جایگزین کردن لایههای میانی پیشخورد با لایههای سریع آن تحولی انقلابی ایجاد میکند. FFF نورونهایشان را به یک درخت دوتایی تبدیل میکند، با اجرای فقط یک شاخه به طور مشروط براساس ورودی.
برای ارزیابی کارآیی FastBERT ، محققان متغیرهای مختلف را در وظایف متعدد از زبان عمومی از ارزیابی درک عمومی زبان (GLUE) معیار تنظیم کردند. GLUE کلکسیون وسیعی از مجموعه دادههایی است که طراحی شده برای تمرین، ارزیابی و تحلیل زبان عادی درک سیستمی.
نتایج جالب بود، در مقایسه FastBERT با مدل پایه BERT در تشابه اندازه و فرآیند آموزشی. انواع FastBERT، تمرین دیدهاند برای فقط یک روز در A6000 GPU، حداقل 96 درصد از مدل اجرای BERT اصلی را نگه میدارد. به طرز چشمگیری، بهترین مدل FastBERT آنها تطابق دارد با برت اصلی، در حالی که فقط از 0.3 درصد از شبکه ارائه پیشنهادهای آن استفاده میشود.
محققان بر این باورند که گنجاندن شبکههای ارائه پیشنهاد سریع در مدلهای زبانی بزرگ LLM ها، برای تسریع کردن فرآیند ظرفیت بسیاری دارد. برای مثال، در GPT-3، شبکههای ارائه پیشخورد در هر لایه مبدل، 49 هزار و 152 نورون دارند.
برطبق گفته یک محقق، این شبکه در صورتی که قابلیت آموزش داشته باشد، میتواند جایگزین شود با شبکه نورونی با عمق ماکسیمم 15، که شامل 65 هزار و 536 نورون میشود اما فقط از 16 تا برای استنتاج استفاده می شود، که مساوی است با 0.03 درصد از نورون های GPT-3 .
اتاقی برای پیشرفت
سختافزارها و نرمافزارهای قابل ملاحظهای برای بهینهسازی وجود دارند برای ضرب ماتریکس متراکم یا همان عملیات ریاضی استفاده شده در شبکه نورونی پیشنهاد سنتی.
یک محقق نوشت:«ضرب ماتریکس متراکم بیشترین عملیات بهینه شده ریاضیات در تاریخ محاسبه است. تلاش فوقالعادهای صورت گرفته برای طراحی حافظه، چیپها، مجموعه دستورالعملها و روتین نرمافزار که اجرا میکند با بیشترین سرعت ممکن. بسیاری از این پیشرفتها برای پیچیدگی یا مزایای رقابتی آن رخ داده است – محرمانه و در معرض دید کاربر نهایی قرار میگیرند از مسیر قدرتمند اما از طریق رابطهای برنامه نویسی محدود.»
در مقایسه، هیچ اجرای بومی و کارآمدی وجود ندارد برای ضرب ماتریکس شرطی، این عملیات در شبکه سریع ارائه پیشنهاد به کار میرود. هیچ چهارچوب یادگیری عمیقی پیشنهاد نمیکند رابطی را که میتواند مورد استفاده قرار بگیرد برای اجرای CMM در شبیه سازی سطح بالا.
محققان عملیات پیاده سازی خود از CMM براساس دستورالعملهای CPU و GPU توسعه دادند. این امر منجر شد به ارتقای 78x سرعت در پیاده سازی و اجرا.
به هرروی، محققان بر این باورند که با سختافزار بهتر و پیاده سازی سطح پایین از الگوریتم، ظرفیتی وجود دارد برای ارتقای بیش از 300x در سرعت، این امر میتواند به طور قابل ملاحظهای، منجر به یکی از بزرگترین چالشهای مدلهای زبانی شود – تعدادی از توکن ها که ایجاد میکند در ثانیه.
محققان در اینباره نوشتهاند: با قول تئوریک سرعت 341x از مقیاس مدلهای پایه BERT، ما امیدواریم که تلاشمان الهام بخش یک تلاش برای پیادهسازی اصول اولیه برای اجرای عصبی شرطی به عنوان بخشی از رابط برنامه نویسی دستگاه باشد.
این تحقیق بخشی از تلاش گستردهتر برای برعهده گرفتن حافظه و محاسبه تنگناها از مدلهای زبانی گسترده است و هموار کردن راه برای سیستم هوش مصنوعی کارآمدتر و قویتر.