مدل جدید هوش مصنوعی گوگل ۷۰۰ برابر قدرتمندتر از ChatGPT است

17 فوریه, 2024

گوگل ادعا می‌کند که جمینای ۱.۵ می‌تواند تا یک میلیون توکن ورودی، معادل حدود چهار میلیون کاراکتر یا ۸۰۰ هزار کلمه را در لحظه مدیریت کند.

شرکت گوگل به طور جدی وارد رقابت توسعه هوش مصنوعی شده است و اکنون تنها یک هفته پس از عرضه قدرتمندترین مدل خود موسوم به جیمنای ۱.۰ اولترا(Gemini ۱.۰ Ultra)، از جانشین آن به نام Gemini ۱.۵ رونمایی کرده است.

به نقل از آی‌ای، این نسل جدید از مدل‌های هوش مصنوعی، سریع‌تر، هوشمندتر و همه‌کاره‌تر از همیشه است.

جمینای ۱.۵

مدل هوش مصنوعی Gemini ۱.۵ نتیجه نوآوری بی‌امان گوگل در پردازش زبان طبیعی(NLP) است، شاخه‌ای از هوش مصنوعی که با درک و تولید زبان انسان سر و کار دارد.

گوگل ادعا می‌کند که این مدل می‌تواند تا یک میلیون توکن ورودی، معادل حدود چهار میلیون کاراکتر یا ۸۰۰ هزار کلمه را در لحظه مدیریت کند که ۷۰۰ برابر بیشتر از رکورددار قبلی یعنی مدل GPT-۴ متعلق به شرکت اوپن‌ای‌آی(OpenAI) است که تنها می‌تواند ۱۲۸ هزار توکن را پردازش کند.

این بدان معناست که Gemini ۱.۵ می‌تواند متن‌های طولانی‌تر و پیچیده‌تر مانند رمان، مقاله یا سخنرانی را با حفظ انسجام و کیفیت، درک و تولید کند.

همچنین به این معنی است که این مدل می‌تواند ورودی‌های چندوجهی مانند متن، تصویر، صدا و ویدیو را مدیریت کند و خروجی‌هایی را در هر یک از این فرمت‌ها تولید کند. به عنوان مثال می‌تواند به سوالات بر اساس یک کلیپ ویدیویی پاسخ دهد یا یک آهنگ را بر اساس یک پیام متنی ایجاد کند.

ترکیبی از متخصصان

جمینای ۱.۵ تنها یک مدل نیست، بلکه خانواده‌ای از مدل‌هاست که نیازها و کاربردهای مختلف را برآورده می‌کند.

همه‌منظوره‌ترین مدل موسوم به Gemini ۱.۵ Pro از نظر عملکرد با Gemini ۱.۰ Ultra قابل مقایسه است، اما از قدرت محاسباتی بسیار کمتری استفاده می‌کند. همین موضوع آن را برای موارد استفاده در دنیای واقعی کارآمدتر و مقیاس‌پذیرتر می‌کند.

مدل Gemini ۱.۵ Pro همچنین اولین مدلی است که از تکنیک جدیدی به نام ترکیبی از متخصصان(Mixture-of-Experts) یا MoE استفاده می‌کند که به آن اجازه می‌دهد تا به ‌جای اجرای هر باره کل مدل، مرتبط‌ترین بخش‌ها را به صورت پویا برای هر گزارش انتخاب کند.

دمیش حسابیس مدیر گوگل دیپ مایند(Google DeepMind) که بازوی تحقیقاتی توسعه جمینای است توضیح داد که MoE همچنین Gemini ۱.۵ Pro را قادر می‌سازد تا انواع مختلف داده‌ها را به جای ترکیب کردن آنها در آینده، از ابتدا ادغام کند.

وی افزود: به این ترتیب، Gemini ۱.۵ Pro می‌تواند از متن، تصاویر و صدا به طور همزمان یاد بگیرد و از هم‌افزایی بین آنها استفاده کند.

مدل Gemini ۱.۵ Pro توانایی‌های قابل‌توجه «یادگیری درون متنی» را از خود نشان می‌دهد، به این معنی که می‌تواند با پردازش اطلاعات در یک زمان طولانی بدون نیاز به تنظیمات بیشتر، مهارت جدیدی کسب کند.

گوگل برای آزمایش این توانایی از معیار ترجمه ماشینی از یک کتاب(MTOB) استفاده کرد که ارزیابی می‌کند مدل چقدر می‌تواند از داده‌های ناآشنا یاد بگیرد و هنگامی که یک کتابچه راهنمای دستور زبان برای زبان کالامانگ(Kalamang) که زبانی است که کمتر از ۲۰۰ نفر در سراسر جهان به آن صحبت می‌کنند، ارائه شد، این مدل یاد گرفت که زبان انگلیسی را به زبان کالامانگی در سطحی قابل درک و قابل قبول ترجمه کند.

گوگل با معرفی Gemini ۱.۵ بار دیگر سطح تحقیق و توسعه هوش مصنوعی را ارتقا داد. این شرکت می‌گوید که Gemini ۱.۵ به بسیاری از محصولات و خدمات مانند دستیار گوگل(Google Assistant)، مترجم گوگل(Google Translate) و عکس‌های گوگل(Google Photos) قدرت می‌دهد. همچنین سکوی هوش مصنوعی مکالمه‌ای آن موسوم به جمینای ادونس(Gemini Advanced) را تواناتر و رقابتی‌تر خواهد کرد.

جمینای ادونس در حال حاضر رقیب قدرتمندی برای ChatGPT Plus است که چت‌باتی پیشرو در بازار است، اما برخلاف ChatGPT Plus که فقط مبتنی بر متن است، می‌تواند ورودی‌ها و خروجی‌های چندوجهی را مدیریت کند و ویژگی‌ها و عملکردهای بیشتری را ارائه دهد.

گوگل تنها بازیکن در مسابقه توسعه هوش مصنوعی نیست و شرکت‌های دیگری مانند آنتروپیک(Anthropic)، متا و مایکروسافت نیز در حال کار بر روی مدل‌های هوش مصنوعی خود هستند که ممکن است به زودی سلطه گوگل را به چالش بکشد.

در هر حال تنور جنگ هوش مصنوعی در حال داغ شدن است و «جمینای ۱.۵» نیز جدیدترین سلاح گوگل در این جنگ است.

منبع: ایسنا

برچسب ها