گوگل با «Gemini» به مصاف GPT-4 می‌رود

جایگاه برتر OpenAI در حوزه هوش مصنوعی مولد ممکن است به پایان برسد زیرا گوگل در روز چهارشنبه توانمندترین LLM (large language model) خود به نام Gemini 1.0 را معرفی کرد. این اولین نمونه از نسل جدیدی از مدل‌های هوش مصنوعی است که از نحوه درک و تعامل مردم با جهان الهام گرفته شده است. در نتیجه‌ی همکاری گسترده بین بخش‌های DeepMind وتحقیقات گوگل، حالا Gemini دارای تمام ویژگی‌هایی است که مدل‌های پیشرو در حوزه هوش مصنوعی ارائه می‌دهند. قابلیت‌های آن تقریباً در هر حوزه‌ای در سطح بالاست.

این سیستم از ابتدا به عنوان یک هوش مصنوعی چندرسانه‌ای یکپارچه توسعه یافته است. بسیاری از مدل‌های بنیادی اساساً می‌توانند به عنوان گروهی از مدل‌های کوچکتر تصور شوند که روی هم چیده شده‌اند، به این صورت که هر مدل جداگانه برای انجام عملکرد خاص خود به عنوان بخشی از یک کل بزرگتر، آموزش دیده است. این برای عملکردهای کم عمق مانند توصیف تصاویر خوب است اما برای وظایف استدلال پیچیده چندان مناسب نیست.

اما گوگل Gemini را از ابتدا بر روی انواع مختلف رسانه‌ها آموزش داده و تنظیم کرده است، این امر به آن اجازه می‌دهد تا از ابتدا به طور یکپارچه همه‌ی انواع ورودی را درک و استدلال کند، بسیار بهتر از مدل‌های چندرسانه‌ای موجود. توانایی دریافت همه‌ی این اشکال داده به طور همزمان باید به Gemini کمک کند تا پاسخ‌های بهتری در مورد موضوعات چالش‌برانگیزتر مانند فیزیک ارائه دهد.

Gemini نیز می‌تواند کد نویسی کند. گفته می‌شود که در زبان‌های برنامه‌نویسی محبوب از جمله ++Python، Java، C و Go مهارت دارد. این مدل هوش مصنوعی از سیستم تولید کد AlphaCode 2 استفاده می‌کند که می‌تواند 85 درصد بهتر از رقبا و 50 درصد بهتر از نسل قبلی خود کدنویسی کند.

هرچند گوگل به سرعت تعداد پارامترهایی که جمینی می‌تواند استفاده کند را اعلام نکرده است، اما این شرکت از قابلیت انعطاف‌پذیری عملیاتی و قابلیت کار کردن جمینی در مراکز داده بزرگ تا دستگاه‌های موبایل محلی صحبت کرده است. برای دستیابی به این ویژگی مبتکرانه، جمینی در سه اندازه (نانو، پرو و الترا) در دسترس قرار می‌گیرد.

نانو همانطور که انتظار می‌رود، کوچکترین مورد از این سه مورد است و برای وظایف روی دستگاه طراحی شده است. پرو قدم بعدی است، یک پیشنهاد متنوع‌تر از نانو است، و به زودی در بسیاری از محصولات موجود Google، از جمله Bard، ادغام خواهد شد.

از روز چهارشنبه، Bard شروع به استفاده از یک نسخه‌ی خاص از پرو کرد که Google قول داده است که استدلال، برنامه‌ریزی، درک و موارد دیگر را بهتر ارائه دهد. ربات چت بهبود یافته Bard در همان 170 کشور و قلمرو که Bard معمولی در حال حاضر در آن قرار دارد، در دسترس خواهد بود و شرکت گزارش داده است که قصد دارد در سال 2024، در دسترس بودن نسخه جدید را گسترش دهد.

قابلیت‌های پرو نیز از طریق API در Google AI Studio یا Google Cloud Vertex AI قابل دسترسی خواهد بود. جستجو (به طور خاص SGE)، تبلیغات، Chrome و Duet AI نیز در ماه‌های آینده شاهد ادغام قابلیت‌های Gemini در ویژگی‌های خود خواهند بود. Gemini الترا تا حداقل سال 2024 در دسترس نخواهد بود، زیرا گزارش شده است که قبل از آزاد شدن برای مشتریان، توسعه‌دهندگان، شرکا و کارشناسان ایمنی، برای آزمایش و بازخورد نیاز به آزمایش red-team دارد.

منبع: engadget.com