جایگاه برتر OpenAI در حوزه هوش مصنوعی مولد ممکن است به پایان برسد زیرا گوگل در روز چهارشنبه توانمندترین LLM (large language model) خود به نام Gemini 1.0 را معرفی کرد. این اولین نمونه از نسل جدیدی از مدلهای هوش مصنوعی است که از نحوه درک و تعامل مردم با جهان الهام گرفته شده است. در نتیجهی همکاری گسترده بین بخشهای DeepMind وتحقیقات گوگل، حالا Gemini دارای تمام ویژگیهایی است که مدلهای پیشرو در حوزه هوش مصنوعی ارائه میدهند. قابلیتهای آن تقریباً در هر حوزهای در سطح بالاست.
این سیستم از ابتدا به عنوان یک هوش مصنوعی چندرسانهای یکپارچه توسعه یافته است. بسیاری از مدلهای بنیادی اساساً میتوانند به عنوان گروهی از مدلهای کوچکتر تصور شوند که روی هم چیده شدهاند، به این صورت که هر مدل جداگانه برای انجام عملکرد خاص خود به عنوان بخشی از یک کل بزرگتر، آموزش دیده است. این برای عملکردهای کم عمق مانند توصیف تصاویر خوب است اما برای وظایف استدلال پیچیده چندان مناسب نیست.
اما گوگل Gemini را از ابتدا بر روی انواع مختلف رسانهها آموزش داده و تنظیم کرده است، این امر به آن اجازه میدهد تا از ابتدا به طور یکپارچه همهی انواع ورودی را درک و استدلال کند، بسیار بهتر از مدلهای چندرسانهای موجود. توانایی دریافت همهی این اشکال داده به طور همزمان باید به Gemini کمک کند تا پاسخهای بهتری در مورد موضوعات چالشبرانگیزتر مانند فیزیک ارائه دهد.
Gemini نیز میتواند کد نویسی کند. گفته میشود که در زبانهای برنامهنویسی محبوب از جمله ++Python، Java، C و Go مهارت دارد. این مدل هوش مصنوعی از سیستم تولید کد AlphaCode 2 استفاده میکند که میتواند 85 درصد بهتر از رقبا و 50 درصد بهتر از نسل قبلی خود کدنویسی کند.
هرچند گوگل به سرعت تعداد پارامترهایی که جمینی میتواند استفاده کند را اعلام نکرده است، اما این شرکت از قابلیت انعطافپذیری عملیاتی و قابلیت کار کردن جمینی در مراکز داده بزرگ تا دستگاههای موبایل محلی صحبت کرده است. برای دستیابی به این ویژگی مبتکرانه، جمینی در سه اندازه (نانو، پرو و الترا) در دسترس قرار میگیرد.
نانو همانطور که انتظار میرود، کوچکترین مورد از این سه مورد است و برای وظایف روی دستگاه طراحی شده است. پرو قدم بعدی است، یک پیشنهاد متنوعتر از نانو است، و به زودی در بسیاری از محصولات موجود Google، از جمله Bard، ادغام خواهد شد.
از روز چهارشنبه، Bard شروع به استفاده از یک نسخهی خاص از پرو کرد که Google قول داده است که استدلال، برنامهریزی، درک و موارد دیگر را بهتر ارائه دهد. ربات چت بهبود یافته Bard در همان 170 کشور و قلمرو که Bard معمولی در حال حاضر در آن قرار دارد، در دسترس خواهد بود و شرکت گزارش داده است که قصد دارد در سال 2024، در دسترس بودن نسخه جدید را گسترش دهد.
قابلیتهای پرو نیز از طریق API در Google AI Studio یا Google Cloud Vertex AI قابل دسترسی خواهد بود. جستجو (به طور خاص SGE)، تبلیغات، Chrome و Duet AI نیز در ماههای آینده شاهد ادغام قابلیتهای Gemini در ویژگیهای خود خواهند بود. Gemini الترا تا حداقل سال 2024 در دسترس نخواهد بود، زیرا گزارش شده است که قبل از آزاد شدن برای مشتریان، توسعهدهندگان، شرکا و کارشناسان ایمنی، برای آزمایش و بازخورد نیاز به آزمایش red-team دارد.
منبع: engadget.com
دیدگاه خود را بنویسید