جمنای۳، از تبدیل ایده به واقعیت تا گرداندن یک کسب و کار و درآمدزایی
جمنای۳ و آنتیگراویتی (تبدیل ایده به واقعیت) به گزارش مخاطب ۲۴، گوگل، جمنای ۳ را «بهترین مدل جهان برای درک چندوجهی» و قدرتمندترین مدل این شرکت برای کدنویسی و انجام وظایف معرفی میکند که با ترکیب تمام قابلیتهای قبلی، به کاربر اجازه میدهد «هر ایدهای را به واقعیت تبدیل کند».
به گفتهی گوگل، جمنای ۳ با پنجرهی متنی یک میلیون توکنی و خروجی متن تا ۶۴ هزار توکن، بسیار بهتر از قبل میتواند نیت و هدف درخواست کاربر را بفهمد، بنابراین با توضیحات کمتر، نتیجهی بهتری میگیرد. دمیس هاسابیس، مدیرعامل گوگل دیپمایند هم از جمنای ۳ بهعنوان «گام بزرگ دیگری به سمت هوش مصنوعی انسانگونه (AGI)» یاد کرد.
جمنای ۳ فقط حرف نمیزند، «عمل» میکند
آنطور که نتایج آزمونهای گوگل نشان میدهد، جمنای ۳ پرو در تمام بنچمارکهای اصلی هوش مصنوعی، از نسخهی ۲٫۵ پرو پیشی گرفته است؛ عملکردی در سطح دکترا دارد؛ آنچه را که «نیاز دارید بشنوید» میگوید و میتواند ویدیوها را تحلیل کند یا دستخطهای قدیمی را بخواند.
علاوهبراین، جمنای ۳ میتواند «عمل» کند؛ یعنی میتواند در تقویم بگردد، ایمیل بفرستد، کد بنویسد و آن را اجرا کند. برای مثال، میتوانید به این مدل بگویید «یک بازی فضایی بساز که حس نوستالژیک دههی ۸۰ را داشته باشد» و هوش مصنوعی خودش جزییات فنی را برای رسیدن به آن حس پیادهسازی میکند.
آنتیگراویتی به صورت محلی روی سیستم اجرا میشود
درکنار جمنای ۳، نام پلتفرم جدید «گوگل آنتیگراویتی» هم بر سر زبانها افتاده است؛ این پلتفرم مخصوص برنامهنویسان است که ظاهری شبیه محیطهای کدنویسی آشنا دارد، اما برخلاف مدلهای قبلی که فقط متن تولید میکردند، ایجنتهای Antigravity به ویرایشگر کد، ترمینال و مرورگر دسترسی مستقیم دارند. این ایجنتها همچنین میتوانند خودشان، کد را تست و اجرا کنند تا مطمئن شوند که درست کار میکند.
نکتهی جالبتوجه دربارهی آنتیگراویتی این است که برخلاف بسیاری از ابزارهای مشابه که تماما در فضای ابری اجرا میشوند، این پلتفرم به صورت محلی روی سیستم اجرا میشود، اما همچنان قدرتی خیرهکننده دارد.
بنچمارکها چه میگویند؟
نتایج بنچمارکهای جمنای ۳ واقعا خیرهکننده است. در آزمون «Humanity's Last Exam» که شامل سوالات بسیار دشوار چندرسانهای است که توسط متخصصان خبره در حوزههای ریاضی و علوم طراحی شدهاند، جمنای ۳ با کسب نمرهی ۳۷٫۵ درصد، رقیب نزدیک خود GPT ۵.۱ با امتیاز ۲۶٫۵ درصد را بهراحتی کنار زد. نسخهی پیشرفتهتر این مدل، «Deep Think»، حتی فراتر رفت و نمرهی ۴۱ درصد را ثبت کرد.
جمنای ۳، برنده آزمون پول درآوردن
یکی از جذابترین تستهای هوش مصنوعی، آزمونی به نام «Vending Bench» است. تصور کنید به هوش مصنوعی سرمایهای اندک میدهید و از او میخواهید یک کسبوکار (مثل مدیریت یک دستگاه فروش خودکار یا یک مغازه) را برای برای ۳۵۰ روز متوالی بگرداند.
وظیفهی مدل این است که موجودی کالاها را چک کند، با تامینکنندگان مذاکره کند، درخواستهای مشتریان را پاسخ دهد و سودآوری را تضمین کند. این تست توسط آزمایشگاههای مستقل طراحی شده تا ببینند آیا هوش مصنوعی میتواند در آینده، سازمانها را بدون دخالت انسان اداره کند یا خیر.
جمنای ۳ سرمایه ۵۰۰ دلاری را ده برابر کرد
در این تست، مدل Sonnet ۴.۵ و گراک ۴ بهترتیب به سودهای ۳۸۳۹ و زیر ۲۰۰۰ دلار رسیدند، اما جمنای ۳ پرو با یک جهش خیرهکننده، سرمایهی خود را به بیش از ۵۰۰۰ دلار رساند؛ یعنی بیش از ده برابر سرمایهی اولیه. مدل جدید اوپوس ۴.۵ هم که بعد از جمنای ۳ منتشر شد، توانست سرمایهی ۵۰۰ دلاری را به ۴۹۶۷ دلار برساند و رقابت نزدیکتری با جمنای ۳ داشته باشد.
به گفتهی یوتیوبر Ves Roth، وقتی هم مدلها روبهروی هم قرار گرفتند، استراتژیهای جمنای چنان کارآمد بود که در روزهای پایانی رقابت، مدلهای قدرتمندی مثل GPT ۵.۱ و جمنای ۲.۵ پرو را به ورشکستگی و سود منفی کشاند.
مشکلات و محدودیتهای جمنای۳
باوجود هیجان اولیه، بسیاری از متخصصانی که روزانه با هوش مصنوعی کار میکنند، معتقدند که اگرچه جمنای ۳ چشمگیر است، اما هنوز جایگزین همه چیز نیست.
برای مثال، توماس شلگل، معاون مهندسی شرکت Built (پلتفرم مالی ساختوساز)، که از ترکیبی از مدلها برای تحلیل اسناد ساختمانی استفاده میکند، به ورج گفت که جمنای ۳ برای کارهای عمومی بهترین است، اما احتمالا همچنان از Claude برای کارهای کدنویسی خاص و از مدلهای OpenAI برای استدلالهای تجاری استفاده خواهد کرد.
جمنای۳ پایان کار رقبای گوگل نیست
لوئیس بلنکمایر، مدیرعامل استارتاپ رادیولوژی Cognita، هم جمنای ۳ را از نظر اعداد و ارقام خالص، فوقالعاده هیجانانگیز توصیف کرد؛ اما وقتی مدل را در زمینهی رادیولوژی تست کرد، متوجه شد که جمنای در تشخیص شکستگیهای ظریف دنده در عکسهای اشعه ایکس و شناسایی شرایط نادر پزشکی دچار مشکل شد. بلنکمایر تأکید میکند: «دنیای واقعی بسیار سختتر است» و مدلهای قدیمیتر که با دادههای خاص آموزش دیدهاند، ممکن است هنوز در موارد حساس قابل اعتمادتر باشند.
آندری کارپاتی، محقق سابق OpenAI، نیز نوشت که جمنای ۳ پتانسیل بالایی دارد، اما گاهی گیج میشود؛ مثلا فراموش کرد موتور جستجوی گوگل را روشن کند یا اصرار داشت که سال ۲۰۲۴ است. (گوگل اعلام کرده این مشکلات مربوط به پرامپتهای سیستمی اولیه بوده و رفع خواهد شد).
با این اوصاف، جمنای ۳ پایان کار رقبای گوگل نیست، چرا که هر ماه یک مدل دیگر از دیگری جلو میزند. مثلا درست یک روز بعد از انتشار جمنای ۳، شرکت OpenAI مدلی به نام GPT-۵.۱-Codex-Max را منتشر کرد تا در برخی بنچمارکهای کدنویسی با جمنای رقابت کند.
گوگل برنده هوش مصنوعی است؟
جمنای ۳ در تمام دستهبندیها، از درک ویدیو و تصویر گرفته تا حل مسائل پیچیده ریاضی و کدنویسی، یا در رتبهی اول است یا با اختلاف کمی در صدر رقابت میکند.
والاستریت ژورنال، جمنای ۳ را «مدل برتر بعدی آمریکا» نامید و موفقیت این مدل، ارزش بازار آلفابت (شرکت مادر گوگل) به ۳٫۶ تریلیون دلار رسید تا برای اولین بار در هفت سال گذشته از مایکروسافت پیشی بگیرد.
اگرچه OpenAI مالک ChatGPT، محبوبترین چتبات هوش مصنوعی جهان است، اما فراتر از آن تقریبا دستش خالی است؛ این شرکت برای تامین تراشهها و فضای دیتاسنتر به شراکت با دیگران وابسته است؛ اما گوگل تمام این امکانات را یکجا دارد و میتواند محصول هوش مصنوعی خود را از صفر تا صد کنترل کند؛ از تحقیقات اولیه و زیرساختهای ابری اختصاصی گرفته تا سیستم پیشنهاددهی یوتیوب و خلاصههای هوشمند جستوجو.
OpenAI برای تراشه به دیگران محتاج است، اما گوگل همه چیز را یکجا دارد
بااینحال، OpenAI همچنان در زمینهی برندسازی، برتری بزرگی نسبتبه گوگل دارد. این روزها، نام «ChatGPT» برای بسیاری از مردم مساوی است با هوش مصنوعی، درست همانطور که «گوگل» مترادف جستوجو در اینترنت شده است.
البته شانس با گوگل یار است، چرا که زمان زیادی دارد تا برای تغییر این ذهنیت تلاش کند. به باور مایکل ناتانسون، تحلیلگر بازار، گوگل «برندهی هوش مصنوعی است، این کاملاً واضح است. من الان حس میکنم آنها دستِ بالا را دارند.»
