دنیای رباتیک امروز شاهد یک جهش بزرگ از آزمایشگاههای لندن به دنیای واقعی بود. گوگل دیپمایند (Google DeepMind) دقایقی پیش از جدیدترین دستاورد خود در حوزه هوش مصنوعی فیزیکی رونمایی کرد: مدلهای Gemini Robotics 1.5 و Gemini Robotics-ER 1.5. این مدلها که به عنوان “مغز جدید رباتها” شناخته میشوند، قرار است فاصله بین دستورات زبانی انسان و عملکرد مکانیکی رباتها را به حداقل برسانند.
در سایت خبری هوش روز، ما همواره به دنبال پاسخ به این سوال هستیم که هوش مصنوعی چگونه از صفحه نمایش خارج شده و وارد دنیای فیزیکی میشود؛ به نظر میرسد پاسخ امروز گوگل، محکمترین جواب تا به این لحظه باشد.
درک عمیق، نه فقط اجرای کورکورانه
طبق گزارشهای رسمی، مدلهای جدید بر پایه معماری قدرتمند Gemini بنا شدهاند اما برای درک فضا، فیزیک و توالی زمانی بهینه شدهاند. کارولینا پارادا، مدیر بخش رباتیک دیپمایند، در توضیحی که مرزهای تکنولوژی را جابهجا میکند، میگوید: «این مدلها به رباتها اجازه میدهند چند قدم جلوتر را در ذهن خود شبیهسازی کنند.»
این یعنی پایان عصر رباتهایی که صرفاً یک کد دستوری را اجرا میکردند. حالا با یک عامل هوشمند (Agent) طرف هستیم که میتواند برای حل مسئله از گوگل سرچ کمک بگیرد.
تحلیل نوید راد کارشناس هوش روز: “استفاده از قابلیت Grounding (اتصال به دادههای واقعی) از طریق جستجوی گوگل، برگ برنده این مدل است. تصور کنید به ربات میگویید «زبالهها را تفکیک کن». ربات با مدل Gemini Robotics-ER 1.5 ابتدا قوانین بازیافت محله شما را در اینترنت چک میکند، سپس بطری پلاستیکی را در سطل آبی و کاغذ را در سطل سبز میاندازد. این سطحی از هوشمندی است که تا دیروز قفل بود.”
تقسیم وظایف: مغز متفکر و بازوی اجرایی
گوگل این سیستم را به دو بخش هوشمند تقسیم کرده تا کارایی را در سایت اخبار هوش مصنوعی هوش روز بهتر تحلیل کنیم:
-
Gemini Robotics-ER 1.5 (مغز متفکر): این مدل وظیفه درک محیط (Environment Reasoning) را دارد. او میبیند، تحلیل میکند و اگر لازم باشد سرچ میکند. مثلاً برای بستن چمدان سفر به لندن، ابتدا آبوهوای لندن را چک میکند و میفهمد که “باید بارانی بردارد”. سپس این تصمیم را به دستورات فنی تبدیل میکند.
-
Gemini Robotics 1.5 (بازوی اجرایی): این مدل دستورات سطح بالا را به حرکات دقیق موتورها و بازوهای ربات تبدیل کرده و اجرا میکند.
یک مغز برای همه بدنها (Cross-Embodiment)
یکی از جذابترین بخشهای این خبر که در اخبار هوش مصنوعی امروز کمتر به آن پرداخته شده، قابلیت انتقال مهارت است. دیپمایند ادعا میکند مهارتی که روی یک ربات آزمایشگاهی مثل ALOHA2 یاد گرفته شده، بدون نیاز به آموزش مجدد، روی رباتهای صنعتی مثل Franka یا حتی رباتهای پیچیده انساننما مثل Apollo قابل اجراست. این ویژگی که در اصطلاح فنی Cross-Embodiment نامیده میشود، میتواند سرعت رشد صنعت رباتیک را تا ۱۰ برابر افزایش دهد.
دسترسی و آینده
در حال حاضر، مدل Gemini Robotics-ER 1.5 از طریق API جمینای در اختیار توسعهدهندگان منتخب قرار گرفته است، اما مدل اصلی اجرایی (Robotics 1.5) همچنان در انحصار شرکای تجاری و تحقیقاتی گوگل باقی مانده است.
در حالی که گوگل با جمینای به دنبال تسخیر دنیای فیزیکی و رباتهاست، رقابت در دنیای کدهای نرمافزاری نیز به اوج رسیده است. اگر میخواهید بدانید رقیب اصلی گوگل چگونه معادلات را تغییر داده، پیشنهاد میکنیم گزارش اختصاصی هوش روز درباره زلزله آنتروپیک در دنیای کدنویسی: رونمایی از Claude Sonnet 4.5 با قدرت بیرقیب در ساخت ایجنتها را از دست ندهید؛ جایی که ایجنتهای نرمافزاری قدرتی فراتر از تصور پیدا کردهاند.
این خبر نشان میدهد که گوگل تنها به دنبال ساخت چتبات نیست؛ بلکه هدف نهایی، ساخت مغزی است که بتواند جهان فیزیکی ما را درک و در آن دخل و تصرف کند. برای دنبال کردن لحظهبهلحظه این تحولات و دریافت جدیدترین اخبار جدید هوش مصنوعی، با هوش روز همراه باشید.