گفتگوهای درونی؛ وقتی رباتها با خودشان حرف میزنند

براساس یک ثبت اختراع اخیر، آزمایشگاه هوش مصنوعی دیپمایند وابسته به گوگل روشی ارائه کرده که طی آن عاملهای هوش مصنوعی به هنگام مشاهده تصاویر یا ویدئوهای یک فعالیت، توصیفات آن را به زبان طبیعی درون خود ایجاد میکنند. این شیوه که با عنوان «گفتار درون عاملی برای تسهیل یادگیری وظایف» شرح داده شده، به عاملهای رباتیکی اجازه میدهد اتفاقات مشاهدهشده را به صورت جملات قابل فهم مانند «فرد فنجان را برمیدارد» توصیف کنند و از این طریق اطلاعات بصری و اقدامات مورد نیاز را به هم پیوند دهند.
این سامانه مبتنی بر «گفتوگوی درونی» به رباتها کمک میکند تا با ترکیب ورودی بصری و گفتار درونی، عملکرد مناسب را در برخورد با اشیای مشابه شناسایی کنند. با استفاده از این روش، امکان یادگیری بدون نیاز به آموزش قبلی یا به اصطلاح «یادگیری صفر-نمونه» فراهم میشود و اجرای وظایف با اشیای ناآشنا برای رباتها بدون آموزش خاص مقدور خواهد شد. به گفته دیپمایند، این فناوری همچنین نیاز به ظرفیت محاسباتی و استفاده از حافظه را در فرایند آموزش کاهش میدهد.
به گزارش Interesting Engineering، این اقدام در ادامه پروژههای روبوتیک دیپمایند صورت میگیرد. هفته گذشته نیز این آزمایشگاه از مدل «Gemini Robotics On-Device» رونمایی کرده که به طور مستقل و بدون نیاز به اتصال به سرویسهای ابری میتواند روی رباتها اجرا شود. به گزارش The Daily Upside، افزودن قابلیت گفتوگوی درونی موجب میشود رباتها بتوانند تصمیمات سازگارتر گرفته و به شرایط جدید سریعتر واکنش نشان دهند. این پیشرفت میتواند نقش قابل توجهی در ارتقای عملکرد رباتها در محیطهای واقعی و متغیر داشته باشد.
مدل «Gemini Robotics On-Device» با هدف اجرا در محیطهای نیازمند پردازش سریع و بدون اتصال اینترنت طراحی شده و با توجه به اجرای محلی، قابلیت واکنش سریع و حفظ محرمانگی دادهها ـ به ویژه در حوزههایی نظیر سلامت ـ را فراهم میکند. این نسخه علیرغم کوچکتر بودن، توانسته وظایف متعددی را به صورت پیشفرض اجرا کند و با تنها ۵۰ تا ۱۰۰ نمونه آموزش، برای وظایف جدید قابل سازگاری باشد. دیپمایند آن را «مدل آغازگر» برای پلتفرمهایی با اتصال محدود توصیف کرده است.
این فناوری ابتدا روی ربات ALOHA گوگل آموزش دیده و سپس روی سامانههایی مانند ربات انساننمای Apollo و ربات Franka FR۳ گسترش یافته است. مدل مذکور امکان انجام فعالیتهای پیچیدهتری همچون تا کردن لباس یا زیپگشایی کیسهها را با کنترل همزمان و تاخیر کم به رباتها میدهد. توسعهدهندگان میتوانند با هدایت ربات و تلهعملیات، مدل را برای وظایف تازه تنظیم کنند؛ امکان اجرای مدل در محیطهای شبیهسازی، با موتور Multi-Joint dynamics with Contact نیز وجود دارد.
دیپمایند اعلام کرده است که نسخه مبتنی بر پردازش محلی Gemini Robotics فاقد سیستمهای ایمنی معنایی داخلی است و توسعهدهندگان باید پروتکلهای ایمنی مناسب را به صورت جداگانه پیادهسازی کنند. مطابق سیاست فعلی گوگل، دسترسی به این مدل بهطور محدود و تنها برای گروهی منتخب فراهم شده تا ریسکهای ایمنی در شرایط واقعی ارزیابی شود.
در مجموع فناوری جدید دیپمایند، امکان همزمان اتصال و درک پیشرفتهتر عوامل هوش مصنوعی با محیط اطراف را فراهم کرده و افقهای جدیدی را در نحوه یادگیری و عملکرد رباتها در عرصههای مختلف ایجاد میکند.
انتهای پیام/