دیپ‌مایند از مدل جدید خود رونمایی کرد

گوگل دیپ‌مایند با رونمایی از Genie ۳، امکان ساخت محیط‌های سه‌بعدی زنده و تعاملی مبتنی بر هوش مصنوعی را در قالب یک نسخه آزمایشی محدود فراهم کرده و قابلیت‌هایی مانند حفظ جزئیات محیط و تعریف رویداد‌های جهان‌محور را به مدل «جهان‌ساز» افزوده است.

نویسنده : اشکان حاسبی

کد خبر : 989600

اشتراک گذاری

به گزارش خبرگزاری آنا؛ گوگل دیپ‌مایند با معرفی Genie ۳ تغییرات جدیدی در توسعه مدل‌های «جهان‌ساز» ایجاد کرد؛ مدل هوش مصنوعی‌ای که با دریافت یک دستور متنی ساده می‌تواند محیط‌های زنده سه‌بعدی و قابل تعامل را خلق کند. این مدل نسخه ارتقاءیافته‌ای از نسل قبلی Genie ۲ است و اکنون محیط‌هایی با وضوح ۷۲۰p، نرخ فریم ۲۴ تصویر در ثانیه و قابلیت تعامل بلافاصله و پیوسته تا چند دقیقه را در اختیار کاربر یا عامل‌های هوشمند قرار می‌دهد.

یکی از ویژگی‌های مهم Genie ۳، حفظ پیوستگی و جزئیات محیط‌ها در بازه‌ای طولانی‌تر است؛ بنابراین اگر کاربر یا عامل هوش مصنوعی از یک نقطه دور شود و پس از مدتی بازگردد، ویژگی‌های محیطی همانند پیش باقی می‌ماند. این خاصیت که حاصل پیشرفت در حافظه بصری مدل است، پروژه‌های آموزشی، تحقیقاتی و شبیه‌سازی را دقیق‌تر و واقعی‌تر می‌کند.

مدل‌های جهان‌ساز مانند Genie ۳ به هوش مصنوعی امکان می‌دهند محیط‌هایی بی‌نهایت متنوع و غنی برای اهداف مختلف بسازند. این شامل آموزش ربات‌ها در شبیه‌ساز، ساخت بازی‌های ویدئویی جدید، تمرین برای تصمیم‌گیری در شرایط متغیر و حتی طراحی آزمایش‌های علمی پیچیده می‌شود. گوگل تأکید می‌کند که این فناوری گامی کلیدی برای دستیابی به هوش عمومی مصنوعی (AGI) نیز به حساب می‌آید، چرا که می‌تواند به آموزش عوامل هوشمند در دنیای مجازی کاملاً تعاملی و پویا کمک کند.

Genie ۳ مرز‌های شبیه‌سازی را فراتر برده و اکنون علاوه بر کنترل حرکات و کاوش در محیط، می‌توان با «پرامپت جهان‌محور» نیز رخداد‌هایی مانند تغییر شرایط آب‌وهوایی، اضافه‌کردن اشیا یا شخصیت‌های تازه و حتی مدل‌سازی پدیده‌های طبیعی و تخیلی را در آن رقم زد. نمونه‌هایی که دیپ‌مایند ارائه کرده، نشان از توانایی Genie ۳ در مدل‌سازی دقیق ماجرا‌هایی از سفر روبات‌ها بر بستر آتشفشان‌ها، تغییر ناگهانی آب‌وهوا، اکوسیستم‌های پویای طبیعی، صحنه‌های تاریخی و حتی جهان‌های کاملا خیالی دارد.

این مدل برای حفظ یکپارچگی محیط و حرکت‌های کاربر یا عامل، باید در کسری از ثانیه سوابق تمام فریم‌های قبلی را پردازش و تطبیق دهد؛ کاری که به‌ویژه در راستای تعاملی بودن در لحظه، یک چالش فنی برجسته است. با وجود اینکه فناوری‌های مشابه مانند NeRFs و Gaussian Splatting قابلیت ساخت محیط‌های منسجم سه‌بعدی را دارند، Genie ۳ بر اساس رشته‌های متوالی از اقدامات کاربر یا عامل، دنیا‌های بسیار پویاتر و متغیرتری را به وجود می‌آورد.

ظرفیت Genie ۳ فقط به مدل‌سازی علمی و واقع‌گرایانه محدود نیست؛ قابلیت ساخت مناظر فانتزی، شخصیت‌های کارتونی، تغییر شکل زمین یا افکت‌های خیالی نیز در آن فراهم شده و تجربه‌های بصری متفاوتی را پدید می‌آورد. مثلاً امکان تماشای ماجراجویی یک موجود پشمالوی خیالی در دنیایی رنگین‌کمانی، هدایت روبات روی زمین‌های ناهموار آتشفشانی، یا حتی سفر مجازی به شهر‌های تاریخی مانند آتن و کنوسوس در زمان اوج شکوهشان وجود دارد.

در زمینه تحقیق و آموزش عامل‌های هوشمند، Genie ۳ دیدگاه‌های نوینی ایجاد کرده و حالا پژوهشگران می‌توانند آزمون‌هایی پیچیده‌تر و متنوع‌تر را اجرا کنند؛ چرا که مدل علاوه بر حفظ جزئیات محیط تا یک دقیقه، می‌تواند چرخه‌های بلندمدت‌تر تعامل و یادگیری را شبیه‌سازی کند.

با این همه، Genie ۳ همچنان محدودیت‌هایی دارد؛ مانند محدود بودن دامنه حرکات عامل‌ها، چالش شبیه‌سازی دقیق تعاملات بین چند عامل مستقل، دشواری تولید متون خوانا در محیط‌ها و عدم امکان تعامل مداوم چندساعته به جای چند دقیقه. گوگل دیپ‌مایند اعلام کرده این مدل فعلاً در قالب یک پیش‌نمایش پژوهشی و فقط برای گروه کوچکی از پژوهشگران و تولیدکنندگان محتوا منتشر شده تا ریسک‌ها و راهکار‌های ایمن‌سازی آن بیشتر بررسی شود. شرکت می‌گوید هدفش توسعه این فناوری به‌نحوی است که ضمن تقویت خلاقیت انسانی و آموزش عامل‌های هوشمند، ایمنی و مسئولیت‌پذیری نیز در آن تضمین شود.

گوگل قصد دارد پس از این مرحله، Genie ۳ را در اختیار افراد بیشتری قرار دهد تا کاربرد‌های آن در حوزه‌های آموزش، سرگرمی، پژوهش و حتی توسعه نسل جدید عامل‌های هوش مصنوعی بیشتر شناخته شود. به اعتقاد دیپ‌مایند، مدل‌های جهان‌ساز مانند Genie ۳ نقش مهمی در شکل‌دهی آینده ابزار‌های آموزش، آموزش ربات‌ها، ساخت بازی‌های هوش مصنوعی و حتی پژوهش‌های علمی خواهند داشت.