دیپمایند از مدل جدید خود رونمایی کرد

به گزارش خبرگزاری آنا؛ گوگل دیپمایند با معرفی Genie ۳ تغییرات جدیدی در توسعه مدلهای «جهانساز» ایجاد کرد؛ مدل هوش مصنوعیای که با دریافت یک دستور متنی ساده میتواند محیطهای زنده سهبعدی و قابل تعامل را خلق کند. این مدل نسخه ارتقاءیافتهای از نسل قبلی Genie ۲ است و اکنون محیطهایی با وضوح ۷۲۰p، نرخ فریم ۲۴ تصویر در ثانیه و قابلیت تعامل بلافاصله و پیوسته تا چند دقیقه را در اختیار کاربر یا عاملهای هوشمند قرار میدهد.
یکی از ویژگیهای مهم Genie ۳، حفظ پیوستگی و جزئیات محیطها در بازهای طولانیتر است؛ بنابراین اگر کاربر یا عامل هوش مصنوعی از یک نقطه دور شود و پس از مدتی بازگردد، ویژگیهای محیطی همانند پیش باقی میماند. این خاصیت که حاصل پیشرفت در حافظه بصری مدل است، پروژههای آموزشی، تحقیقاتی و شبیهسازی را دقیقتر و واقعیتر میکند.
مدلهای جهانساز مانند Genie ۳ به هوش مصنوعی امکان میدهند محیطهایی بینهایت متنوع و غنی برای اهداف مختلف بسازند. این شامل آموزش رباتها در شبیهساز، ساخت بازیهای ویدئویی جدید، تمرین برای تصمیمگیری در شرایط متغیر و حتی طراحی آزمایشهای علمی پیچیده میشود. گوگل تأکید میکند که این فناوری گامی کلیدی برای دستیابی به هوش عمومی مصنوعی (AGI) نیز به حساب میآید، چرا که میتواند به آموزش عوامل هوشمند در دنیای مجازی کاملاً تعاملی و پویا کمک کند.
Genie ۳ مرزهای شبیهسازی را فراتر برده و اکنون علاوه بر کنترل حرکات و کاوش در محیط، میتوان با «پرامپت جهانمحور» نیز رخدادهایی مانند تغییر شرایط آبوهوایی، اضافهکردن اشیا یا شخصیتهای تازه و حتی مدلسازی پدیدههای طبیعی و تخیلی را در آن رقم زد. نمونههایی که دیپمایند ارائه کرده، نشان از توانایی Genie ۳ در مدلسازی دقیق ماجراهایی از سفر روباتها بر بستر آتشفشانها، تغییر ناگهانی آبوهوا، اکوسیستمهای پویای طبیعی، صحنههای تاریخی و حتی جهانهای کاملا خیالی دارد.
این مدل برای حفظ یکپارچگی محیط و حرکتهای کاربر یا عامل، باید در کسری از ثانیه سوابق تمام فریمهای قبلی را پردازش و تطبیق دهد؛ کاری که بهویژه در راستای تعاملی بودن در لحظه، یک چالش فنی برجسته است. با وجود اینکه فناوریهای مشابه مانند NeRFs و Gaussian Splatting قابلیت ساخت محیطهای منسجم سهبعدی را دارند، Genie ۳ بر اساس رشتههای متوالی از اقدامات کاربر یا عامل، دنیاهای بسیار پویاتر و متغیرتری را به وجود میآورد.
ظرفیت Genie ۳ فقط به مدلسازی علمی و واقعگرایانه محدود نیست؛ قابلیت ساخت مناظر فانتزی، شخصیتهای کارتونی، تغییر شکل زمین یا افکتهای خیالی نیز در آن فراهم شده و تجربههای بصری متفاوتی را پدید میآورد. مثلاً امکان تماشای ماجراجویی یک موجود پشمالوی خیالی در دنیایی رنگینکمانی، هدایت روبات روی زمینهای ناهموار آتشفشانی، یا حتی سفر مجازی به شهرهای تاریخی مانند آتن و کنوسوس در زمان اوج شکوهشان وجود دارد.
در زمینه تحقیق و آموزش عاملهای هوشمند، Genie ۳ دیدگاههای نوینی ایجاد کرده و حالا پژوهشگران میتوانند آزمونهایی پیچیدهتر و متنوعتر را اجرا کنند؛ چرا که مدل علاوه بر حفظ جزئیات محیط تا یک دقیقه، میتواند چرخههای بلندمدتتر تعامل و یادگیری را شبیهسازی کند.
با این همه، Genie ۳ همچنان محدودیتهایی دارد؛ مانند محدود بودن دامنه حرکات عاملها، چالش شبیهسازی دقیق تعاملات بین چند عامل مستقل، دشواری تولید متون خوانا در محیطها و عدم امکان تعامل مداوم چندساعته به جای چند دقیقه. گوگل دیپمایند اعلام کرده این مدل فعلاً در قالب یک پیشنمایش پژوهشی و فقط برای گروه کوچکی از پژوهشگران و تولیدکنندگان محتوا منتشر شده تا ریسکها و راهکارهای ایمنسازی آن بیشتر بررسی شود. شرکت میگوید هدفش توسعه این فناوری بهنحوی است که ضمن تقویت خلاقیت انسانی و آموزش عاملهای هوشمند، ایمنی و مسئولیتپذیری نیز در آن تضمین شود.
گوگل قصد دارد پس از این مرحله، Genie ۳ را در اختیار افراد بیشتری قرار دهد تا کاربردهای آن در حوزههای آموزش، سرگرمی، پژوهش و حتی توسعه نسل جدید عاملهای هوش مصنوعی بیشتر شناخته شود. به اعتقاد دیپمایند، مدلهای جهانساز مانند Genie ۳ نقش مهمی در شکلدهی آینده ابزارهای آموزش، آموزش رباتها، ساخت بازیهای هوش مصنوعی و حتی پژوهشهای علمی خواهند داشت.
انتهای پیام/