مدل جدید هوش مصنوعی مولد تصویر به نام «نانو بنانا» معرفی شد

شرکت گوگل به تازگی جدیدترین عضو خانواده مدل‌های هوش مصنوعی خود را با نام gemini-۲.۵-flash-image-preview معرفی کرد. این مدل که برای تولید سریع و بهینه تصویر طراحی شده، در دسترس توسعه‌دهندگان قرار گرفته است و هدف آن ارائه ابزاری کم‌هزینه برای کاربرد‌هایی است که به پاسخ‌دهی آنی نیاز دارند.

نویسنده : اشکان حاسبی

کد خبر : 994417

اشتراک گذاری

به گزارش خبرگزاری آنا؛ گوگل با معرفی مدل gemini-۲.۵-flash-image-preview، که در میان توسعه‌دهندگان با نام غیررسمی Nano-Banana نیز شناخته می‌شود، مجموعه ابزارهای تخصصی هوش مصنوعی خود را گسترش داد. این مدل به عنوان عضوی از خانواده چندوجهی جمینای، نه برای رقابت در زمینه حداکثر کیفیت، بلکه برای پاسخگویی به نیاز کاربران برای تولید تصویر آنی و مقرون‌به‌صرفه در مقیاس بزرگ در بازار طراحی شده است.

مدل «فلش» به گونه‌ای طراحی شده که برای یکپارچه‌سازی در برنامه‌های کاربردی، چت‌بات‌ها، و سکوهایی که نیازمند تولید سریع محتوای بصری هستند، مناسب باشد.

ویژگی‌های فنی و جایگاه در اکوسیستم گوگل

بر اساس اطلاعات منتشر شده توسط گوگل، مدل gemini-۲.۵-flash از معماری بهینه‌سازی شده‌ای بهره می‌برد که حجم محاسبات مورد نیاز برای ساخت یک تصویر را به شکل قابل توجهی کاهش می‌دهد. این ویژگی آن را از مدل‌های بزرگتر و سنگین‌تر مانند Imagen ۳ که برای تولید تصاویر با بالاترین کیفیت و جزئیات طراحی شده‌اند، متمایز می‌کند.

به گفته مدیران محصول گوگل، استراتژی این شرکت ارائه مجموعه‌ای از مدل‌ها برای نیاز‌های متفاوت است. در حالی که مدل‌هایی مانند Imagen برای پروژه‌هایی که کیفیت خروجی در اولویت اول قرار دارد استفاده می‌شوند، gemini-۲.۵-flash برای کاربرد‌هایی طراحی شده که در آن سرعت و هزینه، فاکتور‌های تعیین‌کننده هستند. این مدل قادر است در چند ثانیه و با هزینه‌ای کمتر به درخواست‌های تولید تصویر پاسخ دهد.

کاربرد‌های عملی و تأثیر بر توسعه‌دهندگان

انتشار این مدل جدید، دسترسی به فناوری تولید تصویر با هوش مصنوعی را برای طیف وسیع‌تری از توسعه‌دهندگان و کسب‌وکار‌های کوچک تسهیل می‌کند. پیش از این، استفاده از مدل‌های پیشرفته تولید تصویر به دلیل نیاز به منابع پردازشی قدرتمند و هزینه‌های بالا، برای بسیاری از پروژه‌ها محدودیت ایجاد می‌کرد.

اکنون توسعه‌دهندگان می‌توانند از طریق API گوگل به این مدل دسترسی داشته باشند و آن را در محصولات خود ادغام کنند. کاربرد‌های بالقوه این مدل بسیار متنوع است؛ از تولید آنی تصاویر برای مقالات و محتوای وب گرفته تا ایجاد آواتار‌ها و تصاویر پروفایل شخصی‌سازی شده برای کاربران در پلتفرم‌های آنلاین. علاوه بر این، می‌توان از آن در دستیار‌های مجازی و چت‌بات‌ها برای ارائه پاسخ‌های بصری و همچنین برای تولید سریع پیش‌طرح‌های بصری در فرآیند‌های طراحی محصول بهره برد.

آینده مدل‌های هوش مصنوعی

معرفی gemini-۲.۵-flash بخشی از رقابت فزاینده میان غول‌های فناوری در حوزه هوش مصنوعی مولد است. شرکت‌هایی مانند اوپن‌ای‌آی با مدل DALL-E و شرکت‌های دیگر نیز مدل‌های مشابهی را برای کاربرد‌های مختلف ارائه کرده‌اند. تمرکز گوگل بر روی ارائه یک مدل سریع و کم‌هزینه می‌تواند مزیت رقابتی مهمی در جذب توسعه‌دهندگانی باشد که به دنبال راه‌حل‌های مقیاس‌پذیر و اقتصادی هستند.

گوگل همچنین اعلام کرده است که در کنار توسعه این مدل‌ها، به کار بر روی پروتکل‌های ایمنی و مسئولیت‌پذیری هوش مصنوعی ادامه می‌دهد. این پروتکل‌ها شامل سازوکار‌هایی برای فیلتر کردن محتوای نامناسب و استفاده از واترمارک‌های دیجیتال برای شناسایی تصاویر تولید شده توسط هوش مصنوعی است. انتظار می‌رود در آینده نزدیک، شاهد عرضه مدل‌های تخصصی‌تری باشیم که هر کدام برای انجام وظایف مشخصی در حوزه تولید محتوای بصری، متنی و صوتی بهینه‌سازی شده‌اند.