گزارش کامل رونماییها و بروزرسانی جدید رویداد گوگل I/O در حوزه هوش مصنوعی و فناوری

رویداد Google I/O ۲۰۲۵، بزرگترین کنفرانس سالانه گوگل، امسال نیز با تمرکز گسترده بر هوش مصنوعی و معرفی مجموعهای از محصولات و فناوریهای نوین برگزار شد. این گردهمایی که در محوطه آمفیتئاتر شورلاین برگزار شد، هر ساله در فصل بهار میزبان هزاران توسعهدهنده، مهندس، پژوهشگر و علاقهمند به فناوری است و بستری پویا برای معرفی دستاوردهای تازه در حوزههای مختلف از جمله مدلهای زبانی، زیرساختهای پردازشی، جستوجوی هوشمند، ابزارهای تولید محتوا، رابطهای تعاملی و سرویسهای ارتباطی فراهم میکند.
ساندار پیچای، مدیرعامل گوگل و شرکت مادر آن آلفابت، در ابتدای مراسم با مروری بر دستاوردهای کلیدی شرکت در سال گذشته، اعلام کرد مدل زبانی پیشرفته Gemini ۲.۵ Pro موفق شده در تمامی ردههای پلتفرم مرجع LLMArena جایگاه نخست را به دست آورد. این موفقیت، به گفته پیچای، نشانگر رشد قابل توجه گوگل در رقابت نفسگیر توسعه نسل جدید مدلهای زبان طبیعی و سیستمهای هوش مصنوعی مولد است.
وی همچنین از افزایش کاربران فعال ماهانه سرویس Gemini به بیش از ۴۰۰ میلیون نفر خبر داد؛ آماری چشمگیر که نشاندهنده تثبیت موقعیت این ابزار در رقابت جهانی هوش مصنوعی و گسترش سریع کاربردهای آن در حوزههای مختلف از زندگی روزمره گرفته تا پژوهشهای تخصصی است.
یکی از نکات مهم مطرحشده در این رویداد، اشاره مجدد به نسل هفتم شتابدهندههای اختصاصی گوگل با نام Ironwood بود؛ تراشهای که پیشتر معرفی شده و حالا پیچای جزئیات بیشتری از عملکرد آن ارائه داد. به گفته او، این شتابدهنده نسبت به نسل قبل تا ۱۰ برابر سریعتر عمل میکند و توان پردازشی آن به ۴۲.۵ اگزافلاپس میرسد. Ironwood برای انجام بارهای سنگین یادگیری ماشین، آموزش مدلهای زبانی عظیم و پردازش دادههای تصویری در مقیاس گسترده طراحی شده است.
در حوزه جستوجو، گوگل اعلام کرد که از این هفته تب جدیدی با عنوان AI Mode را برای تمامی کاربران خود در ایالات متحده فعال میکند. این تب به کاربران امکان میدهد جستوجوهای خود را از طریق چتبات Gemini انجام دهند و به پاسخهایی دقیقتر، تحلیلیتر و شخصیسازیشده دست پیدا کنند.ساندار پیچای در جریان رویداد اعلام کرد که قابلیت AI Overviews اکنون ماهانه توسط بیش از ۱.۵ میلیارد نفر در سراسر جهان مورد استفاده قرار میگیرد. او همچنین از گسترش توانمندیهای AI Mode خبر داد؛ حالتی که قرار است طی تابستان امسال با ویژگیهایی مانند «جستوجوی عمیق»، تولید نمودار برای پرسشهای حوزه اقتصاد و ورزش، و حتی امکان خرید از طریق رابط هوش مصنوعی بهروزرسانی شود. این ویژگیها به تدریج در موتور جستوجوی گوگل ادغام خواهند شد.
گوگل از قابلیت جدیدی به نام Search Live رونمایی کرد؛ ابزاری نوآورانه که تجربه جستوجو را از حالت متنی فراتر برده و امکان تعامل چندرسانهای را در اختیار کاربران قرار میدهد. با Search Live، کاربران میتوانند بهجای تایپ کردن واژهها، مستقیماً از عکس، ویدیو یا حتی تصویر زنده برای جستوجو در گوگل استفاده کنند. این قابلیت، فضایی پویا و تعاملی ایجاد میکند که در آن فناوریهای پردازش تصویر و ویدیو با هوش مصنوعی قدرتمند گوگل ترکیب شده و کاربران میتوانند با یک تصویر یا فیلم از اشیا، افراد یا موقعیتها، پرسش خود را مطرح و نتایج مرتبط را آنی دریافت کنند.
علاوه بر Search Live، ویژگیهای بصری پروژه پیشرفته Astra نیز به موتور جستوجوی گوگل افزوده شده است. این ویژگیها به گونهای طراحی شدهاند که پاسخها صرفاً متنمحور نباشند، بلکه شکل دیداری و شهودی به خود بگیرند، بهگونهای که کاربر بتواند با کمک نمودارها، تصاویر سهبعدی، مدلهای گرافیکی و حتی ویدیوهای توضیحی، مفهوم نتایج جستوجو را بهتر درک کند. هدف گوگل از این تغییرات، ارتقاء تعامل کاربر با موتور جستوجو و فراهمکردن تجربهای بصری و فراگیر برای پاسخگویی به نیازهای پیچیده و چندوجهی است.
در همین راستا، در یکی از نمونههای ارائهشده، Astra روی گوشی همراه با یک فرد که در حال تعمیر دوچرخهاش است به شکلی بسیار طبیعی تعامل میکند؛ مکالمهها طبیعی هستند، کاربر از Astra درخواست میکند که بهصورت آنلاین اطلاعات لازم را پیدا کند و حتی در حین انجام کار با وقفهها و مکثهای احتمالی نیز به خوبی کنار میآید و بدون مشکل به گفتوگو ادامه میدهد. این تجربه مستقیم نشان میدهد که Astra علاوه بر ارائه پاسخهای بصری، میتواند در لحظات عملی و واقعی زندگی به عنوان یک راهنمای تعاملی و هوشمند همراه کاربر باشد.
گوگل همچنین از ارتقا مهمی در قابلیت Smart Reply سرویس جیمیل خبر داد؛ قابلیتی که با استفاده از هوش مصنوعی، پاسخهای پیشنهادی را برای ایمیلها تولید میکند. نسخهی جدید اسمارت ریپلای، این بار با بهرهگیری از دادههای موجود در اینباکس کاربر و همچنین اطلاعات ذخیرهشده در گوگل درایو، قادر بود پاسخهایی شخصیتر و با لحنی نزدیکتر به سبک نگارش کاربر بنویسد. از دیگر بهبودهای این نسخه، قابلیت تطبیق با لحن مکالمه بود؛ به طوری که حالا جیمیل بسته به مخاطب، مثلاً در مکاتبه با مدیر یا همکار، پاسخهای رسمیتر یا خودمانیتر پیشنهاد میداد.
گوگل اعلام کرد این قابلیتِ ارتقایافته، از ماه جولای ابتدا بهصورت آزمایشی در Google Labs و به زبان انگلیسی روی نسخههای وب، iOS و اندروید جیمیل در اختیار کاربران قرار خواهد گرفت.
در بخش سختافزار، دستگاه نوآورانهای به نام Beam معرفی شد؛ گجتی که با بهرهگیری از شش دوربین با زاویه دید بالا و فناوری پیشرفته هوش مصنوعی، قادر است تصویر زنده و سهبعدی از کاربر ایجاد کند. همچنین اعلام شد فناوریهای پروژه Starline، که پیشتر در نسخه آزمایشی معرفی شده بود، بهتدریج وارد Google Meet میشوند و امکان برقراری تماسهای ویدیویی با ترجمه زنده مکالمات را فراهم میکنند.
حالت جدیدی به نام Agent Mode نیز در اپلیکیشن Gemini معرفی شد. در این حالت، Gemini میتواند وظایف پیچیدهای مانند جستوجوی خانه بر اساس معیارهای متعدد، فیلترگذاری اطلاعات متنی، تحلیل دادهها، زمانبندی ملاقات و پیگیری کارهای روزمره را بهطور خودکار و هماهنگ انجام دهد. همچنین قابلیت پاسخ صوتی بومی نیز به هر دو مدل Gemini ۲.۵ Pro و Gemini Flash افزوده شده تا تعامل کاربران با این ابزار طبیعیتر شود.
مدل جدید Gemini Flash نسخهای سبکتر، سریعتر و بهینهشدهتر از مدل Pro است که اوایل ژوئن عرضه خواهد شد. این مدل با مصرف منابع پایین و کارایی بالا، بهویژه برای استفاده روی دستگاههای همراه و کاربردهای بلادرنگ طراحی شده است. Gemini Flash امکان اجرای بسیاری از قابلیتهای هوش مصنوعی را بهصورت لحظهای و با کمترین تاخیر فراهم میکند و میتواند تعاملات متنی و حتی چندرسانهای را با سرعتی بیشتر و بهشکل طبیعیتر ارائه دهد. این مدل برای توسعهدهندگان و کاربران عادی که به عملکرد سریع و پایدار در فضایی محدود از لحاظ توان سختافزاری نیاز دارند، گزینهای ایدهآل محسوب میشود. در ادامه نیز قرار است مدل پیشرفتهتر Gemini به زودی در اختیار کاربران و توسعهدهندگان قرار گیرد تا دسترسی به عملکردهای عمیقتر و گستردهتر ممکن شود.
در بخش ابزارها، مجموعهای از فناوریها و اپلیکیشنهای خلاقانه مبتنی بر Gemini معرفی شد که هر یک کارکرد منحصربهفردی را به نمایش گذاشتند. به عنوان نمونه، اپلیکیشن انیمیشنسازی ساخت یک تیم کرهای با دریافت تنها چند تصویر ساده، در مدت زمان ۳۷ ثانیه موفق شد یک انیمیشن کامل با کیفیت حرفهای تولید کند و قدرت هوش مصنوعی در تبدیل ورودیهای محدود به خروجی حرفهای را نشان داد. همچنین مدل هوش مصنوعی Lyria معرفی شد که تولید موسیقی متن فیلم را با تنظیمات دلخواه امکانپذیر میکند و به کاربران اجازه میدهد با جزئیات شخصیسازیشده، آثار موسیقایی اختصاصی خلق کنند.
نسخه جدید Imagen با نام Imagen ۴ نیز به نمایش گذاشته شد؛ سیستمی برای تولید تصویر با هوش مصنوعی که قادر است عکسهایی با جزئیات زیاد، نورپردازی طبیعی و بافتهای واقعی بسازد. این قابلیت، امکان خلق آثار بصری بسیار نزدیک به واقعیت را فراهم میسازد و دامنه جدیدی در گرافیک، طراحی و تولید محتوا به وجود میآورد. مدل Imagen ۴ نسبت به نسخه قبلی یعنی Imagen ۳، از نظر دقت و کیفیت تصویر بهطور محسوسی ارتقا یافته و میتواند به شکلی فوقالعاده ریزبین، جزئیاتی مثل بافت پارچه، قطرههای آب و حتی موی حیوانات را رندر کند. این مدل نهتنها توانایی تولید تصاویر فوتورئالیستی را دارد، بلکه ساخت آثار هنری انتزاعی را نیز در نسبتهای مختلف تصویر و با وضوح تا ۲K ممکن میکند.
از دیگر پیشرفتهای مهم Imagen ۴، بهبود قابل توجه در تولید متن و تایپوگرافی است؛ حالا کاربران میتوانند برای ساخت اسلاید، کارت دعوت یا هر پروژهای که به ترکیب متن و تصویر نیاز دارد، روی این مدل حساب ویژهای باز کنند. به گفتهی گوگل، این نسخه نهفقط از نظر کیفیت تصویری یک جهش محسوب میشود، بلکه در سرعت هم پیشرفت چشمگیری پیدا کرده است و نسخهای از Imagen ۴ بهزودی عرضه میشود که تا ۱۰ برابر سریعتر از Imagen ۳ عمل میکند. همچنین از امروز Imagen ۴ در اپلیکیشن Gemini، پلتفرمهای Whisk و Vertex AI و همینطور در ابزارهایی، چون Google Slides ،Google Vids و Google Docs برای کاربران در دسترس قرار گرفته است. این مجموعه قابلیتها مسیر جدیدی برای تولید سریع و حرفهای محتوا، خلق تجارب دیجیتالی نوآورانه و توسعه ابزارهای خلاقانه پیش روی کاربران و توسعهدهندگان قرار میدهد.
گوگل همچنین در این مراسم از نسخهی جدید مدل تولید ویدئوی خود با عنوان Veo ۳ رونمایی کرد؛ مدلی که توانست تحولی چشمگیر در تولید ویدئوهای هوشمند ایجاد کند. Veo ۳ علاوه بر تولید ویدیو، این قابلیت را داشت که به صورت همزمان صداهایی مانند افکت صوتی، صدای محیط و حتی دیالوگ را بسازد و به شکل هماهنگ با تصویر روی ویدئو بگذارد. این ویژگی باعث شد Veo ۳ نسبت به مدلهای قبلی، یک قدم جلوتر باشد و تجربه تولید محتوای صوتی و تصویری یکپارچه و پویاتری ارائه دهد.
دمیس حسابیس، مدیرعامل دیپمایند، در معرفی این مدل اعلام کرد که Veo ۳ ما را از «دوران ویدیوی بیصدا» خارج کرده است. کاربرها میتوانستند تنها با یک پرامپت ساده، صحنه و شخصیتها را تعریف کنند و حتی از مدل بخواهند که دیالوگها را با سبک یا احساس خاصی بخواند. گوگل تأکید کرد که یکی از تفاوتهای اصلی Veo ۳ در مقایسه با سایر مدلها مانند Runway، Pika یا OpenAI، قابلیت تولید و همگامسازی خودکار صدا بر اساس پیکسلهای خام ویدیو است؛ قابلیتی که میتواند مزیت رقابتی مهمی برای گوگل در بازار پرترافیک ابزارهای تولید ویدیو محسوب شود. در حالی که ابزارهای تولید صدای مبتنی بر هوش مصنوعی پیشتر نیز معرفی شده بودند، توانایی Veo ۳ در درک عمیقتر تصویر آن را یک گام جلوتر قرار داد.
طبق گفته گوگل، توسعه این مدل بر پایه پژوهشهای پیشین دیپمایند در زمینه «ویدیو به صدا» انجام شده بود و احتمال زیادی داده شد که یوتیوب نیز از منابع اصلی آموزش Veo ۳ بوده باشد.
علاوهبر این، گوگل همزمان قابلیتهای تازهای برای نسخه قبلی، یعنی Veo ۲، فعال کرد. بر این اساس، کاربران میتوانستند عکسهایی از شخصیتها، صحنهها یا سبک بصری دلخواه ارائه دهند تا خروجی ویدیوها یکدستتر شود. همچنین Veo ۲ درک بهتری از حرکات دوربین مانند چرخش و زوم پیدا کرده و امکان حذف یا افزودن اشیا، یا تغییر قالب تصویر از پرتره به منظره را هم فراهم نموده بود. قرار شد این امکانات به زودی از طریق پلتفرم Vertex AI گوگل در دسترس توسعهدهندگان قرار بگیرد.
مدل جدید Veo ۳ فعلاً فقط برای مشترکان پلن AI Ultra با هزینه ۲۴۹.۹۹ دلار در ماه و صرفاً از طریق چتبات Gemini قابل استفاده بوده است. این رویکرد، استراتژی گوگل در عرضه تدریجی و مدیریتشده فناوریهای نسل جدید خود را نشان میدهد.
گوگل علاوهبر بهروزرسانی مدلهای هوش مصنوعی خود، از اپلیکیشن نوآورانه فیلمسازی مبتنی بر هوش مصنوعی به نام «Flow» رونمایی کرده که نسل جدیدی از تولید محتوای ویدیویی را رقم میزند. این ابزار با بهرهگیری از مدلهای پیشرفتهای مانند Veo (ویژه تولید ویدیو)، Imagen (تولید تصویر باکیفیت) و Gemini (مدل جامع مولد متن و تصویر)، این توانایی را دارد که تنها با دریافت یک متن ساده یا یک تصویر، کلیپهایی هشتثانیهای با کیفیت و جزئیات فوقالعاده بالا تولید کند.
اپلیکیشن Flow فراتر از ساخت کلیپهای کوتاه، امکاناتی برای پیوستگی و ویرایش صحنهها در اختیار کاربران قرار میدهد؛ به این معنا که کاربر میتواند چندین کلیپ متنوع را به صورت تعاملی به هم متصل کند و به کمک ابزارهای هوشمند تنظیم صحنه، چینش، زمانبندی و تغییر حالت بصری، روایتی پیوسته و منسجم خلق کند. هوش مصنوعی در این فرآیند نهتنها حرکات، نورپردازی و جلوههای بصری را به شکل واقعگرایانه و حرفهای مدیریت میکند، بلکه حتی پیشنهادهای خلاقانه برای ادامه داستان یا زیباسازی گرافیکی هر بخش ارائه میدهد.
همچنین، با در دسترس بودن سایر ابزارهای گوگل مانند Lyria برای تولید موسیقی متن اختصاصی و قابلیت یکپارچهسازی با مدل Imagen ۴ جهت خلق تصاویر فوتورئالیستی یا انتزاعی، کاربران میتوانند پروژههای ویدیویی کاملاً شخصیسازیشده و چندرسانهای با سادهترین ورودیها، اما بالاترین سطح کیفی بسازند. Flow هم برای تولیدکنندگان حرفهای محتوا و هم برای علاقهمندان تازهکار، دریچهای جدید به سوی خلق داستانهای بصری و تجربهگری هوشمندانه در دنیای ویدیو باز میکند و سرعت و خلاقیت در تولید محتوای دیجیتال را به شکلی بیسابقه افزایش میدهد.
در حوزه جستوجوی تصویری و تجارت الکترونیک، گوگل مدل هوشمند و پیشرفتهای را معرفی کرده که با تکیه بر فناوری هوش مصنوعی و مدلهای پیشرفتهای مانند Gemini، قادر است با دقت بالایی ظاهر لباس، جنس و بافت پارچه، رنگبندی و حتی نحوه افتادگی و قرارگیری لباس روی بدن را شناسایی و تحلیل کند. این قابلیت، تجربه خرید آنلاین پوشاک را متحول میکند؛ به صورتی که کاربران میتوانند قبل از خرید، با استفاده از پیشنمایشهای سهبعدی و تعاملی، ببینند لباس مورد نظرشان روی بدن خودشان یا مدلهای سهبعدی چطور خواهد بود. فناوری جدید گوگل این امکان را میدهد که کاربر حتی پارامترهایی، چون سایز، ترکیب با سایر لباسها یا ستهای پیشنهادی را نیز ببیند و بر همان اساس تصمیمگیری کند.
علاوه بر به تصویر کشیدن واقعگرایانه پارچه و جزئیاتی مانند بافت، چین و چروک، انعکاس نور و حتی قطرات آب، این مدلهای هوشمند میتوانند پیشنهادهایی برای استایلهای مختلف ارائه دهند و اطلاعات دقیقی از قبیل قیمت، موجودی و فروشگاههای نزدیک را نیز نمایش دهند. با ترکیب این فناوری با سیستم جستوجوی زنده (Search Live) گوگل، کاربران میتوانند تنها با گرفتن دوربین گوشی به سمت یک لباس یا بارگذاری تصویری از آن، اطلاعات همهجانبهای از برند، جنس، و مشابههای آن در بازار دریافت کنند. این نوآوریها موجب میشوند انتخاب پوشاک از حالت سنتی و آزمون و خطا خارج شده و فرآیندی کاملاً هوشمند، تعاملی و مطمئن برای خریداران شکل بگیرد؛ ضمن اینکه برای فروشگاههای آنلاین کاهش چشمگیر بازگشت کالا و افزایش رضایت مشتری را به همراه خواهد داشت. این فناوریهای یکپارچه، آینده خرید آنلاین پوشاک را به مراتب واقعیتر، آسانتر و لذتبخشتر میکنند.
گوگل اعلام کرد که مدلهای Gemini به مرورگر Chrome نیز اضافه خواهد شد تا هنگام وبگردی، محتوای مشاهدهشده را تحلیل کند، اطلاعات مرتبط را پیشنهاد دهد و نیازهای کاربر را در لحظه پاسخ دهد. این ویژگی میتواند تجربه مرور وب را شخصیسازیشدهتر و کارآمدتر کند.
در نهایت، شهرام ایزدی، مدیر پروژه Android XR در گوگل، در جریان مراسم جزئیاتی از پیشرفتهای تازه پیرامون سیستمعاملهای واقعیت افزوده و ترکیبی گوگل ارائه داد. هدف این پروژه، توسعه بستری پیشرفته و منعطف برای یکپارچهسازی تجربه واقعیت افزوده با سرویسها و اپلیکیشنهای گوگل عنوان شد تا کاربران بتوانند به صورت ایمن و روان، از قابلیتهای XR در امور روزمره و حرفهای استفاده کنند.
در همین مراسم، گوگل از نسل جدید عینک واقعیت افزوده خود رونمایی کرد؛ محصولی با طراحی بسیار سبک و مناسب استفاده روزانه که به دوربین هوشمند، میکروفون، اسپیکر داخلی و یک نمایشگر اختیاری در داخل لنز مجهز شده بود. این عینک با تاکید بر راحتی و زیبایی طراحی شده و امکان دریافت اطلاعات لحظهای و تعامل چندحسی را برای کاربر فراهم میکرد.
همچنین دموی زندهای از قابلیت ترجمهی مبتنی بر هوش مصنوعی عینک به نمایش گذاشته شد. در این دمو، ترجمه همزمان از زبان هندی به انگلیسی و پاسخ به فارسی انجام، و سپس دوباره به انگلیسی ترجمه شد. هرچند در طول اجرا مشکلات فنی و وقفههایی به وجود آمد، اما به طور کلی توانست ظرفیت عینک واقعیت افزوده برای ارتباطات چندزبانه و استفاده از هوش مصنوعی در مکالمات روزمره را نشان دهد. اجرای دمو با جمله «گفتیم دموی ریسکیه» از سوی مجریان و تشویق حضار به پایان رسید. این تجربه، نشان داد که ادغام واقعیت افزوده با هوش مصنوعی چگونه میتواند مسیر ارتباطات و تعاملات آینده را تغییر دهد.
انتهای پیام/