هوش مصنوعی ویدئو‌های جعلی را تشخیص می‌دهد

گوگل از مدل هوش مصنوعی جدیدی به نام «یوْنایت» (UNITE) رونمایی کرده که می‌تواند حتی پیشرفته‌ترین ویدیو‌های جعلی ساخته‌شده با هوش مصنوعی را با دقت بالا شناسایی کند.

کد خبر : 988594

اشتراک گذاری

«دیپ‌فیک‌ها» دیگر فقط درباره تعویض چهره‌ها نیستند. اکنون شامل صحنه‌ها، صداها و محیط‌های کاملاً جعلی نیز می‌شوند. این مدل جدید قادر است بی‌نظمی‌های فضایی و زمانی بسیار جزئی را تشخیص دهد. نشانه‌هایی که اغلب از دید سیستم‌های قبلی پنهان می‌ماند. این سامانه بر پایه‌ی چارچوبی بنیادی در حوزه هوش مصنوعی به‌نام «سیگ‌لیپ» (SigLIP) طراحی شده است؛ مدلی که ویژگی‌ها را بدون وابستگی به فرد یا شیء خاص استخراج می‌کند.

روش آموزشی نوینی با عنوان «زیان تنوع توجه» (Attention-diversity loss) باعث می‌شود سیستم، به‌جای تمرکز صرف بر چهره‌ها، هم‌زمان نواحی مختلف تصویر را در هر فریم زیر نظر بگیرد.

یک مدل برای شناسایی همه‌چیز

نتیجه این مدل، یک آشکارساز همه‌منظوره است که می‌تواند طیف گسترده‌ای از ویدیو‌های جعلی را شناسایی کند. از جابه‌جایی ساده‌ی چهره‌ها گرفته تا ویدیو‌های کاملاً مصنوعی که بدون استفاده از هیچ محتوای واقعی تولید شده‌اند.

«کوندو» (Kohn-doh)، نویسنده اصلی این پژوهش می‌گوید: این یک مدل واحد است که می‌تواند همه این سناریو‌ها را پوشش دهد. همین ویژگی آن را جهانی و فراگیر می‌کند.

یافته‌های این تیم پژوهشی در «کنفرانس بین‌المللی بینایی رایانه‌ای و شناسایی الگو» (CVPR ۲۰۲۵) که در «نشویل» (Nashville, Tennessee) برگزار شد، ارائه شده است.

مقاله‌ای با عنوان «به‌سوی یک آشکارساز جهانی ویدیو‌های مصنوعی از دستکاری چهره یا پس‌زمینه تا محتوای کاملاً تولیدشده با هوش مصنوعی» معماری و روش آموزش مدل «یک پلتفرم هوش مصنوعی» (UNITE) را تشریح می‌کند. این پروژه به رهبری کوندو انجام شده و نویسندگان همکار شامل پژوهشگرانی از گوگل مانند «هائو شیونگ» (Hao Xiong)، «ویشال موهانتی» (Vishal Mohanty) و «آتولا بالاچاندرا» (Atul Balachandra) هستند.

کنفرانس «بینایی کامپیوتر و تشخیص الگو» (CVPR) که با حمایت مشترک «انجمن رایانه IEEE» و «بنیاد بینایی رایانه‌ای» برگزار می‌شود، یکی از معتبرترین و تأثیرگذارترین محافل علمی جهان در این حوزه به شمار می‌رود.

همکاری با گوگل جایی که کوندو در آن دوره کارآموزی گذرانده امکان دسترسی به پایگاه‌های داده گسترده و منابع پردازشی قدرتمندی را فراهم کرد که برای آموزش این مدل روی مجموعه‌ای متنوع از محتوای مصنوعی ضروری بود. این مجموعه‌ها شامل ویدیو‌هایی بودند که از متن یا تصاویر ثابت ساخته شده‌اند. قالب‌هایی که معمولاً مدل‌های فعلی در تشخیص آنها ناتوان‌اند.

اگرچه «یک پلتفرم هوش مصنوعی» (UNITE) هنوز در حال توسعه است، اما در آینده‌ای نزدیک می‌تواند نقشی حیاتی در مقابله با اطلاعات نادرست ویدیویی ایفا کند. کاربران بالقوه این فناوری شامل پلتفرم‌های اجتماعی، نهاد‌های «راستی‌آزما» (fact-checkers) و اتاق‌های خبر خواهند بود؛ کسانی که وظیفه دارند از انتشار ویدیو‌های دستکاری‌شده جلوگیری کنند.

به گزارش سایت «علم و فناوری» (scitechdaily)، کوندو در پایان می‌گوید: مردم حق دارند بدانند چیزی که می‌بینند واقعی است یا نه؛ و هرچه هوش‌مصنوعی در جعل واقعیت قوی‌تر می‌شود، ما نیز باید در افشای حقیقت توانمندتر شویم.

انتهای پیام/