اگر فکر می‌کنید که می‌توانید تفاوت بین صدای انسان و دیپ‌فیک را تشخیص دهید، سخت در اشتباه هستید.

تینا مزدکی_بسیاری از ما احتمالاً صدای هوش مصنوعی (AI) را از طریق دستیاران شخصی مانند سیری (Siri) یا الکسا (Alexa) شنیده‌ایم و لحن یکنواخت و اجرای مکانیکی آن‌ها این تصور را ایجاد می‌کند که به‌راحتی می‌توانیم صدای تولیدشده توسط هوش مصنوعی را از یک صدای واقعی تشخیص دهیم. اما دانشمندان اکنون می‌گویند که شنونده معمولی دیگر نمی‌تواند تفاوت بین انسان واقعی و صداهای دیپ‌فیک را تشخیص دهد.

اکنون با پژوهشی محققان نشان دادند که وقتی مردم به صدای انسان واقعی در کنار نسخه‌های تولید شده توسط هوش مصنوعی از همان صداها گوش می‌دهند، نمی‌توانند با دقت تشخیص دهند که کدام صدا واقعی و کدام ساختگی است.

نادین لاوان، نویسنده اصلی این پژوهش و مدرس ارشد روانشناسی در دانشگاه کوئین مری لندن، گفت: «صداهای تولیدشده توسط هوش مصنوعی اکنون همه جا هستند. همه ما با الکسا یا سیری صحبت کرده‌ایم یا پاسخ تماس‌هایمان را سیستم‌های خدمات مشتری خودکار داده‌اند. این‌ها کاملاً شبیه صدای انسان واقعی نیستند، اما فقط مسئله زمان بود تا فناوری هوش مصنوعی شروع به تولید گفتار طبیعی و انسان‌مانند کند.»

این پژوهش نشان داد، در حالی که صداهای کلی و تولیدشده از صفر به عنوان واقع‌گرایانه در نظر گرفته نشدند، شبیه‌سازی‌های صوتی (Voice Clones) که بر اساس صدای افراد واقعی آموزش داده شده بودند (صدای دیپ‌فیک)، دقیقاً به اندازه نمونه‌های واقعی خود قابل باور بودند. دانشمندان به شرکت‌کنندگان در پژوهش، نمونه‌هایی از ۸۰ صدای مختلف شامل۴۰ صدای تولیدشده توسط هوش مصنوعی و ۴۰ صدای انسان واقعی دادند و از آن‌ها خواستند که مشخص کنند کدام را واقعی و کدام را تولیدشده توسط هوش مصنوعی می‌دانند. به‌طور میانگین، تنها ۴۱٪ از صداهای هوش مصنوعی تولیدشده از صفر، به‌اشتباه به‌عنوان صدای انسان طبقه‌بندی شدند که نشان می‌دهد هنوز در بیشتر موارد، امکان تشخیص آن‌ها از افراد واقعی وجود دارد.

با این حال، ۵۸٪ از صداهای هوش مصنوعی که از روی صدای انسان شبیه‌سازی شده بودند، به‌اشتباه به‌عنوان صدای انسان تشخیص داده شده‌اند و ۶۲٪ از صداهای انسان واقعی نیز به‌درستی به‌عنوان صدای انسان طبقه‌بندی شدند؛ همین موضوع محققان را به این نتیجه رساند که در ظرفیت ما برای تشخیص صدای افراد واقعی از شبیه‌سازی‌های دیپ‌فیک آن‌ها، تفاوت آماری معناداری وجود ندارد. لاوان گفت که این نتایج به‌طور بالقوه پیامدهای عمیقی برای اخلاق، کپی‌رایت و امنیت دارند. اگر مجرمان از هوش مصنوعی برای شبیه‌سازی صدای شما استفاده کنند، دور زدن پروتکل‌های احراز هویت صوتی در بانک یا فریب دادن عزیزان شما برای انتقال پول، بسیار آسان‌تر می‌شود.

ما قبلاً شاهد چندین مورد از این اتفاقات بوده‌ایم. برای مثال، در ۹ جولای، شارون برایت‌ول با فریب، ۱۵,۰۰۰ دلار از دست داد. برایت‌ول صدایی را شنید که فکر می‌کرد صدای دخترش است که پشت تلفن گریه می‌کند و به او می‌گوید تصادف کرده و برای ماندن در بیرون زندان نیاز به پول برای نمایندگی حقوقی دارد. برایت‌ول در آن زمان درباره آن صدای ساختگی واقع‌گرایانه هوش مصنوعی گفت: «هیچ‌کس نمی‌توانست مرا متقاعد کند که آن صدای دخترم نبوده است.»

دیپ‌فیک‌های هوش مصنوعی می‌توانند برای جعل بیانیه‌ها و مصاحبه‌ها از سیاستمداران یا افراد مشهور استفاده شوند. صدای ساختگی ممکن است برای بی‌اعتبار کردن افراد یا ایجاد ناآرامی‌ها، تفرقه انداختن و درگیری‌های اجتماعی استفاده شود. برای مثال، کلاهبرداران اخیراً یک شبیه‌سازی هوش مصنوعی از صدای استیون مایلز، نخست‌وزیر کوئینزلند، ساختند و از شهرت او برای ترغیب مردم به سرمایه‌گذاری در کلاهبرداری بیت‌کوین استفاده کردند.

محققان تأکید کردند که شبیه‌سازی‌های صوتی که در این پژوهش استفاده کردند، آنچنان پیچیده هم نبودند. آن‌ها این صداها را با نرم‌افزارهای تجاری موجود ساختند و تنها با چهار دقیقه ضبط گفتار انسان، آن‌ها را آموزش دادند. بنابراین این فرآیند بدون هیچ هزینه‌ای، به کمترین تخصص و تنها چند دقیقه ضبط صدا نیاز داشت و صرفاً نشان می‌دهد که فناوری صدای هوش مصنوعی تا چه حد در دسترس و پیشرفته شده است.

در حالی که دیپ‌فیک‌ها فرصت‌های متعددی را برای افراد سودجو فراهم می‌کنند، اما ممکن است فرصت‌های مثبتی نیز با قدرت تولید صدای هوش مصنوعی در مقیاس وسیع به وجود آید. بهبود دسترسی، آموزش و ارتباطات نمونه‌هایی از کاربردهای صدای مصنوعی سفارشی و باکیفیت هستند که می‌توانند تجربه کاربری را بهتر کنند.

منبع: livescience

۵۸۳۲۳

منبع: خبرآنلاین