تینا مزدکی_بسیاری از ما احتمالاً صدای هوش مصنوعی (AI) را از طریق دستیاران شخصی مانند سیری (Siri) یا الکسا (Alexa) شنیدهایم و لحن یکنواخت و اجرای مکانیکی آنها این تصور را ایجاد میکند که بهراحتی میتوانیم صدای تولیدشده توسط هوش مصنوعی را از یک صدای واقعی تشخیص دهیم. اما دانشمندان اکنون میگویند که شنونده معمولی دیگر نمیتواند تفاوت بین انسان واقعی و صداهای دیپفیک را تشخیص دهد.
اکنون با پژوهشی محققان نشان دادند که وقتی مردم به صدای انسان واقعی در کنار نسخههای تولید شده توسط هوش مصنوعی از همان صداها گوش میدهند، نمیتوانند با دقت تشخیص دهند که کدام صدا واقعی و کدام ساختگی است.
نادین لاوان، نویسنده اصلی این پژوهش و مدرس ارشد روانشناسی در دانشگاه کوئین مری لندن، گفت: «صداهای تولیدشده توسط هوش مصنوعی اکنون همه جا هستند. همه ما با الکسا یا سیری صحبت کردهایم یا پاسخ تماسهایمان را سیستمهای خدمات مشتری خودکار دادهاند. اینها کاملاً شبیه صدای انسان واقعی نیستند، اما فقط مسئله زمان بود تا فناوری هوش مصنوعی شروع به تولید گفتار طبیعی و انسانمانند کند.»
این پژوهش نشان داد، در حالی که صداهای کلی و تولیدشده از صفر به عنوان واقعگرایانه در نظر گرفته نشدند، شبیهسازیهای صوتی (Voice Clones) که بر اساس صدای افراد واقعی آموزش داده شده بودند (صدای دیپفیک)، دقیقاً به اندازه نمونههای واقعی خود قابل باور بودند. دانشمندان به شرکتکنندگان در پژوهش، نمونههایی از ۸۰ صدای مختلف شامل۴۰ صدای تولیدشده توسط هوش مصنوعی و ۴۰ صدای انسان واقعی دادند و از آنها خواستند که مشخص کنند کدام را واقعی و کدام را تولیدشده توسط هوش مصنوعی میدانند. بهطور میانگین، تنها ۴۱٪ از صداهای هوش مصنوعی تولیدشده از صفر، بهاشتباه بهعنوان صدای انسان طبقهبندی شدند که نشان میدهد هنوز در بیشتر موارد، امکان تشخیص آنها از افراد واقعی وجود دارد.
با این حال، ۵۸٪ از صداهای هوش مصنوعی که از روی صدای انسان شبیهسازی شده بودند، بهاشتباه بهعنوان صدای انسان تشخیص داده شدهاند و ۶۲٪ از صداهای انسان واقعی نیز بهدرستی بهعنوان صدای انسان طبقهبندی شدند؛ همین موضوع محققان را به این نتیجه رساند که در ظرفیت ما برای تشخیص صدای افراد واقعی از شبیهسازیهای دیپفیک آنها، تفاوت آماری معناداری وجود ندارد. لاوان گفت که این نتایج بهطور بالقوه پیامدهای عمیقی برای اخلاق، کپیرایت و امنیت دارند. اگر مجرمان از هوش مصنوعی برای شبیهسازی صدای شما استفاده کنند، دور زدن پروتکلهای احراز هویت صوتی در بانک یا فریب دادن عزیزان شما برای انتقال پول، بسیار آسانتر میشود.
ما قبلاً شاهد چندین مورد از این اتفاقات بودهایم. برای مثال، در ۹ جولای، شارون برایتول با فریب، ۱۵,۰۰۰ دلار از دست داد. برایتول صدایی را شنید که فکر میکرد صدای دخترش است که پشت تلفن گریه میکند و به او میگوید تصادف کرده و برای ماندن در بیرون زندان نیاز به پول برای نمایندگی حقوقی دارد. برایتول در آن زمان درباره آن صدای ساختگی واقعگرایانه هوش مصنوعی گفت: «هیچکس نمیتوانست مرا متقاعد کند که آن صدای دخترم نبوده است.»
دیپفیکهای هوش مصنوعی میتوانند برای جعل بیانیهها و مصاحبهها از سیاستمداران یا افراد مشهور استفاده شوند. صدای ساختگی ممکن است برای بیاعتبار کردن افراد یا ایجاد ناآرامیها، تفرقه انداختن و درگیریهای اجتماعی استفاده شود. برای مثال، کلاهبرداران اخیراً یک شبیهسازی هوش مصنوعی از صدای استیون مایلز، نخستوزیر کوئینزلند، ساختند و از شهرت او برای ترغیب مردم به سرمایهگذاری در کلاهبرداری بیتکوین استفاده کردند.
محققان تأکید کردند که شبیهسازیهای صوتی که در این پژوهش استفاده کردند، آنچنان پیچیده هم نبودند. آنها این صداها را با نرمافزارهای تجاری موجود ساختند و تنها با چهار دقیقه ضبط گفتار انسان، آنها را آموزش دادند. بنابراین این فرآیند بدون هیچ هزینهای، به کمترین تخصص و تنها چند دقیقه ضبط صدا نیاز داشت و صرفاً نشان میدهد که فناوری صدای هوش مصنوعی تا چه حد در دسترس و پیشرفته شده است.
در حالی که دیپفیکها فرصتهای متعددی را برای افراد سودجو فراهم میکنند، اما ممکن است فرصتهای مثبتی نیز با قدرت تولید صدای هوش مصنوعی در مقیاس وسیع به وجود آید. بهبود دسترسی، آموزش و ارتباطات نمونههایی از کاربردهای صدای مصنوعی سفارشی و باکیفیت هستند که میتوانند تجربه کاربری را بهتر کنند.
منبع: livescience
۵۸۳۲۳
نظر شما