تینا مزدکی_هفته گذشته، استودیوی هوش مصنوعی دارن آرونوفسکی به نام «پریموردیال سوپ» (Primordial Soup) با همکاری مجله «تایم»، دو قسمت اول مجموعه «در چنین روزی... ۱۷۷۶» را منتشر کردند. این مجموعه ویدیویی کوتاه که قرار است در طول یک سال پخش شود، وقایع انقلاب آمریکا را در ۲۵۰ سال پیش روایت میکند؛ اما این کار را با استفاده از «مجموعهای از ابزارهای هوش مصنوعی» برای تولید صحنههای فوتورئالیستی شامل آواتارهای شخصیتهای تاریخی نظیر جورج واشینگتن، توماس پین و بنجامین فرانکلین انجام میدهد.
بِن بیتونتی، رئیس استودیو تایم، در معرفی این مجموعه گفت که این پروژه «چشماندازی از کاربرد متفکرانه، خلاقانه و هنرمندانه هوش مصنوعی را ارائه میدهد؛ نه برای جایگزینی تخصص و مهارت، بلکه برای گسترش آنچه ممکن است و اجازه دادن به داستانسرایان برای رفتن به جاهایی که پیش از این به سادگی نمیتوانستند.»
منتقدان قطعاً اشتیاق کمتری نسبت به این تلاش نشان دادند. وبسایت «AV Club» قسمتهای ابتدایی را به دلیل «حرکات تکراری دوربین و شخصیتهای مومیمانند» که «ظاهری زشت از تاریخ آمریکا» ارائه میدهند، مورد انتقاد قرار داد. «CNET» نوشت که این «تفالههای هوش مصنوعی (AI Slop) در حال نابود کردن تاریخ آمریکا است» و ویدیوها را «معجون جهنمی از خروجیهای ماشینمحور و انتخابهای انسانی بد» نامید.

روزنامه «گاردین» با افسوس نوشت که «کارگردانِ روزی ستایششده فیلمهای قوی سیاه و کشتیگیر، خود را در لجنزار هوش مصنوعی غرق کرده است» و این مجموعه را «شرمآور»، «وحشتناک» و «زشتِ محض» توصیف کرد.
اما ظاهراً این نوع واکنشهای اولیه، استودیو «پریموردیال سوپ» را از تلاشهای در حال تکامل خود دلسرد نکرده است. منبعی نزدیک به تیم تولید که به شرط ناشناس ماندن برای صحبت صریح درباره جزئیات ساخت مجموعه با «آرس تکنیکا» گفتگو کرد، گفت که کیفیت قسمتهای جدید با اصلاح ابزارهای هوش مصنوعی تیم در طول سال و یادگیری بهتر نحوه استفاده از آنها، بهبود خواهد یافت.
این منبع گفت: «ما با این پیشفرض کامل وارد کار شدیم که چیزهای زیادی برای یادگیری داریم، این فرآیند تکامل خواهد یافت و ابزارهایی که استفاده میکنیم نیز تغییر میکنند. ما اشتباه خواهیم کرد و درسهای زیادی خواهیم آموخت... در آن بهتر خواهیم شد و فناوری تغییر خواهد کرد. خواهیم دید مخاطبان به چه چیزهایی واکنش نشان میدهند، چه چیزی جواب میدهد و چه چیزی نه. این واقعاً یک آزمایش عظیم است.»
همه چیز هوش مصنوعی نیست
نکته مهم این است که مجموعه «در چنین روزی... ۱۷۷۶» کاملاً توسط هوش مصنوعی ساخته نشده است. برای مثال، فیلمنامه توسط تیمی از نویسندگان تحت نظارت همکاران قدیمی آرونوفسکی، یعنی آری هندل و لوکاس ساسمن نوشته شده است (طبق گزارش هالیوود ریپورتر). این موضوع باعث میشود انتقاداتی مانند نظر گاردین درباره «شعارزدگی به سبک ChatGPT» در قسمتهای اول، هم تا حدی نابجا و هم به شکل خندهداری بیرحمانه به نظر برسد.
منبع تولید ما میگوید این پروژه همیشه به عنوان یک تلاش با نویسندگی انسانی تصور شده بود و تیم پشت آن مدتها در حال برنامهریزی و تحقیق درباره نحوه روایت این نوع داستان بوده است. او گفت: «فکر نمیکنم آنها حتی به آن نوع کمک یا نویسندگی [مبتنی بر هوش مصنوعی] نیاز داشتند یا آن را میخواستند. همه ما با نویسندگی هوش مصنوعی و چتباتها آزمایش کردهایم و میدانید چه کیفیتی از آنها حاصل میشود.»
تهیهکنندگان همچنین تأکید دارند که تمام دیالوگهای مجموعه مستقیماً توسط صداپیشگان عضو اتحادیه بازیگران (SAG) ضبط شده است، نه توسط شبیهسازهای هوش مصنوعی. اگرچه قوانین اتحادیهای که اخیراً مذاکره شده ممکن است در این امر دخیل باشد، اما منبع ما گفت صداهای تولیدشده توسط هوش مصنوعی که تیم برای قطعات آزمایشی استفاده کرد، به وضوح مصنوعی بودند و برای یک تولید حرفهای آماده نبودند.

طبق گفته این منبع، انسانها همچنین مستقیماً مسئول موسیقی، تدوین، صداگذاری، جلوههای بصری و اصلاح رنگ پروژه هستند. تنها جایی که «ابزارهای مبتنی بر هوش مصنوعی» وارد عمل میشوند، خودِ ویدیو است که با ترکیبی از «ابزارهای سنتی فیلمسازی و قابلیتهای نوظهور هوش مصنوعی» ساخته شده است.
در عمل، این بدان معناست که انسانها استوریبوردها را میسازند، مراجع بصری برای مکانها و شخصیتها پیدا میکنند و نحوه ظاهر شدن نماها را تنظیم میکنند. این اطلاعات به همراه فیلمنامه به یک مولد ویدیوی هوش مصنوعی داده میشود که نماهای انفرادی را یکییکی خلق میکند تا در مرحله پستولید سنتی، توسط انسانها به هم متصل و اصلاح شوند.
این فرآیند، گفتگو درباره سینمای هوش مصنوعی را یک قدم فراتر از «آنسسترا» (Ancestra) میبرد؛ فیلم کوتاهی که پریموردیال سوپ تابستان گذشته با همکاری گوگل دیمایند منتشر کرد. در آنجا، ابزارهای هوش مصنوعی برای تقویت «صحنههای لایواکشن با سکانسهای تولیدشده توسط مدل Veo» استفاده شده بودند.
«هفتهها» دستور دادن و بازنویسی دستورها
در تئوری، داشتن یک مدل هوش مصنوعی که صحنهای را در چند دقیقه تولید کند، ممکن است در مقایسه با فیلمسازی سنتی (پیدا کردن لوکیشن، استخدام بازیگر، چیدن دوربین و ست) زمان زیادی را ذخیره کند. اما این منبع میگوید فرآیند بسیار تکرارشونده تولید و بهینهسازی نماها برای این مجموعه، همچنان برای هر ویدیوی چند دقیقهای «هفتهها» زمان میبرد و «بیشتر اوقات، ما در حال دستوپنجه نرم کردن با ضربالاجلها هستیم.»
اگرچه مدل هوش مصنوعی در اصل آواتارهای فوتورئالیستی را متحرک میکند، اما این منبع گفت فرآیند مذکور به دلیل عدم کنترل دقیق بر خروجی مدل ویدیویی، «بیشتر شبیه فیلمسازی لایواکشن» است. او افزود: «شما نمیدانید در برداشت اول به آنچه میخواهید میرسید یا برداشت دوازدهم یا چهلم.»

اگرچه به دست آوردن برخی نماها زمان کمتری میبرد، اما مدل هوش مصنوعی به ندرت در اولین تلاش یک نمای کامل و آماده پخش تولید میکند. در حالی که برخی مشکلات کوچک در یک نمای تولیدشده توسط هوش مصنوعی را میتوان در مرحله پستولید با جلوههای بصری یا تدوین دقیق پوشش داد، اما اکثر اوقات، تیم مجبور است بازگردد و به مدل بگوید یک ویدیوی کاملاً جدید با تغییرات جزئی بسازد.
او گفت: «این کار هنوز زحمت زیادی میبرد و لزوماً به این دلیل نیست که خروجی اشتباه است، بلکه به خاطر تلاش برای به دست آوردن کنترل صحیح است؛ زیرا شما میخواهید نور به شکلی خاص روی صورت بتابد تا داستان را روایت کند. ما همچنان به دنبال همان میزان کنترلی هستیم که همیشه در تولیدات لایواکشن داشتهایم تا داستان و احساسات را به حداکثر برسانیم.»
نماهای کوتاه و بودجههای کمتر
اگرچه مدلهای ویدیویی از زمان کلیپ کابوسوار «ویل اسمیت در حال خوردن اسپاگتی» پیشرفت کردهاند، اما به گفته منبع، توهمات (Hallucinations) و تصاویر بیمعنی «هنوز یک مشکل» در تولید این مجموعه هستند. این یکی از دلایلی است که شرکت تصمیم گرفت به جای یک فیلم بلند، از مجموعهای از ویدیوهای کوتاه استفاده کند.
او میگوید: «حفظ ثبات در سه دقیقه یک چیز است، اما حفظ ثبات در دو ساعت بسیار سختتر است و کار بسیار بیشتری میبرد. نمیدانم حد نهایی فعلی چقدر است، اما هرچه زمان طولانیتر شود، چیزها بیشتر شروع به از هم پاشیدن میکنند.»
کوتاه نگه داشتن نماهای انفرادی همچنین اجازه کنترل بیشتر و «فیلمبرداری مجدد» کمتری را در تولیدات انیمیشنی هوش مصنوعی میدهد. او افزود: «اگر بخواهید یک کلیپ ۲۰ ثانیهای بسازید، اتفاقات زیادی در جریان است و اگر یکی از آنها در طول ۲۰ ثانیه خراب شود، باید از اول شروع کنید. احتمال رخ دادن خطا در ۲۰ ثانیه بسیار بالاست، اما در ۸ ثانیه بسیار کمتر است.»
اگرچه منبع ما جزئیاتی از میزان هزینهکرد تیم برای تولید این حجم از ویدیو ارائه نداد، اما اشاره کرد که این فرآیند همچنان بسیار ارزانتر از فیلمبرداری یک مستنددرام تاریخی در لوکیشنهای واقعی است. او وعده داد در قسمتهای آینده، «چیزهایی را خواهید دید که دوربینها حتی قادر به انجام آن نیستند» تا به این ترتیب «بیشترین بهره را از این مدیوم ببریم.»
اگر به سرعت پیشرفت ویدیوهای تولیدشده توسط هوش مصنوعی توجه کرده باشید، ممکن است فکر کنید مدلهای هوش مصنوعی به زودی قادر خواهند بود تنها با یک دستور ساده، سینمایی با کیفیت هالیوود تولید کنند. اما به گفته این منبع کار روی این پروژه نشان میدهد چقدر مهم است که انسانها همچنان در چرخه تولید حضور داشته باشند. او گفت: «شخصاً فکر نمیکنم هرگز به مرحله جایگزینی تدوینگران انسانی برسیم. ما در واقع شدیداً به یک تدوینگر نیاز داریم.»
این میتواند خبر خوبی برای تدوینگران باشد. اما این پروژه دنیایی را هم پیشنهاد میدهد که در آن بازیگران انسانی روی پرده کاملاً با آواتارهای هوش مصنوعی جایگزین شدهاند. این منبع در نهایت در پاسخ به این پرسش که چرا سازندگان احساس کردند هوش مصنوعی برای بر عهده گرفتن این بخشِ منحصراً انسانی آماده است، پاسخی غافلگیر کننده داده است.
او گفت: «صادقانه بگویم، نمیدانم که آیا این را میدانیم یا نه. فکر میکنم میدانیم که فناوری برای امتحان کردن آماده است. و به عنوان داستانسرا، ما واقعاً علاقهمندیم از تمام ابزارهای مختلفی که میتوانیم استفاده کنیم تا داستانمان را منتقل کنیم و سعی کنیم مخاطب چیزی حس کند. به ندرت پیش میآید که ابزارهای بزرگ و جدیدی مثل این داشته باشیم. منظورم این است که در طول عمر من هرگز چنین اتفاقی نیفتاده بود. اما وقتی چنین ابزارهایی به دست میآورید، میخواهید با آنها بازی کنید. ما باید چیزهای مختلف را امتحان کنیم تا بفهمیم جواب میدهند یا نه. بنابراین، اکنون ابزارها را در اختیار داریم؛ ببینیم چه کاری از دستمان بر میآید.»
منبع: arstechnica
۵۸۳۲۳





نظر شما