۰ نفر
۲۵ بهمن ۱۳۸۸ - ۰۳:۰۴

با پیشرفت نرم‌افزارهای تشخیص مکالمه، شاید بتوانیم به زودی از کامپیوتر خود بخواهیم نکات مهم یک سخنرانی را برای ما مشخص کند؛ اما شاید دیگر نتوانیم در میانه یک جلسه چرت بزنیم و یا با بغل‌دستی صحبت کنیم.

مجید جویا: بیشتر ما با کامپیوتر خود حرف می‌زنیم، البته این حرف زدن صرفا محدود به لعنت فرستادن و ناسزاگفتن برای آن برای اشتباهی است که کل کار یک روز ما را خراب کرده است. ولی متاسفانه کامپیوتر به هیچ یک از حرف‌های ما گوش نمی‌دهد، یا شاید بهتر است بگوییم گوش نمی‌داد، چرا نرم افزارهای جدید به نحوی طراحی می‌شوند که صحبت ما با کامپیوتر فایده‌ای هم برای ما داشته باشد.

قدیمی‌ترین این نرم‌فزارها تشخیص اتوماتیک صحبت (ASR) است، که فناوری است که کلمات ما را به متن تبدیل می‌کند. بعد‌ها شیوه‌های پیچیده‌تری به آن اضافه شدند که فراتر از آنچه که می‌گفتید می‌رفتند، و نحوه گفتن آن را هم تحلیل می‌کردند. در این میان، آنها می‌توانستند به ما کمک کنند تا در موقعیت‌هایی که ارتباط چهره به چهره امکان پذیر نبود، با کارایی بیشتری با دیگران ارتباط برقرار کنیم.

به گزارش نیوساینتیست، ای‌اس‌آر اولین بار در سال 1964 عرضه شد، هنگامی که شرکت کنندگان در نمایشگاه جهانی در نیویورک ابزاری را دیدند که جعبه IBM Shoebox نام گرفته بود، و تعدادی از محاسبات ساده ریاضی را در پاسخ به دستورهای گفتاری انجام می‌داد. با این وجود، دیری نپایید که امید مردم به کارامدی ای‌اس‌آر، به ناامیدی بدل شد.

سایمون تاکر از دانشگاه شفیلد در انگلستان می‌گوید:‌ «جدیدترین مدل‌های ای‌اس‌آر ضریب خطایی بین 30 تا 35 درصد دارند، و این خیلی آزار دهنده است». وقتی اوضاع بدتر می‌شود که به یاد بیاوریم که نواقص آن توسط تعداد زیادی از وبسایت‌ها که برخی اشتباهات سرویس Google Voice را که ایمیل‌های صوتی را به متن تبدیل می‌کند، به سخره می‌گیرند، برجسته‌تر هم شده است.

علاوه بر آن اینکه، حتی هنگامی که ای‌اس‌آر درست کار کند هم ممکن است نتایج رضایت بخش نباشند. درست به همان دلیل که خیلی وقت‌ها خواندن دست خط افراد برای دیگران خیلی سخت است. افراد ممکن است در هنگام حرف زدن برخی عبارات را تکرار کنند، و یا حتی جمله را ناتمام بگذارند.

الکس پنتلند، که یک آزمایشگاه دینامیک انسانی در ام‌آی‌تی را اداره می‌کند می‌گوید: «حتی اگر دقیقا همه چیزی که گفته شده را بنویسید، باز هم حالاتی وجود دارد که نمی‌توانید بگویید که در مورد چه چیزی صحبت می‌شد. استفاده مردم از زبان محاوره‌ای، خیلی غیر مستقیم و غیر رسمی است».

به گفته تاکر بر خلاف این محدودیت‌ها، ای‌اس‌آر کاربردهای خود را دارد. او با داشتن همکارانی در دانشگاه شفیلد و همچنین استیو ویتاکر در پژوهش‌گاه آی‌بی‌ام در آلمادان کالیفرنیا، سیستمی را طراحی کرده که Catchup نام دارد و به این منظور طراحی شده که تقریبا به طور همزمان، هر چیزی را که در یک جلسه کاری گفته می‌شود خلاصه کند، و به این ترتیب کسانی که دیر می‌رسند می‌توانند بفهمند در غیاب آنها در جلسه چه گذشته است. کچاپ همچنین می‌تواند کلمات و عبارات مهم در یک متن ای‌اس‌آر را تشخیص دهد و موارد بی‌اهمیت را هم حذف کند. سیستم این کار را با استفاده از فرکانس صدا انجام می‌دهد که نشان دهنده اهمیت خود کلمه است، و البته لیستی از کلمات پر کاربرد معمولی دارد که آنها را در خروجی خود حذف می‌کند. این سیستم به این ترتیب لیستی از کلمات مهم بیان شده در جلسه را در محتوای خروجی خود نگه می‌دارد و باقی را حذف می‌کند.

یک ویژگی کلیدی کچاپ این است که نتایج را به صورت صوتی ارائه می‌کند، در نتیجه کسی که دیر آمده می‌تواند به جای خواندن یک متن، خلاصه صوتی از محتوای جلسه را بشنود. تاکر عقیده دارد که «این تجربه خیلی بهتری در اختیار کاربر قرار می‌دهد».

سازندگان کچاپ در جریان آزمایش‌های خود بر روی آن، گزارش کردند که تقریبا در 80 درصد موارد، افراد توانستند خلاصه‌های تهیه شده توسط سیستم را درک کنند، حتی اگر مربوط به بازه زمانی کمتر از نیمی از زمان کل مکالمات بود. درصد مشابهی از شرکت کنندگان هم گفتند که به این ترتیب دید بهتری در مورد بخشی از جلسه که در آن حضور نداشتند پیدا می‌کردند تا ینکه بخواهند با گوش کردن به بقیه مذاکرات بفهمند که در غیاب آنها چه گذشته است.

یک مزیت خلاصه صوتی به نسبت خلاصه متنی، این است که بخشی از سیگنال‌های اجتماعی نهفته در کلام را حفظ می‌کند. یک خلاصه متنی شاید نشان دهد که یک فرد چه حرف‌هایی زده است، ولی نمی‌تواند شک و تردید را در کلام او تشخیص دهد. استیو رینالز، یک کارشناس فناوری مکالمه در دانشگاه ادینبورگ در انگلستان، و یکی از سازندگان فناوری ای‌اس‌آر به کار رفته در کچاپ عقیده دارد که این سیگنال‌ها «شاید از خود آنچه که گفته شده هم مهم‌تر باشند».

البته یک گزارش صوتی هرگز نمی‌تواند سیگنال‌های اجتماعی را که در مکالمه چهره به چهره وجود دارد درک کند، (برای مثال یک گوشه ابرو، یا یک سر تکان دادن) و از آنجا که جلسات هر روز بیش از روز قبل به صورت تلفنی و یا آنلاین برگزار می‌شوند، کسانی که به این ترتیب در جلسات شرکت می‌کنند از این معضل رنج می‌برند. در نتیجه پنتلند و همکران وی در ام‌آی‌تی شیوه سخن گفتن افراد مختلف را بررسی کردند، و از نتایج آن برای پر کدن این شکاف استفاد کردند. به ادعای او این نوع از تحلیل مکالمات می‌تواند کیفیت تماس‌های کنفرانس تلفنی را به این ترتیب بهتر کند و به شرکت کنندگان در این جلسات از راه دور کمک کند تا این سیگنال‌های اجتماعی را بهتر دریافت کنند.

کار پنتلند در این حوزه بر مبنای چندین سال از تحقیق بر روی سیگنال‌های غیر صوتی است که در الگوهای صوتی نهفته‌اند. برای مثال این تحقیقات آشکار کرده‌اند که رابطه‌ای وجود دارد بین این که چگونه یک نفر جذب چیزی می‌شود که بیان شده است و این که چقدراین حرف با صدای بلند گفته شده است، و یا با فرکانسی که با آن آنها از حرف زدن به گوش کردن تغییر حالت می‌دهند.

پرتلند که با یک دانشجوی دکترا به نام تیمی کیم کار می‌کرد شروع به استفاده از برخی از این یافته‌ها کرد تا ابزاری بسازد که سیگنال‌های اجتماعی را در جلسات از راه دور تقویت کند. «گرداننده جلسات» آنها، میزان زمانی را که چهار نفر که در دو مکان جداگانه در یک کنفرانس صوتی شرکت دارند، صرف حرف زدن می‌کنند، اندازه گیری می‌کند. اگر یکی از آنها زمان جلسه را به خود اختصاص می‌داد و بیش از بقیه حرف می‌زند، باقی افراد می‌توانستند آن را در یک نمودار گرافیکی که در مقابل آنها قرار دارد ببینند.

کیم و پنتلند دریافتند که این امر تاثیر زیادی روی رفتار شرکت کنندگان می‌گذاشت. زمان متوسط بخش سخنرانی (که زمانی است که یک نفر قبل از دادن وقت خود به دیگران حرف می‌زند) از 11.2 ثانیه به 9.2 ثانیه افت کرد.

سیستم همچنین شرکت کنندگان را از گروه گروه شدن و شروع مکالمات جداگانه با افارد درون گروه خود بر حذر می‌داشت. کیم می‌گوید: «بازخورد به این منظور طراحی شده بود تا شرکت کنندگان را به تعادل و تعامل ترغیب کند». به گفته او تنها «جلوی چشم» داشتن این آمار به آنها کمک کرد تا به این هدف برسند. با بسط و گسترش چنین سیستم‌هایی و نمایش سطح علاقه شرکت کنندگان روی نمایش‌گر، شرکت کنندگان در یک جلسه تلفنی می‌توانند احساس بهتری از سیگنال‌های اجتماعی که تا کنون نمی‌توانستند دریافت کنند داشته باشند.

به گفته پنتلند، چنین ابزارهایی که کاری بیشتر از تنها تشخیص کلمات انجام می‌دهند، به ارتقای سطح کنفرانس‌های تلفنی کمک خواهند کرد. او می‌گوید: «خواندن «افراد» به جای خواندن «کلمات»، می‌تواند قاعده بازی را در ارتباطات تغییر دهد».

کد خبر 43592

برچسب‌ها

نظر شما

شما در حال پاسخ به نظر «» هستید.
3 + 8 =