پژوهشگران دانشگاه تگزاس واقع در شهر آستین با همکاری موسسه تحقیقاتی هوش مصنوعی فیسبوک موفق شدند محتوای صوتی مونو را به صدای ۲.۵ بعدی تبدیل کنند. سیستم طراحی شده توسط این محققان، با استفاده از یادگیری ماشینی سعی میکند در ویدیو، محل دقیق اشیا و تنظیمات صحنهای موجود را تخمین بزنند و محتوای صوتی مونو را بر اساس محل انتشارشان تقسیم کنند.
بدین ترتیب یک محتوای صوتی 2.5 بعدی تولید میشود که تجربه نابی را فراهم می آورد و کاربر میتواند حضور خود را در همان محل حس کند. این تکنولوژی میتواند برای تبدیل محتوا فیلمهای قدیمی یا محتوای معمولی و تبدیل آن به صوت مناسب برای هدست های VR بکار رود.
همانطور که میدانید گوش انسان توانایی تشخیص و تخمین فاصله یا موقعیت محل انتشار صوت را نسبت به خود داراست. مغز با ترکیب اصوات دریافت شده توسط دو گوش و آنالیز فاضله شنیده شدن آنها، قادر است فاصله یا جهت منبع انتشار کنندهی صوت را تخمین بزند.
برای مثال اگر صوتی چند هزارم ثانیه به گوش خاصی زودتر برسد مغز فرمان میدهد که این صدا از سمت همان گوش منتشر شده است. این مسئله موجب شده که توسعه دهندگان محتوای صوتی سه بعدی، بتوانند چنین تجربهای برای کاربر فراهم آورند.
آنها با ضبط کردن صدای موجود به وسیلهی دو یا چند میکروفون میتوانند تجربیات متفاوتی از صدا را فراهم آورند و صدای طبیعیتری برای مخاطب فراهم اورند. برای مثال با استفاده از همین روش، محتوای صوتی اجراهای موسیقی خاصی ضبط شده است.
با این وجود، هنوز بیشتر محتوای صوتی ضبط شده تک کاناله است و گوش انسان نمی تواند محل پخش محتوای سه بعدی را تخمین بزند. به همین دلیل کاربران قادر نیستند حس کنند در محل به خصوصی حظور دارند و صرفاً صدای موجود را گوش میدهند.
از این رو سیستم طراحی شده توسط این شرکت میتواند بسیار روش مفیدی باشد و در آیندهای نزدیک شاید بازسازی محتوای بسیار زیادی را با استفاده از همین روش دوباره بشنویم.