هدفون‌های هوشمند با هوش مصنوعی صدای مکالمه را در محیط‌های شلوغ جدا می‌کنند

محققان دانشگاه واشینگتن هدفون‌های هوشمندی طراحی کرده‌اند که با استفاده از هوش مصنوعی، صدای مکالمه مورد نظر کاربر را از میان صداهای مزاحم محیط جدا می‌کند و تجربه شنیداری بهتری را فراهم می‌سازد.

به گزارش بخش اقتصاد وبانگاه به نقل از ایسنا، در محیط‌های پر سر و صدا، شنیدن صدای مورد نظر برای مکالمه می‌تواند چالش‌برانگیز باشد، به‌ویژه برای افرادی که مشکلات شنوایی دارند. اما محققان دانشگاه واشینگتن با توسعه هدفون‌های هوشمند مجهز به هوش مصنوعی، راهکاری برای این مشکل ارائه داده‌اند.

این هدفون‌های جدید، برخلاف دستگاه‌های ایزوله‌کننده گفتار موجود، به طور خودکار صدای طرف مقابل مورد نظر کاربر را از هرج و مرج اطراف جدا می‌کنند. هدفون‌ها تشخیص می‌دهند که چه کسی بخشی از مکالمه است و صداهایی را که با ریتم گفتار نوبتی مطابقت ندارند، خاموش می‌کنند.

این سیستم با استفاده از یک مدل هوش مصنوعی که الگوهای زمان‌بندی را تجزیه و تحلیل می‌کند و مدل دیگری که صداهای نامربوط را فیلتر می‌کند، طرف‌های مکالمه را در عرض دو تا چهار ثانیه شناسایی می‌کند. کد اصلی این فناوری متن‌باز است و محققان معتقدند که می‌تواند در سمعک‌ها، هدفون‌ها و عینک‌های هوشمند آینده مورد استفاده قرار گیرد.

شیام گولاکوتا، نویسنده ارشد این مطالعه، با اشاره به محدودیت‌های رویکردهای قبلی، گفت: رویکردهای موجود برای شناسایی اینکه فرد به چه کسی گوش می‌دهد، عمدتاً شامل الکترودهای کاشته شده در مغز برای ردیابی توجه است. وی خاطرنشان کرد که الگوهای طبیعی در گفتگو، مسیر بهتری را ارائه می‌دهند.

این سیستم زمانی فعال می‌شود که فرد شروع به صحبت می‌کند. مدل اول، بررسی اینکه «چه کسی چه زمانی صحبت کرده است» را اجرا می‌کند و به دنبال همپوشانیِ کم بین گویندگان می‌گردد. مدل دوم سیگنال را پالایش می‌کند و صدای ایزوله شده را به صورت لحظه‌ای به کاربر بازمی‌گرداند.

نمونه اولیه این هدفون‌ها از مکالماتی که شامل کاربر و حداکثر چهار گوینده دیگر می‌شود، بدون تأخیر قابل توجه پشتیبانی می‌کند. در آزمایش‌هایی که با ۱۱ شرکت‌کننده انجام شد، نسخه فیلتر شده بیش از دو برابر امتیاز بیشتری در وضوح، حذف نویز و درک مطلب کسب کرد.

گویلین هو، محقق ارشد این مطالعه می‌گوید: این سیستم جدید به طور خودکار واکنش نشان می‌دهد. آنچه ما نشان داده‌ایم، یک فناوری است که پیشگیرانه عمل می‌کند و چیزی است که قصد انسان را به صورت غیرتهاجمی و خودکار استنباط می‌کند.

نتایج اولیه این تحقیق نشان می‌دهد که این مدل‌ها برای زبان‌های انگلیسی، ماندارین و ژاپنی آموزش دیده‌اند و زبان‌های دیگر ممکن است نیاز به تنظیمات داشته باشند. نسخه فعلی از هدفون‌های روگوشی تجاری و مدارهای پایه استفاده می‌کند و انتظار می‌رود که این فناوری به هدفون‌های داخل گوشی یا سمعک‌ها نیز توسعه یابد.

 

©‌ وبانگاه, ایسنا
دکمه بازگشت به بالا