با کمک فرایند یادگیری عمیق میتوان تمامی اصوات در یک محیط را شناسایی و بهصورت مجزا مدیریت کرد.
مهندسان نرمافزار بخش تحقیقاتی گوگل با یک مدل مبتنی بر یادگیری عمیق به تکنیکی دست پیدا کردهاند که میتواند اصوات مختلف در یک فایل ویدیویی را جداسازی و بهراحتی برای هرکدام تنظیماتی اعمال کند. شاید از خودتان بپرسید تفکیک هر صوت چه مزیتی دارد؟ ایده شکلگیری چنین مدلی، توانایی تشخیص یک الگوریتم بسیار خاص بر اساس صفات صوتی هر انسان است. اگر بخواهید با دوستتان در یک کافه صحبت کنید، سروصدای دیگران ممکن است حواس شما را پرت کند؛ اما اگر مجهز به یک هدفون مخصوص باشید، صدای دوستتان را انتخاب و بهصورت کامل، اطرافیان را بیصدا میکنید.
یکی از بیشترین کاربردهای مدل طراحیشده توسط گوگل، قابلیت حذف نویز است. از این طریق میتوان صداهای مختلف در یک فایل ویدیویی یا صوتی را شناسایی کرد و سپس مدیریت مجزایی بر هر کدام داشت. گوگل اعلام کرده است که با توجه به این مدل، ابزار و گجتهای بسیار زیادی میتوان طراحی کرد که با یادگیری ماشین، تشخیص صدای کاربر را به مرحلهای بهتر برسانند.
استفاده گسترده از مدل تشخیص صدای گوگل بیان نشده است؛ اما واضحترین استفاده برای سازندگان محتوا در یوتیوب است که میتوانند ویدیوهای خود را عاری از هرگونه نویز یا صدای اضافه منتشر کنند. هرگونه پلتفرم ارتباطی که مبتنی بر صوت یا تصویر باشد، یکی از اهداف این پروژه به حساب میآید.
تشخیص صدا در هنگام استنداپ دو نفر:
تشخیص صدا در یک مناظره تلویزیونی:
تشخیص صدا در یک ویدیو کنفرانس:
تشخیص صدا در یک کافه شلوغ:
تشخیص صدا در استنداپ و ارائه زیرنویس:
به نظر شما از این الگو در چه سیستمهایی میتوان استفاده کرد؟