تشخیص گفتار انگلیسی (Speech Recognition) و تبدیل آن به متن به کمک Vibe
سرویس تبدیل صدا به متن یا تشخیص گفتار (Speech Recognition) به قابلیت کامیپوتر برای تشخیص گفتار و تبدیل آن به متن گفته میشود.

تشخیص گفتار زیرشاخهای از زبانشناسی محاسباتی (Computational Linguistic) است. این زیرشاخه با تکنولوژیهایی کار میکند که دادههای صوتی (گفتار) را بهعنوان ورودی دریافت و تجزیهوتحلیل میکنند.
تشخیص گفتار بهسرعت در حال تبدیلشدن به یک اصل در تعامل انسان و کامپیوتر است. یکی از معروف ترین نمونههای آن، Siri در محصولات اپل است.

امروزه این ابزارها در کارهای مختلفی از جمله نوشتن پیام متنی، پخش موسیقی، دستیارهای مجازی (Virtual Assistants) مانند Siri و غیره استفاده میشوند.
در واقع این سرویس دارد تبدیل میشود به روش غالب تعامل انسان با کامپیوتر.
اما دغدغه ما استخراج متن یک صوت یا ویدئو است. برای مثال فرض کنید یک موزیک صوتی یا ویدئوی یک فیلم یا جلسه آزمون آیلتس را داریم و میخواهیم متن را استخراج کنیم.
سایتها، سرویسها و ابزارهای زیادی برای انجام این کار وجود دارد اما ترجیح ما ابزاری رایگان است که بتوان روی کامپیوتر نصب کرد تا نیازی به آپلود فایل نباشد. انتخاب ما Vibe است.

برای دانلود آن، به سایت Vibe مراجعه کنید و نسخه متناسب با دستگاه و سیستم عامل خود را دانلود کنید:

در حین نصب، زبان انگلیسی را انتخاب کنید:

پس از نصب، آن را باز کنید:

و فایل صوتی یا ویدئویی موردنظرتان را به برنامه بدهید:

سپس روی دکمه Transcribe کلیک کنید.
در انتها، با کلیک روی دکمه دانلود، متن ویدئو را با فرمت دلخواه (متنی، زیرنویس srt یا vtt و غیره) ذخیره کنید:

پاسخها