تشخیص گفتار انگلیسی (Speech Recognition) و تبدیل آن به متن به کمک Vibe
سرویس تبدیل صدا به متن یا تشخیص گفتار (Speech Recognition) به قابلیت کامیپوتر برای تشخیص گفتار و تبدیل آن به متن گفته میشود.

تشخیص گفتار زیرشاخهای از زبانشناسی محاسباتی (Computational Linguistic) است. این زیرشاخه با تکنولوژیهایی کار میکند که دادههای صوتی (گفتار) را بهعنوان ورودی دریافت و تجزیهوتحلیل میکنند.
تشخیص گفتار بهسرعت در حال تبدیلشدن به یک اصل در تعامل انسان و کامپیوتر است. یکی از معروف ترین نمونههای آن، Siri در محصولات اپل است.

امروزه این ابزارها در کارهای مختلفی از جمله نوشتن پیام متنی، پخش موسیقی، دستیارهای مجازی (Virtual Assistants) مانند Siri و غیره استفاده میشوند.
در واقع این سرویس دارد تبدیل میشود به روش غالب تعامل انسان با کامپیوتر.
اما دغدغه ما استخراج متن یک صوت یا ویدئو است. برای مثال فرض کنید یک موزیک صوتی یا ویدئوی یک فیلم یا جلسه آزمون آیلتس را داریم و میخواهیم متن را استخراج کنیم.
سایتها، سرویسها و ابزارهای زیادی برای انجام این کار وجود دارد اما ترجیح ما ابزاری رایگان است که بتوان روی کامپیوتر نصب کرد تا نیازی به آپلود فایل نباشد. انتخاب ما Vibe است.

برای دانلود آن، به سایت Vibe مراجعه کنید و نسخه متناسب با دستگاه و سیستم عامل خود را دانلود کنید:

در حین نصب، زبان انگلیسی را انتخاب کنید:

پس از نصب، آن را باز کنید:

و فایل صوتی یا ویدئویی موردنظرتان را به برنامه بدهید:

سپس روی دکمه Transcribe کلیک کنید.
در انتها، با کلیک روی دکمه دانلود، متن ویدئو را با فرمت دلخواه (متنی، زیرنویس srt یا vtt و غیره) ذخیره کنید:

مرتب کردن متن
متنی که vibe به ما میدهد شامل ممکن است به شکل زیر باشد یعنی هر کلمه در یک خط نوشته شود:

اگر عباراتی مانند online remove new lines را سرچ کنید، سرویسهایی مانند textfixer را پیدا خواهید کرد که به ما کمک میکنند چنین متنهایی را مرتب کنیم.

پاسخها