تشخیص گفتار انگلیسی (Speech Recognition) و تبدیل آن به متن به کمک Vibe

سرویس تبدیل صدا به متن یا تشخیص گفتار (Speech Recognition) به قابلیت کامیپوتر برای تشخیص گفتار و تبدیل آن به متن گفته می‌شود.

تشخیص گفتار زیرشاخه‌ای از زبان‌شناسی محاسباتی (Computational Linguistic) است. این زیرشاخه با تکنولوژی‌هایی کار می‌کند که داده‌های صوتی (گفتار) را به‌عنوان ورودی دریافت و تجزیه‌وتحلیل می‌کنند.

تشخیص گفتار به‌سرعت در حال تبدیل‌شدن به یک اصل در تعامل انسان و کامپیوتر است. یکی از معروف ترین نمونه‌های آن، Siri در محصولات اپل است.

امروزه این ابزارها در کارهای مختلفی از جمله نوشتن پیام متنی، پخش موسیقی، دستیارهای مجازی (Virtual Assistants) مانند Siri و غیره استفاده می‌شوند.

در واقع این سرویس دارد تبدیل می‌شود به روش غالب تعامل انسان با کامپیوتر.

اما دغدغه ما استخراج متن یک صوت یا ویدئو است. برای مثال فرض کنید یک موزیک صوتی یا ویدئوی یک فیلم یا جلسه آزمون آیلتس را داریم و می‌خواهیم متن را استخراج کنیم.

سایتها، سرویس‌ها و ابزارهای زیادی برای انجام این کار وجود دارد اما ترجیح ما ابزاری رایگان است که بتوان روی کامپیوتر نصب کرد تا نیازی به آپلود فایل نباشد. انتخاب ما Vibe است.

برای دانلود آن، به سایت Vibe مراجعه کنید و نسخه متناسب با دستگاه و سیستم عامل خود را دانلود کنید:

در حین نصب، زبان انگلیسی را انتخاب کنید:

پس از نصب، آن را باز کنید:

و فایل صوتی یا ویدئویی موردنظرتان را به برنامه بدهید:

سپس روی دکمه Transcribe کلیک کنید.

در انتها، با کلیک روی دکمه دانلود، متن ویدئو را با فرمت دلخواه (متنی، زیرنویس srt یا vtt و غیره) ذخیره کنید:

نویسنده

پاسخ‌ها

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *