• استفاده از شبکه های باور عمیق برای افزایش مقاومت بازشناسی گفتار در حضور نویز

    جزئیات بیشتر مقاله
    • تاریخ ارائه: 1392/07/24
    • تاریخ انتشار در تی پی بین: 1392/07/24
    • تعداد بازدید: 1931
    • تعداد پرسش و پاسخ ها: 0
    • شماره تماس دبیرخانه رویداد: -
    مدل مخلوط گاوسی و ضرایب فرکانسی مل همواره به عنوان مهم ترین روش های مدل سازی توزیع نمونه ها و استخراج ویژگی در شناسایی گفتار مطرح بوده اند. مزیت مدل مخلوط گاوسی در مدل سازی ورودی ها با بالاترین دقت و مزیت ضرایب فرکانسی مل در یافتن اطلاعات تمایزدهنده در طیف زمانی کوتاه است. ویژگی های طیف زمانی کوتاه مقاومت لازم در مقابل نویز را ندارند، از طرفی اما به کارگیری اطلاعات در بازه های زمانی طولانی تر نیز در مدل مخلوط گاوسی بار محاسباتی بالایی دارد. این مسائل کاهش دقت را در صورت وجود عدم تطابق در شرایط آموزش و آزمون باعث می شود. ترکیب ویژگی های مختلف و تغییر در مدل سازی نمونه های ورودی از جمله راه های پیشنهادی هستند. در این مقاله از شبکه های باور عمیق برای یافتن ویژگی های تمایزدهنده از یک طیف زمانی طولانی تر استفاده می شود. در این حالت تبدیلات غیرخطی علاوه بر استخراج ویژگی های سطح بالاتر و کاهش ابعاد ویژگی های ورودی، تبدیل فضای ویژگی های ضرایب فرکانسی مل را منجر می شود که می توانند در مقابل تغییرات سیگنال ورودی مقاومت لازم را داشته باشند. این ویژگی ها در بهبود کارایی مدل مخفی مارکوف استفاده می شوند. روش پیشنهادی بر روی مجموعه ای از پرکاربردترین کلمات فارس – دات آزمایش و نتایج آن با پرکاربردترین روش شناسایی گفتار مقایسه شده است. افزایش دقت شناسایی کلمات نشان از کارایی روش پیشنهادی در مقابل تغییرات و نویز دارد.

سوال خود را در مورد این مقاله مطرح نمایید :

با انتخاب دکمه ثبت پرسش، موافقت خود را با قوانین انتشار محتوا در وبسایت تی پی بین اعلام می کنم
مقالات جدیدترین رویدادها
مقالات جدیدترین ژورنال ها