چکیده
Dysarthria، یک بیماری عصبی است که به سیستم کنترلکننده اداء کلام آسیب رسانده و موجب لطمه زدن به سیگنال صحبت میشود. بازشناسی گفتار خودکار (ASR) ، میتواند برای اشخاص مبتلا به اختلال تکلم بسیار مفید باشد، زیرا اشخاص با معلولیت گفتاری، اغلب دچار نقص فیزیکی نیز هستند. MFCC برای ارائه نمایش مناسبی از سیگنال گفتار، به¬وجود آمده است، اما این سئوال که کدام یک از مجموعه پارامترهای اصلیMFCC، به شکل مفیدتری قادر به ارائه پارامترهای آوایی گفتار هستند، هنوز پاسخ داده نشده است. علاوه بر این، بیش¬تر بازشناسندههای فعلی گفتار، متکی به گوینده (SD) یا منطبق برگوینده (SA) هستند، وبرای تعمیم یافتن به مدل مستقل از گوینده (SI)، خوب عمل نمیکنند. این مقاله، نخست با مقایسه نتایج حاصل از 28 بازشناسنده گفتار متکی بر گوینده، بهترین مجموعه از پارامترهای MFCC که قادر به ارائه ویژگیهای آوایی گفتار مورد استفاده در بازشناسی گفتار خودکار مبتنی بر شبکه عصبی (ANN) هستند را معرفی کرده، سپس کاربرد شبکههای عصبی به¬عنوان یک بازشناسی گفتار خودکار مستقل از گوینده، کلمه مجزا با طول ثابت، مخصوص بیماران مبتلا به اختلال تکلم را بررسی میکند. نتایج نشان میدهد که بازشناسندههای گفتاری که توسط 12 ضریب ویژگیهای MFCC بدون استفاده از دلتا و پارامترهای افزاینده، آموزش دیدهاند بهترین دقت را ارائه داده؛ و بازشناسنده گفتار خودکار مستقل از گوینده پیشنهادی، گفتار افراد بیمار مورد ارزیابی را با نرخ بازشناسی کلمه 38/68 درصد، بازشناسی کرد.
مقدمه
اختلال تکلم یک بیماری عصبی است که به سیستم کنترلکننده اداء کلام آسیب رسانده و علت این آسیب، نداشتن کنترل بر روی ماهیچههای عصبی گفتار یا فلج شدن آن ها به دلیل سکته ناقص، میباشد. این بیماری اغلب باعث ایجاد صداهای ناهنجار و نوسان در گفتار بیمار میشود [1,2]. در نتیجه این آسیب، سیگنال صحبت لطمه دیده و قابلیت فهم آن پایین می¬آید [3,4]. با توجه به مقاله [5]، پایین بودن قابلیت فهم، یکی از مضرترین جنبههای اجتماعی این بیماری است که از جهات مختلف بر روی زندگی فرد بیمار، تاثیر میگذارد. سیستمهای بازشناسی گفتار خودکار (ASR)، کلمات اداء شده که به صورت یک سیگنال آوایی ارائه میشوند را شناسایی کرده و برای بازنمایی کلمات بیان شده، به فرهنگ لغات، معرفی شده اطمینان میکند. این روش دارای کاربردهای متنوعی در حوزه سلامت، فعالیتهای نظامی و مخابراتی و دیگر حوزهها میباشد [6]. این روش میتواند برای افراد مبتلا به اختلال تکلم بسیار مفید باشد، چون این افراد اغلب دچار مشکلات و ناتواناییهای فیزیکی هستند و نمیتوانند از صفحه کلید استفاده کنند [7,8].
abstract
Dysarthria is a neurological impairment of controlling the motor speech articulators that compromises the speech signal. Automatic Speech Recognition (ASR) can be very helpful for speakers with dysarthria because the disabled persons are often physically incapacitated. Mel-Frequency Cepstral Coefficients (MFCCs) have been proven to be an appropriate representation of dysarthric speech, but the question of which MFCC-based feature set represents dysarthric acoustic features most effectively has not been answered. Moreover, most of the current dysarthric speech recognisers are either speaker-dependent (SD) or speaker-adaptive (SA), and they perform poorly in terms of generalisability as a speakerindependent (SI) model. First, by comparing the results of 28 dysarthric SD speech recognisers, this study identifies the best-performing set of MFCC parameters, which can represent dysarthric acoustic features to be used in Artificial Neural Network (ANN)-based ASR. Next, this paper studies the application of ANNs as a fixed-length isolated-word SI ASR for individuals who suffer from dysarthria. The results show that the speech recognisers trained by the conventional 12 coefficients MFCC features without the use of delta and acceleration features provided the best accuracy, and the proposed SI ASR recognised the speech of the unforeseen dysarthric evaluation subjects with word recognition rate of 68.38%.
1. Introduction
Dysarthria is a neurological impairment that damages the control of the motor speech articulators, which the malfunction is caused by the lack of control over the speech-related muscles, the lack of coordination among them, or their paralysis. It is often associated with irregular phonation and amplitude [1,2]. As a result of the impairment, the speech signal is compromised and its intelligibility is reduced [3,4]. According to [5], low intelligibility is one of the most detrimental social characteristics of dysarthria that affects different aspects of the lives of people with such disability. Automatic Speech Recognition (ASR) systems identify the uttered word(s) represented as an acoustic signal and rely on a given lexicon to recognise the spoken word(s). They have several applications in health care, the military, telephony, and other domains [6]. They can be very helpful for speakers with dysarthria, because the disabled persons are often physically incapacitated and unable to use keyboards [7,8].
چکیده
1- مقدمه
2- نگاهی به گذشته
3- روش ها
الف - مواد و شرکت کنندگان
ب- مدل ASR مبتنی بر شبکههای عصبی مصنوعی برای کاربران مبتلا به اختلال تکلم
ج- معیارهای ارزیابی
4- آزمایشها و نتایج
5- آزمایش1: شناسایی بهترین مجموعه از پارامترهای MFCC
6- آزمایش2: ASR مبتنی بر شبکه عصبی مستقل ازگوینده
7- بحث
8- نتیجه گیری
abstract
1. Introduction
2. Previous works
3. Methods
3.1. Materials and participants
3.2. The ANN-based ASR model for users with dysarthria
3.3. Evaluation criteria
4. Experiments and results
4.1. Experiment 1: identifying the best-performing set of MFCC parameters
4.2. Experiment 2: speaker-independent dysarthric ANN-based ASR
5. Discussion
6. Conclusions