چکیده
سیستم های تشخیص گفتار، داده های صوتی را به داده های متنی تبدیل می کنند یعنی توالی کلمات را به عنوان نتایج تشخیص گفتار ارائه می کنند. این توالی از کلمات، معمولا بر اساس مدل زبانی در سیستم تشخیص گفتار تعریف می شوند. ازین رو، ظرفیت سیستم تشخیص گفتار برای تبدیل کردن داده های صوتی به دست آمده از کلماتی با تلفظ عادی به توالی کلماتی که مطابق با کلمات اصلی باشد و مورد قبول مدل زبانی باشد را می توان به عنوان ظرفیت شناسایی پایه سیستم تشخیص گفتار، در نظر گرفت. این کار، یک روش تست برای بررسی این مفهوم ارائه می کند که نشان میدهد آیا سیستم های تشخیص گفتار این ظرفیت پایه شناسایی را دارند یا خیر. این روش، با اجرا کردن تست هایی به صورت مجزا برای بررسی قدرت شناسایی، ظرفیت پایه را تایید می کند. همچنین این تست به صورتی است که کاملا خودکار اجرا می شود. ما یک سیستم خودکار سازی تست را ایجاد کرده و آن را از طریق آزمایش های مختلف بررسی کردیم تا ببینیم که آیا می تواند نقص های موجود در سیستم شناسایی گفتار را تشخیص دهد یا خیر. نتایج نشان میدهد که این سیستم تست خودکار می تواند به صورت موثر، نقص های پایه در فاز توسعه و یا اصلاح اولیه سیستم را شناسایی کند.
1. مقدمه
سیستم های تشخیص گفتار خودکار (ASR) به صورت گسترده در کاربردهای مختلف مورد استفاده قرار می گیرند و حالا برای ASR هایی با اهداف عمومی و یا اهداف خاص، نیاز های گسترده دیده می شود. به عنوان مثال، ASR ها در تلفن های هوشمند یکی از رایج ترین و محبوب ترین انواع ASR هستند که برای کار با داده های صوتی با بازه های مختلف محتوایی در کاربرد روزانه، مورد استفاده قرار می گیرند ASR های خاص نیز به صورت همزمان ، در ASR های عمومی برای شناسایی داده های صوتی به دست آمده از گفتار در شرایط یا وظایف خاص مورد استفاده قرار می گیرند، مانند ماشین های فروش بلیط، گفت گو های صوتی و یا در ماژول های ASR برای بلندگو های هوشمند. در نتیجه، یکی از پروژه های مهندسی مهم برای مطالعه کردن سیستم های ASR، سیستم هایی برای تست این تکنولوژی می باشد که هنوز در بسیاری از موارد مبتنی بر مهارت افراد می باشد و می توان با استفاده از این مطالعه ها، روشهای تست سیستمی و خودکار بیشتری را برای سیستم های ASR ایجاد کرد.
7. جمع بندی
ما در این مقاله، یک دیدگاه تست برای سیستم های ASR را ارائه کردیم که می تواند ظرفیت پایه آن ها را برای شناسایی تمام کلمات لغت نامه هدف مستقل از تست های مرتبط با قدرت شناسایی، ارزیابی کند. به خصوص از نقطه نظر مهندسی نرمافزار، ما به صورت رسمی تست های شناسایی پایه را برای سیستم های ASR ارائه کرده و یک فرایند تست خودکار را مشخص کردیم. ما همچنین سیستم تست خودکار را اجرا کرده و آن را از طریق آزمایش های مختلف تایید کردیم و نشان دادیم که این سیستم به خوبی کار کرده و می تواند به صورت خودکار، نقص های عملکردی در سیستم ASR را شناسایی کند.
انتظار می رود که در آینده کارهای بعدی شامل ارزیابی های گسترده با استفاده از داده های معیار در گروه های تشخیص گفتار باشد که به این موضوع در قسمت 5 این مقاله اشاره شد. ما همچنین روشی را در نظر داریم تا بتوانیم به صورت سیستمی ، تولید جملات تست با پوشش بالا از مدل های تصادفی و گسترده زبانی را به دست بیاوریم. این تولید داده های گفتار به صورت سیستمی برای تست کردن قدرت شناسایی، یکی از کارهای مهم آینده می باشد. مدل های زبانی دارای اطلاعاتی در رابطه با سهولت ارتباط بین هر کلمه می باشد، یعنی اطلاعاتی در رابطه با بخش هایی که شناسایی صحیح آن ها دشوار می باشد. ازین رو می توان به صورت خودکار داده های گفتار صوتی مناسبی را ایجاد کرد تا قدرت شناسایی را با استفاده از این اطلاعات، ارزیابی کند.
Abstract
Automatic speech recognition systems transform speech audio data into text data, i.e., word sequences, as the recognition results. These word sequences are generally defined by the language model of the speech recognition system. Therefore, the capability of the speech recognition system to translate audio data obtained by typically pronouncing word sequences that are accepted by the language model into word sequences that are equivalent to the original ones can be regarded as a basic capability of the speech recognition systems. This work describes a testing method that checks whether speech recognition systems have this basic recognition capability. The method can verify the basic capability by performing the testing separately from recognition robustness testing. It can also be fully automated. We constructed a test automation system and evaluated though several experiments whether it could detect defects in speech recognition systems. The results demonstrate that the test automation system can effectively detect basic defects at an early phase of speech recognition development or refinement.
I. INTRODUCTION
Automatic speech recognition (ASR) systems are increasingly being used in practical applications, and there is a corresponding demand for new systems, including both general-purpose ASR and domain-specific ASR. For example, ASRs in smart phones are popular general-purpose ASRs designed for handling speech data with a wide range of content in daily use. Domain-specific ASRs are also starting to be used simultaneously or integrated into generalpurpose ASRs for recognizing audio data obtained from speech uttered in specific situations or tasks, such as at ticket vending machines, during voice dialing, or in the ASR module of smart speakers. Consequently, it would be an important software engineering project to study ASR system testing, which is still dependent on individual skill in many cases, and to create more automatic/systematic test methods for ASR systems.
VII. CONCLUSION
We proposed a test viewpoint for ASR systems that can check the basic capability for recognizing all target vocabulary words independently from tests on the recognition robustness. Especially from software engineering view, we formalized the basic recognition test for ASR systems and designed an automation of the testing process. We also implemented an automated test system and confirmed through several experiments that it worked well and could detect automatically functional defects of ASR systems.
Expected future work will include large scale evaluation using benchmark data adopted in the speech recognition community as stated in Section V. We are also considering a method of systematic high coverage test sentence generation from large and stochastic language models. Systematic speech data generation to test recognition robustness is also a future task. The language model has information on the ease of connecting each word, i.e., information on parts that are difficult to correctly recognize. Thus, it may be possible to automatically generate efficient speech data to test robustness by using this information.
چکیده
1. مقدمه
2. تست شناسایی پایه برای ASR
3. خودکار سازی کردن تست های شناسایی پایه
4. ارزیابی آزمایشی
5. مباحث
6. کارهای مربوطه
7. جمع بندی
منابع
Abstract
1. INTRODUCTION
2. BASIC RECOGNITION TEST FOR ASR
3. AUTOMATION OF BASIC RECOGNITION TEST
4. EXPERIMENTAL EVALUATION
5. DISCUSSION
6. RELATED WORK
4. CONCLUSION
REFERENCES