خلاصه
تشخیص "گفتار" به عنوان خط اتصال کاربر در برنامه های جدید به طور پیوسته دیده می شود. با پیشرفت این تکنولوژی، روشهای جدیدی برای انسان فراهم می شود تا با ماشین ها و اطلاعات حاصل از آنها، ارتباط برقرار کنند. انجام این کار در بسیاری از حوزه ها، کاربران را به انتظارات خود نزدیکتر کرده است. اگر چه هنوز چالش های زیادی در مورد فناوری وجود دارد، ولی تشخیص گفتار به یک سطح تکامل یافته نیاز به در نظر گرفتن استقرار آن در سیستم ها و محیط های پیچیده دارد. به این ترتیب ما درباره سیستم هایی بحث می کنیم که ما را به اجرای موفقیت آمیز تشخیص گفتار برنامه نیروی XXI زمین جنگجو نزدیک می کند.
ما در مورد اجزای کنترل صدای سیستم در این برنامه بحث می کنیم. نیازمندی های مرتبط با قابلیت اطمینان، تشخیص و مسائل پیچیده محاسباتی به طور کامل در این بخش مورد توجه قرار گرفته است. ما به طور صریح جنبه های مختلف سیستم و نحوه تاثیر آنها بر روی خط اتصال کاربر و آشکار شدن پارامترهای کاربرد واقعی را پوشش می دهیم. در نهایت، اجرای یک طبقه بندی مبتنی بر چند جمله ای را برای تشخیص گفتار در نظر می گیریم و ارزیابی عملکرد نهایی سیستم را در حوزه پایگاه اطلاعاتی خاص، ارائه می دهیم.
1. مقدمه
برنامه توسعه ساختار مهندسی زمین جنگجو (EMD)، برنامه انقلابی ارتش برای توسعه و ایجاد یک سیستم مبارزه با سربازان کاملاً متحد است. این سیستم از فناوری های پیشرفته برای ارائه اثربخشی بی نظیر با ارائه قابلیت بهبود شناسایی، به دست آوردن، قرار دادن و درگیر کردن اهداف در محدوده های بیشتر در طول روز یا شب استفاده می کند. این سیستم یک سرباز منفرد را به میدان جنگ دیجیتالی می فرستد تا باعث بهبود ارتباطات بهتر و آگاهی موقعیتی شود.
هدف از برنامه نیروی جنگجویان زمینی XXI، این است که باعث سرعت ارتقای میدان فناوری پیشرفته به برنامه EMD مبارزه زمینی شود. این برنامه، تضمین کننده مزیت تکنولوژی جهانی برای سیستم های مبارزه جنگجویان پیاده است.
سیستم اجزای کنترل صدای سیستم (SVC)، نیروی جنگنده زمینی XXI یک رابط سخنران را برای سرباز کامپیوتری موجود از برنامه EMD Land Warrior فراهم می کند. هدف این است که سرباز پیاده را با یک روش کارآمد از کنترل های دست بسته و چشم بسته در سیستم، هدایت کند. شکل 1 مفهوم SVC را نشان می دهد.
استفاده از تشخیص گفتار در محیط مبارزه، منجر به استخراج نیازمندی های چالش برانگیز عملکرد می شود. شناخت و واژگان خروجی (OOV) باید باعث حفظ سطوح عملکرد در شرایط ناخوشایندِ صدای مخالف شود. علاوه بر این، سیستم باید به طیف گسترده ای از سطوح صدای صوتی (سطوح کم برای عملیات مخفی و سطوح بالا برای موقعیت های پر سر و صدا) پاسخ دهد. استرس صدا، نگرانی دیگر موجود برای اجرای برنامه است، آنچنان که اغلب با اثر لومپارد (1) مواجه می باشد. در نهایت، الگوریتمها باید از لحاظ محاسباتی، دارای کارایی مناسبی باشند تا باتری سیستم را تخلیه نکند، و مدل های کلمه ای، باید به اندازه کافی کوچک باشند تا بتوانند در حافظه موجود قرار گیرند.
طراحی سیستم کلی و خط اتصال کاربر در بخش 2 مورد بحث قرار گرفته است. ساختار الگوریتم تشخیص میدان واقعی گفتار، که بر اساس یک طبقه بندی چندجمله ای است، در بخش 3 توضیح داده شده است. در بخش 4 و 5، راه حل مشکلات فنی استحکام سر و صدا، سخنرانی استرس زا و غیرقابل انکار واژگان مورد بحث قرار گرفته است. در نهایت، اعتبارسنجی و نتایج سیستم نهایی در بخش 6 ارائه شده است.
2. طراحی سیستم و رابط کاربر
نمودار بلوکی اجزای پایه SVC در شکل 2 نشان داده شده است. سرباز، یک دکمه را روی سلاح خود فشار می دهد تا سیستم شروع به شناسایی کند. یک میکروفون لغو سر و صدای نزدیک به صحبت کردن، فرمان سخن گفتن توسط A / D دیجیتالی را ضبط می کند. فرایندهای شناسایی کننده گفتار کاربر و پاسخ مناسب او، توسط سرباز کامپیوتری اجرا می شود.
استقرار موفق در تشخیص گفتار، به رویکرد سیستم ها به طراحی و اجرای SVC نسبت داده می شود. هر جزء، از رابط کاربر تا طبقه بندی پایانی برای همکاری با یکدیگر برای به حداکثر رساندن عملکرد این برنامه و برای کاربران هدف، طراحی شده است.
درک محیط کاربر و صحت استفاده واقعی، از طریق مطالعات گسترده تجربی کاربر و مشارکت واقعی در تمرینات زنده (و دیگران) به دست می آید. بر اساس داده های جمع آوری شده، می توان جزئیاتی از رابط کاربر و نیز شرایط محیطی مورد انتظار که در آن الگوریتم های تشخیص گفتار باید عمل کنند، استخراج نمود.
ABSTRACT
Speech recognition is continually being realized as a user interface in new applications. As this technology progresses, it enables new ways for humans to interact with machines and information. The performance in many domains has approached users’ expectations. Although there are still abundant technology challenges ahead, speech recognition has reached a maturity level that requires one to consider its deployment in complex systems and environments. It is in this vein that we discuss a systems approach to the successful execution of speech recognition within the Force XXI Land Warrior program.
We discuss the System Voice Control component as it fits within the overall program. The requirements for robustness, recognition, and computational complexity issues are addressed. We explicitly cover the system aspects and how they influence the user interface and reveal the parameters for actual use. Finally, we consider the implementation of a polynomial-based classifier for speech recognition, and we provide the final system performance measures on a large domain specific database.
1. INTRODUCTION
The Land Warrior Engineering Manufacturing Development (EMD) program is the Army’s revolutionary program to develop and field a totally integrated Soldier Fighting System. This system uses advanced technologies to render unparalleled effectiveness by providing an improved capability to detect, acquire, locate and engage targets at greater ranges, day or night. The system links the individual soldier to the digitized battlefield for improved communications and situational awareness.
The purpose of the Force XXI Land Warrior program is to accelerate the fielding of advanced technology upgrades to the Land Warrior EMD platform. This ensures a global technology advantage for dismounted warrior combat systems.
The System Voice Control (SVC) component of Force XXI Land Warrior provides a speech interface to the existing soldier computer from the Land Warrior EMD program. The intent is to provide the dismounted soldier with an efficient method of hands-busy, eyes-busy control of the soldier system. Figure 1 illustrates the SVC concept.
The application of speech recognition in a combat environment elicits challenging performance requirements. Both recognition and out-of-vocabulary (OOV) rejection must maintain usable performance levels in adverse noise conditions. In addition, the system must respond to a wide dynamic range of voice levels – low levels for covert operations, and high levels for noisy situations. Voice stress is another concern for performance, as the Lombard effect [1] is often encountered. Finally, the algorithms must be computationally efficient so as not to drain the system battery, and the word models must be sufficiently small in order to fit into the available memory.
The design of the overall system and the user interface is discussed in Section 2. The structure of the actual fielded speech recognition algorithm, which is based on a polynomial classifier, is explained in Section 3. In Sections 4 and 5, solutions to the technical problems of noise robustness, stressed speech and outof-vocabulary rejection are discussed. Finally, the validation and results of the final system are given in Section 6.
2. SYSTEM DESIGN & USER INTERFACE
The basic block diagram of the SVC component is shown in Figure 2. The soldier depresses a button on his weapon to initiate the recognition system. A close-talking noise-canceling microphone captures the spoken command, which is digitized by an A/D. The recognizer processes the sampled speech, and the appropriate response is generated by the soldier computer.
The successful deployment of speech recognition is credited with the systems approach to the design and implementation of SVC. Each component, from the user interface to the back-end classifier, is designed to work together in order to maximize performance for this application and for the target users.
Understanding of the users’ environment and true use scenarios is gained through extensive user experience studies and actual involvement in live-fire (and other) exercises. Based on the collected data, one extracts detailed user interface specifications as well as the expected environmental conditions in which the speech recognition algorithms must operate.
خلاصه
1. مقدمه
2. طراحی سیستم و رابط کاربر
3. ساختار طبقه بندی شده
4. سخنرانی پر صدا و استرس زا
5. رد کردن خارج از واژه
6. اعتبارسنجی
7. نتیجه گیری
منابع
ABSTRACT
1. INTRODUCTION
2. SYSTEM DESIGN & USER INTERFACE
3. CLASSIFIER STRUCTURE
4. NOISE & STRESSED SPEECH
5. OUT-OF-VOCABULARY REJECTION
6. VALIDATION
7. CONCLUSIONS
REFERENCES