چکیده
شناسایی گویشور از گفتار نجوایی، در زمینه ی علوم قانونی و بسیاری دیگر از کاربرد ها، دارای اهمیت بسیار زیادی می باشد. گفتار نجوایی از نظر مشخصات، نسبت به گفتار عادی تغییرات زیاد و مهمی را دارد. ازین رو وظیفه ی شناسایی با استفاده از این گفتار دشوار می شود. این مقاله، روش استفاده از ویژگی های طنین با عملکرد خوب از طریق روش انتخاب هیبریدی ( ترکیبی) و تاثیر معیار های فاصله ای مورد استفاده در کلاسیفایر KNN بر روی صحت شناسایی را ارائه می کند. نتایج استفاده از ویژگی های طنین با ویژگی های MFCC مقایسه شده است ؛ صحت مورد اول از روش دوم بیشتر می باشد. کلاسیفایر KNN با محتمل ترین تابع فاصله برای دیتابیس گفتار نجوایی مانند Euclidean و City-block با یکدیگر مقایسه شده اند. ترکیب ویژگی های طنین و کلاسیفایر KNN با تابع فاصله ی City Block ، بیشترین صحت شناسایی را برای ما ایجاد کرد.
1. مقدمه
تحلیل گویشور شامل کاربرد هایی مانند شناسایی / تایید ، مشخص کردن گروه های سنی و جنسیتی ، لهجه ، گویش و غیره می باشد. در هر تحلیل مستقل از متن در رابطه با گویشور، باید صدای گویشور با استفاده از بعضی از پارامتر های خاص که با نام ویژگی شناخته می شوند، توصیف شود. تولید صدای واکدار عادی به عنوان یک منبع مهم برای توصیف و یا مدل سازی گویشور مورد استفاده قرار می گیرد ؛ زیرا یک سری اطلاعات رزونانس غنی در سیگنال های دوره ای با انرژی بالا وجود دارد. اما در رابطه با گویش نجوایی، آشفتگی هوا بدون لرزش تار آوا موجب می شود که شرایط عمومی تولید صدا تغییر کند. این موضوع مهم ترین دشواری در میان دیگر دلایلی است که در مقالات مرتبط با شناسایی گویشور نجوایی مطرح شده است. تغییرات محسوسی بین نجوا و گفتار عادی از نظر حالت تناوبی، مکان فورمنت ها ، و شرایط مرزی شیب برای مکان حروف صدادار وجود دارد. اما، مشخص شده است که تلاش های آوایی در شرایط نجوا، موجب ایجاد آشفتگی زیاد در همخوان های بی واک نمی شود. ازین رو، بخش بی واک در گفتار عادی و گفتار نجوایی مهم ترین نقش برای شناسایی گویشور در سناریو گفتار عادی – نجوایی ایفا می کند. دوما، گویشور ها به سختی می توانند برای مدت زمان طولانی به حالت نجوایی صحبت کنند ( بیشتر از 30 ثانیه). ثابت شده است که برای 1) مدت زمان طولانی حالت نجوایی و 2 ) مدت زمان کوتاه گفتار عادی ( بدون نجوا) در مقایسه با 3) مدت زمان کوتاه گفتار نجوایی نتایج خوبی به دست می آید. بنابراین نجوا های طولانی تر ( 2 تا 3 ثانیه) شامل بخش هایی از تولید صدای واک دار ناقص می باشند و ازین رو موجب افزایش صحت شناسایی گویشور می شود.
Abstract
Speaker identification from the whispered speech is of great importance in the field of forensic science as well as in many other applications. Whispered speech shows many changes in the characteristics to its neutral counterpart. Hence the task of identification becomes difficult. This paper presents the use of only well-performing timbrel features selected by Hybrid selection method and effect of distance measures used in KNN classifier on the identification accuracy. The results using timbrel features are compared with MFCC features; the accuracy with the former is observed higher. KNN classifier with most probable distance function suitable for a whispered database like Euclidean and City-block are also compared. The combination of timbrel features and KNN classifiers with city block distance function have reported the highest identification accuracy.
1 Introduction
Speaker analysis includes applications like speaker identification/verification, gender and age group labeling, accent/ dialect, etc. In any text-independent analysis of speaker, it is required to characterize the speaker’s voice by some unique parameters called features. The normal voiced phonation is considered as the important source for characterization or modeling of a speaker; as a rich resonance information is available in a high-energy periodic signal. However, while whispering, an air turbulence without vibrating vocal chord changes the general condition of phonation (Beigi 2012). This is the most probable difficulty among all other reasons discussed in the literature for whispering speaker identification. Significant changes found between whisper and neutral speech in terms of periodicity, formants’ location, and spectral slope boundaries of vowel regions. However, it is proved that vocal effort while whisper does not disturb unvoiced consonants as much (Fan and Hansen 2011). Hence, unvoiced part in neutral and whispered speech plays major role to identify speaker in neutral-whisper scenario. Secondly, speakers found it difficult to continue whispering for long duration (beyond 30 s). It is proved by good identification results for (i) long and whispered, and (ii) short and normal (non-whispered) compared to (iii) short and whispered (Foulkes and Sóskuthy 2017). So longer whisper (2–3 s) will consist of partial voiced phonation, thus increasing speaker identification accuracy.
چکیده
1. مقدمه
2. توصیف سیستم
2.1 دیتابیس گویشور
2.2 الگوریتم ترکیبی انتخاب ویژگی ها
2.3 توصیف کننده های صوتی انتخاب شده
2.4 طبقه بندی کننده نزدیک ترین همسایه K (KNN)
3. نتایج
3.1 صحت شناسایی برای حالت های مختلف کلام همراه با ویژگی های مختلف و توابع فاصله و برای افزایش تعداد ویژگی ها
3.2 ماتریس در هم ریختگی
4. جمع بندی
Abstract
1 Introduction
2 System description
2.1 Speaker database
2.2 Hybrid selection algorithm
2.3 Selected audio descriptors
2.4 K nearest neighbor (KNN) classifier
3 Results
3.1 Identification accuracy for different speech modes along with different features & distance functions, and for increasing number of speakers
3.2 Confusion matrix
4 Conclusion