چکیده
این مقاله، تشخیص عبارتهای گفتاری انگلیسی را در یک سناریوی چندزبانهی محاورهای بررسی میکند. گفتار، با استفاده از یک سیستم بازشناسی گفتار پیوسته ی با واژگان بزرگ، پردازش میشود. خروجی بازشناخت، به شکل شبکههای بازشناخت گفتار ارائه میشود که سپس برای جستجوی عبارتهای موردنیاز مورداستفاده قرار میگیرند. با توجه به بخشهای گفتاری چندزبانهی بالقوه در ورودی، سیستم تشخیص عبارت گفتاری، بهمنظور تنظیم (تعدیل) امتیازهای اطمینان خودش، با یک واحد (مدل) اجراکنندهی تشخیص خارج از زبانی ترکیب میشود. اول، نتایج آزمایشگاهی تشخیص عبارت گفتاری، بر اساس داده پایگاههای گفتاری تلفنی محاورهای که توسط NIST در سال 2006 منتشرشده بودند، به دست آمدند. سپس این سیستم بر اساس یک داده پایگاه چندزبانهی دارای و بدون استفاده از واحد تشخیص خارج از زبان ارزیابی شد، که در اینجا ما تنها به تشخیص عبارتهای انگلیسی علاقهمند بودیم (که در فهرست داده پایگاه ذخیرهشده بودند). چندین استراتژی برای ترکیب این 2 سیستم در یک مسیر اثربخش، پیشنهاد و ارزیابیشده است. حدود 7% افزایش (بهبود) نسبی، نسبت به کاربرد STD بهتنهایی، به دست آمد.
1- مقدمه
تشخیص عبارت گفتاری (STD)، به تشخیص یک واژه یا عبارت موجود در گفتار نامحدود کمک میکند و معمولاً برای جستجو در آرشیوهای بزرگ فایلهای ضبطشدهی گفتاری، در بسیاری از کاربردها استفاده میشود (بهعنوانمثال اطلاعات جلسات، گفتگوی تلفنی، مکالمات نامحدود). سیستمهای STD سنتی 2 مرحله، ازجمله، فهرست سازی (نمایهسازی) و جستجو کنندگی را اجرا میکردند. اول، گفتار ورودی پردازش (رمزگشایی) میشود و خروجیهای بهدستآمده در فهرست (نمایه) ذخیره میشوند. به این معنی که گفتار، با استفاده از یک توالی از گفتارها (کلمات) یا اصوات بازشناسی شده، برچسب میخورد. سپس، این فهرست (نمایه)، بهمنظور اعاده ی موقعیت عبارت تعیینشده، مورد جستجو قرار میگیرد.
ABSTRACT
This paper investigates the detection of English spoken terms in a conversational multi-language scenario. The speech is processed using a large vocabulary continuous speech recognition system. The recognition output is represented in the form of word recognition lattices which are then used to search required terms. Due to the potential multi-lingual speech segments at the input, the spoken term detection system is combined with a module performing out-oflanguage detection to adjust its con¿dence scores. First, experimental results of spoken term detection are provided on the conversational telephone speech database distributed by NIST in 2006. Then, the system is evaluated on a multi-lingual database with and without employment of the out-of-language detection module, where we are only interested in detecting English terms (stored in the index database). Several strategies to combine these two systems in an ef¿cient way are proposed and evaluated. Around 7% relative improvement over a stand-alone STD is achieved.
1. INTRODUCTION
Spoken Term Detection (STD) [1] aims at detecting a word or phrase in unconstrained speech and is typically used in searching large archives of recorded speech in many applications (e.g., meeting data, telephone speech, unconstrained conversations). Traditional STD systems perform two steps denoted as indexing and searching. First, the input speech is processed (decoded) and the outputs obtained are stored in the index. i.e., the speech is tagged using the sequence of recognized words or phonemes. Then, the index is searched in order to return the location of the determined term.
چکیده
1.مقدمه
2- STD مبتنی بر شبکههای گفتاری که توسط LVCSR ایجاد شدهاند
1-2- سیستم LVCSR
2-2 – ارزیابی سیستم STD بهتنهایی
3- واحد تشخیص OOL
1-3- ارزیابی واحد تشخیص OOL بهتنهایی
4- ترکیب سیستمهای تشخیص OOL و STD
5- بحث و نتیجهگیری
Abstract
1.INTRODUCTION
2. STD BASED ON WORD LATTICES GENERATED BY LVCSR
2.1. LVCSR system
2.2. Evaluation of stand-alone STD system
3.OOL DETECTION MODULE
3.1. Evaluation of stand-alone OOL detection module
4.COMBINATION OF STD AND OOL DETECTION SYSTEMS
5.DISCUSSIONS AND CONCLUSIONS