چکیده
سابقه. پاسخ به فرکانس (FFR) پتانسیل الکتروفیزیولوژیک ثبت شده توسط پوست سر می باشد که منعکس کننده فعالیت قفل شده فاز از گروه های عصبی در سیستم شنوایی است. از FFR اغلب برای ارزیابی استحکام پردازش گام زیرقشری استفاده می شود. با توجه به نسبت کم سیگنال به نویز در سطح تک آزمون، FFR معمولاً میانگین هزاران تکرار محرک می باشد. کار پیشین با استفاده از رویکرد مزبور نشان داد که رمزگذاری زیرقشری الگوهای گام زبانی مربوطه توسط تجربیات زبانی درازمدت تعدیل شده اند.
روش جدید. ما به بررسی میزان بکارگیری رویکرد یادگیری ماشینی با استفاده از مدلسازی مخفی مارکوف (HMM) برای رمزگشایی دسته بندی های تُن ماندارین از روی فعالیت الکتروفیزیولوژیکی ثبت شده توسط پوست سر می پردازیم. پس از آن میزان ثبت اثرات بیولوژیکی مربوطه (انعطاف پذیری مبتنی بر تجربه زبانی) توسط HMM را ارزیابی می نماییم. بدین منظور، ما FFR را برای چهار تُن ماندارین از 14 چینی زبان بزرگسال بومی و از 14 انگلیسی زبان بزرگسال بومی ثبت نمودیم. ما یک HMM را برای رمزگشایی دسته بندی های تُن از FFR با اندازه میانگین مختلف آماده نمودیم.
نتایج و مقایسه با روش های موجود. دسته بندی های تُن با استفاده از HMM با احتمال صحت و دقت بالا رمزگشایی شدند. مقیاس مشتق از HMM (صحت و دقت رمزگشایی) اثر قدرتمند تجربیات زبانی را آشکار ساخت به طوری که FFR حاصل از چینی زبانان بومی دارای صحت و دقت بیشتری از انگلیسی زبانان بومی بود. به صورت خاص، انعطاف پذیری مبتنی بر تجربه زبانی اخذ شده با اندازه میانگین به صورت معنی داری کمتر از میزان استفاده شده آن در ادبیات موجود بود.
نتیجه گیری ها. نتایج ما امکان پذیری HMM را در ارزیابی استحکام گام های عصبی نشان داد. رویکردهای یادگیری ماشینی می توانند مکمل روش های تحلیلی موجود باشند که کارکرد شنوایی را به دست آورده و می توانند تعداد آزمایشات مورد نیاز برای اخذ پدیده های بیولوژیکی را کاهش دهند.
1. مقدمه
گام [زیر و بمی یا ارتفاع صوت] برای پردازش گفتار و موسیقی امری حیاتی شمرده می شود (لدفوگد و مدیسون، 1998؛ پاتل، 2010). به عنوان مثال، گویندگان زبان های آهنگین یا تُنال (به عنوان مثال، چینی) بر الگوهای گام مرتبط با صوت شناسی (یعنی تُن های واژگانی) برای انتقال معانی مختلف کلمه تکیه می کنند (گاندور، 1983؛ لدفوگد و مدیسون، 1998). نشانـــه های اصلی مورد استفاده برای دسته بندی ادراکی چنین تُن های واژگانی عبارتند از: ارتفاع گام و جهت گام (گاندور، 1994؛ فرانسیس و کیوکا، 2003). رمزگذاری عصبی گام اغلب به وسیله پاسخ به فرکانس (FFR) ارزیابی می گردد.
پاسخ به فرکانس (FFR) پتانسیل الکتروفیزیولوژیک ثبت شده توسط پوست سر بوده که منعکس کننده فعالیت قفل شده فاز حاصل از گروه های عصبی درگیر در پردازش ویژگی های صوتی سطح پایین محسوب می گردد (بیدلمن، 2015؛ چاندراسکاران و کراوس، 2010؛ کریشنان، گاندور، و بیدلمن، 2010؛ کافی، هرلوز، چپسیوک، بایلت، و زاتوره، 2006؛ اسمیت، مارش، و براون، 1975؛ سوهمر، پرات، و کینارتی، 1977). هر چند که عموماً تصور می گردد که FFR کاملاً توسط ساختمان های شنوایی زیرقشری تولید می شوند (به عنوان مثال، کریشنان و همکاران، 2005) اما شواهد اخیر بیانگر نقش آفرینی قشر شنوایی می باشد (کافی و همکاران، 2016). یک خاصیت مهم FFR در نظر گرفتن همبسته های طیفی - زمانی گام (به عنوان مثال، فرکانس پایه، F0) با صحت بالا (چاندراسکاران و کراوس، 2010؛ کریشنان، زو، گاندور، و کاریانی، 2004) توسط آن می باشد (شکل 1 را ملاحظه نمایید).
ABSTRACT
Background. The frequency-following response (FFR) is a scalp-recorded electrophysiological potential reflecting phase-locked activity from neural ensembles in the auditory system. The FFR is often used to assess the robustness of subcortical pitch processing. Due to low signal-to-noise ratio at the single-trial level, FFRs are typically averaged across thousands of stimulus repetitions. Prior work using this approach has shown that subcortical encoding of linguistically-relevant pitch patterns is modulated by long-term language experience.
New method. We examine the extent to which a machine learning approach using hidden Markov modeling (HMM) can be utilized to decode Mandarin tone-categories from scalp-record electrophysiolgical activity. We then assess the extent to which the HMM can capture biologically-relevant effects(language experience-driven plasticity). To this end, we recorded FFRs to four Mandarin tones from 14 adult native speakers of Chinese and 14 of native English. We trained a HMM to decode tone categories from the FFRs with varying size of averages.
Results and comparisons with existing methods. Tone categories were decoded with above-chance accuracies using HMM. The HMM derived metric (decoding accuracy) revealed a robust effect of language 3 experience, such that FFRs from native Chinese speakers yielded greater accuracies than native English speakers. Critically, the language experience-driven plasticity was captured with average sizessignificantly smaller than those used in the extant literature.
Conclusions. Our results demonstrate the feasibility of HMM in assessing the robustness of neural pitch. Machine-learning approaches can complement extant analytical methods that capture auditory function and could reduce the number of trials needed to capture biological phenomena.
1 INTRODUCTION
Pitch is critical to speech and music processing (Ladefoged & Maddieson, 1998; Patel, 2010). For example, speakers of tonal languages (e.g., Chinese) rely on phonologically-relevant pitch patterns (i.e., lexical tones) to convey different word meanings(Gandour, 1983; Ladefoged & Maddieson, 1998). The main cues used for perceptual categorization of such lexical tones are pitch height and pitch direction (Gandour, 1994; Francis & Ciocca, 2003). The neural encoding of pitch is often assessed with the frequency-following response (FFR). FFR is a scalp-recorded electrophysiological potential that reflects phase-locked activity from neural ensembles involved in the processing of low level sound characteristics (Bidelman, 2015; Chandrasekaran & Kraus, 2010; Krishnan, Gandour, & Bidelman, 2010; Coffey, Herholz, Chepesiuk, Baillet, & Zatorre, 2006; Smith, Marsh, & Brown, 1975; Sohmer, Pratt, & Kinarti, 1977). Although it is generally considered that the FFR is entirely generated by auditory subcortical structures (e.g., Krishnan et al., 2005), recent evidence suggests a contribution from auditory cortex (Coffey et al. 2016). An important property of the FFR is that it captures the spectro-temporal correlates of the pitch (e.g., the fundamental 4 frequency, F0) with high fidelity (Chandrasekaran & Kraus, 2010; Krishnan, Xu, Gandour, & Cariani, 2004) (see Fig-1)
چکیده
1. مقدمه
2. روش ها
2.1. شرکت کنندگان
2.2. محرک
2.3. کسب داده های الکتروفیزیولوژیک
2.4. پیش پردازش داده های الکتروفیزیولوژیک
3. مدلسازی مخفی مارکوف الگوسازی گام عصبی
3.1. روند استخراج F0
3.2. 2 توپولوژی تصادفی و کمّی سازی بردار
3.3. آموزش، آزمون، و اعتبارسنجی متقابل
3.4. روش میانگین گیری
3.5 دستکاری در اندازه آموزش، آزمون و میانگین گیری
3.6. صحت و دقت رمزگشایی تُن در طی زمان
4. تجزیه و تحلیل آماری و نتایج
4.1 اعتبارسنجی مجموعه داده های FFR
4.2. صحت و دقت رمزگشایی تُن
4.3. تفاوت های گروه زبانی
4.4. صحت و دقت رمزگشایی تُن در طی زمان
5. بحث کلی
5.1. نتایج و نقش آفرینی های عمده
5.2. انعطاف پذیری عصبی وابسته به زبان
5.3. صحت و دقت رمزگشایی تُن در طی زمان
5.4. نتیجه گیری و جهت گیری های آتی
ABSTRACT
1 INTRODUCTION
2 METHODS
2.1 Participants
2.2 Stimuli
2.3 Electrophysiological data acquisition
2.4 Preprocessing of electrophysiological data
3 HIDDEN MARKOV MODELING OF NEURAL PITCH PATTERNS
3.1 F0 extraction procedure
3.2 Stochastic topology and vector quantization
3.3 Training, testing, and cross-validation
3.4 Averaging method
3.5 Manipulation of training, testing, and averaging size
3.6 Tone decoding accuracy over time
4 STATISTICAL ANALYSES AND RESULTS
4.1 FFR dataset validation
4.2 Tone decoding accuracy
4.3 Language group differences
4.4 Tone decoding accuracy over time
5 GENERAL DISCUSSION
5.1 Results and major contributions
5.2 Language-dependent neural plasticity
5.3 Tone decoding accuracy over time
5.4 Conclusion and future directions
ACKNOWLEDGMENTS