چکیده
یادگیری مادام العمر در حوزه رباتیک مستقل برای دستیابی و تنظیم مناسب دانش با کسب تجربه نقش بنیادین دارد. با این حال، مدل های متداول شبکه های عصبی عمیق برای تشخیص عمل از روی ویدیو یادگیری مادام العمر را در نظر نمی گیرند اما در عوض مجموعه، داده های آموزش را همراه با تعداد پیش تعریف شده از دسته ها و نمونه های عمل یاد می گیرد. بنابراین، نیاز به توسعه سیستم های یادگیری همراه با توانایی پردازش تدریجی نشانه های ادراکی و تنظیم پاسخ های آن ها در طی زمان وجود دارد. ما معماری شبکه عصبی خود سازمان دهی را برای یادگیری تدریجی به منظور طبقه بندی اقدامات انسان براساس دنباله های ویدیویی پیشنهاد می دهیم. این معماری شامل شبکه های در حال رشد خود سازمانی است که با نرون های بازگشتی برای پردازش الگوهای متغیر با زمان تجهیز شده است. ما از مجموعه شبکه های بازگشت مجدد با ساختار سلسله مراتبی استفاده می کنیم که برای یادگیری غیر نظارتی نمایش های اقدام همراه با حوزه های پذیرش فاصله زمانی به طور فزاینده بزرگ ترتیب داده شده است. یادگیری مادام العمر براساس پویایی عصبی مبتنی بر پیش بینی به دست می آید به طوری که رشد و پذیرش شبکه های بازگشتی توسط قابلیت آن ها در بازسازی موقت دنباله های ورودی راه اندازی می شود. نتایج تجربی براساس یک کار دسته بندی با استفاده از دو مجموعه داده (دیتاست) معیار عمل نشان می دهد که مدل پیشنهادی با بهترین روش های موجود برای یادگیری گروهی قابل رقابت است، حتی زمانی که تعداد قابل توجهی از برچسب های نمونه در طی جلسات آموزش گم شده یا خراب و معیوب شده است. آزمایش های بیشتر توانایی مدل پیشنهادی در سازگاری با ورودی غیر ساکن با اجتناب از تداخل فاجعه بار را نشان می دهد.
1. مقدمه
تشخیص استوار اعمال افراد، مولفه ای حیاتی می باشد که به عنوان زیربنای شناخت اجتماعی شناخته می شود. مطالعات نوروفیزیولوژیکی یک حوزه تخصصی برای کدگذاری دیداری حرکت مفصلی در مغز پستانداران شناسایی کرده (Perrett، Rolls و Caan، 1982)، که از نورونهای انتخابی برای حرکت بیولوژیکی (زیستی) از لحاظ الگوهای متغیر برحسب زمان ویژگیهای شکل و حرکت با افزایش پیچیدگی نمایش (بازنمایی) تشکیل می شود (Giese و Rizzolatti، 2015). سازمان سلسله مراتبی قشر دیداری، الهام بخش مدلهای محاسباتی برای تشخیص عمل از ویدیوها بوده و معماریهای شبکه عصبی عمیق، برروی مجموعه داده های محک، نتایج پیشرفته ای حاصل می کنند (مثلاً، Baccouche، Mamalet، Wolf، Garcia و Baskurt، 2011؛ Jain، Tompson، LeCun، و Bregler، 2015؛ Jung، Hwang و Tani، 2015).
Abstract
Lifelong learning is fundamental in autonomous robotics for the acquisition and fine-tuning of knowledge through experience. However, conventional deep neural models for action recognition from videos do not account for lifelong learning but rather learn a batch of training data with a predefined number of action classes and samples. Thus, there is the need to develop learning systems with the ability to incrementally process available perceptual cues and to adapt their responses over time. We propose a self-organizing neural architecture for incrementally learning to classify human actions from video sequences. The architecture comprises growing self-organizing networks equipped with recurrent neurons for processing time-varying patterns. We use a set of hierarchically arranged recurrent networks for the unsupervised learning of action representations with increasingly large spatiotemporal receptive fields. Lifelong learning is achieved in terms of prediction-driven neural dynamics in which the growth and the adaptation of the recurrent networks are driven by their capability to reconstruct temporally ordered input sequences. Experimental results on a classification task using two action benchmark datasets show that our model is competitive with state-of-the-art methods for batch learning also when a significant number of sample labels are missing or corrupted during training sessions. Additional experiments show the ability of our model to adapt to non-stationary input avoiding catastrophic interference.
1. Introduction
The robust recognition of other people’s actions represents a crucial component underlying social cognition. Neurophysiological studies have identified a specialized area for the visual coding of articulated motion in the mammalian brain (Perrett, Rolls, & Caan, 1982), comprising neurons selective to biological motion in terms of time-varying patterns of form and motion features with increasing complexity of representation (Giese & Rizzolatti, 2015). The hierarchical organization of the visual cortex has inspired computational models for action recognition from videos, with deep neural network architectures producing state-of-the-art results on a set of benchmark datasets (e.g. Baccouche, Mamalet, Wolf, Garcia, & Baskurt, 2011; Jain, Tompson, LeCun, & Bregler, 2015; Jung, Hwang, & Tani, 2015).
چکیده
1. مقدمه
2. کارهای مرتبط
1. 2. مدلهای محاسباتی خود سازمان دهنده عصبی
2. 2 شبکه های خود سازمان دهنده بازگشتی
3. 2 یادگیری مادام العمر
3. روش پیشنهادی
1. 3 خود سازمان دهنده عصبی سلسله مراتبی
2. 3 شبکه Gamma-GWR
3. 3 یادگیری مادام العمر
4. 3 لایه های پولینگ
5. 3. یادگیری انجمنی و طبقه بندی
4. آزمایشات و نتایج
1. 4 پارامترهای آموزشی
2. 4. صحت طبقه بندی با یادگیری دسته ای
3. 4. طبقه بندی با برچسب های گم شده یا خراب
4. 4 . پویایی یادگیری
5. 4. تداخل فجیع و جبران ناپذیر
5. بحث
1. 5. خلاصه
2. 5. خود سازمان دهنده عصبی عمیق
3. 5. یادگیری مادام العمر نمایش های عمل
6. نتیجه گیری
Abstract
1. Introduction
2. Related work
2.1. Computational models of neural self-organization
2.2. Recurrent self-organizing networks
2.3. Lifelong learning
3. Proposed method
3.1. Hierarchical neural self-organization
3.2. Gamma-GWR network
3.3. Lifelong learning
3.4. Pooling layers
3.5. Associative learning and classification
4. Experiments and results
4.1. Training parameters
4.2. Classification accuracy with batch learning
4.3. Classification with missing or corrupted labels
4.4. Learning dynamics
4.5. Catastrophic interference
5. Discussion
5.1. Summary
5.2. Deep neural self-organization
5.3. Lifelong learning of action representations
6. Conclusion