چکیده
داده های بسیار بزرگ و با ابعاد بالا امروزه شایع بوده و چالش های جدیدی را بر الگوریتم های داده محور و داده فشرده تحمیل می نمایند. تکنیک های هوش محاسباتی از توانایی بالقوه ارائه ابزارهای قدرتمند برای پرداختن به این چالش ها برخوردارند اما ادبیات حاضر عمدتاً بر مسائل مقیاس پذیری مربوط به حجم داده ها بر حسب اندازه نمونه در راستای امور طبقه بندی متمرکز است.
کار حاضر رویکرد نظام مند و جامعی را برای پرداختن بهینه به امور رگرسیون با داده های بسیار بزرگ و با ابعاد بالا ارائه می نماید. رویکرد پیشنهادی مبتنی بر تکنیک های نمونه برداری هوشمند به منظور تقلیل تعداد نمونه های تولیدی با استفاده از یک رویکرد تکرار شونده می باشد که مجموعه نمونه های جدیدی را تا زمانی که فضای ورودی و خروجی تابع تقریبی به صورت بهینه پوشش داده شوند، ایجاد می نماید. یادگیری تابع افزایشی در هر تکرار نمونه برداری رخ داده و از نمونه های جدید برای هماهنگ سازی نتایج رگرسیون الگوریتم یادگیری تابع استفاده می شود. سطح دقت و اطمینان تابع تقریب حاصله با استفاده از چارچوب محاسبات احتمالی و تقریبی صحیح ارزیابی می گردد.
تکنیک های نمونه برداری هوشمند و یادگیری تابع افزایشی را به راحتی می توان در برنامه های کاربردی به کار برد مقیاس پذیری مناسبی در داده های بسیار بزرگ دارند. نتایج مطلوب و امکان سنجی تکنیک های پیشنهادی با استفاده از توابع معیار و نیز توابع حاصل از مسائل دنیای واقعی مشخص گردیده است.
1. مقدمه
شبیه سازی مبتنی بر کامپیوتر سیستم های فوق العاده پیچیده ریاضی در توصیف مدل های فیزیکی، شیمیایی، دینامیکی و مهندسی چند وجهی معمولاً با هزینه های گزافی از نظر زمان پردازش و ذخیره سازی همراه هستند. مدل های ریاضی پیچیده در طیف گسترده ای از حوزه های علمی مانند: شبیه سازی فرآیندهای جوی در پیش بینی عددی آب و هوا (هان و پان، 2011؛ هسیه و تنگ، 1998؛ لینچ، 2006؛ مورکرت، 1991)، مدلسازی اقلیم (فلاتو و همکاران، 2013؛ گوردون و همکاران، 2000)، حمل و نقل مواد شیمیایی (گرل و همکاران، 2005؛ منوت و همکاران، 2013)، انتقال تابشی (جیمنو گارسیا، تراوتمن، و ونما، 2012) و شبیه سازی گردابه بزرگ (ساگوت، 2006) عرضه شدند. دیگر رشته های علمی از قبیل: ژنتیک، آیرودینامیک، و یا مکانیک آماری نیز از مدل های بسیار پیچیده ای استفاده می کنند. فضای ورودی این مدل ها دارای ابعاد بالایی با صدها مولفه و یا بیشتر هستند. استفاده از مدل های واقعی تر معمولاً ابعاد جدیدی را معرفی نموده و منجر به افزایش نمایی حجم یعنی "داده های بزرگ" می گردد (هیلبرت و لوپز، 2011؛ لینچ، 2008).
Abstract
Very large high dimensional data are common nowadays and they impose new challenges to data-driven and data-intensive algorithms. Computational Intelligence techniques have the potential to provide powerful tools for addressing these challenges, but the current literature focuses mainly on handling scalability issues related to data volume in terms of sample size for classification tasks.
This work presents a systematic and comprehensive approach for optimally handling regression tasks with very large high dimensional data. The proposed approach is based on smart sampling techniques for minimizing the number of samples to be generated by using an iterative approach that creates new sample sets until the input and output space of the function to be approximated are optimally covered. Incremental function learning takes place in each sampling iteration, the new samples are used to fine tune the regression results of the function learning algorithm. The accuracy and confidence levels of the resulting approximation function are assessed using the probably approximately correct computation framework.
The smart sampling and incremental function learning techniques can be easily used in practical applications and scale well in the case of extremely large data. The feasibility and good results of the proposed techniques are demonstrated using benchmark functions as well as functions from real-world problems.
1. Introduction
Computer-based simulations of tremendously complex mathematical systems describing multifaceted physical, chemical, dynamical and engineering models are usually associated with very expensive costs in terms of processing time and storage. Complex mathematical models are present in a wide variety of scientific areas such as the simulation of atmospheric processes in numerical weather prediction (Han & Pan, 2011; Hsieh & Tang, 1998; Lynch, 2006; Morcrette, 1991), climate modeling (Flato et al., 2013), (Gordon et al., 2000), chemical transport (Grell et al., 2005), (Menut et al., 2013), radiative transfer (Gimeno García, Trautmann, & Venema, 2012) and large eddy simulations (Sagaut, 2006). Other scientific disciplines such as genetics, aerodynamics, or statistical mechanics also make use of highly complex models. The input space of these models can be of high dimensionality with hundreds or more components. The usage of more realistic models usually introduces new dimensions leading to an exponential increase in volume, i.e. ‘‘Big Data’’ (Hilbert & López, 2011; Lynch, 2008).
چکیده
1. مقدمه
2. روش های نمونه برداری داده ها
2.1. روش های تصادفی
2.2. روش های قطعی
2.3. روش های هندسی
2.4. روش های ترکیبی
2.5. نمونه برداری در فضای با ابعاد بالا
2.6. توزیع غیر یکنواخت نمونه برداری
2.7. نمونه برداری اهمیت
3. مقایسه روش های نمونه برداری
3.1. توابع معیار
3.2. اختلاف به عنوان معیاری از یکنواختی در فضای ورودی
3.3. معیارهای آماری تابع پاسخ در فضای خروجی
4. الگوریتم نمونه برداری هوشمند و یادگیری تابع افزایشی
4.1. مرحله مقداردهی اولیه
4.2. نمونه برداری هوشمند در خلال مقداردهی اولیه
4.3. نمونه برداری هوشمند در خلال تکرار
4.4. یادگیری تابع افزایشی
4.5. بررسی همگرایی
4.6. تعیین سطح دقت و اطمینان تقریب زننده
5. نتایج
5.1. رگرسیون تابع معیار فضای ورودی 5 بُعدی
5.2. رگرسیون تابع معیار فضای ورودی 100 بُعدی
5.3. رگرسیون تابع فضای خروجی 62 بُعدی حاصل از یک مساله دنیای واقعی
5.4. رگرسیون تابع فضای ورودی 280 بُعدی حاصل از یک مساله در دنیای واقعی
6. نتیجه گیری ها
a b s t r a c t
1. Introduction
2. Data sampling methods
2.1. Stochastic methods
2.2. Deterministic methods
2.3. Geometrical methods
2.4. Hybrid methods
2.5. Sampling in high dimensional space
2.6. Sampling non-uniform distributions
2.7. Importance sampling
3. Comparison of sampling methods
3.1. Benchmark functions
3.2. Discrepancy as measure of uniformity in the input space
3.3. Statistical measures of the response function in the output space
4. Smart sampling and incremental function learning algorithm
4.1. Initialization phase
4.2. Smart sampling during initialization
4.3. Smart sampling during iteration
4.4. Incremental function learning
4.5. Check convergence
4.6. Determine approximator accuracy and confidence levels
5. Results
5.1. Regression of 5-D input space benchmark function
5.2. Regression of 100-D input space benchmark function
5.3. Regression of 62-D output space function from a real-world problem
5.4. Regression of 280-D input space function from a real-world problem
6. Conclusions