چکیده
با رشد سایز و پیچیدگی مراکز داده برای پاسخدهی به تقاضای رو به افزایش منابع رایانشی، خرابی به جای یک خطا به یک هنجار تبدیل شده است. روشهای سنتی تأمین اتکاپذیری برای تحمل خطا، بر روی برنامه های نسخه برداری واکنش گرا تمرکز داشتند. در حالی که روشهای جدید بر روی نقطه بررسی / بازنشانی یک کار ( که می تواند در سیستمهای بزرگ باعث سربار زیادی شود) و بازنشانی به معنای تکرار یک کار است متکی هستند و در نتیجه منابع بیشتری را برای تامین قابلیت اعتماد و دسترس پذیری بالاتر استفاده می کنند. تحمل خطای کنش گرا در یک سیستم بزرگ راهکاری را برای اجتناب از خطا و بازیابی سیستم از حالت خطا فراهم می کند. اگرچه برنامه های تحمل خطا مختلف، محیطهای محاسبه اتکاپذیر مختلفی را برای هر دوی فراهم کننده و مشتری فراهم می کنند.
در این مقاله دو روش جدید تحمل خطا از لحاظ دسترس پذیری محیط رایانش برای مشتری های ابر و هزینه انرژی برای فراهم کنندگان ابر با هم مقایسه شده است. نتایج نشان می دهد که روشهای فعال در معیار هزینه برای فرهم کننده ابر و خدمات رسانی به مشتری بر روشهای سنتی غلبه می کنند. اگرچه اتکاپذیری محیط رایانش فراهم شده توسط روشهای تحمل خطای کنش گرا بسیار وابسته به دقت پیش بینی خرابی است.
1- معرفی
با توجه به روند موجود در اقتصاد مبتنی بر خدمات [1] که توسط زیرساختهای رایانشی توزیع شده مانند رایانش ابری پشتیبانی می شوند، نگرانی زیادی در مورد کیفیت و در دسترس پذیری خدمات ارائه شده وجود دارد. اگرچه فراهم کردن کیفیت خدمات (QoS) تضمین شده برای کاربران، یک کار بسیار دشوار و پیچیده است [2] چون تقاضای خدمات مصرف کنندگان در طول زمان تغییر می کند. این مشکل زمانی که دسترس پذیری گره پردازشی مد نظر باشد تشدید می شود. بر اساس تعریف یک سیستم دسترس پذیر است اگر میزان زمانهای از کار افتادن آن پایین باشد. حال یا به این دلیل که از رخداد کار افتادن آن نادر است و یا اینکه به سرعت بازنشانی می شود. بنابراین دسترس پذیری بخشی از قابلیت اعتماد است که بر اساس تعریف (IEEE) [3] قابلیت اعتماد، توانایی سیستم یا اجزا مورد نظر برای انجام عملکرد درخواست شده از آن تحت شرایط مشخص و در زمان مشخص است. قابلیت اعتماد را می توان به وسیله میانگین زمان بین دو خرابی ( از کار افتادن) (MTBF) اندازه گیری کرد که توسط سازنده اجزا تخمین زده می شود.
5- نتیجه گیری
این مقاله تاثیرگذاری دو روش تحمل خطای پیشرفته که برای فراهم شدن فضای ابری قابل اتکا استفاده می شوند را ارزیابی کرده است. خرابی ها تهدیدی برای دسترس پذیری و قابلیت اتکای یک سیستم و خدمات ارائه شده است. متاسفانه با رشد زیاد مراکز داده بسیار بزرگ که برای پاسخدهی به تقاضاهای منابع رایانشی و خدمات ساخته می شوند، خرابی اجزا به جای یک خطا به یک هنجار تبدیل شده است. بنابراین موفقیت رایانش etascale/exascale نیازمند فراهم کردن قابلیت اعتماد و دسترس پذیری در مقیاسهای بزرگ است. روشهای تحمل خطا مختلفی برای حل این مسئله و تامین محیط رایانش اتکاپذیر وحود دارند. با این حال اتکا پذیری سیستم با هر هزینه ای یک راه حل نیست چون مصرف انرژی و در نتیجه هزینه های فراهم کننده را بالا می برد.
Abstract
As data centres continue to grow in size and complexity in order to respond to the increasing demand for computing resources, failures become the norm instead of an exception. To provide dependability at scale, traditional techniques to tolerate faults focus on reactive, redundant schemes. While the former relies on the checkpointing/restart of a job (which could incur significant overhead in a large-scale system), the latter replicates tasks, thus consuming extra resources to achieve higher reliability and availability of computing environments. Proactive fault-tolerance in large systems represents a new trend to avoid, cope with and recover from failures. However, different fault-tolerance schemes provide different levels of computing environment dependability at diverse costs to both providers and consumers.
In this paper, two state-of-the-art fault-tolerance techniques are compared in terms of availability of computing environments to cloud consumers and energy costs to cloud providers. The results show that proactive fault-tolerance techniques outperform traditional redundancies in terms of costs to cloud users while providing available computing environments and services to consumers. However, the computing environment dependability provided by proactive fault-tolerance highly depends on failure prediction accuracy.
1. Introduction
With trends in the service-oriented economy [1] being supported by distributed computing paradigms such as cloud computing, there is an increased concern about the quality and availability of offered services. However, providing quality of service (QoS) guarantees to users is a very difficult and complex task [2] due to the demands ofthe consumers’ services vary significantly with time. Moreover,this problem is exacerbated when one considers computing node availability. By definition, a system is available if the fraction of its down-time is very small, either because failures are rare or because it can restart quickly after a failure. Therefore, availability is a function of reliability, which, according to the Institute of Electrical and Electronics Engineers (IEEE) [3], is the ability of a system or component to perform its required functions under stated conditions for a specified period of time. Reliability can be measured by the mean time between failures (MTBF), which in turn is estimated by the component manufacturer.
5. Conclusion
This paper has evaluated the effectiveness of two state-ofthe-art fault-tolerance mechanisms in providing dependable cloud services to consumers. Failures represent a threat to the availability and dependability of a system and services deployed. Unfortunately, with an ever-growing number of warehouse-sized data centres built to address the increasing demand for computing resources and services, component failures become the norm instead of an exception. As such, the success of petascale/exascale computing will depend on the ability to provide reliability and availability at scale. To address this problem, different fault-tolerance mechanisms exist to provide dependable computing environments. However, dependability of services at all costs is not a solution, as it may increase energy consumption and operational costs for providers.
چکیده
1. معرفی
2. کارهای مرتبط
3. محیط ابر تحمل پذیر اشکال
3.1 بررسی اجمالی سیستم
2.3 مصرف توان نود
3.3 توضیحات بارکاری و خرابی
4.3 توصیف نمونه
5.3 الگوریتم های زمان بندی
4. ارزیابی و نتایج
1.4 معیارهای ارزیابی
5 نتیجه گیری
منابع
Abstract
1. Introduction
2. Related work
3. Fault-tolerant cloud environment
3.1. System overview
3.2. Nodes power consumption
3.3. Workloads and failures description
3.4. Instance specification
4. Evaluation and results
4.1. Evaluation metrics
4.2. Results analysis
5. Conclusion
References