چکیده
در دهه گذشته، Hadoop به یک چارچوب استاندارد ولی غیررسمی در زمینه ی پردازش داده های با حجم بالا در صنعت تبدیل شد. اگرچه Hadoop امروزه عمدتا در زمینه ی داده های متنی کاربرد بیشتری دارد، ولی می توان در زمینه ی پردازش داده های باینری از جمله عکس ها، نیز از آن استفاده کرد. تعداد زیادی چارچوب به منظور افزایش بهره وری از Hadoop درحال توسعه، که مبتنی بر جواب است، توسعه یافته اند. نتایج این مطالعه نشان می دهد که چگونه می توان از این چارچوب (scalding) به منظور تولید یک جواب مناسب و مختصر برای مسئله ی پردازش عکس با حجم بالا در فرایند تولید عکس های موزاییکی و مقایسه ی آن با Hadoop ی که براساس API اجرا می شود، استفاده کرد.
1- مقدمه
در دهه ی گذشته، تحلیل های مربوط به داده های با حجم بالا به یک فاکتور اساسی و مهم حمایت از تصیم، در صنعت و همچنین تعدادی از تکنولوژی هایی که به منظور فعال سازی و ساده سازی فرآیند پردازش داده های با تنوع و حجم بالا توسعه یافته بودند، تبدیل شده بود. در دسترس ترین تکنولوژی بین آنها مدل Apache Hadoop است، که یک چارچوب نرم افزاری منبع باز برای ذخیره و پردازش مجموعه - داده های با مقیاس بالا (حجم آن ها بالاست) بر خوشه های مختلفی از سخت افزار است، که توانایی تقسیم و کاهش مقیاس آن ها را به هزاران گره و پتابایت از داده را دارد. در کنار توسعه ی هسته ی Hadoop مجموعه ای از تکنولوژی ها شامل موارد زیر نیز به وجود آمدند : جریان (گردش) کاری (به عنوان مثال: Oozie(2))، پایگاه های داده (به عنوان مثال: HBase(3))، موتورهای آموزش ماشین (به عنوان مثال: Mahut (4))، ابزارهای تحلیلی لوگ (به عنوان مثال: Apache Flume(4)) و چارچوب های بهره وری.
Abstract
In the last decade, Hadoop has become a de-facto standard framework for big data processing in the industry. Although Hadoop today is primarily applied to textual data, it can be also used to process binary data including images. A number of frameworks have been developed to increase productivity of developing Hadoop based solutions. This paper demonstrates how such a framework (Scalding) can be used to create a concise and efficient solution to a big data image-processing problem of creating photographic mosaics and compares it to a Hadoop API based implementation.
1. Introduction
In the last decade, big data analytics have become a major decision support factor in the industry and a number of technologies have been developed to both enable and streamline processing of huge volumes and variety of data. The most ubiquitous amongst them is Apache Hadoop [1] - an opensource software framework for storage and large scale processing of data-sets on clusters of commodity hardware that can reliably scale to thousands of nodes and petabytes of data. Around the Hadoop core grew an ecosystem of technologies including among others: workflows (e.g., Oozie [2]), databases (e.g., HBase [3]), machine learning engines (e.g., Mahout [4]) log analysis tools (e.g., Apache Flume [4]) and productivity frameworks.
چکیده
1- مقدمه
2- تولید موزاییک: MapReduce و Scalding
2.1 روش MapReduce
2-2 روش Scalding
3- نتایج آزمایشگاهی
4. نتایج
Abstract
1 Introduction
2 Creating Mosaics: MapReduce and Scalding
2.1 MapReduce approach
2.2 Scalding Approach
3 Experimental Results
4 Conclusions