چکیده
رشد سریع محیط داده های بزرگ چالش های جدیدی تحمیل میکند که مدل های فرایند کشف دانش و داده کاوی سنتی (KDDM) برای رسیدگی به آنها، به اندازه کافی مناسب نیستند. ما یک مدل فرایند پوسته حلزون برای کشف دانش از طریق تجزیه و تحلیل داده (KDDA) برای رسیدگی به این چالش ها ارائه میکنیم. سپس مطلوبیت مدل فرایند KDDA را با استفاده از مطالعات موردی تحلیلی دنیای واقعی و در یک شرکت چند رسانه ای جهانی ارزیابی میکنیم. با مقایسه در برابر مدل های KDDM سنتی، لزوم و ارتباط مدل پوسته حلزون، به ویژه در پرداختن به چرخش سریع تر (بازگشت سریعتر سرمایه) و به روز رسانی مدل های مکرر که کشف دانش در محیط داده بزرگ را توصیف میکند، را نشان می دهیم.
مقدمه
ادغام فن آوری هایی مانند محاسبات ابری، شبکه های اجتماعی، و فن آوری تلفن همراه در عملکرد کسب و کار، به ایجاد حجم زیادی از داده با سرعت بالا از انواع منابع سوق داده شده است. معمولا به عنوان داده های بزرگ شناخته شده، سازمان های مدرن آن را به عنوان یک دارایی با ارزش به رسمیت شناخته و به طور فزاینده ای در امکان ایجاد مزیت رقابتی از طریق کشف دانش داده محور موردتوجه واقع شده است. با این حال، آنها با چالش ناشی از ماهیت داده های بزرگ از جمله، مدیریت داده ها، استخراج اطلاعات، و کشف دانش دست به گریبانند. حجم زیاد چالشهای تکنولوژیکی مطرح شده در استفاده از تجزیه و تحلیل پیشرفته بر روی سیستم عامل داده های بزرگ با استفاده از تجزیه و تحلیل سنتی SQL به طور مستقیم در پایگاه داده مقایسه شده است[11]. سرعت بالا خواستار چرخش مکرر و بسیار سریع تر برای ایجاد دانش است. انواع زیاد منابع داده، بیانگر مسئولیتهای اداره و یکپارچه سازی داده های عظیمی می کند. در تلاش برای رسیدگی به این چالش داده های بزرگ، روند صنعت در حال حاضر نسبت به استفاده از فن آوری اطلاعات (IT) و تکنیک های پیشرفته تحلیلی برای کشف دانش سریع تر، ارزان تر، انعطاف پذیرتر و قابل اطمینان تر متمایل شده است. برای ایجاد موفقیت آمیز دانش مفید، چارچوب جامعی که چگونگی انجام فرایند تحلیلی را توصیف میکند ضروری است. رویکرد فعلی برای شاغلان، اتخاذ مدل های سنتی فرآیند کشف دانش و داده کاوی (KDDM) برای ادغام راه حل های تحلیلی بسیار فنی در فرآیندهای کسب و کار سازمانی است [28]. در حالی که پیشرفت های قابل توجهی در ابزارها، روشها و الگوریتم های تجزیه و تحلیل داده های بزرگ(به عنوان مثال، رشته تجزیه و تحلیل کورتانا مایکروسافت ، تجزیه و تحلیل آی بی ام واتسون و Teradata Aster) ایجاد شده است، دانش فرآیند تعمیم پذیری برای انجام کشف دانش از طریق تجزیه و تحلیل داده (KDDA) در یک زمینه سازمانی هنوز به روز رسانی می شود. به عنوان مثال، Netflix فرآیند تجزیه و تحلیل خود را برای اطمینان از سازگاری در ایجاد مدل های پیش بینی به اشتراک گذاشته است [11]. با این حال، تنها بخش کوچکی از چرخه عمر پروژه تحلیلی کامل را پوشش می دهد. علاوه بر این، بررسی مطالعات موجود نشان می دهد که مدل های فرایند KDDM [10،18،28،31،40] قبل از محبوبیت داده های بزرگ توسعه داده شد و به همین دلیل برای پرداختن به چالش های بسیار مختص تجزیه و تحلیل داده های بزرگ مناسب نیست. محدودیت های آنها شامل موارد عدم مقیاس پذیری و چابکی در توسعه راه حل های تحلیلی، دوره های طولانی تر بین اکتساب داده ها و تصمیم گیری، ملاحظات ناکافی از بلوغ قابلیت تجزیه و تحلیل سازمان (ACM)، مدل از دست رفته اجزای تعمیر و نگهداری .هدف از این مطالعه بررسی چالش های انجام پروژه های تحلیلی در محیط دادههای بزرگ است. هدف آن بهبود نواقص موجود در مدل های KDDM موجود برای ارائه پشتیبانی تصمیم برای تصمیم گیرندگان مختلف است، از جمله کارشناسان حوزه کسب و کار، مهندسان داده ها، دست اندرکاران تجزیه و تحلیل، طول تمام مراحل KDDA. بسیاری از مطالعات راجع به تکنیک هایی که در حال حاضر در تجزیه و تحلیل داده های بزرگ به کار میروند، بحث کرده اند [7،20]. مطالعات همچنین مروری در روند در حال ظهور و آینده در تجزیه و تحلیل داده های بزرگ دارد[5،24]. مطالعات جدیدتر، تاثیر تجزیه و تحلیل بر کارایی عملکرد کسب و کار [38،46] و قابلیت های روش های تحلیلی [13] را بررسی کرده است. با این حال، هیچ مطالعه ای بطور همه جانبه به KDDA به عنوان یک فرایند پشت سرهم (پایان به پایان) در زمینه کسب و کار نپرداخته است. برای پوشاندن این شکاف، این مطالعه به دنبال تکیه بر مطالعات موجود برای توسعه و رسمی ساختن فرایند سیستماتیک KDDA است.
abstract
Article history: Received 9 September 2015 Received in revised form 8 July 2016 Accepted 15 July 2016 Available online xxxx The rapid growth of big data environment imposes new challenges that traditional knowledge discovery and data mining process (KDDM) models are not adequately suited to address. We propose a snail shell process model for knowledge discovery via data analytics (KDDA) to address these challenges. We evaluate the utility of the KDDA process model using real-world analytic case studies at a global multi-media company. By comparing against traditional KDDM models, we demonstrate the need and relevance of the snail shell model, particularly in addressing faster turnaround and frequent model updates that characterize knowledge discovery in the big data environment.
1. Introduction
Integration of technologies such as cloud computing, social networking, and mobile technology into business functions has propelled the creation of large volumes of data at high velocity from a variety of sources. Commonly known as big data, modern organizations recognize it as a valuable asset, and are increasingly attracted to the possibility of creating competitive advantage through data driven knowledge discovery. Yet, they grapple with the challenges imposed by the very nature of the big data environment such as, managing data, extracting information, and discovering knowledge. The large volume poses technological challenges in applying advanced analytics on big data platforms compared to the use of traditional SQL analytics directly on databases [11]. The high velocity calls for much faster and more frequent turnaround for knowledge creation. The large variety of data sources introduces enormous data integration and governance responsibilities. In an effort to address these big data challenges, industry trend now leans towards utilizing information technology (IT) and advanced analytic techniques for faster, cheaper, more flexible, and more reliable knowledge discovery. For successful creation of useful knowledge, a comprehensive framework that describes how to carry out the analytic process is essential. The current approach for practitioners is to adopt traditional knowledge discovery and data mining (KDDM) process models for the integration of very technical analytic solutions into organizational business processes [28]. While significant progress has been made in big data analytics tools, methods and algorithms (e.g., Microsoft Cortana Analytics Suite, IBM Watson Analytics, and Teradata Aster), generalizable process knowledge for conducting knowledge discovery via data analytics (KDDA) in an organizational context has yet to be updated. For example, Netflix shared their analytics process to ensure consistencies in building predictive models [11]. However, it covers only a small portion of the complete analytic project life cycle. Furthermore, a review of literature indicates that existing KDDM process models [10,18,28,31,40] were developed prior to the popularity of big data and therefore not well suited for addressing many challenges unique to big data analytics. Their limitations include the lack of scalability and agility in the development of analytic solutions, longer cycles between data acquisition and decision making, insufficient considerations of organization's analytics capability maturity (ACM), and missing model maintenance components. The purpose of this study is to investigate challenges of undertaking analytic projects in big data environment. It aims to improve deficiencies in existing KDDM models to provide decision support for different decision makers, such as business domain experts, data engineers, and analytics practitioners, throughout the entire KDDA process. Many studies have discussed of techniques currently employed in big data analytics [7,20]. Literature also overviews emerging and future trends in big data analytics [5,24]. Newer studies have investigated the impact of analytics on business function performance [38,46] and capabilities of analytic techniques [13]. Yet, no study has holistically addressed KDDA as an end-to-end process in a business context. To bridge this gap, this study seeks to draw upon existing literature to develop and formalize the systematic process of KDDA.
چکیده
1.مقدمه
2. لزوم یک مدل فرایند KDDA
3. روش تحقیق و پیشینه مطالعه
4. مدل فرایند پوسته حلزون KDDA
4.1. فرمولاسیون مسئله (PF)
4.2. درک کسب و کار (BU)
4.3. درک داده (DU)
4.4. آماده سازی داده ها (DP)
4.5. مدل سازی
4.6. ارزیابی
4.7. استقرار (گسترش)
4.8. نگهداری
5. مطالعه موردی تشخیص رفتار ناهنجاری وسیله
5.1. فرمول بندی مسأله
5.2. درک کسب و کار (BU)
5.3. درک داده
5.4. آماده سازی داده
5.5. مدل سازی
5.6. ارزیابی
5.7. استقرار (گسترش)
5.8. نگهداری
5.9. خلاصه مطالعه موردی
6. مفاهیم و محدودیتهای تحقیق
7. نتیجه گیری
abstract
1. Introduction
2. Need for a KDDA process model
3. Research method and study background
4. Snail Shell KDDA process model
4.1. Problem formulation (PF)
4.2. Business understanding (BU)
4.3. Data understanding (DU)
4.4. Data preparation (DP)
4.5. Modeling
4.6. Evaluation
4.7. Deployment
4.8. Maintenance
5. Device abnormality behavior detection case study
5.1. Problem formulation
5.2. Business understanding (BU)
5.3. Data understanding
5.4. Data preparation
5.5. Modeling
5.6. Evaluation
5.7. Deployment
5.8. Maintenance
5.9. Case study summary
6. Research implications and limitations
7. Conclusion