دانلود رایگان مقاله کلان داده و مسائل و چالش های پیش روی آن
ترجمه رایگان

دانلود رایگان مقاله کلان داده و مسائل و چالش های پیش روی آن

عنوان فارسی مقاله: کلان داده: مسائل و چالش های پیش روی آن
عنوان انگلیسی مقاله: Big Data: Issues and Challenges Moving Forward
کیفیت ترجمه فارسی: مبتدی (مناسب برای درک مفهوم کلی مطلب)
مجله/کنفرانس: کنفرانس بین المللی سالانه هاوایی در علوم سیستم (HICSS) - Annual Hawaii International Conference on System Sciences (HICSS)
رشته های تحصیلی مرتبط: مهندسی فناوری اطلاعات - مهندسی کامپیوتر
گرایش های تحصیلی مرتبط: اینترنت و شبکه های گسترده - مدیریت سیستم های اطلاعاتی - علوم داده
کلمات کلیدی فارسی: مدیریت اطلاعات - مدیریت داده ها - سیستم های ذخیره سازی داده ها - پایگاه های داده توزیع شده - سازمان ها - رسانه ها
کلمات کلیدی انگلیسی: Information management - Data handling - Data storage systems - Distributed databases - Organizations - Media
نوع نگارش مقاله: مقاله پژوهشی (Research Article)
شناسه دیجیتال (DOI): https://doi.org/10.1109/HICSS.2013.645
لینک سایت مرجع: https://ieeexplore.ieee.org/document/6479953/authors#authors
دانشگاه: دانشگاه جورج واشنگتن، ایالات متحده آمریکا
صفحات مقاله انگلیسی: 10
صفحات مقاله فارسی: 26
ناشر: آی تریپل ای - IEEE
سال انتشار مقاله: 2013
مبلغ ترجمه مقاله: رایگان
ترجمه شده از: انگلیسی به فارسی
کد محصول: F2070
نمونه ترجمه فارسی مقاله

چکیده 

        کلان داده  به داده‌هایی با حجم زیاد، از اگزابایت  (1018) و بیشتر از آن، گویند. این حجم از داده، از ظرفیت سیستم‌های پردازشی و سیستم‌های ذخیره آنلاین فعلی بیشتر است. داده ، اطلاعات  و دانش  در نرخی تولید و جمع آوری می‌شوند که خیلی سریع به حجم اگزابایت /سال می‌رسند. ایجاد و جمع آوری روز به روز سریعتر می‌شود و در طی چند سال به دامنه زتابایت /سال می‌رسند. حجم ، تنها یک جنبه کلان داده است، صفات دیگر، تنوع ، سرعت ، ارزش  و پیچیدگی  هستند. ذخیره و انتقال داده مسائل مربوط به تکنولوژی هستند، که به نظر می‌رسد که در آینده نزدیک به مشکلات آن‌ها رسیدگی می‌شود، اما چالش‌های بلند مدتی را نشان می‌دهند که نیازمند پارادایم‌های جدید و پژوهش است. ما مسائل و چالش‌ها را با شروع یک برنامه پژوهشی همکارانه بر متدلوژی‌هایی برای طراحی و تحلیل کلان داده آغاز کردیم. 

1. مقدمه 

        مفهوم کلان داده در علوم کامپیوتر از روزهای اولیه کامپیوتر شایع بوده است. "کلان داده" در اصل به معنی حجمی از داده است که نمی‌تواند (به صورت کارامدی) توسط ابزارها و متدهای پایگاه داده سنتی پردازش شود. هر بار که یک رسانه ذخیره سازی جدید اختراع می‌شود، مقدار داده قابل دسترسی بیش از حد می‌شود، چرا که این رسانه‌ها به سادگی قابل دسترسی هستند. تعریف اصلی بر داده ساختار یافته  متمرکز است، اما بیشتر پژوهشگران و متخصصان متوجه شده اند که بیشتر اطلاعات جهان به صورت اطلاعات ساختارنیافته و حجیم، و تا حدی در فرم متن و تصویر در دسترس هستند. انفجار داده ربطی به رسانه‌ها ذخیره سازی جدید ندارد. 

         ما "کلان داده" را به عنوان مقداری داده تعریف می‌کنیم که از نظر ذخیره، مدیریت و پردازش کارآمد فراتر از قابلیت تکنولوژی است. موارد گفته شده تنها توسط یک تحلیل قوی بر خود داده، بیان نیازهای پردازشی، و قابلیت‌های ابزارهای (سخت افزار، نرم افزار و متدهای) استفاده شده برای تحلیل آن، کشف شده است. با بوجود آمدن هر مشکل جدید، نتیجه چگونگی ادامه دادن ممکن است به این توصیه منجر شود که برای اجرای وظایف جدید باید ابزارهای جدیدی داشته باشیم. 

        تقریبا 5 سال پیش، ما تنها به فضای ذخیره حدود صدها گیگابایت برای کامپیوترهای خود فکر می‌کردیم. امروزه، ما به ده‌ها تا صدها ترابایت فکر می‌کنیم. بنابراین، کلان داده یک هدف رو به رشد است. به بیان دیگر، این مقدار داده فراتر از درک آنی ما است؛ به عبارت دیگر، برای ذخیره کردن آن، دسترسی آن، مدیریت آن، و پردازش آن، نیاز است که سخت کار کنیم. 

         نرخ رشد فعلی مقدار داده جمع آوری شده وحشتناک است. یک چالش اصلی پژوهشگران و متخصصین IT این است که این نرخ رشد خیلی سریع از توانایی ما برای (1) طراحی سیستم‌های مناسب برای مدیریت موثر داده و (2) تحلیل برای استخراج معانی متفاوت برای تصمیم گیری، سبقت می‌گیرد. در این مقاله مسائل مهم مرتبط با ذخیره، مدیریت و پردازش داده را بررسی می‌کنیم. تا انجا که می‌دانیم، ادبیات موضوعی پژوهشی خیلی به صورت موثری این مسائل را بررسی نکرده اند. 

1.1 اهمیت کلان داده

       در آگوست سال 2010، کاخ سفید، OMB، و OSTP اعلام کردند که در زمینه مراقبت‌های بهداشتی و امنیت ملی؛ کلان داده یک چالش ملی و اولویت دار است [1]. بنیاد ملی علوم، موسسات ملی بهداشت، سازمان زمین شناسی ایالت متحده، وزارت دفاع و انرژی، و آژانس پروژه‌های تحقیقات پیشرفته دفاعی یک طرح R&D مشترک را در مارس 2012 اعلام کردند که بیش از 200 میلیون دلار را بر توسعه تکنیک‌ها و ابزارهای جدید کلان داده سرمایه گذاری کردند. هدف این طرح پیشرفت "... درک ما از تکنولوژی‌های مورد نیاز برای دستکاری و کاووش گسترده مقادیر اطلاعات؛ استفاده از دانش برای دیگر زمینه‌های علمی" و همچنین بررسی اهداف ملی در عرصه‌های حفاظت از سلامت انرژی، آموزش و پرورش است" [14]. 

       تاکید دولت بر این است که چگونه کلان داده "ارزشمند" –در طول دوره‌های و دامنه‌ها – ایجاد می‌شود. ارزش از توانایی تحلیل داده برای توسعه اطلاعات عملی بوجود می‌اید. بررسی ما بر ادبیات موضوعی فنی پنج روش عمومی را که کلان داده می‌تواند از ایجاد ارزش برای سازمان‌ها پشتیبانی کند را بیان می‌کند (جدول 1).

       زمانی که دولت به دنبال این فرض بود که کاربران کلان داده موفق تر و بهره ورتر باشند و تاثیرات متمایزی در بسیاری از صنعت‌ها داشته باشند، نگرانی اصلی آن‌ها عدم وجود ابزارها و پرسنل آموزش دیده برای کار کردن متناسب با کلان داده بود. سایرین بیان کردند که تحلیل جنریک، تعاملات رسانه اجتماعی، پرونده‌های سلامتی، لاگ‌های تلفن؛ و پروندهای دولتی، خدمات و ابزار بهتری تولید نمی‌کنند، بلکه مجموعه جدیدی از تهاجم به حریم خصوص و بازاریابی تهاجمی و ناخواسته را ایجاد می‌کنند [3]، این نگرانی‌های متضاد دیدگاه رقابتی در مورد اینکه چگونه با کلان داده برخورد کنیم را تحریک می‌کند. 

       یک مثال از زمینه پزشکی تشریح می‌کند که چگونه و چرا کلان داده و تحلیل‌های جدید ممکن است سودمند باشند. Fox [6] تشریح کرد که چگونه داده‌های فعلی در پرونده‌های پزشکی بیماران و وضعیت سلامتی فعلی برای برنامه ریزی و مشارکت بیماران در برنامه‌های مدیریت سلامت و بیماری استفاده می‌شود. Fox ادعا کرد که دکترها ( و شرکت‌های بیمه) باید به جای بیماری، بیمار را درک کنند. برای انجام این کار، آن‌ها باید داده‌ای را- "داده‌های رفتاری و اجتماعی مهمی که بر انتخاب بیمار برای مشارکت، سطح مشارکت، و تناسب داده‌های عمومی با داده‌های رفتاری و اطلاعات سلامتی تاثیر داشته اند را- فراتر از موارد مربوط به شرایط پزشکی بیمار" جمع آوری و تحلیل کند. بنابراین، برنامه‌ها ممکن است تعیین کنند که چگونه هدف بهتر، افراد را در برنامه‌ها با تحریک مدل‌های پیش بینی کننده که می‌توانند دکترها و مدیرانی که به دنبال تاثیر مثبت رفتار بیمار بر بیماری مزمن هستند را حفظ کنند.

1.2 مشخصه‌های کلان داده 

        یک دیدگاه، حمایت شده توسط Doug Laney بیانگر این است که کلان داده سه بعد دارد: حجم، تنوع، سرعت. بنابراین، IDC بیان کرد که "فناوری‌های کلان داده یک نسل جدید از تکنولوژی و معماری طراحی شده برای استخراج اقتصادی ارزشمند از حجم بسیار بزرگی از طیف وسیعی از داده، با فعال سازی اتخاذ، کشف و یا تحلیل سرعت بالا را تشریح می‌کنند" [8]. دو مشخصه دیگر نیز به نظر مرتبط می‌رسند: ارزش و پیچیدگی. این دو مشخصه را در جدول 2 خلاصه کردیم. 

نمونه متن انگلیسی مقاله

Abstract

      Big data refers to data volumes in the range of exabytes (1018) and beyond. Such volumes exceed the capacity of current on-line storage systems and processing systems. Data, information, and knowledge are being created and collected at a rate that is rapidly approaching the exabyte/year range. But, its creation and aggregation are accelerating and will approach the zettabyte/year range within a few years. Volume is only one aspect of big data; other attributes are variety, velocity, value, and complexity. Storage and data transport are technology issues, which seem to be solvable in the near-term, but represent longterm challenges that require research and new paradigms. We analyze the issues and challenges as we begin a collaborative research program into methodologies for big data analysis and design.

1. Introduction

       The concept of big data has been endemic within computer science since the earliest days of computing. “Big Data” originally meant the volume of data that could not be processed (efficiently) by traditional database methods and tools. Each time a new storage medium was invented, the amount of data accessible exploded because it could be easily accessed. The original definition focused on structured data, but most researchers and practitioners have come to realize that most of the world’s information resides in massive, unstructured information, largely in the form of text and imagery. The explosion of data has not been accompanied by a corresponding new storage medium.

      We define “Big Data” as the amount of data just beyond technology’s capability to store, manage and process efficiently. These imitations are only discovered by a robust analysis of the data itself, explicit processing needs, and the capabilities of the tools (hardware, software, and methods) used to analyze it. As with any new problem, the conclusion of how to proceed may lead to a recommendation that new tools need to be forged to perform the new tasks. As little as 5 years ago, we were only thinking of tens to hundreds of gigabytes of storage for our personal computers. Today, we are thinking in tens to hundreds of terabytes. Thus, big data is a moving target. Put another way, it is that amount of data that is just beyond our immediate grasp, e.g., we have to work hard to store it, access it, manage it, and process it.

       The current growth rate in the amount of data collected is staggering. A major challenge for IT researchers and practitioners is that this growth rate is fast exceeding our ability to both: (1) design appropriate systems to handle the data effectively and (2) and analyze it to extract relevant meaning for decision making. In this paper we identify critical issues associated with data storage, management, and processing. To the best of our knowledge, the research literature has not effectively addressed these issues,

1.1 Importance of Big Data

      In August 2010, the White House, OMB, and OSTP proclaimed that Big Data is a national challenge and priority along with healthcare and national security [1]. The National Science Foundation, the National Institutes of Health, the U.S. Geological Survey, the Departments of Defense and Energy, and the Defense Advanced Research Projects Agency announced a joint R&D initiative in March 2012 that will invest more than $200 million to develop new big data tools and techniques. Its goal is to advance our “…understanding of the technologies needed to manipulate and mine massive amounts of information; apply that knowledge to other scientific fields “as well as address the national goals in the areas of health energy defense, education and researcher” [14].

      The government’s emphasis is on how big data creates “value” – both within and across disciplines and domains. Value arises from the ability to analyze the data to develop actionable information. Our survey of the technical literature suggests five generic ways that big data can support value creation for organizations (see Table 1).

       While the government seems to assume that big data users will be more successful, more productive, and have differential impacts across many industries, their underlying concern seems to be a lack of tools and a lack of trained personnel to properly work with big data. Others suggest that the analysis of generic sequences, social media interactions, health records, phone logs, and government records, will not create better tools and services, but may create a new set of privacy incursions and invasive and unwanted marketing.[3] these conflicting concerns drive competing visions of how to deal with big data.

        An example from the medical field illustrates how and why big data and new analytics may be truly beneficial. Fox [6] describes how current data in a patient’s medical record and current health situation is used to plan and target patient participation in wellness and disease management programs. Fox asserts that doctors (and insurance companies!) must understand the patient rather than the disease(s). To do so, they must collect and analyze data - “crucial social and behavioral data that impacts a patient’s choice to participate, level of engagement, and appropriateness from public data associating behavior and health data – beyond that solely related to a patient’s medical condition”. Thus, programs may determine how to better target, retain, and treat people in their programs by leveraging predictive models that could assist doctors and case managers who seek to positively impact the behavior of patients with chronic health disease.

1.2 Big Data Characteristics

       One view, espoused by Gartner’s Doug Laney describes Big Data as having three dimensions: volume, variety, and velocity. Thus, IDC defined it: “Big data technologies describe a new generation of technologies and architectures designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis.” [8] Two other characteristics seem relevant: value and complexity. We summarize these characteristics in table 2.

فهرست مطالب (ترجمه)

چکیده 

1. مقدمه 

1.1 اهمیت کلان داده

1.2 مشخصه‌های کلان داده 

1.3 کلان داده- کجاست؟

1.4 مسائل 

1.4.1 مسائل مربوط به ذخیره سازی و انتقال

1.4.2 مسائل مدیریتی 

1.4.3 مسائل پردازش

2. چالش‌های طراحی پویا

2.1 فرآیندهای ورودی و خروجی داده

2.2 کیفیت در برابر کمیت 

2.3 رشد کلان داده در برابر گسترش داده‌ها

2.4 سرعت در برابر مقیاس 

2.5 داده‌های ساختاریافته در مقابل داده‌های ساختارنیافته 

2.6 مالکیت داده 

2.7 تطبیق و امنیت

2.8 ارزش "برخی از داده ها" در برابر "همه داده ها" 

2.9 پردازش توزیع شده و داده توزیع شده

3. پردازش کلان داده: چالش‌های تحلیلی 

3.1 مقیاس بندی

3.2 یافتن سوزن در انبار کاه 

3.3 تعمیم کاه به طلا 

3.4 یک ترکیب از تکنیک‌ها

3.5 جهان را بشناسید 

4. نتیجه گیری و کار آینده

منابع

فهرست مطالب (انگلیسی)

Abstract

1. Introduction

1.1 Importance of Big Data

1.2 Big Data Characteristics

1.3 Big Data – Where is it?

1.4 Issues

1.4.1 Storage and Transport Issues

1.4.2 Management Issues

1.4.3 Processing Issues

2. Dynamic Design Challenges

2.1 Data Input and Output Processes

2.2 Quality versus Quantity

2.3 Data Growth versus Data Expansion

2.4 Speed versus Scale

2.5 Structured versus Unstructured Data

2.6 Data Ownership

2.7 Compliance and Security

2.8 The Value of “Some Data” versus “All Data”

2.9 Distributed Data and Distributed Processing

3. Processing Big Data: Analytics Challenges

3.1 Scaling

3.2 Finding the Needle in the Haystack

3.3 Turning Straw into Gold

3.4 A Hybrid of Techniques

3.5 Know the World

4. Conclusions and Future Work

References