چکیده
قلمرو داده های بزرگ، قلمروی بسیار گسترده و متنوع است. ما درباره داده های قدیمی، جدید، کوچک و بزرگ، همراه با برخی از چالش های مهم از جمله مواجهه با داده های شی گرا و بسیار سازمان یافته بحث می نماییم. هدف بسیاری از برنامه های کاربردی، تشخیص الگوها و یادگیری از روی مجموعه داده های بزرگ مربوط به داده های قدیمی است. ما برآنیم تا درباره چنین مسائلی در برخی از برنامه های شبکه حمل و نقل در محیط های غیر دانشگاهی بحث نماییم که به طور طبیعی برای موقعیت های دیگر نیز کاربردپذیر هستند. جنبه های حیاتی شامل مواجهه با لجستیک، کدنویسی و انتخاب روش آماری مناسب می گردد و ما خلاصه و چک لیستی را برای اجرای گسترده تر ارائه نمودیم.
1. منابع طبیعی جدید
در ابتدا باید اذعان کنیم که تاب آوردن مشکل است. جه انتظاری می توان از کسی داشت که مواجهه با مجموعه داده هایی با 30 = n مشاهده و 3 = p متغیر را آموزش دیده و برای نمونه ناگهان با افزایش K 100 برابری 3000000 = n مشاهده و 300000 = p و یا حتی بدتر روبرو می شود؟
همه چیز باید تغییر کند. به طور خلاصه یک مجموعه داده ها به یک چالش محاسباتی عمده تبدیل شده و مقادیر p نقش مضحکی را می پذیرد که در آن همه چیز معنی دار است. با این حال مواجهه با گستره ای از اندازه مجموعه داده ها برای آمارشناس مدرن حیاتی شده است.
ویرجینیا رومتی، رئیس هیات مدیره، رئيس و مدیر ارشد اجرایی آی بی ام گفته زیر را در 157اُمین مراسم جشن فارغ التحصیلی دانشگاه نورث وسترن در سال 2015 بیان نمود:
بخار مربوط به قرن 18 بود، برق به قرن 19 و هیدروکربن ها به 20 مربوط می شد، داده ها به قرن 21اُم مربوط خواهند بود. به همین دلیل من داده ها را منابع طبیعی جدید می خوانم.
Abstract
The realm of big data is a very wide and varied one. We discuss old, new, small and big data, with some of the important challenges including dealing with highly-structured and object-oriented data. In many applications the objective is to discern patterns and learn from large datasets of historical data. We shall discuss such issues in some transportation network applications in non-academic settings, which are naturally applicable to other situations. Vital aspects include dealing with logistics, coding and choosing appropriate statistical methodology, and we provide a summary and checklist for wider implementation.
1. A new natural resource
We will be the first to admit that it is difficult to keep up. How can you expect someone who is trained in dealing with datasets of n = 30 observations with p = 3 variables to suddenly cope with a 100 K-fold increase of n = 3 000 000 observations and p = 300 000 for example, or even worse? Everything has to change. Summarizing a dataset becomes a major computational challenge and p-values take on a ludicrous role where everything is significant. Yet dealing with a wide range of sizes of datasets has become vital for the modern statistician. Virginia Rometty, chairman, president and chief executive officer of IBM said the following at Northwestern University’s 157th commencement ceremony in 2015:
What steam was to the 18th century, electricity to the 19th and hydrocarbons to the 20th, data will be to the 21st century. That’s why I call data a new natural resource.
چکیده
1. منابع طبیعی جدید
2. مطالعه موردی: داده های بزرگ حمل و نقل
3.خلاصه و چک لیست
منابع
Abstract
1. A new natural resource
2. Case study: transportation big data
3. Summary and checklist