چکیده
اخیرا پایگاههای دادهای رابطهای بهعنوان مرکز اطلاعات سیستم شرکتها محسوب میگردند. در سالهای اخیر بهدلیل کارایی و پختگی، مدل رابطهای به یک استاندارد غیررسمی تبدیل شده است. همچنین با توجه به این واقعیت که دادهی بعضی از شرکتها یا مؤسسات بسیار بزرگ است، سیستم جدیدی بهنام NoSQL ابداع شده است که عصر دادهی بزرگ متعلق به آن میباشد. دادهی بزرگ بهدلیل ظهور خدمات انلاین جدید بهوجود آمده است که در آن ارتباطات مشتریها افزایش پیدا کرده است و یک دادهی دیجیتالی بزرگ طاقتفرسا بهوسیلهی ابزارهای تکنیکی مدیریت سنتی ایجاد گردیده است که در این صورت چالشهای جدیدی برای شرکتها بهخصوص در زمینهی دسترسی، ذخیره و تحلیل داده بهوجود میآید. در این پژوهش، ما یک مطالعهی امکانسنجی مهاجرت از پایگاههای دادهای رابطهای به پایگاههای دادهای NoQSL بهخصوص پایگاه داده HBase را ارائه میدهیم؛ این مهاجرت با بهکار بردن عملگر جبر رابطهای در مدل دادهای HBase و پیادهسازی این عملگر بر روی HBase با استفاده از تابعهای بومی این DBMS و همچنین با استفاده از چارچوب MapReduce انجام گرفته است.
1- مقدمه
سیستمهای مدیریت پایگاه دادهای رابطهای (RDBMS) بهدلیل قابلیت اطمینان و پختگی، بهعنوان متداولترین راهحل در بسیاری از کاربردها جهت ذخیره و بازیابی کردن داده محسوب میشوند. پایگاههای دادهای رابطهای با توجه به مدل Codd (رابطهای) ]1[ کار میکنند که نسبت به یک سیستم روابط که فقط از مقادیر داده استفاده میکند، دارای امتیاز میباشند و این دادهها با استفاده از زبان سطحی بالا که SQL نام دارد، دستکاری میشوند [3]، یک تئوری ریاضی جدید در این سیستم پیادهسازی میگردد که مشابه تئوری مجموعه که بهوسیلهی Codd ارائه شده است، میباشد و جبر رابطهای نام دارد [1].جبر رابطهای فرآیندی است که میتواند بر روی رابطهها بهکار رود. فرآیندهای رابطهای اجازه میدهند که یک رابطهی جدید (جدول) براساس عملگر ابتدایی بر روی دیگر جدولها مانند اجتماع، اشتراک، انتخاب، طرحریزی و پیوستن ایجاد گردد.
5- نتیجهگیری و کار آینده
در این پژوهش، ما یک مطالعهی امکانسنجی جهت مهاجرت از پایگاههای دادهای رابطهای به پایگاههای دادهای HBase را با استفاده از عملگرهای جبری رابطهای در مدل دادهی HBase و پیادهسازی این عملگرها بر روی HBase با استفاده از توابع بومی این DBMS و همچنین با استفاده از چارچوب MapReduce را ارائه دادیم. براساس بخشهای فوق، ما میتوانیم نتیجهگیری کنیم که از لحاظ تئوری، مهاجرت بین پایگاههای دادهای رابطهای و پایگاههای دادهای HBase، میتواند بهصورت مؤثر بهکار برده شود. در آینده، ما به مقایسهی نحوهی عملکرد عملگرهای رابطهای متداول (بار حجمی، انتخاب، بهروز کردن، حذف، پیوستن، گروهبندی درجه دوم و توابع تراکم) در پایگاههای دادهای رابطهای و HBase خیلی بزرگ خواهیم پرداخت.
Abstract
Relational Databases are currently at the heart of information system of the companies. In recent years, the relational model has become de facto standard thanks to its maturity and efficiency. However, the fact that the data of some companies or institutions have become too large, new systems has appeared namely NoSQL which belongs to the Big Data era. Big Data comes due to the emergence of new online services on which customers have become increasingly connected, which creates a large digital data unbearable by the traditional management technical tools, which raise new challenges for companies especially to access, store and analyse data. In this paper we will propose a feasibility study of migration from relational databases to NoSQL databases specifically HBase database, by applying the operations of the relational algebra in HBase data model and explore the implementation of these operations on HBase by using the native functions of this DBMS and also by using the MapReduce Framework.
1 Introduction
Relational database management systems (RDBMS) are the most common solution in many applications for storing and retrieving data due to its maturity and reliability. Relational databases are based on the Codd model (relational) [1] which has privileged a system of relations based solely on the values of the data, and a manipulation of these data using a high level language called SQL [3], implementing a new mathematical theory similar to the set theory proposed by Codd called “relational algebra” [1]. Relational algebra defines operations that can be applied on relations. Relational operations allow to create a new relation (table) from elementary operations on other tables namely union, intersection, selection, projection, and join.
5 Conclusion and Future Work
In this paper we proposed a feasibility study of migrating relational databases to HBase databases by applying the operations of the relational algebra in HBase data model and explore the implementation of these operations on HBase by using the native functions of this DBMS and also byusing the MapReduce Framework. Based on the above sections we can deduce that is theoretically the migration between relational databases and HBase databases can be handled efficiently. In perspective, we envisage to compare the performance of execution of the commons relational operations (bulk load, select, update, delete, join, group by, and aggregate functions) over a large database in relational and in HBase.
چکیده
1- مقدمه
2- تعاریف اصلی
2-1 پایگاههای دادهای NoSQL
2-2 HBase
2-3 MapReduce
3- جبر رابطهای در HBase
3-1 مجموعهی اجتماع
3-2 ضرب کارتزین
3-3 اشتراک
3-4 انتخاب
3-5 طرحریزی
3-6 اتصال θ و هماتصال
3-7 اتصال طبیعی
3-8 تقسیم
4- عملگرهای HBase
4-1 گرفتن
4-2 گروهبندی درجه دوم
4-3 تابع تراکم
4-4 پیوستن
5- نتیجهگیری و کار آینده
Abstract
1 Introduction
2 Basic Definitions
2.1 NoSQL Databases
2.2 HBase
2.3 MapReduce
3 Relational Algebra in Hbase
3.1 Union Set
3.2 Cartesian Product
3.3 Intersection
3.4 Selection
3.5 Projection
3.6 h-Join and Equijoin
3.7 Natural Join
3.8 Division
4 Operations of Hbase
4.1 Get
4.2 Group by
4.3 Aggregate Function
4.4 Join
5 Conclusion and Future Work