چکیده
در سالهای اخیر ، اغلب شرکت ها سرویس هایی را ارائه کرده اند که دیگر نمی توان با استفاده از پایگاه داده های رابطه ای بطور موثر به آنها دست یافت . همچنین ، این شرکت ها مجبور به استفاده از مدل های پایگاه داده ای جایگزین مانند پایگاه داده های XML ، پایگاه داده های شی گرا ، پایگاه داده های سند گرا ، و اخیرا پایگاه داده های گرافی شده اند . پایگاه داده های گرافی به تازگی بوجود آمده اند . با وجود برخی کوشش های رقابتی ، اغلب آنها تنها بر جنبه های قطعی تمرکز دارند . در این مقاله یک چارچوب تعمیم یافته مقایسه پایگاه داده گرافی و نتایج بدست آمده از طریق مقایسه چهار بازی کننده در بازار پایگاه داده های گرافی ، Neo4j ، OrientDB ، Titan و DEX را نشان داده ایم .
1. مقدمه
داده های بزرگ به دو موضوع رسیدگی کرده اند : اندازه در حال رشد مجموعه های داده و افزایش پیچیدگی داده . مدلهای پایگاه دادهای جایگزین مانند پایگاه داده های گرافی اغلب برای نشان دادن این مشکل دوم بکار می روند. درواقع، گرافها می توانند برای مدلسازی بسیاری از مشکلات جالب توجه بکار روند . با پیدایش اخیر بسیاری از پیاده سازی های رقابتی، نیاز فزاینده ای به یک مطالعه مقایسه ای بین همه این راه حل های مختلف وجود دارد. اگرچه این تکنولوژی نسبتا جدید است ، پیش از این چند تلاش مقایسه ای وجود داشته است. ابتدا ، می توانیم آنالیز کیفی Angles [2]را ذکر کنیم ، که دو مدل پهلو به پهلو و ویژگی های ارائه شده توسط نه پایگاه داده گرافی را مقایسه می کند . سپس ، مقاله هایی از Ciglan و همکارانش [8] و Dominguez-Sal و همکارانش [5] پایگاه داده های گرافی اخیر را از نقطه نظر کارایی ارزیابی میکنند ، اما متاسفانه تنها عملیات بارگذاری و پیمایش گراف را درنظر می گیرند . درخصوص سیستم های الگوبرداری پایگاه داده های گرافی ، برای اطلاع ما تنها دو جایگزین وجود دارد . اول ، معیار آنالیز گرافی با مقياس پذيري نامحدود HPC ، که پایگاههای داده را با استفاده از چهار نوع از عملیات ( شالوده ها ) ارزیابی می کند : 1) بارگذاری دسته ای پایگاه های داده ، 2 ) یافتن تمام کناره هایی که بیشترین وزن را دارند ، 3) کشف گراف از مجموعه ای از رئوس منبع 4 ) محاسبه مرکزیت میانوند . این معیار بخوبی مشخص شده است و اساسا امکانات پیمایش پایگاه دادهها را ارزیابی می کند . هرچند ،این معیار تاثیر سرویس گیرنده های همزمان اضافی برروی عملکردشان را آنالیز نمیکند. درنهایت همچنین می توانیم تلاش Tinkerpop برای ایجاد یک چارچوب مقایسه ای پایگاه داده گرافی جامع و آسان را بیان کنیم . هرچند ، پروژه دقیقا همان محدودیت های معیار آنالیز گرافی با مقیلس پذیری نامحدود HPC را دارد.
در این مقاله ، GDB را نشان می دهیم که یک چارچوب تعمیم یافته الگوبرداری پایگاه داده گرافی می باشد . از این ابزار برای آنالیز کارایی بدست آمده چهار پایگاه داده گرافی استفاده می کنیم : Neo4j 1.9M05 ، Titan 0.3 ، OrientDB 1.3 و DEX 4.7 .
Abstract
In recent years, more and more companies provide services that can not be anymore achieved efficiently using relational databases. As such, these companies are forced to use alternative database models such as XML databases, objectoriented databases, document-oriented databases and, more recently graph databases. Graph databases only exist for a few years. Although there have been some comparison attempts, they are mostly focused on certain aspects only. In this paper, we present a distributed graph database comparison framework and the results we obtained by comparing four important players in the graph databases market: Neo4j, OrientDB, Titan and DEX.
I. INTRODUCTION
Big Data has to deal with two key issues: the growing size of the datasets and the increase of data complexity. Alternative database models such as graph databases are more and more used to address this second problem. Indeed, graphs can be used to model many interesting problems. For example, it is quite natural to represent a social network as a graph. With the recent emergence of many competing implementations, there is an increasing need for a comparative study between all these different solutions. Although the technology is relatively young, there have been already some comparison attempts. First, we can cite Angles’s qualitative analysis [2] that compares side-by-side the model and features provided by nine graph databases. Then, papers from Ciglan et al. [8] and Dominguez-Sal et al. [5] evaluate current graph databases from a performance point of view, but unfortunately only consider loading and graph traversal operations. Concerning graph databases benchmarking systems, there exist to our knowledge only two alternatives. First, there is the HPC Scalable Graph Analysis Benchmark1, that evaluates databases using four types of operations (kernels): (1) bulk load of the database; (2) find all the edges that have the largest weight; (3) explore the graph from a couple of source vertices; (4) compute the betweenness centrality. This benchmark is well specified and mainly evaluates the traversal capabilities of the databases. However, it does not analyze the effect of additional concurrent clients on their behavior. Finally, we can also cite Tinkerpop’s2 effort for creating a generic and easy to use graph database comparison framework3. However, the project suffers from exactly the same limitation as the HPC Scalable Graph Analysis Benchmark.
In this paper, we present GDB, a distributed graph database benchmarking framework. We used this tool to analyze the per formance achieved by four graph databases: Neo4j 1.9M054, Titan 0.35, OrientDB 1.36 and DEX 4.77.
چکیده
1.مقدمه
2. پشته TINKERPOP
3. GDB : معیار پایگاه داده گرافی
A . مقدمه
B . حجم های کاری
C . مرور کلی معماری
4. نتایج
A . آماده سازی عملی
B . حجم کاری بارگذاری
C . حجم های کار پیمایش
D . حجم های کاری فشرده
V . نتیجه گیری
Abstract
I. INTRODUCTION
II. TINKERPOP STACK
III. GDB: GRAPH DATABASE BENCHMARK
A. Introduction
B. Workloads
C. Architecture overview
IV. RESULTS
A. Experimental setup
B. Load workload
C. Traversal workloads
D. Intensive workloads
V. CONCLUSION