چکیده
ما یک پشتیبانی سختافزاری نوین برای سه مدل حافظه آزاد ، پایداری رهاسازی (RC)، آرایش نگهداری نسبی (PSO) و آرایش نگهداری کامل (TSO) در سیستم های چندهسته ای حافظهی مشترک توزیعشده بر پایهی شبکه روی چیپ (NoC) پیشنهاد کردیم. مدل RC به کاربرد یک روش بر پایهی یک شمارشگر تبادل و یک دسته آدرس برای تقویت ترتیبهای سراسری لازم روی عملیات حافظهی مشترک شناختهمیشود. مدلهای PSO و TSO به کاربرد یک روش بر پایهی یک شمارشگر تبادل نوشتاری و یک دسته آدرس نوشتاری برای تقویت ترتیبهای سراسری لازم روی عملیات حافظهی مشترک شناختهمیشوند. در تجربیات، ما از یک پلتفورم قابل پیکربندی بر اساس یک شبکهی NoC دوبعدی با استفاده از سیاست مسیریابی تغییر مکانی استفاده کردیم. نتایج نشان داد که در حجم کار علمی، زمان متوسط اجرا برای مدلهای RC، PSO و TSO در شبکهی 8در8 (64 هسته) نسبت به مدل پایداری پیاپی (SC) به ترتیب 8/35%، 7/22% و 5/16% کاهش مییابد. میزان افزایش متوسط سرعت در حجم کار کاربردی مختلف برای مدلهای RC، PSO و TSO در شبکهی 8در8 نسبت به مدل SC به ترتیب 3/34%، 6/10% و 9/8% افزایش یافت. هزینهی سطحی در واسطهی پردازنده برای مدلهای RC، PSO و TSO نسبت به SC تنها 2% افزایش داشت.
1- مقدمه
موازیسازی محاسبه ، ارتباط و معماری حافظه باید همسانسازی شوند [1]. بیشترین پتانسیل با حافظهی مشترک توزیعشده (DSM) روی چیپ با بهرهبرداری از طبیعت توزیعشدهی سیستمهای بر پایهی شبکه روی چیپ (NoC) حاصل میشود. از آنجایی که عملیات حافظهی مشترک میتوانند در شبکه بازآرایی شوند، سیستمهای DSM ممکن است رفتار غیر قابل انتظاری نشان دهند. یک مدل پایداری حافظه ترتیب اجرای عملیات حافظهی مشترک را برای رفتار قابل انتظار سیستمهای DSM تعریف میکند [2]. مدل صریح پایداری پیاپی (SC) [3] از مزایای عملکردی بالقوه در سیستمهای DSM بهره نمیگیرد. در نتیجه، چندین مدل پایداری «آزاد» [2، 4، 9، 11] به میان آمدند تا به وسیلهی آزادسازی محدودیتهای آرایش اعمالشده روی عملیات مشترک حافظه، از بهینهسازیهای سیستم بهرهبرداری کنند. پایداری حافظه و پیوستگی نهانگاه دو مسألهی صریح هستند. هدف هر دو رسیدن به یک دید ثابت و پایدار از حافظه است؛ اما در سطوح متفاوت. مسألهی پیوستگی نهانگاه از کپیهای نهانشدهی مختلف از یک دادهی مشترک یکسان ناشی میشود. در مقابل، پایداری حافظه به آرایش محدودیتهای اعمالشده روی عملیات حافظهی مشترک برای رفتار درست سیستمهای DSM مربوط است. در برخی وضعیتها که این دو مشکل نیازمندیهای بسیار متفاوتی دارند (مثلاً برای اندازهی بلوک نهانگاه و شیء پایداری)، یا وقتی از نهانگاه استفاده نمیشود (مانند کاربردهای بلادرنگ سخت) یک پیادهسازی مستقل پایداری حافظه و پیوستگی نهانگاه ارجح است [1، 23-25].
Abstract
We propose a novel hardware support for three relaxed memory models, Release Consistency (RC), Partial Store Ordering (PSO) and Total Store Ordering (TSO) in Network-onChip (NoC) based distributed shared memory multicore systems. The RC model is realized by using a Transaction Counter and an Address Stack based approach to enforce the required global orders on the shared memory operations. The PSO and TSO models are realized by using a Write Transaction Counter and a Write Address Stack based approach to enforce the required global orders on the shared memory operations. In the experiments, we use a configurable platform based on a 2D mesh NoC using deflection routing policy. The results show that under synthetic workloads, the average execution time for the RC, PSO and TSO models in 8x8 network (64 cores) is reduced by 35.8%, 22.7% and 16.5% over the sequential consistency (SC) model, respectively. The average speedup for the RC, PSO and TSO models in 8x8 network under different application workloads is increased by 34.3%, 10.6% and 8.9% over the SC model, respectively. The area cost for the TSO, PSO and RC models is increased by less than 2% over the SC model at the interface to the processor.
I. INTRODUCTION
The parallelization of computation, communication and memory architecture has to be matched [1]. The full potential can be harvested with Distributed Shared Memory (DSM) onchip by exploiting the distributed nature of Network-on-Chip (NoC) based systems. Since shared memory operations can be reordered in the network, the DSM systems may show unexpected behavior. A memory consistency model defines the execution order of the shared memory operations for the expected behavior of the DSM systems [2]. The strict Sequential Consistency (SC) model [3] does not take advantage of potential performance benefits in the DSM systems. As a result, several relaxed consistency models [2][4][9][11] emerged to exploit the system optimizations by relaxing the ordering constraints on the shared memory operations. Memory consistency and cache coherence are two distinct problems. Both aim to achieve consistent view of the memory system but at different levels. The cache coherence problem arises due to different cached copies of the same shared data. Memory consistency in contrast is related to the ordering constraints on the shared memory operations for the correct behavior of the DSM systems. In some situations, where these two problems have very different requirements (e.g. on the size of the cache block and the consistency object), or when a cache is not used (e.g. for hard real time applications) an independent implementation of the memory consistency and cache coherence is preferred [1][23-25].
چکیده
1- مقدمه
2- کارهای مربوطه
الف) پایداری حافظه در سیستمهای DSM ریزپردازنده
ب) پایداری حافظه در سیستم های چندهستهای بر پایهی NoC
3- مدلهای TSO، PSO و RC
الف) مدل TSO
ب) مدل PSO
پ) مدل RC
4- پلتفورم McNoC بر پایه DSM
5- ادراک مدلهای TSO، PSO و RC
الف) مدل TSO
ب) مدل PSO
پ) مدل RC
6- آزمایشها و نتایج
الف) هزینههای پیادهسازی سختافزاری
ب) شرایط تجربی
پ) آزمایشها با حجمهای کار سنتزی
ت) نتایج و بحث
ث) حجمهای کار کاربردی
1) ضرب ماتریسی
2) جستجوی الگو
3) شمارش بیت/آنالیز داده
7- نتیجهگیری
Abstract
I. INTRODUCTION
II. RELATED WORK
A. Memory Consistency in Multiprocessors DSM systems
B. Memory Consistency in NoC based Multicores systems
III. TSO, PSO AND RC MODELS
A. TSO Model
B. PSO Model
C. RC Model
IV. DSM BASED MCNOC PLATFORM
V. REALIZATION OF THE TSO, PSO AND RC MODELS
A. TSO Model
B. PSO Model
C. RC Model
VI. EXPERIMENTS AND RESULTS
A. Hardware implementation cost
B. Experimental Setup
C. Experiments with Synthetic Workloads
D. Results and Discussion
E. Application Workloads
VII. CONCLUSION