ترجمه مقاله شناخت محدوده بین هسته ای حافظه سطح بالا به منظور بهره برداری از ترافیک موجود در GPGPUs – سال 2017


 

مشخصات مقاله:

 


 

عنوان فارسی مقاله:

LA-LLC: شناخت محدوده بین هسته ای حافظه سطح بالا به منظور بهره برداری از ترافیک موجود در GPGPUs

عنوان انگلیسی مقاله:

LA-LLC: Inter-Core Locality-Aware Last-Level Cache to Exploit Many-to-Many Traffic in GPGPUs

کلمات کلیدی مقاله:

GPGPU ،NoC، محدوده بین هسته ای، LLC

مناسب برای رشته های دانشگاهی زیر:

مهندسی کامپیوتر

مناسب برای گرایش های دانشگاهی زیر:

معماری سیستم های کامپیوتری و سخت افزار کامپیوتر

وضعیت مقاله انگلیسی و ترجمه:

مقاله انگلیسی را میتوانید به صورت رایگان با فرمت PDF از باکس زیر دانلود نمایید. ترجمه این مقاله با فرمت WORD – DOC آماده خریداری و دانلود آنی میباشد.

 


 

فهرست مطالب:

چکیده

1. مقدمه

2. زمینه و انگیزه

3. معماری LA-LLC

4. ارزیابی

5. کار مربوطه

6. نتیجه گیری

 


 

قسمتی از مقاله انگلیسی و ترجمه آن:

1 INTRODUCTION
GPGPUS exploit the single-instruction multiple-thread (SIMT) architecture and leverage thread-level parallelism (TLP) to hide memory access latency. However, many GPGPU applications generate a large number of memory accesses which increases the pressure on the memory system and interconnection network. Solely relying on TLP cannot completely hide memory access latency and as a result, memory operations become a severe performance bottleneck. Although a lot of work has been done to optimize the memory system, few pay attention to network latency, which plays an important role in the overall memory access latency [1], [2]. By exploiting a bulk-synchronous parallel (BSP) programming model, GPGPUs usually execute a large number of independent thread blocks and do not support hardware cache coherence [3]. This yields a unique traffic pattern, called many-to-few-to-many, where communication only exists between compute cores and memory controllers (MCs) [2]. The GPGPU network-on-chip (NoC) typically consists of a request and a reply network. The request network transfers request packets, including write and read requests from cores to MCs, while the reply network transfers read (and write) replies in the opposite direction. The few-to-many traffic from the MCs to the cores causes serious congestion in the reply network. The network bottleneck increases memory access latency and has a detrimental effect on performance [2], [4].

1. مقدمه
GPGPUs ازمعماری تک دستوری چند رشته ای ( SIMT ) استفاده کرده و از اهرم متقارن سطح رشته (TLP ) به منظور پنهان ساختن تاخیر دسترسی به حافظه بهره می برد. هر چند که بسیاری از برنامه های GPGPUs به تولید تعداد زیادی از دسترسی های حافظه که اطمینان بسیاری را در سیستم های حافظه و شبکه ی اتصال یافته ی داخلی به وجود می آورند , می پردازند. تنها با تکیه بر TLP نمی توان تاخیر دسترسی به حافظه را پنهان ساخت . بر طبق نتایج به دست آمده , عملکرد های مربوط به حافظه دچار تنگنای اجرایی سختی می باشند.
اگر چه کار های بسیاری به منظور بهینه ساختن سیستم حافظه صورت گرفته است , اما توجه کمی به تاخیر شبکه که نقش مهمی را در تمامی تاخیرات دسترسی های مربوط به حافظه دارد , شده است. با بهره برداری از یک مدل برنامه ریزی موازی همزمان (BSP ), GPGPUs اغلب به اجرای تعداد زیادی از بلاک های رشته ای مستقل پرداخته و از ارتباط حافظه ی پنهان سخت افزار حمایت نمی کنند.

 


 

دانلود رایگان مقاله انگلیسی

خرید ترجمه مقاله

 


 

دیدگاهتان را بنویسید