مقاله ترجمه شده درباره استخراج کلان داده ها با رایانش موازی – سال 2015
مشخصات مقاله:
عنوان فارسی مقاله:
استخراج کلان داده ها با رایانش موازی: مقایسه روش های توزیعی و MapReduce (نگاشت-کاهش)
عنوان انگلیسی مقاله:
Big Data Mining with Parallel Computing: A Comparison of Distributed and MapReduce Methodologies
کلمات کلیدی مقاله:
داده های بزرگ، داده کاوی، رایانش موازی، توزیعی، رایانش ابری، نگاشت کاهش
مناسب برای رشته های دانشگاهی زیر:
مهندسی کامپیوتر
مناسب برای گرایش های دانشگاهی زیر:
معماری سیستم های کامپیوتری، مهندسی نرم افزار و رایانش ابری
وضعیت مقاله انگلیسی و ترجمه:
مقاله انگلیسی را میتوانید به صورت رایگان با فرمت PDF از باکس زیر دانلود نمایید. ترجمه این مقاله با فرمت WORD – DOC آماده خریداری و دانلود آنی میباشد.
فهرست مطالب:
چکیده
مقدمه
ادبیات پیشینه
داده کاوی توزیعی
داده کاوی مبتنی بر نگاشت کاهش
روند استخراج داده های بزرگ
روند استخراج داده های بزرگ توزیعی
روند استخراج داده های بزرگ مبتنی بر نگاشت کاهش
آزمایشات
راه اندازی آزمایشی
نتایج آزمایشی بر دو مجموعه داده های طبقه بندی دو طبقه ای
نتایج بر مجموعه داده های سرطان سینه
نتایج در مجموعه داده های برابری پروتئین
نتایج آزمایشی بر مجموعه داده های طبقه بندی چند طبقه ای
نتایج بر مجموعه داده های Covertype
نتایج برای مجموعه داده ها فعالیت انسان
مقایسه های دیگر
نتیجه گیری
قسمتی از مقاله انگلیسی و ترجمه آن:
Abstract
Mining with big data or big data mining has become an active research area. It is very difficult using current methodologies and data mining software tools for a single personal computer to efficiently deal with very large datasets. The parallel and cloud computing platforms are considered a better solution for big data mining. The concept of parallel computing is based on dividing a large problem into smaller ones and each of them is carried out by one single processor individually. In addition, these processes are performed concurrently in a distributed and parallel manner. There are two common methodologies used to tackle the big data problem. The first one is the distributed procedure based on the data parallelism paradigm, where a given big dataset can be manually divided into n subsets, and n algorithms are respectively executed for the corresponding n subsets. The final result can be obtained from a combination of the outputs produced by the n algorithms. The second one is the MapReduce based procedure under the cloud computing platform. This procedure is composed of the map and reduce processes, in which the former performs filtering and sorting and the later performs a summary operation in order to produce the final result. In this paper, we aim to compare the performance differences between the distributed and MapReduce methodologies over large scale datasets in terms of mining accuracy and efficiency. The experiments are based on four large scale datasets, which are used for the data classification problems. The results show that the classification performances of the MapReduce based procedure are very stable no matter how many computer nodes are used, better than the baseline single machine and distributed procedures except for the class imbalance dataset. In addition, the MapReduce procedure requires the least computational cost to process these big datasets.
چکیده
استخراج با داده های بزرگ یا استخراج داده های عظیم به حوزه ی تحقیقاتی فعالی تبدیل شده است. استفاده از روش های رایج و ابزار نرم افزار داده کاوی برای اینکه یک کامپیوتر شخصی بتواند به طور موثر با پایگاه داده های بسیار بزرگ سر و کار داشته باشد، بسیار دشوار است. سکوهای رایانش موازی و ابری به عنوان راه حل بهتری برای استخراج داده های عظیم در نظر گرفته می شوند. مفهوم رایانش موازی بر مبنای تقسیم کردن یک مشکل بزرگ به قسمت های کوچک است و هر یک از این قسمت ها توسط یک پردازنده به طور مجزا انجام می شود. بعلاوه، این فرایندها به طور همزمان در روشی توزیعی و موازی انجام می شوند. دو روش رایج برای حل کردن این مشکل داده های بزرگ وجود دارد. مورد نخست رویه ی توزیعی بر مبنای الگوی موازی سازی داده هاست که یک مجموعه داده بزرگ می تواند به صورت دستی به n زیرمجموعه تقسیم شود و n الگوریتم برای هر n زیرمجموعه اجرا می گردد. نتیجه نهایی می تواند از ترکیبی از خروجی های تولید شده توسط n الگوریتم بدست آید. مورد دوم روند مبتنی بر نگاشت کاهش (MapReduce) در سکوی رایانش ابری است. این روند از فرایندهای نگاشت و کاهش تشکل شده است که مورد قبلی فیلتر کردن و طبقه بندی را انجام می دهد و مورد بعدی عملیات خلاصه را به منظور ایجاد نتیجه نهایی اجرا می کند. در این مقاله، هدف ما مقایسه ی تفاوت های عملکردی بین روش های توزیعی و نگاشت کاهش در پایگاه داده هایی با مقیاس بزرگ در قالب دقت و کارایی است. آزمایشات بر مبنای چهار پایگاه داده با مقیاس بزرگ است که برای مشکلات طبقه بندی داده ها مورد استفاده قرار می گیرند. نتایج حاکی از آن است که عملکردهای طبقه بندی روند مبتنی بر نگاشت کاهش بسیار پایدار هستند و مهم نیست که چند گره کامپیوتر مورد استفاده قرار می گیرد، و بهتر از ماشین منفرد خط مبنا و روندهای توزیعی جز برای پایگاه داده های عدم تعادل طبقه عمل می کند. بعلاوه، روند نگاشت کاهش نیازمند حداقل هزینه محاسباتی برای پردازش مجموعه داده های بزرگ است.