مقاله ترجمه شده درباره پلتفرم مبتنی بر هدوپ برای پردازش زبان طبیعی اسناد و صفحات وب – سال 2015
مشخصات مقاله:
عنوان فارسی مقاله:
پلتفرم مبتنی بر هدوپ برای پردازش زبان طبیعی اسناد و صفحات وب
عنوان انگلیسی مقاله:
A hadoop based platform for natural language processing of web pages and documents
کلمات کلیدی مقاله:
پردازش زبان طبیعی، هدوپ، برچسب زنی بخش گفتار، تجزیه متن، وب کرالینگ، ماینینگ بیگ دیتاها، محاسبه موازی، سیستم های توزیع شده
مناسب برای رشته های دانشگاهی زیر:
مهندسی کامپیوتر و مهندسی فناوری اطلاعات
مناسب برای گرایش های دانشگاهی زیر:
اینترنت و شبکه های گسترده، مهندسی نرم افزار و رایانش ابری
وضعیت مقاله انگلیسی و ترجمه:
مقاله انگلیسی را میتوانید به صورت رایگان با فرمت PDF از باکس زیر دانلود نمایید. ترجمه این مقاله با فرمت WORD – DOC آماده خریداری و دانلود آنی میباشد.
فهرست مطالب:
چکیده
۱. مقدمه
۲. آثار مربوطه
۳. ساختار سیستم
۳-۱ MapReduce
۳-۲ Web crawler
۳-۳ استخراج کننده کلیدواژه/عبارات اصلی
۳-۴ کاربرد GATE
۳-۵ محاسبه ارتباط TF-IDF
۳-۶ ذخیره DB بیرونی
۴. ارزیابی
۵. نتیجه گیری و برنامه های آینده
قسمتی از مقاله انگلیسی و ترجمه آن:
Abstract
The rapid and extensive pervasion of information through the web has enhanced the diffusion of a huge amount of unstructured natural language textual resources. A great interest has arisen in the last decade for discovering, accessing and sharing such a vast source of knowledge. For this reason, processing very large data volumes in a reasonable time frame is becoming a major challenge and a crucial requirement for many commercial and research fields. Distributed systems, computer clusters and parallel computing paradigms have been increasingly applied in the recent years, since they introduced significant improvements for computing performance in data-intensive contexts, such as Big Data mining and analysis. Natural Language Processing, and particularly the tasks of text annotation and key feature extraction, is an application area with high computational requirements; therefore, these tasks can significantly benefit of parallel architectures. This paper presents a distributed framework for crawling web documents and running Natural Language Processing tasks in a parallel fashion. The system is based on the Apache Hadoop ecosystem and its parallel programming paradigm, called MapReduce. In the specific, we implemented a MapReduce adaptation of a GATE application and framework (a widely used open source tool for text engineering and NLP). A validation is also offered in using the solution for extracting keywords and keyphrase from web documents in a multi-node Hadoop cluster. Evaluation of performance scalability has been conducted against a real corpus of web pages and documents.
چکیده
انتشار گسترده و سریع اطلاعات در وب ، پخش بخش اعظم منابع متنی زبان طبیعی بدون ساختار را بالا برده است. توجه زیادی را در دهه های گذشته برای کشف دسترسی و تقسیم این منبع گسترده از دانش به خود جلب کرده است. به همین خاطر ، پردازش حجم وسیعی از داده ها در قالب زمانی منطقی ، چالشی بزرگ و لازمه ی حوزه های تحقیقاتی و تجاری است. نمونه های محاسبه ی موازی و سیستم های توزیع شده ، خوشه های کامپیوتری و کاربرد فزاینده ای در سال های اخیر داشته چونکه دستاوردهای مهمی برای محاسبه ی عملکرد در متن های فشرده ی داده ای مثل تحلیل و big data mining ماینینگ بیگ دیتا را معرفی کرده است. پردازش زبان طبیعی و خصوصا کارهای تفسیر(حاشیه نویسی) متن و استخراج ویژگی کلیدی ، حوزه ی مطالعاتی با شرایط محاسباتی بالاست ؛ در نتیجه ، این کارها ، فایده ی قابل توجهی برای ساختارهای موازی دارد. در این مقاله ، چارچوب توزیعی اسناد کرالینگ وب و اجرای کارهای پردازش زبان طبیعی به روش موازی ارائه شده است. این سیستم بر مبنای اکوسیستم آپاچی هدوپ و نمونه ی برنامه نویسی موازی به نام مپ ردیوس است. ما انطباق مپ ردیوس را در چارچوب و کاربرد گیت به طور خاص ، اجرا کرده ایم ( ابزار منبع باز با کاربرد گسترده برای مهندسی متن و NLP ). ارزیابی ای نیز در استفاده از راه حل استخراج کلیدواژه ها و عبارت های کلیدی از اسناد وب در خوشه ی هدوپ چند گرهی ارائه شده است. ارزیابی مقیاس پذیری عملکرد در برابر مجموعه ی نوشتاری واقعی صفحات وب و اسناد آن ، انجام شده است.