مشخصات مقاله:
عنوان فارسی مقاله:
کرنل معنایی مجموعه ای از نوشته ها و داده ها برای دسته بندی متون از طریق استفاده از ارزش واقعی واژگان
عنوان انگلیسی مقاله:
A corpus-based semantic kernel for text classification by using meaning values of terms
کلمات کلیدی مقاله:
ماشین های بردار پشتیبانی، دسته بندی متن، کرنل معنایی، معنا، روابط رتبه بالا
مناسب برای رشته های دانشگاهی زیر:
مهندسی کامپیوتر
مناسب برای گرایش های دانشگاهی زیر:
هوش مصنوعی و مهندسی نرم افزار
وضعیت مقاله انگلیسی و ترجمه:
مقاله انگلیسی را میتوانید به صورت رایگان با فرمت PDF از باکس زیر دانلود نمایید. ترجمه این مقاله با فرمت WORD – DOC آماده خریداری و دانلود آنی میباشد.
فهرست مطالب:
چکیده
مقدمه
کارهای مربوطه
ماشین های پشتیبانی بردار برای مسئله دسته بندی
تابع معنایی برای دسته بندی متون
روش وزن و ارزیابی عبارات
اصل Helmholtz،برگرفته شده از نظریه Gestalt، بر مبنای داده کاوی می باشد
کرنل معنایی کلاس ها، طبقات (CMK)
تنظیمات آزمایشی
نتایج و کارهای آینده
قسمتی از مقاله انگلیسی و ترجمه آن:
Abstract
Text categorization plays a crucial role in both academic and commercial platforms due to the growing demand for automatic organization of documents. Kernel-based classification algorithms such as Support Vector Machines (SVM) have become highly popular in the task of text mining. This is mainly due to their relatively high classification accuracy on several application domains as well as their ability to handle high dimensional and sparse data which is the prohibitive characteristics of textual data representation. Recently, there is an increased interest in the exploitation of background knowledge such as ontologies and corpus-based statistical knowledge in text categorization. It has been shown that, by replacing the standard kernel functions such as linear kernel with customized kernel functions which take advantage of this background knowledge, it is possible to increase the performance of SVM in the text classification domain. Based on this, we propose a novel semantic smoothing kernel for SVM. The suggested approach is based on a meaning measure, which calculates the meaningfulness of the terms in the context of classes. The documents vectors are smoothed based on these meaning values of the terms in the context of classes. Since we efficiently make use of the class information in the smoothing process, it can be considered a supervised smoothing kernel. The meaning measure is based on the Helmholtz principle from Gestalt theory and has previously been applied to several text mining applications such as document summarization and feature extraction. However, to the best of our knowledge, ours is the first study to use meaning measure in a supervised setting to build a semantic kernel for SVM. We evaluated the proposed approach by conducting a large number of experiments on well-known textual datasets and present results with respect to different experimental conditions. We compare our results with traditional kernels used in SVM such as linear kernel as well as with several corpus-based semantic kernels. Our results show that classification performance of the proposed approach outperforms other kernels.
چکیده
دسته بندی متون، نقش بسیار مهمی را در سیستم های آکادمی و تجاری ایفا می کند. چرا که ، نیاز ما به سازمان خودکار اسناد، روز به روز بیشتر می شود. الگوریتم دسته بندی بر مبنای کرنل، همانند SVM (ماشین های پشتیبانی بردار).در متن کاوی، بسیار حائز اهمیت می باشند. علت این امر، دقت دسته بندی به نسبت دقیق ، چندین برنامه کاربردی مختلف و همچنین توانایی به کار بردن داده های فضایی و ابعادی بالا می باشد که ویژگی های بازدارندگی داده های متنی را نشان می دهند. اخیرا توجه بسیار زیادی به پیش زمینه دانش هایی مثل آنتولوژی ها و دانش آماری بر مبنای مجموعه ای از نوشته ها، در جهت دسته بندی متون، شده است. همان طور که می بینید، جایگزین کردن تابع استاندارد کرنل همانند کرنل خطی با تابع کرنل customize شده،مزایایی را در زمینه پیشینه دانش در بردارد. ما با توجه به این مزایا می توانیم، عملکرد SVM را در دامنه دسته بندی متون، بهبود بخشیم. ما با توجه به این مسئله، یک کرنل معنایی جدید برای SVM فرض می کنیم. این رویکرد پیشنهادی بر مبنای مقیاس معنا می باشد که واژگان بی معنا را در زمینه های مختلف، مورد ارزیابی قرار می دهد.. بردارهای اسناد،بر مبنای این ارزش های معنایی در متون و با زمینه های مختلف مورد بررسی قرارمی گیرند. ما از اطلاعات دسته بندی در فرآیند تشخیص راحت معنا استفاده کرده که به عنوان کرنل هموار نظارت شده، مورد توجه قرار می گیرد.ما به طور کارآمد از دسته بندی اطلاعات اطلاعات در فرآیند هموار سازی((smoothing استفاده می کنیم که به عنوان روش کرنل SMOOTHING (هموار) نظارت شده، مدنظر قرار می گیرد.مقیاس معنا، بر مبنای اصل Hemoholmz، برگرفته شده از نظریه Gestalt می باشد که برای ذخیره چندین برنامه ی متنی، مثل خلاصه برداری از اسناد و بیرون کشیدن ویژگی ها، مورد توجه قرار می گیرد. ما در این مقاله ، تلاش می کنیم تا از مقیاس معنا در محیط نظارت شده ، استفاده کنیم تا کرنل معنایی را برای SVM ایجاد کنیم. ما این رویکرد فرضی را از طریق آزمون های شناخته شده مورد ارزیابی قرار می دهیم که بر مبنای مجموعه داده های متنی قرار دارند و نتایج برگرفته شده از آنها، در شرایط مختلف آزمایشی بدست آمدند. ما نتایج تحقیق خود را با نتایج قبلی مقایسه می کنیم که از SVM استفاده کردند. همانند کرنل خطی در موازات با کرنل های معنایی مربوط به چندین مجموعه از متون و نوشته ها. نتایج ما نشان می دهند که عملکرد دسته بندی این رویکرد فرضی، موثر تر از کرنل های دیگر می باشد.