ترجمه مقاله کافی بودن داده های کم برای تشخیص داده های پرت بر اساس فاصله – سال 2022
مشخصات مقاله:
عنوان فارسی مقاله:
عنوان انگلیسی مقاله:
کلمات کلیدی مقاله:
تشخیص داده های پرت – تشخیص ناهنجاری – خوشه بندی – نمونه های اولیه – نظارت نشده – نزدیکترین همسایگی ها – عامل داده های پرت محلی – knn – lof – k-means
مناسب برای رشته های دانشگاهی زیر:
مهندسی کامپیوتر
مناسب برای گرایش های دانشگاهی زیر:
مهندسی نرم افزار – علوم داده – مهندسی الگوریتم ها و محاسبات
وضعیت مقاله انگلیسی و ترجمه:
مقاله انگلیسی را میتوانید به صورت رایگان با فرمت PDF از باکس زیر دانلود نمایید. ترجمه این مقاله با فرمت WORD – DOC آماده خریداری و دانلود آنی میباشد.
فهرست مطالب:
چکیده
1. مقدمه
2. روش شناسی
3. نتایج
4. نتیجه گیری
منابع
قسمتی از مقاله انگلیسی و ترجمه آن:
Abstract
Many real-world use cases benefit from fast training and prediction times, and much research went into speeding up distancebased outlier detection methods to millions of data points. Contrary to popular belief, our findings suggest that little data is often enough for distance-based outlier detection models. We show that using only a tiny fraction of the data to train distance-based outlier detection models often leads to no significant reduction in predictive performance and detection variance over a wide range of tabular datasets. Furthermore, we compare a data reduction based on random subsampling and clustering-based prototypes and show that both approaches yield similar outlier detection results. Simple random subsampling, thus, proves to be a useful benchmark and baseline for future research on speeding up distance-based outlier detection
چکیده
تعداد زیادی از مطالعات موردی از آموزش سریع و دفعات پیش بینی سود می برند، و بیشتر تحقیقات به بررسی تسریع روش های تشخیص داده های پرت مبتنی بر فاصله برای میلیون ها نقطه داده می پردازند. یافته های ما برخلاف عقیده عموم نشان می دهند که داده های اندک اغلب برای مدلهای تشخیص داده های پرت مبتنی بر فاصله کافی هستند. ما نشان می دهیم که از بخش کوچکی از داده ها برای آموزش مدلهای تشخیص داده های پرت مبتنی بر فاصله استفاده می شود که اغلب منجر به کاهش غیرمعنی داری در عملکرد پیش بینانه و واریانس تشخیص در محدوده گسترده ای از مجموعه داده های جدولی می شود. علاوه بر این، ما کاهش داده را براساس زیرنمونه گیری تصادفی و نمونه های اولیه مبتنی بر خوشه بندی مقایسه می کنیم و نشان می دهیم که هر دو رویکرد منجر به نتایج تشخیص داده های پرت مشابهی می شوند. بنابراین، زیرنمونه گیری تصادفی ساده ثابت می کند که یک معیار مفید و مبنایی برای تحقیقات آینده در تسریع تشخیص داده های پرت مبتنی بر فاصله است.