ترجمه مقاله درختان تصمیم گیری برای جریان های داده کاوی مبتنی بر کران McDiarmid – سال 2013
مشخصات مقاله:
عنوان فارسی مقاله:
درختان تصمیم گیری برای جریان های داده کاوی مبتنی بر کران McDiarmid
عنوان انگلیسی مقاله:
Decision Trees for Mining Data Streams Based on the McDiarmid’s Bound
کلمات کلیدی مقاله:
جریان داده ها، درخت های تصمیم گیری، محدوده Hoeffding، مرز McDiarmid، افزایش اطلاعات، شاخص جینی
مناسب برای رشته های دانشگاهی زیر:
مهندسی صنایع
مناسب برای گرایش های دانشگاهی زیر:
داده کاوی
وضعیت مقاله انگلیسی و ترجمه:
مقاله انگلیسی را میتوانید به صورت رایگان با فرمت PDF از باکس زیر دانلود نمایید. ترجمه این مقاله با فرمت WORD – DOC آماده خریداری و دانلود آنی میباشد.
فهرست مطالب:
چکیده
1.مقدمه
1.1انگیزه و نتایج
1.2 درخت های تصمیم گیری برای داده های بدون جریان
1.3 درختان تصمیم گیری برای جریان داده و نابرابری Hoeffding
3.کران MCDIARMIDبرای بدست آوری اطلاعات
4.کران MCDIARMIDبرای شاخص Gini
5. الگوریتم درخت MCDIARMID
6. نتایج تجربی
7. سخن آخر
قسمتی از مقاله انگلیسی و ترجمه آن:
1 INTRODUCTION
1.1 Motivation and Results DECISION trees developed in the 80s and the 90s, e.g., ID3, C4.5, and Classification and Regression Trees (CART), are powerful techniques in data mining. At the beginning of 2000s, they have been adapted to deal with stream data [1], [2], [4], [8], [9]. The problem was to ensure that, with high probability, the attribute chosen using N examples is the same as that chosen using infinite examples. The goal was to compute the heuristics measures, e.g., information gain or Gini index, based on these N examples, and then to split the examples (learning sequence) according to this attribute. To solve the problem hundreds of researches used the so-called “Hoeffdings trees,” derived from the Hoeffding’s bound, for mining data streams.
1.مقدمه
1.1انگیزه و نتایج
درخت های تصمیم گیری در دهه 80 و 90 توسعه یافتند، به عنوان مثال،3 ID، C4.5و طبقه بندی و درختان رگرسیون (CART) شیوه های قدرتمندی در داده کاوی می باشند. در آغاز دهه2000، برای مقابله با جریان داده تغییر یافتند .مشکل این بود که اطمینان حاصل شود که، با احتمال بالا، ویژگی انتخاب شده با استفاده از نمونه های N مشابه همان ویژگی انتخاب شده با استفاده از نمونه های نامتناهی می باشد . هدف برای محاسبه اندازه های تجربی بود، به عنوان مثال، به دست آوردن اطلاعات و یا شاخص Gini ، بر اساس این نمونه های Nمی باشد، و سپس برای تقسیم نمونه ها (توالی یادگیری) با توجه به این ویژگی می باشد.
برای حل این مشکل صدها تحقیقات که به اصلاح”درختان Hoeffding ” نامیده می شود، ،برگرفته از کران Hoeffdingرا برای جریان های داده کاوی استفاده می کنند.