ترجمه مقاله جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی – سال 2013


 

مشخصات مقاله:

 


 

عنوان فارسی مقاله:

جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی

عنوان انگلیسی مقاله:

Monte-Carlo tree search for Bayesian reinforcement learning

کلمات کلیدی مقاله:

یادگیری تقویتی بیزی، یادگیری تقویتی مبتنی بر مدل، تحقیق مونته کارلو ، POMDP

مناسب برای رشته های دانشگاهی زیر:

مهندسی کامپیوتر

مناسب برای گرایش های دانشگاهی زیر:

مهندسی الگوریتم ها و محاسبات، هوش مصنوعی

وضعیت مقاله انگلیسی و ترجمه:

مقاله انگلیسی را میتوانید به صورت رایگان با فرمت PDF از باکس زیر دانلود نمایید. ترجمه این مقاله با فرمت WORD – DOC آماده خریداری و دانلود آنی میباشد.

 


 

فهرست مطالب:

چکیده

1- مقدمه

2- مقدمه

3- فرمولاسیون POMDP در یادگیری تقویتی بیزی

3-1 فرمولاسیون POMDP

3-2 الگوریتم های BEELTE

4- برنامه ریزی مونته کارلو قابل رویت به صورت نسبی (POMCP)

5- برنامه ریزی مونته کارلو برای RL های بیزی

6- ترکیب های تو در و از مدل های ترکیب شده

7- آزمایش ها

7-1 مسئله زنجیره

7-2 مسئله مارپیچ

8- جمع بندی

 


 

قسمتی از مقاله انگلیسی و ترجمه آن:

1 Introduction
Reinforcement learning (RL) [33] provides a framework for simultaneously acting and learning in unknown environments. To act well in such situations, a reinforcement learning algorithm has to handle the exploration-exploitation trade-off—it needs to balance actions that reduce its uncertainty about the environment with actions that exploit what it already knows. RL has had some remarkable practical successes in various areas, including learning to play checkers [28], backgammon [35–37], job-scheduling [42], chess [4], dynamic channel allocation [30, 38], and others [14, 15, 17, 22, 23]. Traditionally, RL algorithms can be divided into two major approaches: model-free and model-based. Modelfree approaches attempt to directly learn the optimal policy by approximating the cost-to-go of each state, called a value function. These methods often have large variance and poor trade-off between exploration/exploitation. On the other hand, model-based approaches attempt to learn a model of the environment, then compute the optimal policy based on that learnt model. These approaches normally have better trade-off between exploration/exploitation. However both of them are impractical to learn online due to intensive computation and poor trade-off ability. One approach to mitigate this problem is to use Bayesian modelbased RL [6, 8, 24–26, 41]. Because it will trade-off exploration/exploitation, and uses less data required.

1. مقدمه
یادگیری تقویتی (RL) یک قالب کاری برای فعالیت و یادگیری در محیط های ناشناخته را به صورت همزمان، فراهم میکند. برای این که روش مورد نظر بتواند در هر دو شرایط عملکرد مناسب داشته باشد، یک الگوریتم یادگیری تقویتی باید بتواند توازن مناسب در بهره برداری و جست جو را فراهم کند – در نتیجه باید یک تعادل مناسب بین فعالیت های خودش ایجاد کند تا بتواند عدم قطعیت خودش در محیط را با فعالیت هایی که از دانسته های الگوریتم استفاده میکند، کاهش دهد. RL دارای موفقیت های عملی محسوس در حوزه های مختلف بوده است که شامل بازی مهره ها ( چکر) ، تخته نرد ، برنامه ریزی شغلی، شطرنج ، تخصیص کانال های پویا و دیگر کاربرد ها میباشد.
به صورت متداول، الگوریتم های RL را میتوان در دو روش اصلی تقسیم بندی کرد : بدون مدل و مبتنی بر مدل. روش های بدون مدل تلاش دارند تا به صورت مستقیم با تخمین زدن هزینه ی عملیاتی هر روش ، که با نام تابع ارزش شناخته میشود، سیاست بهینه را یاد بگیرند. این روش ها معمولا واریانس بالایی داشته و توازن ضعیفی بین بهره وری و جست جو ایجاد میکند. در طرف دیگر، روش های مبتنی بر مدل تلاش دارد تا یک مدل از محیط را یاد بگیرد، سپس سیاست های بهینه را مبتنی بر مدل یاد گرفته محاسبه میکند. این روش ها معمولا توازن بهتری بین بهره وری و جست جو به دست می آورد. اما، هر دوی آن ها برای یادگیری خیلی عملی نیستند زیرا محاسبه های بسیار گسترده و توانایی توازن بسیار کمی را ارائه میکنند. یک روش برای رفع این روش، استفاده از RL های مبتنی بر مدل های بیزی میباشد. به دلیل این که این روش میتواند توازن خوبی بین بهره وری و جست جو ایجاد کرده و از داده های کمتری استفاده کند.

 


 

دانلود رایگان مقاله انگلیسی

خرید ترجمه مقاله

 


 

دیدگاهتان را بنویسید