جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی
ترجمه شده

جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی

عنوان فارسی مقاله: جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی
عنوان انگلیسی مقاله: Monte-Carlo tree search for Bayesian reinforcement learning
مجله/کنفرانس: هوش کاربردی - Applied Intelligence
رشته های تحصیلی مرتبط: مهندسی کامپیوتر
گرایش های تحصیلی مرتبط: مهندسی الگوریتم ها و محاسبات، هوش مصنوعی
کلمات کلیدی فارسی: یادگیری تقویتی بیزی، یادگیری تقویتی مبتنی بر مدل، تحقیق مونته کارلو ، POMDP
کلمات کلیدی انگلیسی: Bayesian reinforcement learning · Model-based reinforcement learning · Monte-Carlo tree search · POMDP
نوع نگارش مقاله: مقاله پژوهشی (Research Article)
دانشگاه: مرکز تحقیقات و توسعه علوم و فناوری، دانشگاه DuyTan، ویتنام
صفحات مقاله انگلیسی: 9
صفحات مقاله فارسی: 20
ناشر: اسپرینگر - Springer
نوع ارائه مقاله: ژورنال
نوع مقاله: ISI
سال انتشار مقاله: 2013
ایمپکت فاکتور: 1.983 در سال 2017
شاخص H_index: 49 در سال 2019
شاخص SJR: 0.6 در سال 2019
ترجمه شده از: انگلیسی به فارسی
شناسه ISSN: 1573-7497
شاخص Quartile (چارک): Q2
فرمت مقاله انگلیسی: PDF
فرمت ترجمه فارسی: ورد و pdf
مشخصات ترجمه: تایپ شده با فونت B Nazanin 14
مقاله بیس: بله
کد محصول: 9547
درج شدن منابع داخل متن در ترجمه: خیر
ترجمه شدن توضیحات زیر تصاویر و جداول: بله
ترجمه شدن متون داخل تصاویر و جداول: خیر
نمونه ترجمه فارسی مقاله

چکیده

یادگیری تقویتی مبتنی بر مدل های بیزی را میتوان به صورت روند تصمیم گیری مارکو با قابلیت مشاهده و ارزیابی نسبی (POMDP) فرمول سازی کرد تا بتوان یک قالب کاری اصولی برای بهره برداری و ارزیابی تعادل بهینه فراهم کرد . سپس، یک حل کننده یPOMDP را میتوان مورد استفاده قرار داد تا مشکلات را حل کرد. در صورتی که توزیع اولیه نسبت به حالت پویای محیط محصولی از توزیع دریکله باشد، تابع ارزش بهینه ی POMDP را میتوان با استفاده از مجموعه از چند جمله های چند متغیره، ارائه کرد. متاسفانه، سایز چند جمله ای ها، مطابق با افق مسئله، به صورت نمایی افزایش پیدا میکند. در این مقاله، ما استفاده از یک درخت جستجوی مونته کارلو آنلاین (MCTS) را برای POMDP های بزرگ ارزیابی کردیم تا بتوانیم مسئله های یادگیری تقویتی بیزی را حل کنیم. ما نشان خواهیم داد که این الگوریتم به صورت موفق میتواند به دنبال سیاست های نزدیک به حالت بهینه بگردد. به علاوه، ما استفاده از یک روش پارامتری برای کوچک نگاه داشتن فضای جستجو را بررسی کرده و ترکیب تو در تو مدل های به هم پیوسته را پیشنهاد میدهیم تا صلابت روش را، زمانی که اطلاعات اولیه ی ما به ما این امکان را نمیدهد تا ساختار مدل های پیوسته را به صورت دقیق مشخص کنیم ، افزایش دهیم. آزمایش ها نشان میدهد که مدل پیشنهاد شده به صورت محدود میتواند موجب بهبود مقیاس پذیری روش های یادگیری تقویتی بیزی شود.

1. مقدمه

یادگیری تقویتی (RL) یک قالب کاری برای فعالیت و یادگیری در محیط های ناشناخته را به صورت همزمان، فراهم میکند. برای این که روش مورد نظر بتواند در هر دو شرایط عملکرد مناسب داشته باشد، یک الگوریتم یادگیری تقویتی باید بتواند توازن مناسب در بهره برداری و جست جو را فراهم کند – در نتیجه باید یک تعادل مناسب بین فعالیت های خودش ایجاد کند تا بتواند عدم قطعیت خودش در محیط را با فعالیت هایی که از دانسته های الگوریتم استفاده میکند، کاهش دهد. RL دارای موفقیت های عملی محسوس در حوزه های مختلف بوده است که شامل بازی مهره ها ( چکر) ، تخته نرد ، برنامه ریزی شغلی، شطرنج ، تخصیص کانال های پویا و دیگر کاربرد ها میباشد.

نمونه متن انگلیسی مقاله

Abstract

Bayesian model-based reinforcement learning can be formulated as a partially observable Markov decision process (POMDP) to provide a principled framework for optimally balancing exploitation and exploration. Then, a POMDP solver can be used to solve the problem. If the prior distribution over the environment’s dynamics is a product of Dirichlet distributions, the POMDP’s optimal value function can be represented using a set of multivariate polynomials. Unfortunately, the size of the polynomials grows exponentially with the problem horizon. In this paper, we examine the use of an online Monte-Carlo tree search (MCTS) algorithm for large POMDPs, to solve the Bayesian reinforcement learning problem online. We will show that such an algorithm successfully searches for a near-optimal policy. In addition, we examine the use of a parameter tying method to keep the model search space small, and propose the use of nested mixture of tied models to increase robustness of the method when our prior information does not allow us to specify the structure of tied models exactly. Experiments show that the proposed methods substantially improve scalability of current Bayesian reinforcement learning methods.

1 Introduction

Reinforcement learning (RL) [33] provides a framework for simultaneously acting and learning in unknown environments. To act well in such situations, a reinforcement learning algorithm has to handle the exploration-exploitation trade-off—it needs to balance actions that reduce its uncertainty about the environment with actions that exploit what it already knows. RL has had some remarkable practical successes in various areas, including learning to play checkers [28], backgammon [35–37], job-scheduling [42], chess [4], dynamic channel allocation [30, 38], and others [14, 15, 17, 22, 23].

ترجمه فارسی فهرست مطالب

چکیده

1. مقدمه

2. مقدمه

3. فرمولاسیون POMDP در یادگیری تقویتی بیزی

3.1 فرمولاسیون POMDP

3.2 الگوریتم های BEELTE

4. برنامه ریزی مونته کارلو قابل رویت به صورت نسبی (POMCP)

5. برنامه ریزی مونته کارلو برای RL های بیزی

6. ترکیب های تو در و از مدل های ترکیب شده

7. آزمایش ها

7.1 مسئله زنجیره

7.2 مسئله مارپیچ

8. جمع بندی

فهرست انگلیسی مطالب

Abstract

1 Introduction

2 Related work

3 POMDP formulation of Bayesian RL

3.1 POMDP formulation

3.2 BEETLE algorithm

4 Partially observable Monte-Carlo planning (POMCP)

5 Monte-Carlo planning for Bayesian RL

6 Nested mixtures of tied models

7 Experiments

7.1 Chain problem

7.2 Maze problem

8 Conclusion

محتوای این محصول:
- اصل مقاله انگلیسی با فرمت pdf
- ترجمه فارسی مقاله با فرمت ورد (word) با قابلیت ویرایش، بدون آرم سایت ای ترجمه
- ترجمه فارسی مقاله با فرمت pdf، بدون آرم سایت ای ترجمه
قیمت محصول: ۲۹,۶۰۰ تومان
خرید محصول