an asymptotically optimal policy for finite support models in the multiarmed bandit problem : تی پی بین

an asymptotically optimal policy for finite support models in the multiarmed bandit problem

an asymptotically optimal policy for finite support models in the multiarmed bandit problem
نویسندگان :

junya honda

akimichi takemura
کلمات کلیدی :

finite

convex optimization

bandit problems

time regret

med policy
جزئیات بیشتر مقاله
- تاریخ ارائه: 1392/07/24
- تاریخ انتشار در تی پی بین: 1392/07/24
- تعداد بازدید: 1132
- تعداد پرسش و پاسخ ها: 0
- شماره تماس دبیرخانه رویداد: -
in the multiarmed bandit problem the dilemma between exploration and exploitation in reinforcement learning is expressed as a model of a gambler playing a slot machine with multiple arms. a policy chooses an arm in each round so as to minimize the number of times that arms with suboptimal expected rewards are pulled. we propose the minimum empirical divergence (med) policy and derive an upper bound on the finite-time regret which meets the asymptotic bound for the case of finite support models. in a setting similar to ours, burnetas and katehakis have already proposed an asymptotically optimal policy. however, we do not assume any knowledge of the support except for its upper and lower bounds. furthermore, the criterion for choosing an arm, minimum empirical divergence, can be computed easily by a convex optimization technique. we confirm by simulations that the med policy demonstrates good performance in finite time in comparison to other currently popular policies.

سوال خود را در مورد این مقاله مطرح نمایید :

سوال شما برای نویسنده مقاله نیز ارسال می گردد.در صورت درج پاسخ از طریق ایمیل به شما اطلاع داده خواهد شد.
با انتخاب دکمه “ثبت پرسش”، موافقت خود را با قوانین انتشار محتوا در تی پی بین اعلام می کنم.

در صورت درج پاسخ از طریق ایمیل به شما اطلاع داده خواهد شد.

با انتخاب دکمه ثبت پرسش، موافقت خود را با قوانین انتشار محتوا در وبسایت تی پی بین اعلام می کنم

an asymptotically optimal policy for finite support models in the multiarmed bandit problem

junya honda

akimichi takemura

سوال خود را در مورد این مقاله مطرح نمایید :

استفاده از تحلیل اهمیت-عملکرد در ارائه الگوی مدیریت خلاقیت سازمانی و ارائه راهکار جهت بهبود

بررسی تاثیر ارزش وجوه نقد مازاد بر ساختار سرمایه شرکت های پذیرفته شده در بورس اوراق بهادار تهران

بررسی تأثیر سطح افشای ریسک بر قرارداد بدهی شرکت های پذیرفته شده در بورس اوراق بهادار تهران

بررسی تأثیر رتبه بندی اعتباری مبتنی بر مدل امتیاز بازار نوظهور بر نقد شوندگی سهام با تأکید بر خصوصی سازی شرکت ها

تأثیر آمیخته بازاریابی پوشاک ایرانی بر تصویر ذهنی مشتری پوشاک ایرانی (هاکوپیان)

آموزش چگونگی رفتار با کودکان دارای لکنت زبان در خانه توسط معلمان دوره ابتدایی

مروری بر مبارزه با حشرات و دیگر بندپایان در طول 8 سال دفاع مقدس

تاثیر اندیشه های ایرانی بر فرم گیری معماری ایرانی اسلامی

بررسی خاستگاه تکتونوماگمایی گرانیتوئیدهای سنندج سیرجان شمالی

a flexible cluster-oriented alternative clustering algorithm for choosing from the pareto front of solutions

مدیریت و بررسی افسردگی دانش آموزان دختر مقطع متوسطه دوم در دروان کرونا در شهرستان دزفول

مدیریت و بررسی خرد سیاسی در اندیشه ی فردوسی در ادب ایران

واکاوی و مدیریت توصیفی قلمدان(جاکلیدی)ضریح در موزه آستان قدس رضوی

بررسی تاثیر خلاقیت، دانش و انگیزه کارکنان بر پیشنهادات نوآورانه کارکنان ( مورد مطالعه: هتل های 3 و 4 ستاره استان کرمان)

بررسی تاثیر کیفیت سیستم های اطلاعاتی بر تصمیم گیری موفق در شرکتهای تولیدی استان اصفهان (مورد مطالعه: مدیران شرکتهای تولیدی استان اصفهان)

بررسی تأثیر کیفیت خدمات آفلاین، کیفیت خدمات الکترونیکی، رضایت الکترونیکی، تعهد و اعتماد بر وفاداری الکترونیکی (مورد مطالعه: کاربران سامانه دیوار)

نقش میانجی منافع برند بر رابطه ی بین برند تجاری و تعهد مشتریان تلفن همراه

رابطه جو عاطفی خانواده، حمایت اجتماعی ادراک شده با گرایش به رفتارهای پرخطر در نوجوانان شهر رشت

چگونه توانستم دانش آموزانم را به یادگیری و پژوهش در درس مطالعات اجتماعی تشویق کنم؟

طراحی الگوی توانمندسازی شغلی منابع انسانی ورزش بر اساس رویکرد فراترکیب