• بررسی داده های نامتوازن و انتخاب گروه مناسب طبقه بندی با استفاده از روش های جمعی برای داده های مربوط به سرطان سینه

    جزئیات بیشتر مقاله
    • تاریخ ارائه: 1396/09/14
    • تاریخ انتشار در تی پی بین: 1396/09/14
    • تعداد بازدید: 2565
    • تعداد پرسش و پاسخ ها: 0
    • شماره تماس دبیرخانه رویداد: -

    یکی از مسائل مهم درزمینه داده کاوی، مسأله دسته بندی مجموعه داده های نامتوازن است. اصطلاح عموما به مجموعه داده ای گفته می شود که تعداد نمونه ها در کلاس های، «مجموعه داده نامتوازن» گوناگون، اختلاف بسیاری داشته باشند. در این نوع داده ها، به کلاس هایی که کم ترین تعداد نمونه ها را دارند، کلاس اقلیت گفته می شود. به دلیل این که اکثر الگوریتم های یادگیری، یک دسته بند را با فرض برابر بودن تعداد نمونه های آموزشی هرکلاس آموزش می دهند، بنابراین زمانی که این الگوریتم ها را به مجموعه داده های نامتوازن اعمال می کنیم، دسته بند آموزش داده شده، غالبا براساس نمونه های کلاس اکثریت آموزش می بیند. این موضوع به پیش بینی بسیار ضعیف نمونه های کلاس های اقلیت منجر می شود، زیرا آموزش کلاس اقلیت به درستی انجام نشده است. در این پایان نامه هدف مورد نظراین است که روش هایی برای دسته بندی ارائه شوند که علاوه بر بهبود دسته بندی در داده های کلاس های اقلیت، قابلیت دسته بندی داده های کلاس های اکثریت نیز، در سطح قابل قبولی حفظ شود. از آنجایی که درکارهای صورت گرفته پیشین عموما از داده های مصنوعی برای کار دسته بندی استفاده شده است لذا در این پایان نامه داده های مربوط به سرطان سینه توسط نگارنده جمع آوری شده. روش های پیشنهادی که بیشتر در قالب متدهای جمعی هستند بر روی این داده ها (دیتاست) با استفاده از نرم افزار راپیدماینر به مرحله اجرا، خروجی و در نهایت مقایسه بین روش ها خواهیم پرداخت.

سوال خود را در مورد این مقاله مطرح نمایید :

با انتخاب دکمه ثبت پرسش، موافقت خود را با قوانین انتشار محتوا در وبسایت تی پی بین اعلام می کنم
مقالات جدیدترین ژورنال ها