بکارگيری تکنيک های خوشه بندی و الگوريتم ژنتيک در بهينه سازی درختان تصميم گيری برای اعتبار سنجی مشتريان بانک ها (قسمت سوم)

در این مقاله از رویکردهای فیلتر، Wrapper و طرح جاسازی شده برای انتخاب ویژگی ها استفاده می شود. روش جستجو در انتخاب ویژگی ها به صورت تصادفی و مبتنی بر الگوریتم ژنتیک است و قانون توقف برای الگوریتم انتخاب ویژگی ها، ماکزیمم تعداد تکرار در الگوریتم انتخاب ویژگی می باشد.

بکارگيری تکنيک های خوشه بندی و الگوريتم ژنتيک در بهينه سازی درختان تصميم گيری برای اعتبار سنجی مشتريان بانک ها (قسمت سوم)
در این مقاله از رویکردهای فیلتر، Wrapper و طرح جاسازی شده برای انتخاب ویژگی ها استفاده می شود. روش جستجو در انتخاب ویژگی ها به صورت تصادفی و مبتنی بر الگوریتم ژنتیک است و قانون توقف برای الگوریتم انتخاب ویژگی ها، ماکزیمم تعداد تکرار در الگوریتم انتخاب ویژگی می باشد.
هر یک از الگوریتم های انتخاب ویژگی دارای یک تابع ارزیاب برای ارزیابی ویژگی ها هستند. سه الگوریتم اول از رویکرد فیلتر، الگوریتم چهارم از رویکرد Wrapper و الگوریتم آخر از رویکرد طرح جاسازی شده برای انتخاب ویژگی ها استفاده می کنند. در ادامه به توضیحی مختصر بهجع به روش های انتخاب ویژگی در این مقاله پرداخته می شود. 
1. الگوریتم انتخاب ویژگی بمبتنی بر الگوریتم ژنتیک توسط تابع ارزیاب همبستگی بین ویژگی ها با هم با ویژگی هدف: تابع ارزیاب در این الگوریتم به بررسی همبستگی تک تک ویژگی ها با هم و با ویژگی هدف می پردازد. تابع ارزیاب در این الگوریتم، الگوریتمی است که با جستجوی هیوریستیک، به بررسی همبستگی بین ویژگی ها می پردازد. این تابع ارزیاب فرض می کند که بهترین ویژگی ها نسبت به هم همبستگی کمتر و نسبت به ویژگی هدف دارای همبستگی بیشتر می باشند. البته همبستگی در این تابع ارزیاب به وابستگی ویژگی ها با هم دلالت دارد و منظور همبستگی خطی کلاسیک نیست. 
2. الگوریتم انتخاب ویژگی مبتنی بر الگوریتم ژنتیک توسط تابع ارزیابی سازگاری زیر مجموعه ویژگی ها با مقادیر ویژگی هدف: به جستجوی کامل و جامع در فضای زیر مجموعه ویژگی ها می پردازد، تا اینکه کمینه ترین ترکیب از ویژگی ها را پیدا کند. سپس این مجموعه ویژگی ها به تقسیم مجموعه آموزشی در کلاس ها می پردازند. این الگوریتم توسط Liu و Setiono ابداع شد و ویژگی بارز آن این است که با اختلال در داده ها به خوبی برخورد می کند. این الگوریتم ابتدا به طور تصادفی یک زیر مجموعه با نام S از کل ویژگی ها انتخاب می کند. سپس در مرحله بعدی یک زیر مجموعه دیگر از ویژگی ها تولید می شود. سطح سازگاری مقادیر ویژگی هدف توسط قرار دادن نمونه های مجموعه داده در این مجموعه ویژگی سنجیده می شود. اگر این سطح سازگاری کمتر باشد، این مجموعه جایگزین مجموعه قبلی می شود. نرخ ناسازگاری در مجموعه ویژگی ها در هر مرحله محاسبه می شود. این روند مرتبا ادامه می یابد تا مناسب ترین مجموعه ویژگی ها انتخاب شوند. برای فهم بیشتر می توان به (Liu&Setiono,n.d) مراجعه کرد. 
3. الگوریتم انتخاب ویژگی مبتنی بر الگوریتم ژنتیک توسط ارزیاب طبقه بندی کننده C4.5: مجموعه ویژگی ها را توسط تابع طبقه کننده C4.5 در مجموعه داده آموزشی ارزیابی می کند. میزان شایستگی زیر مجموعه ویژگی منتخب توسط شاخص دقت طبقه بندی الگوریتم C4.5 تعیین می شود. 
4. الگوریتم انتخاب ویژگی مبتنی بر الگوریتم ژنتیک توسط تابع ارزیاب Wrapper با طبقه بندی C4.5: توسط الگوریتم های یادگیری مثل الگوریتم C4.5، ویژگی ها را ارزیابی می کند. به عبارت دیگر الگوریتم انتخاب ویژگی، برای انتخاب ویژگی های مناسب از یک الگوریتم یادگیری بهره می برد. برای بکارگیری یادگیری در انتخاب ویژگی از دادهای تست و آموزش در تکنیک اعتبارسنجی متقاطع استفاده می شود.
5. الگوریتم انتخاب ویژگی مبتنی بر درخت تصمیم گیری ژنتیکی: این الگوریتم مبتنی بر طرح جاسازی شده در انتخاب ویژگی ها است. زیرا با اجرای این الگوریتم درخت تصمیم گیری ایجاد می شود که از مجموعه ویژگی های این درخت تصمیم گیری به عنوان ویژگی های منتخب در ساخت درخت تصمیم گیری C4.5 استفاده می شود. همچنین در ساخت درختان تصمیم گیری به تغییرات اساسی در الگوریتم ژنتیک می پردازد. هر ویژگی دارای یک مقدار تصادفی می باشد. اگر ویژگی اسمی باشد، یکی از مقائیر آن در هر تکرار به طور تصادفی انتخاب می شود و اگر ویژگی مورد نظر عددی باشد، در بازه تعریف شده آن مقدار آن تغییر می کند. عملگر جهش ویژگی را به طور تصادفی انتخاب و مقدار آن را به طور تصادفی تغییر می دهد و عملگر تقاطع با انتخاب ویژگی ها به صورت تصادفی زیر درخت های آن ها را جا به جا می کند. تابع برازندگی در اینجا به بهینه کردن اندازه درخت و دقت طبقه بندی می پردازد. 

الگوریتم ژنتیک

واژه الگوریتم ژنتیک به توصیف یک مجموعه ای از رویه های جستجوی تصادفی می پردازد که از اصول ژنتیک طبیعی و اصل بقای برترین ها نشات گرفته شده است. جان هلند اولین شخصی بود که در سال 1970 به طراحی الگوریتم ژنتیک پرداخت. از آن موقع تا حال تحقیقات فراوانی پیرامون این تکنیک و ژنتیک نمی تواند شامل موارد زیر باشد:
  1. شناخت ژن ها: در الگوریتم ژنتیک برای نمایش یک ژن از یک بیت استفاده می شود. یک ژن نشان دهنده رفتار یک بخشی از راه حل مسئله است
  2. سازمان دهی ژن ها در کروموروم ها: به مجموعه ژن ها کروموروم می گویند. هر کروموزوم شامل مقادیری است که جمعا رفتار یک کروموروم یا یک راه حل مسئله تبیین می کنند. 
  3. ایجاد یک جمعیتی از راه حل های ممکن: به مجموعه ای از راه حل ها یا کروموزوم ها یک جمعیت می گویند
  4. ارزیابی تک تک کروموزم ها: در این مرحله الگوریتم ژنتیک به ارزیابی اثربخشی جمعیت اولیه برای مقایسه با جمعیت های دیگر می پردازد. 
  5. ایجاد جمعیت جدید توسط عملیات تقاطع و جهش: برخی راه حل ها ممکن است در یک جمعیت از راه حل های دیگر برتر باشند. به همین دلیل با انتخاب این مجموعه راه حل ها و توسط عملیات تقاطع و جهش جمعیت دیگری شکل می گیرد. مجددا مراحل 4 و 5 انجام می شود تا شرط توقف الگوریتم پذیرفته شود.

مدل ترکیبی پیشنهادی

در مدل ترکیبی پیشنهادی تحقیق از الگوریتم های انتخاب ویژگی مبتنی بر الگوریتم ژنتیک، درخت تصمیم گیری ژنتیکی، درختان تصمیم گیری C4.5 و همچنین الگوریتم SimpleKmeans برای خوشه بندی داده ها استفاده می شود. همانطور که مشاهده می شود، این مجموعه داده، بعد از عملیات آماده سازی و تمیز کردن به دو قسمت داده های آموزشی و تست تقسیم می شود و به وسیله تکنیک های خوشه بندی و الگوریتم های انتخاب ویژگی، پیش پردازش داده ها صورت می گیرد. 

فصلنامه آینده پژوهی مدیریت، سال بیست و چهارم، شماره 98، بهار و تابستان 1392، بکارگیری تکنیک های خوشه بندی و الگوریتم ژنتیک در بهینه سازی درختان تصمیم گیری برای اعتبارسنجی مشتریان بانک ها
https://www.sid.ir/fa/journal/ViewPaper.aspx?ID=253063
 
كلمات كليدی: اعتبارسنجی، سامانه اعتبارسنجی، تعریف اعتبارسنجی، اعتبار سنجی مشتریان، اعتبار بانکی افراد، اعتبار من


نظر شما
نام
پست الكترونيک
وب سایت
متنی که در تصویر می بینید عینا تایپ نمایید
نظر
مقالات مرتبط
.
.
2019© کلیه حقوق مادی و معنوی این سایت متعلق به شرکت توسعه زیر ساخت های فناوری اطلاعات سیگما میباشد.