بکارگيری تکنيک های خوشه بندی و الگوريتم ژنتيک در بهينه سازی درختان تصميم گيری برای اعتبار سنجی مشتريان بانک ها (قسمت چهارم)

در مدل ترکیبی پیشنهادی تحقیق از الگوریتم های انتخاب ویژگی مبتنی بر الگوریتم ژنتیک، درخت تصمیم گیری ژنتیکی، درختان تصمیم گیری C4.5 و همچنین الگوریت SimpleKmeans برای خوشه بندی داده ها استفاده می شود.

بکارگيری تکنيک های خوشه بندی و الگوريتم ژنتيک در بهينه سازی درختان تصميم گيری برای اعتبار سنجی مشتريان بانک ها (قسمت چهارم)

مدل ترکیبی پیشنهادی

در مدل ترکیبی پیشنهادی تحقیق از الگوریتم های انتخاب ویژگی مبتنی بر الگوریتم ژنتیک، درخت تصمیم گیری ژنتیکی، درختان تصمیم گیری C4.5 و همچنین الگوریت SimpleKmeans برای خوشه بندی داده ها استفاده می شود.
همان طور که مشاهده می شود، این مجموعه داده، بعد از عملیات آماده سازی و تمیز کردن به دو قسمت داده های آموزشی و تست تقسیم می شود و به وسیله تکنیک های خوشه بندی و الگوریتم های انتخاب ویژگی، پیش پردازش داده ها صورت می گیرد. توسط تکنیک خوشه بندی SimpleKmeans این داده ها به دو دسته خوشه بندی می شوند.
عملگر انتخاب از چرخ گردان برای انتخاب کروموزوم های برتر استفاده می کند. از عملگر تقاطع تک نقطه ای برای انجام عمل تقاطع استفاده می شود. بدین ترتیب که به طور تصادفی برشی بر روی دو کروزوم ایجاد می شود و قسمت های برش خورده به صورت ضبدری یا اریب با هم جا به جا می شوند.
در ادامه در هر خوشه توسط پنج الگوریتم انتخاب ویژگی، ویژگی های مهم انتخاب شده و از این ویژگی ها تعداد پنج درخت تصمیم گیری C4.5 ساخته می شود. سپس به انتخاب بهترین درختان تصمیم گیری در هر خوشه مبتنی بر معیارهای بهینگی درختان تصمیم گیری مطرح شده در بخش 2 مقاله پرداخته می شود.
به نظر می رسد بین درصد مشاهدات درست طبقه بندی شده و سایر معیارهای بهینگی درختان تصمیم گیری در برخی مواقع تضاد به وجود آید. به عبارت دیگر افزایش درصد مشاهدات درست طبقه بندی شده ممکن است باعث افزایش تعداد ویژگی های پیشگویی کننده انتخابی، تعداد برگ ها و اندازه درخت تصمیم گیری شود.
می توان با روش هایی مثل هرس درخت تصمیم گیری و اعمال محدودیت هایی مثل مینیموم تعداد تراکنش در هر برگ به برقراری تعادل بیم معیارهای بهینگی درختن تصمیم گیری پرداخت. ولی برای مقایسه درختان تصمیم گیری C4.5 نیز باید یک تعاملی بین 4 معیار بهینگی درخت تصمیم گیری به وجود آید.
ممکن است درخت تصمیم گیری با دقت کمتر، دارای اندازه و تعدادبرگ های کمتری در درخت تصمیم گیری نیز باشد. در صورتی که کاهش دقت نامحسوس باشد، با توجه به نظر کاربر درخت تصمیم گیری با دقت کمتر برای طبقه بندی مشتریان بانک ها انتخاب می شود.
زیرا این درخت تصمیم گیری دارای اندازه و تعداد برگ های کمتری نسبت به درخت تصمیم دیگر است. در نهایت اینکه تصمیم گیری نهایی در انتخاب درخت تصمیم گیری C4.5 بهتر در هر خوشه به نظر کاربر یا کارشناس اعتبارسنجی بستگی دارد.
در چهار الگوریتم اول انتخاب ویژگی مبتنی بر الگوریتم ژنتیک مطرح در بخش 4 و 5  این مقاله، از روش گلدبرگ برای نمایش ژنتیکی کروموزوم ها استفاده می شود. هر کروموزوم نشان دهنده زیر مجموعه ویژگی ها است . هر ژن نماد یک ویژگی است. مقدار آن ژن برابر یک و سفر است که به ترتیب نشان دهنده وجود و عدم وجود ویژگی مورد نظر در زیر مجموعه ویژگی ها است.
عملگر انتخاب از چرخ گردان برای انتخاب کروموزوم های برتر استفاده می کند. از عملگر تقاطع تک نقطه ای برای انجام عمل تقاطع استفاده می شود. بدین ترتیب که به طور تصادفی برشی بر روی دو کروزوم ایجاد می شود و قسمت های برش خورده به صورت ضبدری یا اریب با هم جا به جا می شوند.
با انجام این عمل دو کروموزوم جدید به وجود می آید. عملگر جهش بدین صورت است که اگر مقدار یک ژن که به صورت تصادفی انتخاب می شود، صفر باشد، آن را تبدیل به یک می کند و اگر مقدار آن ژن یک باشد، آن را به صفر تیدیل می نماید. عملگر جایگزینی کروموزوم ها با کروموزوم های قبلی بر پایه شایستی است. شرط توقف الگوریتم ژنتیک در اینجا تعداد نسل ها در نظر گرفته شد.

آموزش، تست مدل

به منظور آموزش و تست مدل ترکیبی پیشنهادی پس از آماده سازی داده های اعتباری آلمان، تعداد 690 تراکنش از 1000 تراکنش مورد استفاده قرار گرفت. تعداد خوشه ها در الگوریتم خوشه بندی SimpleKmeans و عدد seed به ترتیب برابر دو و یک در نظر گرفته شد.
پارامترهای الگوریتم ژنتیک در چهار الگوریتم انتخاب ویژگی ابتدایی در بخش 4و5 به قرار زیر است: نرخ تقاطع 0.9، مرخ جهش 0.01، تعداد نسل جمعیت اولیه 20 و عدد تصادفی seed برابر 1 در نظر گرفته شد. از عدد اعتبارسنجی متقاطع 10 برای آموزش و تست مدل استفاده شد. بدین ترتیب که ابتدا یک دهم اول داده ها برای تست استفاده می شود و بقیه برای آموزش الگوریتم انتخاب ویژگی یا درخت تصمیم گیری C4.5 به کار می رود.
سپس یک دهم بعدی و به همین ترتیب 10 بار این عمل صورت می گیرد و از نتایج این مراحل میانگین گرفته می شود. تعداد دسته ها و عدد seed و حد آستانه در الگوریتم انتخاب ویژگی با تابع ارزیاب Wrapper با طبقه بندی C4.5 به ترتیب برابر 10و 1 و 0.01 است.
مقادیر پارمترهای الگوریتم انتخاب ویژگی مبتنی بر درخت تصمیم گیری ژنتیکی به صورت زیر است. استفاده از رویکرد اعتبارسنجی متقاطع با عدد 10 در آموزش و تست درخت تصمیم گیری ژنتیکی، عملگر تقاطع: تصادفی استاندارد، عمل جهش: تصادفی استاندارد، درصد جایگزینی ژنوم یعنی درصد تعداد درختان بد که در نسل ها جایگزین می شوند، برابر 0.25 نرخ خطا برابر 0.95 (زمانی که خطای طبقه بندی یک درخت از حد معین تعریف شده توسط این پارامتر بیشتر شود، از طبقه بندی تراکنش ها در مجموعه تست جلوگیری می شود تا منابع حفظ شود.با افزایش مقدار این پارامتر، سرعت تکامل در الگوریتم درخت تصمیم گیری ژنتیکی افزایش می یابد )
ترجیح قابلیت درخت تصمیم با دقت بالاتر بر درخت تصمیم کوچکتر، عدم تغییر پویا در ترجیح درختان تصمیم گیری با دقت بالاتر بر درخت تصمیم گیری کوچکتر در ابتدا و انتهای فرایند تکامل، نرخ تقاطع عدد 0.99، نرخ جهش عدد 0.01، تعداد نسل ها عدد 100، جمعیت اولیه عدد 100، عدد تصادفی seed برابر 123456789
مشخصات درخت تصمیم گیری C4.5 به قرار زیر است: ماتریس هزینه های طبقه بندی غلط در ساخت درخت تصمیم گیری C4.5 در نظر گرفته نشد، استفاده از هرس درخت، استفاده از فاکتور اطمینان 0.25 در فرایند ساخت درخت تصمیم گیری و تعیین مینیموم تعداد تراکنش با عدد 2 در هر برگ درخت تصمیم گیری برای هرس درخت و تعیین اندازه و پیچیدگی درخت، عدم استفاده از جداکننده های دودویی، تعداد دسته ها عدد 3 (یعنی تعداد دو و یک دسته به ترتیب برای رشد و هرس درخت) عدم استفاده از روش هرس خطای کاهش یافته، عدد تصادفی seed برابر 1 برای تصادفی کردن داده در زمان استفاده از روش هرس خطای کاهش یافته، زیاد گردن درخت، رویکرد اعتبارسنجی متقاطع در آموزش و تست درخت تصمیم گیری C4.5 با عدد 10.
بهتر است در درختان تصمیم گیری و مخصوصا اعتبار سنجی مشتریان بانک ها همواره بین میزان پیچیدگی و دقت طبقه بندی مدل های طبقه بندی یک تعادل برقرار باشد.
کاهش فاکتور اطمینان منجر به افزایش هرس درخت می شود. افزایش مینیموم تعداد تراکنش در هر برگ باعث می شود تعداد بیشتری تراکنش در یک برگ قرار گیرد و در نتیجه تعداد برگ ها، تعداد ویژگی های پیشگو منتخب و اندازه درخت کاهش یافته، ولی احتمال کاهش دقت طبقه بندی وجود دارد. پس برقراری تعادل بین معیارهای بهینگی درختان تصمیم گیری برای اعتبارسنجی مشتریان بانک ها ضروری است که در این مقاله این موضوع لحاظ شده است.

فصلنامه آینده پژوهی مدیریت، سال بیست و چهارم، شماره 98، بهار و تابستان 1392، بکارگیری تکنیک های خوشه بندی و الگوریتم ژنتیک در بهینه سازی درختان تصمیم گیری برای اعتبارسنجی مشتریان بانک ها
https://www.sid.ir/fa/journal/ViewPaper.aspx?ID=253063

كلمات كليدی: اعتبار سنجی، اعتبار من، سامانه اعتبار من، سامانه اعتبارسنجی، اعتبار سنجی مشتریان، تعریف اعتبارسنجی، اعتبار بانکی افراد


نظر شما
نام
پست الكترونيک
وب سایت
متنی که در تصویر می بینید عینا تایپ نمایید
نظر
مقالات بیشتر
مقالات مرتبط
.
.
2019© کلیه حقوق مادی و معنوی این سایت متعلق به شرکت توسعه زیر ساخت های فناوری اطلاعات سیگما میباشد.