درختان تصمیم گیری به عنوان یکی از تکنیک های داده کاوی می توانند به
اعتبار سنجی مشتریان بانکی بپردازند. مسئله اصلی ساخت درختان تصمیم گیری است که بتوانند به طور بهینه مشتریان را طبقه بندی کنند. در این مقاله یک مدل مناسب اعتبار سنجی مشتریان بانک ها برای اعطای تسهیلات اعتباری متناسب با هر طبقه مبتنی بر الگوریتم ژنتیک ارائه می شود.
الگوریتم های ژنتیک می توانند با انتخاب ویژگی های مناسب و ساخت درختان تصمیم گیری بهینه به
اعتبارسنجی مشتریان کمک کنند. در ساخت این مدل فرآیند توسعه در شناخت الگو و فرآیند Crisp برای اعتبار سنجی مشتریان به کار رفته است. مدل طبقه بندی پیشنهادی مبتنی بر تکنیک های خوشه بندی، انتخاب ویژگی ها، درختان تصمیم گیری و الگوریتم ژنتیک است.
این مدل به انتخاب و ترکیب بهترین درختان تصمیم گیری مبتنی بر معیارهای بهینگی و ساخت درخت تصمیم گیری نهایی برای
اعتبارسنجی مشتریان میپردازد. نتایج نشان می دهد که دقت طبقه بندی مدل طبقه بندی پیشنهادی به طور تقریبی از تمام مدل های درخت تصمیم گیری مقایسه شده در این مقاله بالاتر است. همچنین تعداد برگ ها و اندازه درخت تصمیم گیری و در نتیجه پیچیدگی آن از همه کمتر است.
پیشینه پژوهشی
پژوهش های متنوعی روی کاربرد روش های پارامتریک و ناپارامتریک در اعتبارسنجی صورت گرفته است. نقاط قوت مدل ارائه شده، در مقایسه با برخی مدل های مشابه داخلی و خارجی و به طور موردی شامل این موارد است. 1. به کارگیری روش های آماده سازی و پیش پردازش داده ها 2. استفاده از خوشه بندی در پیش پردازش داده ها به منظور افزایش احتمالی دقت و کاهش پیچیدگی طبقه بندی مشتریان 3. تلفیق چندین الگوریتم انتخاب ویژگی مبتنی بر رویکردهای فیلتر، Wrapper و طرح جاسازی شده برای افزایش انعطاف پذیری و دقت طبقه بندی در ساخت درختان تصمیم گیری به جای استفاده از یک طبقه کننده 4. تولید و مقایسه درختان تصمیم گیری متنوع و استفاده از آن ها در شرایط مختلف مطالعه موردی برخلاف پژوهش های دیگر که تنها از یک نوع الگوریتم یا مدل در مطالعه خاص استفاده می شد. 5. بهینه سازی درختان تصمیم گیری توسط الگوریتم ژنتیک برخلاف تحقیقات قبل که تنها مدل طبقه بندی را ساخته و سعی در بهبود آن نداشتند 6. استفاده از معیار پیچیدگی در بهینگی درختان تصمیم گیری علاوه بر معیار دقت طبقه بندی 7. به کارگیری روش های هوش مصنوعی و شناخت الگو در اعتبارسنجی مشریان بانک برای مقابله با شرایط پیچیده و لحاظ کردن روابط غیر خطی در طبقه بندی مشتریان و انتخاب ویژگی های اعتبارسنجی 8. وجود نگرش فرآیندی شناخت الگو و داده کاوی در اعتبارسنجی مشتریان بانک بر خلاف برخی پژوهش های دیگر درباره این حوزه.
تعریف عملیاتی مفاهیم مدل
درختان تصمیم گیری: درختان تصمیم شامل اجزایی است: 1. گره ها که با نام های مشخصات یا ویژگی های اشیا برچسب گذاری شده اند 2. برگ ها که معادل طبقات مختلف هستند. یک درخت تصمیم شامل چند گره درونی و چند برگ است. همه گره های درونی شامل دو یا چند گره فرزند هستند. تصمیم در یک گره قرار دارد. گره آخر خروجی نهایی را نشان می دهد که در درخت تصمیم گیری دارای مقدار گسسته است.
بهینگی درختان تصمیم گیری: در بررسی بهینگی درختان تصمیم گیری 3 عامل در نظر گرفته می شود: 1. نرخ نمونه های طبقه بندی شده صحیح (درصد مشاهده های درست طبقه بندی شده) 2. پیچیدگی درخت تصمیم گیری که شامل تعداد برگ ها و اندازه درخت است. 3. تعداد ویژگی های پیشگو موجود در درخت تصمیم گیری.
اندازه درخت: به تعداد شاخه ها تا رسیدن به برگ در درخت تصمیم گیری ارتباط دارد و برابر با مجموع تعداد برگ ها و گره ها در یک درخت تصمیم گیری است.
طبقه مشتریان در ویژگی هدف: شامل سه طبقه مشتریان جاری، سررسید گذشته و مطالبات معوقه است. مشتریان جاری، مشتریانی هستند که دچار رفتار عدم بازپرداخت تسهیلات دریافتی نشده اند. مشتریان سررسید گذشته مشتریانی هستند از مدت بازپرداخت تسهیلات اعطایی آن ها سه ماه گذشته است. مشتریان مطالبات معوقه مشتریانی هستند که از مدت بازپرداخت آن ها بیش از شش ماه گذشته باشد.
مدل پیشنهادی
مدل پیشنهادی به فرآیند ساخت و آزمون درخت تصمیم گیری در
اعتبارسنجی مشتریان بانک اشاره دارد. پس از این که سه مرحله اول از فرآیند توسعه در شناخت الگو انجام شد، پیش پردازش داده ها صورت گرفت. می توان روش خوشه بندی را برای پیش پردازش داده ها به کار برد.
در انتخاب ویژگی ها، روش جستجو، تصادفی و بر مبنای الگوریتم ژنتیک است. الگوریتم های انتخاب ویژگی مبتنی بر رویکرد فیلتر به ارزیابی موارد زیر در مجموعه ویژگی ها می پردازند: همبستگی بین ویژگی ها با هم و با ویژگی هدف، سازگاری زیر مجموعه ویژگی ها با مقادیر ویژگی هدف، دقت طبقه بندی C4.5.
الگوریتم انتخاب ویژگی با تابع ارزیاب Wrapper با طبقه بندی C4.5 مبتنی بر رویکرد Wrapper است. انتخاب ویژگی مبتنی بر درخت تصمیم گیری ژنتیکی: به علت این که این الگوریتم از یک الگوریتم طبقه بندی همچن درخت ژنتیکی برای انتخاب ویژگی های مناسب استفاده می کند، مبتنی بر رویکرد طرح جاسازی شده در انتخاب ویژگی ها است.
در انتخاب ویژگی مبتنی بر رویکردهای فیلتر و Wrapper توسط الگوریتم ژنتیک از شیوه کدگذاری صفر و یک برای کدگذاری کروموروم ها (مجموعه ویژگی ها) استفاده می شود. عدد صفر و یک به ترتیب نشان دهنده حضور و عدم حضور یک ویژگی در مجموعه ویژگی ها است.
یک مجموعه ای از کروموزوم ها به صورت تصادفی تولید می شوند. بعد از این مرحله نوبت به ارزیاب تک تک کروموزوم ها توسط توابع ارزیاب می رسد. کروموزوم های برتر مبتنی بر روش چرخ گردان برگرفته از گلدبرگ انتخاب می شوند و برای تولید مجدد، عملیات تقاطع و جهش به طور تصادفی بر روی آن ها صورت می گیرد.
ابتدا یک عدد احتمالی تعیین می شود. سپس الگوریتم، یک عددی تصادفی را به هر دو کروموزوم تخصیص می دهد. در صورتی که این عدد از عدد احتمالی از قبل تعیین شده بیشتر باشد، عمل تقاطع تک نقطه ای صفر و یک، برگرفته از گلدبرگ صورت می گیرد.
سپس عمل جهش تک نقطه ای صفر و یک بر روی کروموزوم های جدید اعمال می شود. در ادامه کروموزوم های جدید ایجاد شده، دوباره به وسیله توابع ارزیاب، ارزیابی شده و برترین آن ها جایگزین کروموزوم های ضعیف تر از نسل قبل می شوند. نوع عملگر جایگزینی برپایه شایستگی است. شرط خاتمه این الگوریتم رسیدن به تعداد معینی تکرار الگوریتم یا ماکزیمم تعداد نسل ها است.
روش های ساخت انواع درختان تصمیم گیری در مدل طبقه بندی پیشنهادی به این صورت است:
- ساخت پنج درخت تصمیم گیری C4.5 توسط پنج روش انتخاب ویژگی.
- ساخت چهار درخت تصمیم گیری C4.5 توسط روش متا (ترکیب الگوریتم های انتخاب ویژگی و درخت تصمیم گیری C4.5 ) با استفاده از چهار الگوریتم انتخاب ویژگی مبتنی بر رویکردهای فیلتر و Wrapper
- استفاده از درخت تصمیم گیری C4.5 در انتخاب ویژگی ها و ساخت درخت تصمیم گیری ژنتیکی با ویژگی های منتخب (رویرد مبتنی بر طرح جاسازی شده)
- درخت تصمیم گیری ژنتیکی
- استفاده از درخت تصمیم گیری ژنتیکی در انتخاب ویژگی ها و ساخت درخت تصمیم گیری ژنتیکی با ویژگی های منتخل (رویکرد مبتنی بر طرح جاسازی شده)
- استفاده از سلسله مراتب درختان تصمیم گیری: ساخت درخت تصمیم گیری ژنتیکی و سپس ساخت درخت تصمیم گیری C4.5 در دو شاخه حاصل از طبقه دوم بالای درخت تصمیم گیری ژنتیکی.
مطالعه موردی مبتنی بر مدل پیشنهادی
مدل طبقه بندی پیشنهادی در بانک ملت مورد بررسی قرار گرفت. مجموعه
داده های اعتبارسنجی مورد نیاز در این مدل به صورت یک نسخه الکترونیکی از مرکز تحقیقات و برنامه ریزی بانک ملت دریافت شد. به منظور تجزیه و تحلیل داده ها و اطلاعات اعتبارسنجی بانک ملت و رسیدن به نتایج لازم از ابزارهای آمار توصیفی، یادگیری ماشین و داده کاوی استفاده شد.
از نرم افزارهای یادگیری ماشین WEKA و نرم افزار GATree و نرم افزار Excel به منظور تحلیل اطلاعات و ثبت نتایج استفاده شد. برای ساخت و اعتبارسنجی مدل از مجموعه داده های اعتبار سنجی مشتریان حقیقی بانک ملت استفاده شده که در سه ماهه اول سال 1382 تسهیلات در قالب قرارداد دریافت کرده اند.
در ادامه آن به مقایسه درخت تصمیم گیری مدل طبقه بندی پیشنهادی با سایر درختان تصمیم گیری G4.5 در مجموعه داده های اعتباری بانک ملت پرداخته می شود.
درخت تصمیم گیری مدل طبقه بندی پیشنهادی دارای دقت طبقه بندی بالا و پیچیدگی کمتر نسبت به درختان تصمیم گیری مقایسه شده بود. تنها درخت تصمیم گیری C4.5 حاصل از انتخاب ویژگی ها با جستجوی اول بهترین و تابع ارزیاب Wrapper با طبقه بندی C4.5 دارای دقت طبقه بندی بالاتر فقط به میزان 0.1% بود.
اما تعداد برگ ها و اندازه درخت این درخت تصمیم گیری خیلی بیشتر از تعداد برگ ها و اندازه درخت تصمیم گیری مدل طبقه بندی پیشنهادی بود.
مبتنی بر مدل طبقه بندی پیشنهادی، از الگوریتم ژنتیک در ساخت درختان تصمیم گیری مانند C4.5 استفاده شده است. هم چنین دقت طبقه بندی و پیچیدگی درخت تصمیم گیری مدل طبقه بندی پیشنهادی برای اعتبار سنجی مشتریان بانک (
اعتبار بانکی افراد) نسبت به درختان تصمیم گیری مقایسه شده، بهتر شده است.
نتیجه گیری و پیشنهادها
بانک ها در اعطای تسهیلات اعتباری به مشتریان خود نیازمند اعتبارسنجی آن ها هستند. درختان تصمیم گیری می توانند در این زمینه به طبقه بندی مشتریان بپردازند. مسئله اصلی ساخت درختان تصمیم گیری است که بتوانند به طور بهینه مشتریان را طبقه بندی کنند.
هدف، ارائه یک مدل مناسب اعتبارسنجی مشتریان بانک ها مانند بانک ملت برای اعطای تسهیلات اعتباری متناسب با هر طبقه بود. این مدل در قالب فرآیند توسعه در شناخت الگو و فرآیند CRISP به ساخت درخت تصمیم گیری نهایی برای اعتبارسنجی مشتریان بانک پرداخت.
تکنیک های خوشه بندی و انتخاب ویژگی ها مبتنی بر الگوریتم ژنتیک در ساخت درختان تصمیم گیری به کار رفتند. درخت تصمیم گیری حاصل از مدل طبقه بندی پیشنهادی دارای دقت طبقه بندی بالاتر، تعداد برگ ها و اندازه درخت تصمیم گیری و در نتیجه پیچیدگی کمتری نسبت به همه درختان تصمیم گیری مقایسه شده در این مقاله بود.
با توجه به موارد گفته شده می توان از مدل طبقه بندی پیشنهادی برای ساخت و آزمون درختان تصمیم گیری به منظور اعتبار سنجی مشتریان بانک برای مشخص کردن اعتبار بانکی افراد استفاده نمود.
با توجه به موارد گفته شده می توان از مدل طبقه بندی پیشنهادی برای ساخت و آزمون درختان تصمیم گیری به منظور اعتبارسنجی مشتریان بانک استفاده نمود. با توجه به پیشینه پژوهشی و مدل پیشنهادی این امر پیشنهاد می شود:
- لحاظ کردن هزینه طبقه بندی غلط در الگوریتم های درخت تصمیم گیری و هزینه انتخاب ویژگی های غلط در الگوریتم انتخاب ویژگی در مدل پیشنهادی
- توسعه مدل پیشنهادی با به کارگیری سایر روش های طبقه بندی درخت تصمیم گیری هم چون ID3 در ساخت مدل طبقه بندی پیشنهادی.
همچنین پیشنهادهای کاربردی برای بانک ها به ترتیب زیر است:
- استفاده از مدل طبقه بندی پیشنهادی در اعتبار سنجی مشتریان بانکی برای تخصیص بهینه تسهیلات اعتباری
- به کارگیری فرآیند توسعه در شناخت الگو برای ساخت مدل های طبقه بندی برای اعتبارسنجی بهتر مشتریان بانک ها و مشخص کردن رتبه اعتباری آن ها
- طراحی و ساخت سیستم پیشتیبانی تصمیم و نرم افزار کاربردی برای اعتبار سنجی مشتریان بانک مبتنی بر مدل پیشنهادی
منبع: نشریه مدیریت فناوری اطلاعات، دوره 2، شماره 4، بهار و تابستان 1389، از صفحه 23 تا 38
https://www.sid.ir/fa/journal/ViewPaper.aspx?ID=114990