بکارگيری تکنيک های خوشه بندی و الگوريتم ژنتيک در بهينه سازی درختان تصميم گيری برای اعتبار سنجی مشتريان بانک ها (قسمت اول)

درختان تصمیم گیری به عنوان یكی از تكنیک های داده کاوی کاربرد زیادی در اعتبار سنجی مشتریان بانک و شناسایی آن ها برای اعطای تسهیلات اعتباری دارد. مسئله اصلی در پیچیدگی درختان تصمیم گیری، اندازه بیش از حد، عدم انعطاف پذیری و دقت کم در طبقه بندی است.
هدف از این مقاله ارائه مدل ترکیبی در بهینه سازی درختان تصمیم گیری توسط تكنیک الگوریتم ژنتیک به منظور حل مسائل ذکر شده در فوق برای اعتبار سنجی مشتریان بانک است. به نظر می رسد بتوان با انتخاب ویژگی های مناسب و ساخت درختان تصمیم گیری توسط الگوریتم ژنتیک به کاهش پیچیدگی و افزایش انعطاف پذیری درختان تصمیم گیری پرداخت.
در مدل ترکیبی پیشنهادی ابتدا داده های اعتباری توسط تكنیک خوشه بندی SimpleKmeans به دو خوشه تقسیم می شوند. سپس با استفاده از الگوریتم ژنتیک، پنج الگوریتم انتخاب ویژگی مبتنی بر سه رویكرد فیلتر، Wrapper و طرح جاسازی شده بر پایه درخت تصمیم گیری ژنتیكی، به انتخاب ویژگی های اعتبارسنجی مهم در مجموعه داده می پردازند.
در ادامه پنج درخت تصمیم گیری مبتنی بر الگوریتم C4.5 در هر خوشه با مجموعه ویژگی های منتخب ساخته می شود. بهترین درختان تصمیم گیری در هر خوشه مبتنی بر معیارهای بهینگی مورد نظر در این مقاله انتخاب شده و با هم ترکیب می شوند تا درخت تصمیم گیری نهایی برای اعتبارسنجی مشتریان بانک ایجاد شود.
ابزار یادگیری ماشین وکا و نرم افزار GATree برای رسیدن به نتایج بكار گرفته شده است. نتایج پژوهش نشان می دهد که استفاده از مدل ترکیبی پیشنهادی در ساخت درخت تصمیم گیری منجر به افزایش دقت طبقه بندی نسبت به بسیاری از الگوریتم های مقایسه شده در این مقاله می شود، ولی پیچیدگی الگوریتم مدل ترکیبی پیشنهادی از برخی الگوریتم های طبقه بندی مقایسه شده در این مقاله است.

مقدمه

امروزه بانک ها برای شناخت مشتریان، ارضای نیازمندی ها و ارائه خدمات مالی مناسب نیازمند شناسایی دقیق ویژگی های اعتباری آن ها هستند. یكی از خدمات مالی در بانک، اعطای تسهیالت مالی از جمله وام به متقاضیان اعتباری است. بانک ها همچون کسب و کارهای دیگر در طول حیات خود با ریسک هایی مواجه می شوند.
یكی از مهم ترین آن ها ریسک اعتباری است که باید با آن مقابله کنند. اعتبارسنجی به عنوان یک تكنیک موثر به شناخت مشتریان خوب و بد پرداخته و با این کار می تواند ریسک اعتباری آن ها را تعیین کند.
تحقیقات زیادی بر روی مدل های اعتبارسنجی در بانک ها صورت گرفته است. در ابتدا مدل های اعتبارسنجی به صورت قضاوتی بودند. سپس روش های پارامتریک در اعتبارسنجی مطرح شدند. اخیرا از روش های ناپارامتریک در اعتبار سنجی مشتریان بانک ها استفاده می شود. فیشر در سال 1963 برای اولین بار ایده متمایز کردن گروه ها را مطرح کرد.
سپس دیوید دراند در سال 1960 با تفكیک مشتریان به دو گروه خوب و بد به اعطای وام به آن ها پرداخت. کارت های اعتباری در سال 1960 وارد بانکها شدند. در سال 1980 برای اولین بار از اعتبارسنجی در بانک ها استفاده شد. همچنین اعتبارسنجی در بازاریابی مستقیم در سال 1990 بكار رفت.
موفقیت های اخیر در بكارگیری اعتبارسنجی منجر به استفاده از این تكنیک در ارزیابی اعتبار مشتریان شد. (Tomas, 2000). در ادامه در بخش 2 به بیان مسئله و ضرورت و اهداف پژوهش، بخش 3 مروری بر تحقیقات صورت گرفته، بخش 4 مواد و روش ها، بخش 5 آموزش و تست مدل، بخش 6 به مقایسه درخت تصمیم گیری حاصل از مدل ترکیبی پیشنهادی با سایر درختان تصمیم گیری و در نهایت در بخش 7 به نتیجه گیری پرداخته می شود.

2- بیان مسئله، ضرورت و اهداف تحقیق

تکنیک های داده کاوی همچون طبقه بندی می توانند با ارائه یک الگو یا مدل به کشف دانش پنهان در حجم زیادی از داده های تراکنش های اعتباری مشتریان بانک ها کمک کنند. درختان تصمیم گیری به عنوان یكی از تكنیک های طبقه بندی از روش های ناپارامتریک در اعتبارسنجی هستند.
درختان تصمیم گیری می توانند با شناسایی ویژگی های مشتریان و تفكیک آن ها به گروه های خوب و بد، به اعتبارسنجی آن ها بپردازند. این ویژگی ها با توصیف مشخصات مشتریان بانک ها، طبقه آن ها را در اعتبارسنجی مشخص می کنند.
از طرف دیگر برای شناخت الگوی مناسب در طبقه بندی مشتریان بانک در حجم زیادی از داده نیاز به پیش پردازش داده ها
است. روش های مختلفی برای پیش پردازش داده ها وجود دارد که دو مورد از آن ها که در این مقاله بكار می روند، خوشه بندی و انتخاب ویژگی ها است. با پیش پردازش داده ها الگوی بهتری برای شناسایی و اعتبارسنجی مشتریان بانک ها ایجاد می شود.
مسئله اصلی در تحقیق موضوع این مقاله ساخت درختان تصمیم گیری است که بتوانند به طور بهینه به طبقه بندی مشتریان خوب و بد بانک ها برای اعتبارسنجی بپردازند. به نظر می رسد استفاده از الگوریتم های ژنتیک در انتخاب ویژگی ها و ساخت درختان تصمیم گیری بتواند منجر به طبقه بندی و اعتبارسنجی بهتری از مشتریان بانک ها شود.
ممكن است الگوریتم های انتخاب ویژگی در بهینه محلی گیر کنند و همچنین تعامل بین ویژگی ها را در نظر نگیرند. در برخی از الگوریتم های انتخاب ویژگی فرض بر این است که روابط بین ویژگی ها خطی بوده و مستقل از هم می باشند. الگوریتم های انتخاب ویژگی تنها از برخی معیارها برای انتخاب ویژگی ها استفاده می کنند.

از طرف دیگر با توجه به اینکه الگوریتم درخت تصمیم گیری C4.5 یک الگوریتم بازگشتی و حریصانه است منجر به ایجاد درخت تصمیم گیری پیچیده و بزرگ می شود. به همین دلیل قسمت های پایینی درخت تعداد کمی تراکنش را پوشش می دهند. تعداد کم تراکنش در قسمت های پایینی درخت اگرچه منجر به افزایش دقت درخت در طبقه بندی مشتریان می شود ولی از طرف دیگر انعطاف پذیری را در طبقه بندی مشتریان کاهش داده و در قسمت های پایینی درخت تنها با تغییر کوچک و تقریبا نامحسوس کلاس یا طبقه یک مشتری جدید تغییر می کند.
به همین دلیل به نظر می رسد اگر بتوان تا جایی که لطمه ای به دقت طبقه بندی در درخت تصمیم گیری نخورد، اندازه درخت، تعداد برگ ها و در نتیجه پیچیدگی درخت تصمیم گیری را کاهش داد، علاوه بر افزایش انعطاف پذیری در طبقه بندی، کاهش اندازه درخت و پیچیدگی آن می توان طبقه بندی بهتری را برای مشتریان بانک انجام داد.
در این مقاله فرض بر این است که بكارگیری الگوریتم ژنتیک در ساخت درختان تصمیم گیری مبتنی بر الگوریتم C4.5 منجر به بهینه سازی آن ها در دقت و پیچیدگی طبقه بندی مشتریان اعتبارسنجی بانک ها می شود. C4.5 یكی از الگوریتم های ساخت مدل طبقه بندی درخت تصمیم گیری است.
این الگوریتم یک درخت تصمیم گیری به صورت نمودار گرافیكی ایجاد می کند که فهم آن برای کاربران آسان است. الگوریتم
استنتاج C4.5 در سال 1993 توسط کوئینلن تهیه شد که از مفهوم شاخص کسب اطلاعات در ساخت درخت تصمیم گیری استفاده می کند (Larose, 2005). هدف از تحقیق موضوع این مقاله ارائه یک مدل مناسب برای اعتبار سنجی مشتریان بانک ها است.
سوال تحقیق به صورت زیر است:
چگونه می توان توسط الگوریتم ژنتیک به انتخاب ویژگی ها و ساخت درختان تصمیم گیری بهینه در اعتبارسنجی مشتریان بانک ها پرداخت؟
منظور از بهینگی درختان تصمیم گیری مدل پیشنهادی و سایر مدل های درخت تصمیم گیری مقایسه شده در این مقاله شامل موارد زیر است:

تعداد ویژگی های پیشگویی کننده انتخابی؛ در یک درخت تصمیم گیری هر چه تعداد ویژگی های پیشگویی کننده کمتر باشد، پیچیدگی مدل کاهش یافته و انعطاف پذیری آن زیاد می شود. همچنین در بررسی وضعیت اعتباری متقاضیان اعتبار، زمان و هزینه کمتری صرف بررسی ویژگی های مشتریان می شود و از طرف دیگر سرعت پاسخگویی به مشتری به منظور رد یا تائید تقاضا بیشتر می شود. از طرف دیگر نیاز به ذخیره سازی داده های کمتری در سیستم پردازش مدل طبقه بندی و اعتبارسنجی مشتریان در بانک ها است.
درصد مشاهدات درست طبقه بندی شده که حاصل تقسیم مشتریان درست طبقه بندی شده به تعداد کل مشتریان است.
تعداد برگ ها در درخت تصمیم گیری. برگ در یک درخت تصمیم گیری گره انتهایی آن است که در این گره به تعیین خوب یا بد بودن مشتری اعتبارسنجی پرداخته می شود. افزایش تعداد برگ های درخت تصمیم گیری باعث افزایش پهنای درخت تصمیم گیری شده و پیچیدگی مدل اعتبارسنجی را افزایش می دهد.
اندازه درخت تصمیم گیری که به تعداد شاخه ها و قوانین اگر آنگاه در درخت تصمیم گیری ارتباط دارد. اندازه درخت تصمیم گیری برابر با مجموع تعداد برگ ها و گره ها در آن است. با افزایش اندازه درخت تصمیم گیری پیچیدگی مدل اعتبارسنجی نیز افزایش می یابد.

با توجه به بیان مسئله و ضرورت تحقیق موضوع این مقاله، برخی از مزایای که الگوریتم های ژنتیک می تواند در انتخاب ویژگی ها داشته باشند، شامل موارد زیر است.

الگوریتم های ژنتیک برخلاف الگوریتم های حریصانه در یک لحظه با مجموعه ای از راه حل ها کار می کنند.
الگوریتم های استنتاج حریصانه به بررسی تنها راه حل های جزئی در هر مرحله می پردازند.
الگوریتم های ژنتیک با توجه به استفاده از قانون احتمال در بهینه محلی کمتر گیر می کنند. الگوریتم های ژنتیک به ایجاد رابطه مناسب بین اندازه و پیچیدگی درختان تصمیم گیری می پردازند (Aitkenhead, 2008).

همچنین مزیت های بکارگیری الگوریتم های ژنتیک در ساخت درختان تصمیم گیری میتواند شامل موارد زیر باشد:

روش های تکاملی برای ایجاد درخت باعث می شوند که تغییرات به طور اتوماتیک در درخت ایجاد می شوند. می توان توسط ترکیب روش های تکاملی و درخت تصمیم بین اندازه درخت و پیچیدگی آن رابطه مناسبی ایجاد نمود.
انعطاف پذیری در نمایش تابع طبقه بندی
می توان توابع از برازندگی متنوعی در طبقه بندی به وجود آورد

3- مروری بر تحقیقات صورت گرفته

در مورد کاربرد مدل های پارامتریک و ناپارامتریک اعتبارسنجی در طبقه بندی مشتریان بانک ها و موسسات مالی تحقیقات متنوعی در داخل و خارج از کشور صورت گرفته است. این تحقیقات در حوزه های دیگر علوم و کسب وکارها می باشند و می توان از نتایج آن ها در اعتبارسنجی مشتریان بانک ها استفاده نمود.
بکارگیری الگوریتم ژنتیک در انتخاب ویژگی ها در سال 1989 و اولین بار به وسیله Siedlecki و Sklansky در مقاله ای تحت عنوان A note on genetic algorithms for large-scale feature selection مطرح شد.

4- مواد و روش ها

مجمعه داده ها

داده هایی که در این مقاله برای ساخت و آزمون درختان تصمیم گیری C4.5 مورد استفاده قرار می گیرند، مجموعه داده های اعتباری آلمان است. که در مقالات مشابه برای بررسی اثربخشی و امکان سنجی مدل مورد استفاده قرار گرفته است. این مجموعه داده که در سال 1992 تهیه شد، فاقد مقادیر مفقود و اختلال است.
روی این مجموعه عملیات آماده سازی و تمیز کردن و پیش پردازش داده ها صورت می گیرد. این مجموعه داده دارای 1000 تراکنش و 21 ویژگی است. از این تعداد ویژگی 7 ویژگی عددی و 13 تای آن اسمی هستند. یک ویژگی هدف در این ویژگی ها به بررسی خوب یا بد بودن مشتری می پردازد.
با انجام فرایند آماده سازی و تمیزکردن داده ها در چند مرحله و با اعمال روش های مختلف توسط نرم افزار یادگیری ماشین وکا نسخه 3.5.8، تعداد تراکنش ها از 1000 به 690 کاهش یافت. همچنین همه ویژگی ها از نوع عددی به نوع اسمی تبدیل شدند. توسط نمودارهای قابلیت تجسم سازی موجود در این نرم افزار، وضعیت کلی داده ها در هر ویژگی، مشاهده و ارتباط بین مقادیر هر یک از ویژگی های پیشگویی کننده با مقادیر ویژگی هدف بررسی شد.
روش های زیر در آماده سازی داده ها برای آموزش و تست مدل ترکیبی پیشنهادی برای طبقه بندی مشتریان اعتباری از اولویت بندی خاصی پیروی نمی کند. برخی روش ها، چندین بار بر روی مجموعه داده در مراحل مختلف آماده سازی اعمال شده اند. روش های آماده سازی در این مقاله بدین صورت است:

حذف مقادیر پراکنده
نرمال سازی که فقط بر روی ویژگی (سن) اعمال شد و همچنین مقادیر ویژگی هدف در محاسبات این روش در نظر گرفته شد
گسسته سازی مقادیر ویژگی های عددی که در این روش مقادیر ویژگی هدف در محاسبات لحاظ شد
ادغام مقادیر داده در ویژگی های اسمی
تبدیل ویژگی های ععدی به اسمی

فصلنامه آینده پژوهی مدیریت، سال بیست و چهارم، شماره 98، بهار و تابستان 1392، بکارگیری تکنیک های خوشه بندی و الگوریتم ژنتیک در بهینه سازی درختان تصمیم گیری برای اعتبارسنجی مشتریان بانک ها
https://www.sid.ir/fa/journal/ViewPaper.aspx?ID=253063