بکارگيری تکنيک های خوشه بندی و الگوريتم ژنتيک در بهينه سازی درختان تصميم گيری برای اعتبار سنجی مشتريان بانک ها (قسمت دوم)

برای هر موسسه ارائه دهنده خدمات مالی مثل بانک های تجاری، توانایی تفکیک مشتریان خوب و مشتریان بد، امری حیاتی و مهم می باشد. در نتیجه نیاز به مدل های معتبری است که توسط آن ها بتوان به پیش بینی قصور در بازپرداخت وام توسط مشتریان پرداخت تا ذینفعان بتوانند در زمان مناسب اقدامات پیشگیرانه و اصلاحی صحیحی انجام دهند.

ریسک اعتباری و اعتبارسنجی

براساس دیدگاه کمیته بال مهم ترین ریسک هایی که بانک ها با آن مواجه هستند شامل موارد زیر است: ریسک اعتباری، ریسک کشوری و ریسک انتقال وجوه، ریسک بازار، ریسک نرخ بهره، ریسک شهرت (اداره مطالعات و کنترل ریسک بانک تجارت، 1386). بانک ها برای مقابله با ریسک های پیش رو باید بتوانند به مدیریت ریسک بپردازند.
برای هر موسسه ارائه دهنده خدمات مالی مثل بانک های تجاری، توانایی تفکیک مشتریان خوب و مشتریان بد، امری حیاتی و مهم می باشد. در نتیجه نیاز به مدل های معتبری است که توسط آن ها بتوان به پیش بینی قصور در بازپرداخت وام توسط مشتریان پرداخت تا ذینفعان بتوانند در زمان مناسب اقدامات پیشگیرانه و اصلاحی صحیحی انجام دهند.
یکی از تکنیک های مهم در ارزیابی ریسک اعتباری، اعتبارسنجی است. توماس در سال 2002 اعتبارسنجی را تکنیکی تعریف کرد که به بانک ها و شرکت های اعتباری در زمینه اعطای اعتبار به مشتریان بر مبنای معیارهای از قبل تعیین شده، کمک می کند.
اعتبارسنجی دارای مزیت هایی مثل موارد زیر می باشد:

کاهش هزینه تحلیل اعتبار
تصمیم گیری سریع در اعتبار سنجی مشتریان
تضمین اعتبارات و حذف ریسک های احتمالی

بریل در سال 1998 علاوه بر دو مورد بالا به موارد زیر نیز اشاره کرد:

نظارت نزدیک به حساب های موجود
تعیین اولویت در مجموعه اعتبارات

روش های اعتبارسنجی در ابتدا قضاوتی بود. کارشناس اعتبارسنجی با بررسی فرم تقاضانامه مبتنی بر تحلیل پنج ضابطه معروف به تحلیل (پنج C) به تصمیم گیری در مورد اعطای وام یا رد تقاضانامه می پرداخت. 5C برگرفته از حروف اول 5 کلمه است. این 5 کلمه عبارتند از : ویژگی شخص وام گیرنده وام، سرمایه وی، ضمانت، توانایی بازپرداخت و شرایط.
امروزه اکثر تحقیقات و کاربردها حول محور اعتبارسنجی توسط دو روش صورت می گیرند: 1. روش های سنتی مثل رگرسیون لجستیک و مدل های لوجیت و پروبیت 2. روش ها داده کاوی. در تقسیم بندی دیگری مدل های اعتبارسنجی به مدل های پارامتریک و ناپارامتریک تقسیم می شوند.
مدل های پارامتریک مثل تحلیل تمایزی، رگرسیون خطی، پروبیت و لوجیت و مدل های ناپارامتریک مثل درختان طبقه بندی، شبکه های اجتماعی، سیستم های خبره و ...
بسیاری از تحقیقات اشاره شده در بخش 3 این مقاله از روش های پارامتریک و ناپارامتریک برای اعتبارسنجی مشتریان استفاده کردند. نکته قابل توجه در این تحقیقات این است که هر یک از مدل های موجود در اعتبارسنجی به شیوه ای خاص به متمایز کردن مشتریان خوب و بد پرداختند.
در این تحقیقات هر یک از مدل ها بر دیگری برتری داشتند و در سال های اخیر نیز محققین به این قضیه توجه خاصی کرده اند. آن ها سعی دارند به شیوه ای بهتر به طبقه بندی مشتریان اعتبارسنجی (اعتبار بانکی افراد) بپردازند. دقت، پیچیدگی و انعطاف پذیری در طبقه بندی مورد توجه آن ها در مقایسه مدل های اعتبارسنجی است.
در حال حاضر روش های جدیدی از هوش مصنوعی نیز در اعتبارسنجی به کار رفته اند که از آن ها می توان به موارد زیر اشاره کرد: شبکه های عصبی مصنوعی، محاسبات تکاملی، الگوریتم های ژنتیک و ماشین بردار پشتیبان. همچنین اخیرا از مدل های ترکیبی در اعتبارسنجی استفاده می شود، مثل مدل عصبی فازی، مدل فازی ماشین بردار پشتیبان و مدل ترکیبی شبکه های عصبی.
در این مقاله از ترکیب روش های خوشه بندی، الگوریتم انتخاب ویژگی ها مبتنی بر الگوریتم های ژنتیک، درختان تصمیم گیری مبتنی بر الگوریتم ژنتیک و درختان تصمیم گیری C4.5 برای ارائه مدل ترکیبی پیشنهادی اعتبار سنجی مشتریان بانک ها استفاده می شود. این روش ها از نوع روش های داده کاوی، ناپارامتریک، هوش مصنوعی و مدل های ترکیبی هستند.

طبقه بندی و درختان تصمیم گیری

یکی از وظایف داده کاوی طبقه بندی است. طبقه بندی دارای تکنیک های متنوعی است که در تحقیقات مختلف از آن ها استفاده می شود. از تکنیک های رایج در طبقه بندی می توان به موارد زیر اشاره کرد: K نزدیک ترین همسایه، درختان تصمیم گیری، شبکه های عصبی، ماشین بردار پشتیبان، طبقه بندی بیزین، رگرسیون، تئوری های مجموعه دانه درشت، منطق یابی مبتنی بر حالت، سیستم های خبره، منطق فازی، الگوریتم های ژنتیک.
درختان تصمیم گیری به علت سادگی و قابلیت فهم بالا از محبوبین بالایی در کاربرد برخوردار هستند. این تکنیک در زمره درختان طبقه بندی قرار می گیرد. درختان طبقه بندی به پیشگویی مقادیر ویژگی ها یا متغیرهای وابسته و گسسته می پردازد. درختان تصمیم گیری تنها مقادیر ویژگی های گسسته را پیشگویی می کنند.
این پیشگویی توسط متغیر کلاس که ویژگی هدف یا ویژگی وابسته نیز نامیده می شود، صورت می گیرد.
مقادیر ویژگی هدف، وابسته به مقائیر متغیرهای (ویژگی های) مستقل (توصیف کننده) و وجود آن ها در ساختار درخت تصمیم گیری است. درختان تصمیم گیری دارای الگوریتم های مختلفی هستند که برخی از آن ها شامل موارد زیر است: ID3, C4, C4.5, C5, CART, CHAID, QUEST
در این مقاله از الگوریتم درخت تصمیم گیری C4.5 برای ساخت درختان تصمیم گیری به منظور طبقه بندی و اعتبارسنجی مشتریان بانک ها استفاده می شود.
الگوریتم استنتاج C4.5 در سال 1993 توسط کوئینلن تهیه شد. این الگوریتم متغیرهای پیوسته و گسسته را در محاسبات خود لحاظ کرده و مقائیر مفقود را در الگوریتم خود در نظر می گیرد. این الگوریتم لزوما دودویی نیست. برای انتخاب یک جداکننده بهیه در طول مسیر درخت تصمیم گیری از شاخص کسب اطلاعات یا کاهش آنتروپی استفاده می کند.
برای فهم شاخص کسب اطلاعات، آنتروپی و شاخص کسب می توان به رجوع کرد و الگوریتم استنتاج C4.5 در (Larose, 2005) آمده است. این الگوریتم نسخه جدید الگوریتم ID3 است. در این مقاله به چند دلیل از الگوریتم درخت تصمیم گیری C4.5 به جای الگوریتم ID3 استفاده می شود:

الگوریتم ID3 تنها ویژگی های اسمی را در ساخت درخت تصمیم گیری در نظر می گیرد، ولی الگوریتم C4.5 هر دو نوع ویژگی اسمی و عددی را لحاظ می کند.
در الگوریتم ID3 ابتدا باید داده های مفقود را از بین برد، ولی C4.5 در الگوریتم خود با داده های مفقود مقابله می کند.
الگوریتم C4.5 برخلاف ID3 به هرس کردن درخت می پردازد. هرس درخت باعث کاهش اندازه درخت و پیچیدگی آن می شود. الگوریتم درخت تصمیم گیری C4.5 برای هر مقدار ویژگی اسمی به طور پیش فرض به تفکیک شاخه می پردازد که موجب پرپشت شدن درخت تصمیم گیری می شود.

خوشه بندی

خوشه بندی به عنوان یکی از فعالیت های داده کاوی می باشد و به گروه بندی کردن تراکنش ها، مشاهدات یا حالت ها در کلاس های مشابه می پردازد. یک خوشه مجموعه ای از رکوردها است که به هم شبیه می باشند و از رکوردهای بیرون خوشه تفاوت دارند. در خوشه بندی متغیر هدف وجود ندارد و به طبقه بند، تخمین و پیشگویی مقدار متغیر هدف نمی پردازد.
در این مقاله ار الگوریتک خوشه بندی SimpleKmeans استفاده می شود. معیار نزدیکی در پیدا کردن نزدیک ترین مرکز خوشه برای هر رکورد، معمولا فاصله اقلیدسی است. معیار توقف می تواند به طور مثال مجموع مربعات خطا باشد.
الگوریتم SimpleKemeans در (Olson & Shi, 2007, p.75) آمده است . 1. انتخاب تعداد مورد تمایل خوشه ها به اندازه K 2. انتخاب تعداد K مشاهده اولیه به عنوان seed 3. محاسبه متوسط مقادیر خوشه برای هر ویژگی یا متغیر 4. تخصیص مشاهدات آموزشی دیگر به نزدیک ترین خوشه توسط محاسبه مقیاس فاصله مورد نظر 5. محاسبه مجدد متوسط های خوشه بر اساس تخصیص ها در مرحله 4 6.تکرار بین مراحل 4 و 5.
می توان از تکنیک خوشه بندی به عنوان پیش پردازش داده ها استفاده کرد که در این مقاله این تکنیک بر روی مجموعه داده های اعتباری آلمان اعمال می شود.

انتخاب ویژگی ها

در مدل ناپارامتریک طبقه بندی هزینه و زمان زیادی باید صرف کسب داده های مدل شود، زیرا مدل های ناپارامتریک مبتنی بر داده هستند. پس باید به جمع آوری ویژگی ها و داده هایی پرداخت که از اهمیت بیشتری برای ساخت مدل طبقه بندی برخوردارند.
حذف اطلاعات غیر مرتبط و استخراج متغیرهای کلیدی در شناخت الگو، پیش پردازش نامیده می شود. برای ساخت یک مدل طبقه بندی مناسب نیاز به داده ها و ویژگی ها در مجموعه آموزش ارتباط دارد. انتخاب ویژگی ها به عنوان یکی از روش های پیش پردازی داده می تواند باعث افزایش کیفیت مجموعه داده آموزش برای ساخت مدل طبه بندی گردد.
تصمیم گیری به عنوان یکی از تکنیک های طبقه بندی نیز از این قاعده مستثنی نیستند. در این مقاله از الگوریتم های انتخاب ویژگی به عنوان یکی از روش ها برای پیش پردازش داده ها استفاده می شود.
تعاریف مختلفی از انتخاب ویژگی ها مطرح شده است. انتخاب ویژگی به شناسایی و انتخاب ویژگی به شناسایی و انتخاب ویژگی های متمایز برای ساخت مدل ها و تفسیر بهتر داده ها می پردازد. انتخاب ویژگی ها دارای مزایای متعددی است: 1. باعث فهم اسان داده ها می شود 2.زمان یادگیری را در مدل کاهش می دهد 3. با انتخاب ویژگی ها نیاز کمتری به اندازه گیری و ذخیره سازی مقادیر ویژگی ها است.
باتوجه به این موضوع می توان گفت که انتخاب ویژگی ها باعث می شود یک مدل اعتبارسنجی بهتری برای طبقه بندی مشتریان بانک ها تولید شود و از طرف دیگر در حجم زیاد داده های اعتبارسنجی، هزینه و زمان جمع آوری و بررسی ویژگی های مشتریان جدید کاهش یابد.
در نتیجه کارشناسان اعتبارسنجی می توانند سریع تر به تصمیم گیری در مورد قبول یا رد تقاضای اعتبار سنجی مشتریان بانک ها بپردازند. همچنین با آسان شدن فهم داده ها، تفسیر رد یا قبول اعتبار برای کارشناسان اعتبارسنجی و متقاضیان اعتبار راحت تر می شود.
الگوریتم انتخاب ویژگی ها از سه قسمت تشکیل می شود:

معیار ارزیابی ویژگی
روش جستجو
قانون توقف

به طور معمول معیارهای ارزیابی شامل موارد زیر است: 1. اطلاعات 2.وابستگی 3. فاصله 4.سازگاری 5. دقت طبقه بندی. الگوریتم های انتخاب ویژگی که از 4 معیار اول اشاره شده در بالا استفاده می کنند مبتنی بر رویکرد فیلتر هستند. در این رویکرد، الگوریتم انتخاب ویژگی مستقل از الگوریتم طبقه بندی است. الگوریتم انتخاب ویژگی که از معیار دقت طبقه بندی برای انتخاب ویژگی ها استفاده می کنند، از رویکرد Wrapper بهره می برند.
در این رویکرد الگوریتم انتخاب ویژگی ها استفاده می کند. روش های جستو در انتخاب ویژگی ها شامل 3 روش است که عبارتند از: 1.کامل 2.هیوریستک 3.تصادفی. دو روش کامل و هیوریستیک مربوط به فضاهای کوچک است و در مواردی مناسب می باشد که نیاز به کارایی بالا در فرایند جستجو می باشد. روش تصادفی مثا الگوریتم ژنتیک برای فضاهای بزرگ و پیچیده مناسب تر است. قوانین مختلفی برای توقف الگوریتم انتخاب ویژگی ها موجود است: ماکزیمم تعداد تکرار الگوریتم، سب نتیجه بهتر توسط اضافه یا کم کردن یک ویژگی از مجموعه ویژگی ها، رسیدن به یک زیرمجموعه بهینه از ویژگی ها و ...
یکی از روش های انتخای ویژگی، طراح های جاسازی شده است. در این روش الگوریتم انتخاب ویژگی به عنوان بخشی از الگوریتم طبقه بندی لحاظ می شود.

فصلنامه آینده پژوهی مدیریت، سال بیست و چهارم، شماره 98، بهار و تابستان 1392، بکارگیری تکنیک های خوشه بندی و الگوریتم ژنتیک در بهینه سازی درختان تصمیم گیری برای اعتبارسنجی مشتریان بانک ها
https://www.sid.ir/fa/journal/ViewPaper.aspx?ID=253063