ارائه مدل ارزیابی ریسک اعتباری برای بانک های خصوصی - قسمت سوم

1399/1/9 شنبه

مرحله پنجم: انتخاب ویژگی

انتخاب ویژگی، به طور کلی به عنوان یک مرحله پیش پردازش به شمار می آید و برای بهبود عملکرد کاوش با کاهش ابعاد داده ها استفاده می گردد. هدف انتخاب ویژگی، تعیین یک زیرمجموعه ویژگی تا حد امکان کوچک می باشد و یک گام ضروری، پیش از اجرای اقدامات داده کاوی است.
در روش های انتخاب ویژگی، زیر مجموعه ای از ویژگی های اصلی بدون از دست رفتن اطلاعات مفید انتخاب می گردد. ویژگی های نامربوط و زائد برای کاهش ابعاد داده ها حذف می گردند. در نتیجه، دقت کاوش، کاهش زمان محاسباتی و تقویت قابلیت درک نتایج حاصل می گردد. با انجام اقدامات داده کاوی توسط زیر مجموعه داده ها با بعد کاسته شده، همان نتایج با داده های اصلی (بدون کاهش ابعاد) به دست می آید.

مرحله ششم: طبقه بندی

طبقه بندی یکی از مباحث مطروحه داده کاوی نظارت شده می باشد. یک مسئله طبقه بندی عبارت است از اینکه یک مشاهده جدید، متعلق به کدامیک از دسته ها (زیر مجموعه جامعه) می گردد، مطابق با یک مجموعه یادگیری از داده های شامل مشاهدات که عضویت آن ها با دسته های اشاره شده مشخص و معلوم می باشد.
الگوریتمی که طبقه بندی را انجام می دهد، طبقه بند یا کلاسیفایر نام دارد. کلاسیفایرها را می توان به طور کلی در دسته های زیر جای داد:

درخت تصمیم
روش های مبتنی بر قواعد
استدلال مبتنی بر حافظه
شبکه های عصبی
شبکه های بیزین
ماشین های بردار پشتیبان

درخت تصمیم

درخت تصمیم از الگوریتم های بسیار پرکاربرد و عمومی داده کاوی است که بیشترین کاربرد آن جهت طبقه بندی است. یک درخت تصمیم از تعدادی گره و شاخه تشکیل شده است و در نهایت برگ ها بیانگر کلاس ها هستند. در هر یک از گره های غیر برگ، تصمیم گیری (انشعاب) با توجه به یک یا چند ویژگی صورت می پذیرد.
درخت تصمیم به دلیل سادگی و قابل فهم بودن، تکنیک بسیار محبوبی در داده کاوی به شمار می آید و خود به تنهایی، تکنیک بسیار محبوبی در داده کاوی به شمار می آید و خود به تنهایی، خود را توصیف می کند و نیازی به یک خبره بیرونی جهت تفسیر آن نیست.
ساختن یک درخت تصمیم بهینه با استفاده از داده های آموزشی کار ساده ای نیست و در برخی مراجع نشان داده شده است که یک درخت تصمیم با عمق کمینه، یک مسئله NP hard است. دو موضوع اساسی در تولید یک درخت مطرح می باشد، نخست یافتن مناسب ترین ویژگی برای هر گره جهت انشعاب و دوم، شرط پایان الگوریتم. برای مورد دوم، رشد درخت تا زمانی ادامه می یابد که یکی از شروط زیر محقق گردد:
همه نمونه های باقیانده از مجموع آموزش متعلق به یک کلاس باشند
به حداکثر عمق درخت رسیده باشیم که این مقدار توسط کاربر الگوریتم تعیین می گردد
تعداد نمونه های گره از حداقل تعدادی که کاربر مشخص کرده است، کمتر باشد
در صورت انشعاب، تعداد نمونه ها در یک یا چند گره فرزند کمتر از حداقل نمونه هایی است که برای هر گره فرزند تعریف شده است
مقادیر محاسبه شده برای انتخاب ویژگی برای هیچ یک از ویژگی ها از مقدار آستانه ان بیشتر نباشد

ماشین های بردار پشتیبان

الگوریتم اولیه SVM، نخستین بار توسط واپنیک و چروننکیس در سال 1963، ارائه گردید. در سال 1992، بوسر و همکاران روشی جهت ایجاد کلاسیفایر غیر خطی با افزودن لم کرنل به ابرصفحه های با حداکثر حاشیه، ارائه نمودند. SVM یک کلاسیفایر یا طبقه بندی باینری است که دو طبقه یا کلاس را با استفاده از یک مرز خطی از یکدیگر تفکیک می نماید. در صورت خطی بودن مرز، هدف کلی، دست یابی به تابعی است که ابر صفحه تفکیک کننده با بیشترین حاشیه را تشکیل دهد.

یادگیری جمعی

ایده اصلی متدولوژی یادگیری جمعی، ترکیب مجموعه ای از مدل هاست که هر کدام وظیفه اصلی خویش را انجام دهند تا در نهایت به یک ترکیب بهتر از یک مدل کلی برسیم، به طوریکه دقیق تر و قابل اعتمادتر از تخمین یا تصمیمی باشد که می توان از یک مدل تکی به دست آورد.
ایده اصلی ایجاد یک مدل پیش بینی به وسیله تلفیق چندین مدل، مدت زمان زیادی است که مورد تحلیل و بررسی قرار گرفته است. بولمان و یو اشاره کرده اند که تاریخچه روش های جمعی، به سال 1977 و روش توکی بر می گردد که در آن ترکیبی از دو مدل رگرسیون خطی ارائه شده است. دو متد بوستینگ، بگینگ و از جمله اصلی ترین روش های طبقه بندی جمعی است که در ادامه تشریح می گردد.

بوستینگ

بوستینگ، یک روش عمومی برای بهبود عملکرد هر الگوریتم یادگیریست. این روش با اجرای مکرر یک یادگیرنده ضعیف (نظیر قوانین طبقه بندی یا درخت های تصمیم) بر روی داده های یادگیری که به شکل مختلف توزیع شده اند اجرا می گردد. کلاسیفایرهایی که توسط یادگیرنده های ضعیف تولید می گردند با یکدیگر ترکیب می گردند تا یک کلاسیفایر قدرتمند جدید با دقتی بالاتر از کلاسیفایرهای تکی ایجاد گردد. شاپیر برای نخستین بار الگوریتم بوستینگ را ارائه نمود.

بگینگ

شناخته شده ترین روش که نمونه ها را به طور مکرر پردازش می کند بگینگ می باشد تجمیع بوت استرپ). هدف روش، بهبود دقت با آمیختن خروجی های مختف اکلاسیفایرهای آموزش دیده در یک پیش بینی، و ایجاد یک کلاسیفایر ترکیبی بهبود یافته است.

جنگل های تصادفی

الگوریتم جنگل های تصادفی نخستین بار توسط هو ارائه گردید (هو، 1995). در حالت بوستینگ، به صورت متوالی، درخت های تصمیم برازش می می گردند که هر یک خطای طبقه بندی درخت های پیشین را در نظر می گیرند تا یک یادگیری جمعی از یادگییرنده های ضعیف ایجاد کند. بالعکس، جنگل های تصادفی شامل درخت های غیر همبسته بسیار عمیق می باشد که بر روی نمونه های مختلفی از داده ها ایجاد شده است.
جنگل های تصادفی توسط بریمان در سال 2001 معرفی گردید و به دلیل استفاده ساده تر آن نسبت به فرایند بوستینگ، بسیار مورد توجه قرار گرفت. الگوریتم رشد در جنگل های تصادفی نسبتا ساده است.
برای هر یک از درخت های BRAF در جنگل تصادفی، نخست یک زیر مجموعه تصادفی از داده های اصلی یادگیری استخراج می گردد. سپس یک درخت تصمیم اصلاح شده بر روی این نمونه رشد داده می شود که آن mRAF ویژگی به صورت تصادفی از p ویژگی تحت هر انشعاب انتخاب می گردد.
سپس درخت تا حداکثر JRAF رشد داده می شود. خروجی نهایی، تجمیعی از BRAF درخت تصادفی جنگل است به صورتیکه طبقه بندی بتواند توسط رای اکثریت اجرا گردد. نمونه برداری بشکل قابل ملاحظه ای واریانس درخت ها را می کاهد و انتخاب تصادفی ویژگی ها، همبستگی میان آن ها را می زداید.
در این جا با سه پارامتر که نیاز به تنظیم دارند مواجهم یعنی تعداد درخت ها (BRAF)، حداکثر عمق (JRAF)، و تعداد ویژگی هایی که به صورت تصادفی انتخاب می گردند (mRAF).
جنگل های تصادفی در معرض بیش برازش نمی باشند، بنابراین در این جا می توان از 1000 درخت BRAF استفاده کرد. حداکثر عمق JRAF برابر با 20 در نظر گرفته شده است که به شکل یک مقدار پیش فرض در یادگیری ماشین درآمده است و تعاملات مرتبه بالای قابل ملاحظه ای را میسر می سازد.

اعتبارسنجی متقابل

به طور کلی 3 روش برای اعتبارسنجی یک کلاسیفایر وجود دارد که در زمره روش های اعتبارسنجی متقابل قرار می گیرند. روش Holdout که در آن p درصد از داده ها به عنوان داده های اعتبارسنجی در نظر گرفته می شود در نظر گرفته می شود و مدل یادگیری برای مابقی داده ها اجرا می گردد.
روش k-fold که در آن داده ها به صورت تصادفی به k مجموعه تقسیم می گردد. برای هر نمونه، یک مجموعه به عنوان داده های اعتبارسنجی در نظر گرفته می شود و آموزش برای k-1 مجموعه دیگر اجرا می گردد. روش leave out که در آن n مشاهده به عنوان داده های اعتبارسنجی در نظر گرفته می شود و مدل با استفاده از n-1 مشاهده آموزش داده می شود. در این تحقیق از روش k-fold با k=5 استفاده شده است.

یافته ها

مطابق با روش تحقیق ارائه شده، برای انتخاب ویژگی، سه روش Inf-FS، EC-FS و Fisher بر روی 23 ویژگی انتخابی اعمال گردید. به منظور تنظیم پارامتر α و تعداد ویژگی انتخابی، از روش SVM و معیار Accuracy استفاده گردید.

بحث و نتیجه گیری

همان گونه که ذکر گردید، با توجه به اهمیت نهادهای مالی در توسعه و پیشرفت اقتصادی هر کشور و نقش بانک ها به عنوان اصلی ترین تامین کننده منابع مالی و مهم ترین ارکان سیستم اقتصادی کشور به شمار می آیند. از این رو بانک ها همانند هر نهاد درگیر در فرآیندهای مالی و اقتصادی در معرض انواع مختلفی از ریسک ها قرار دارند.
در حوزه بانکداری، اعطای تسهیلات اعتباری از جمله مهم ترین وظایف بانک ها به شمار می رود. بنابراین بانک ها ناگزیرند ریسک اعتباری ناشی از اعطای تسهیلات بانکی را شناسایی و کنترل نمایند.
ارزیابی وضعیت اعتباری مشتریان، پیش از اعطای وام، می تواند نقش بسیار موثری در جهت کاهش ریسک اعتباری مشتریان بازی نماید و احتمال ورشکستگی انتظاری را به نحو عمده ای، بکاهد.
پرسش اصلی این پژوهش، عبارتست از اینکه آیا مدل ارائه شده جهت ارزیابی وضعیت ریسک اعتباری مشتریان در بانک های خصوصی در ایران از کارایی لازم برخوردار می باشد یا خیر؟ و هدف اصلی آن، ارائه مدلی کارا جهت ارزیابی ریسک اعتباری مشتریان بانک های خصوصی است.
در این پژوهش از تکنیک های داده کاوی و یادگیری ماشین برای ارائه مدلی مناسب جهت ارزیابی ریسک اعتباری مشتریان یک بانک خصوصی در ایران استفاده شده است. در مدل پیشنهادی، اطلاعات مالی، اقتصادی، سوابق و مشخصات مشتریان به عنوان داده هایی که می تواند اطلاعات حاصل از وضعیت پیشینی نکول مشتریان و خوش حسابی و بدحسابی آن ها را نمایان سازد استفاده شده است.
در گام نخست تحقیق، با مرور ادبیات صورت گرفته در این حوزه، معیارهای مختلف ارزیابی ریسک مشتریان مورد بررسی قرار گرفت و با توجه به کثرت استفاده از آن ها، معیارهای مهم و همچنین در دسترس مشخص گردید.
سپس با عنایت به ویژگی های ذکر شده در مرور ادبیات، ویژگی های انتخاب شده با استفاده از داده های گردآوری شده و با پیش پردازش آن ها (حذف داده های ناکامل و پرت)، استخراج گردید.
داده های گردآوری شده متعلق به اطلاعات حساب 140 تعداد از مشتریان حقوقی یکی از شعب بانک خصوصی می باشد. در گام بعد ویژگی ها و رکوردهای مشتریان در هر ویژگی، تحت سه روش انتخاب ویژگی Inf-FS، EC-FS و Fisher مورد برسی قرار گرفت و با استفاده از معیار دقت، روش ماشین بردار پشتیبان غیر خطی رتبه بندی گردید.
با توجه به این معیار، روش Inf-FS به عنوان بهترین گزینه جهت رتبه بندی و کاهش ویژگی های مسئله انتخاب گردید. نتایج حاصل از این گام، برای طبقه بندی توسط سه روش طبقه بندی جمعی جنگل تصادفی، آدابوست ام 1 و لوجیت بوست مورد استفاده قرار گرفت و با استفاده از معیارهای Accuracy، Specificity، Sensitivity، Precision رتبه بندی گردید.
رتبه هایی از میانگین این 4 معیار حاصل گردید. مطابق با این معیار الگوریتم لوجیت بوست بهترین مقدار را کسب نمود. بنابراین استفاده از ترکیب روش های Inf-FS به عنوان ویژگی و لوجیت بوست به عنوان یک کلاسیفایر جمعی، کارایی مناسبی را جهت تعیین کلاس یک مشتری ارائه می دهد. به طور کلی پیشنهادات حاصل شده از این پژوهش می توان به صورت زیر خلاصه نمود:

پیشنهادات حاصل تحقیق

با توجه به اینکه روش های داده کاوی و یادگیری ماشین، با توجه به تحقیقات پیشین، نتایج کارا و مناسبی را جهت طبقه بندی و ارزیابی ریسک مشتریان ارائه نموده است، پیشنهاد می گردد که رویکرد داخلی بانک ها برای ارزیابی ریسک اعتباری به سمت این دسته از تکنیک ها سوق یابد.
همچنین بررسی وضعیت داخلی بانک ها به منظور تعیین و اخذ داده های مورد نیاز جهت تشکیل ویژگی های مناسب از گام های کلیدی برای ارزیابی ریسک اعتباری در بانک ها به شمار می آید.
بانک ها می توانند از چارچوب پیشنهادی این پژوهش جهت رسیدن به مدلی درونی استفاده نمایند. مطابق با این مدل، تعیین روش مناسب انتخاب ویژگی و همچنین تعیین بهترین کلاسیفایر از میان گزینه های موجود گامی کلیدی است.

پیشنهادات برای مطالعات تکمیلی

بررسی سایر روش های انتخاب و استخراج ویژگی و مقایسه میان آن ها در مدل ارائه شده این پژوهش. بررسی سایر کلاسیفایرهای موجود و همچنین استفاده از مدل های متاهیوریستیک جهت حل مدل های بهینه سازی درونی آن ها نظیر الگوریتم ژنتیک، موچگان و غیره.

ارائه مدل ارزیابی ریسک اعتباری برای بانک های خصوصی
https://www.sid.ir/fa/seminar/ViewPaper.aspx?ID=91518

كلمات كليدی: اعتبارسنجی، سامانه اعتبارسنجی، اعتبار سنجی مشتریان، سایت اعتبارسنجی، اعتبار بانکی افراد، ریسک اعتباری مشتریان