روش تحقیق
روش شناسی یا متدولوژی، شامل بررسی مجموعه اصول و قواعدی است که ما را به معذفت علمی رهنمون می سازد. بنابراین بررسی جزئیات آن ضروری و به منظور فهم پژوهش سودمند است. پژوهش حاضر براساس هدف، در زمره پژوهش های کاربردی قرار می گیرد. همچنین روش گردآوری داده های توصیفی- غیرآزمایشی و با استفاده از اطلاعات کتابخانه ای و نمونه برداری تصادفی به دست آمده است.
متدولوژی پیشنهادی این تحقیق، شامل 6 مرحله می باشد. در دو مرحله اول این مدل؛ با انتخاب بانک خصوصی و مشتریان مورد مطالعه و سپس با بررسی ادبیات آنالیز
ریسک اعتباری و شناسایی معیارها و شاخص ها، جهت تعیین ریسک اعتباری مشتریان بانک های تجاری و داده های مشتریان به صورت "خوش حساب" و "بدحساب" توسط مدل داخل بانک، جهت تشکیل ویژگی و اجرای پایلوت، آغاز می گردد. در مرحله بعدی، فرایند پیش پردازش بر روی داده های جمع آوری شده اعمال می گردد.
در گام استخراج ویژگی، با بهره گیری از داده های خام به دست آمده از گام پیشین، ویژگی های تعیین شده استخراج می گردند. در ادامه، گام انتخاب ویژگی، تنظیم پارامتر و تعداد ویژگی با استفاده از روش طبقه بند صورت می پذیرد و در نهایت با استفاده از معیار Accuracy، بهترین روش جهت انتخاب ویژگی برتر، ویژگی های انتخاب شده، در گام بعدی وارد مرحله طبقه بندی می گردد. و در مرحله آخر، تعیین بهترین الگوریتم طبقه بند مورد بررسی قرار می گیرد.
مرحله اول: انتخاب نمونه
در این مرحله از پژوهش، جامعه آماری شامل تمامی مشتریان حقوقی بانک خصوصی مورد مطالعه می باشد که از خدمات وام و تسهیلات در این بانک استفاده نموده اند. با توجه به این موضوع نمونه گردآوری شده برای این پژوهش، شامل داده های مورد نیاز جهت تشکیل ویژگی، کلیه مشتریان حقوقی یکی از شعب بانک خصوصی مورد مطالعه، مورد بررسی قرار گرفته، و از این میان 140 مشتری به صورت تصادفی انتخاب و در نظر گرفته شده است.
مرحله دوم: شناسایی ویژگی های تحلیل ریسک اعتباری
در این مرحله از پژوهش، به بررسی ادبیات آنالیز ریسک اعتباری و شناسایی معیارها و شاخص های استفاده شده جهت تعیین
ریسک اعتباری مشتریان بانک های تجاری با استفاده از سه روش 5C, 5P و LAPP پرداخته شده است. در این خصوص، سعی گردیده تا از آخرین پژوهش های صورت گرفته در این حوزه، استفاده شود تا نگاه جامع تری نسبت به ویژگی های معرفی شده، ایجاد گردد.
پس از شناسایی ویژگی های تحلیل ریسک، ویژگی هایی که از توان استفاده بیشتر برخوردار می باشند و همچنین داده های خام برای آن ها در دسترس است، به عنوان ویژگی های اولیه جهت تحلیل ریسک انتخاب می گردند. همچین داده های مورد نیاز، شامل داده های خام تشکیل ویژگی ها و طبقه بندی اعتباری مشتریان به صورت "خوش حساب" و "بدحساب" توسط ارزیابی داخلی بانک نیز دریافت گردید.
مرحله سوم: پیش پردازش داده ها
تجزیه و تحلیل داده ها جهت ارائه مدل ارزیابی ریسک اعتباری، با استفاده از تکنیک های آماری، یادگیری ماشین و داده کاوی صورت پذیرفته است. فرایند پیش پردازش شامل حذف داده های پرت با استفاده از روش آماری راما سماوی و همکاران (راماسماوی و همکاران، 2000) با نرم افزار Rapid Miner و فرآیند انجام تکنیم های انتخاب ویژگی و طبقه بندی با استفاده از نرم افزار Matlab صورت پذیرفته است.
در الگوریتم حذف داده های پرت، فرمول بندی برای داده های پرت مبتنی بر فاصله ارائه شده است، که براساس فاصله یک نقطه از K امین همسایه نزدیک خود می باشد. هر نقظه براساس فاصله اش از k امین همسایه نزدیک خود رتبه بندی می گردد و n نقطه با فاصله بالاتر به عنوان داده های پرت شناسایی می گردند.
در الگوریتم حذف داده های پرت، فرمول بندی برای داده های پرت مبتنی بر فاصله ارائه شده است، که براساس فاصله یک نقطه از k امین همسایه نزدیک خود می باشد. هر نقطه بر اساس فاصله اش از k امین همسایه نزدیک خود رتبه بندی می گردد و n نقطه با فاصله بالاتر به عنوان داده های پرت شناسایی می گردند.
معیارهای ارزیابی روش انتخاب ویژگی و طبقه بندی
در حوزه هوش مصنوعی، ماتریس در هم ریختگی، به ماتریسی گفته می شود که در آن عملکرد الگوریتم های مربوط به نمایش گذارده می شود. معمولا از این ماتریس برای ارزیابی الگوریتم های نظارت شده، نظیر کلاسیفایرها استفاده می گردد.
در مرحله انتخاب ویژگی، پی از رتبه بندی ویژگی ها توسط هر الگوریتم، از معیار Accuracy برای کالیبره کردن پارامتر α، تعیین تعداد ویژگی های مناسب و تعیین بهترین روش انتخاب ویژگی، استفاده شده است. از معیارهای Accuracy، Specificity، Sensitivity و Precision برای تعیین بهترین کلاسیفایر استفاده گردیده است.
مرحله چهارم: استخراج ویژگی
یکی از عوامل موفقیت تصمیمات اعتباری، استخراج صحیح ویژگی های موثر بر ریسک اعتباری جهت ارزیابی دقیق و کامل است. موسسات اعتباری و بانک ها می بایست با توجه به پیچیدگی فعالیت هایشان و محیط اقتصادی پیرامونشان، معیارهای مناسبی جهت
ارزیابی ریسک اعتباری مشتریانشان استخراج نمایند.
در این پژوهش، ویژگی های استخراج شده، با توجه به مرور ادبیات و داده های موجود و قابل ارائه بانک، عموما شامل وضعیت مالی مشتریان که در صورت های مالی و به تبع آن در نسبت های مالی و همچنین سابقه مشتریان در زمینه پرداخت تسهیلات و یا نکول و همچنین سابقه عملیاتی آن ها منعکس می گردد.
باتوجه به اطلاعات موجود برای مطالعه موردی تحقیق و همچنین فراوانی استفاده از برخی ویژگی ها در ادبیات تحقیق، ویژگی هایی که برای تحلیل مدل ارائه شده در این پژوهش در نظر گرفته شده اند، شامل موارد زیر می گردد:
- سرمایه در گردش به دارایی کل
- فروش به دارایی کل
- دارایی جاری به بدهی جاری
- بدهی جاری به دارایی کل
- فروش به بدهی کل
- بدهی کل به حقوق صاحبان سهام
- دارایی جاری به دارایی کل
- بدهی کل به دارایی کل
- فروش به حقوق صاحبان سهام
- سود خالص به دارایی کل
- سود خالص به حقوق صاحبان سهام
- سود خالص به فروش
- حقوق صاحبان سهام به دارایی کل
- فروش به سرمایه در گردش
- سابقه فعالیت
- سابقه همکاری با بانک
- سابقه نکول
- گزارش حسابرسی
- مجوز کسبی
- سابقه مدیر عامل
- مالکیت محل فعالیت
- نوع تضمین
- نوع فعالیت
همچنین مقادیر طبقه بندی نظارت شده که توسط بانک برای هر یک از مشتریان به صورت مشتری خوب و بد صورت پذیرفته، نیز گردآوری گردیده است.
مرحله پنجم: انتخاب ویژگی
انتخاب ویژگی، به طور کلی به عنوان یک مرحله پیش پردازش به شمار می آید و برای بهبود عملکرد کاوش با کاهش ابعاد داده ها استفاده می گردد. هدف انتخاب ویژگی، تعیین یک زیر مجموعه ویژگی تا حد امکان کوچک می باشد و یک گام ضروری، پیش از اجرای اقدامات داده کاوی است.
در روش های انتخاب ویژگی، زیرمجموعه ای از ویژگی های اصلی بدون از دست رفتن اطلاعات مفید انتخاب می گردد. ویژگی های نامربوط و زائد برای کاهش ابعاد داده ها حذف می گردند. در نتیجه، دقت کاهش زمان محاسباتی و تقویت قابلیت درک نتایج حاصل می گردد. با انجام اقدامات داده کاوی توسط زیر مجموعه داده ها با بعد کاسته شده، همان نتایج با داده های اصلی (بدون کاهش ابعاد) به دست می آید.
چهار گام کلیدی برای هر الگوریتم انتخاب ویژگی، شامل تولید زیر مجموعه ای از ویژگی ها، ارزیابی زیر مجموعه تولید شده، تعیین معیار توقف و صحت سنجی نتایج می باشد. نیکویی زیر مجموعه تولید شده با استفاده از یک معیار ارزیابی سنجیده می شود. اگر زیرمجموعه جدید تولید شده، بهتر از زیر مجموعه نهایی تولید شده در نهایت توسط اطلاعات پیشینی یا با استفاده از تست های مختلف صحت سنجی می گردد.
مرحله ششم: طبقه بندی
طبقه بندی یکی از مباحث مطروحه داده کاوی نظارت شده می باشد. یک مسئله طبقه بندی عبارت است از اینکه یک مشاهده جدید، متعلق به کدامیک از دسته ها (زیر مجموعه جامعه) می گردد، مطابق با یک مجموعه یادگیری از داده های شامل مشاهدات که عضویت آن ها با دسته های اشاره شده مشخص و معلوم می باشد. الگوریتمی که طبقه بندی را انجام می دهد، طبقه بند یا کلاسیفایر نام دارد. کلاسیفایرها را می توان به طور کلی در دسته های زیر جای داد:
- درخت تصمیم
- روش های مبتنی بر قواعد
- استدلال مبتنی بر حافظه
- شبکه های عصبی
- شبکه های بیزین
- ماشین های بردار پشتیبان
در ادامه اشاره مختصری به کلاسیفایرهای به کار برده شده در این پژوهش خواهیم داشت.
درخت تصمیم
درخت تصمیم از الگوریتم های بسیار پرکاربرد و عمومی داده کاوی است که بیشترین کاربرد آن جهت طبقه بندی است. یک درخت تصمیم از تعدادی گره و شاخه تشکیل شده است و در نهایت برگ ها بیانگر کلاس ها هستند. در هر یک از گره های غیر برگ، تصمیم گیری (انشعاب) با توجه به یک یا چند ویژگی صورت می پذیرد.
درخت تصمیم به دلیل سادگی و قابل فهم بودن، تکنیک بسیار محبوبی در داده کاوی به شمار می آید و خود به تنهایی، خود را توصیف می کند و نیازی به یک خبره بیرونی جهت تفسیر آن نیست.
ساختن یک درخت تصمیم بهینه با استفاده از داده های آموزشی کار ساده ای نیست و در برخی مراجع نشان داده شده است که یک درخت تصمیم با عمق کمینه، یک مسئله NP hard است. دو موضوع اساسی در تولید یک درخت مطرح می باشد، نخست یافتن مناسب ترین ویژگی برای هر گره جهت انشعاب و دوم، شرط پایان الگوریتم.
برای مورد دوم، رشد درخت تا زمانی ادامه می یابد که یکی از شروط زیر محقق گردد:
- همه نمونه های باقیمانده از مجموعه آموزشی متعلق به یک کلاس باشند
- به حداکثر عمق درخت رسیده باشیم که این مقدار توسط کاربر الگوریتم تعیین می گردد
- تعداد نمونه های گره از حداقل تعدادی که کاربر مشخص کرده است، کمتر باشد
- در صورت انشعاب، تعداد نمونه ها در یک یا چند گره فرزند کمتر از حداقل نمونه هایی است که برای هر گره فرزند تعریف شده است
- مقادیر محاسبه شده برای انتخاب ویژگی برای هیچ یک از ویژگی ها از مقدار آستانه آن بیشتر نباشد
ماشین های بردار پشتیبان
الگوریتم اولیه SVM، نخستین بار توسط واپنیک و چروننکیس در سال 1963، ارائه گردید. در سال 1992، بوسر و همکاران روشی جهت ایجاد کلاسیفایر غیر خطی با افزودن لم کرنل به ابر صفحه های با حداکثر حاشیه، ارائه نمودند.
SVM یک کلاسیفایر یا طبقه بندی کننده باینری است که دو طبقه یا کلاس را با استفاده از یک مرز خطی از یکدیگر تفکیک می نماید. در صورت خطی بودن مرز، هدف کلی، دست یابی به تابعی است که ابر صفحه تفکیک کننده با بیشترین حاشیه را تشکیل دهد.
در ماشین بردار پشتیبان، تفکیک داده ها به صورت خطی یا غیر خطی صورت می پذیرد. در حالتی که بتوان داده ها را به صورت خطی از یکدیگر تفکیک کرد. ماشین بردار پشتیبان با در نظر گرفتن مجموعه داده های یادگیری و با حل مسئله بهینه سازی زیر، ابرصفحه بهینه را با حداکثر مقدار حاشیه پیدا می کند.
یادگیری جمعی
ایده اصلی متدولوژی یادگیری جمعی، ترکیب مجموعه ای از مدل هاست که هر کدام وظیفه اصلی خویش را انجام دهند تا در نهایت به یک ترکیب بهتر از یک مدل کلی برسیم، به طوریکه دقیق تر و قابل اعتمادتر از تخمین یا تصمیمی باشد که می توان از یک مدل تکی به دست آورد.
ایده اصلی ایجاد یک مدل پیش بینی به وسیله تلفیق چندین مدل، مدت زمان زیادی است که مورد تحلیل و بررسی قرار گرفته است. بولمان و یو اشاره کرده اند که تاریخچه روش های جمعی، به سال 1977 و روش توکی بر می گردد که در آن ترکیبی از دو مدل رگرسیون خطی ارائه شده است. دو متد بوستینگ، بگینگ و از جمله اصلی ترین روش های طبقه بندی جمعی است که در ادامه تشریح می گردد.
بوستینگ، یک روش عمومی برای بهبود عملکرد هر الگوریتم یادگیریست. این روش با اجرای مکرر یک یادگیرنده ضعیف (نظیر قوانین طبقه بندی یا درخت های تصمیم) بر روی داده های یادگیری که به شکل مختلف توزیع شده اند اجرا می گردد. کلاسیفایرهایی که توسط یادگیرنده های ضعیف تولید می گردند با یکدیگر ترکیب می گردند تا یک کلاسیفایر قدرتمند جدید با دقتی بالاتر از کلاسیفایرهای تکی ایجاد گردد. شاپیر برای نخستین بار الگوریتم بوستینگ را ارائه نمود.
شناخته شده ترین روش که نمونه ها را به طور مکرر پردازش می کند بگینگ می باشد تجمیع بوت استرپ). هدف روش، بهبود دقت با آمیختن خروجی های مختف اکلاسیفایرهای آموزش دیده در یک پیش بینی، و ایجاد یک کلاسیفایر ترکیبی بهبود یافته است.
ارائه مدل ارزیابی ریسک اعتباری برای بانک های خصوصی
https://www.sid.ir/fa/seminar/ViewPaper.aspx?ID=91518