مقایسه مدل بهینه رگرسیون لجستیک چندگانه و باینری برای رتبه بندی اعتباری مشتریان حقیقی بانک رفاه کارگران (بخش دوم)

در مطالعه گروه اسمارت دریل، رگرسیون لجستیک باینری برای برازش مورد استفاده قرار گرفته است. متغیرهای پیش بینی کننده (مستقل) شامل سن، میزان تحصیلات، سابقه در شغل کنونی (به سال)، سابقه در آدرس کنونی (به سال)، شغل همسر (میزان درآمد همسر)، میزان وام (بدهی) به درآمد و میزان دیون اعتباری است.
در این مطالعه از روش برازش خودکار گام به گام استفاده شده است و نتایج نشان داد که متغیرهای سابقه در آدرس کنونی، میزان وام (بدهی) به درآمد و میزان دیون اعتباری مهم ترین پارامترهای تعیین اعتبار مشتری هستند.
تباگری در سال 2015 با استفاده از مدل برازش لجستیک به اعتبارسنجی مشتریان بانک پرداخته است. در مطالعه ایشان، متغیر وابسته حالت باینری خوش حساب و بدحساب هستند. اطلاعات 285 مشتری خوش حساب و 214 مشتری بدحساب برای ساخت مدل مورد استفاده قرار گرفته است.
در مطالعه تباگری گفته شده که حداقل 30 رکورد برای ساخت مدل لازم است و برای هرمتغیر مستقل، حدود 30 تا 50 رکورد باید داشته باشیم. علاوه بر این، این روش باید حداقل متغیرها را داشت (متغیرهای اصلی). مقادیر پارامترها در این مدل مطلق نبوده و معمولا به صورت نسبی سنجیده می شوند.
مهرآرا و همکاران در سال 1388 کار مدل سازی سنجش ریسک اعتباری و اعتبارسنجی مشتریان در بانک پارسیان به روش رگرسیون لاجیت و پروبیت و مدل شبکه های عصبی هوشمند GMDH را انجام داده اند. برای این منظور اطلاعات و داده های مالی و کیفی یک نمونه تصادفی 400 تایی از مشتریان که تسهیلات دریافت کرده اند مورد بررسی قرار می گیرد. این حجم نمونه از مشتریان دارای حساب منتهی به سال 1388 انتخاب شده اند.
در مقاله مهرآرا و همکاران پس از بررسی پرونده های اعتباری هر یک از مشتریان، 11 متغیر توضیح دهنده مورد ارزیابی قرار می گیرد. نتایج مقاله ضمن دلالت بر تایید نظریه های اقتصادی و مالی نشان می دهد که عملکرد پیش بینی الگوی شبکه عصبی (درصد پیش بینی های صحیح آن) به مراتب بهتر از الگوهای اقتصاد سنجی متعارف لجیت و پروبیت است و در زمینه عوامل موثر بر ریسک اعتباری نشان می دهد که از بین این متغیرها، نوع وثیقه و نسبت بدهی دارای بیشترین اثر بر متغیر احتمال نکول هستند.
همچنین سابقه همکاری، نسبت جاری، نسبت آنی و نسبت مالکانه دارای اثر معمولی و سایر متغیرها کم اثر هستند. نوع وثیقه، نوع مالکیت محل فعالیت، سابقه همکاری مشتریان با بانک، سرمایه مشتری، نسبت جاری، نسبت آنی، دارایی جاری به دارایی کل، گردش دارایی کل، گردش سرمایه جاری، نسبت بدهی و نسبت مالکانه متغیرهای مدل سازی در این کار بوده اند.

مدل برازش لجستیک

البته چنانچه برخی از متغیرها اسمی باشند باید به صورت متغیرهای مجازی دو وجهی با کدهای 0 و 1 آورده شوند. در این صورت مدل رگرسیون مورد استفاده قدری متفاوت بوده و با نام رگرسیون لجستیک شناخته می شود.
در حالتی که متغیر وابسته بیش از دو طبقه یا رده داشته باشد ، همانند اعتبار مشتری در این کار که شامل رده های خوش حساب، سررسید، برازش مدل لجستیک چندگانه با لحاظ اثرات متقابل متغیرهای مستقل در کنار اثرات اصلی این متغیرها، مدل برازش به صورت گام به گام پیشرو اجرا شد.
اگر متغیر وارد شده تاثیر زیادی در مدل نداشته باشد، حذف می شود و در غیر این صورت متغیر در مدل می ماند. این کار تا بررسی تاثیر تمام متغیرهای در مدل انجام می گیرد. مدل نهایی باقی مانده، مدل بهینه ای هم از نظر تعداد متغیر مستقل بهینه شده و هم از نظر کفایت مدل.
در مقابل روش گام به گام پیش رو، روش گام به گام پس رو قرار دارد که در آن ابتدا همه متغیرهای مستقل در مدل قرار گرفته، سپس یک به یک متغیرها کنترل شده و متغیری که تاثیر چندانی نداشته باشد از مدل خارج شده و در غیر این صورت در مدل باقی می ماند. در این مطالعه از روش گام به گام پیش رو استفاده شده است.
این رویه تا همگرایی مدل تکرار می شود، یعنی تا زمانی که درستنمایی دو مدل متوالی تفاوت چندانی نداشته باشد.
مدل برازش لجستیک را می توان به عنوان مدل خطی تعمیم یافته ای که از تابع لجیت به عنوان تابع پیوند استفاده کرد. معادله کلی رگرسیون لجستیک به صورت معادله است.

نتایج مدل بهینه لجستیک چندگانه

باتوجه به مقدار احتمال در هر دو آزمون که نزدیک به 1 است، این نتایج نشان می دهد مدل نهایی به حد کافی به داده ها برازش یافته است و داده ها با فرضیات مدل سازگار هستند.
نتایج آزمون نسبت درستنمایی مدل نهایی برازش یافته در مقابل مدل صفر، ارائه شده است. مقدار آماره کای دو 31.201 با 12 درجه آزادی است که با توجه به مقدار احتمال به دست آمده در سطح معنی داری 0.05 فرض صفر رد می شود و می توان گفت عملکرد مدل نهایی بهتر از مدل صفر است.
پیشتر گفته شد فرض صفری که در این آزمون مورد بررسی قرار می گیرد، سفر بودن ضریب متغیر مستقل در مدل است. با توجه به مقدار احتمال های معنی داری ارائه شده در جدول همگی کمتر از 0.05 است، می توان نتیجه گرفت که متغیرهای مستقل مدرک، سن و نوع مالکیت در سطح معنی داری 0.05 سهم مهمی در مدل نهایی دارند.
136 مشتری خوش حساب، پیش بینی شده است که تعداد 136 مشتری در دسته خوش حساب قرار دارند (100 درصد این مشتریان درست رده بندی شده اند). از 26 مشتری سر رسید شده، 14 مشتری معوق و 7 مشتری مشکوک الوصول، همه خوش حساب تشخیص داده شنده اند (سفر درصد این مشتریان درست تشخیص داده شده اند). به صورت کلی 75 درصد مشریان را مدل به درستی رده بندی کرده است.

نتایج مدل بهینه لجستیک باینری

با توجه به این که تعداد مشاهدات رده های سوم و چهارم متغیر وابسته کم است، می توان این رده ها را در رده دوم ادغام کرده و به این ترتیب یک کتغیر وابسته جدید با دو رده خوش حساب و بد حساب ایجاد می شود. این کار موجب بهبود برازش نخواهد شد، چرا که پیشتر محدوده رده ها (خوش حسابی، بدحسابی و ...) مشخص شده و نمی توان این محدوده ها را در این مرحله با هم ادغام کرد.
در این بخش مدل رگرسیون لجستیک را به داده های موجود با این متغیر وابسته جدید برازش می دهیک. در اینجا نیز نمونه 75 درصدی از جامعه آماری به عنوان نمونه های ساخت مدل استفاده می شوند. مدل رگرسیون لجستیک بهینه را با استفاده از روش پیشرو گام به گام به دست می آوریم.

جمع بندی و نتیجه گیری

جم عبندی و نتیجه گیری آنچه مسلم است، پیچیدگی رفتار افراد ناشی از تاثیرپذیری آن از شرایط محیط موجب عدم دسترسی به مدل های پیشگوی مطلق برای تبیین رتبه اعتباری مشتریان است. این موضوع باعث شده که روش ها و تکنیک های مختلف مورد استفاده در بحث اعتبار سنجی مشتریان، نتوانند نتایج قاطع و خیلی خوبی به دست دهند، بنابراین نتایج این روش ها به طور نسبی سنجیده می شود.
هدف اصلی در این کار تهیه مدل بهینه و بررسی اثر تعداد رده های اعتبار مشتریان حقیقی برای پیش بینی وضعیت اعتبار مشتریان بالقوه بانک رفاه کارگران در دریافت تسهیلات بوده تا با این ابزار، ریسک اعطای تسهیلات مبنی بر عدم بازپرداخت مشتریان به حداقل برسد.
اکثر مطالعات انجام شده در این زمینه به بررسی اعتباری مشتری در دو رده مشخص خوش حساب و بد حساب پرداخته اند. در این مطالعه سعی شد با افزایش رده اعتبار به چهار رده خوش حساب، سررسیدشده، معوق و مشکوك الوصول اثر این رده بندی در صحت و دقت نتایج نهایی بررسی شود.
در مدل برازش لجستیک چندگانه، تمامی چهار رده اعتبار مشتری حقیقی درنظر گرفته شده است و در مدل برازش لجستیک باینری رده های سررسیدشده، معوق و مشکوك الوصول به رده بدحساب گروه بندی شده اند. با این گروه بندی باینری، مشتریانی از رده سررسید شده که به رده خوش حساب خیلی نزدیک بوده اند هم بدحساب درنظر گرفته خواهند شد. در این مطالعه با این فرض که می توان این گروه بندی را انجام داد برازش لجستیک باینری انجام شده است.
به نظر می رسد تفکیک مشتریان فقط به دو رده خوش حساب و بدحساب نتواند رویکرد مناسبی برای تعیین اعتبار مشتریان باشد، چراکه موارد متعددی وجود خواهد داشت که تصمیم گیری در مورد انتساب مشتریان فقط به این دو گروه مشکل خواهد بود. با گسترش رده اعتباری به چهار رده (در این کار) نتایج مدل سازی به مراتب بهتر و درصد پیش بینی بهتر خواهد بود.
این امر منوط به داشتن مقادیر زیادی داده صحیح و دقیق از تمامی رده ها است (توزیع مناسبی بین تعداد موارد رده ها وجود داشته باشد). البته در این کار بخش اعظم مشتریان در رده خوش حساب قرار دارند و در سایر رده ها تعداد کمتری مشتری است. این عدم توازن می تواند نتایج مدل سازی را به میزان زیادی تحت تاثیر قرار دهد.
به طور خلاصه بر اساس نتایج مدل سازی در این کار، مهم ترین یافته های به دست آمده در این تحقیق عبارتند از:

با توجه به ماهیت اعتبار مشتری که به راحتی قابل اندازه گیری کمی و عددی نیست، مدل های موجود تنها ابزاری برای کاهش ریسک بوده و به هیچ عنوان مدل های صرف پیشگو نخواهند بود. به عبارت دیگر، وابستگی این مدل ها به داده های واقعی صحیح، دقیق و زیاد اجتناب ناپذیر است. بنابراین دستیابی به چنین داده هایی شرط اساسی برای تهیه مدل ها خواهد بود.
نتایج مربوط به درصد پیش بینی درست در طبقه بندی رده ها برای دو مدل برازش لجستیک باینری و چندگانه نشان می دهد که هر دو مدل، نتایج یکسانی از لحاظ درصد پیش بینی درست داشته اند (هر دو 74.3 درصد). به عبارت دیگر، عملکرد هر دو مدل برای پیش بینی درست رده های اعتباری یکسان است.
بر اساس مدل سازی های انجام شده در این تحقیق، یکی از مهم ترین خروجی ها، شناسایی اولیه مهم ترین پارامترهای موثر بر تعیین اعتبار مشتریان حقیقی است. رتبه بندی و تعیین اهمیت نسبی این پارامترها از دیگر خروجی های مهم این تحقیق است. با توجه به اهمیت نسبی پارامترها در مدل لجستیک بهینه باینری و چندگانه می توان گفت که به طور نسبی، سطح تحصیلات و سن مشتری از مهمترین پارامترهای موثر در تعین اعتبار مشتری در این کار هستند.

مقایسه مدل بهینه رگرسیون لجستیک چندگانه و باینری برای رتبه بندی اعتباری مشتریان حقیقی بانک رفاه کارگران
https://www.sid.ir/fa/journal/ViewPaper.aspx?ID=356950

كلمات كليدی: ریسک اعتباری، رتبه اعتباری، رتبه بندی مشتریان، رتبه اعتباری مشتریان، اعتبارسنجی