مقایسه مدل بهینه رگرسیون لجستیک چندگانه و باینری برای رتبه بندی اعتباری مشتریان حقیقی بانک رفاه کارگران (بخش اول)

چکیده

یکی از وظایف اصلی موسسات مالی در حمایت از فعالات اقتصادی، اعطای تسهیلات و انجام تعهدات آنان است. پیش بینی ریسک اعتباری ناشی از اعطای تسهیلات و در نتیجه مدیریت این ریسک از مهم ترین چالش های پیش روی بانک ها و موسسات مالی است.
هدف اصلی در این کار تهیه مدل بهینه لجستیک جهت تعیین اعتبار مشتریان حقیقی با بررسی نقش تعداد رده های اعتبار مشتری از دو رده خوش حساب و بدحساب تا چهار رده خوش حساب، سر رسید شده، معوق و مشکوک الوصول و نیز شناسایی مهم ترین متغیرهای مستقل تاثیرگذار بر اعتبار مشتریان حقیقی بانک رفاه کارگران است.
نتایج هر دو مدل برازش لجستیک چندگانه و باینری تهیه شده در این کار نشان دهنده اهمیت نسبی متغیرهای سطح تحصیلات و سن مشتری حقیقی نسبت به سایر متغیرهای مستقل است. نتایج یکسان هر دو مدل می تواند نشان دهنده تاثیر کم افزایش تعداد رده بندی متغیر وابسته (اعتبار مشتری) و یا توزیع نامناسب تعداد مشتریان برای رده های مختلف اعتبار مشتری باشد.

مقدمه

اعتبارسنجی مشتریان بانک ها برای دریافت و اخذ تسهیلات بانکی امروزه یک ضرورت تردیدناپذیر در سیستم بانکی بیشتر کشورهای دنیا است. ایجاد تعادل میان عرضه و تقاضا در منابع و تسهیلات بانکی، مدیریت کاهش معوقات بانکی و رهایی از سیستم وثیقه محوری از جمله مواردی است که موجب شده است مشتریان بانک ها اعتبارسنجی شوند.
در واقع بانک ها از طرق مختلف مشتریان خوش حساب یا بدحساب را شناسایی می کنند.
اعتبارسنجی مشتریان در ارائه تصویری شفاف از وضعیت و توانایی مشتری در ایفای به موقع تعهدات، بازداشتن آنان از استفاده بیش از حد منابع و سقوط به ورطه بحران مالی نقش اساسی دارد.
همچنین اعتبار سنجی مشتریان بانک ها باعث سهولت در امور بانکی، کاهش ریسک سرمایه گذاری، تسهیل در رتبه بندی مشتریان و ایجاد بستری برای مبارزه با پولشویی خواهد شد.(اعتبارسنجی مشتریان ضرورت نظام بانکی، 1389).

رتبه بندی اعتباری یکی از ابزارهای ارزشیابی اصلی برای موسسات گوناگون در دهه های اخیر بوده که در مباحث مختلفی همانند مباحث مالی و حسابداری مورد استفاده قرار گرفته است. روش های رتبه بندی متفاوتی برای مباحث طبقه بندی و پیش بینی رده اعتباری مشتریان استفاده شده که که مترین آن ها روش های آماری هستند.
به طور کلی روش های رتبه بندی اعتباری را می توان به دو گروه عمده روش های پارامتریک (مانند پروبیت، لوجیت، تحلیل تمایزی و رگرسیون لجیتسک) و روش های ناپارامتریک و داده کاوی (مانند درختان تصمیم گیری، شبکه های عصبی و سیستم های خبره) تقسیم بندی کرد.
برخی از مدل های ترکیبی نیز در اعتبارسنجی مورد استفاده قرار گرفته اند، مثل مدل عصبی فازی، مدل فازی ماشین بردار پشتیبان و مدل ترکیبی شبکه های عصبی.

پیشینه و سابقه موضوع

عبدو و همکارانش (2007) با استفاده از مدل های رتبه بندی اعتباری، مشتریان بانک های مصر را اعتبارسنجی کردند. تکنیک های بکار برده شده در این کار شامل تحلیل دودویی (باینری)، تحلیل پروبیت و برازش لجستیک است. در این کار وابسته باینری در نظر گرفته شده و 20 متغیر مستقل شامل: مقدار وام، تعداد اقساط، شرکت، جنسیت، وضعیت تاهل، سن، درآمد ماهیانه، ملکیت خانه، درآمدهای اضافه، تلفن خانه، موقعیت شخصی، سطح تحصیلات، وام از بانک های دیگر، وضعیت کارت اعتبار و ... هستند.
در اعتبارسنجی صورت گرفته توسط عبدو و همکاران، میزام وام و میزان درآمد ماهیانه از پارامترهای مهم تحلیل باینری هستند. متوسط طبقه بندی صحیح 86.75 درصد برای مدل تحلیل باینری است. برای تحلیل پروبیت همه متغیرها بجز سه متغیر درآمد اضافه، جنسیت و شرکت متغیرهای مهم و تاثیرگذار هستند.
متوسط طبقه بندی صحیح 89.33 درصد برای مدل تحلیل پروبیت است. برای برازش لجستیک بجز سه متغیر درآمد اضافه، جنسیت و شرکت، متغیرهای دیگر مهم بود و مدل برای حالت بدون این سه متغیر مجدد اجرا شده که متوسط طبقه بندی صحیح 87.95 درصد است.
ترابیان و همکاران (2013) اعتبار سنجی مشتریان حقیقی بانک سپه را با مدل های لجستیک انجام دادند. در کار ایشان، متغیر وابسته اعتبار به صورت باینری (خوش حساب و بد حساب) در نظر گرفته شده بود. در این مرجع، ذکر شده است که محدودیت منابع مالی یکی از دلایل عمده وجود چالش تشخیص و ارزیابی توانایی مالی مشتریان برای بازپرداخت تسهیلات دریافتی آن ها است.
مشخصه هایی همانند سن، میزان تحصیلات، جنسیت، مقدار تسهیلات و ارزش وثیقه مهم ترین پارامترهای لحاظ شده در کار اعتبارسنجی صورت گرفته توسط ترابیان و همکاران است. نتایج اقدام ایشان نشان می دهد که متغیرهای سن و میزان تحصیلات مهم ترین پارامترهای تاثیرگذار بر اعتبار مشتریان و رتبه بندی اعتباری آن ها است و بقیه متغیرها، ارتباط معناداری با وضعیت اعتبار مشتریان دارند.
کریمی ( 2014 ) برای بانک های تجاری ایران ریسک اعتباری را با استفاده از رگرسیون لجستیک و شبکه عصبی مصنوعی مدل سازی کرده است. این کار بر روی 316 نمونه و 5 متغیر مستقل انجام شده است. نتایج مدلسازی کریمی نشان می دهد که شبکه عصبی مصنوعی نسبت به برازش لجستیک توانایی بهتری برای شناسایی مشتریان بدحساب دارد.
اعتبار به صورت یک متغیر باینری در نظر گرفته شده است. نتایج مدلسازی کریمی نشان داده است که افزایش نرخ بهره و تاخیر در بازپرداخت موجب افزایش ریسک اعتباری می شود.
مدل شبکه عصبی در کار کریمی حدود 93 درصد مشتریان بدحساب و 63 درصد مشتریان خوش حساب را به درستی تشخیص داده است.
گروه اسمارت دریل مطالعه موردی روی850 مشتری یک بانک را برای تعیین رتبه اعتباری آن ها با استفاده از آنالیز رگرسیون لجستیک انجام داده است. جامعه آماری شامل 717 مشتریان است که پیشتر تسهیلات دریافت کرده اند. در کار گروه اسمارت دریل، یک نمونه تصادفی 513 نفری از 717 مشتری برای ساخت مدل مورد استفاده قرار گرفته است. 204 مشتری به عنوان نگه داشته شده یا نمونه ارزیابی هستند که برای تست مدل ریسک اعتباری مورد استفاده قرار می گیرند.

سپس مدل برای طبقه بندی 133 مشتری آینده به عنوان ریسک اعتباری خوب و بد بکار برده می شود.
در مطالعه گروه اسمارت دریل، رگرسیون لجستیک باینری برای برازش مورد استفاده قرار گرفته است. متغیرهای پیش بینی کننده (مستقل) شامل سن، میزان تحصیلات، سابقه در شغل کنونی (به سال)، سابقه در آدرس کنونی (به سال)، شغل همسر (میزان درآمد همسر)، میزان وام (بدهی) به درآمد و میزان دیون اعتباری است.
در این مطالعه از روش برازش خودکار گام به گام استفاده شده است و نتایج نشان داد که متغیرهای سابقه در آدرس کنونی، میزان وام (بدهی) به درآمد و میزان دیون اعتباری مهم ترین پارامترهای تعیین اعتبار مشتری هستند.
تباگری در سال 2015 با استفاده از مدل برازش لجستیک به اعتبار سنجی مشتریان بانک پرداخته است. در مطالعه ایشان متغیر وابسته حالت باینری خوش حساب و بد حساب هستند. اطلاعات 285 مشتری مشتری خوش حساب و 214 مشتری بد حساب برای ساخت مدل مورد استفاده قرار گرفته است.
در مطالعه تباگری گفته شده که حداقل 30 رکورد برای ساخت مدل لازم است و برای هر متغیر مستقل، حدود 30 تا 50 رکورد باید داشته باشیم. علاوه بر این، این روش باید حداقل متغیرها را داشت (متغیرهای اصلی).
مقادیر پارامترها در این مدل مطلق نبوده و معمولا به صورت نسبی سنجیده می شوند. در این کار 16 متغیر مستقل در نظر گرفته شده است. متغیرهای مهم عبارتند از: سن، بازپرداخت بدهی به ماه، مدت زمان زندگی در محل کنونی، نوع شغل، مقدار اعتبار، بدهی های دیگر.
مهرآرا و همکاران در سال 1388 کار مدل سازی سنجش ریسک اعتباری و اعتبار سنجی مشریان در بانک پارسیان به روش رگرسیون لاجیت و پروبیت و مدل شبکه های عصبی هوشمند GMDH را انجام داده اند. برای این منظور اطلاعات و داده های مالی و کیفی یک نمونه تصادفی 400 تایی از مشتریان که تسهیلات دریافت کرده اند مورد بررسی قرار می گیرد. این حجم نمونه از مشتریان دارای حساب منتهی به سال 1388 انتخاب شده اند.
در مقاله مهرآرا و همکاران پس از بررسی پرونده های اعتباری هر یک از مشتریان، 11 متغیر توضیح دهنده مورد ارزیابی قرار می گیرد. نتایج مقاله ضمن دلالت بر تایید نظریه های اقتصادی و مالی نشان می دهد که عملکرد پیش بینی الگوی شبکه عصبی (درصد پیش بینی های صحیح آن) به مراتب بهتر از الگوهای اقتصاد سنجی متعارف لجیت و پروبیت است و در زمینه عوامل موثر بر ریسک اعتباری نشان می دهد که از بین این متغیرها، نوع وثیقه و نسبت بدهی دارای بیشترین اثر بر متغیر احتمال نکول هستند.
همچنین سابقه همکاری، نسبت جاری، نسبت آنی و نسبت مالکانه دارای اثر معمولی و سایر متغیرها کم اثر هستند. نوع وثیقه، نوع مالکیت محل فعالیت، سابقه همکاری مشتریان با بانک، سرمایه مشتری، نسبت جاری، نسبت آنی، دارایی جاری به دارایی کل، گردش دارایی کل، گردش سرمایه جاری، نسبت بدهی و نسبت مالکانه متغیرهای مدل سازی در این کار بوده اند.
در بیشتر موارد، نویسندگان مراجع مختلف بیان کرده اند که یک سری خاص از داده ها برای موسسات خاصی تهیه شده و در دسترس است، بنابراین متغیرهای به کار برده شده برای ساخت مدل رتبه بندی بستگی به داده های تهیه شده و در دسترس دارد.

مدل برازش لجستیک

اجرای مدل های رگرسیون و به طور ویژه رگرسیون خطی برای مفاهیم علمی رواج بسیاری دارد، اما باید توجه داشت که استفاده از رگرسیون خطی زمانی مجاز است که متغیر وابسته، کمی باشد.
اغلب گفته می شود که متغیرهای مستقل نیر باید کمی باشند، اما ترکیبی از متغیرهای فاصه ای و ترتیبی نیز مجاز شمرده شده است. البته چنانچه برخی از متغیرها اسمی باشند باید به صورت متغیرهای مجازی دو وجهی با کدهای 0 و 1 آورده شوند.
در این صورت مدل رگرسیون مورد استفاده قدری متفاوت بوده و با نام رگرسیون لجستیک شناخته می شود. در حالتی که متغیر وابسته بیش از دو طبقه با رده داشته باشد، همانند اعتبار مشتری در این کار که شامل رده های خوش حساب، سررسید، معوق و مشکوک الوصول است، مدل برازش لجستیک چندگانه استفاده می شود.
در روش اشاره شده، مدل توسط رویه تکراری حداکثر درستنمایی ساخته می شود. در ابتدا مقادیر اختیاری برای ضرایب رگرسیون در نظر گرفته می شوند و مدل اولیه ساخته می شود. با پیش بینی داده های مشاهده شده براساس این مدل، خطاها بررسی شده و ضرایب رگرسیون طوری اصلاح می شوند که درست نمایی مدل جدید بهتر از مدل قبلی باشد. این رویه تا همگرایی مدل تکرار می شود، یعنی تا زمانی که درستنمایی دو مدل متوالی تفاوت چندانی نداشته باشد.

داده ها و اطلاعات مورد استفاده در مدل

جامعه آماری در این تحقیق، مشتریان حقیقی حدود 12 شعبه بانک رفاه کارگران در استان تهران مشتمل بر پرونده های حدود 360 مشتری حقیقی است. برای دستیابی به اطلاعات و داده های مورد نیاز در این پژوهش، پرسشنامه ای طراحی و تعریف شد که پس از بررسی و اظهارنظر توسط همکاران مدیریت ریسک و پژوهش بانک رفاه به شکل نهایی تدوین شد.
در این مطالعه، متغیر وابسته اعتبار مشتریان حقیقی بود که دارای چهار رده مختلف شامل: خوش حساب، سر رسید گذشته، معوق و مشکوک الوصول است. متغیرهای مستقل مهم مورد استفاده در این کار نیز طیف وسیعی از اطلاعات شخصی و مالی بیشتر است که اکثر آن ها متغیرهای پیوسته و عددی بوده و شامل: جنسیت، سطح تحصیلات، سن، متوسط درآمد ماهیانه، وضعیت تاهل، شغل، وضعیت ملکیت منزل، شغل همسر، مبلغ تسهیلات (درخواست)، نرخ بهره، ارزش وثیقه و تعداد اقساط است.
قابلیت پایانی پرسشنامه با استفاده از ضریب آلفای کرونباخ سنجیده شد. با لحاظ کردن همه متغیرها مقدار این ضریب 0.631 و با حذف دو متغیر شغل همسر و وضعیت ملکیت، 0.699 به دست آمد.
خلاصه آماری متغیرهای مورد استفاده در این کار آورده شده است. داده ها در این مطالعه به دو دسته آموزش و آزمایش تقسیم شدند. حدود 75 درصد داده ها برای ساخت مدل برازش (آموزش) و مابقی برای ارزیابی و تست مدل (آزمایش) مورد استفاده قرار گرفته اند.

مقایسه مدل بهینه رگرسیون لجستیک چندگانه و باینری برای رتبه بندی اعتباری مشتریان حقیقی بانک رفاه کارگران
https://www.sid.ir/fa/journal/ViewPaper.aspx?ID=356950