فرایند یادگیری و تعیین پارامترهای شبکه
برای بررسی عملکرد شبکه عصبی باید داده ها به طور تصادفی به دو گروه مجزا شامل مجموعه یادگیری و مجموعه آزمایشی تقسیم شوند. برای این که یک مدل شبکه عصبی به خوبی آموزش ببیند، لازم است که برای یادگیری شبکه از نمونه ای استفاده کنیم که نماینده تمام جامعه تحت بررسی باشد.
همان طور که در مقاله قبل به آن اشاره کردیم، برای یادگیری از یک نمونه 400 تایی شامل متقاضیان خوب و بد استفاده می کنیم.
همچنین برای این که شبکه به طور موثر آموزش ببیند در کنار یک نمونه یادگیری خوب، تصمیم گیری در مورد ساختار شبکه عصبی و تعداد نرون ها در لایه ورودی، خروجی و میانی ضروری است.
تعداد نرون ها در لایه ورودی به سادگی برابر با تعداد متغیرها در مجموعه داده هایی است که ورودی شبکه را تشکیل می دهند. با توجه به هدف تحقیق که طبقه بندی متقاضیان به دو گروه است، یک نرون در لایه خروجی به کار گرفته می شود که دو کد مختلف را به متقاضیان خوب و بد اختصاص می دهد .
مدل آنالیز ممیزی
آنالیز ممیزی، اولین بار توسط فیشر (1930) به عنوان روشی برای ممیزی و طبقه بندی پیشنهاد و پس از آن در علوم مختلف به کار گرفته شد.
این روش قدیمی ترین روش آماری مورد استفاده در رتبه بندی اعتباری است. آنالیز ممیزی شامل ترکیب خطی از دو یا چند متغیر مستقل است که بهترین تمایز را بین طبقات از قبل تعیین شده، ایجاد می کند.
این تقسیم بندی با استفاده از قاعده تصمیم گیری آماری حداکثر کردن واریانس بین طبقات به واریانس درون طبقات بیان می شود.
در اینجا هدف تقسیم بندی متقاضیان وام به دو طبقه خوب و بد، براساس ویژگی های افراد و بر پایه امتیازهای ممیزی به دست آمده از مدل است. فرض های در نظر گرفته شده برای به دست آوردن تابع ممیزی، فرض توزیع نرمال چند متغیره برای متغیرها و ساختار ماتریس کوواریانس نامعلوم اما برابر برای طبقات است. برای آشنایی بیشتر با آنالیز ممیزی می توان به جانسون و ویچرن (1998) مراجعه کرد.
مدل رگرسیون لجستیک
مدل رگرسیون لجستیک از جمله روش های آماری مورد استفاده برای طبقه بندی متقاضیان است که نخستین بار توسط ویگینتون (1980) در
رتبه بندی اعتباری مورد استفاده قرار گرفت. در این روش متغیر پاسخ به صورت دو حالتی (رتبه ای) است و احتمالات مربوط به پاسخ های رتبه ای از طریق مدل زیر به متغیرهای مستقل مرتبط می شوند.
در رتبه بندی اعتباری، متغیر پاسخ رتبه ای شامل دو حالت بد بودن و خوب بودن اعتبار متقاضی و احتمال بد بودن اعتبار یک متقاضی است. برای آشنایی بیشتر با مدل های رگرسیون لجستیک می توان به آگرستی (1996) مراجعه نمود.
نتایج رتبه بندی اعتباری با مدل های شبکه عصبی، آنالیز ممیزی و رگرسیون لجستیک
نتایج مربوط به تجزیه و تحلیل داده ها با استفاده از شبکه عصبی پرسپترون سه لایه ای آمده است. بعد از یادگیری، شبکه 74.6 تا 76.7 درصد از متقاضیان خوب و 79.5 تا 81.7 درصد از متقاضیان بد را به درستی طبقه بندی کرده است.
متوسط دقت طبقه بندی در بین پنج نمونه یادگیری مختلف برای مشتریان خوب و بد به ترتیب 80 و 80.7 درصد است. متوسط دقت کلی طبقه بندی در مرحله یادگیری 80.3 است.
اما همانگونه که پیش از این اشاره شد، از خطای به دست آمده در مرحله آزمایش، به عنوان برآورد خطای واقعی مدل استفاده می کنیم. برای نمونه های آزمایشی کوچک (نمونه های 100 تایی)، مدل شبکه عصبی، دقت طبقه بندی بین 73.2 تا 80.4 درصد برای متقاضیان خوب و دقت بین 75.4 تا 81.8 درصد را برای متقاضیان بد، به دست آمده است.
در این مرحله، متوسط دقت طبقه بندی به دست آمده برای مشتریان خوب و بد به ترتیب 77.7 و 77.8 درصد است. دقت طبقه بندی کلی مدل نیز بین 77.8 تا 83.2 درصد در بین پیج زیر نمونه آزمایشی مختلف تغییر می کند. متوسط دقت کلی طبقه بندی برابر 77.8 است. نتایج مریج مربوط به مرحله آزمایش شبکه با استفاده از نمونه های آزمایشی ارائه شده است.
در ادامه، نتایج مربوط به رتبه بندی بر اساس مدل های آمالیز ممیزی و رگرسیون لجستیک ارائه می شود. نتایج مدل ممیزی و درصد متقاضیان به درستی طبقه بندی شده را برای 5 زیر نمونه مختلف در نمونه های یادگیری، نشان می دهد.
نتایج طبقه بندی و نیز تعداد نمونه در هر یک از گروه ها برای نمونه های آزمایشی کوچک آمده است. با توجه به نتایج به دست آمده در نمونه های آزمایشی، مدل آنالیز از دقت طبقه بندی بین 64.3 تا 75.5 درصد با میانگین 71.2 برای متقاضیان خوب و 61.7 تا 77.3 درصد با میانگین 68.2 برای متقاضیان بد برخوردار است.
دقت طبقه بندی کلی مدل نیز از 68.0 تا 71.0 درصد در بین پیج زیر نمونه آزمایشی مختلف متغیر است. نتایج نشان می دهد که دقت این مدل در طبقه بندی برای هر دو گروه متقاضیان خوب و بد در مقایسه با مدل شبکه عصبی پرسپترون سه لایه ای در سطح پایین تری قرار دارد.
نتایج طبقه بندی رگرسیون لجستیک و درصد متقاضیان را که به درستی طبقه بندی شده اند، برای پنج زیر نمونه یادگیری مختلف، نشان می دهد.
نتایج، دقت بین 66.1 تا 76.7 درصد را برای متقاضیان خوب و 65.3 تا 77.4 درصد را برای متقاضیان بد نشان می دهد. دقت طبقه بندی کلی مدل نیز از مدل 68.0 تا 71.0 درصد در بین پیج زیر نمونه آزمایشی مختلف متغیر است. متوسط دقت طبقه بندی به دست آمده برای متقاضیان خوب و بد به ترتیب 68.9 و 71.1 درصد است. همچنین متوسط دقت کلی برای نمونه های 100 تایی برابر 70 درصد است.
مقایسه دقت عملکرد مدل شبکه عصبی با برخی دیگر از مدل های آماری
در این بخش، برای بررسی اختلاف های آماری معنی دار موجود بین دقت عملکرد سه مدل شبکه عصبی، آنالیز ممیزی و رگرسیون لجستیک در مراحل یادگیری و آزمایش طبقه بندی متقاضیان وام، از تحلیل واریانس یک طرفه و سپس آزمون مقایسات زوجی توکی استفاده کرده ایم.
میانگین دقت طبقه بندی در هر یک از 5 زیر گروه به تفکیک متقاضیان خوب، متقاضیان بد و کل متقاضیان به عنوان متغیر وابسته (پاسخ) در نظر گرفته شد. لذا تحلیل واریانس با 5 تکرار انجام شده است.
به ترتیب نتایج آزمون انجام شده در سطح معنی داری 0.05 برای نمونه های مراحل یادگیری و آزمایشی را نشان می دهد. مقادیر آماره آزمون و سطح معنی داری هر آزمون در دو ردیف آخر جداول ارائه شده اند. نتایج این جداول نشان دهند وجود اختلاف معنی دار بین سه مدل برای متقاضیان خوب، بد و کل متقاضیان در نمونه های یادگیری و آزمایشی می باشد.
در ادامه، به منظور سهولت در مقایسه به دو عملکرد مدل ها، سه مدل شبکه عصبی، آنالیز ممیزی و رگرسیون لجستیک به ترتیب با حروف a , b , c نشان داده شده اند. ستون های جداول، مقدار میانگین و انحراف استاندارد از میانگین را برای هر کدام از مدل ها در مراحل یادگیری و آزمایش نشان می دهند.
برای نشان دادن وجود اختلاف معنی دار در سطح 0.05 بین دو مدل در هر جدول، از همین حروف استفاده شده است. به عنوان مثال در جدول نمایش حرف b در ستون دوم و مقابل مدل شبکه عصبی a، بیانگر این است که بین دقت طبقه بندی دو مدل شبکه عصبی و آنالیز ممیزی، در مرحله یادگیری، در سطح معنی داری 0.05 اختلاف معنی دار وجود دارد.
جدول 9 نتایج آزمون های انجام شده در سطح معنی داری 0.05 برای نمونه های یادگیری را نشان می دهد.
با توجه به نتایج جدول 9 در مرحله یادگیری، بین دقت طبقه بندی مدل شبکه عصبی با دو مدل دیگر اختلاف معنی دار وجود دارد. نتایج آزمون توکی، نشان می دهد که مدل شبکه عصبی در طبقه بندی متقاضیان خوب نسبت به مدل های آنالیز ممیزی و رگرسیون لجستیک از عملکرد بهتری برخوردار بوده و بین میانگین دقت طبقه بندی مدل شبکه عصبی در بین 5 نمونه یادگیری با دو مدل دیگر اختلاف معنی داری دارد.
در مورد متقاضیان بد نیز دقت طبقه بندی مدل شبکه عصبی به طور معنی داری بالاتر از دقت طبقه بندی دو مدل دیگر است.
دقت طبقه بندی کلی مدل شبکه عصبی 80.32 به دست آمده است که به طور معنی داری بالاتر از دقت طبقه بندی مدل های رگرسیون لجستیک و آنالیز ممیزی است. به علاوه، اختلاف آماری معنی داری بین دقت طبقه بندی مدل های آنالیز ممیزی و رگرسیون لجستیک در شناسایی متقاضیان خوب و بد مشاهده نمی شود.
نتایج مربوط به مقایسه عملکرد سه مدل را در نمونه های آزمایشی 100 تایی نشان می دهد. برای نمونه های آزمایشی، دقت طبقه بندی مدل شبکه عصبی برای متقاضیان خوب برابر با 77.86 درصد است که به طور معنی داری بالاتر از دقت طبقه بندی دو مدل آنالیز ممیزی و رگرسیون لجستیک است.
در شناساسیی و طبقه بندی متقاضیان بد نیز مدل شبکه عصبی از دقتی معادل 77.98 درصد برخوردار است که به طور معنی داری از دقت طبقه بندی دو مدل دیگر بالاتر است. دقت طبقه بندی کلی مدل شبکه عصبی 78 درصد است که باز هم اختلاف معنی داری با دو مدل دیگر نشان می دهد.
در این مرحله نیز بین عملکرد دو مدل رگرسیون لجستیک و آنالیز ممیزی، در شناسایی متقاضیان خوب و بد اختلاف معنی داری مشاهده نمی شود.
خلاصه و نتیجه گیری
در این تحقیق، یک مدل شبکه عصبی پرسپترون چند لایه ای برای طبقه بندی متقاضیان وام فروش اقساطی پیشنهاد و دقت این مدل را در برابر مدل های آنالیز ممیزی و رگرسیون لجستیک ارزیابی کرده ایم.
برای بررسی کارایی هر سه مدل، نمونه اصلی شامل 500 متقاضی دریافت وام را به پنج زیر نمونه صدتایی دو به دو مجزا تقسیم و هر یک از این مدل ها را به وسیله یک نمونه 400 تایی طراحی کردیم و با استفاده از یک نمونه 100 تایی و سپس با استفاده از کل نمونه مورد آزمایش قرار دادیم.
نتایج تحقیق نشان داد که مدل پرسپترون سه لایه، به طور معنی داری در شناسایی متقاضیان، عملکرد بهتری از خود نشان می دهد . با مقایسه نتایج به دست آمده، می توان گفت که مدل های شبکه عصبی یک جایگزین مناسب برای سایر روش های طبقه بندی هستند. برای ادعای این گفته، در زیر به چند مورد از برتری ها و نقاط قول شبکه های عصبی اشاره می کنیم.
مدل های شبکه عصبی می توانند در یک روش تطابق پذیر به وسیله تعدیل وزن های شبکه و نوع یادگیری اصلاح شوند. بنابراین شبکه های عصبی این قابلیت را دارند که به سرعت در مقابل تغییر در داده های واقعی و به عبارتی تغییر متقاضیان اعتبار پاسخگو باشند.
یک شبکه عصبی، هیچ گونه فرضی درباره توزیع احتمالی و یا یکسان بودن پراکندگی در مجموعه داده ها لحاظ نمی کند. به علاوه محدودیت جدی در مورد استفاده از تابع های ورودی و خروجی در یک شبکه عصبی وجود ندارد و در ضمن الگوریتم های یادگیری مستقل از تعداد ورودی ها عمل می کنند.
با استفاده از شبکه های عصبی، نیازی نیست که ابتدا تحلیلی از مسئله و یا ساختار درونی سیستم داشته باشیم. بنابراین مدل های شبکه عصبی نسب به روش های آماری مرسوم، نیرومندتر و انعطاف پذیرتر هستند.
در کنار این ها دسترس ساده به نم افزارهای شبکه عصبی نظیر، تجزیه و تحلیل داده ها با استفاده از شبکه های عصبی را امکان پذیر می سازد. شبکه های عصبی به عنوان یک ابزار پیش بینی از توانایی و پتانسیل بالایی برخوردارند.
بنابراین به کارگیری شبکه های عصبی تلفیق یافته با روش های آماری برای رسیدگی به مشکلات مالی، با احتمال زیاد فرصت های سودمندی را فراهم خواهد کرد.
کاربرد شبکه هاي عصبي در رتبه بندي اعتباري فروش اقساطي متقاضيان وام
https://www.sid.ir/fa/journal/ViewPaper.aspx?ID=74663