صفحه محصول - مبانی نظری و پیشینه تحقیق داده کاوی 3

توضیحات

مبانی نظری و پیشینه تحقیق داده کاوی 3 (docx) 1 صفحه

دسته بندی : تحقیق

نوع فایل : Word (.docx) ( قابل ویرایش و آماده پرینت )

تعداد صفحات: 1 صفحه

قسمتی از متن Word (.docx) :

واحد بین الملل 176784052832000 17202158509000 تقدیم به همسرمهربان و فداکارم که در تمام مراحل زندگی، یار و یاورم بوده اند و مرا در سخت ترین شرایط تحصیل علم ذره ای تنها نگذاشته اند و مدام طی کردن پله های ترقی را برایم آسان نموده است. تقدیم به مادرم که همیشه خواستار سلامتی و مشتاق دیدن پیشرفت های فرزندانش بوده است. تقدیم به پدرم، خواهرانم و برادرانم که همیشه مشوق و مهیا کننده شرایط تحصیلم بوده اند. این نوشتار حاصل تلاشی برگرفته از قلوب پرمهر و عطوفت شما بوده است و اکنون به عنوان دارایی معنوی و علمی ام هرچند که درمقابل وسعت روح شما ناچیز است به شما تقدیم می گردد. سپاسگزاری اکنون که این رساله با توفیقات خداوند متعال به پایان رسیده است از استاد ارجمند جناب آقای دکتر غلامحسین دستغیبی فرد که با راهنمایی های متعهدانه مرا در انجام این رساله یاری نموده اند کمال تشکر را دارم. همچنین از اساتید محترم جناب آقای دکتر اشکان سامی و جناب آقای دکتر سیدمصطفی فخراحمد که به عنوان اساتید مشاور و داور این رساله ازمساعدت ایشان بهره مند بوده ام صمیمانه تشکر و قدردانی می نمایم. همچنین از ریاست اداره آمار و اتکایی شرکت سهامی بیمه ایران جناب آقای محمد حضرتی اسطلخ کوهی که با در اختیار قراردادن امکانات لازم اینجانب را در انجام این تحقیق یاری نموده اند و آقای مهندس بابک فولادی نیا که درانجام بخش های عملی پایان نامه و نگارش این رساله مشاورات فراوانی را به اینجانب ارائه کرده اند نیز قدردانی می نمایم. 1634490398272000 فهرست مطالب عنوان صفحه فصل اول: مقدمه TOC \o "1-3" \h \z \u 1-1تعریف داده کاوی PAGEREF _Toc522527637 \h 2ادبیات موضوع و تحقیقات پیشین PAGEREF _Toc522527638 \h 42-1داده کاوی و یادگیری ماشین PAGEREF _Toc522527639 \h 52-2ابزارها و تکنیک های داده کاوی PAGEREF _Toc522527640 \h 62-3روشهای داده کاوی PAGEREF _Toc522527641 \h 72-3-1روشهای توصیف داده ها PAGEREF _Toc522527642 \h 82-3-2روشهای تجزیه و تحلیل وابستگی PAGEREF _Toc522527643 \h 82-3-3روشهای دسته بندی و پیشگویی PAGEREF _Toc522527644 \h 82-3-4درخت تصمیم PAGEREF _Toc522527645 \h 92-3-5-شبکه عصبی PAGEREF _Toc522527646 \h 102-3-6- استدلال مبتنی بر حافظه PAGEREF _Toc522527647 \h 102-3-7-ماشین های بردار پشتیبانی PAGEREF _Toc522527648 \h 112-3-8-روشهای خوشه بندی PAGEREF _Toc522527649 \h 112-3-9- روش K-Means PAGEREF _Toc522527650 \h 122-3-10-شبکه کوهنن PAGEREF _Toc522527651 \h 122-3-11-روش دو گام PAGEREF _Toc522527652 \h 122-3-12-روشهای تجزیه و تحلیل نویز PAGEREF _Toc522527653 \h 132-4دسته های نامتعادل]صنیعی آباده 1391[. PAGEREF _Toc522527654 \h 132-4-1راهکار مبتنی بر معیار PAGEREF _Toc522527655 \h 132-4-2-راهکار مبتنی بر نمونه برداری PAGEREF _Toc522527656 \h 142-5پیشینه تحقیق PAGEREF _Toc522527657 \h 152-6خلاصه فصل PAGEREF _Toc522527658 \h 18منابع و مأخذ PAGEREF _Toc522527659 \h 20منابع فارسی PAGEREF _Toc522527660 \h 20منابع انگلیسی PAGEREF _Toc522527661 \h 21 تعریف داده کاوی XE "تعریف داده کاوی" XE "تعریف داده کاوی" داده کاوی روند کشف قوانین و دانش ناشناخته و مفید از انبوه داده ها و پایگاه داده است[ Liu et. al 2012]. انجام عمل داده کاوی نیز مانند هر عمل دیگری مراحل خاص خود را دارد که به شرح زیر می باشند: 1-جدا سازی داده مفید از داده بیگانه 2-یکپارچه سازی داده های مختلف تحت یک قالب واحد 3-انتخاب داده لازم از میان دیگر داده ها 4- انتقال داده به محیط داده کاوی جهت اکتشاف قوانین 5-ایجاد مدلها و الگوهای مرتبط بوسیله روشهای داده کاوی 6-ارزیابی مدل و الگوهای ایجاد شده جهت تشخیص مفید بودن آنها 7-انتشار دانش استخراج شده به کاربران نهایی فصل دوم ادبیات موضوع و تحقیقات پیشین داده کاوی و یادگیری ماشین داده کاوی ترکیبی از تکنیک های یادگیری ماشین، تشخیص الگو، آمار، تئوری پایگاه داده و خلاصه کردن و ارتباط بین مفاهیم و الگوهای جالب به صورت خودکار از پایگاه داده شرکتهای بزرگ است. هدف اصلی داده کاوی کمک به فرآیند تصمیم گیری از طریق استخراج دانش از داده هاست [Alpaydin 2010]. هدف داده کاوی آشکار کردن روندها یا الگوهایی که تا کنون ناشناخته بوده اند برای گرفتن تصمیمات بهتر است که این هدف را بوسیله به کارگیری روشهای آماری همچون تحلیل لجستیک و خوشه بندی و همچنین با استفاده از روشهای تحلیل داده به دست آمده از رشته های دیگر )همچون شبکه های عصبی در هوش مصنوعی و درختان تصمیم در یادگیری ماشین( انجام میدهد[Koh & Gervis 2010] . چون ابزارهای داده کاوی روند ها و رفتارهای آینده را توسط رصد پایگاه داده ها برای الگوهای نهان پیش بینی می کند با عث می شوند که سازمان ها تصمیمات مبتنی بر دانش گرفته و به سوالاتی که پیش از این حل آنها بسیار زمان بر بود پاسخ دهند [Ramamohan et. al 2012 ] . داده کاوی یک ابزار مفید برای کاوش دانش از داده حجیم است. [Patil et. al 2012 ]. داده کاوی یافتن اطلاعات بامعنای خاص ازیک تعداد زیادی ازداده بوسیله بعضی ازفناوری ها به عنوان رویه ای برای کشف دانش ازپایگاه داده است، که گام های آن شامل موارد زیر هستند [Han and Kamber 2001] . 1-پاک سازی داده ها :حذف داده دارای نویز و ناسازگار 2-یکپارچه سازی داده: ترکیب منابع داده گوناگون 3-انتخاب داده: یافتن داده مرتبط با موضوع از پایگاه داده 4-تبدیل داده: تبدیل داده به شکل مناسب برای کاوش 5-داده کاوی: استخراج مدل های داده با بهره گیری از تکنولوژی 6- ارزیابی الگو: ارزیابی مدل هایی که واقعا برای ارائه دانش مفید هستند 7-ارائه دانش: ارائه دانش بعد ازکاوش به کاربران بوسیله استفاده از تکنولوژیهایی همچون ارائه بصری [Lin & Yeh 2012] . ابزارها و تکنیک های داده کاوی با توجه به تنوع حجم و نوع داده ها، روش های آماری زیادی برای کشف قوانین نهفته در داده ها وجود دارند. این روش ها می توانند با ناظر یا بدون ناظر باشند. [Bolton & Hand 2002] در روش های با ناظر، نمونه هایی از مواردخسارتی موجود است و مدلی ساخته می شود که براساس آن، خسارتی یا غیر خسارتی بودن نمونه های جدید مشخص می شود. این روش جهت تشخیص انواع خسارت هایی مناسب است که از قبل وجود داشته اند]فولادی نیا و همکاران 1392[ . روش های بدون ناظر، به دنبال کشف نمونه هایی هستند که کمترین شباهت را با نمونه های نرمال دارند. برای انجام فعالیت هایی که در هر فاز داده کاوی باید انجام شود از ابزارها و تکنیک های گوناگونی چون الگوریتمهای پایگاه داده، تکنیکهای هوش مصنوعی، روشهای آماری، ابزارهای گرافیک کامپیوتری و مصور سازی استفاده می شود. هر چند داده کاوی لزوما به حجم داده زیادی بعنوان ورودی نیاز ندارد ولی امکان دارد در یک فرآیند داده کاوی حجم داده زیادی وجود داشته باشد. در اینجاست که از تکنیک ها وابزارهای پایگاه داده ها مثل نرمالسازی، تشخیص و تصحیح خطا و تبدیل داده ها بخصوص در فازهای شناخت داده و آماده سازی داده استفاده می شود. همچنین تقریبا در اکثرفرآیند های داده کاوی از مفاهیم، روشها و تکنیک های آماری مثل روشهای میانگین گیری )ماهیانه، سالیانه و . . . (، روشهای محاسبه واریانس و انحراف معیار و تکنیک های محاسبه احتمال بهره برداری های فراوانی می شود. یکی دیگر از شاخه های علمی که به کمک داده کاوی آمده است هوش مصنوعی می باشد. هدف هوش مصنوعی هوشمند سازی رفتار ماشینها است. می توان گفت تکنیک های هوش مصنوعی بطور گسترده ای در فرآیند داده کاوی به کار می رود بطوریکه بعضی از آماردانها ابزارهای داده کاوی را بعنوان هوش آماری مصنوعی معرفی می کنند. قابلیت یادگیری بزرگترین فایده هوش مصنوعی است که بطور گسترده ای در داده کاوی استفاده می شود. تکنیک های هوش مصنوعی که در داده کاوی بسیار زیاد مورد استفاده قرار می گیرند عبارتند از شبکه های عصبی، روشهای تشخیص الگوی یادگیری ماشین و الگوریتمهای ژنتیک ونهایتا تکنیک ها و ابزارهای گرافیک کامپیوتری و مصور سازی که بشدت در داده کاوی بکار گرفته می شوند و به کمک آنها می توان داده های چند بعدی را به گونه ای نمایش داد که تجزیه وتحلیل نتایج برای انسان براحتی امکان پذیر باشد [Gupta 2006]. روشهای داده کاوی عمده روشهای داده کاوی عبارتند از روشهای توصیف داده ها، روشهای تجزیه و تحلیل وابستگی، روشهای دسته بندی و پیشگویی، روشهای خوشه بندی، روشهای تجزیه و تحلیل نویز. می توان روش های مختلف کاوش داده را در دو گروه روش های پیش بینی و روش های توصیفی طبقه بندی نمود. روش های پیش بینی در متون علمی به عنوان روش های با ناظر نیزشناخته می شوند. روش های دسته بندی، رگرسیون و تشخیص انحراف از روشهای یادگیری مدل در داده کاوی با ماهیت پیش بینی هستند. در الگوریتم های دسته بندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه داده های آموزشی و مجموعه داده های آزمایشی تقسیم می شود که با استفاده از مجموعه داده های آموزشی مدل ساخته می شود و از مجموعه داده های آزمایشی برای اعتبار سنجی و محاسبه دقت مدل ساخته شده استفاده می شود. هررکورد شامل یک مجموعه ویژگی است. یکی از ویژگی ها، ویژگی دسته نامیده می شود و در مرحله آموزش براساس مقادیر سایر ویژگی ها برای مقادیر ویژگی دسته، مدل ساخته می شود. روشهای توصیفی الگوهای قابل توصیفی را پیدا میکنند که روابط حاکم بر داده ها را بدون در نظرگرفتن هرگونه برچسب و یا متغیرخروجی تبیین نمایند. درمتون علمی روشهای توصیفی با نام روشهای بدون ناظر نیز شناخته می شوند ]صنیعی آباده 1391[. روشهای توصیف داده ها هدف این روشها ارائه یک توصیف کلی از داده هاست که معمولا به شکل مختصر ارائه می شود. هر چند توصیف داده ها یکی از انواع روشهای داده کاوی است ولی معمولا هدف اصلی نیست واغلب از این روش برای تجزیه و تحلیل نیاز های اولیه و شناخت طبیعت داده ها و پیدا کردن خصوصیات ذاتی داده ها یا برای ارائه نتایج داده کاوی استفاده می شود [Sirikulvadhana 2002] . روشهای تجزیه و تحلیل وابستگی هدف این روشها پیدا کردن ارتباطات قابل توجه بین تعداد زیادی از متغیر ها یا صفات می باشد[Gupta 2006] . یکی از روشهای متداول برای کشف قواعد وابستگی مدل Apriori است که نسبت به سایر مدلهای کشف قواعد وابستگی سریعتر بوده و محدودیتی از نظر تعداد قواعد ندارد [Xindong et al 2007] . کاوش قواعد تلازمی یکی از محتواهای اصلی تحقیقات داده کاوی در حال حاضر است و خصوصا بر یافتن روابط میان آیتم های مختلف در پایگاه داده تاکید دارد [Patil et. al 2012] . سه مدل CARMA و GRI و Fpgrowth سه الگوریتم دیگر از قواعد وابستگی هستند. روشهای دسته بندی و پیشگویی دسته بندی یک فرآیند یافتن مدل است که برای بخش بندی داده به کلاس های مختلف برطبق بعضی محدودیت ها استفاده شده است. به بیان دیگر ما می توانیم بگوییم که دسته بندی یک فرآیند تعمیم داده بر طبق نمونه های مختلف است. چندین نمونه اصلی الگوریتم های طبقه بندی شامل C4. 5 ، K نزدیکترین همسایه، بیز ساده و SVM است [Kumar and Verna 2012]. یکی از این نوع الگوریتم ها نظریه بیز می باشد. این دسته بند از یک چارچوب احتمالی برای حل مساله استفاده می کند. یک رکورد مفروض با مجموعه ویژگی های (A1, A2…. An) را درنظر بگیرید. هدف تشخیص دسته این رکورد است. در واقع از بین دسته های موجود به دنبال دسته ای هستیم که مقدارP(C|A1, A2…. An) را بیشینه کند. پس این احتمال را برای تمامی دسته های موجود محاسبه کرده و دسته ای که این احتمال به ازای آن بیشینه شود را به عنوان دسته رکورد جدید در نظر می گیریم. PCA=PAC PCPA رگرسیون نیز نوع دیگری از این الگوریتم ها است. پیش بینی مقدار یک متغیر پیوسته بر اساس مقادیر سایر متغیرها بر مبنای یک مدل وابستگی خطی یا غیر خطی رگرسیون نام دارد. درواقع یک بردار X داریم که به یک متغیر خروجی y نگاشت شده است. هدف محاسبه y یا همان F(X) است که از روی تخمین تابع مقدار آن محاسبه می شود. درخت تصمیم درخت تصمیم از ابزارهای داده کاوی است که در رده بندی داده های کیفی استفاده می شود. در درخت تصمیم، درخت کلی به وسیله خرد کردن داده ها به گره هایی ساخته می شود که مقادیری از متغیر ها را در خود جای می دهند. با ایجاد درخت تصمیم بر اساس داده های پیشین که رده آنها معلوم است، می توان داده های جدید را دسته بندی کرد. روش درخت تصمیم به طور کلی برای دسته بندی استفاده می شود، زیرا یک ساختار سلسله مراتبی ساده برای فهم کاربر و تصمیم گیری است. الگوریتم های داده کاوی گوناگونی برای دسته بندی مبتنی بر شبکه عصبی مصنوعی، قوانین نزدیکترین همسایگی و دسته بندی بیزین در دسترس است اما درخت تصمیم یکی از ساده ترین تکنیک هاست [Patil et. al 2012] . از انواع درخت های تصمیم می توان C4. 5 و C5 و Meta Decision Tree و Random Forest وJ48 را نام برد. 2-3-5-شبکه عصبی روش پرکاربرد دیگر در پیشگویی نتایج استفاده از شبکه های عصبی می باشد. شبکه های عصبی مدل ساده شده ای است که بر مبنای عملکرد مغز انسان کار می کند. اساس کار این شبکه شبیه سازی تعداد زیادی واحد پردازشی کوچک است که با هم در ارتباط هستند. به هریک از این واحد ها یک نرون گفته می شود. نرون ها بصورت لایه لایه قرار دارند و در یک شبکه عصبی معمولا سه لایه وجود دارد [Gupta 2006] . اولین لایه )لایه ورودی ( ، دومین )لایه نهان (و سومین )لایه خروجی (. لایه نهان می تواند متشکل از یک لایه یا بیشتر باشد [Pradhan et. al 2011 ] . 2-3-6- استدلال مبتنی بر حافظه توانایی انسان در استدلال براساس تجربه، به توانایی او در شناخت و درک نمونه های مناسبی که مربوط به گذشته است، بستگی دارد. افراد در ابتدا تجارب مشابهی که در گذشته داشته را شناسایی و سپس دانشی که از آن ها کسب کرده است را برای حل مشکل فعلی به کار می گیرند. این فرآیند اساس استدلال مبتنی بر حافظه است. یک بانک اطلاعاتی که از رکوردهای شناخته شده تشکیل شده است مورد جستجو قرار می گیرد تارکوردهای از قبل طبقه بندی شده و مشابه با رکورد جدید یافت شود. از این همسایه ها برای طبقه بند ی و تخمین زدن استفاده می شود. KNN یک نمونه از این الگوریتم هاست. فرض کنید که یک نمونه ساده شده با یک مجموعه از صفت های مختلف وجود دارد، اما گروهی که این نمونه به آن متعلق است نامشخص است. مشخص کردن گروه می تواند از صفت هایش تعیین شود. الگوریتم های مختلفی می تواند برای خودکار سازی فرآیند دسته بندی استفاده بشود. یک دسته بند نزدیک ترین همسایه یک تکنیک برای دسته بندی عناصر است مبتنی بردسته بندی عناصر در مجموعه آموزشی که شبیه تر به نمونه آزمایشی هستند. باتکنیک Kنزدیکترین همسایه، این کار با ارزیابی تعداد K همسایه نزدیک انجام می شود. [Tan et al 2006] . تمام نمونه های آموزشی در یک فضای الگوی چند بعدی ذخیره شده اند. وقتی یک نمونه ناشناخته داده می شود، یک دسته بند نزدیکترین همسایه در فضای الگو برای K نمونه آموزشی که نزدیک به نمونه ناشناخته هستند جستجو می کند. نزدیکی بر اساس فاصله اقلیدسی تعریف می شود [Wilson and Martinez 1997] . 2-3-7-ماشین های بردار پشتیبانی SVM اولین بار توسط Vapnik در سال 1990 معرفی شد و روش بسیار موثری برای رگرسیون و دسته بندی و تشخیص الگو است [Ristianini and Shawe 2000] . SVM به عنوان یک دسته بند خوب در نظر گرفته می شود زیرا کارایی تعمیم آن بدون نیاز به دانش پیشین بالاست حتی وقتیکه ابعاد فضای ورودی بسیار بالاست. هدف SVM یافتن بهترین دسته بند برای تشخیص میان اعضای دو کلاس در مجموعه آموزشی است [Kumar and Verna 2012] . رویکرد SVM به این صورت است که در مرحله آموزش سعی دارد مرز تصمیم گیری را به گونه ای انتخاب نماید که حداقل فاصله آن با هر یک از دسته های مورد نظر را بیشینه کند. این نوع انتخاب مرز بر اساس نقاطی بنام بردارهای پشتیبان انجام می شوند. 2-3-8-روشهای خوشه بندی هدف این روشها جداسازی داده ها با خصوصیات مشابه است. تفاوت بین دسته بندی و خوشه بندی این است که در خوشه بندی از قبل مشخص نیست که مرز بین خوشه ها کجاست و برچسبهای هر خوشه از پیش تعریف شده است ولی در دسته بندی از قبل مشخص است که هر دسته شامل چه نوع داده هایی می شود و به اصطلاح برچسب های هر دسته از قبل تعریف شده اند. به همین دلیل به دسته بندی یادگیری همراه با نظارت و به خوشه بندی یادگیری بدون نظارت گفته می شود [Osmar 1999] . 2-3-9- روش K-Means یکی از روش های خوشه بندی مدل K-Means است که مجموعه داده ها را به تعدادثابت و مشخصی خوشه، خوشه بندی می کند. روش کار آن به این صورت است که تعداد ثابتی خوشه در نظر میگیرد و رکوردها را به این خوشه ها اختصاص داده و مکرراً مراکز خوشه ها را تنظیم می کند تا زمانیکه بهترین خوشه بندی بدست آید[Xindong et al 2007]. 2-3-10-شبکه کوهنن شبکه کوهنن نوعی شبکه عصبی است که در این نوع شبکه نرون ها در دو لایه ورودی و خروجی قرار دارند و همه نرون های ورودی به همه نرون های خروجی متصل اندو این اتصالات دارای وزن هستند. لایه خروجی در این شبکه ها بصورت یک ماتریس دو بعدی چیده شده و به آن نقشه خروجی گفته می شود. مزیت این شبکه نسبت به سایر انواع شبکه های عصبی این است که نیاز نیست دسته یا خوشه داده ها از قبل مشخص باشد، حتی نیاز نیست تعداد خوشه ها از قبل مشخص باشد. شبکه های کوهنن با تعداد زیادی نرون شروع می شود و به تدریج که یادگیری پیش می رود، تعداد آنها به سمت یک تعداد طبیعی و محدود کاهش می یابد. 2-3-11-روش دو گام این روش در دو گام کار خوشه بندی را انجام می دهد. در گام اول همه داده ها یک مرور کلی می شوند و داده های ورودی خام به مجموعه ای از زیر خوشه های قابل مدیریت تقسیم می شوند. گام دوم با استفاده از یک روش خوشه بندی سلسله مراتبی بطور مداوم زیر خوشه ها را برای رسیدن به خوشه های بزرگتر با هم ترکیب می کند بدون اینکه نیاز باشد که جزئیات همه داده ها را مجددا مرور کند. 2-3-12-روشهای تجزیه و تحلیل نویز بعضی از داده ها که به طور بارز و مشخصی از داده های دیگر متمایز هستند اصطلاحاً بعنوان داده خطا یا پرت شناخته می شوند که باید قبل از ورود به فاز مدلسازی و در فاز آماده سازی داده ها برطرف شوند. با وجود این زمانیکه شناسایی داده های غیر عادی یا غیر قابل انتظار مانند موارد تشخیص تقلب هدف اصلی باشد، همین نوع داده ها مفید هستند که در این صورت به آنها نویز گفته می شود [Osmar 1999]. دسته های نامتعادل]صنیعی آباده 1391[. مجموعه داده هایی که در آنها ویزگی دسته دارای توزیع نامتعادل باشد بسیار شایع هستند. مخصوصاً این مجموعه داده ها در کاربردها و مسائل واقعی بیشتر دیده می شوند. در چنین مسائلی با وجود اینکه تعداد رکوردهای مربوط به دسته نادر بسیار کمتر از دسته های دیگر است، ولی ارزش تشخیص دادن آن به مراتب بالاتر از ارزش تشخیص دسته های شایع است. در داده کاوی برای برخورد با مشکل دسته های نامتعادل از دو راهکار استفاده می شود: راهکار مبتنی بر معیار راهکار مبتنی بر نمونه برداری راهکار مبتنی بر معیار در دسته بندی شایع ترین معیار ارزیابی کارایی دسته بند، معیار دقت دسته بندی است. در معیار دقت دسته بندی فرض بر یکسان بودن ارزش رکوردهای دسته های مختلف دسته بندی است. در راهکار مبتنی بر معیار بجای استفاده از معیار دقت دسته بندی از معیارهایی بهره برداری می شود که بتوان بالاتر بودن ارزش دسته های نادر و کمیاب را در آنها به نحوی نشان داد. بنابراین با لحاظ نمودن معیارهای گفته شده در فرآیند یادگیری خواهیم توانست جهت یادگیری را به سمت نمونه های نادر هدایت نماییم. از جمله معیارهایی که برای حل مشکل عدم تعادل دسته ها بکار می روند عبارتند از Recall, Precession, F-Measure, AUC و چند معیار مشابه دیگر. 2-4-2-راهکار مبتنی بر نمونه برداری نمونه برداری یکی از راهکارهای بسیار موثربرای مواجهه با مشکل دسته های نامتعادل است. ایده اصلی نمونه برداری آن است که توزیع نمونه ها را به گونه ای تغییر دهیم که دسته کمیاب به نحو پررنگ تری در مجموعه داده های آموزشی پدیدار شوند. سه روش برای این راهکار وجود دارد که عبارتند از: الف- نمونه برداری تضعیفی: در این روش نمونه برداری، توزیع نمونه های دسته های مساله به گونه ای تغییر می یابند که دسته شایع به شکلی تضعیف شود تا از نظرفراوانی با تعداد رکوردهای دسته نادر برابری کند. به این ترتیب هنگام اجرای الگوریتم یادگیری، الگوریتم ارزشی مساوی را برای دو نوع دسته نادر و شایع درنظر می گیرد. ب- نمونه برداری تقویتی: این روش درست برعکس نمونه برداری تضعیفی است. بدین معنی که نمونه های نادر کپی برداری شده و توزیع آنها با توزیع نمونه های شایع برابر می شود. ج- نمونه برداری مرکب: در این روش از هردو عملیات تضعیفی و تقویتی بصورت همزمان استفاده میشود تا توزیع مناسب بدست آید. در این پژوهش با توجه به کمتر بودن نسبت نمونه نادر یعنی منجر به خسارت شده به نمونه شایع از روش نمونه برداری تضعیفی استفاده گردید که کل تعداد نمونه ها به حدود 3 هزار رکورد تقلیل پیدا کرد و توزیع نمونه ها به نسبت مساوی بوده است. شایان ذکر است این نمونه برداری پس از انجام مرحله پاک سازی داده ها انجام شد که خود مرحله پاکسازی با عث تقلیل تعداد نمونه های اصلی نیز گردیده بود. پیشینه تحقیق سالهاست که محققان در زمینه بیمه و مسائل مرتبط با آن به تحقیق پرداخته اند و از جمله مسائلی که برای محققان بیشتر جذاب بوده است می توان به کشف تقلب اشاره کرد. Brockett و همکاران [Brockett et. al 1998] ابتدا به کمک الگوریتم تحلیل مولفه های اصلی (PCA) به انتخاب ویژگی ها پرداختند و سپس با ترکیب الگوریتم های خوشه بندی و شبکه های عصبی به کشف تقلبات بیمه اتومبیل اقدام کردند. مزیت این کار ترکیب الگوریتمها و انتخاب ویژگی بوده که منجر به افزایش دقت خروجی بدست آمده گردید. Phua و همکاران [ Phua et. al 2004] با ترکیب الگوریتم های شبکه های عصبی پس انتشاری ، بیزساده و درخت تصمیم c4.5 به کشف تقلب در بیمه های اتومبیل پرداختند.نقطه قوت این کار ترکیب الگوریتم ها بوده اما بدلیل عدم کاهش ویژگی ها و کاهش ابعاد مساله میزان دقت بدست آمده در حد اعلی نبوده است. Allahyari Soeini و همکاران [Allahyari Soeini et. al 2012] نیز یک متدلوژی با استفاده از روشهای داده کاوی خوشه بندی ودرخت تصمیم برای مدیریت مشتریان ارائه دادند. از ایرادات این روش میتوان عدم استفاده از الگوریتم های دسته بندی و قوانین انجمنی را نام برد. مورکی علی آباد ] موركي علي‌آباد1390[ تحقیقی داشته است که اخیراً در زمینه بیمه صورت گرفته و درمورد طبقه‌بندي مشتريان صنعت بيمه با هدف شناسايي مشتريان بالقوه با استفاده از تكنيك‌هاي داده‌كاوي (مورد مطالعه: بيمه‌گذاران بيمه آتش‌سوزي شركت بيمه كارآفرين (که هدف آن دسته بندی مشتریان صنعت بیمه بر اساس میزان وفاداری به شرکت، نوع بیمه نامه های خریداری شده، موقعیت جغرافیایی مکان های بیمه شده و میزان جذب به شرکت بیمه در بازه زمانی 4 سال گذشته بوده است. روش آماری مورد استفاده از تکنیک های داده کاوی نظیر درخت تصمیم و دسته بندی بود. این تحقیق نیز چون نمونه آن قبلا انجام شده بوده از الگوریتم های متفاوت استفاده نکرده است. همچنین سعی بر بهبود تحقیق قبلی نیز نداشته است. وجه تمایز این تحقیق با نمونه قبلی استفاده از ویژگی های متفاوت بوده است. عنبری ]عنبری 1389[ نیز پژوهشی در خصوص طبقه بندي ريسك بيمه گذاران در رشته بيمه بدنه اتومبيل با استفاده از داده كاوي داشته است که هدف استفاده از داده های مربوط به بیمه نامه بدنه از کل شرکتهای بیمه (بانک اطلاعاتی بیمه خودرو) بوده و سعی بر آن شده است تا بررسی شود که آیا میتوان بیمه گذاران بیمه بدنه اتومبیل را از نظر ریسک طبقه بندی کرد؟ و آیا درخت تصمیم برای طبقه بندی بیمه گذاران بهترین ابزار طبقه بندی می باشد؟ و آیا سن و جنسیت از موثرترین عوامل در ریسک بیمه گذار محسوب می شود؟ نتایج این طبقه بندی به صورت درخت تصمیم و قوانین نشان داده شده است. ونتایج حاصل از صحت مدل درخت تصمیم با نتایج الگوریتم های شبکه عصبی و رگرسیون لجستیک مورد مقایسه قرار گرفته است. از مزیت های این تحقیق استفاده از الگوریتم های متفاوت و مقایسه نتایج حاصله برای بدست آوردین بهترین الگوریتم ها بوده است. رستخیز پایدار]رستخیز پایدار 1389[ تحقیقی دیگر در زمینه بخش بندي مشتریان بر اساس ریسک با استفاده از تکنیک داده کاوی (مورد مطالعه: بیمه بدنه اتومبیل بیمه ملت) داشته است. با استفاده از مفاهيم شبکه خود سازمانده بخش بندي بر روي مشتريان بيمه بدنه اتومبيل بر اساس ريسک صورت گرفت. در اين تحقيق عوامل تأثيرگذار بر ريسک بيمه گذاران طي دو مرحله شناسايي گرديد. در مرحله اول هيجده فاکتور ريسک در چهار گروه شامل مشخصات جمعيت شناختي، مشخصات اتومبيل، مشخصات بيمه نامه و سابقه راننده از بين مقالات علمي منتشر گرديده در ژورنال هاي معتبر در بازه سال هاي 2000 الي 2009 استخراج گرديد و در مرحله دوم با استفاده از نظرسنجي از خبرگان فاکتورهاي نهايي تعيين گرديد. مشتريان بيمه بدنه اتومبيل در اين تحقيق با استفاده از شبکه هاي عصبي خودسازمانده به چهار گروه مشتريان با ريسک هاي متفاوت بخش بندي گرديدند. مزیت این تحقیق استفاده از نظر خبرگان بیمه بوده و ایراد آن عدم استفاده از ویژگی های بیشتر و الگوریتم های انتخاب ویژگی بوده است. ایزدپرست ]ایزدپرست1389[ همچنین تحقیقی در مورد ارائه چارچوبی برای پیش بینی خسارت مشتریان بيمه بدنه اتومبيل با استفاده از راهکار داده کاوی انجام داده است که چارچوبي براي شناسايي مشتريان بيمه بدنه اتومبيل ارائه مي‌گردد كه طي آن میزان خطرپذیری مشتریان پیش‌بینی شده و مشتریان بر اساس آن رده‌بندی می‌گردند. در نتیجه با استفاده از این معیار (سطح خطرپذیری) و نوع بیمه‌نامه مشتریان، میتوان میزان خسارت آنان را پیش‌بینی کرده و تعرفه بیمه‌نامه متناسب با ریسک آنان تعریف نمود. که این مطلب می‌تواند کمک شایانی برای شناسایی مشتریان و سیاستگذاری‌های تعرفه بیمه نامه باشد. در این تحقیق از دو روش خوشه‌بندی و درخت‌تصمیم استفاده می‌گردد. در روش خوشه‌بندی مشتریان بر اساس ویژگی هایشان در خوشه هایی تفکیک شده، سپس میانگین سطح خسارت در هر یک از این خوشه‌ها را محاسبه میکند. حال مشتریان آتی با توجه به اینکه به کدامیک از این خوشه‌ها شبیه تر هستند در یکی از آنها قرار می‌گیرند تا سطح خسارتشان مشخص گردد. در روش درخت‌تصمیم با استفاده از داده‌های مشتریان، درختی را بر اساس مجموعه‌ای از قوانین که بصورت "اگر-آنگاه" می‌باشد ایجاد کرده و سپس مشتریان جدید با استفاده از این درخت رده‌بندی می‌گردند. در نهایت هر دو این مدلها مورد ارزیابی قرار می‌گیرد. ایراد این روش در عدم استفاده از دسته بند ها بوده است. چون ماهیت تحقیق پیش بینی بوده است استفاده از دسته بند ها کمک شایانی به محقق در تولبد خروجی های حذاب تر می کرد. خلاصه فصل عمده پژوهشهایی که درخصوص داده های بیمه ای صورت گرفته کمتر به سمت پیش بینی سود و زیان شرکتهای بیمه بوده است. در موارد مشابه نیزپیش بینی خسارت مشتریان انجام شده که هدف دسته بندی مشتریان بوده است. موضوع این پژوهش اگرچه از نوع همسان با تحقیقات گفته شده است اما در جزئیات بیمه شخص ثالث را پوشش می دهد که درکشور ما یک بیمه اجباری تلقی می شود. همچنین تعداد خصیصه هایی که در صدور یا خسارت این بیمه نامه دخالت دارند نسبت به سایر بیمه های دیگر بیشتر بوده ضمن اینکه بررسی سود یا زیان بیمه شخص ثالث با استفاده از دانش نوین داده کاوی کارتقریبا جدیدی محسوب می شود. منابع و مأخذ منابع فارسی ]ایزدپرست1389[ سید محمود ایزدپرست، (1389)، "ارائه چارچوبی برای پیش بینی خسارت مشتریان بيمه بدنه اتومبيل با استفاده از راهکار داده کاوی" ، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir" ]رستخیز پایدار 1389[ ندا رستخیز پایدار، (1389)، "بخش بندي مشتریان بر اساس ریسک با استفاده از تکنیک داده کاوی (مورد مطالعه: بیمه بدنه اتومبیل بیمه ملت) "، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir" ]صنیعی آباده 1391[ صنیعی آباده محمد، (1391)، "داده کاوی کاربردی"، چاپ اول، نشرنیازدانش، تهران-ایران ]عنبری 1389[ الهام عنبری، (1389)، "طبقه بندي ريسك بيمه گذاران در رشته بيمه بدنه اتومبيل با استفاده از داده كاوي"، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir" ] فولادی نیا و همکاران 1392 [ فولادی نیا بابک، کرمی زاده فرامرز، دستغیبی فرد غلامحسین، سامی اشکان، (1392)، "کشف تقلب در بیمه اتومبیل با استفاده از روش های داده کاوی"، هفتمین کنفرانس داده کاوی ایران، 19 و 20 آذر، تهران ]فولادی نیا 1392[ فولادی نیا بابک، (1392)، "کشف تقلب در بیمه اتومبیل با استفاده از روش های داده کاوی"، پابان نامه کارشناسی ارشد، دانشکده آموزشهای الکترونیکی، دانشگاه شیراز ]موركي علي‌آباد1390[ سمانه موركي علي‌آباد ، (1390)، "طبقه‌بندي مشتريان صنعت بيمه با هدف شناسايي مشتريان بالقوه با استفاده از تكنيك‌هاي داده‌كاوي (مورد مطالعه: بيمه‌گذاران بيمه آتش‌سوزي شركت بيمه كارآفرين "( ، وب سایت پژوهشکده بیمه. "http://www. irc. ac. ir" منابع انگلیسی [Allahyari Soeini et. al 2012] Allahyari Soeini R and Vahidy Rodpysh K (2012), “Applying Data Mining to Insurance Customer Churn Management”, “Third International Conference, ICICA 2012, Chengde, China, September 14-16, 2012. Proceedings, Part I (Communications in Computer and Information Science) [Alpaydin 2010] Alpaydin E. (2010), “Introduction to Machine Learning”, The MIT Press Cambridge, Massachusetts London, England. [Bolton & Hand 2002] Bolton R. J. & Hand D. J. (2002), “Statistical fraud detection: a review”, Statistical Science, vol. 17, no. 3, pp. 235–55. [Brockett et. al 1998]Brockett P. L. Xia X. & Derrig R. A. (1998), “Using kohonen”s selforganizing feature map to uncover automobile bodily injury claims fraud”, The J. of Risk and Insurance, Vol. 65, No. 2, pp. 245-74. [Derrig et. al 2006] Derrig, R. , Johnston, D. & Sprinkel, E. (2006), “Auto Insurance Fraud: Measurements and Efforts to Combat It”, Risk Management and Insurance Review, Vol 9(2), pp.109 – 130. [Derrig & Ostazewski 1995] Derrig R. A. & Ostazewski K. M. (1995), “Fuzzy techniques of pattern recognition in risk and claim classification”, The J. of Risk and Insurance, Vol. 62, No. 3, pp. 447-82. [Gupta 2006] Gupta, G. K. (2006), ” Introduction to Data Mining with case studies”. Prentice Hall of India, New Delhi. [Han and Kamber 2001] Han J. and Kamber K, Data Mining: Concepts and Techniques, San Francisco, Morgan Kaufmann Publishers, 2001. [Jiawei Han, 2010] Jiawei Han, Micheline Kamber, and Jian Pei(2010), ”Data Mining, Concepts and Techniques”, 3rd ed, University of Illinois at Urbana-Champaign & Simon Fraser University. [Koh & Geravis 2010] Koh H. C. and Geravis G. (2010), ”Fraud Detection Using Data Mining Techniques:Applications In The Motor Insurance Industry”, Journal of Proceedings of Business And Information, Volume 7, No 1, pp. 49. [Kumar and Verna 2012] Kumar R. AND Verma R. (2012), “ Classification Algorithms for Data Mining: A Survey, International Journal of Innovations in Engineering and Technology (IJIET), Vol. 1, Issue 2, August 2012. [Lin & Yeh 2012]Lin Kuo-Chung and Yeh Ching-Long (2012), “Use of Data Mining Techniques to Detect Medical Fraud in Health Insurance”, International Journal of Engineering and Technology Innovation, vol. 2, no. 2, pp. 42-53. [Liu et. al 2012 ]Liu Jenn-Long, Chen Chien-Liang and Yang Hsing-Hui (2012), “Efficient Evolutionary Data Mining Algorithms Applied to the Insurance Fraud Prediction”, International Journal of Machine Learning and Computing, Vol. 2, No. 3, pp. 308-314. [Osmar 1999] Osmar, R. Zaïane (1999), “Principles of Knowledge Discovery in Databases”, University of Alberta. [Patil et. al 2012 ] Patil S. P. , Patil U. M. and Borse S. (2012), “ The novel approach for improving apriori algorithm for mining association rule”, World Journal of Science and Technology 2012, 2(3):75-78, Proceedings of “National Conference on Emerging Trends in Computer Technology (NCETCT-2012), Held at R. C. Patel Institute of Technology, Shirpur, Dist. Dhule, Maharashtra, India. [Phua et. al 2004]Phua C. , Alahakoon D. & Lee V. (2004), “Minority report in fraud detection: classification of skewed data”, Sigkdd Explorations, vol. 6, no. 1, pp. 50-9. [Pradhan et. al 2011 ] Pradhan R. , Pathak K. K. and Singh V. P. (2011), “ Application of Neural Network in Prediction of Financial Viability”, International Journal of Soft Computing and Engineering (IJSCE), ISSN: 2231-2307, Volume-1, Issue-2, May 2011. [Ramamohan et. al 2012 ] Ramamohan Y. , Vasantharao K. , Chakravarti C. K. , Ratnam A. S. K (2012), “ A Study of Data Mining Tools in Knowledge Discovery Process”, International Journal of Soft Computing and Engineering (IJSCE), Volume-2, Issue-3, July 2012. [Ristianini and Shawe 2000] Ristianini N, Shawe-Taylor J. “An introduction to support vector machines and other kernel-based learning methods”, Cambridge, UK:Cambridge University Press; 2000. [Sirikulvadhana 2002] Sirikulvadhana, Supatcharee (2002), “Data Mining as a Financial Auditing Tool”, M. Sc. Thesis in Accounting Swedish School of Economics and Business Administration. [Tan et al 2006] Pang-Ning Tan, Michael Steinbach and Vipin Kumar, “Introduction to Data Mining”, Addison Wesley, 2006. [Wilson 2003] Wilson, H. J (2003), “An analytical approach to detecting insurance fraud using logistic regression”, Journal of Finance and Accountancy, Vol. 1, pp. 1-15. [Wilson and Martinez 1997] Wilson D. Randall and Martinez Tony R “Improved Heterogeneous Distance Functions”, Journal of Artificial Intelligence Research, Volume 6, pages 1-34. [Xindong et al 2007] XindongWu , Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J, McLachlan, Angus Ng, Bing Liu, Philip S. Yu, Zhi-Hua Zhou, Michael Steinbach, David J. Hand, Dan Steinberg (2007) . “Top 10 Algorithms in data mining”, Survey paper. Springer–Verlag London Limited. 165925538862000