صفحه محصول - مبانی نظری و پیشینه تحقیق داده کاوی 2

مبانی نظری و پیشینه تحقیق داده کاوی 2 (docx) 79 صفحه


دسته بندی : تحقیق

نوع فایل : Word (.docx) ( قابل ویرایش و آماده پرینت )

تعداد صفحات: 79 صفحه

قسمتی از متن Word (.docx) :

Contents TOC \o "1-3" \h \z \u 1.1داده‌کاوی و مفاهیم آن PAGEREF _Toc522518580 \h 21.1.1تاریخچه داده‌کاوی PAGEREF _Toc522518581 \h 31.1.2فرآیند کشف دانش PAGEREF _Toc522518582 \h 51.1.3فرآیند CRISP – DM PAGEREF _Toc522518583 \h 131.1.4فاز اول – درک فضای کسب و کار PAGEREF _Toc522518584 \h 141.2فاز دوم – درک داده‌ها PAGEREF _Toc522518585 \h 151.2.1فاز سوم – آماده‌سازی داده‌ها PAGEREF _Toc522518586 \h 151.2.2فاز چهارم – مدل‌سازی PAGEREF _Toc522518587 \h 161.2.3فاز پنجم – ارزیابی PAGEREF _Toc522518588 \h 161.2.4فاز ششم – توسعه PAGEREF _Toc522518589 \h 171.3وظایف داده‌کاوی PAGEREF _Toc522518590 \h 171.3.1دسته‌بندی PAGEREF _Toc522518591 \h 181.3.2تخمین PAGEREF _Toc522518592 \h 191.3.3پیش‌بینی PAGEREF _Toc522518593 \h 191.3.4همبستگی PAGEREF _Toc522518594 \h 201.3.5خوشه‌بندی PAGEREF _Toc522518595 \h 211.3.6توصیف PAGEREF _Toc522518596 \h 251.4ابزار و تکنیک‌های داده‌کاوی PAGEREF _Toc522518597 \h 261.4.1درخت تصمیم PAGEREF _Toc522518598 \h 261.4.2شبکه‌های عصبی PAGEREF _Toc522518599 \h 301.5الگوریتم‌های خوشه‌بندی PAGEREF _Toc522518600 \h 321.6K - نزدیکترین همسایه PAGEREF _Toc522518601 \h 361.7ماشین بردار پشتیبان (SVM) PAGEREF _Toc522518602 \h 371.7.1بیز ساده‌لوحانه PAGEREF _Toc522518603 \h 381.8سیستم‌های چند دسته‌بند PAGEREF _Toc522518604 \h 391.9الگوریتم ژنتیک PAGEREF _Toc522518605 \h 401.9.1کاربرد داده‌کاوی در CRM PAGEREF _Toc522518606 \h 421.9.2داده‌کاوی برای بهبود بازاریابی مستقیم PAGEREF _Toc522518607 \h 431.9.3بخش‌بندی مشتریان PAGEREF _Toc522518608 \h 441.9.4افزایش ارزش مشتری PAGEREF _Toc522518609 \h 461.9.5داده‌کاوی و افزایش ارزش دوره عمر مشتری PAGEREF _Toc522518610 \h 471.9.6ابعاد CRM و کاربردهای داده‌کاوی PAGEREF _Toc522518611 \h 501.9.7داده‌کاوی و بازاریابی هدفمند PAGEREF _Toc522518612 \h 521.9.8داده‌کاوی و رویگردانی مشتری PAGEREF _Toc522518613 \h 531.10پیشینه تحقیق PAGEREF _Toc522518614 \h 561.10.1تحقیقات انجام شده در خارج از کشور PAGEREF _Toc522518615 \h 571.10.2تحقیقات انجام شده در داخل کشور PAGEREF _Toc522518616 \h 671.10.3خلاصه تحقیقات انجام شده PAGEREF _Toc522518617 \h 69 داده‌کاوی و مفاهیم آن در مرور ادبیات تعاریف متعددی برای داده‌کاوی ارائه شده است. برخی از این تعاریف عبارتند از: داده‌کاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از داده‌ها به منظور کشف الگوها و قوانین پنهان و معنی‌دار درون داده‌ها اطلاق می‌شود ADDIN EN.CITE شهرابی13901(شهرابی 1390a)116<style face="normal" font="default" charset="178" size="100%">داده‌کاوی</style>(شهرابی 1390a). داده‌کاوی عبارت است از فرايند استخراج اطلاعات معتبر، از پيش ناشناخته، قابل فهم و قابل اعتماد از پايگاه‌هاي داده بزرگ و استفاده از آن در تصمیم‌گیری در فعالیت‌های تجاری مهم ADDIN EN.CITE Witten200516(Witten and Frank 2005)16166Ian H. WittenEibe FrankData Mining Practical Machine Learning Tools and Techniques2005(Witten and Frank 2005). داده‌كاوي يعني استخراج دانش كلان، قابل استناد و جديد از پايگاه داده‌هاي بزرگ ADDIN EN.CITE Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011). داده‌كاوي به فرايند نيم خودكار تجزيه و تحليل پايگاه داده‌هاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق مي‌شود ADDIN EN.CITE Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011). داده‌كاوي يعني تجزيه و تحليل مجموعه داده‌هاي قابل مشاهده براي يافتن روابط مطمئن بين داده‌ها ADDIN EN.CITE Edelstein199817(Edelstein 1998)17176H. EdelsteinIntroduction to Data Mining and Knowledge Discovery1998Two Crows Corporation(Edelstein 1998). چنانچه مشخص است، آنچه در تمامی این تعاریف مشترک است وجود مفاهیمی چون استخراج دانش و کشف الگوهای پنهان از میان داده‌ها است. کاربرد موفق داده‌کاوی در زمینه‌های مختلف تجاری در دهه‌های اخیر، موجب افزایش روزافزون محبوبیت این علم شده است. برای دانش داده‌کاوی هیچ محدودیتی را نمی‌توان متصور بود. به عبارت دیگر، کاربرد دانش داده‌کاوی در تمامی زمینه‌های برخوردار از داده بوده و تنها محدودیت آن فقدان داده است. هدف داده‌کاوی ایجاد مدل‌هایی برای تصمیم‌گیری است. بیشتر تکنیک‌های داده‌کاوی ابزار مدل‌سازی هستند که اغلب از سال‌ها یا دهه‌های قبل وجود داشته‌اند و جزو زیرشاخه‌های علومی چون هوش مصنوعی، یادگیری ماشین، محاسبات نرم و آمار هستند. تاریخچه داده‌کاوی حجم عظیم داده‌ها نتیجه تجارت نوین است. امروزه پایگاه‌های داده با نرخ افزاینده‌ای در حال رشد هستند. بنابر تخمین‌های ارائه شده، حجم داده‌ها در جهان هر 20 ماه به حدود دو برابر می‌رسد؛ این در حالی است که سازمان‌ها امروزه کمتر از یک درصد از داده‌هایشان را برای تحلیل استفاده می‌کنند ADDIN EN.CITE شهرابی13901(شهرابی 1390a)116<style face="normal" font="default" charset="178" size="100%">داده‌کاوی</style>(شهرابی 1390a). از طرف دیگر، قدرت و توانایی محاسباتی کامپیوترها نیز به سرعت در حال افزایش است. همه این موارد شرایطی را برای بکارگیری هرچه بیشتر و وسیع‌تر تکنیک‌های داده‌کاوی فراهم می‌آورند، بطوری که اخیرا داده‌کاوی موضوع بسیاری از مقالات، کنفرانس‌ها و تحقیقات کاربردی شده است. واژه داده‌کاوی تا اوایل دهه 90 میلادی مفهومی نداشت و بکار برده نمی‌شد. در دهه 60 ميلادي و پيش از آن زمينه‌هايي براي ايجاد سيستم‌هاي جمع‌آوري و مديريت داده‌ها ايجاد شد و تحقيقاتي در اين زمينه انجام پذيرفت كه منجر به معرفي و ايجاد سيستم‌هاي مديريت پايگاه داده (DBMS) شد. توسعه سيستم‌هاي پايگاهي پيشرفته در دهه 80 و ايجاد پايگاه‌هاي شي‌گرا، كاربردگرا و فعال باعث توسعه همه جانبه و كاربردي شدن اين سيستم‌ها در سراسر جهان گرديد. بدین ترتیب DBMSهایی همچون DB2، Oracle، Sybase و غیره ایجاد شدند و حجم زیادی از داده‌ها توسط این سیستم‌ها مورد پردازش قرار گرفت. شاید بتوان مهمترین عامل در معرفی داده‌کاوی را مبحث کشف دانش از پایگاه داده (KDD) دانست بطوری که در بسیاری از موارد KDD و داده‌کاوی بصورت مترادف بکار برده می‌شوند. الگوریتم‌های داده‌کاوی در دهه اخير با سرعت بسيار زياد در حال توسعه هستند. روند تكامل فرايندهاي داده‌اي در كسب و كار در جدول 2-2 آمده است ADDIN EN.CITE اکبری13896(اکبری 1389)6632<style face="normal" font="default" charset="178" size="100%">کاربرد داده‌کاوی در مدیریت ارتباط با مشتریان: مطالعه موردی در شرکت سایپا یدک</style>(اکبری 1389). جدول STYLEREF 1 \s ‏2 SEQ جدول \* ARABIC \s 1 2 : گام‌های تکامل داده‌کاوی ویژگی‌هاتکنولوژی‌های مورد استفادهسوالات کسب و کارگام‌های تکاملتحليل داده‌هاي گذشتهتیپ‌های كامپيوتری – دیسکت‌ها درآمد كل 5 سال گذشته چقدر بوده است؟جمع‌آوری داده‌هاData Collectionدهه 1960تحليل پوياي داده‌هاي گذشته در يك سطحپایگاه داده‌های ارتباطی ODBC، SQLدر ماه گذشته چند واحد از یک محصول خاص بفروش رفته است؟دسترسی به داده‌هاData Accessدهه 1980تحليل پوياي داده‌هاي گذشته در چند سطحOLAP، DWدر ماه گذشته چند واحد از یک محصول خاص در مقایسه با مراکز دیگر بفروش رفته است؟انبار داده‌هاData warehouse DSSدهه1990ارائه اطلاعات و داده‌هاي مربوط به آیندهکامپیوترهای چند پردازندهالگوريتمهاي پيشرفتهدر ماه آینده چه اتفاقی خواهد افتاد؟داده‌کاویData Miningامروزه اگرچه عبارت داده‌کاوی اغلب به عنوان کشف دانش مورد استفاده قرار می‌گیرد، ولی فرآیند کشف دانش مفهومی گسترده‌تر دارد که در ادامه به توضیح آن خواهیم پرداخت. فرآیند کشف دانش فرآيند استخراج دانش در شکل 2-1 نشان داده شده است. همان‌طور که در شکل مشاهده مي‌کنيد، فرآيند کشف دانش يک فرآيند شش مرحله‌اي است که داده‌کاوي فقط گامي از اين فرآيند است ADDIN EN.CITE Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011). شکل STYLEREF 1 \s ‏2 SEQ شکل \* ARABIC \s 1 1 : فرآیند کشف دانش مراحل فرآيند استخراج دانش عبارت است از: مرحله اول، انتخاب داده: ورودي اين مرحله حجم عظيمي از داده‌ است. داده‌ها عموما در شکل‌هاي گوناگون و در مکان‌هاي مختلف نگه‌داري مي‌شوند. ابتدا بايد داده‌ها يک‌پارچه و در يکجا ذخيره شوند. پس انبارداده‌اي ايجاد مي‌شود که مجموعه‌اي از مارت داده‌ها است. انبارداده مجموعه‌اي از اطلاعات درباره موضوعات مختلف در گستره يک سازمان است، اما مارت داده‌ها زير مجموعه‌اي از انبار داده است. انبارداده مخاطبش کل سازمان است درحالي‌که مارت داده‌ها بر اساس موضوعي که جمع‌آوري شده است در همان بخش از سازمان مورد استفاده قرار مي‌گيرد. انبار داده از طريق فرآيند پاکسازي داده، يکپارچه‌سازي داده‌ها، انتقال داده‌ها، بارگيري داده‌ها و داده‌هاي متناوب ساخته مي‌شود. اما معمولاً انبار داده به‌وسيله پايگاه داده‌هاي چند بعدي مدل مي‌شوند، که هر کدام از بعدهاي انبار داده نشان دهنده يک يا مجموعه‌اي از صفات است. حال با توجه به مسئله مورد بحث و کاربردي که هدف فرآيند داده‌کاوي است؛ از اين انبار داده، مجموعه‌اي از داده‌ها انتخاب مي‌شود. پس خروجي مرحله انتخاب، يک مجموعه داده هدف است ADDIN EN.CITE Sumathi200618(Sumathi and Sivanandam 2006)18186S. SumathiS.N. SivanandamIntroduction to Data Mining and its Applications292006Springer(Sumathi and Sivanandam 2006). مرحله دوم، پيش‌پردازش: داده‌هاي موجود در بانک‌هاي اطلاعاتي به‌خودي خود قابل استخراج شدن نيستند؛ زيرا کيفيت داده‌هاي اصلي پايين است. در اين مرحله يک سري پردازش‌هایي بر روي داده انجام مي‌شود تا داده‌ها آماده‌ي فرآيند داده‌کاوي شوند. خروجي اين مرحله، داده‌هاي آمايش شده است. سه عامل بر روي کيفيت داده‌ها تاثيرگذار است که در ذیل به آن‌ها اشاره می‌کنیم: مقادير مفقود شده: اگر مقادير برخي از رکوردها در مجموعه داده مورد بررسي در بعضي از ويژگي‌ها موجود نباشد در اين صورت در آن ويژگي در رکورد مورد نظر با مشکل مقدار مفقود شده مواجه خواهيم بود ADDIN EN.CITE Larose20052(Larose 2005)226Daniel T. LaroseDiscovering knowledge in data : an introduction to data mining2005Hoboken, New JerseyJohn Wiley & Sons, Inc(Larose 2005). براي برطرف کردن مقادير مفقود شده، شش رويکرد توسط هان و همکاران ارائه شده است که عبارت است از ADDIN EN.CITE Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011): حذف کردن رکوردهایي که داراي مقادير مفقود شده هستند. پر کردن دستي مقادير مفقود شده. پر کردن مقادير با يک مقدار ثابت يا نامشخص. پر کردن خودکار با استفاده از ميانگين و يا مد در رکوردهاي موجود. پر کردن خودکار با استفاده از ميانگين و يا مد آن ويژگي در رکوردهاي موجود در کلاس مشابه با کلاس رکورد با مقادير مفقود شده. پر کردن خودکار با استفاده از استنتاج از روي ساير ويژگي‎هاي موجود در مجموعه داده و استفاده از الگوريتم‌هاي داده‌کاوي. نویز : تغييراتي که در مقدار اصلي ويژگي ايجاد مي‌شود را نويز گويند ADDIN EN.CITE Larose20052(Larose 2005)226Daniel T. LaroseDiscovering knowledge in data : an introduction to data mining2005Hoboken, New JerseyJohn Wiley & Sons, Inc(Larose 2005). اگر مقادير ويژگي در مقدار کوچکي مانند ε اضافه و يا از اين مقدار کم شده باشد، در آن ويژگي نويز ايجاد شده است. مقادير نويز در ويژگي‌ها قابل رفع شدن هستند. مقادیر دور افتاده : به مقاديري واقعي از ويژگي‌ها گفته مي‌شود که با مقادير ديگر ويژگي تفاوت معناداري داشته باشند. به‌عبارت ديگر، مقاديري که متفاوت از اکثريت مقادير موجود باشند؛ مقادیر دور افتاده هستند ADDIN EN.CITE Larose20052(Larose 2005)226Daniel T. LaroseDiscovering knowledge in data : an introduction to data mining2005Hoboken, New JerseyJohn Wiley & Sons, Inc(Larose 2005). در شکل 2-2 نقاط دور افتاده مشخص شده‌اند. شکل STYLEREF 1 \s ‏2 SEQ شکل \* ARABIC \s 1 2 : داده‌های دور افتاده تفاوت داده‌های دور افتاده با نويز در اين است که داده‌های دور افتاده به مقادير واقعي گفته مي‌شود که هويت دارند و مقادير ناخواسته نيستند، در حالي‌که نويز مقادير ناخواسته‌اي هستند که مقادير اصلي را تغيير داده‌اند. مقادير نويز هر ويژگي قابل رفع شدن است و بايد اين مقادير رفع شوند. اما روش برخورد با داده‌های دور افتاده بستگي به کاربرد مسئله دارد. در بعضي از کاربردها بايد نقاط دور افتاده را از تحليل‌ها حذف کرد و در بعضي از کاربردها بايد تحليلي روي نقاط دور افتاده انجام داد ADDIN EN.CITE Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011). پس از آن که هر یک از مشکلات ذکر شده در بالا از میان داده‌ها شناسایی و برطرف شدند، پردازش‌هایی در جهت آماده‌سازی داده‌ها برای مدل‌سازی بر روی داده‌ها انجام می‌شود. نمونه‌ای از این پردازش‌ها عبارتند از: تجمیع: در اين مرحله بر اساس هدف مشخص شده چند ويژگي با هم ترکيب و يک ويژگي ايجاد مي‌شود. به اين نکته توجه داشته باشيد زماني که بعد يا مقياس داده بالا باشد، باعث مي‌شود دانشي از دست برود. به اين منظور اين مرحله قبل از اجراي الگوريتم‌هاي داده‌کاوي بر روي داده انجام مي‌شود. اهداف فرآيند تجميع عبارتند از: کاهش ويژگي‌ها‌ و رکوردها، تغيير دادن مقياس داده؛ به‌عنوان مثال، مي‌‌توان به‌جاي ويژگي‌هايي مانند منطقه، ايالت و ناحيه، شهر را جايگزين کرد. اين کار ممکن است دقت مسئله را کاهش دهد، اما باعث مي‌شود فرآيند داده‌کاوي بر روي داده انجام شود. پايدار کردن داده؛ اگر يک ويژگي، ويژگي باشد که تعداد مقادير زيادي را اختيار کنند؛ در اين صورت اين ويژگي نمي‌تواند ويژگي موثري در فرآيند داده‌کاوي باشد. چنين ويژگي‌اي باعث مي‌شود دقت الگوريتم به شدت کاهش يابد. حال اگر بتوان بازه تغييرات ويژگي‌ها را کاهش داد، مي‌توان از ويژگي‌اي که تأثير منفي بر فرآيند داده‌ کاوي مي‌گذارد، ويژگي ايجاد کرد که تأثير مثبتي بر روي الگوريتم‌ها داشته باشد. نمونه‌گیری: فرآيند نمونه‌گيري گاهي براي پردازش داده‌ها مورد استفاده قرار مي‌گيرد. زماني‌که با مجموعه داده‌هاي ناآشنا کار مي‌شود، مي‌توان از اين گام براي شناخت مجموعه داده استفاده کرد. نمونه‌گيري در داده‌کاوي با مفهوم نمونه‌گيري آماري متفاوت است. در آمار نمونه‌گيري انجام مي‌شود، به سبب آن که دسترسي به تمام رکوردها بسيار گران و هزينه‌بر است. اما در داده‌کاوي نمونه‌گيري به دليل در دسترس نبودن رکوردها نيست، بلکه به دليل هزينه‌بر و زمان‌بر بودن اجراي الگوريتم‌هاي داده‌کاوي بر روي تمام رکوردها است. در اين حالت اگر الگوريتم‌هاي داده کاوي بر روي تمام رکوردهاي موجود در پايگاه داده اجرا شود، الگوريتم مرتبه زماني بسيار بالاي خواهد داشت. پس گاهي به سبب زمان‌بر و هزينه‌بر بودن و گاهي نيز به دليل در دسترس نبودن سيستم‌هايي که بتواند با حجم بالاي از داده‌ها کار کند، بايد از رکوردها نمونه‌گيري شود. نمونه بايد به گونه‌اي باشد که نماينده مناسبي از مجموعه داده باشد. براي انتخاب يک نمونه مناسب بايد به مسئله‌ توجه شود و با توجه به مسئله، نمونه انتخاب شود. علاوه بر اين در نمونه‌گيري بايد به توزيع ويژگي‌‌هاي مهم‌تر توجه بيشتري شود. فرآيند نمونه‌گيري مي‌تواند يکي از چهار روش زير باشد: نمونه‌گيري به صورت تصادفي: زماني از اين روش استفاده مي‌شود که مجموعه داده ناشناخته باشد و درکي از مجموعه داده موجود نباشد. نمونه‌گيري بدون جايگزيني: زماني از اين روش استفاده مي‌شود که مجموعه داده کوچک بوده و رکوردها شبيه به هم نباشد. نمونه‌گيري با جايگزيني: در اين روش هر رکورد مي‌تواند بيش از يکبار در نمونه آورده شود. از اين روش زماني استفاده مي‌شود که مجموعه داده بزرگ و رکوردها شبيه به هم باشند. نمونه‌گيري از دسته: ابتدا رکوردها را بر اساس معياري دسته‌بندي کرده و از هر دسته، تعدادي رکورد انتخاب مي‌شود. در مواقعي که معيارهايي مانند سرعت و پيچيدگي زماني مهم نيستند، روش نمونه‌گيري بدون جايگزيني مناسب‌تر از نمونه‌گيري با جايگزيني است. در نمونه‌گيري هر چقدر تعداد رکوردها بيشتر باشد امکان به‌دست آوردن نظم موجود بيشتر خواهد بود. نبايد نمونه خيلي کوچک باشد که نظم موجود در داده‌ها از بين برود. کاهش بعد: زماني که بعد داده‌ها بالا باشد در اين صورت پراکندگي داده بيشتر و هر چقدر پراکندگي داده‌ها بيشتر، داده‌ها از هم دورتر خواهند بود. در اين صورت نمي‌توان به‌خوبي نظم موجود در داده‌ها را پيدا کرد و ممکن است برخي از نظم‌ها با افزايش بعد داده از بين برود. پس بهتر است تا حد امکان ويژگي‌هاي نامربوط در مسئله مورد بررسي حذف شوند. اهداف اين مرحله عبارت است از: کاهش ابعاد: اين کار باعث کاهش زمان و افزايش سرعت در الگوريتم مورد نظر مي‌شود. درک آسان‌تر: انسان مي‌تواند تا چهار بعد را درک کند، پس هر چقدر ابعاد مسئله کوچک‌تر شود درک مسئله آسان‌تر مي‌شود. بالا رفتن دقت و سرعت الگوريتم: با حذف ويژگي‌هايي که نمي‌تواند اثر مثبتي بر روي هدف تعيين شده در مسئله داشته باشد، سرعت اجرا الگوريتم بالا مي‌رود و الگوريتم درگير ويژگي‌هاي غيرمفيد نمي‌شود. علاوه بر اين، حذف ويژگي‌هاي غير مرتبط باعث مي‌شود تشخيص داده‌هاي نويز راحت‌تر شود. انتخاب زیرمجموعه‌ای از ویژگی‌ها: تعداد زياد ويژگي‌ها بر سرعت اجراي الگوريتم‌ها اثر منفي مي‌گذارد. لازم است بنابر هدف، مجموعه‌اي از ويژگي‌ها انتخاب شود. بعضي از ويژگي‌ها در تمام مسائل ويژگي‌هاي هستند که کمکي به حل مسئله نمي‌کنند. براي هر هدفي مي‌توان با استفاده از الگوريتم‌هايي مانند درخت تصميم ويژگي‌هاي مهم‌تر را شناسايي کرد و از آن ويژگي‌ها براي ايجاد مدل‌ استفاده کرد. ایجاد ویژگی: با توجه به ويژگي‌هاي موجود مي‌توان ويژگي جديدي ايجاد کرد. به طوري که ويژگي ايجاد شده اطلاعات مهمي در مورد مجموعه داده در اختيار محقق قرار می‌دهد. سه روش براي ايجاد يک ويژگي وجود دارد که عبارت است از: استخراج ویژگی: زماني که مجموعه داده مورد بررسي شامل داده‌هاي چند رسانه‌اي باشد، استخراج ویژگی بسیار موثر خواهد بود. نگاشت داده به يک فضاي جديد: با استفاده از نگاشتي داده از يک بعد به بعد ديگر انتقال داده مي‌شود. این کار در الگوریتم تحلیل مولفه‌های اصلی و همچنین نوعی از الگوریتم ماشین بردار پشتیبان انجام می‌شود. ترکیب ویژگی‌ها: اين کار در مرحله تجميع داده‌ صورت مي‌گيرد. مرحله سوم، تبدیل: در اين مرحله داده‌ها در صورت نياز از يک حوزه به حوزه ديگر منتقل مي‌شوند و برای تحلیل آماده می‌شوند. مرحله چهارم، داده‌کاوی: در اين مرحله از الگوريتم‌های داده‌کاوی براي ساخت مدل استفاده مي‌شود. تعدادی از الگوریتم‌های داده‌کاوی در همین فصل توضیح داده شده‌اند. مرحله پنجم، ارزيابي و بازنمايي: در اين مرحله دقت هر الگوريتم‌ ارزيابي مي‌شود. به‌عبارت ديگر تشخيص الگوهاي صحيح مورد نظر، از ساير الگوها در اين مرحله انجام مي‌شود و صحت الگوها بر اساس معيارهايي سنجيده مي‌شود. مرحله ششم، دانش: دانش به‌دست آمده از الگوريتم‌ها به روشي که براي انسان قابل درک باشد، بيان مي‌شود. فرآیند CRISP – DM روش‌هاي گوناگوني براي پياده‌سازي و اجراي پروژ‌ه‌هاي داده‌کاوي وجود دارد. استفاده از اين روش‌ها باعث مي‌شود، داده‌کاو مديريت بهتري بر روي پروژه مورد بررسي خود داشته باشد. يکي از روش‌هاي بسيار قوي و رايج در ادبيات داده‌کاوي فرآیند CRISP-DM است. این فرآیند استانداردي جهاني براي انجام پروژه‌هاي کاربردي در داده‌کاوي است که از شش فاز به صورت یک روند حلقه‌ای تشکیل شده است. شکل 2-3 نحوه قرار گرفتن این شش فاز را در این مدل نمایش می‌دهد ADDIN EN.CITE شهرابی13901(شهرابی 1390a)116<style face="normal" font="default" charset="178" size="100%">داده‌کاوی</style>(شهرابی 1390a). شکل STYLEREF 1 \s ‏2 SEQ شکل \* ARABIC \s 1 3 : فرآیند CRISP-DM فاز اول – درک فضای کسب و کار در اين فاز تمرکز اصلي بر روي تعيين اهداف پروژه و نيازهاي وابسته به آن است که از منظر کسب ‌وکار مطرح مي‌شود. در واقع در اين فاز سعي مي‌شود با توجه به نيازهاي سازمان و خواسته‌هاي مورد انتظار از سازمان مسئله‌اي تعريف گردد. سپس مسئله‌ي تعريف شده به صورتي تبديل مي‌شود تا تکنيک‌هاي داده‌کاوي در آن قابل اجرا باشد. به‌عبارت ديگر، براي اين‌که داده‌کاو فعاليت خود را آغاز کند، نياز دارد با محيط و فرآيندها آشنا شود. هدف تحليل‌گر کشف شاخص مهمي در آغاز پروژه است که مي‌تواند در خروجي نهايي تأثيرگذار باشد. این فاز از چهار زیرفاز زیر تشکیل شده است: تعیین اهداف تجاری ارزیابی موقعیت تعیین اهداف پروژه داده‌کاوی تهیه برنامه پروژه فاز دوم – درک داده‌ها مواد اوليه يک پروژه داده‌کاوي داده‌ها هستند. اين فاز با جمع‌آوري داده‌هاي اوليه آغاز مي‌شود. سپس به منظور دست‌يابي به يک درک اوليه از داده‌ها و شناسايي مشکلات تاثيرگذار بر روي کيفيت آن‌ها پردازش‌هايي بر روي داده‌ها انجام مي‌شود. پردازش‌هاي انجام شده بر روي داده‌ها باعث مي‌شود، يک فرضيه جالب از داده‌ها به منظور کشف اطلاعات پنهان شکل گيرد. این فاز از چهار مرحله تشکیل شده است که عبارت‌اند از: جمع‌آوری داده‌ها تشریح و توصیف داده‌ها کاوش داده‌ها اعتبارسنجی کیفیت داده‌ها فاز سوم – آماده‌سازی داده‌ها تمام فعاليت‌هايي که باعث ساخت مدل از روي داده‌هاي اوليه مي‌شود، توسط اين فاز پوشش داده مي‌شود. اين فاز طولاني‌ترين مرحله در فرآیند CRISP-DM است. ايجاد جدول، انتخاب ويژگي و رکوردها با توجه به هدف تعيين شده و همچنين تبديل و تميز کردن داده‌ها براي استفاده در مدل از جمله وظايفي است که در اين فاز انجام مي‌شود. این وظایف در قالب زیرفازهای زیر انجام می‌شود: انتخاب داده‌ها پاکسازی داده‌ها ساختاردهی داده‌ها یکپارچه‌سازی داده‌ها تنظیم فرمت داده‌ها فاز چهارم – مدل‌سازی هدف اصلي پروژه داده‌کاوي اين فاز است. در اين فاز تکنيک‌هاي مختلفي جهت آناليز داده‌ها و استخراج دانش از آن‌ها به كار گرفته مي‌شود، سپس کاراترين مدل انتخاب مي‌شود. در برخي از مواقع براي استفاده از الگوريتمي خاص در مدل‌سازي، لازم است شکل داده تغيير پيدا کند. در نتيجه اين فاز با فاز آماده‌سازي داده‌ها در ارتباط است. این فاز از چهار زیرفاز زیر تشکیل شده است: انتخاب تکنیک‌های ساخت مدل طراحی آزمایش‌ها ساخت مدل ارزیابی مدل فاز پنجم – ارزیابی پس از انتخاب مدل، در اين فاز به بررسي و ارزيابي اين موضوع پرداخته مي‌شود كه آيا نتايج آناليز داده‌ها ما را در رسيدن به اهداف كسب و كار ياري مي‌كنند؟ در اين فاز، دانش به‌دست آمده در فاز چهار مورد تجزيه و تحليل قرار مي‌گيرد تا ميزان سودمندي و كاربرد آن مشخص شود. به‌عنوان مثال در مورد مدل‌هاي پيش‌بيني كننده، دقت مدل با استفاده از داده‌هاي آزمون تعيين مي‌شود تا در صورت تایيد نتايج حاصل به‌كار گرفته شود. در پايان اين فاز تصميمي در رابطه با استفاده از نتايج داده‌کاوي گرفته مي‌شود. مراحل این فاز عبارتند از: ارزیابی نتایج مرور فرآیند داده‌کاوی تعیین گام‌های بعدی فاز ششم – توسعه در اين فاز سود حاصل از سرمايه‌گذاري انجام شده در مراحل قبلي به‌دست مي‌آيد. تمركز اين فاز روي يکپارچه‌سازي دانش در فرآيندهاي كسب و كار است به‌گونه‌اي كه مسائل اساسي كسب و كار حل شود. با اين حال، اين فاز مي‌تواند به سادگي تهيه يک گزارش ساده و يا به پيچيدگي تکرار اجراي فرآيند داده‌کاوي در گستره سازمان باشد. در بيشتر موارد اين مشتري است که گام‌هاي اين فاز را انجام مي‌دهد و البته براي مشتري مهم است که بداند که چه اقداماتي در جهت به اجرا درآوردن مدل‌هاي ايجاد شده انجام دهد. اين فاز از چهار مرحله تشکيل شده است که عبارت است از: استقرار طرح نظارت و نگهداری آماده‌سازی گزارش نهایی مرور پروژه پس از آشنا شدن با نحوه‌ی اجرای پروژه‌های داده‌کاوی و مراحل استخراج دانش، لازم است تمرکز بیشتری بر روی داده‌کاوی و وظایفی که توسط آن قابل انجام است، و همچنین ابزار و تکنیک‌های داده‌کاوی داشته باشیم. وظایف داده‌کاوی داده‌کاوی بطور کلی به دو شکل هدایت شده و غیرهدایت شده وجود دارد ADDIN EN.CITE شهرابی13901(شهرابی 1390a)116<style face="normal" font="default" charset="178" size="100%">داده‌کاوی</style>(شهرابی 1390a). در داده‌کاوی هدایت شده با داشتن یک متغیر هدف خاص و از پیش تعیین شده به دنبال الگویی خاص می‌گردیم، بطوری که در داده‌کاوی غیرهدایت شده هیچ متغیر هدفی وجود نخواهد داشت و هدف یافتن تشابهات بین گروه‌هایی از اطلاعات است. اگر بخواهیم تکنیک‌های داده‌کاوی را بر اساس فعالیت و وظیفه تقسیم‌بندی کنیم، شش عمل زیر را خواهیم داشت ADDIN EN.CITE Larose20052(Larose 2005)226Daniel T. LaroseDiscovering knowledge in data : an introduction to data mining2005Hoboken, New JerseyJohn Wiley & Sons, Inc(Larose 2005): دسته‌بندی تخمین پیش‌بینی همبستگی خوشه‌بندی توصیف در این تقسیم‌بندی سه مورد اول داده‌کاوی هدایت شده هستند، همبستگی و خوشه‌بندی جزو داده‌کاوی غیر هدایت شده است و توصیف و نمایه‌سازی نیز می‌تواند هم هدایت شده و هم غیر هدایت شده باشد. در ادامه به توضیح مختصری از هر یک از این وظیفه‌ها می‌پردازیم. دسته‌بندی تکنیک‌های دسته‌بندی از جمله تکنیک‌های رایج و پرکاربرد در داده‌کاوی است. دسته‌بندی شامل بررسی ویژگی‌های یک شی جدید و تخصیص آن به یکی از کلاس‌های از قبل تعیین شده است ADDIN EN.CITE شهرابی13901(شهرابی 1390a)116<style face="normal" font="default" charset="178" size="100%">داده‌کاوی</style>(شهرابی 1390a). به عبارت دیگر، در مسائل دسته‌بندی هدف شناسایی ویژگی‌هایی از داده‌ها است که گروهی که داده به آن تعلق دارد را نشان می‌دهند. از این مدل هم می‌توان برای درک داده‌های موجود استفاده کرد وهم می‌توان آن را برای پیش‌بینی اینکه داده‌های جدید به کدام گروه تعلق دارند بکار برد. به همین دلیل اغلب به ویژگی‌های شناسایی شده متغیرهای پیشگو و به برچسب کلاس‌ها متغیر هدف گفته می‌شود. برای ایجاد یک مدل دسته‌بندی نیاز به مجموعه داده‌های تاریخی است. این مجموعه داده که مجموعه داده آموزشی نامیده می‌شود شامل هم متغیرهای پیشگو و هم متغیر هدف است. به این طریق، مدل یاد می‌گیرد که چه ترکیبی از متغیرهای پیشگو به کدام متغیر هدف مربوط می‌شوند. سپس، مدل آموزش دیده شده می‌تواند کلاس مجموعه داده‌های تست را که هیچ اطلاعی از متغیر هدف آن‌ها نداریم، پیش‌بینی کند. (معمولا کارایی مدل‌های دسته‌بندی را با مجموعه داده‌های اعتبارسنجی اندازه‌گیری می‌کنند.) از جمله تکنیک‌های دسته‌بندی می‌توان به درخت تصمیم، دسته‌بند بیزین، k- نزدیکترین همسایه (KNN)، شبکه عصبی و SVM اشاره کرد. تخمین تخمین شبیه دسته‌بندی است با این تفاوت که متغیر هدف بجای این که دسته‌ای باشد بصورت عددی است ADDIN EN.CITE Larose20052(Larose 2005)226Daniel T. LaroseDiscovering knowledge in data : an introduction to data mining2005Hoboken, New JerseyJohn Wiley & Sons, Inc(Larose 2005). مانند دسته‌بندی، یک مدل تخمین با استفاده از رکوردهای کاملی که حاوی مقادیر متغیر هدف و متغیرهای پیشگو است ساخته می‌شود. سپس، برای مشاهدات جدید، مقدار متغیر هدف بر اساس مقادیر متغیرهای پیشگو تخمین زده می‌شود. مدل‌های رگرسیون و شبکه عصبی از جمله تکنیک‌های مناسب داده‌کاوی برای تخمین هستند. پیش‌بینی پیش‌بینی مانند تخمین و دسته‌بندی است بجز اینکه در پیش‌بینی نتایج به آینده مربوط می‌شود ADDIN EN.CITE Larose20052(Larose 2005)226Daniel T. LaroseDiscovering knowledge in data : an introduction to data mining2005Hoboken, New JerseyJohn Wiley & Sons, Inc(Larose 2005). تمامی تکنیک‌های استفاده شده در دسته‌بندی و تخمین را می‌توان تحت شرایط خاص برای پیش‌بینی بکار گرفت. پیش‌بینی‌هایی که بر اساس مدل‌های دسته‌بندی ارائه می‌شوند دارای یک خروجی گسسته هستند که برچسب کلاس را برای آن مشاهده پیش‌بینی می‌کنند. پیش‌بینی مقادیر پیوسته بر اساس یک سری خصوصیات داده شده، نوعی از پیش‌بینی است که به عنوان مثال می‌توان به پیش‌بینی درآمد یک فرد بر اساس مشخصات وی اشاره کرد. درخت تصمیم و شبکه‌های عصبی تکنیک‌هایی هستند که در این نوع پیش‌بینی‌ها قابل استفاده هستند. نوع دیگری از پیش‌بینی‌ها، پیش‌بینی یک یا چند مقدار بر اساس الگوهای تکراری و متوالی است. پیش‌بینی سطح سهام بازار در 30 روز آینده بر اساس داده‌های 6 ماه گذشته مثالی از این نوع پیش‌بینی‌ها است. این گونه پیش‌بینی‌ها به کمک سری‌های زمانی و تکنیک‌های رگرسیون انجام می‌شود. همبستگی قوانین همبستگی که گروه‌بندی شباهت نیز نامیده می‌شوند برای تعیین ویژگی‌های همزمانی هستند که در وقوع یک پدیده رخ می‌دهند. به عبارت دیگر، گروه‌بندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگی‌ها را تعیین می‌نماید ADDIN EN.CITE شهرابی13901(شهرابی 1390a)116<style face="normal" font="default" charset="178" size="100%">داده‌کاوی</style>(شهرابی 1390a). با توجه به مقیاس‌پذیری الگوریتم‌های قوانین همبستگی و حجم داده‌ها که دائما در حال افزایش است، می‌توان قوانین همبستگی را یکی از ابزارهای ضروری داده‌کاوی جهت استخراج دانش از داده‌ها قلمداد کرد. تحلیل سبد خرید یکی از بارزترین کاربردهای قوانین همبستگی بشمار می‌رود. در این تحلیل سعی می‌شود تا از طریق یافتن روابط و وابستگی‌های موجود بین اجناس خریداری شده توسط مشتری‌ها، الگوهای خرید شناسایی و تحلیل شوند ADDIN EN.CITE شهرابی13883(شهرابی and شجاعی 1388)336<style face="normal" font="default" charset="178" size="100%">داده‌کاوی پیشرفته - مفاهیم و الگوریتم‌ها</style>(شهرابی and شجاعی 1388). به عنوان مثال، برای مشتری که شیر خریداری کرده چقدر احتمال دارد نان نیز خریداری کند. خروجی این تحلیل قوانینی به صورت قوانین اگر – آنگاه است که افراد را در رقابت‌های بازاریابی و نیز چیدمان مناسب اجناس در فروشگاه‌ها یاری می‌رساند. به منظور سنجش کیفیت یک قانون از مفاهیم پشتیبانی و اطمینان استفاده می‌شود. پشتیبانی: درصدی از تراکنش‌هایی است که شامل هم مقدم و هم تالی قانون باشند ADDIN EN.CITE Witten200516(Witten and Frank 2005)16166Ian H. WittenEibe FrankData Mining Practical Machine Learning Tools and Techniques2005(Witten and Frank 2005). به عبارت دیگر، برابر است با نسبت تعداد تراکنش‌هایی که شامل مقدم و تالی هستند به تعداد کل تراکنش‌ها. اطمینان: درصدی از تراکنش‌هایی است که وقتی مقدم قانون در آن ظاهر شده است، تالی نیز در آن وجود داشته باشد ADDIN EN.CITE Witten200516(Witten and Frank 2005)16166Ian H. WittenEibe FrankData Mining Practical Machine Learning Tools and Techniques2005(Witten and Frank 2005). به عبارت دیگر، برابر است با نسبت تعداد تراکنش‌هایی که شامل مقدم و تالی هستند به تعداد تراکنش‌هایی که شامل مقدم هستند. خوشه‌بندی خوشه‌بندی به عمل تقسیم جمعیت ناهمگن به تعدادی زیر مجموعه یا خوشه‌های همگن گفته می‌شود ADDIN EN.CITE شهرابی13901(شهرابی 1390a)116<style face="normal" font="default" charset="178" size="100%">داده‌کاوی</style>(شهرابی 1390a). وجه تمایز خوشه‌بندی از دسته‌بندی این است که خوشه‌بندی به دسته‎‌های از پیش تعیین شده تکیه ندارد. در خوشه‌بندی هیچ دسته از پیش تعیین شده‌ای وجود ندارد و داده‌ها صرفا بر اساس تشابه گروه‌بندی می‌شوند. بنابراین، برای اینکه بتوانیم داده‌ها را خوشه‌بندی کنیم باید بتوانیم میزان شباهت آنها را بدست آوریم. اینکار معمولا با استفاده از مقیاس‌های اندازه‌گیری فاصله که معرفترین آنها فاصله اقلیدسی است، انجام می‌شود. چنانچه مشخص است، تعداد حالت‌های زیادی برای خوشه‌بندی n داده در k خوشه وجود دارد؛ تعداد این حالات حتی با در اختیار نداشتن تعداد خوشه‌ها (k) نیز افزایش خواهد یافت. به همین دلیل نیاز به معیارهایی برای سنجش اعتبار خوشه‌بندی داریم. فشردگی و تفکیک‌پذیری دو ویژگی اساسی و جالب در مورد خوشه‌ها هستند که می‌توانند به عنوان شاخص اعتبار خوشه محاسبه شوند ADDIN EN.CITE شهرابی13883(شهرابی and شجاعی 1388)336<style face="normal" font="default" charset="178" size="100%">داده‌کاوی پیشرفته - مفاهیم و الگوریتم‌ها</style>(شهرابی and شجاعی 1388). فشردگی: فشردگی، بیان کننده این موضوع است که عناصر موجود در خوشه چقدر به یکدیگر نزدیک هستند. به عنوان مثال،واریانس عناصر نشان دهنده فشردگی داده‌ها است؛ بطوری که هرچه واریانس کمتر باشد، فشردگی داده‌ها بیشتر است. می‌توان فاصله میان عناصر موجود در خوشه را نیز محاسبه کرد. تفکیک‌پذیری: بوسیله این ویژگی، مجزا بودن خوشه‌ها را ارزیابی می‌کنیم. یکی از روش‌های تعیین تفکیک‌پذیری، محاسبه فواصل بین خوشه‌ای است. بنابر آنچه گفته شد، به دنبال ساختاری هستیم که عناصر درون خوشه‌ها بیشترین شباهت را با یکدیگر و بیشترین اختلاف را با دیگر خوشه‌ها داشته باشند. به عبارت دیگر، ساختاری را مطلوب می‌پنداریم که در آن مقادیر فواصل درون خوشه‌ای کم و مقادیر فواصل بین خوشه‌ای زیاد باشد. در کتاب هان و کرامبر روش‌های خوشه‌بندی به پنج دسته تقسیم شده است: روش‌های بخش‌بندی، روش‌های سلسله‌مراتبی، روش‌های مبتنی بر تراکم، روش‌های مبتنی بر Grid و روش‌های مبتنی بر مدل ADDIN EN.CITE Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011). در ادامه به توضیح مختصری از هر یک از دسته‌ها می‌پردازیم. خوشه‌بندی مبتنی بر بخش‌بندی: در این نوع خوشه‌بندی اساس کار یک تابع هدف مشخص است که کمینه‌سازی آن، ما را به کشف ساختار موجود در مجموعه داده رهنمون می‌سازد ADDIN EN.CITE شهرابی13883(شهرابی and شجاعی 1388)336<style face="normal" font="default" charset="178" size="100%">داده‌کاوی پیشرفته - مفاهیم و الگوریتم‌ها</style>(شهرابی and شجاعی 1388). با وجود آنکه ساختار الگوریتمی بسیار جذاب و متقاعدکننده است (مسئله بهینه‌سازی را می‌توان به خوبی فرموله کرد)؛ ولی، از آنجایی که شخص نمی‌داند چه نوع ساختاری را باید انتظار داشته باشد، تعیین مناسب‌ترین فرم برای تابع هدف با دشواری‌های فراوانی همراه است. بطور معمول، در این گروه از الگوریتم‌ها، تعداد خوشه‌ها را از قبل تعیین کرده و کار را با بهینه‌سازی تابع هدف ادامه می‌دهند. الگوریتم‌هایی مانند CLARA، CLARANS، k – means، c – means و PAM نمونه‌هایی از الگوریتم‌های این گروه هستند ADDIN EN.CITE Mitra20035(Mitra and Acharya 2003)556Sushmita MitraTinku AcharyaData Mining: Multimedia, Soft Computing, and Bioinformatics2003A JOHN WILEY & SONS, INC.(Mitra and Acharya 2003). خوشه‌بندی سلسله‌مراتبی: در اين نوع از روش‌هاي خوشه‌بندي، داده‌ها در درختي از خوشه‌ها گروه‌بندي مي‌شوند. به طور كلي روش‌هاي سلسله‌مراتبي را مي‌توان به دو دسته تقسيم كرد: روش‌هاي جمع‌كننده و روش‌هاي تقسيم‌كننده ADDIN EN.CITE شهرابی13883(شهرابی and شجاعی 1388)336<style face="normal" font="default" charset="178" size="100%">داده‌کاوی پیشرفته - مفاهیم و الگوریتم‌ها</style>(شهرابی and شجاعی 1388). روش‌هاي جمع‌كننده در ابتدا هر داده را در خوشه‌اي جداگانه قرار مي‌دهند. سپس خوشه‌ها را با هم ادغام كرده و خوشه‌هاي بزرگتري ايجاد مي‌كنند. اين كار تا زماني ادامه مي‌يابد كه يا تمام داده‌ها در يك خوشه واحد قرار گيرند و يا شرط معيني برقرار شود، مثلاً تعداد خوشه‌ها به مقدار دلخواه برسد. در هر مرحله خوشه‌هايي به هم متصل مي‌شوند كه بيشترين شباهت را با هم دارند. براي بررسي ميزان شباهت خوشه‌ها الگوريتم‌هاي مختلفي وجود دارد. دسته دوم كه روش‌هاي تقسيم‌كننده ناميده مي‌شوند عكس روش فوق را اعمال مي‌كنند، يعني درخت را از بالا به پايين مي‌سازند. برای بررسی میزان شباهت خوشه‌ها می‌توان فاصله بین خوشه‌ها را معیار مناسبی در نظر گرفت. روش‌های مختلفی مانند روش تک‌اتصالی، اتصالی کامل و اتصال میانگین گروهی برای محاسبه فاصله بین خوشه‌ها استفاده می‌شود ADDIN EN.CITE شهرابی13883(شهرابی and شجاعی 1388)336<style face="normal" font="default" charset="178" size="100%">داده‌کاوی پیشرفته - مفاهیم و الگوریتم‌ها</style>(شهرابی and شجاعی 1388). خوشه‌بندی مبتنی بر تراکم: بسياري از روش‌هاي بخش‌بندي، داده‌ها را بر اساس فاصله آنها با يكديگر خوشه‌بندي می‌کنند. چنين روش‌هايي فقط خوشه‌هاي كروي شكل را پيدا مي‌كنند (مانند k – means). در خوشه‌بندهایی که بر اساس تراکم داده‌ها انجام می‌شود، می‌توان خوشه‌هایی پیدا کرد که دارای شکل‌های پیچیده‌تری هستند. ایده اصلی اين روش‌ها به اين صورت است كه يك خوشه تا زماني كه تراكم همسايگي تمامي اشياء مرزي آن از حد معيني كمتر نشده گسترش مي‌يابد. منظور از تراكم همسايگي يك شيء، تعداد اشيائي است كه در فاصله ε از آن شيء قرار گرفته‌اند. چنين روش‌هايي براي فيلتر كردن نويزها و يافتن خوشه‌هايي با شكل‌هاي دلخواه به كار مي‌رود ADDIN EN.CITE Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011). الگوریتم‌های DBSCAN، OPTICS، DENCLUE و CLIQUE در این دسته از الگوریتم‌ها قرار می‌گیرند ADDIN EN.CITE شهرابی13883(شهرابی and شجاعی 1388)336<style face="normal" font="default" charset="178" size="100%">داده‌کاوی پیشرفته - مفاهیم و الگوریتم‌ها</style>(شهرابی and شجاعی 1388). خوشه‌بندی مبتنی بر Grid: در این نوع خوشه‌بندی فضاي اشياء را به تعداد محدودي سلول كوانتيزه مي‌كنند كه اين سلول‌ها يك Grid را بوجود می‌آورند. تمامی اعمال خوشه‌بندی بر روی ساختار این Grid (ساختار مشبک) انجام می‌شود. مزیت مهم اين روش سرعت بالاي آن است كه مستقل از تعداد اشياء بوده و فقط به تعداد سلول‌ها در هر بعد از فضاي كوانتيزه شده بستگی دارد. الگوریتم‌های STING و CLIQUE نمونه‌هایی از این الگوریتم‌ها هستند. خوشه‌بندی مبتنی بر مدل: الگوریتم‌های این دسته، براي هر خوشه مدلي را در نظر گرفته و سعي مي‌كنند به بهترين نحو داده‌ها را به آن مدل‌ها انطباق دهند. دو راه عمده براي اين كار وجود دارد: راه اول روش‌هاي آماري مانند COBWEB و CLASSIT و راه دوم شبکه‌های عصبی مانند SOM است. توصیف گاهی اوقات هدف داده‌کاوی، تنها توصیف آن چیزی است که در یک پایگاه داده‌ای پیچیده در جریان است. توصیف الگوها و روندها اغلب توضیحات ممکنی برای آن الگوها و روندها ایجاب می‌کند و درک ما را از مردم، محصولات و یا فرآیندهایی که داده‌ها در مرحله اول تولید کرده‌اند، افزایش می‌دهد. مدل‌های داده‌کاوی باید تا حد ممکن شفاف باشند؛ به این معنی که نتایج مدل‌های داده‌کاوی باید الگوهای روشنی را که تمایلی به توضیح و تفسیر شهودی دارند، توصیف کنند. برخی از مدل‌های داده‌کاوی دارای تفسیر شفاف‌تری نسبت به دیگر مدل‌ها دارند. به عنوان مثال، درخت تصمیم توضیحات شهودی و انسان دوستانه‌ای از نتایج خود فراهم می‌آورد؛ در حالی که شبکه‌های عصبی با ارائه‌ی مدل‌های پیچیده نیاز به تفسیر نتایج دارند، به همین دلیل گاهی به شبکه‌های عصبی جعبه سیاه گفته می‌شود. درخت تصمیم و تکنیک‌های آماری ابزار مفیدی برای توصیف هستند؛ قوانین همبستگی و خوشه‌بندی را نیز می‌توان برای توصیف استفاده کرد. ابزار و تکنیک‌های داده‌کاوی ابزارها و تکنیک‌های بیشماری برای انجام پروژه‌های داده‌کاوی وجود دارد. بیشتر تکنیک‌های داده‌کاوی از سال‌ها و یا دهه‌های قبل وجود داشته‌اند و ریشه در علومی دیگر چون آمار و ریاضی و زیرشاخه‌های علوم کامپیوتر مانند هوش مصنوعی و یادگیری ماشین دارند. در این تحقیق سعی کرده‌ایم به معرفی تکنیک‌هایی بپردازیم که پرکاربرد بوده و یا در تحقیق مورد استفاده قرار گرفته است. درخت تصمیم درخت تصمیم از تکنیک‌های پرکاربرد و رایج داده‌کاوی است که برای اهداف دسته‌بندی و پیش‌بینی مورد استفاده قرار می‌گیرد. الگوریتم‌های این تکنیک در حیطه الگوریتم‌های یادگیری با ناظر بشمار می‌رود و بر اساس الگوریتم یادگیری مفهوم طراحی شده‌اند. یک درخت تصمیم از تعدادی گره و شاخه تشکیل شده است. شاخه‌ها، گره‌ها را به یکدیگر متصل می‌کنند. گره‌هایی که در انتهای درخت واقع هستند را برگ می‌نامیم. برگ‌ها بیانگر برچسب کلاس‌ها هستند. گره‌ای که در بالاترین سطح از درخت قرار دارد ریشه نامیده می‌شود. ریشه شامل تمام داده‌های آموزشی است که باید به کلاس‌های مختلف تقسیم شوند. تمامی گره‌ها، بجز برگ‌ها را گره‌های تصمیم می‌نامند. در هر کدام از این گره‌ها، تصميم‌گيري در مورد فعاليتي که بايد انجام شود با توجه به یک خصیصه صورت مي‌گيرد. هر کدام از گره‌ها داري فرزنداني هستند که تعداد فرزندان هر گره برابر با تعداد مقاديري است که خصیصه مورد نظر مي‌تواند اختيار کند ADDIN EN.CITE شهرابی13883(شهرابی and شجاعی 1388)336<style face="normal" font="default" charset="178" size="100%">داده‌کاوی پیشرفته - مفاهیم و الگوریتم‌ها</style>(شهرابی and شجاعی 1388). الگوریتم‌های مختلفی برای توليد درخت تصميم وجود دارد. تمامی این الگوریتم‌ها بر اساس الگوریتم یادگیری مفهوم هانت طراحی شده‌اند. این الگوریتم، روشی را مد نظر قرار داده است که انسان‌ها از آن به منظور یادگیری مفاهیم ساده استفاده می‌کنند. در این روش خصیصه‌های اصلی که متمایزکننده دو گروه اصلی متفاوت هستند، مشخص می‌شوند. برای انجام این کار، از نمونه‌های آموزشی مثبت و منفی استفاده می‌شود. الگوریتم هانت بر پایه استراتژی تقسیم و غلبه بنا نهاده شده است. مجموعه‌هاي آموزشي به طور بازگشتي با انتخاب بهترین خصیصه به عنوان متمایز کننده به گونه‌ای به زيرمجموعه‌هاي کوچک‌تر افراز مي‌شوند که هر زیر مجموعه تنها حاوی نمونه‌هایی باشد که به یک کلاس تعلق دارند ADDIN EN.CITE شهرابی13883(شهرابی and شجاعی 1388)336<style face="normal" font="default" charset="178" size="100%">داده‌کاوی پیشرفته - مفاهیم و الگوریتم‌ها</style>(شهرابی and شجاعی 1388). به این ترتیب، با انتخاب پی در پی خصیصه‌های متمایز کننده، درخت تصمیم شکل می‌گیرد. آنچه که باعث می‌شود الگوریتم‌های متفاوتی برای ایجاد درخت تصمیم وجود داشته باشد، عامل انتخاب خصیصه متمایزکننده است. معيارهاي گوناگوني براي انتخاب خصیصه وجود دارد که مهم‌ترين آن عبارت است از: شاخص جینی: یک شاخص رایج تقسیم‌بندی، جینی نام دارد که از نام کورادو جینی، متخصص آمار و اقتصاددان ایتالیایی گرفته شده است. این شاخص احتمال قرارگیری دو مورد انتخاب شده تصادفی از یک جمعیت یکسان را در یک دسته نشان می‌دهد. برای یک جمعیت خالص، این احتمال برابر یک است. اندازه‌گیری جینی یک گره، به صورت مجموع نسبت‌های دسته‌ها است. برای محاسبه تاثیر یک تقسیم، امتیاز جینی هر گره فرزند را محاسبه کرده و در نسبت اطلاعات که به آن گره می‌رسد ضرب کرده وسپس اعداد حاصل را با هم جمع می‌کنیم ADDIN EN.CITE شهرابی139042(شهرابی 1390b)42426<style face="normal" font="default" charset="178" size="100%">داده‌کاوی 2</style>(شهرابی 1390b). الگوريتم CART براي پياده‌سازي از اين معيار استفاده مي‌کند. بهره اطلاعات: در منظر بهره اطلاعات، اگر یک برگ کاملا خالص باشد آنگاه دسته‌های این برگ را می‌توان به راحتی اینگونه توصیف کرد که همگی آنها در یک دسته جای می‌گیرند. از طرف دیگر، اگر یک برگ دارای ناخالصی بالایی باشد آنگاه توصیف آن بسیار مشکل خواهد بود. برای بیان این وضعیت اندازه‌ای به نام آنتروپی تعریف می‌گردد. آنتروپی میزان بی‌نظمی یک سیستم است. آنتروپی یک گره خاص در یک درخت تصمیم عبارت است ازجمع نسبت‌های داده‌های متعلق به یک دسته خاص برای تمام دسته‌هایی که در گره نشان داده شده‌اند که در لگاریتم پایه دو آن نسبت ضرب شده است. آنتروپی یک تقسیم به صورت مجموع آنتروپی تمام گره‌های ناشی از تقسیم که بوسیله نسبت داده‌های هر گره وزن‌دهی شده است بدست می‌آید ADDIN EN.CITE شهرابی1390b42(شهرابی 1390b)42426<style face="normal" font="default" charset="178" size="100%">داده‌کاوی 2</style>(شهرابی 1390b). الگوريتم ID3 از بهره اطلاعات براي انتخاب خصیصه استفاده مي‌کند. نسبت بهره: اندازه‌گیری آنتروپی زمانی با مشکل مواجه می‌شود که به یک تقسیم‌بندی با متغیرهای دسته‌ای مواجه شویم. مشکل در اینجا کاهش تعداد دسته‌های نمایش داده شده در هر گره و متعاقب آن کاهش آنتروپی است که صرفا از شکستن مجموعه داده‌های بزرگ‌تر به زیرمجموعه‌های کوچک‌تر ناشی می‌شود. کاهش آنتروپی که مربوط به تعداد شاخه‌ها باشد را اطلاعات نهادی یک تقسیم‌بندی می‌نامند. اطلاعات نهادی موجب می‌شود تا درخت تصمیم ایجاد شده پر برگ و بار شود. درخت‌های پر برگ با تقسیمات متعدد چند مسیری مطلوب نیستند چرا که این تقسیمات به تعداد کم داده‌ها در هر گره منجر شده و مدل‌های حاصله از این طریق ناپایدار خواهند بود. برای رفع این مشکل، از نسبت کل بهره اطلاعاتی استفاده می‌کنند ADDIN EN.CITE شهرابی1390b42(شهرابی 1390b)42426<style face="normal" font="default" charset="178" size="100%">داده‌کاوی 2</style>(شهرابی 1390b). الگوريتم‌ C4.5 از نسبت بهره براي انتخاب خصیصه استفاده مي‌کند. معيارهاي انتخاب خصیصه ديگري هم وجود دارد، که مي‌توان به درخت تصميم CHAID، که براي انتخاب خصیصه از آزمون χ^2 استفاده مي‌کند و يا C-SEP که براي انتخاب خصیصه از آماره G (که بسيار نزديک به توزيع χ^2 است) استفاده مي‌کند، اشاره کرد. از درخت تصمیم ایجاد شده می‌توان برای پیش‌بینی برچسب نمونه‌های جدید بر اساس مقادیر خصیصه‌های آنها استفاده کرد. درخت تصمیم همچنین قوانین همبستگی میان خصیصه‌ها را آشکار می‌سازد. برخی از نقاط ضعف و قوت درخت‌های تصمیم عبارتند از: قوانین تولید شده توسط آنها، تمامی کلاس‌های موجود در مجموعه داده آموزشی را به بهترین شکل توصیف می‌کند. روابط موجود میان قوانین را آشکار ساخته؛ در نتیجه، درک ساختار داده‌ها را ساده می‌سازد. از نظر محاسباتی ساده هستند. این امکان وجود دارد که قوانین بسیار پیچیده‌ای را تولید کنند که در نتیجه آن، هرس کردن با دشواری‌هایی مواجه خواهد بود. قادر هستند تا تعداد زیادی از قوانین متناظر را تولید کنند که در صورت عدم استفاده از تکنیک‌های هرس، درک آنها سخت خواهد بود. به منظور ذخیره‌سازی کل درخت و استخراج قوانین، به حافظه زیادی نیاز است. شبکه‌های عصبی شبکه‌های عصبی مصنوعی (ANN) شبکه‌ای عظیم از نرون‌های محاسباتی به هم پیوسته هستند که باساختار فرایندی بصورت موازی توزیع شده نشان داده می‌شوند. ایده اصلی این شبکه‌ها از ساختار شبکه‌های عصبی بیولوژیک الهام گرفته شده است؛ زمانی که در سال 1943، وارن مک کالچ به همراه والتر پیتس برای توضیح نحوه عملکرد نرون‌های بیولوژیک به مدل‌سازی پرداختند ADDIN EN.CITE شهرابی1390b42(شهرابی 1390b)42426<style face="normal" font="default" charset="178" size="100%">داده‌کاوی 2</style>(شهرابی 1390b). اگرچه این مدل فقط دارای یک نرون بود و توانایی محاسباتی محدودی داشت، ولی نقطه عطفی بود برای توسعه و پیشرفت شبکه‌های عصبی قوی‌تر و پیچیده‌تر؛ به گونه‌ای که امروزه شبکه‌های عصبی کاربرد گسترده‌ای در مسائل پیش‌بینی، دسته‌بندی و خوشه‌بندی دارد. به طور کلی، شبکه‌های عصبی توسط سه مولفه زیر معرفی می‌شوند ADDIN EN.CITE Karray200443(Karray and Silva 2004)43436Fakhreddine O. KarrayClarence de SilvafirstSoft Computing and Intelligent Systems design Theory, Tools and Applications2004EnglandPearson Education Limited(Karray and Silva 2004): ساختار رو به جلو بازگشتی نوع یادگیری یادگیری با ناظر یادگیری بدون ناظر ترکیبی تابع فعال‌سازی باینری پیوسته ساختار شبکه‌های عصبی از تعدادی نرون و اتصالات موزون بین آنها تشکیل شده است (شکل 2-4). معمولا این نرون‌ها در لایه‌هایی شامل لایه ورودی، لایه‌های پنهان و لایه خروجی سازمان می‌یابند. در ساختار رو به جلو، تمامی اتصالات بین نرون‌ها به سمت جلو بوده و هیچ نرونی به نرون‌های لایه قبل اتصال ندارد. ولی چنین اتصالاتی را در ساختار بازگشتی خواهیم داشت. فرآیند یادگیری شبکه‌های عصبی نیز مانند آنچه در داده‌کاوی هدایت‌شده و غیر هدایت‌شده ذکر شد، می‌تواند بصورت با ناظر و بدون ناظر باشد. در یادگیری با ناظر، داده‌های آموزشی برچسبی به عنوان متغیر هدف دارند ولی یادگیری بدون ناظر فاقد متغیر هدف است. در یادگیری ترکیبی، از هر دو فرآیند در شبکه عصبی استفاده می‌شود. تابع فعال‌سازی نیز خروجی هر نرون را بر اساس ورودی‌های آن و همچنین حد آستانه نرون مشخص می‌کند. تابع علامت و تابع گامی مثال‌هایی از تابع فعال‌سازی باینری هستند و تابع سیگموید و تانژانت هایپربولیک و خطی جزو توابع فعال‌سازی پیوسته هستند ADDIN EN.CITE Karray200443(Karray and Silva 2004)43436Fakhreddine O. KarrayClarence de SilvafirstSoft Computing and Intelligent Systems design Theory, Tools and Applications2004EnglandPearson Education Limited(Karray and Silva 2004). شکل STYLEREF 1 \s ‏2 SEQ شکل \* ARABIC \s 1 4 : شبکه عصبی با دو لایه پنهان مانند دیگر الگوریتم‌های یادگیری ماشین، یادگیری شبکه‌های عصبی نیز با داده‌های آموزشی صورت می‌گیرد. در پایان این مرحله، برای تمامی اتصالات نرون‌ها وزن‌های مناسبی قرار داده می‌شود. سپس، برای ارزیابی آن از داده‌های تست استفاده می‌کنند. شبکه عصبی آموزش دیده شده مانند یک جعبه سیاه کار می‌کند؛ در واقع درکی از وزن‌ها و لایه‌های پنهان به داده‌کاو نمی‌دهد. جعبه سیاه بودن شبکه‌های عصبی از معایب آن به حساب می‌آید. از دیگر معایب این الگوریتم این است که فقط در مورد داده‌های عددی کار می‌کنند. الگوریتم‌های خوشه‌بندی چنانچه پیش‌تر توضیح داده شد، یکی از وظایف اصلی داده‌کاوی خوشه‌بندی است. در خوشه‌بندی داده‌ها بر اساس شباهتی که به یکدیگر دارند به خوشه‌هایی افراز می‌شوند؛ بنابراین، معیار اصلی این تکنیک اندازه‌گیری شباهت داده‌ها است. لازم است قبل از توضیح هرگونه الگوریتم خوشه‌بندی، به معرفی انواع فاصله‌ها به عنوان معیاری برای اندازه‌گیری شباهت بپردازیم. فرض کنید داده‌های ورودی دارای n ویژگی باشند، بنابراین هر داده را می‌توان بوسیله یک بردار n بعدی نمایش داد. اگر x و y دو نمونه از داده‌ها باشند خواهیم داشت: x=x1,x2,…,xn, y=y1,y2,…,yn جدول 2-3 تعاریف ریاضی انواع فاصله‌ها را نمایش می‌دهد ADDIN EN.CITE شهرابی13883(شهرابی and شجاعی 1388)336<style face="normal" font="default" charset="178" size="100%">داده‌کاوی پیشرفته - مفاهیم و الگوریتم‌ها</style>(شهرابی and شجاعی 1388). جدول STYLEREF 1 \s ‏2 SEQ جدول \* ARABIC \s 1 3 : انواع فاصله‌ها تابع فاصلهفرمولفاصله اقلیدسیdx,y=i=1n(xi-yi)2فاصله همینگdx,y=i=1n|xi-yi|فاصله چبیشفdx,y=maxi=1,2,…,n|xi-yi|فاصله مینکوفسکیdx,y=pi=1n(xi-yi)p p≻0فاصله کانبراdx,y=i=1n|xi-yi|xi+yiجدایی زاویه‌ایdx,y=i=1nxiyi[i=1nxi2i=1nyi2]12 ما در این تحقیق به معرفی مختصر دو تکنیک خوشه‌بندی اکتفا کرده‌ایم. K – Means: در این الگوریتم تعداد خوشه‌ها (K) مشخص بوده و الگوریتم با تابع هدف حداقل نمودن فواصل درون یک خوشه به انتخاب K مرکز خوشه می‌پردازد. گام‌های این الگوریتم به صورت زیر است: انتخاب k مرکز خوشه اولیه به صورت تصادفی خوشه‌بندی داده‌ها: هر داده به خوشه‌ای تعلق دارد که کمترین فاصله را با مرکز آن خوشه داشته باشد. به روز کردن k مرکز خوشه از طریق محاسبه میانگین وزنی اعضای هر خوشه مراحل 2 و 3 تا زمان یافتن حداقل فاصله درون خوشه‌ای ادامه می‌یابد. نگاشت‌های خودسازمانده (SOM): تکنیک SOM که توسط کوهنن معرفی شد، نوعی شبکه عصبی است که به خوشه‌بندی داده‌ها می‌پردازد. این شبکه عصبی در حیطه شبکه‌های عصبی بدون ناظر قرار دارد و بدین معنی است که برای به روز کردن وزن‌های اتصالات شبکه نیازی به تاثیر بازخورد ناظر نیست؛ به همین دلیل به عنوان خودسازمانده شناخته می‌شوند. ساختار این شبکه فقط دارای دو لایه است؛ یک لایه ورودی که به اندازه ابعاد (تعداد ویژگی‌ها) داده‌های ورودی نرون دارد و یک لایه خروجی که به اندازه تعداد خوشه‌ها نرون دارد و می‌توانند در ابعاد مختلف سازمان یابند. تمامی نرون‌های ورودی به تمامی نرون‌های خروجی متصل هستند؛ بنابراین، برای هر نرون خروجی یا به عبارت دیگر برای هر خوشه، اوزان کمان‌های متصل به آن خوشه را می‌توان در غالب یک بردار وزن برای آن خوشه در نظر گرفت. ابعاد بردارهای وزن خوشه‌ها هم‌بعد باداده‌های ورودی است ADDIN EN.CITE Karray200443(Karray and Silva 2004)43436Fakhreddine O. KarrayClarence de SilvafirstSoft Computing and Intelligent Systems design Theory, Tools and Applications2004EnglandPearson Education Limited(Karray and Silva 2004). شکل 2-5 ساختار این شبکه را نشان می‌دهد. شکل STYLEREF 1 \s ‏2 SEQ شکل \* ARABIC \s 1 5 : ساختار SOM الگوریتم SOM بر مبنای یادگیری رقابتی است؛ بدین معنا که نرون‌های خروجی بر اساس شباهتی که با بردار ورودی دارند با یکدیگر رقابت می‌کنند و نرونی که بیشترین شباهت را با بردار ورودی داشته باشد به عنوان نرون برنده انتخاب می‌شود. بر اساس همین الگوریتم یادگیری رقابتی است که SOM قادر خواهد بود داده‌های ورودی را بر اساس شباهت موجود بین داده‌ها خوشه‌بندی کند. از آنجایی که در SOM ویژگی‌های توپولوژیکی مربوط به مجموعه داده حفظ می‌شود، می‌توان از آن برای اهداف کاهش بعد نیز استفاده کرد. در واقع این بدان معناست که، اگر دو داده در فضای ابعاد اولیه به یکدیگر نزدیک باشند، این وضع در فضای تقلیل یافته نیز حفظ می‌شود. قبل از بیان گام‌های الگوریتم لازم است با مفهوم همسایگی در این الگوریتم آشنا شویم. شعاع همسایگی برای یک نرون لایه خروجی مشخص کننده نرون‌های همسایه آن نرون است. مراحل الگوریتم SOM به صورت زیر است ADDIN EN.CITE Karray200443(Karray and Silva 2004)43436Fakhreddine O. KarrayClarence de SilvafirstSoft Computing and Intelligent Systems design Theory, Tools and Applications2004EnglandPearson Education Limited(Karray and Silva 2004): تمامی وزن‌ها (wijها) و نرخ یادگیری α و شعاع همسایگی Nc مقداردهی اولیه می‌شوند. یک داده ورودی x از مجموعه داده‌های ورودی به شبکه معرفی می‌شود. انتخاب نرون برنده بر اساس معیار فاصله (معمولا فاصله اقلیدسی در نظر گرفته می‌شود) : l=x-wc= minijx-wij به روز کردن وزن نرون برنده و نرون‌های همسایه از تکرار k به تکرار k+1: wijk+1=wijk+∝kx-wijk if i,j∈Nc(k)wijk otherwise تکرار گام‌های 2 تا 4 به ازای تمامی برداهای ورودی. کاهش نرخ یادگیری و شعاع همسایگی بر اساس رویکردی مشخص برای دوره بعد. تکرار گام‌های 2 تا 6 تا زمان تحقق شرط خاتمه (معمولا تعداد مشخصی تکرار). K - نزدیکترین همسایه اين الگوريتم نیز بر اساس شباهت‌ها کار مي‌کند. هر داده اگر داراي n ويژگي باشد يک نقطه در فضاي n بعدي است. تمام داده‌هاي آموزشي در فضاي n بعدي ذخيره مي‌شوند. زماني که داده‌اي با کلاس نامشخص داده شود، k همسايه نزديک به آن در اين فضا شناسايي می‌شوند و برچسب داده مورد نظر با توجه به برچسب این k همسایه تعیین می‌شود ADDIN EN.CITE Larose20052(Larose 2005)226Daniel T. LaroseDiscovering knowledge in data : an introduction to data mining2005Hoboken, New JerseyJohn Wiley & Sons, Inc(Larose 2005). براي محاسبه فاصله بين رکوردها از فاصله متري و به طور معمول از فاصله اقليدسي استفاده مي‌شود. مقدار پارامتر k، به‌صورت تجربي تعيين مي‌شود. ابتدا با 1=k شروع و در هر مرحله با استفاده از داده‌هاي تست نرخ خطاي دسته‌بندي محاسبه مي‌شود؛ در هر مرحله مقدار k يک واحد افزايش داده مي‌شود. در انتها کوچک‌ترين k که کمترین نرخ خطا را داشته باشد، انتخاب مي‌شود. کوچک بودن مقدار k باعث مي‌شود داده جديد به تعداد نقاط کم‌تري وابسته باشد، در اين صورت خطا زياد مي‌شود. حال اگر مقدار k بزرگ باشد، داده جديد به کلاس‌هاي بيشتري وابسته مي‌شود، در اين صورت نيز خطا زياد است. مقدار k بايد يک مقدار مياني باشد. از آنجایی که این الگوریتم مدلی برای دسته‌بندی داده‌ها ایجاد نمی‌کند و فقط داده‌های آموزشی را در یک فضای n بعدی قرار می‌دهد، زمان اجرای الگوریتم در مرحله آموزش کم است. ولی زمانی که داده جدیدی به الگوریتم معرفی می‌شود، برای تعیین برچسب آن محاسبات بیشتری باید انجام دهد. بنابراین زمان اجرا در مرحله تست بیشتر خواهد بود. ماشین بردار پشتیبان (SVM) ماشین‌های بردار پشتیبان در ابتدا توسط وپنیک در دهه 90 میلادی توسعه داده شدند ADDIN EN.CITE شهرابی13883(شهرابی and شجاعی 1388)336<style face="normal" font="default" charset="178" size="100%">داده‌کاوی پیشرفته - مفاهیم و الگوریتم‌ها</style>(شهرابی and شجاعی 1388). این الگوریتم ابزاری قدرتمند برای حل مسائل دسته‌بندی دو کلاسه است بگونه‌ای که بتوان کلاس‌ها را بطور خطی از یکدیگر جدا کرد. هدف SVM عبارت است از یافتن ابرصفحه جداکننده نقاط داده‌ای متعلق به دو کلاس با بیشترین حاشیه و بهترین توانایی تعمیم. حاشیه، از دیدگاه هندسی عبارت است از فاصله موجود بین ابر صفحه و نزدیک‌ترین نمونه آموزشی. از یک منظر دیگر، حاشیه اینگونه تعریف می‌شود: مقدار فضا یا جدایی موجود میان دو کلاس که توسط ابرصفحه تعریف می‌شود. به نزدیک‌ترین نمونه‌های آموزشی به ابر صفحه جداکننده به اصطلاح بردار پشتیبان گفته می‌شود ADDIN EN.CITE شهرابی13883(شهرابی and شجاعی 1388)336<style face="normal" font="default" charset="178" size="100%">داده‌کاوی پیشرفته - مفاهیم و الگوریتم‌ها</style>(شهرابی and شجاعی 1388). شکل 2-6 خط جداکننده را به همراه بردارهای پشتیبان در فضای دو بعدی نشان می‌دهد. شکل STYLEREF 1 \s ‏2 SEQ شکل \* ARABIC \s 1 6: خط جداکننده SVM تکنیک SVM در برخورد با داده‌هایی که به صورت خطی از یکدیگر جدا نمی‌شوند از یک نگاشت غیرخطی برای تبدیل داده‌های آموزشی به داده‌هایی با ابعاد بالاتر استفاده می‌کند. بدین ترتیب داده‌های تبدیل شده در ابعاد بالاتر به صورت خطی جدا پذیر خواهند بود. تابعی که وظیفه‌ی این نگاشت را به عهده دارد تابع کرنل نامیده می‌شود. همچنین، تعمیم‌هایی از الگوریتم SVM برای حل مسائل دسته‌بندی چندکلاسه توسعه یافته است. اگرچه بنابر آنچه که گفته شد تکنیک SVM ابزاری قدرتمند برای حل اکثر مسائل دسته‌بندی است، ولی از جمله مهمترین معایب آن می‌توان به این نکته اشاره کرد که این تکنیک به محاسبات پیچیده و زمان‌بر نیاز دارد. به عبارت دیگر، SVM دارای پیچیدگی الگوریتمی بالا است و همچنین نیاز به حافظه زیادی دارد. بیز ساده‌لوحانه طبقه‌بندي کننده‌هاي بيز، روشهایي آماري براي دسته‌بندي هستند. در اين الگوريتم‌ها احتمال عضويت داده‌ها در کلاس محاسبه مي‌شود. اين طبقه‌بندي کننده بر پايه قضيه بيز کار مي‌کند. از مزاياي آن مي‌توان به سرعت و دقت بالاي آن‌ اشاره کرد. پس زماني که مجموعه داده‌ بزرگ باشد، مي‌توان از اين طبقه‌بندي کننده استفاده کرد. اين الگوريتم احتمال عضويت داده جديد را در هر کلاس محاسبه مي‌کند و داده متعلق به کلاسي خواهد بود که بيشترين احتمال عضويت را داشته باشد. در اين الگوريتم براي محاسبه احتمال عضويت فرض شده است که ويژگي‌ها از هم‌ مستقل هستند، به‌عبارت ديگر فرض مي‌شود بين ويژگي‌ها هيچ هم‌بستگي وجود ندارد. اگرچه این الگوریتم از قدرت دسته‌بندی بالایی برخوردار است ولی گاهی اوقات مفروضات آن ممکن است بر دقت دسته‌بندی اثر منفی داشته باشند. سیستم‌های چند دسته‌بند سیستم‌های چند دسته‌بند (MCSs) راه حل قدرتمندی برای مسائل تشخیص الگوی پیچیده هستند. قدرت این سیستم‌ها در اجازه استفاده همزمان از روش‌های دسته‌بند متنوع برای حل یک مسئله خاص است. این سیستم‌ها با ترکیب خروجی مجموعه‌ای از دسته‌بندهای متفاوت سعی در بهبود کارایی و رسیدن به دقت بالاتر را دارند. بطور کلی MCSs شامل گروهی از الگوریتم‌های دسته‌بند متفاوت و همچنین یک تابع تصمیم برای ترکیب خروجی دسته‌بندها است. بنابراین، طراحی چنین سیستمی شامل دو بخش است: طراحی گروه دسته‌بندها و طراحی تابع ترکیب ADDIN EN.CITE Ghosh200244(Ghosh 2002)44445Joydeep GhoshFabio RoliJosef KittlerMulticlassifier Systems: Back to the FutureMultiple Classifier Systems1-152002Springer Berlin Heidelberg(Ghosh 2002). در بخش طراحی گروه دسته‌بندها دو ساختار متفاوت قابل اجراست: ساختار موازی و ساختار آبشاری ADDIN EN.CITE Ghosh200244(Ghosh 2002)44445Joydeep GhoshFabio RoliJosef KittlerMulticlassifier Systems: Back to the FutureMultiple Classifier Systems1-152002Springer Berlin Heidelberg(Ghosh 2002). در شکل 2-7 این دو ساختار نمایش داده شده است. همچنین در بخش ترکیب نتایج دسته‌بندها، توابع ترکیب گوناگونی وجود دارد. میانگین و میانگین وزنی، روشهای ترکیب غیر خطی و روش انتگرال فازی از جمله روش‌هایی هستند که در این بخش مورد استفاده قرار می‌گیرند. روش‌های ترکیب غیر خطی شامل متدهای رأی گیری، متدهای رتبه دهی و متدهای احتمالی می‌باشد. توضیح کامل روشهای ترکیب نتایج دسته‌بندها در ADDIN EN.CITE Xu199245(Xu, Krzyzk et al. 1992)454517L. XuA. KrzyzkC. SuenMethods of combining multiple classifiers and their application to handwriting recognitionIEEE Transactions on Systems, Man and CyberneticsIEEE Transactions on Systems, Man and Cybernetics418-4352231992(Xu, Krzyzk et al. 1992) و ADDIN EN.CITE Ruta200046(Ruta and Gabrys 2000)464617Dymitr RutaBogdan GabrysAn Overview of Classifier Fusion MethodsComputing and Information SystemsComputing and Information Systems1-1072000(Ruta and Gabrys 2000)ارائه شده است. شکل STYLEREF 1 \s ‏2 SEQ شکل \* ARABIC \s 1 7: ساختار گروه دسته‌بندها ساختار سیستم و همچنین نوع تابع ترکیب مورد استفاده با توجه به مسئله مورد بررسی انتخاب می‌شوند. الگوریتم ژنتیک محاسبات تکاملی، بر مبنای تکامل یک جمعیت از جواب‌های کاندید برای حل مسئله‌های بهینه‌سازی با الهام از عملگرهای انتخاب طبیعی توسعه یافته‌اند. الگوریتم ژنتیک با تکیه بر نظریه داروین برای تولید جمعیت بعدی تکامل‌یافته‌تر از فرآیند تولید مثل الهام می‌گیرد و کاربرد گسترده‌ای در حل مسائل NP-hard دارد ADDIN EN.CITE Mitra20035(Mitra and Acharya 2003)556Sushmita MitraTinku AcharyaData Mining: Multimedia, Soft Computing, and Bioinformatics2003A JOHN WILEY & SONS, INC.(Mitra and Acharya 2003). این الگوریتم با انتخاب دو عضو تصادفی از میان بهترین‌های جمعیت و انجام عمل تقاطع و جهش و تکرار آن، نسل بعدی جمعیت را تولید می‌کند. برای درک بهتر الگوریتم ژنتیک به تعاریفی نیاز است که به قرار زیر است: ژن: واحد پایه ژنتیک است. کروموزوم: به گروهی از ژن‌ها اطلاق می‌شود. هر عضو از جمعیت یک کروموزون است و معمولا به صورت آرایه پیاده‌سازی می‌شود. تقاطع: عملگری است که بر روی دو کروموزوم انتخاب شده به عنوان والدین اعمال می‌شود برای تولید فرزندان. جهش: عملگری است که بر روی یک فرزند اعمال می‌شود برای تغییر مقدار یک ژن. آنچه در این میان از اهمیت ویژه‌ای برخردار است نحوه ارزیابی اعضای جمعیت برای تعیین بهترین کروموزوم‌ها است. در الگوریتم ژنتیک این ارزیابی توسط تابعی به عنوان تابع برازندگی انجام می‌شود. تابع برازندگی با توجه به مسئله تعریف می‌شود و به هر یک از اعضای جمعیت مقداری را بر اساس مقادیر ژن‌ها نسبت می‌دهد. مراحل الگوریتم ژنتیک به صورت زیر است: ایجاد جمعیت اولیه بصورت تصادفی محاسبه تابع برازندگی برای هر عضو انتخاب والدین با توجه بر مقادیر تابع برازندگی هر عضو انجام عمل تقاطع و تولید جمعیت فرزندان انجام عمل جهش با احتمالی خاص ایجاد جمعیت جدید اگر شرایط خاتمه برقرار نبود به گام 2 برگرد در غیر این صورت به گام 8 برو پایان. برای هر یک از گام‌های این الگوریتم رویکردهای متفاوتی وجود دارد که این امر موجب شده تا نسخه‌ها و توسعه‌های زیادی از الگوریتم ژنتیک تولید شود و به ابزار قدرتمند برای حل مسائل بهینه‌سازی تبدیل شود. کاربرد داده‌کاوی در CRM داده‌های مربوط به مشتریان و تکنولوژی اطلاعات، زیر ساخت‌هایی هستند که هر استراتژی موفق CRM بر پایه آنها ساخته می‌شوند. بعلاوه رشد سریع اینترنت و تکنولوژی‌های مربوط به آن، بصورت گسترده‌ای باعث افزایش فرصت‌های بازاریابی گردیده و روش مدیریت روابط بین شرکت‌ها و مشتریانشان را تغییر داده است. ابزارهای داده‌کاوی در راستای تحلیل داده‌های مشتری در ساختار CRM تحلیلی، بسیار مرسوم هستند. بسیاری از سازمان‌ها داده‌هایی در مورد مشتریان جاری، مشتریان بالقوه، تامین‌کنندگان و شرکای تجاری جمع‌آوری و ذخیره می‌کنند. عدم توانایی کشف اطلاعات ارزشمند پنهان در میان این داده‌ها مانع از این می‌شود که سازمان‌ها این داده‌ها را به دانش مفید و با ارزش تبدیل کنند. ابزارهای داده‌کاوی کمک می‌کنند تا سازمان‌ها این دانش نهفته را از میان حجم عظیم داده‌ها استخراج کنند. کاربرد ابزارهای داده‌کاوی در CRM، روندی نوظهور در تجارت جهانی است. با وجود داده‌های جامع مشتریان، تکنولوژی داده‌کاوی می‌تواند هوش تجاری با قابلیت ایجاد فرصت‌های جدید فراهم آورد. تحلیل و فهم رفتار و مشخصات مشتری مبنای توسعه یک استراتژی CRM رقابتی برای بدست آوردن و نگه داشتن مستریان بالقوه و ماکزیمم کردن ارزش مشتری است. از آنجایی که تکنولوژی CRM در ارتباط مستقیم با داده‌های مشتری است و هر کجا که داده‌های وسیع وجود داشته باشد ابزارهای داده‌کاوی می‌توانند مفید باشند، اکثر تکنیک‌ها و استراتژی‌های CRM می‌توانند از داده‌کاوی بهره بگیرند. در ادامه نمونه‌هایی از این کاربردها را توضیح خواهیم داد. داده‌کاوی برای بهبود بازاریابی مستقیم از تبلیغات می‌توان برای رسیدن به مشتریان بالقوه‌ای که چیزی در مورد آنها به عنوان یک فرد نمی‌دانیم استفاده کرد. اما در مقابل، بازاریابی مستقیم، نیازمند داشتن حداقل اندکی اطلاعات مانند نام فرد به همراه آدرس، شماره تلفن یا آدرس پست الکترونیک است. پایه‌ای‌ترین کاربرد داده‌کاوی، تعیین لیست مشتریان بالقوه برای برقراری تماس با آنها است. در واقع، مرحله اول هدف‌گیری، نیازی به داده‌کاوی ندارد بلکه تنها به داده نیاز است. حتی در کشورهای توسعه‌یافته هم داده‌های بسیار کمی نسبت به بزرگی جامعه در دسترس است. در بسیاری از کشورها شرکت‌هایی وجود دارند که داده‌هایی را در سطح خانوارها در مورد موضوعات گوناگون از جمله درآمد، تعداد فرزندان، سطح تحصیلات و حتی نوع تفریحات جمع‌آوری کرده و می‌فروشند. از طرف دیگر، قوانین حاکم بر استفاده از این داده‌ها برای اهداف بازاریابی از کشوری به کشور دیگر متفاوت است. می‌توان داده‌های در سطح خانوار را به طور مستقیم برای تقسیم‌بندی اولیه بر اساس درآمد، تملک خودرو و وجود فرزندان بکار برد. مشکل این است که حتی بعد از فیلتر کردن اطلاعات هم داده‌های باقیمانده به میزان زیادی به تعداد مشتریان بالقوه که احتمال دارد جواب بدهند وابسته خواهد بود؛ بنابراین، کاربرد اصلی داده‌کاوی در مورد مشتریان بالقوه، هدف‌گیری مشتریان یعنی پیدا کردن مشتریان بالقوه‌ای که احتمالا به پیشنهاد ارائه شده پاسخ واقعی می‌دهند، است ADDIN EN.CITE شهرابی13901(شهرابی 1390a)116<style face="normal" font="default" charset="178" size="100%">داده‌کاوی</style>(شهرابی 1390a). فعالیت‌های بازاریابی مستقیم معمولا دارای نرخ‌های پاسخ بسیار کم و تک‌رقمی هستند. از مدل‌های پاسخ با تعیین مشتریان بالقوه‌ای که احتمال پاسخ به یک درخواست مستقیم را دارند، برای بهبود نرخ پاسخ استفاده می‌شود ADDIN EN.CITE شهرابی13901(شهرابی 1390a)116<style face="normal" font="default" charset="178" size="100%">داده‌کاوی</style>(شهرابی 1390a). مفیدترین مدل‌های پاسخ، تخمین واقعی از احتمال پاسخ را فراهم می‌کنند. هر مدلی که امکان رتبه‌بندی مشتریان بالقوه را بر اساس احتمال پاسخ‌دهی فراهم کند، مناسب است. تکنیک‌های داده‌کاوی را می‌توان برای مدل‌سازی پاسخ و بهبود بازاریابی مستقیم بکار برد. بخش‌بندی مشتریان بخش‌بندی مشتریان یکی از کاربردهای معمول داده‌کاوی در رابطه با مشتریانی است که جذب سیستم شده‌اند؛ هدف بخش‌بندی، همگن نمودن محصولات، خدمات و پیام‌های بازاریابی با هر کدام از بخش‌ها است ADDIN EN.CITE شهرابی13901(شهرابی 1390a)116<style face="normal" font="default" charset="178" size="100%">داده‌کاوی</style>(شهرابی 1390a). بخش‌بندی مشتریان پایه فعالیت‌های شرکت در زمینه‌های فروش، بازاریابی و خدمت رسانی است. مشتریان در هر دسته دارای خصوصیات مشابهی هستند و مشتریان که در دسته‌های مختلف هستند ویژگی‌های متفاوتی دارند. بخش‌بندی مشتریان بطور سنتی بر اساس تحقیقات در بازار و ویژگی‌های جمعیت‌شناختی صورت پذیرفته و مثلا بخش‌هایی چـون "جوان و مجرد" بوجود می‌آید. مشکل انجام بخش‌بندی مشتریان بر اساس تحقیقات در بازار این است که بکارگیری نتایج حاصله از مطالعه برای مشتریانی که آن مطالعه شامل آنان نبوده مشکل است؛ از سوی دیگر، مشکل بخش‌بندی بر اساس ویژگی‌های جمعیت‌شناختی هم این است که مثلا تمامی افراد "جوان و مجرد" یا "کسانی که تنها زندگی می‌کنند" به راستی دارای سلیقه و گرایشی نیستند که به آنها در مورد کالاها و خدمات نسبت داده شده است. تحلیل تعداد محدودی از متغیرها و نداشتن نگاه جامع مشتمل بر تمامی متغیرها از جمله معایب بخش‌بندی بوسیله ابزارهای تحقیقات بازار است. دانش داده‌کاوی با برخورداری از توانمندی در نظر گرفتن تمامی متغیرها، نتایج کاملا عینی، واقعی و کاربردی ارائه می‌نماید ADDIN EN.CITE شهرابی13901(شهرابی 1390a)116<style face="normal" font="default" charset="178" size="100%">داده‌کاوی</style>(شهرابی 1390a). همچنین به منظور پیاده‌سازی روش‌های بازاریابی مستقیم از تکنیک‌های خوشه‌بندی استفاده می‌شود تا با تقسیم‌بندی مشتریان در خوشه‌های مختلف از این خوشه‌ها به عنوان مبنای دسته‌بندی و پس از آن پیش‌بینی دسته هر مشتری استفاده می‌شود ADDIN EN.CITE Ngai20097(Ngai, Xiu et al. 2009)7717E.W.T. NgaiLi XiuD.C.K. ChauApplication of data mining techniques in customer relationship management: A literature review and classificationExpert Systems with ApplicationsExpert Systems with Applications2592–2602362009(Ngai, Xiu et al. 2009). بخش‌بندی مشتریان اساس بازاریابی و سرویس‌دهی اثربخش یک سازمان است که تعداد زیاد مشتریان را در دسته‌هایی طبقه‌بندی می‌کند که چنانچه ذکر شد مشتریان یک دسته دارای خصوصیات مشابهی با هم و خصوصیات متفاوتی با مشتریان سایر گروه‌ها هستند. در مقایسه با روش‌های سنتی بخش‌بندی مشتریان، استفاده از تکنیک‌های داده‌کاوی مزایایی دارد که در ذیل به آنها اشاره می‌کنیم: نتایج بخش‌بندی به کمک داده‌کاوی بر اساس واقعیت داده‌ها شکل می‌گیرد و نقش فاعلی افرادی که داده‌ها را پردازش می‌کنند حذف می‌گردد که باعث می‌شود نتایج نهایی هدف نشان دادن تفاوت‌های میان جمعیت‌ها را بیشتر محقق کند. مشخصات تقسیم‌بندی مشتریان در گروه‌های متفاوت را به صورت جامع‌تر نمایش می‌دهد که این موضوع منجر به شناخت کامل‌تر متخصصان بازاریابی از مشتریان می‌شود و از این طریق برنامه‌های بازاریابی هدفمند و اختصاصی قابل اجرا است. تغییرات رفتاری مشتریان می‌تواند به سادگی با کنار هم گذاشتن مدل‌های تحلیل خوشه‌بندی و به روز کردن گروه مشتریان به صورت منظم پیکیری شود. قرار دادن تعدای از ویژگی‌های مشتریان در مجموعه‌ای تحت عنوان پروفایل مشتریان روش مرسوم است که از آن برای بخش‌بندی مشتریان در گروه‌های با رفتار مشابه مثلا خرید محصولات یکسان، استفاده می‌شود. داده‌کاوی می‌تواند نرخ پاسخ کمپین‌های بازاریابی را با تقسیم‌بندی مشتریان به گروه‌های با خصوصیات و نیازهای متفاوت افزایش دهد. افزایش ارزش مشتری محاسبه ارزش مشتری پیچیده است و این محاسبات بطور معمول شامل یافتن تعاریف صحیح مالی می‌شوند. یک بیان ساده از ارزش مشتری عبارت است از کل ارزش حاصله از وجود مشتری منهای کل هزینه مصرف شده برای حفظ مشتری ADDIN EN.CITE شهرابی13901(شهرابی 1390a)116<style face="normal" font="default" charset="178" size="100%">داده‌کاوی</style>(شهرابی 1390a). ولی هزینه‌ها بسیار مشکل آفرین هستند؛ تجارت‌ها دارای انواع هزینه‌هایی هستند که احتمالا از طریق خاصی به مشتریان اختصاص می‌یابند. حتی با در نظر نگرفتن هزینه‌های تخصیص یافته و توجه به هزینه‌های مستقیم، باز هم مسائل، همچنان گیج‌کننده خواهد بود. از طرف دیگر، ممکن است هزینه‌ها برای مشتریان مشابه، متفاوت باشد که این امر محاسبه ارزش مشتری را پیچیده‌تر می‌کند. از داده‌کاوی می‌توان برای برآورد ارزش آینده مشتریان استفاده کرد؛ این امر شامل تخمین سود حاصله از یک مشتری در هر واحد زمان و سپس تخمین این سود برای بقیه عمر مشتری است. به منظور افزایش ارزش کسب شده از مشتریان موجود، استراتژی‌های فروش جانبی بکار گرفته می‌شود. فروش جانبی بر اساس اصل برد – برد بنا شده است؛ یعنی شرکت‌ها محصولات جدیدشان را به مشتریان جاری خود می‌فروشند تا از این طریق اهداف دو طرف عرضه و تقاضا برآورده شود. مشتری به آسانی خدمت یا محصول مورد تقاضای خود را بدست می‌آورد و سازمان‌ها از طریق افزایش فروش خود سود کسب می‌کنند. در واقع فروش جانبی سود حاصله از مشتریان موجود را افزایش می‌دهد. در مورد مشتریان فعلی، بیشترین تمرکز CRM بر افزایش سوددهی از طریق فروش جانبی است. از داده‌کاوی برای تعیین اینکه چه پیشنهادی را به چه کسی و در چه زمانی عرضه کرد استفاده می‌شود. یکی از روش‌ها در فروش جانبی که برای اجناس خرده‌فروشی بسیار مناسب است استفاده از قوانین همبستگی است. از قوانین همبستگی به منظور یافتن خوشه‌هایی از محصولات که معمولا با هم فروخته می‌شوند یا بوسیله فرد یکسانی در طول زمان خریداری می‌گردند، استفاده می‌شوند. مشتریانی که برخی و نه تمام اقلام موجود در یک خوشه را خریداری می‌کنند، مشتریان بالقوه مناسبی برای خرید سایر اقلام آن خوشه هستند. داده‌کاوی و افزایش ارزش دوره عمر مشتری در برخی منابع، رویکرد CRM در چرخه عمر مشتری را متشکل از سه مرحله زیر در نظر گرفته‌اند ADDIN EN.CITE اکبری13896(اکبری 1389)6632<style face="normal" font="default" charset="178" size="100%">کاربرد داده‌کاوی در مدیریت ارتباط با مشتریان: مطالعه موردی در شرکت سایپا یدک</style>(اکبری 1389): بدست آوردن مشتری افزایش ارزش مشتری حفظ مشتریان خوب داده‌کاوی می‌تواند در هر یک از مراحل ذکر شده کارایی و سوددهی را افزایش دهد. اولین قدم در CRM شناسایی مشتریان احتمالی و تبدیل آنها به مشتریان فعال است. جذب مشتری به معنای بالفعل درآوردن تقاضای مشتریانی است که اطلاعات کمی از محصولات شما دارند. داده‌کاوی می‌تواند بصورت مناسبی مشتریان را دسته‌بندی کند، مشتریان احتمالی را شناسایی کند و از این طریق نرخ پاسخ به فعالیت‌های بازاریابی را افزایش دهد. چنانچه قبلا ذکر شد، مدل‌های پاسخ از ابزارهای کاربردی داده‌کاوی در این زمینه هستند که در واقع از تکنیک‌های دسته‌بندی و پیش‌بینی برای تشخیص مشتریانی که احتمالا به یک محصول یا خدمت پاسخ مثبت می‌دهند، استفاده می‌کنند. کمپین‌های بازاریابی یکی دیگر از استراتژی‌های CRM است که در مرحله جذب مشتری می‌تواند مفید باشد. داده‌کاوی کمک می‌کند تا شرکت‌ها با هزیته‌های کمتر و استراتژی‌های جذب کاراتر با توجه به خصوصیات متفاوت مشتریان، موفقیت بیشتری در کسب مشتریان داشته باشند. روش‌هایی چون بخش‌بندی بازار هدف و مشتریان برای انجام بازاریابی هدفگرا متداول‌ترین ابزارها در این مرحله بشمار می‌روند. داده‌کاوی می‌تواند با فهم فروش جانبی به بازاریابی موثرتر کمک کند. با آنالیز رفتار مشتریان موجود می‌توان سرویس‌ها و محصولات دیگر را به آنان ارائه کرد و با دسته‌بندی مشتریان میزان پاسخگویی مشتریان به کمپین‌های بازاریابی را افزایش داد. همچنین، از طریق داده‌کاوی می‌توان مشتریان باارزش‌تر سازمان را شناسایی کرد. مشتریانی که مصرف بیشتری دارند و به محصولات بیشتری پاسخ مثبت می‌دهند و نسبت به سازمان وفادارتر هستند، مشتریان باارزش به حساب می‌آیند. بنابراین، در مرحله دوم یعنی افزایش ارزش مشتریان موجود، با استفاده از تکنیک‌های داده‌کاوی و تحلیل داده‌های مربوط به رفتار مشتریان و خریدهایشان، می‌توان پیشنهادهای مناسبی برای خرید سایر کالاها به آنها ارائه داد تا از این طریق ارزش مشتریان برای شرکت افزایش یابد بدون اینکه بدلیل پیشنهادات نامناسب موجب نارضایتی آنها شویم. همچنین، به کمک داده‌کاوی می‌توان روابط را با مشتریان شخصی‌سازی کرد به نحوی که در مراجعات مجدد آنها با توجه به خریدهای گزشته‌شان، محصولات جدید و مرتبط که احتمالا مورد علاقه‌شان است به آنها پیشنهاد شوند. چنین فرایندی با استفاده از تکنیک‌های مختلف داده‌کاوی همچون قوانین همبستگی و خوشه‌بندی قابل انجام است ADDIN EN.CITE اکبری13896(اکبری 1389)6632<style face="normal" font="default" charset="178" size="100%">کاربرد داده‌کاوی در مدیریت ارتباط با مشتریان: مطالعه موردی در شرکت سایپا یدک</style>(اکبری 1389). در مرحله سوم، یعنی حفظ مشتریان خوب، آنچه قابل توجه است ذکر این نکته است که امروزه در سازمان‌ها هزینه‌ای که صرف جذب مشتری جدید می‌شود بسیار بیشتر از هزینه‌ای است که سازمان‌ها برای نگهداری مشتریان موجودشان انجام می‌دهند. بسیاری از شرکت‌ها بر این باورند که هزینه جذب یک مشتری جدید بین 6 تا 8 برابر حفظ مشتری موجود است. از این جهت، سازمان‌ها مبالغ بیشتری را صرف نگهداری مشتریان موجودشان می‌کنند. تحلیل وفاداری مشتری، سنجش میزان ماندگاری و ثبات مشتری است. سازمان‌ها تلاش می‌کنند تا با ارزیابی میزان وفاداری مشتریان‌شان، مشتریانی که دارای ریسک بالایی برای قطع استفاده از محصولات هستند را شناسایی کنند و با تعیین استراتژی‌های موثر وفادار‌سازی از میزان مشتریان از دست رفته بکاهند. همچنین، سازمان برای تعیین نحوه تخصیص منابع خود، مشتریان باارزش خود را هدفگذاری می‌نماید تا منابع مالی محدود خود را صرف حفظ مشتریانی کند که سود بیشتری برای سازمان ایجاد می‌کنند. داده‌کاوی می‌تواند از طریق تحلیل رفتار گذشته و تطبیق آن با رفتار مشتریان از دست رفته پیشین، مشتریانی که دارای احتمال بالای از دست رفتن هستند را شناسایی و پیش‌بینی کند. برای ساخت چنین مدل‌هایی می‌توان مشتریان را به سه دسته تقسیم کرد: اول مشتریانی که ارزشی برای سازمان ندارند. دومین دسته مشتریان با ارزش پایدار برای سازمان و دسته سوم مشتریان ناپایدار که به دنبال قیمت و کیفیت دلخواه خود هستند. بنابر اصول CRM دسته سوم مهمترین دسته‌ای هستند که باید از آنها نگهداری کرد. با شناسایی این گروه از مشتریان می‌توان با تخصیص مشوق‌هایی چون تخفیف‌ها یا خدمات رایگان، آنها را به استفاده از محصولات ترغیب نمود و میزان وفاداری آنها را افزایش داد. همانطور که پیش از این عنوان شد، از آنجایی که برای اکثر شرکت‌ها هزینه جذب مشتری جدید بیشتر از حفظ مشتریان فعلی است، نیاز به استراتژی‌های صحیح در راستای حفظ مشتریان بسیار با اهمیت است. اولین نکته در این مسئله داشتن توانایی پیش‌بینی مشتریانی است که به احتمال زیاد از دست می‌روند. با انتخاب داده‌های مناسب می‌توان با استفاده از تکنیک‌های داده‌کاوی مدلی ارائه نمود که بتواند رفتار مشتریان را پیش‌بینی کند. مرحله بعدی، شناسایی مشتریان خوب شرکت است که با استفاده از تحلیل‌های ارزشگذاری مشتریان صورت می‌گیرد. در نهایت، باید راهکارهایی برای نگه داشتن مشتریان خوب شرکت ارائه نمود. بنابراین، در این بخش به سه مدل نیاز داریم؛ اول مدلی که مشتریانی که از دست خواهند رفت را پیش‌بینی کند، سپس مدلی که مشتریان خوب و با ارزش را از میان آنها شناسایی کند و نهایتا مدلی که روش‌هایی برای متقاعد کردن این مشتریان و حفظ آنها ارائه نماید ADDIN EN.CITE Edelstein15(Edelstein 2000)151517herb Edelsteinbuild profitable customer relationship with data miningTwo Crows CorpTwo Crows Corp2000(Edelstein 2000). ابعاد CRM و کاربردهای داده‌کاوی بر اساس ADDIN EN.CITE Ngai20097(Ngai, Xiu et al. 2009)7717E.W.T. NgaiLi XiuD.C.K. ChauApplication of data mining techniques in customer relationship management: A literature review and classificationExpert Systems with ApplicationsExpert Systems with Applications2592–2602362009(Ngai, Xiu et al. 2009)، CRM دارای چهار بعد شناسایی مشتری، جذب مشتری، حفظ مشتری و توسعه مشتری است. این چهار بعد را می‌توان به عنوان یک چرخه سیستم مدیریت مشتری در نظر گرفت. شناسایی مشتری: CRM با شناسایی مشتری آغاز می‌شود. این فاز شامل هدف‌گذاری جمعیتی است که بیشترین احتمال برای تبدیل شدن به مشتری شرکت را دارند. علاوه بر این شامل تحلیل مشتریانی که در رقابت از دست رفته‌اند و تعیین چگونگی برگرداندن آنها است. تحلیل مشتری هدف و بخش‌بندی مشتری عناصر اصلی شناسایی مشتری هستند ADDIN EN.CITE Ngai20097(Ngai, Xiu et al. 2009)7717E.W.T. NgaiLi XiuD.C.K. ChauApplication of data mining techniques in customer relationship management: A literature review and classificationExpert Systems with ApplicationsExpert Systems with Applications2592–2602362009(Ngai, Xiu et al. 2009). تحلیل مشتری هدف شامل جستجوی بخش‌های سودآور مشتریان از طریق آنالیز مشخصات پنهان مشتریان است. در این بخش از انواع تکنیک‌های توصیف‌کننده و پیش‌بینی‌کننده داده‌کاوی می‌توان استفاده نمود. جذب مشتری: این فاز در ادامه فاز شناسایی مشتری است. پس از شناسایی بخش‌های مشتریان بالقوه، سازمان‌ها می‌توانند به صورت مستقیم تلاش و منابع خود را مصرف جذب مشتریان هدف نمایند. عنصر اصلی جذب مشتری، بازاریابی مستقیم است. بازاریابی مستقیم یک فرایند ارتقاء انگیزه مشتریان برای سفارش از طریق کانالهای مختلف است ADDIN EN.CITE Ngai20097(Ngai, Xiu et al. 2009)7717E.W.T. NgaiLi XiuD.C.K. ChauApplication of data mining techniques in customer relationship management: A literature review and classificationExpert Systems with ApplicationsExpert Systems with Applications2592–2602362009(Ngai, Xiu et al. 2009). برای نمونه، پست مستقیم و توزیع کوپن مثال‌های معمولی بازاریابی مستقیم هستند. حفظ مشتری: این فاز اساسی‌ترین نگرانی برای CRM است. رضایت مشتری که در واقع قیاس بین انتظارات مشتری و احساس رضایتمندی وی است، مهمترین شرط برای حفظ مشتریان است. عناصر این فاز شامل بازاریابی یک به یک، برنامه‌های وفاداری و مدیریت شکایات هستند ADDIN EN.CITE Ngai20097(Ngai, Xiu et al. 2009)7717E.W.T. NgaiLi XiuD.C.K. ChauApplication of data mining techniques in customer relationship management: A literature review and classificationExpert Systems with ApplicationsExpert Systems with Applications2592–2602362009(Ngai, Xiu et al. 2009). بازاریابی یک به یک از ابزارهای داده‌کاوی برای شخصی‌سازی نحوه ارتباط با هر یک از مشتریان استفاده می‌کند. بخش‌بندی و تحلیل ارزش مشتریان در این بعد نیز اهمیت و کاربرد فراوانی دارد. توسعه مشتری: این فاز در بر گیرنده افزایش پایدار تعداد تراکنش‌ها، ارزش تراکنش‌ها و سودآوری مشتریان است. تحلیل ارزش دوره عمر مشتری، متقاعد کردن مشتری به خرید بیشتر، فروش جانبی و تحلیل سبد خرید عناصر این فاز هستند ADDIN EN.CITE Ngai20097(Ngai, Xiu et al. 2009)7717E.W.T. NgaiLi XiuD.C.K. ChauApplication of data mining techniques in customer relationship management: A literature review and classificationExpert Systems with ApplicationsExpert Systems with Applications2592–2602362009(Ngai, Xiu et al. 2009). در واقع در این فاز از تکنیک‌های داده‌کاوی برای یافتن راهکارهای مناسب و کارا برای افزایش ارزش قابل اکتساب از مشتریان فعلی استفاده می‌شود. استفاده از روش RFM برای تحلیل ارزش مشتریان روشی متداول است که در کنار تکنیک‌های خوشه‌بندی کارایی مناسبی از خود نشان داده است. در این روش سه مشخصه تاخیر، فراوانی و مقدار پول به عنوان مبنای خوشه‌بندی و ارزشگذاری مشتریان در نظر گرفته می‌شوند ADDIN EN.CITE Cheng20088(Cheng and Chen 2008)8817Ching-Hsue ChengYou-Shyang ChenClassifying the segmentation of customer value via RFM model and RS theory,expert system with application,expert system with application2008(Cheng and Chen 2008). داده‌کاوی و بازاریابی هدفمند امروزه با تغییر رویکرد ارتباط با مشتریان، رویکرد شرکت‌ها در بازاریابی از بازاریابی با حجم بالا به بازاریابی یک به یک تغییر یافته و همچنین شرکت‌ها به جای هزینه فراوان برای جذب مشتریان جدید و افزایش سهم بازار خود به دنبال حفظ مشتریان فعلی و افزایش سوددهی آنها هستند. داده‌کاوی به شرکت‌ها کمک می‌کند تا هرچه بیشتر به سمت مشتری‌مداری حرکت کنند. بازاریابان سه روش را برای افزایش ارزش مشتری مد نظر قرار داده‌اند ADDIN EN.CITE اکبری13896(اکبری 1389)6632<style face="normal" font="default" charset="178" size="100%">کاربرد داده‌کاوی در مدیریت ارتباط با مشتریان: مطالعه موردی در شرکت سایپا یدک</style>(اکبری 1389): افزایش میزان مصرف و استفاده مشتریان فروختن محصول بیشتر به آنان نگه‌داشتن مشتری برای دوره زمانی طولانی‌تر به صورت عمومی چرخه عمر مشتریان دارای 4 مرحله است ADDIN EN.CITE Rygielski20029(Rygielski, Wang et al. 2002)9917Chris RygielskiJyun-Cheng WangDavid C. YenData mining techniques for customer relationship managementTechnology in SocietyTechnology in Society483–502242002(Rygielski, Wang et al. 2002): مشتریان احتمالی: افرادی که هنوز مشتری نیستند ولی در بازار هدف قرار دارند. پاسخگوها: مشتریان احتمالی که به محصول یا خدمت مورد نظر علاقه نشان داده‌اند. مشتریان فعال: افرادی که در حال حاضر از محصول یا خدمت استفاده می‌کنند. مشتریان سابق: افرادی که به دلایل مختلف دیگر ارزشی برای شرکت ندارند و در دامنه بازار هدف قرار نمی‌گیرند؛ یا افرادی که به سمت خرید از رقبا تغییر موضع داده‌اند. داده‌کاوی در CRM در زمبنه ارتباط مناسب با هر یک از این گروه‌ها مدل‌های مناسبی ارائه می‌کند. به عنوان مثال می‌توان از داده‌کاوی برای پیش‌بینی این که کدامیک از مشتریان احتمالی می‌توانند به مشتری فعال و سودآور تبدیل شوند، استفاده کرد. داده‌کاوی و رویگردانی مشتری از دست دادن مشتری مهم است، زیرا هزینه‌ای که برای جذب مشتری جدید مصرف می‌شود بسیار بیشتر از هزینه‌ای است که صرف نگهداری مشتریان موجود می‌شود؛ این امر به خصوص در مورد صنایع قدیمی و بازار نسبتا اشباع شده بیشتر صدق می‌کند. وقتی بازار اشباع شود و نرخ پاسخگویی به فعالیت‌های جذب مشتری کاهش یابد، هزینه جذب مشتریان جدید افزایش خواهد یافت. هدف داده‌کاوی از تولید مدل‌های رویگردانی مشتری، شناسایی مشتریان با ارزشی است که در خطر از دست رفتن قرار دارند. بر اساس این مدل‌ها و برای حفظ مشتریان با ارزشی که بدون مشوق‌های اضافی شرکت را ترک می‌کنند، پیشنهادهای خوبی داده می‌شود. یکی از اولین چالش‌ها در مدلسازی رویگردانی مشتری این است که تعیین کنیم از دست رفتن مشتری چیست و چه زمانی اتفاق افتاده یا می‌افتد ADDIN EN.CITE شهرابی13901(شهرابی 1390a)116<style face="normal" font="default" charset="178" size="100%">داده‌کاوی</style>(شهرابی 1390a). تعیین و تشخیص این امر در برخی از صنایع دشوار است؛ زیرا در اکثر موارد نحوه رفتار مشتریان در هیچ پایگاه داده‌ای ثبت نمی‌شود. به عنوان مثال زمانی که یک مشتری وفادار، خرید معمول قهوه‌ی خود را متوقف می‌کند و به مغازه دیگری مراجعه می‌کند، فروشنده مغازه قهوه که نوع سفارش وی را به خاطر دارد این مسئله را در می‌یابد ولی در هیچ پایگاه اطلاعاتی ذخیره نمی‌شود. حتی زمانی که اطلاعات جامعی از مشتریان در اختیار باشد، تشخیص یک مشتری از دست رفته از کسی که برای مدتی قطع رابطه کرده دشوار است. ممکن است خرید بعدی یک مشتری وفادار با کمی تاخیر همراه باشد؛ در این صورت آیا می‌توان وی را به عنوان مشتری رویگردان در نظر گرفت؟ کشف رویگردانی مشتری، زمانی که یک ارتباط پرداختی ماهانه مانند کارت‌های اعتباری وجود داشته باشد کمی آسان‌تر است. همچنین مفهوم رویگردانی مشتری در تجارت‌هایی که مشتریان دارای یک اشتراک بلند مدت هستند، راحت‌تر از سایر موارد تعریف می‌شود؛ به همین دلیل، مدلسازی رویگردانی مشتری در این گونه تجارت‌ها معمول‌تر است. شرکت‌های تلفن راه دور، تلفن همراه، شرکت‌های بیمه، شرکت‌های خدمات مالی، تامین‌کنندگان خدمات اینترنت و تلویزیون کابلی، مجلات و برخی از خرده‌فروشان مثال‌هایی از این تجارت‌ها هستند. در نهایت، برای مدل‌سازی رویگردانی مشتری دو رویکرد اساسی وجود دارد. رویکرد اول، رویگردانی مشتری را به عنوان یک نتیجه دوگانه می‌بیند و پیش‌بینی می‌کند که کدام مشتری می‌ماند و کدام می‌رود. رویکرد دوم، درصدد است که دوره بقای مشتری را پیش‌بینی کند. رویکرد اول: پیش‌بینی و تعیین مشتریانی که سیستم را ترک می‌کنند مدل‌سازی رویگردانی مشتری به صورت یک نتیجه دوگانه، نیازمند درنظر گرفتن یک افق زمانی است. این مدل‌ها معمولا افق زمانی کوتاهی در حد 60 یا 90 روز دارند. البته افق زمانی نباید انقدر کوتاه باشد که زمانی برای انجام اقدامات پیشگیرانه بر اساس پیش‌بینی‌های مدل وجود نداشته باشد. مدل‌های روگردانی مشتری با نتایج دوگانه را می‌توان با ابزارهای معمول دسته‌بندی مانند رگرسیون لجستیک، درخت‌های تصمیم و شبکه‌های عصبی تهیه کرد. داده‌های پیشین که جمعیتی از مشتریان را در یک بازه زمانی توصیف می‌کند، با برچسبی که نشان می‌دهد آیا مشتری در زمان‌های بعدی فعال بوده یا نه ترکیب می‌شوند. وظیفه مدل‌سازی، ایجاد تمایز بین مشتریانی است که مانده‌اند و آنهایی که رفته‌اند. معمولا پیش‌بینی کننده‌های مدل رویگردانی مشتری، ترکیبی از اطلاعاتی هستند که یا در زمان جذب مشتری درباره آنها جمع‌آوری شده است؛ یا مانند دیرکرد در پرداخت‌ها و مشکلات رخ داده با خدمات، در زمان ارتباط با مشتری پیش آمده است. دسته اول مدل‌های داده‌کاوی پیشگویی‌کننده رویگردانی مشتری، اطلاعاتی را در مورد چگونگی کم کردن رویگردانی‌های مشتریان در آینده با جذب نمودن مشتریانی با تمایل کمتر به رویگردانی فراهم می‌کنند. دسته دوم، بینشی برای کم کردن خطر رویگردانی مشتریانی که هم‌اکنون وجود دارند فراهم می‌کند ADDIN EN.CITE شهرابی13901(شهرابی 1390a)116<style face="normal" font="default" charset="178" size="100%">داده‌کاوی</style>(شهرابی 1390a). رویکرد دوم: پیش‌بینی مدت زمانی که مشتریان باقی خواهند ماند در این رویکرد، هدف درک این مطلب است که مشتری تا چه زمانی احتمال دارد باقی بماند. تخمین زمان نگهداری مشتری جزء مهمی از مدل ارزش عمر مشتری است و این تخمین می‌تواند مبنایی برای امتیاز وفاداری مشتری نیز باشد. یک مشتری وفادار کسی است که برای مدت طولانی در آینده باقی خواهد ماند، نه کسی که زمان زیادی را تا به امروز باقی مانده است. یکی از رویکردهای مدل‌سازی طول عمر مشتری برای تخمین مدت زمان حفظ مشتری، داشتن تصاویر لحظه‌ای از گستره‌ی جمعیت مشتریان فعلی و در نظر گرفتن وضعیت آنها در ابتدای جذب شدن به سیستم است. مشکل این رویکرد این است که هرچه مشتریان با طول عمر طولانی‌تر وجود داشته باشند، شرایط متفاوت‌تری در هنگام جذب شدنشان وجود داشته است. قطعا استفاده از خصوصیات مشتری که در بیست سال پیش مشترک سیستم شده است برای پیش‌بینی این که کدام یک از مشتریان امروزی برای مدت طولانی در آینده، مشترک خدمات ما خواهند بود راه مطمئنی نیست. پیشینه تحقیق تحقيقات متعددي در زمينه پيش‌بيني رويگرداني مشتري انجام شده است. در اين تحقيقات به دو موضوع بيشتر توجه شده است: ساخت مدل‌هاي پيش‌بيني رويگرداني با کارايي و دقت بالا، در اين زمينه همچنين يافتن متغيرها و ويژگي‌هايي از رفتار مشتري که می‌تواند در ساخت مدل به ما کمک کنند، مد نظر قرار گرفته شده است. يافتن فاکتورهاي تاثيرگذار بر رويگرداني مشتري، به عبارت ديگر، چه فاکتورهايي در رويگرداني مشتري تاثير مثبت يا منفي دارند. از آنجایی که هدف ما در این تحقیق ایجاد یک مدل پیش‌بینی رویگردانی مشتری است، در مرور ادبیات تمرکز بیشتر در تحقیقات نوع اول است. روش‌ها و تکنيک‌هاي متعددي از رشته‌هاي آمار، يادگيري ماشين و علوم کامپيوتر در ساخت مدل‌هاي پيش‌بيني رويگرداني مشتري به کار گرفته شده است. تحقیقات انجام شده در خارج از کشور دو رويکرد پايه‌اي براي حل مشکل رويگرداني مشتري وجود دارد. رويکرد مبتني بر هدف‌گيري و رویکرد غيرهدف‌گيري شده ADDIN EN.CITE Neslin200623(Neslin, Gupta et al. 2006)232317Neslin, S. AGupta, SKamakura, WLu, J.XMason, C. HDefection detection: Measuring and understanding the predictive accuracy of customer churn modelsJournal of Marketing ResearchJournal of Marketing Research204-2114322006(Neslin, Gupta et al. 2006) (شکل 2-8) . رويکردهاي غيرهدف‌گيري شده متکي به تبليغات انبوه و ويژگي‌هاي برتر محصول براي افزايش وفاداري نسبت به برند و حفظ مشتري است. رويکردهاي مبتني بر هدف‌گيري خيلي پيچيده هستند و متکي بر شناسايي مشترياني است که داراي احتمال رويگرداني بالا هستند. نسلين و دیگران رويکردهاي مبتني بر هدف‌گيري را به دو زير دسته تقسيم مي‌کنند ADDIN EN.CITE Neslin200623(Neslin, Gupta et al. 2006)232317Neslin, S. AGupta, SKamakura, WLu, J.XMason, C. HDefection detection: Measuring and understanding the predictive accuracy of customer churn modelsJournal of Marketing ResearchJournal of Marketing Research204-2114322006(Neslin, Gupta et al. 2006): واکنشي و پيشگيرانه. با اتخاذ رويکرد واکنشي شرکت منتظر مي‌ماند تا مشتري با شرکت تماس بگيرد و تقاضاي قطع رابطه نمايد و سپس شرکت به مشتري مشوق‌هايي را براي ماندن پيشنهاد دهد. در رويکرد پيشگيرانه شرکت سعي مي‌کند تا در همان ابتدا مشترياني را که احتمال رويگرداني آنها بالا است را شناسايي کند، سپس شرکت اقدام به هدف‌گيري اين مشتريان نموده و سعي مي‌کند تا با پيشنهاد مشوق‌ها و اجراي برنامه‌هاي خاص از رويگرداني مشتري جلوگيري نمايد. نسلين و دیگران اظهار کرده‌اند که رويکردهاي پيشگيرانه به طور بالقوه نسبت به رويکردهاي واکنشي داراي برتري هستند از اين جهت که در رويکردهاي پيشگيرانه ميزان مشوق‌ها کمتر از رويکردهاي واکنشي است. شکل STYLEREF 1 \s ‏2 SEQ شکل \* ARABIC \s 1 8: رویکردهای برخور با رویگردانی مشتری اهن و ديگران به بررسي عامل‌هاي تعيين‌کننده رويگرداني مشتري در صنعت مخابرات کشور کره پرداخته‌اند. آنها در تحقيق خود به اين نتيجه رسيده‌اند که عامل‌هاي رويگرداني در صنعت مخابرات کشور کره عبارت اند از ADDIN EN.CITE Ahn200624(Ahn, Han et al. 2006)242417Ahn, J. HHan, S. PLee, Y. SCustomer churn analysis: Churn determinants and mediation effects of partial defection in the Korean mobile telecommunications service industryTelecommunications PolicyTelecommunications Policy552–568302006(Ahn, Han et al. 2006): نارضایتی مشتری: کيفيت سرويس عامل تعيين کننده اي در نارضايتي مشتري است. هزینه‌های سوئیچینگ: مشتريان به دو دليل مي خواهند ارتباطشان را با شرکت حفظ کنند؛ يا حالت اجبار وجود دارد يا مشتري واقعا به شرکت وفادار است. منظور از حالت اجبار اين است که هزیته‌های تغییر شرکت برای مشتري بالاست و مشتری ترجیح می‌دهد در شرکت بماند. میزان استفاده از سرويس: الگوهاي استفاده از سرويس با استفاده از سه معيار توصيف مي‌شوند؛ تعداد دقايق استفاده، فرکانس استفاده، و تعداد گيرنده‌هايي که به وسيله مشترک تماس گرفته‌شده‌اند. سطح استفاده از سرويس که به طور شارژ ماهانه اندازه‌گيري مي‌شود به عنوان يکي از پيش‌بيني‌کننده‌هاي رفتاري فرار مشتري در تحقيقات قبلي درنظر گرفته شده است. اين موضوع قبلا تاييد شده است که بين مقدار استفاده و رويگرداني ارتباط وجود دارد ولي اينکه آيا اين ارتباط مثبت يا منفي است هنوز نامشخص است. وضعیت مشتری: بعضي از مشتريان به طور ناگهاني شرکت را ترک نمي‌کنند در حقيقت يا به طور موقت از سرويس استفاده نمي‌کنند يا به دليل عدم پرداخت قبوض توسط شرکت تعليق مي‌شوند. حالت‌هاي مشتريان به سه دسته تقسيم مي‌شود: 1-فعال،2- تعليق شده ، 3-عدم استفاده. مشترياني که در وضعيت‌هاي2 و 3 هستند احتمال رويگرداني آنها نسبت به کساني که در وضعيت 1 هستند خيلي زياد است. اين تحقيق به اين موضوع مي‌پردازد که وضعيت مشتري نقش واسطه‌اي بين عامل‌هاي تعيين‌کننده رويگرداني و احتمال رويگرداني دارند. به عبارت ديگر، بعضي از اين عامل‌ها ممکن است احتمال رويگرداني را به طور مستقيم يا غير مستقيم به واسطه همين حالت‌ها تحت تاثير قرار دهند. لاريويري و ون دن پائل از تکنيک رندوم فارستس و رگراسيون فارستس به منظور ساخت مدل پيش‌بيني‌کننده رويگرداني استفاده کرده‌اند ADDIN EN.CITE Larivie`re200525(Larivie`re and Van den Poel 2005)252517Larivie`re, BVan den Poel, DPredicting customer retention and profitability by using random forests and regression forests techniquesExpert Systems with ApplicationsExpert Systems with Applications472–4842922005(Larivie`re and Van den Poel 2005). نتايج تحقيق آنها نشان مي‌دهد که دو روش فوق بترتيب نسبت به رگرسيون لجستيک و رگرسيون خطي داراي کارايي بهتري هستند. هانگ و ديگران از روش‌هاي داده‌کاوي براي مديريت رويگرداني در صنعت مخابرات استفاده کرده‌اند ADDIN EN.CITE Hung200626(Hung, Yen et al. 2006)262617Hung, S. Y.Yen, D. C.Wang, H. Y.Applying data mining to telecom churn managementExpert Systems with ApplicationsExpert Systems with Applications515–524312006(Hung, Yen et al. 2006). نتايج تحقيق آنها نشان مي‌دهد که تکنيک‌هاي درخت تصميم و شبکه عصبي مي‌توانند مدل‌هاي پيش‌بيني رويگرداني دقيقي را با گرفتن داده‌هاي دموگرافيک، اطلاعات صورتحساب و دیگر اطلاعات مشتريان ارائه دهند. در اين تحقيق، همچنین تعاريفي در مورد رويگرداني و مراحل مختلف داده کاوي آورده شده است. سويني و سويت در تحقيق خود به بررسي نقش برند در حفظ مشتريان مي‌پردازند ADDIN EN.CITE Sweeney200827(Sweeney and Swait 2008)272717Sweeney, J.Swait, J.The effects of brand credibility on customer loyaltyJournal of Retailing and Consumer ServicesJournal of Retailing and Consumer Services179–193152008(Sweeney and Swait 2008). همچنين، به بررسي روابط بين اعتبار برند و فاکتورهاي ديگر چون رضايتمندي و کيفيت سرويس مي‌پردازند. نتايج بررسي موارد بانکي و مخابراتي نشان مي‌هد که اعتبار برند نقش تدافعي دارد؛ يعني اينکه برند به طور قابل توجهي WOM را افزايش داده و سوئيچينگ مشتريان را کاهش مي‌دهد. مدل استخراج شده از روابط در شکل (2-9) نشان داده شده است. همانطور که در شکل مي‌بينيد اعتبار برند باعث ايجاد وفاداري به طور مستقيم يا غير مستقيم مي‌شود و نيز وفاداري و رضايتمندي مشتري باعث مي‌شود تا تمايل به سوئچينگ مشتري کمتر شود و توصيه‌هاي مشتري به ساير افراد براي استفاده از سرويس‌هاي شرکت زياد شود. شکل STYLEREF 1 \s ‏2 SEQ شکل \* ARABIC \s 1 9: روابط بین برند و سایر فاکتورها کوزمنت و ون دن پائل، اطلاعات مربوط به ارتباط مشتريان و تعامل مشتريان با مراکز تماس را با متغيرهاي رایج در پيش‌بيني رويگرداني ترکيب کرده‌اند تا بدين ترتيب بتوانند يک مدل کارا براي پيش‌بيني رويگرداني توليد کنند ADDIN EN.CITE Coussement200828(Coussement and Van Den Poel 2008a)282817Coussement, K.Van Den Poel, D.Integrating the voice of customers through call center emails into a decision support system for churn predictionInformation & Management Information & Management164–174452008a(Coussement and Van Den Poel 2008a). آنها پس از پردازش ايميل‌هاي غير ساخت‌يافته دريافتي از مشتريان و تبدیل به اطلاعات ساخت‌يافته، آنها را با اطلاعات تراکنش‌هاي مشتريان ترکيب کرده‌اند. آنها در تحقيق خود نشان مي‌دهند که با افزودن اطلاعات متني غير ساخت‌يافته به مدل‌هاي پيش‌بيني رويگرداني معمول، عملکرد اين مدل‌ها به ميزان قابل توجهي افزايش يافته است. از نقطه نظر مديريتي، چارچوب مجتمع شده به مديران تصميم‌گيرنده در بخش بازاريابي کمک مي‌کند تا مشترياني را که مستعد سوئيچ هستند بهتر شناسايي کنند. متعاقبا با پيش‌بيني دقيق اينکه کدام مشتري تمايل به ترک شرکت را دارد اقدامات نگهداري و حفظ مشتري به صورت هدفمند خواهد شد. کوزمنت و ون دن پائل، همچنین در تحقيق دیگری قدرت پيش‌بيني تکنيک ماشين‌هاي بردار پشتيبان (SVM) را با رگرسيون لجستيک و نيز رندوم فارست در زمينه پيش‌بيني رويگرداني مشتري مقايسه کردند ADDIN EN.CITE Coussement200829(Coussement and Van Den Poel 2008b)292917Coussement, K.Van Den Poel, D.Churn prediction in subscription services: An application of support vector machines while comparing two parameter-selection techniquesExpert Systems with Applications Expert Systems with Applications313–327342008b(Coussement and Van Den Poel 2008b). آنها در تحقيق خود از روش SVM با تابع کرنل RBF استفاده کرده‌اند. تابع RBF داراي دو پارامتر است؛ در اين تحقيق از دو تکنيک انتخاب پارامتر براي انتخاب پارامتر هايRBF استفاده شده است. آنها در تحقيق خود به اين نتيجه رسيدند که تکنيک‌هاي انتخاب پارامتر نقش برجسته‌اي در کارايي و دقت پيش‌بيني SVM دارد و نيز تکنيک رندوم فارست در هر صورت بهتر از SVM عمل مي‌کند. تي ساي و لو از شبکه‌هاي عصبي مصنوعي (ANN) به منظور ساخت مدل پيش‌بيني رويگرداني مشتري استفاده کرده‌اند ADDIN EN.CITE Tsai200930(Tsai and Lu 2009)303017Tsai, C. F.Lu, Y. H.Customer churn prediction by hybrid neural networksExpert Systems with ApplicationsExpert Systems with Applications12547–12553362009(Tsai and Lu 2009). آنها در تحقيق خود از رويکرد ترکيبي استفاده کردند و دو مدل ترکيبي زير را توسعه دادند: ANN + ANN: در اين روش ANN اولي به منظور کاهش داده‌اي استفاده شده است. و دومي براي کار پيش‌بيني رويگرداني به کار برده شده است. SOM + ANN: ابتدا خوشه‌بندي توسط روش نقشه‌هاي خود سازمانده (SOM) انجام مي‌گيرد. دو خوشه داراي بيشترين تعداد رکورد انتخاب شده و وارد ANN براي پيش‌بيني مي‌شوند. نتايج تحقيق آنها نشان مي‌دهدکه دو مدل ترکيبي ساخته شده در پيش‌بيني رويگرداني بهتر از مدل تکي شبکه‌هاي عصبي عمل مي‌کنند. درضمن، مدل (ANN+ANN) عملکرد بهتري در پيش‌بيني نسبت به (SOM+ANN) دارد. پندارکار براي اولين بار از شبکه عصبي مبتني بر الگوريتم ژنتيک براي پيش‌بيني رويگرداني مشتري در سرويس‌هاي اشتراک بي‌سيم استفاده کرده است ADDIN EN.CITE Pendharkar200931(Pendharkar 2009)313117Pendharkar, P.C.Genetic algorithm based neural network approaches for predicting churn in cellular wireless network servicesExpert Systems with ApplicationsExpert Systems with Applications6714–6720362009(Pendharkar 2009). در اين تحقيق از الگوريتم ژنتيک جستجوي سراسري ابتکاري براي يادگيري وزن‌هاي اتصالات شبکه‌هاي عصبي استفاده شده است. ونگ و ديگران با استفاده از تکنيک‌هاي داده‌کاوي به ايجاد يک سيستم توصيه‌گر به مشتريان پرداخته‌اند ADDIN EN.CITE Wang200932(Wang, Chiang et al. 2009)323217Wang, Y. F.Chiang, D. A.Hsu, M. H.Lin, C. J.Lin, I. L.A recommender system to avoid customer churn: A case studyExpert Systems with ApplicationsExpert Systems with Applications8071–8075362009(Wang, Chiang et al. 2009). با استفاده از اين سيستم دليل رويگرداني مشتريان مشخص شده و يا به عبارت ديگر رفتارهاي استفاده مشتريان رويگردان و مشتريان وفادار مورد بررسي قرار گرفته تا به موجب آنها بتوان استراتژي‌هاي بازاريابي مناسب جهت جلوگيري از رويگرداني مشتريان به مديران شرکت ارائه داد. الگوريتم‌هاي زيادي براي تحليل رويگرداني وجود دارد ولي همه آنها با محدوديت‌هايي رو به رو هستند که اين محدوديت‌ها به دليل طبيعت مسئله رويگرداني به وجود مي‌آيند. مسئله رويگرداني داراي سه ويژگي عمده است: 1- داده‌ها معمولا نامتعادل هستند. ( تعداد مشتريان رويگردان خيلي کم هستند و معمولا تنها 2 درصد از کل نمونه را در بر مي‌گيرند) 2- نويزهايي در داده‌ها وجود دارد. 3- براي پيش‌بيني رويگرداني لازم است تا احتمال رويگرداني موجوديت‌ها را رتبه‌بندي کنيم ADDIN EN.CITE Xie200933(Xie, Li et al. 2009)333317Xie, Y.Li, X.Ngai, E.W.T.Ying, W.Customer churn prediction using improved balanced random forestsExpert Systems with ApplicationsExpert Systems with Applications5445–5449362009(Xie, Li et al. 2009). زاي و همکاران در تحقيق خود يک روشي به نام رندم فارست متوازن بهبوديافته براي پيش‌بيني رويگرداني ارائه کرده‌اند. اين الگوريتم روي يک مطالعه موردی بانکي پياده‌سازی شده. نتايج نشان مي‌دهد که دقت پيش‌بيني اين الگوريتم نسبت به ساير الگوريتم‌هاي حوزه‌ی پيش‌بيني رويگرداني مانند شبکه‌هاي عصبي، درخت تصميم و SVM بالاتر است. همچنين، الگوريتم نسبت به الگوريتم‌هاي مبتني بر رندوم فارست مانند رندم فارست متوازن بهتر عمل مي‌کند. گليدي و ديگران در مقاله خود وفاداري مشتري را از ديدگاه مشتري‌گرايي به جاي ديدگاه محصول‌گرايي تعريف مي‌کنند ADDIN EN.CITE Glady200934(Glady, Baesens et al. 2009)343417Glady, N. Baesens, B. Croux, C.Modeling churn using customer lifetime value, European Journal of Operational ResearchJournal of Operational Research402–4111972009(Glady, Baesens et al. 2009). آنها همچنين مشتري رويگردان را به عنوان کسي که ارزش طول عمر آن در حال کاهش است تعريف مي‌کنند. موضوع جديد ديگري که در اين مقاله عنوان شده است اين است که ضرر حاصل شده توسط کاهش CLV به عنوان ضرر حاصل از دسته‌بندي غلط مشتريان در نظر گرفته مي‌شود. نتيجه نهايي که در اين مقاله گرفته شده است اين است که سود و منفعت تنها چيزي است که در محيط تجاري اهميت دارد، شاخص‌هاي استاندارد آماري سنجش دقت و صحت پيش‌بيني بايستي تجديد نظر شده و بايستي سودگرايي در آنها ديده شود. در حوزه ارتباطات از را ه دور، تکنيک‌هاي داده‌کاوي مانند درخت تصميم ،شبکه‌هاي عصبي به منظور توسعه مدل‌هاي پيش‌بيني رويگرداني مشتري به کار رفته‌اند. با اين وجود بسياري از کارهاي انجام شده صرفا کار پيش بيني را انجام داده‌اند و مرحله پيش‌پردازش از داده‌کاوي را ناديده گرفته‌اند. تي ساي و چن از ترکيب الگوريتم‌هاي قواعد همبستگی با الگوريتم‌هاي درخت تصميم و شبکه‌هاي عصبي براي ساخت مدل پيش‌بيني رويگرداني استفاده کرده‌اند ADDIN EN.CITE Tsai201035(Tsai and Chen 2010)353517Tsai, C.F.Chen, M. Y.Variable selection by association rules for customer churn prediction of multimedia on demandExpert Systems with ApplicationsExpert Systems with Applications2006–20153732010(Tsai and Chen 2010). روش کارشان به اين صورت است که ابتدا در مرحله پيش‌پردازش با استفاده از قواعد همبستگی متغيرهاي با اهميت شناخته شده، سپس مدل پيش‌بيني رويگرداني توسط شبکه‌هاي عصبي و درخت تصميم ساخته مي‌شود. در این تحقیق از شاخص‌هايي در جهت ارزيابي کارايي مدل‌هاي ساخته شده استفاده شده است. نتيجه تحقيق نشان مي‌دهد که متدهاي ترکيبي قواعد همبستگي و درخت تصميم يا شبکه‌هاي عصبي بهتر از متدهاي تکي درخت تصميم يا شبکه‌هاي عصبي عمل مي‌کنند. هوانگ و ديگران در تحقيق خود يک رويکرد انتخاب ويژگي چند هدفه را براي پيش‌بيني رويگرداني مشتريان در يک شرکت مخابراتي، بر اساس رويکرد بهينه‌سازي NSGA-II ارائه دادند ADDIN EN.CITE Huang201036(Huang, Buckley et al. 2010)363617Huang, B.Buckley, B.Kechadi, T.Multi-objective feature selection by using NSGA-II for customer churnprediction in telecommunicationsExpert Systems with ApplicationsExpert Systems with Applications3638–3646372010(Huang, Buckley et al. 2010). هدف رويکردهاي انتخاب ويژگي عبارتند از کاهش ويژگي‌هاي نا‌‌معتبر يا زايد و پيدا کردن ويژگي‌هاي مهم که منجر به افزايش کارايي مدل‌هاي داده‌کاوي مي‌شود. در اين تحقيق از درخت تصميم به دليل کارايي بالا و هزينه محاسباتي پايين به عنوان تابع برازش استفاده شده است. کوزمنت و ديگران در مقاله خود از مدل‌هاي جمع‌پذير عمومي ( GAM) براي پيش‌بيني رويگرداني مشتري استفاده کرده‌اند ADDIN EN.CITE Coussement201037(Coussement, Benoit et al. 2010)373717Coussement, K., F.Benoit, D.Van den Poel, D.Improved marketing decision making in a customer churn prediction context using generalized additive modelsExpert Systems with ApplicationsExpert Systems with Applications2132–2143372010(Coussement, Benoit et al. 2010). در مقايسه با رگرسيون لجستيک ، GAM محدوديت خطي بون را برداشته و اجازه مي‌دهد تا رابطه بين متغيرها غيرخطي باشد. اين تحقيق نشان مي‌دهد که: 1- GAM قادر به بهبود دادن تصميم‌گيري‌هاي بازاريابي از طريق شناسايي مشتريان ريسک دار است. 2- GAM خوانايي و تفسيرپذيری مدل‌هاي رويگرداني را با مصورسازي رابطه غيرخطي آنها نشان مي‌دهد. 3- مديران بازاريابي مي‌توانند ارزش کسب و کار خود را با استفاده از GAM در زمينه پيش‌بيني رويگرداني مشتري افزايش دهند. هستی و تيبشيراني اظهار کرده‌اند که روش‌هاي غیرپارامتريک در مواقعي که تعداد متغيرهاي پيش‌بيني‌کننده بيشتر باشد بدتر عمل مي‌کنند ADDIN EN.CITE Hastie199038(Hastie and Tibshirani 1990)383817Hastie, T.Tibshirani, R.Generalized additive modelsCRC pressCRC press1990(Hastie and Tibshirani 1990)؛ براي اينکه پراکندگي داده‌ها ، واريانس تخمين‌ها را متورم مي‌کند. اين موضوع اغلب به عنوان مصيبت بعد ياد مي‌شود. با استفاده از مدل‌هاي جمع‌پذير، مشکل مصيبت بعد بر طرف مي‌شود. روش GAM حداقل دو مزيت نسبت به رگرسيون لجستيک دارد: 1- روابط غيرخطي بين داده‌ها را آشکار مي‌کند. 2- نشان داده شده است که حذف فرض خطي بودن منجر به درک صحيحي از تاثير هر يک از متغيرهاي پيش‌بيني‌کننده روي متغير وابسته مي‌شود که اين موضوع به تصميم‌گيران کمک مي‌کند تا مشکل رويگرداني شرکت را به طور کامل درک کنند ADDIN EN.CITE Coussement201037(Coussement, Benoit et al. 2010)373717Coussement, K., F.Benoit, D.Van den Poel, D.Improved marketing decision making in a customer churn prediction context using generalized additive modelsExpert Systems with ApplicationsExpert Systems with Applications2132–2143372010(Coussement, Benoit et al. 2010). در اکثر تحقيقاتي که تاکنون در زمينه پيش‌بيني رويگرداني مشتريان صورت گرفته است، بيشتر به بالا بردن دقت و کارايي مدل‌هاي پيش‌بيني توجه شده است. وربک و ديگران در مقاله خود به جنبه‌هاي جديدي در مورد مدل‌هاي پيش‌بيني رويگرداني مشتري اشاره کرده‌اند ADDIN EN.CITE Verbeke201139(Verbeke, Martens et al. 2011)393917Verbeke, W.Martens, D.Mues, C.Baesens, B.Building comprehensible customer churn prediction models with advanced rule induction techniquesExpert Systems with ApplicationsExpert Systems with Applications2354–2364382011(Verbeke, Martens et al. 2011). اگرچه، اين جنبه‌ها در تحقيقات قبلي به صورت تلويحي مورد توجه قرار گرفته بود ولي در اين مقاله به صورت آشکار اين جنبه‌ها ذکر شده‌اند. دقت پيش‌بيني، قابليت درک و توجيه‌پذيري سه جنبه کليدي مدل‌هاي پيش‌بيني رويگرداني هستند. در حيطه داده‌کاوي يک مدل توجيه‌پذير است اگر با دانش محيط کاربرد هم‌خواني داشته باشد. يک مدل پيش‌بيني رويگرداني با دقت بالا موجب مي‌شود تا مشتريان رويگردان آتي به طور درست مورد هدف کمپين‌هاي نگهداري قرار گيرند. در حالي که يک مجموعه قوانين قابل درک اجازه مي‌دهد تا عوامل و دلايل اصلي رويگرداني مشتريان شناسايي شوند و استراتژي‌هاي موثر نگهداري مشتريان که مطابق با دانش حيطه باشد اتخاذ گردد. در اين تحقيق دو تکنيک جديد داده‌کاوي در زمينه پيش‌بيني رويگرداني مشتريان به کار گرفته شده است. اين تکنيک‌ها عبارتند از: Ant-Miner+ و ALBA. روش Ant-Miner+ يک تکنيک داده‌کاوي با کارايي بالا بر اساس اصول بهينه‌سازي کلوني مورچه‌ها است که اجازه مي‌دهد تا بتوان دانش حيطه را وارد مدل کرد از طريق اعمال محدوديت‌هاي يکنواختي روي مجموعه قوانين نهايي. و تکنيک ALBA دقت بالاي تکنيک SVM را با قابليت درک مجموعه قوانين ترکيب مي‌کند. به عبارت ديگر، ALBA يک روش استخراج مجموعه قوانين از يک مدل SVM است. نتايج مدل‌سازي‌ها نشان مي‌دهد که ALBA منجر به يک مدل قابل درک با کارايي بالا مي‌شود. همچنين برخلاف ساير تکنيک‌هاي استفاده شده در اين تحقيق، Ant-Miner+ منجر به مدل‌هاي دقيق با قابليت درک بالا و از همه مهم‌تر با توجيه‌پذيري بالا مي‌شود. در اين تحقيق از يک ديتاست عمومي استفاده شده است. روش‌هاي فازي و نروفازي نيز در سال‌هاي اخير به صورت خيلي کم در زمينه پيش‌بيني رويگرداني مشتريان کاربرد داشته‌اند. مطالعات ما در اين زمينه نشان مي‌دهد که تنها در دو مقاله از اين روش‌ها استفاده شده است. قرباني و ديگران در تحقيق خود براي اولين بار از روش درخت مدل خطي محلي در پيش‌بيني رويگرداني مشتريان استفاده کرده‌اند ADDIN EN.CITE Ghorbani200940(Ghorbani, Taghiyareh et al. 2009)404017Ghorbani, A.Taghiyareh, F.Lucas, C.The Application of the Locally Linear Model Tree on Customer Churn PredictionSoCPaRSoCPaR472-4772009(Ghorbani, Taghiyareh et al. 2009)؛ که اين روش مزاياي شبکه‌هاي عصبي، مدل درختي و مدل‌سازي فازي را به صورت يکجا دارد. نتايج تحقيق آنها نشان مي‌دهد که اين متد در مقايسه با متدهايي نظير شبکه‌هاي عصبي، درخت تصميم و رگرسيون لجستيک، کارايي پيش‌بيني را به ميزان قابل توجهي بالا مي‌برد. تحقيق ديگر در اين زمينه مربوط به مقاله‌ي کاراهکا و کاراهکا است ADDIN EN.CITE Karahoca201141(Karahoca and Karahoca 2011)414117Karahoca, A.Karahoca, D.GSM churn management by using fuzzy c-means clustering and adaptive neuro fuzzy inference systemExpert Systems with ApplicationsExpert Systems with Applications1814-18223832011(Karahoca and Karahoca 2011). آنها در مقاله خود ابتدا از روش خوشه‌بندي فازي C-means براي خوشه‌بندي مشتريان يک شرکت مخابراتي استفاده کرده و با انجام اين کار به هر مشتري يک برچسب يا ويژگي جديد نسبت دادند. سپس، از تکنيک سيستم استنتاج فازي عصبي تطبيقي به منظور پيش‌بيني رويگرداني مشتريان استفاده کرده‌اند. تکنيک ANFIS دقت سيستم‌هاي دسته‌بندي مبتني بر فازي را با خاصيت تطبيق‌پذيري (پيش انتشار) شبکه‌هاي عصبي ترکيب مي‌کند. بر اساس نتايج تحقيق، آنها اظهار کرده‌اند تکنيک ANFIS می‌تواند به عنوان يک تکنيک جايگزين تکنيک‌هاي فعلي در فعاليت‌هاي کنوني CRM از جمله پيش‌بيني رويگرداني مشتريان استفاده شود. تحقیقات انجام شده در داخل کشور گسترش علم داده‌کاوی و افزایش توانایی تکنیک‌های داده‌کاوی در صنایع مختلف کشور از یک طرف، و اهمیت مسئله رویگردانی مشتری در نرخ نگهداری مشتری در یک بازار رقابتی برای سیستم‌های CRM از طرف دیگر موجب شده است تا در دهه اخیر تحقیقاتی در مورد پیش‌بینی رویگردانی مشتری با استفاده از داده‌کاوی در داخل کشور انجام پذیرد. در ادامه به مواردی از این تحقیقات اشاره خواهیم کرد. ADDIN EN.CITE كرامتي138819(كرامتي, اردبيلي et al. 1388)191917<style face="normal" font="default" charset="178" size="100%">تحليل رويگرداني مشتريان، بررسي وضعيت يكي از اپراتورهاي تلفن همراه ايران با كمك روش هاي داده كاوي</style>فصلنامه علوم مديريت ايران(كرامتي, اردبيلي et al. 1388) در مقاله خود با استفاده از روش‌های داده‌کاوی به تحلیل رویگردانی مشتری در یکی از اپراتورهای تلفن همراه ایران پرداختند. آنها از تکنیک رگرسیون لاجستیک دوجمله‌ای استفاده کردند و نشان دادند که نارضايتي مشتري، ميزان استفاده از خدمات ارائه شده و نيز مشخصه‌هاي دموگرافيك مشترك مهم‌ترين تأثير را بر تصميم او مبني بر رويگرداني يا ماندگاري دارند. آنها همچنین به بررسی اثر واسطه‌ای وضعیت مشتری (وضعیت فعال یا غیر فعال) در رویگردانی نیز پرداخته‌اند. ADDIN EN.CITE توکلی138920(توکلی, مرتضوی et al. 1389)202017<style face="normal" font="default" charset="178" size="100%">به کارگیری فرایند داده کاوی برای پیش بینی الگوهای رویگردانی مشتری در بیمه</style>چشم‌انداز مدیریت بازرگانی(توکلی, مرتضوی et al. 1389) با بکارگیری تکنیک درخت تصمیم به پیش‌بینی رویگردانی مشتری در صنعت بیمه پرداخته‌اند. آنها در تحقیق خود از فرایند استاندارد داده‌کاوی CRISP – DM استفاده کردند و به کاوش در پایگاه‌های داده یکی از شرکت‌های سهامی عام بیمه‌ای در بیمه آتش‌سوزی پرداختند. چنانچه پیش‌تر نیز ذکر شد، بیشتر تحقیقات به ارائه مدل‌هایی جهت پیش‌بینی رویگردانی مشتری پرداخته‌اند و کمتر علل رویگردانی را مورد مطالعه قرار داده‌اند. ADDIN EN.CITE سپهری139021(سپهری, نوروزی et al. 1390)212117<style face="normal" font="default" charset="178" size="100%">کشف دلایل رویگردانی مشتری از خدمات بانکداری با ترکیب روش‌های داده‌کاوی تحقیق پیمایشی</style>پژوهش‌های مدیریت در ایران(سپهری, نوروزی et al. 1390) با ترکیب روش‌های داده‌کاوی و تحقیق پیمایشی به کشف دلایل رویگردانی مشتری از خدمات بانکداری پرداخته‌اند. در این تحقیق تلاش شده است تا با بهره‌گیری از تحقیق پیمایشی پرسشنامه محور نظریات مشتریان در خصوص سطوح رضایت‌مندی و مولفه‌های تاثیرگذار بر رویگردانی مشتری ارزیابی شود و از نتایج آن برای تحلیل تاثیر عوامل مختلف بر رویگردانی بهره گرفته‌اند. ADDIN EN.CITE عباسی‌مهر139022(عباسی‌مهر 1390)222232<style face="normal" font="default" charset="178" size="100%">مدل پيش بيني رويگرداني مشتريان با ارزش در بخش خدمات</style>(عباسی‌مهر 1390) در پایان نامه‌ی خود مدلی برای پیش‌بینی رویگردانی مشتریان با ارزش در بخش خدمات ارائه داده است. وی با استفاده از داده‌های مربوط به صنعت مخابرات، ابتدا با استفاده از تکنیک‌های خوشه‌بندی مشتریان با ارزش را شناسایی کرده و سپس بوسیله تکنیک ANFIS و ترکیب آن با الگوریتم بهینه‌سازی اجتماع مورچگان، به پیش‌بینی رویگردانی مشتریان باارزش پرداخته است. خلاصه تحقیقات انجام شده ويژگي‌هايي که تحقيقات انجام شده مربوط به ساخت مدل‌هاي پيش‌بيني رويگرداني مشتريان دارند عبارتند از: در هر تحقيق از يک یا چند ديتاست عمومي يا خصوصي استفاده شده است. تکنيک‌هاي به کارگرفته شده براي پيش‌بيني رويگرداني مشتريان متنوع هستند و هيچ تکنيکي براي همه مسائل و ديتاست‌ها بهتر از ساير تکنيک‌ها عمل نمي‌کند. براي مثال نتايج يک تحقيق نشان داده است که شبکه عصبي بهتر از درخت تصميم عمل کرده است در حالي که نتايج تحقيق ديگر نشان داده است که درخت تصميم بهتر از شبکه عصبي عمل کرده است. شايد دليل اين امر به ماهيت مسئله برگردد زيرا اساسا مسئله پيش‌بيني رويگرداني مشتريان يک مسئله دسته بندي است و از تکنيک‌هاي داده‌کاوي براي ساخت مدل پيش‌بيني استفاده مي‌شود. در داده‌کاوي هيچ تکنيک دسته‌بندي نمي‌توان يافت که در همه شرايط و ديتاست‌ها بهتر از ساير تکنيک‌ها عمل کند ADDIN EN.CITE Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011). در بيشتر تحقيقات، تکنيک‌هاي استفاده شده فقط روي يک ديتاست اعمال شده‌اند و کارايي تکنيک‌ها روي ديتاست‌هاي متعدد تست نشده است. حتي در مواردي که يک تکنيک پيش‌بيني جديد توسعه داده شده است، کارايي آن فقط روي يک ديتاست تست شده است. در اکثر تحقيقات انجام شده فقط کارايي تکنيک‌ها از لحاظ معيارهاي دقت پيش‌بيني و قابليت درک ارزيابي شده است. معيارهاي ديگر نظير سرعت محاسباتي (پيچيدگي زماني) و مسائل مربوط به حافظه زياد مورد توجه قرار نگرفته‌اند. با توجه به افزايش داده‌هاي مربوط به مشتريان و حجيم شدن پايگاه داده‌هاي مربوط به مشتريان توجه به اين معيارها امري اجتناب ناپذير است. تحقيقات انجام شده در اين زمينه، هر کدام مربوط به يک صنعت خاص هستند. در بيشتر تحقيقات انجام شده از تکنيک‌هاي مربوط به داده‌کاوي استفاده شده است. در بیشتر تحقیقات ارزش مشتری مورد توجه نبوده و فقط رویگردانی مشتریان بدون توجه به ارزش آنها مد نظر بوده. در جدول (2-4) خلاصه‌اي از تحقيقات انجام شده در زمينه ساخت مدل‌هاي پيش‌بيني رويگرداني مشتريان آورده شده است. در اين جدول ويژگي‌هاي مربوط به اين تحقيقات از قبيل نوع تکنيک‌هاي به کار گرفته شده در آنها، ديتاست‌ها و نيز صنعت يا سرويسي که تحقيق در آن صورت گرفته است آورده شده. جدول STYLEREF 1 \s ‏2 SEQ جدول \* ARABIC \s 1 4 :خلاصه سابقه تحقیق ردیفعنواننویسنده یا نویسندگانسالتکنیک‌هاصنعت،عمومی (1) یا خصوصی (2) بودن داده‌ها1کاربرد الگوريتم C4.5 براي ساخت مدل پيش‌بيني رويگرداني با استفاده از تعداد ويژگي‌هاي محدودوي و چیو2002درخت تصميم C4.5مخابرات بي‌سيم،(2)2استفاده از مدل پيش‌بيني رويگرداني به عنوان بخشي از مدل ارزش طول عمر مشتريونگ و همکاران2004رگرسيون لجستيک، درخت تصميم، شبکه عصبيمخابرات بي‌سيم،(2)3مقايسه تکنيک‌ها براي پيش‌بيني فرار نا تمام در يک محيط غيرقرارداديبوکينکس و ون دن پائل2005رگرسيون لجستيک، شبکه‌عصبي، رندوم فارستسخرده فروشي(2)4بررسي متغيرهاي توصيفي و متدهاي مدل‌سازي در پيش‌بيني رويگرداني مشتريانلاريويري و ون دن پائل2005رگرسيون لجستيک و خطي، رندوم فارستسمالي(2)5مقايسه تطبيقي و به کارگيري متدهاي مدل‌سازي پيش‌بيني رویگردانیهانگ و همکاران2006درخت تصميم، شبکه عصبيمخابرات بي‌سيم،(2)6کاربرد تکنيک‌هاي bagging و Boosting براي افزايش کارايي تکنيک‌هاي پيش‌بيني رويگرداني مشتريانلمنس و کروکس2006رگرسيون لجستيک، درخت تصميممخابرات بي‌سيم،(1)7توسعه مدل‌هاي پيش‌بيني رويگرداني و تست آنها در يک کمپين نگهداري واقعيبورز و ون دن پائل2007رگرسيون لجستيک (با زنجيره مارکوف)، رندوم فارستسسرويس Pay-TV(2)8کاربرد تکنيک ماشين بردار پشتيبان در پیش‌بيني رويگرداني مشتريان در يک سرويس اشتراک روزنامهکوزمنت و ون دن پائل2008رگرسيون لجستيک، ماشين بردار پشتيبان، رندوم فارستسسرويس اشتراک روزنامه(2)9مطالعه متدهاي نمونه برداري، متد و معيار‌هاي ارزيابي و تکنيک‌هاي مدل‌سازيبورز و ون دن پائل2009رگرسيون لجستيک، Boosting، رندوم فارستسبانک، مخابرات، اشتراک روزنامه، pay TV – خرده‌‎فروشي سوپرمارکت10گنجاندن دانش محيط کاربرد در مدل‌هاي پيش‌بيني رويگردانيلیما و همکاران2009رگرسيون لجستيک، درخت تصميممخابرات بي‌سيم(1)11کاربرد دو شبکه عصبي مبتني بر الگوريتم ژنتيک در زمينه پيش‌بيني رويگردانيپندارکار2009شبکه عصبي مبتني بر الگوريتم ژنتيکمخابرات بي‌سيم(1)12توسعه يک تکنيک جديد به نام رندوم فارستس متوازن بهبود يافته در پاسخ به برخي محدوديت‌هاي مسائل پيش‌بيني رويگردانيزای و همکاران2009شبکه عصبي، درخت تصميم، SVM ، رندوم فارستس متوازن بهبود يافتهبانک(2)13توسعه دو مدل ترکيبي به منظور پيش‌بيني رويگرداني مشتريانتي ساي و لو2009شبکه عصبي، نقشه‌هاي خود سازماندهمخابرات(1)14استفاده از مفهوم طول عمر مشتري براي تعريف مشتريان رويگردان و توسعه مدل‌هاي پيش‌بيني رويگرداني و ارزيابي آنها به وسيله يک معيار ارزيابي توسعه داده شده که معيار سود و زيان را درنظر مي‌گيردگليدي و همکاران2009رگرسيون لجستيک، شبکه‌هاي عصبي، درخت تصميم، تکنيک توسعه داده شده به نام Ada Costبانک(2)15به کارگيري مدل‌هاي جمع‌پذير عمومي در پيش‌بيني رويگرداني مشتريانکوزمنت و همکاران2010رگرسيون لجستيک، GAMاشتراک روزنامه (2)16کاربرد NSGA-II براي انتخاب ويژگي‌ها بهينه در پيش‌بيني رويگرداني مشتريانهوانگ و همکاران2010درخت تصمیممخابرات (2)17استفاده از تکنيک‌هاي داده‌کاوي به منظور ساخت مدل‌هاي پيش‌بیني رويگرداني مشتريان و با تاکيد بر مرحله پيش پردازش داده‌هاتي ساي و چن2010قوانين تلازمي، درخت تصميم، شبکه عصبيتقاضا(2)18توسعه تکنيک SVM توسعه يافته که نامتعادل بودن داده‌ها را در نظر مي‌گيردیو و همکاران2010شبکه عصبي، SVM، SVM توسعه يافتهوب سايت تجارت الکترونيکي(2)19ارائه سيستمي براي مديريت رويگرداني بر اساس تکنيک‌هاي خوشه‌بندي فازي و سيستم استنتاج فازي عصبي تطبيقيکاراهکا و کاراهکا2011Fuzzy C-means، ANFIS، درخت تصميممخابرات(2)20کاربرد دو تکنيک جديد داده‌کاوي به نامهاي Antminer+ و ALBA براي پيش‌بيني رويگرداني مشتريانوربک و همکاران2011Antminer+، ALBA،SVM، درخت تصميم، رگرسيون لجستيکمخابرات(1)21تحليل رويگرداني مشتريان، بررسي وضعيت يكي از اپراتورهاي تلفن همراه ايران با كمك روش‌هاي داده‌كاويعباس کرامتی و همکاران1388رگرسیون لاجستیک دو سطحیمخابرات(2)22به کارگیری فرایند داده‌کاوی برای پیش‌بینی الگوهای رویگردانی مشتری در بیمهاحمد توکلی و همکاران1389درخت تصمیمبیمه(1)23کشف دلایل رویگردانی مشتری از خدمات بانکداری با ترکیب روش‌های داده‌کاوی و تحقیق پیمایشیمحمد مهدی سپهری و همکاران1390درخت تصمیم، k-meansبانک(1)24مدل پيش‌بيني رويگرداني مشتريان با ارزش در بخش خدماتحسین عباسی‌مهر1390ANFISk-meanscAnt-minerمخابرات(2) منابع و مآخذ اکبری, ا. (1389). کاربرد داده‌کاوی در مدیریت ارتباط با مشتریان: مطالعه موردی در شرکت سایپا یدک. دانشکده مهندسی صنایع, دانشگاه شریف. توکلی, ا., س. مرتضوی, )1389). "به کارگیری فرایند داده کاوی برای پیش بینی الگوهای رویگردانی مشتری در بیمه." چشم‌انداز مدیریت بازرگانی 4(37): 55-41. سپهری, م. م., ا. نوروزی, )1390). "کشف دلایل رویگردانی مشتری از خدمات بانکداری با ترکیب روش‌های داده‌کاوی تحقیق پیمایشی." پژوهش‌های مدیریت در ایران 15(4): 126-197. شهرابی, ج. (1390a). داده‌کاوی, جهاد دانشگاهی واحد صنعتی امیرکبیر. شهرابی, ج. (1390b). داده‌کاوی 2, جهاد دانشگاهی واحد صنعتی امیرکبیر. شهرابی, ج. و ع. ذ. شجاعی (1388). داده‌کاوی پیشرفته - مفاهیم و الگوریتم‌ها, جهاد دانشگاهی واحد صنعتی امیرکبیر. عباسی‌مهر, ح. (1390). مدل پيش بيني رويگرداني مشتريان با ارزش در بخش خدمات. دانشکده مهندسی صنایع. تهران, دانشگاه صنعتی خواجه نصیر الدین طوسی. كرامتي, ع., س. م. س. اردبيلي, (1388). "تحليل رويگرداني مشتريان، بررسي وضعيت يكي از اپراتورهاي تلفن همراه ايران با كمك روش هاي داده كاوي." فصلنامه علوم مديريت ايران 14: 91-63. Ahn, J. H., S. P. Han, et al. (2006). "Customer churn analysis: Churn determinants and mediation effects of partial defection in the Korean mobile telecommunications service industry." Telecommunications Policy 30: 552-568. Auria, L. and R. A. Moro (2008) "Support Vector Machines (SVM) as a technique for solvency analysis." Discussion papers // German Institute for Economic Research 811. Berson, A., S. Smith, et al. (1999). "Building data mining applications for CRM." New York: McGraw-Hill. Bishop, C. M. (1995). Neural Networks for Pattern Recognition, CLARENDON PRESS • OXFORD. Bishop, C. M. (2006). Pattern recognition and machine learning, Springer Science. Brown, S. A. (2000). Customer relationship management , A strategic Imperative in the world of E- Business, Wiley. Burez, J. and D. Van den Poel (2007). "CRM at a pay-TV company: Using analytical models to reduce customer attrition by targeted marketing for subscription services." Expert Systems with Applications 32(2): 277-288. Chang, H. and S. F. Tsay (2004). "Integrating of SOM and K-mean in data mining clustering: An empirical study of CRM and profitability evaluation." Journal of Information Management 11:161-203. Cheng, C.-H. and Y.-S. Chen (2008). "Classifying the segmentation of customer value via RFM model and RS theory.",expert system with application. Coussement, K., F., D. Benoit, et al. (2010). "Improved marketing decision making in a customer churn prediction context using generalized additive models." Expert Systems with Applications 37: 2132-2143. Coussement, K. and D. Van Den Poel (2008a). "Integrating the voice of customers through call center emails into a decision support system for churn prediction." Information & Management 45: 164-174. Coussement, K. and D. Van Den Poel (2008b). "Churn prediction in subscription services: An application of support vector machines while comparing two parameter-selection techniques." Expert Systems with Applications 34: 313-327. Edelstein, H. (1998). Introduction to Data Mining and Knowledge Discovery, Two Crows Corporation. Edelstein, h. (2000). "build profitable customer relationship with data mining." Two Crows Corp. Gabrys, B. and D. Ruta (2006). "Genetic algorithms in classifier fusion." Applied Soft Computi 6: 337-347. Ghorbani, A., F. Taghiyareh, et al. (2009). "The Application of the Locally Linear Model Tree on Customer Churn Prediction." SoCPaR: 472-477. Ghosh, J. (2002). Multiclassifier Systems: Back to the Future. Multiple Classifier Systems. F. Roli and J. Kittler, Springer Berlin Heidelberg:1-15. Glady, N., B. Baesens, et al. (2006). "Modeling churn using customer lifetime value, European " Journal of Operational Research 197: 402-411. Han, J., M. Kamber, et al. (2011). Data Mining: Concepts and Techniques, Morgan Kaufmann. Hastie, T. and R. Tibshirani (1990). "Generalized additive models." CRC press. Hu, Y. (2011). "The Comparison of Five Discriminant Methods." Management and Service Science (MASS), International Conference on 2011 Huang, B., B. Buckley, et al. (2010). "Multi-objective feature selection by using NSGA-II for customer churnprediction in telecommunications." Expert Systems with Applications 37: 3638-3646. Hung, S. Y., D. C. Yen, et al. (2006). "Applying data mining to telecom churn management." Expert Systems with Applications 31: 515-524. Karahoca, A. and D. Karahoca (2011). "GSM churn management by using fuzzy c-means clustering and adaptive neuro fuzzy inference system." Expert Systems with Applications 38(3): 1814-1822 Karray, F. O. and C. d. Silva (2004). Soft Computing and Intelligent Systems design Theory, Tools and Applications. England, Pearson Education Limited. Kotorov, R. (2002). "Ubiquitous organization: organizational design for e-CRM." Business Process Management Journal 8(3) Kracklauer, A. H. and D. Q. Mills (2004). "Collaborative Customer Relationship Management: Taking CRM to the Next Level." Springer. Larivie`re, B. and D. Van den Poel (2005). "Predicting customer retention and profitability by using random forests and regression forests techniques." Expert Systems with Applications 29(2): 472-484. Larose, D. T. (2005). Discovering knowledge in data : an introduction to data mining. Hoboken, New Jersey, John Wiley & Sons, Inc. Lin, S.-Y., J.-T. Wei, et al. (2011). "A Case Study of Using Classification and Regression Tree and LRFM Model in A Pediatric Dental Clinic." International Conference on Innovation, Management and Service IPEDR 14. Mitra, S. and T. Acharya (2003). Data Mining: Multimedia, Soft Computing, and Bioinformatics, A JOHN WILEY & SONS, INC. Neslin, S. A., S. Gupta, et al. (2006). "Defection detection: Measuring and understanding the predictive accuracy of customer churn models." Journal of Marketing Research 43(2):204-211. Ngai, E. W. T., L. Xiu, et al. (2009). "Application of data mining techniques in customer relationship management: A literature review and classification." Expert Systems with Applications 36:2592-2602. Pendharkar, P. C. (2009). "Genetic algorithm based neural network approaches for predicting churn in cellular wireless network services." Expert Systems with Applications 36:6714-6720. Reichheld, F. F. and W. E. Sasser (1990). "Zero defections: quality comes to service." Harvard Business Review 68:105-111. Ruta, D. and B. Gabrys (2000). "An Overview of Classifier Fusion Methods." Computing and Information Systems 7:1-10. Rygielski, C., J.-C. Wang, et al. (2002). "Data mining techniques for customer relationship management." Technology in Society 24:483-502. Sumathi, S. and S. N. Sivanandam (2006). Introduction to Data Mining and its Applications, Springer. Sweeney, J. and J. Swait (2008). "The effects of brand credibility on customer loyalty." Journal of Retailing and Consumer Services 15:179-193. Thompson, B. (2002). "what is CRM? The Customer Relationship Management Primer, What You Need to Know to Get Started." CRMguru. Tsai, C. F. and M. Y. Chen (2010). "Variable selection by association rules for customer churn prediction of multimedia on demand." Expert Systems with Applications 37(3):2006-2015. Tsai, C. F. and Y. H. Lu (2009). "Customer churn prediction by hybrid neural networks." Expert Systems with Applications 36:12547-12553. Verbeke, W., D. Martens, et al. (2011) "Building comprehensible customer churn prediction models with advanced rule induction techniques." Expert Systems with Applications 38:2354-2364. Wang, Y. F., D. A. Chiang, et al. (2009). "A recommender system to avoid customer churn: A case study." Expert Systems with Applications 36:8071-8075. Witten, I. H. and E. Frank (2005). Data Mining Practical Machine Learning Tools and Techniques. Xie, Y., X. Li, et al. (2009). "Customer churn prediction using improved balanced random forests." Expert Systems with Applications 36:5445-5449. Xu, L., A. Krzyzk, et al. (1992). "Methods of combining multiple classifiers and their application to handwriting recognition." IEEE Transactions on Systems, Man and Cybernetics 22(3):418-435. Zineldin, M (1999) "Exploring the common ground of total relationship management and total quality management (TQM)." Management Decision 37(9).

فایل های دیگر این دسته

مجوزها،گواهینامه ها و بانکهای همکار

دریافت و ترجمه مقاله دارای نماد اعتماد الکترونیک از وزارت صنعت و همچنین دارای قرارداد پرداختهای اینترنتی با شرکتهای بزرگ به پرداخت ملت و زرین پال و آقای پرداخت میباشد که در زیـر میـتوانید مجـوزها را مشاهده کنید