शॉपिंग कार्ट विश्लेषण के बारे में, मुझे लगता है कि मुख्य उद्देश्य ग्राहकों द्वारा खरीदे गए उत्पादों के सबसे अधिक बार संयोजन करना है। यहां association rules
सबसे प्राकृतिक पद्धति का प्रतिनिधित्व करें (वास्तव में वे वास्तव में इस उद्देश्य के लिए विकसित किए गए थे)। ग्राहकों द्वारा खरीदे गए उत्पादों के संयोजन का विश्लेषण, और इन संयोजनों की संख्या को दोहराया जाता है, इसी तरह के दिलचस्प माप के साथ 'यदि स्थिति है, तो परिणाम' के एक नियम की ओर जाता है। आप Log-linear models
विचार किए गए चर के बीच संघों की जांच करने के लिए भी विचार कर सकते हैं ।
अब क्लस्टरिंग के लिए, यहाँ कुछ जानकारी दी गई है जो काम में आ सकती है:
पहले विचार करें Variable clustering
। परिवर्तनीय क्लस्टरिंग का उपयोग कोलीनियरिटी, अतिरेक का आकलन करने के लिए किया जाता है, और चर को क्लस्टर में अलग करने के लिए जो एकल चर के रूप में स्कोर किया जा सकता है, इस प्रकार डेटा में कमी आती है। के लिए देखो varclus
समारोह (आर में पैकेज Hmisc)
क्लस्टरवाइज़ स्टेबिलिटी का आकलन: फंक्शन clusterboot
{R पैकेज fpc}
क्लस्टर सत्यापन के लिए दूरी आधारित आंकड़े: फ़ंक्शन cluster.stats
{R पैकेज fpc}
जैसा कि mbq ने उल्लेख किया है, क्लस्टर्स की सबसे अच्छी संख्या का आकलन करने के लिए सिल्हूट चौड़ाई का उपयोग करें। यह देखो । सिल्हूट चौड़ाई के बारे में, ओपसेटिल फ़ंक्शन भी देखें ।
अंतर आँकड़ा के माध्यम से निर्धारित आंकड़ों में समूहों की संख्या का अनुमान लगाएं
डिसिमिलरिटी इंडिकेशंस और डिस्टेंस मेजरमेंट की गणना के लिए डीएसवीडी और वेजिटिस्ट देखें
EM क्लस्टरिंग एल्गोरिदम यह तय कर सकता है कि क्रॉस वेलिडेशन द्वारा कितने क्लस्टर बनाए जा सकते हैं, (यदि आप एप्रीओरी को निर्दिष्ट नहीं कर सकते हैं कि कितने क्लस्टर उत्पन्न करने के लिए)। यद्यपि EM एल्गोरिदम को अधिकतम में परिवर्तित करने की गारंटी है, यह एक स्थानीय अधिकतम है और जरूरी नहीं कि यह वैश्विक अधिकतम के समान हो। वैश्विक अधिकतम प्राप्त करने के बेहतर अवसर के लिए, पैरामीटर मानों के लिए विभिन्न प्रारंभिक अनुमानों के साथ, पूरी प्रक्रिया को कई बार दोहराया जाना चाहिए। समग्र लॉग-लाइबिलिटी आंकड़ा का उपयोग विभिन्न अंतिम कॉन्फ़िगरेशन की तुलना करने के लिए किया जा सकता है: बस स्थानीय मैक्सिमा का सबसे बड़ा चयन करें । आप ओपन-सोर्स प्रोजेक्ट WEKA में EM क्लस्टर का कार्यान्वयन पा सकते हैं
यह भी एक दिलचस्प कड़ी है।
इसके लिए यहां भी सर्च करेंFinding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation
अंत में, आप क्लस्टरिंग का उपयोग करके क्लस्टरिंग परिणामों का पता लगा सकते हैं