अभी, मेरे पास केवल बहुत ही संक्षिप्त उत्तर के लिए समय है, लेकिन मैं बाद में इस पर विस्तार करने की कोशिश करूंगा।
आप जो करना चाहते हैं वह एक क्लस्टरिंग है , क्योंकि आप अपने डेटा के लिए कुछ लेबल खोजना चाहते हैं। (एक वर्गीकरण के विपरीत, जहां आपके पास कम से कम कुछ डेटा के लिए लेबल होंगे और आप बाकी को लेबल करना चाहेंगे)।
अपने उपयोगकर्ताओं पर एक क्लस्टरिंग करने के लिए, आपको उन्हें अमूर्त स्थान में कुछ प्रकार के बिंदुओं के रूप में रखना होगा। फिर आप बिंदुओं के बीच की दूरी को मापेंगे, और कहेंगे कि जो बिंदु "पास" हैं "समान" हैं, और उन्हें उस स्थान में उनकी जगह के अनुसार लेबल करें।
आपको अपना डेटा किसी ऐसी चीज़ में बदलने की ज़रूरत है, जो उपयोगकर्ता प्रोफ़ाइल की तरह दिखती है, यानी: एक उपयोगकर्ता आईडी, उसके बाद एक वेक्टर संख्या जो इस उपयोगकर्ता की सुविधाओं का प्रतिनिधित्व करती है। आपके मामले में, प्रत्येक सुविधा "वेबसाइट की श्रेणी" या "उत्पाद की श्रेणी" हो सकती है, और संख्या उस सुविधा में खर्च किए गए डॉलर की राशि हो सकती है। या फीचर वेब और उत्पाद का संयोजन हो सकता है।
एक उदाहरण के रूप में, आइए हम केवल तीन विशेषताओं के साथ उपयोगकर्ता प्रोफ़ाइल की कल्पना करते हैं:
- डॉलर में "तकनीकी" जाले,
- "फैशन" उत्पादों पर खर्च किए गए डॉलर,
- और "परिवार-उन्मुख" जाले (जो जानता है) पर "आक्रामक" वीडियो गेम पर डॉलर खर्च किए गए।
उन प्रोफाइलों को बनाने के लिए, आपको "श्रेणियां" और "कीवर्ड्स" को मैप करने की आवश्यकता है जो आपके पास हैं, जो आपके विचार से प्रासंगिक हैं। में देखो विषय मॉडलिंग या अर्थ समानता ऐसा करने के लिए। एक बार जब यह नक्शा बन जाता है, तो यह बताता है कि सभी डॉलर कीवर्ड "गैजेट", "इलेक्ट्रॉनिक्स", "प्रोग्रामिंग", और एक्स अन्य के साथ जाले पर खर्च किए जाते हैं, इन सभी को हमारी पहली विशेषता में एकत्र किया जाना चाहिए; और इसी तरह।
सुविधाओं को "थोपने" से डरो मत! आपको उपयोगकर्ताओं को एक बार क्लस्टर करने के बाद उन्हें परिष्कृत करना होगा और शायद उन्हें पूरी तरह से बदलना होगा।
जब आपके पास उपयोगकर्ता प्रोफ़ाइल हो जाए, तो k-mean या जो भी आपको लगता है कि दिलचस्प है, का उपयोग करके उन्हें क्लस्टर करने के लिए आगे बढ़ें । आप जो भी तकनीक का उपयोग करते हैं, आप प्रत्येक क्लस्टर के लिए "प्रतिनिधि" बिंदु प्राप्त करने में रुचि रखेंगे। यह आमतौर पर उस क्लस्टर में बिंदुओं का ज्यामितीय "केंद्र" है।
उन "प्रतिनिधि" बिंदुओं को प्लॉट करें, और यह भी प्लॉट करें कि वे अन्य समूहों की तुलना कैसे करते हैं। रडार चार्ट का उपयोग करना यहाँ बहुत उपयोगी है। जहाँ भी एक मुख्य विशेषता है (प्रतिनिधि में कुछ ऐसा है जो बहुत ही चिह्नित है, और अन्य समूहों की तुलना में बहुत प्रमुख है) आपको कुछ आकर्षक वाक्यांश ("nerds", "फ़ैशनिस्टा) के साथ क्लस्टर को लेबल करने में मदद करने के लिए एक अच्छा उम्मीदवार है। , "आक्रामक लम्हें" ...)।
याद रखें कि क्लस्टरिंग समस्या एक खुली समस्या है, इसलिए कोई "सही" समाधान नहीं है! और मुझे लगता है कि मेरा जवाब पहले से ही काफी लंबा है; प्रोफाइल के सामान्यीकरण और फ़िल्टरिंग आउटलेर्स के बारे में भी जाँच करें।