बाइनरी मैट्रिक्स को क्लस्टर करना


22

मेरे पास आयाम 250k x 100 की बाइनरी विशेषताओं का एक अर्ध-छोटा मैट्रिक्स है। प्रत्येक पंक्ति एक उपयोगकर्ता है और कॉलम कुछ उपयोगकर्ता व्यवहार के बाइनरी "टैग" हैं जैसे "पसंद_कैट"।

user  1   2   3   4   5  ...
-------------------------
A     1   0   1   0   1
B     0   1   0   1   0
C     1   0   0   1   0

मैं उपयोगकर्ताओं को 5-10 समूहों में फिट करना चाहूंगा और लोडिंग का विश्लेषण करके देखूंगा कि क्या मैं उपयोगकर्ता व्यवहार के समूहों की व्याख्या कर सकता हूं। बाइनरी डेटा पर फिटिंग क्लस्टर के लिए काफी कुछ दृष्टिकोण प्रतीत होता है - हमें क्या लगता है कि इस डेटा के लिए सबसे अच्छी रणनीति हो सकती है?

  • पीसीए

  • जैककार्ड समानता मैट्रिक्स बनाना , एक पदानुक्रमित क्लस्टर फिटिंग और फिर शीर्ष "नोड्स" का उपयोग करना।

  • कश्मीर माध्यिकाओं

  • कश्मीर medoids

  • Proximus ?

  • एग्नेस

अब तक मुझे पदानुक्रमिक क्लस्टरिंग का उपयोग करने के साथ कुछ सफलता मिली है, लेकिन मुझे यकीन नहीं है कि यह जाने का सबसे अच्छा तरीका है ..

tags = read.csv("~/tags.csv")
d = dist(tags, method = "binary")
hc = hclust(d, method="ward")
plot(hc)
cluster.means = aggregate(tags,by=list(cutree(hc, k = 6)), mean)

यहाँ छवि विवरण दर्ज करें


1
बड़े (कई नोड्स) और उच्च-आयामी डेटा के लिए यह एक ग्राफ क्लस्टरिंग एल्गोरिथ्म (उदाहरण के लिए tanimoto समानता और लौवेन क्लस्टरिंग, RNSC, mcl) जैसे तरीकों का उपयोग करने के लिए सार्थक हो सकता है। मुझे कुछ संदेह है कि क्या आपके प्रकार का डेटा सार्थक क्लस्टर उत्पन्न करेगा (यह बहुत अच्छी तरह से हो सकता है), लेकिन वे संदेह सामान्य रूप से क्लस्टरिंग से संबंधित हैं, विशेष रूप से किसी विशेष प्रकार के क्लस्टरिंग से नहीं। पीसीए निश्चित रूप से कोशिश करने के लिए कुछ है।
micans

6
ईमानदार होने के लिए, मुझे आश्चर्य है कि इस सवाल ने इतना कम ध्यान आकर्षित किया। ऐसा क्यों है? मेरे लिए, यह एक बेहद दिलचस्प सवाल लगता है।
डॉ। अतरैया

जवाबों:


9

अव्यक्त वर्ग विश्लेषण एक संभव दृष्टिकोण है।

निम्नलिखित संभाव्यता वितरण को लें जहाँ A, B, और C 1 या 0 मान ले सकते हैं।

पी(मैं,बीj,सीकश्मीर)

यदि ये एक-दूसरे से स्वतंत्र थे, तो हम यह देखने की उम्मीद करेंगे:

पी(मैं,बीj,सीकश्मीर)=पी(मैं)पी(बीj)पी(सीकश्मीर)

एक बार जब यह प्रतिबध्दता समाप्त हो जाती है, तो हम अनुमान लगा सकते हैं कि कोई भी देखी गई निर्भरता अन्यथा अप्रमाणित उपसमूहों के भीतर मौजूद मूल्यों के कारण है। इस विचार का परीक्षण करने के लिए, हम निम्नलिखित मॉडल का अनुमान लगा सकते हैं:

पी(मैं,बीj,सीकश्मीर)=पी(एक्सn)पी(मैं|एक्सn)पी(बीj|एक्सn)पी(सीकश्मीर|एक्सn)

जहाँ , स्तरों के साथ एक अव्यक्त श्रेणीगत चर है। आप specfy , और मॉडल मानकों (वर्ग की सदस्यता के सीमांत संभावनाओं, और प्रत्येक चर के लिए वर्ग विशेष संभावनाओं) उम्मीद-अधिकतमकरण के माध्यम से अनुमान लगाया जा सकता।एन एनएक्सnn

व्यवहार में, आप कई मॉडलों का अनुमान लगा सकते हैं, , और सिद्धांत के आधार पर "सर्वश्रेष्ठ" का चयन करें, संभावना आधारित फिट सूचकांकों और वर्गीकरण की गुणवत्ता (जिसका मूल्यांकन कक्षा की सदस्यता की पिछली संभावनाओं की गणना करके किया जा सकता है। टिप्पणियों)।5n10

हालांकि, 5-10 समूहों के साथ 100 चर में सार्थक पैटर्न की पहचान करने की कोशिश करने की संभावना होगी कि मॉडल का अनुमान लगाने से पहले उस सूची को कम करना होगा, जो कि अपने आप में एक मुश्किल पर्याप्त विषय है ( आरईएफ )।


बढ़िया, दिलचस्प। आप क्या कहेंगे कि किसी अन्य के ऊपर उस तकनीक का उपयोग करने का क्या लाभ है?
विजी

एक फायदा यह है कि क्लस्टरिंग फ़र्ज़ी है, जिससे आपको किसी भी बाद के क्लास असाइनमेंट में अनिश्चितता का पता चल सकता है। एक और यह है कि क्योंकि यह एक मॉडल आधारित विधि है,। आपको संभावना आधारित फिट सूचकांक मिलते हैं जो मॉडल चयन में मदद कर सकते हैं। यह निश्चित रूप से वितरण संबंधी मान्यताओं को बनाने की लागत पर आता है ... मुझे यकीन है कि अन्य वैध तरीकों का अपना स्वयं का व्यापार होगा।
डीएल दहीली

5

वास्तव में, इस तरह के डेटा पर क्लस्टरिंग की तुलना में लगातार आइटमसेट खनन एक बेहतर विकल्प हो सकता है।

एल्गोरिदम का सामान्य वेक्टर-उन्मुख सेट बहुत मायने नहीं रखता है। उदाहरण के लिए K- साधन का अर्थ होगा कि अब बाइनरी नहीं हैं।


भले ही मैं टैग (कॉलम) के बजाय उपयोगकर्ताओं को क्लस्टर करने की इच्छा रखते हुए भी लगातार वस्तुओं का उपयोग करने के लिए समझ में आता है?
wije

1
IMHO हाँ। लेकिन स्पष्ट कारणों के लिए, एसोसिएशन के नियम डेटा सेट का एक सख्त विभाजन नहीं हैं। एक उपयोगकर्ता एक से अधिक "लगातार आइटम" का सदस्य हो सकता है। यानी एक उपयोगकर्ता एक बिल्ली प्रशंसक और एक कुत्ता प्रशंसक दोनों हो सकता है; इन दो समूहों को असंतुष्ट होने के लिए लागू नहीं किया गया है।
ऐनी-मूस -रॉनेट मोनिका

कौन सा IMHO वास्तव में अच्छा है। यह मानते हुए कि प्रत्येक उपयोगकर्ता बिल्कुल एक क्लस्टर का सदस्य है, मुझे अत्यधिक भोला लगता है।
ऐनी-मूस -रिटनेट मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.