श्रेणीबद्ध डेटा के साथ, क्या चर संबंधित नहीं हो सकते हैं?


19

जब क्लस्टर विश्लेषण की व्याख्या करने की कोशिश की जा रही है, तो लोगों के लिए इस प्रक्रिया को गलत समझना आम बात है कि क्या चर संबंधित हैं। लोगों को भ्रम में रखने का एक तरीका यह है कि यह एक साजिश है:

यहाँ छवि विवरण दर्ज करें

यह स्पष्ट रूप से इस सवाल के अंतर को प्रदर्शित करता है कि क्या क्लस्टर हैं और क्या यह सवाल है कि क्या चर संबंधित हैं। हालाँकि, यह केवल निरंतर डेटा के लिए भेद दिखाता है। मैं स्पष्ट डेटा के साथ एक एनालॉग के बारे में सोच रहा हूँ:

ID  property.A  property.B
1   yes         yes
2   yes         yes
3   yes         yes
4   yes         yes
5   no          no
6   no          no
7   no          no
8   no          no

हम देख सकते हैं कि दो स्पष्ट क्लस्टर हैं: संपत्ति ए और बी दोनों के साथ लोग, और न ही उन लोगों के साथ। हालाँकि, यदि हम चर को देखते हैं (जैसे, ची-स्क्वेर्ड टेस्ट के साथ), तो वे स्पष्ट रूप से संबंधित हैं:

tab
#      B
# A     yes no
#   yes   4  0
#   no    0  4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389

मुझे लगता है कि मैं एक नुकसान पर हूं कि कैसे स्पष्ट डेटा के साथ एक उदाहरण का निर्माण किया जाए जो ऊपर दिए गए निरंतर डेटा के अनुरूप है। क्या चर के बिना विशुद्ध रूप से श्रेणीबद्ध डेटा में क्लस्टर होना संभव है? क्या होगा यदि चर के दो से अधिक स्तर हैं, या आपके पास बड़ी संख्या में चर हैं? यदि टिप्पणियों का क्लस्टरिंग आवश्यक रूप से चर और इसके विपरीत के बीच संबंधों को उलझाता है, तो क्या इसका मतलब यह है कि क्लस्टरिंग वास्तव में करने के लायक नहीं है जब आपके पास केवल श्रेणीबद्ध डेटा होता है (यानी, आपको इसके बजाय केवल चर का विश्लेषण करना चाहिए)?


अपडेट: मैंने मूल प्रश्न से बहुत कुछ छोड़ दिया क्योंकि मैं सिर्फ इस विचार पर ध्यान केंद्रित करना चाहता था कि एक सरल उदाहरण बनाया जा सकता है जो किसी ऐसे व्यक्ति के लिए भी सहज रूप से सहज होगा जो क्लस्टर विश्लेषणों से काफी हद तक अपरिचित था। हालाँकि, मैं मानता हूँ कि बहुत सी क्लस्टरिंग दूरी और एल्गोरिदम आदि के विकल्पों पर निर्भर है, अगर मैं अधिक निर्दिष्ट करता हूँ तो यह मदद कर सकता है।

मैं मानता हूं कि पीयरसन का सहसंबंध वास्तव में निरंतर डेटा के लिए उपयुक्त है। श्रेणीबद्ध डेटा के लिए, हम चीर-वर्ग परीक्षण (दो-तरफ़ा आकस्मिक तालिका के लिए) या लॉग-लीनियर मॉडल (बहु-प्रकार आकस्मिक तालिकाओं के लिए) श्रेणीबद्ध चर की स्वतंत्रता का आकलन करने के तरीके के रूप में सोच सकते हैं।

एक एल्गोरिथ्म के लिए, हम k-medoids / PAM का उपयोग करके कल्पना कर सकते हैं, जिसे निरंतर स्थिति और श्रेणीबद्ध डेटा दोनों पर लागू किया जा सकता है। (ध्यान दें कि, निरंतर उदाहरण के पीछे के इरादे का हिस्सा यह है कि किसी भी उचित क्लस्टरिंग एल्गोरिथ्म को उन समूहों का पता लगाने में सक्षम होना चाहिए, और यदि नहीं, तो एक अधिक चरम उदाहरण का निर्माण संभव होना चाहिए।)

दूरी के गर्भाधान के संबंध में। मैंने यूक्लिडियन को निरंतर उदाहरण के लिए ग्रहण किया, क्योंकि यह एक भोले दर्शक के लिए सबसे बुनियादी होगा। मुझे लगता है कि श्रेणीबद्ध डेटा के लिए अनुरूप है कि दूरी (इसमें यह सबसे सहज होगा) सरल मिलान होगा। हालाँकि, मैं अन्य दूरियों की चर्चाओं के लिए खुला हूँ अगर इससे कोई समाधान निकलता है या सिर्फ एक दिलचस्प चर्चा होती है।


2
मुझे आश्चर्य है कि अगर हमारे पास स्पष्ट डेटा में क्लस्टर जैसा कुछ भी है । ऐसा नहीं है कि क्लस्टर के बीच का विचलन क्लस्टर के भीतर से बड़ा होगा, या क्लस्टर्स के बीच घनत्व अंतर के बारे में बात कर सकते हैं। इसलिए यदि क्लॉस्टेस्ट मैच लगातार आइटम हैं, तो क्लस्टर्स से फॉर्म बनाने के लिए वेरिएबल का संबंध होना चाहिए।
है क्विट - Anony-Mousse

@ Anony-Mousse, यह दिलचस्प है। क्यों नहीं एक जवाब में विकसित? BTW, मैं वास्तव में मौजूदा समूहों की छवि बना सकता हूं (जैसे, अव्यक्त निरंतर चर में जो नाममात्र चर के विभिन्न स्तरों के लिए अलग-अलग संभावनाओं को जन्म देता है), लेकिन मुझे संदेह है कि आपका क्या मतलब है।
गंग -

आप एक सदिश वितरण को वेक्टर में बदल सकते हैं जिसके घटक सामान्यीकृत आवृत्तियाँ हैं। फिर यूक्लिडियन मीट्रिक लागू किया जा सकता है। हालांकि यह एकमात्र विकल्प नहीं है: math.umn.edu/~garrett/m/fun/notes_2012-13/02_spaces_fcns.pdf और en.m.wikipedia.org/wiki/Normed -vector_space

@ttnphns, आपको लगता है कि [data-association]टैग जोड़ा गया है । मुझे यकीन नहीं है कि यह संकेत देने वाला क्या है और इसका कोई अंश / उपयोग मार्गदर्शन नहीं है। क्या हमें वास्तव में इस टैग की आवश्यकता है? विलोपन के लिए एक अच्छे उम्मीदवार की तरह लगता है। यदि हमें वास्तव में सीवी पर इसकी आवश्यकता है और आप जानते हैं कि यह क्या होना चाहिए, तो क्या आप कम से कम इसके लिए एक अंश जोड़ सकते हैं?
गूँग - मोनिका

@ गुंग, मैं भी, इस टैग को संदर्भित करने के लिए काफी समझ में नहीं आता। मैंने इसे "विशेषताओं के बीच संबंध / संबंध" विषय के कारण जोड़ा। आप क्यू या पूरी तरह से टैग को हटाने के लिए स्वतंत्र हैं। दूसरी ओर, यह समय है (मुझे लगता है) कि हमारे टैग पूरे सहसंबंध / संघ क्षेत्र को कवर करने के बारे में फिर से विचार करें। उदाहरण के लिए, "सहसंबंध" को केवल पियर्सन सहसंबंध के लिए बनाए रखा जाना चाहिए? क्या हमें एक नया टैग "वैरिएबल-एसोसिएशन" ("डेटा-एसोसिएशन" के स्थान पर) बनाना चाहिए?
ttnphns

जवाबों:


11

असंबद्ध पैमाने के चर के साथ स्पष्ट-क्लस्टर मामले पर विचार करें - जैसे कि प्रश्न में शीर्ष दाएं चित्र। और इसके डेटा को वर्गीकृत करते हैं।

यहाँ छवि विवरण दर्ज करें

हमने एक्स और वाई दोनों प्रकारों के पैमाने को 3 डिब्बे में विभाजित किया है जो अब हम श्रेणीगत लेबल के रूप में मानते हैं। इसके अलावा, हम उन्हें नाममात्र की घोषणा करेंगे, न कि अध्यादेश की, क्योंकि पूछे गए प्रश्न का अर्थ मुख्य रूप से और गुणात्मक डेटा के बारे में है। स्पॉट का आकार एक आवृत्ति क्रॉस-टेबल सेल में आवृत्ति है; एक ही सेल में सभी मामलों को समान माना जाता है।

सहज रूप से और सबसे आम तौर पर, "क्लस्टर" को डेटा "स्पेस" में विरल क्षेत्रों द्वारा अलग किए गए डेटा बिंदुओं के थक्कों के रूप में परिभाषित किया जाता है। यह शुरू में स्केल डेटा के साथ था और यह वर्गीकृत डेटा के क्रॉस-टेबुलेशन में समान प्रभाव रखता है। एक्स और वाई अब श्रेणीबद्ध हैं, लेकिन वे अभी भी असंबद्ध दिखते हैं: ची-स्क्वायर एसोसिएशन शून्य के बहुत करीब है। और गुच्छे हैं।

लेकिन याद रखें कि हम नाममात्र श्रेणियों के साथ काम कर रहे हैं जो तालिका में आदेश मनमाना है। हम देखे गए ची-वर्ग मान को प्रभावित किए बिना पूरी पंक्तियों और / या स्तंभों को फिर से चालू कर सकते हैं। पुन: व्यवस्थित करें ...

यहाँ छवि विवरण दर्ज करें

... उस गुच्छों से मिलने के लिए बस गायब हो गया। चार सेल, ए 1, ए, सी 1 और सी 3, एक ही क्लस्टर में एकजुट हो सकते हैं। तो नहीं, हमारे पास स्पष्ट डेटा में कोई क्लस्टर नहीं है।

A1 और c3 (या a3 और c1 की इसी तरह) कोशिकाओं के मामले पूर्ण-प्रसार हैं: वे समान अट्रिब्यूट साझा नहीं करते हैं। हमारे डेटा में क्लस्टर बनाने के लिए - समूहों को बनाने के लिए a1 और c3 - हमें कुछ मामलों में, डेटा a3 और c1 को भ्रमित करके, इन मामलों को डेटासेट से हटाकर खाली करना होगा।

यहाँ छवि विवरण दर्ज करें

अब क्लस्टर मौजूद हैं। लेकिन उसी समय हम असंबद्धता खो बैठे। तालिका में दिखाई दे रही विकर्ण संरचना यह संकेत देती है कि ची-स्टैट स्टेटिस्टिक शून्य से बहुत दूर है।

अफ़सोस की बात है। आइए हम एक ही समय में असंबद्धता और अधिक या कम स्पष्ट समूहों को संरक्षित करने का प्रयास करें। हम उदाहरण के लिए, केवल कक्ष a3 को पर्याप्त रूप से खाली करने का निर्णय ले सकते हैं, और फिर a1 + c1 को एक क्लस्टर के रूप में मानते हैं जो क्लस्टर 3 का विरोध करता है:

यहाँ छवि विवरण दर्ज करें

यह ऑपरेशन शून्य से किसी भी तरह ची-स्क्वायर नहीं लाया गया ...

[Indeed, table such as for example
 6   6   1
 6   6   1
 1   1   0
retains about the same very low chi-square association after
dividing 2nd column by 3 and multiplying 2nd row by 3, which gives
 6   2   1
18   6   3
 1  1/3  0
Cell (1,2) got thrice lower frequency. We had, however, to upheave
cell (2,1) frequency thrice, to keep Chi-sq almost as before.]

... लेकिन गुटों के साथ स्थिति भ्रमित है। क्लस्टर a1 + c1 में ऐसे मामले होते हैं जो आंशिक रूप से समान होते हैं, आंशिक रूप से आधा-प्रसार। यह कि क्लस्टर अपेक्षाकृत कम सजातीय है और यह किसी डेटासेट में स्पष्ट-क्लस्टर संरचना के लिए एक पूर्व समावेश नहीं है। हालांकि, हमारे, श्रेणीबद्ध डेटा के साथ समस्या यह है कि क्लस्टर a1 + c1 किसी भी तरह से क्लस्टर c1 + c3 से बेहतर नहीं है , इसका सममित एनालॉग है। इसका मतलब है कि क्लस्टर समाधान अस्थिर है - यह डेटासेट में केस ऑर्डर पर निर्भर करेगा। एक अस्थिर समाधान, यहां तक ​​कि यह अपेक्षाकृत "स्पष्ट-संकुल" है, एक बुरा समाधान है, अविश्वसनीय है।

समस्या को दूर करने और समाधान को स्पष्ट और स्थिर बनाने का एकमात्र तरीका सेल बी 1 से सेल सी 3 को हटाना होगा, अपने डेटा को सेल बी 3 (या बी 2) से नीचे ले जाकर।

यहाँ छवि विवरण दर्ज करें

तो हमारे पास स्पष्ट क्लस्टर a1 + c1 बनाम b3 है। लेकिन देखो, यहाँ फिर से विकर्ण पैटर्न दिखाई देता है - और तालिका का ची-वर्ग शून्य से ऊपर ऊंचा होता है।

निष्कर्ष । दो चि-वर्ग-असंबद्ध नाममात्र चर और डेटा मामलों के अच्छे समूहों को एक साथ रखना असंभव है। स्पष्ट और स्थिर समूहों का मतलब है कि परिवर्तनशील संघ को प्रेरित करना।

यह भी स्पष्ट है कि यदि एसोसिएशन मौजूद है - यानी विकर्ण पैटर्न मौजूद है या पुन: व्यवस्थित करने से प्राप्त होता है - तो क्लस्टर मौजूद होना चाहिए। ऐसा इसलिए है क्योंकि श्रेणीबद्ध डेटा की प्रकृति ("सभी या कुछ भी नहीं") आधे टन और सीमा रेखा की स्थिति की अनुमति नहीं देती है, इसलिए ओपी के प्रश्न में नीचे-बाएं जैसी तस्वीर स्पष्ट, नाममात्र डेटा के साथ उभर नहीं सकती है।

मुझे लगता है कि जैसा कि हम अधिक से अधिक नाममात्र चर (सिर्फ दो के बजाय) प्राप्त करते हैं जो कि द्विवार्षिक चि-वर्ग असंबंधित हैं, हम क्लस्टर होने की संभावना के करीब आते हैं। लेकिन शून्य मल्टीवेरेट ची-स्क्वायर, मुझे उम्मीद है कि अभी भी क्लस्टर के साथ असंगत होगा। यह दिखाया जाना अभी बाकी है (मेरे द्वारा या इस बार नहीं)।


अंत में, @ Bey's (aka user75138) पर एक टिप्पणी का उत्तर दिया गया जिसका मैंने आंशिक समर्थन किया। मैंने इस पर अपने समझौते के साथ टिप्पणी की है कि किसी ने पहले दूरी मीट्रिक और एसोसिएशन के उपाय पर फैसला किया है, इससे पहले कि वह सवाल "केस क्लस्टर्स से स्वतंत्र चर एसोसिएशन है?" इसका कारण यह है कि कोई सार्वभौमिक संघ माप मौजूद नहीं है, और न ही समूहों की सार्वभौमिक सांख्यिकीय परिभाषा। मैं आगे जोड़ूंगा, वह भी क्लस्टरिंग तकनीक पर निर्णय लेना चाहिए। क्लस्टरिंग के विभिन्न तरीके अलग-अलग परिभाषित करते हैं कि वे "क्लस्टर" क्या हैं। तो, पूरा कथन सत्य हो सकता है।

इस तरह के एक तानाशाही की कमजोरी यह है कि यह बहुत व्यापक है। किसी को यह दिखाने का प्रयास करना चाहिए कि क्या, जहां और जहां दूरी मीट्रिक / संघ उपाय / क्लस्टर विधि पर एक विकल्प है, नाममात्र के डेटा के लिए असंबद्धता के साथ असंबद्धता को समेटने के लिए कमरा खुलता है। वह, विशेष रूप से, यह ध्यान में रखेगा कि बाइनरी डेटा के लिए सभी निकटता गुणांक नाममात्र डेटा के साथ कोई मतलब नहीं है, क्योंकि नाममात्र डेटा के लिए, "दोनों मामलों में इस विशेषता की कमी है" कभी भी उनकी समानता के लिए आधार नहीं हो सकता है।


अद्यतन , मेरे सिमुलेशन निष्कर्षों की रिपोर्टिंग।

.1

आर

आम तौर पर उत्तर के भीतर उपर्युक्त प्रदर्शन तर्क का समर्थन करते हैं। बहुत स्पष्ट क्लस्टर्स कभी नहीं थे (जैसे कि ची-स्क्वायर एसोसिएशन मजबूत हो सकता है)। और अलग-अलग क्लस्टरिंग मानदंड के परिणाम अक्सर एक-दूसरे के विपरीत होते हैं (जो कि जब क्लस्टर वास्तव में स्पष्ट होते हैं, तो उम्मीद करने की संभावना नहीं है)।

कभी-कभी पदानुक्रमिक क्लस्टरिंग एक k- क्लस्टर समाधान की पेशकश करेगा जो कुछ हद तक अच्छा है, जैसा कि क्लस्टरिंग मानदंड साजिश के माध्यम से मनाया जाता है; हालाँकि, स्थिरता के लिए इसका परीक्षण यह दिखाने में विफल होगा कि यह स्थिर है। उदाहरण के लिए, यह 3-चर 4x4x3डेटा

   V1  V2  V3   Count
    1   1   1   21
            2   24
            3   1
        2   1   22
            2   26
            3   1
        3   1   1
            2   1
            3   1
        4   1   17
            2   20
            3   1
    2   1   1   10
            2   12
            3   1
        2   1   10
            2   12
            3   1
        3   1   1
            2   1
            3   1
        4   1   8
            2   9
            3   1
    3   1   1   24
            2   28
            3   1
        2   1   25
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1
    4   1   1   24
            2   28
            3   1
        2   1   26
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1

जब पूर्ण लिंकेज हेसिकल विधि द्वारा पासा जाता है, तो डाइस समानता, विभाजित होने लगती है - काफी उचित रूप से - 9 समूहों में - इस मामले में तीन आंतरिक वैधता न्यायाधीशों के बीच समझौते में:

यहाँ छवि विवरण दर्ज करें

लेकिन समाधान स्थिर नहीं है, जैसा कि अनुमत (केस-फिर से व्यवस्थित) समाधान के खिलाफ मूल समाधान के भ्रम मैट्रिक्स की अपूर्ण अपूर्णता से देखा जाता है:

यहाँ छवि विवरण दर्ज करें

यदि समाधान स्थिर था (जैसा कि संभवतः यह होगा कि हमारे पास निरंतर डेटा है) तो हमने 9-क्लस्टर समाधान को पर्याप्त रूप से प्रेरक के रूप में चुना होगा।

लॉग-लाइबिलिटी दूरी (डाइस समानता के विपरीत) के आधार पर क्लस्टरिंग स्थिर और "खराब नहीं" (आंतरिक रूप से काफी वैध) समाधान दे सकती है। लेकिन ऐसा इसलिए है क्योंकि दूरी, कम से कम एसपीएसएस के टूस्टेप क्लस्टर में है, उच्च आबादी वाले समूहों को प्रोत्साहित करना और बढ़ावा देना और कम आबादी वाले लोगों की उपेक्षा करना। यह अंदर घने होने के लिए बहुत कम आवृत्ति वाले क्लस्टरों की मांग नहीं करता है (जो टूस्टेप क्लस्टर विश्लेषण की "नीति" प्रतीत होती है, जिसे विशेष रूप से बड़े डेटा के लिए और कुछ क्लस्टर्स देने के लिए डिज़ाइन किया गया था; इसलिए छोटे क्लस्टर्स को बाहर की तरह देखा जाता है; । उदाहरण के लिए, ये 2-चर डेटा

यहाँ छवि विवरण दर्ज करें

जैसा कि दिखाया गया है, सख्ती से 5 समूहों में टूस्टेप द्वारा संयुक्त किया जाएगा, और 5-क्लस्टर समाधान कुछ खराब नहीं है, जैसा कि कुछ क्लस्टरिंग मानदंडों द्वारा देखा जाता है। क्योंकि चार आबादी वाले क्लस्टर बहुत घने हैं (वास्तव में, सभी मामले समान), और केवल एक, पांचवें क्लस्टर, जिसमें कुछ मामले शामिल हैं, बेहद एंट्रोपेड है। तो स्पष्ट रूप से वास्तव में 12-क्लस्टर समाधान है, 5-क्लस्टर नहीं है, लेकिन 12 आवृत्ति तालिका में कुल कोशिकाओं की संख्या है, जो "क्लस्टर समाधान" के रूप में तुच्छ और निर्बाध है।


+1, यह वही है जो मुझे संदेह था। जोड़ो में बनाम मल्टीवेरिएट असंबद्ध असंबद्ध एक दिलचस्प बात है। इस मुद्दे को अधिक व्यापक रूप से देखते हुए, क्या इसका मतलब यह है कि वास्तव में नाममात्र डेटा को क्लस्टर करने की कोशिश में कोई मतलब नहीं है? यानी, क्या हमें हमेशा चर का विश्लेषण करना चाहिए अगर हमारे पास कोई निरंतर डेटा नहीं है?
गूँग - मोनिका

1
@ गंग, क्या आपको पता नहीं है कि चर के बीच संबंध मामलों के ध्रुवीकरण ("डायजोलनेस") के सिक्के का दूसरा पहलू है ? यह सच है, अधिकतम के रूप में, निरंतर डेटा के लिए भी। लेकिन निरंतर के लिए, ध्रुवीकरण क्लस्टर्स का मतलब नहीं हो सकता है। श्रेणीबद्ध के लिए, ऐसा प्रतीत होता है कि इसका तात्पर्य है। असतत स्वभाव के कारण। तो शायद हां, अगर श्रेणीबद्ध चर सहसंबंधित हैं, तो खोजने के लिए क्लस्टर हैं। लेकिन आपको क्लस्टर को बेहतर तरीके से प्राप्त करने के लिए क्लस्टरिंग करनी होगी । आपके महान प्रश्न के लिए मेरी अस्थायी राय है।
ttnphns 17:17 पर

मैं उससे परिचित नहीं हूं। शायद मैं इसके बारे में बाद में पूछूंगा। यह अब के लिए चबाने के लिए अच्छी जानकारी है, मुझे लगता है।
गूँग - मोनिका

3

जैसा कि मुझे यकीन है कि आप जानते हैं, सहसंबंध दो चर के बीच रैखिक संबंध का एक उपाय है, न कि यह कि बिंदु एक दूसरे के कितने करीब हैं। यह शीर्ष चार आंकड़े बताते हैं।

बेशक, आप असतत, वास्तविक-मूल्यवान डेटा के लिए भी समान ग्राफ़ बना सकते हैं।

एक्स{,बी,सी,डी}आरएक्सआरएक्स

इससे पहले कि आप वास्तव में ज्यामितीय अर्थों में क्लस्टरिंग के बारे में बात कर सकें, आपको स्पष्ट स्थान के लिए एक मीट्रिक को परिभाषित करने की आवश्यकता होगी।


1
मैं इस उत्तर का समर्थन करूंगा और इसे @ सुधार करूंगा, अगर @gung और Bey दोनों सहज शब्दों में अनुमति दें। क्लस्टर किए गए डेटा को "क्लस्टर में छोटी दूरी लेकिन क्लस्टर के बीच लंबी दूरी" द्वारा परिभाषित किया गया है। उनके चित्रों पर, ओपी ने क्लस्टर्डनेस के इस विचार को चित्रित करने के लिए , स्पष्ट रूप से, यूक्लिडियन दूरी का चयन किया । उन्होंने पियरसन सहसंबंध या इसके समान कुछ की धारणा का भी चयन किया - चर के बीच सहयोग के विचार को चित्रित करने के लिए। ये कई विकल्पों में से दो विशेष / मनमाने विकल्प हैं।
ttnphns

1
(प्रतियोगिता।) मैं यह भी सोच सकता हूं कि ऐसी दूरी मापी जा सकती है और इस तरह के जुड़ाव को चुना जा सकता है जहां "केस क्लस्टर्डनेस" गर्भाधान और "वैरिएबल एसोसिएशन" गर्भाधान ऑर्थोगोनल नहीं हैं। और अब, स्पष्ट डेटा के लिए। इससे पहले कि कोई जांच कर सके और दिखा सके कि दोनों अवधारणाएँ स्वतंत्र हो सकती हैं या संबंधित हैं, उन्हें श्रेणीबद्ध डेटा बिंदुओं के लिए एक विशिष्ट दूरी माप और श्रेणीबद्ध चर के लिए एक विशिष्ट संघ उपाय का चयन करना होगा। से चुनने के लिए कई विकल्प हैं! और उत्तर निर्भर करेगा।
ttnphns

@ttnphns (+1) मुझे पसंद है कि आपने दो मुख्य विकल्प कैसे तय किए: दूरी और एसोसिएशन मेट्रिक्स। सुनिश्चित नहीं है कि मेरी व्याख्या के बारे में क्या सहज नहीं था ... आप दूरी की धारणा के बिना समूहों को परिभाषित नहीं कर सकते।

@ttnphns, मुझे लगता है कि यह Bey के ऊपर है। आप अपने कुछ विचारों को अपने उत्तर में क्यों नहीं बदल देते? मुझे इस विचार में दिलचस्पी होगी कि "केस क्लस्टर्डनेस" और "वैरिएबल एसोसिएशन" कुछ विकल्प दिए गए निरंतर डेटा के लिए गैर-ऑर्थोगोनल बन जाते हैं। Bey & ttnphns, मैंने दूरी और एसोसिएशन के उपायों के बारे में प्रश्न में कुछ स्पष्टीकरण जोड़े हैं, लेकिन यदि आप चाहें तो आपको एक अलग दिशा में जाने के लिए स्वतंत्र महसूस करना चाहिए। मुझे पता है अगर यह और अधिक की जरूरत है। मेरी प्राथमिकता यह है कि उत्तरदाताओं को एक अलग दिशा में जाने की सुविधा देने के लिए यह प्रश्न यथासंभव 'ढीला' बना रहे।
गूँग - मोनिका

1
@, निश्चित रूप से, श्रेणीबद्ध डेटा के लिए कई अन्य संभावित दूरी और एसोसिएशन उपाय हैं, इसलिए आप कुछ गूढ़ सुझाव देने के लिए स्वतंत्र हैं जो इसे काम करता है।
गूँग - मोनिका

2

हामिंग दूरी पर विचार करें - समान लंबाई के दो तारों के बीच की हामिंग दूरी उन पदों की संख्या है जिनके आधार पर संबंधित प्रतीक भिन्न होते हैं। इस परिभाषा से यह स्पष्ट लगता है कि हम डेटा का उत्पादन कर सकते हैं जिसके लिए हम्मिंग दूरी के आधार पर क्लस्टर हैं लेकिन चर के बीच कोई संबंध नहीं है।

एक उदाहरण मैथेमेटिका का उपयोग करता है।

कुछ श्रेणीबद्ध डेटा बनाएँ (4 वर्णों के समान यादृच्छिक नमूने के 3 प्रतीक लंबे क्रम):

chs = CharacterRange["a", "d"];
words = StringJoin @@@ Union[Table[RandomChoice[chs, 3], 40]];
Length[words]
words

(* 29 *)

(* {"aac", "aad", "abb", "aca", "acb", "acd", "adb", "adc", "baa", "bab", "bac", "bad", "bcc", "bcd", "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", "dba", "dbb", "dbd", "dca", "dcc", "dcd"} *)

चर के बीच संबंधों के लिए मोज़ेक भूखंडों का उपयोग करें (विभिन्न स्तंभों से मूल्यों के जोड़े के लिए सशर्त संभावनाएं)।

Import["https://raw.githubusercontent.com/antononcube/MathematicaForPrediction/master/MosaicPlot.m"]
wordSeqs = Characters /@ words;
opts = {ColorRules -> {2 -> ColorData[7, "ColorList"]}, ImageSize -> 400};
Grid[{{MosaicPlot[wordSeqs[[All, {1, 2}]], 
    "ColumnNames" -> {"column 1", "column 2"}, opts],
   MosaicPlot[wordSeqs[[All, {2, 3}]], 
    "ColumnNames" -> {"column 2", "column 3"}, opts],
   MosaicPlot[wordSeqs[[All, {1, 3}]], 
    "ColumnNames" -> {"column 1", "column 3"}, opts]}}, Dividers -> All]

यहाँ छवि विवरण दर्ज करें

हम देख सकते हैं कि कोई संबंध नहीं है।

क्लस्टर खोजें:

cls = FindClusters[words, 3, DistanceFunction -> HammingDistance]

(* {{"aac", "aad", "adc", "bac"}, {"abb", "acb", "adb", "baa", "bab", "bad", 
  "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", 
  "dbb"}, {"aca", "acd", "bcc", "bcd", "dba", "dbd", "dca", "dcc", "dcd"}} *)

यदि हम हर वर्ण को एक पूर्णांक से प्रतिस्थापित करते हैं, तो हम इस भूखंड से देख सकते हैं कि गुच्छों को हैमिंग दूरी के साथ कैसे बनाया जाता है:

esrules = Thread[chs -> Range[Length[chs]]]; gr1 = 
 ListPointPlot3D[Characters[cls] /. esrules, 
  PlotStyle -> {PointSize[0.02]}, PlotLegends -> Automatic, 
  FaceGrids -> {Bottom, Left, Back}];
gr2 = Graphics3D[
   Map[Text[#, Characters[#] /. esrules, {1, 1}] &, Flatten[cls]]];
Show[gr1, gr2]

यहाँ छवि विवरण दर्ज करें

आगे की क्लस्टरिंग

हम उन शब्दों को जोड़कर एक ग्राफ बनाते हैं जिसके लिए हैमिंग की दूरी 1 है:

mat = Clip[Outer[HammingDistance, words, words], {0, 1}, {0, 0}];
nngr = AdjacencyGraph[mat, 
  VertexLabels -> Thread[Range[Length[words]] -> words]]

यहाँ छवि विवरण दर्ज करें

अब हम समुदाय समूह पाते हैं:

CommunityGraphPlot[nngr]

यहाँ छवि विवरण दर्ज करें

ग्राफ क्लस्टर की तुलना उस के साथ करें FindClusters(जिसे 3 खोजने के लिए मजबूर किया गया था)। हम देख सकते हैं कि "बेक" अत्यधिक केंद्रीय है, और "एड" ग्रीन क्लस्टर से संबंधित हो सकता है, जो 3 डी प्लॉट में क्लस्टर 1 से मेल खाता है।

ग्राफ डेटा

यहाँ किनारे की सूची है nngr:

{1 <-> 2, 1 <-> 8, 1 <-> 11, 1 <-> 17, 2 <-> 6, 2 <-> 12, 2 <-> 18, 
 3 <-> 5, 3 <-> 7, 3 <-> 19, 3 <-> 25, 4 <-> 5, 4 <-> 6, 4 <-> 27, 
 5 <-> 6, 5 <-> 7, 5 <-> 20, 6 <-> 14, 6 <-> 29, 7 <-> 8, 7 <-> 22, 
 9 <-> 10, 9 <-> 11, 9 <-> 12, 9 <-> 15, 10 <-> 11, 10 <-> 12, 
 10 <-> 16, 10 <-> 23, 11 <-> 12, 11 <-> 13, 11 <-> 17, 12 <-> 14, 
 12 <-> 18, 13 <-> 14, 13 <-> 28, 14 <-> 29, 15 <-> 16, 15 <-> 17, 
 15 <-> 18, 15 <-> 21, 16 <-> 17, 16 <-> 18, 16 <-> 19, 16 <-> 20, 
 16 <-> 22, 16 <-> 23, 17 <-> 18, 19 <-> 20, 19 <-> 22, 19 <-> 25, 
 20 <-> 22, 21 <-> 22, 23 <-> 25, 24 <-> 25, 24 <-> 26, 24 <-> 27, 
 25 <-> 26, 26 <-> 29, 27 <-> 28, 27 <-> 29, 28 <-> 29}

साइट पर आपका स्वागत है! बस एक जोड़ी टिप्पणी: कोड किस भाषा का है? (जो एनोटेट नहीं है, इसके अलावा)। आप कैसे परिभाषित करते हैं relationship between the variables (correlation)?
ttnphns

यह दिलचस्प है। दुर्भाग्य से, मैं गणितज्ञ को नहीं जानता (और संपादित दूरी से कम परिचित हूं), इसलिए मुझे यह समझने के लिए इसके साथ खेलने की आवश्यकता है कि मैं इसे समझता हूं। मुझे अभी तक कोई मौका नहीं मिला है, लेकिन मैंने जल्द ही इरादा किया है।
गोबर - मोनिका

@ गुंग मैं इसे आर में करने के लिए सोच रहा था, लेकिन मुझे लगा कि महत्वपूर्ण हिस्सा 3 डी प्लॉट है और इसे सही कोण (एस) में घुमाते हुए क्लस्टर्स के गठन की जानकारी मिलती है। अच्छा सवाल है, वैसे!
एंटोन एंटोनोव

तो आपके यहाँ "क्लस्टर" है। लेकिन क्या वे सार्थक हैं? क्या वे अन्य समूहों की तुलना में बेहतर हैं? साजिश से, मैं कहूंगा कि क्लस्टर 1 बहुत यादृच्छिक है। तो वह क्लस्टर क्यों है?
है क्विट - ऐनी-मौसे

1
रैंडम यूनिफ़ॉर्म (!) उत्पन्न डेटा में स्पष्ट रूप से क्लस्टर नहीं होना चाहिए। "समुदाय" की साजिश भ्रामक है क्योंकि यह दूरी को संरक्षित नहीं करती है। 1-दूरी वाला ग्राफ इन समस्याओं पर जोर देता है। यह भी इस तरह के एक और उदाहरण से पता चलता, cda। क्षमा करें, मैं इन "समूहों" को "नहीं" खरीद रहा हूं। डेटा एकसमान है, इसमें क्लस्टर नहीं होना चाहिए ।
QUIT -

2

@ जोड़ीदार बनाम बहुभिन्नरूपी संघ के बारे में बिंदु अच्छी तरह से लिया गया है। इससे संबंधित है कि पुराने को बहुभिन्नरूपी ढांचे में छलांग लगाने से पहले सरल मेट्रिक्स के साथ जुड़ाव प्रदर्शित करने के महत्व के बारे में देखा जाता है। दूसरे शब्दों में, यदि संगति के सरल जोड़ीदार उपाय कोई संबंध नहीं दिखाते हैं, तो यह संभव नहीं हो जाता है कि बहुभिन्नरूपी रिश्ते या तो कुछ भी दिखाएंगे। मैं "असंभव" शब्द का उपयोग करने की अनिच्छा के कारण "तेजी से असंभव" कहता हूं। इसके अलावा, मैं मीट्रिक कार्यरत चाहे वह क्रमसूचक डेटा के लिए एक monotonic स्पीयरमैन सह-संबंध होने के लिए के रूप में नास्तिक हूँ, Somer के विकास , केंडल के ताऊ , polychoric सहसंबंध, Reshef के एमआईसी, Szelkey की दूरी सहसंबंध, जो कुछ भी।

कोलंबिया के समाजशास्त्री पॉल लैजर्सफेल्ड ने प्रारंभिक 50 के दशक में स्पष्ट जानकारी में अव्यक्त संरचना को खोजने पर किया मूल काम। अनिवार्य रूप से, उन्होंने अव्यक्त चर मॉडल के एक वर्ग का आविष्कार किया, जिसने व्यापक विकास और संशोधन देखा है। सबसे पहले, जेम्स कॉलेमैन के 60 के काम के साथ, सी राजनीतिक अर्थशास्त्री के यू, अव्यक्त मतदाता चुनाव प्रचार पर, उसके बाद दिवंगत क्लिफोर्ड क्लॉग के योगदान के बाद, एक समाजशास्त्री, जिसका MELISSA सॉफ्टवेयर पहले सार्वजनिक रूप से उपलब्ध अव्यक्त वर्ग फ्रीवेयर था।

80 के दशक में, अव्यक्त वर्ग के मॉडल विशुद्ध रूप से श्रेणीबद्ध जानकारी से लेकर मिश्रण मॉडल तक सीमित थे, जिसमें सांख्यिकीय नवाचारों से अव्यक्त सोना जैसे उपकरणों का विकास था। इसके अलावा, बिल डिलन, एक विपणन वैज्ञानिक, ने अव्यक्त विभेदक परिमित मिश्रण मॉडल के फिटिंग के लिए एक गॉस कार्यक्रम विकसित किया। श्रेणीबद्ध और निरंतर जानकारी के फिटिंग मिश्रण के लिए इस दृष्टिकोण पर साहित्य वास्तव में काफी व्यापक है। यह सिर्फ उन क्षेत्रों के बाहर के रूप में अच्छी तरह से ज्ञात नहीं है जहां इसे सबसे अधिक व्यापक रूप से लागू किया गया है, उदाहरण के लिए, विपणन विज्ञान जहां इन मॉडलों का उपयोग उपभोक्ता विभाजन और क्लस्टरिंग के लिए किया जाता है।

हालांकि, इन परिमित मिश्रण मॉडल अव्यक्त क्लस्टरिंग और आकस्मिक टेबल विश्लेषण के लिए दृष्टिकोण बड़े पैमाने पर डेटा की आज की दुनिया में पुराने स्कूल माना जाता है। आकस्मिक तालिकाओं के एक विशाल सेट के बीच सहयोग पाने की अत्याधुनिक तकनीक, ड्यूक पर डेविड डोरसन और अन्य बायेसियन द्वारा विकसित किए गए टेनर मॉडल को तैनात करने से उपलब्ध विघटन हैं। यहाँ उनके एक पेपर के साथ-साथ एक लिंक से सार है:

आकस्मिक तालिका विश्लेषण नियमित रूप से लॉग रैखिक मॉडल पर निर्भर करता है, जिसमें अव्यक्त संरचना विश्लेषण एक सामान्य विकल्प प्रदान करता है। अव्यक्त संरचना मॉडल बहुभिन्नरूपी श्रेणीबद्ध डेटा के लिए प्रायिकता द्रव्यमान फ़ंक्शन के निम्न रैंक टेंसर फैक्टराइजेशन की ओर ले जाती है, जबकि लॉग लीनियर मॉडल स्पार्सिटी के माध्यम से आयामीता में कमी को प्राप्त करते हैं। दो प्रतिमानों में आयामी कमी की इन धारणाओं के बीच संबंध के बारे में बहुत कम जाना जाता है। हम संबंधित प्रायिकता टेंसर के नॉन -गेटिव रैंक के लिए एक लॉग-लीनियर मॉडल के समर्थन से संबंधित कई परिणाम प्राप्त करते हैं। इन निष्कर्षों से प्रेरित होकर, हम टेंसर डीकंपोज़िशन के एक नए ढह गए टकर वर्ग का प्रस्ताव करते हैं, जो मौजूदा PARAFAC और टकर डीकंपोज़िशन को पुल करता है, जो मल्टीवेरियर श्रेणीगत डेटा को पार्सिमेटिकली चिह्नित करने के लिए अधिक लचीला ढांचा प्रदान करता है।

https://arxiv.org/pdf/1404.0396.pdf


यह रोचक जानकारी है। मैं इस बारे में स्पष्ट नहीं हूं कि यह प्रश्न से कैसे जुड़ा है।
गूँग - मोनिका

गूंग ने व्यापक चर्चा और मौलिक प्रश्नों को देखते हुए कि क्या श्रेणीबद्ध डेटा के क्लस्टर "भी मौजूद हैं," मेरे योगदान की प्रासंगिकता के रूप में आपकी स्पष्टता की कमी है। मेरे विचार में, प्रदान की गई जानकारी ने पहले से उपेक्षित पद्धति और ज्ञान की खोज के क्षेत्रों को प्रकाशित किया। क्या मैं अपने प्रारंभिक अवलोकन को भी इंगित कर सकता हूं - स्पष्ट रूप से ओपी प्रश्न को संबोधित किया गया है - सरल से समतल स्तर पर एसोसिएशन की अनुपस्थिति में बहुविकल्पीय एसोसिएशन से लीप के बारे में अत्यधिक संभावना नहीं है।
माइक हंटर

मेरा मतलब किसी अपराध से नहीं था, @ जॉनसन। मैं स्पष्ट डेटा (यानी, अव्यक्त वर्ग विश्लेषण) क्लस्टरिंग के लिए कुछ हद तक परिचित डब्ल्यू / अव्यक्त मॉडल हूं। मैंने ऊपर अपनी टिप्पणी में इसकी पुष्टि की । मैं परिचित डब्ल्यू / इतिहास, शोधकर्ताओं और सॉफ्टवेयर के रूप में नहीं था। यह दिलचस्प है। मैं यह नहीं देखता कि यह कैसे इस सवाल का जवाब देता है कि क्या नाममात्र डेटा में पता लगाने योग्य क्लस्टर हो सकते हैं जहां चर किसी भी एसोसिएशन को नहीं दिखाते हैं। यदि आप ऐसा कर रहे हैं, तो एक उदाहरण उपयोगी होगा। क्या आप एक प्रदान कर सकते हैं?
गंग -

@ नहीं और नहीं लिया बेशक।
माइक हंटर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.