श्रेणीबद्ध चर के लोकप्रिय या आम संयोजनों को खोजने के लिए मैं कौन सी सांख्यिकीय विधियां उपयोग कर सकता हूं?


10

मैं पॉलीड्रग उपयोग पर एक अध्ययन कर रहा हूं। मेरे पास 400 ड्रग एडिक्ट्स के डेटा सेट हैं, जिनमें से प्रत्येक ने उन ड्रग्स के बारे में बताया जो वे दुरुपयोग करते हैं। 10 से अधिक दवाएं हैं और इसलिए बड़े संभावित संयोजन हैं। मैंने अधिकांश दवाओं को पुन: उपयोग किया है जो वे बाइनरी चर में खपत करते हैं (यानी हेरोइन 1 है अगर एक ड्रग एडिक्ट हेरोइन बाकी 0)। मैं 2 या 3 दवाओं के लोकप्रिय या आम संयोजनों का पता लगाना चाहूंगा। क्या ऐसे सांख्यिकीय तरीके हैं जिनका मैं उपयोग कर सकता हूं?

जवाबों:


6

दवाओं के केवल 1024 संभावित संयोजन एक साथ उपयोग किए जा सकते हैं (यदि केवल 10 दवाएं थीं) मान लें कि प्रत्येक उपयोगकर्ता ने कम से कम 1 दवा का उपयोग किया है। आप बस अपने 0/1 चर को स्ट्रिंग में बदल सकते हैं और उन्हें समेट सकते हैं और स्ट्रिंग पर आवृत्ति विश्लेषण चला सकते हैं यह देखने के लिए कि कौन सा संयोजन सबसे अधिक बार मुड़ता है। एक खिलौना उदाहरण लेते हुए, केवल 3 ड्रग्स, ए, बी और सी कहें, आपके अध्ययन में थे। यदि एक प्रतिभागी ने दवा ए और सी का उपयोग किया है, तो चर alldrugsको 101 कोडित किया जा सकता है। एक प्रतिभागी जो केवल दवा बी का उपयोग करता है, उसे 010 कोडित किया जाएगा। इनमें से सबसे अधिक बार चयनित को खोजने के लिए इन पर रन फ्रीक्वेंसीज का उपयोग करें। अधिकांश सॉफ्टवेयर इसे सेकंड में प्रोसेस करने में सक्षम होना चाहिए।


1
माना। केवल 400 व्यसनी हैं, इसलिए उन सभी 1024 नहीं हो सकते।
निक कॉक्स

हां। यह केक का एक टुकड़ा होना चाहिए।
स्टैट्सस्टूडेंट

5

अव्यक्त वर्ग मॉडलिंग एक, ड्रग्स और ड्रग उपयोगकर्ताओं के अंतर्निहित, "छिपे हुए" विभाजन या समूहों को खोजने के लिए सीखने के दृष्टिकोण की निगरानी होगी। नियंत्रण रेखा दो व्यापक दृष्टिकोणों के साथ एक बहुत ही लचीली विधि है: किसी एक विषय के लिए दोहराए गए उपायों के आधार पर प्रतिकृति बनाम श्रेणीबद्ध चर के एक सेट को वर्गीकृत करने के आधार पर प्रतिकृति। आपका डेटा दूसरे प्रकार में फिट होगा।

एलसीएस लचीलापन विभिन्न स्केलिंग (जैसे, श्रेणीबद्ध या निरंतर) के साथ चर के "मिश्रण" को अवशोषित करने की अपनी क्षमता का एक कार्य है। चूंकि दृष्टिकोण डेटा में छिपे हुए विभाजन, खंडों या समूहों को खोजता है, इसलिए इसे आयाम में कमी की तकनीक भी माना जा सकता है।

सभी LC मॉडल में 2 चरण होते हैं: चरण 1 में, एक आश्रित या लक्ष्य चर की पहचान की जाती है और एक प्रतिगमन मॉडल बनाया जाता है। चरण 2 में, चरण 1 मॉडल से अवशिष्ट (एक "अव्यक्त" वेक्टर) का विश्लेषण किया जाता है और विभाजन को वैरिएबल (या विषमता) - "अव्यक्त वर्ग" - उस वेक्टर में कैप्चर किया जाता है।

फ्रीवेयर डाउनलोड करने के लिए बाहर है जो शायद आपके लिए बहुत अच्छा काम करेगा। इनमें से एक एक R मॉड्यूल है जिसे यहाँ पर उपलब्ध polCA कहा जाता है:

http://www.jstatsoft.org/article/view/v042i10

यदि आपके पास वाणिज्यिक उत्पाद पर खर्च करने के लिए लगभग 1,000 डॉलर हैं, तो Latst Gold www.statuticinnovations.com से उपलब्ध है, जिसका उपयोग वर्षों से Latent Gold पर किया जा रहा है, मैं इसकी विश्लेषणात्मक शक्ति और समाधानों की श्रेणी के लिए उस उत्पाद का बहुत बड़ा प्रशंसक हूं। उदाहरण के लिए, पोलका केवल एलसी मॉडल के लिए श्रेणीबद्ध जानकारी के साथ उपयोगी है जबकि एलजी बोर्ड भर में काम करता है ... साथ ही, उनके डेवलपर्स हमेशा नए मॉड्यूल जोड़ रहे हैं। सबसे हाल का जोड़ छिपी मार्कोव श्रृंखलाओं का उपयोग करके एलसी मॉडल बनाता है। लेकिन ध्यान रखें कि एलजी "एंड-टू-एंड" डेटा प्लेटफ़ॉर्म नहीं है, यानी यह भारी डेटा हेरफेर या उठाने के लिए अच्छा नहीं है।

अन्यथा, श्रेणीबद्ध जानकारी का विश्लेषण करने के लिए अन्य दृष्टिकोणों के टन हैं जो कि आर, एसपीएसएस, एसएएस, पायथन आदि जैसे सांख्यिकीय सॉफ्टवेयर द्वारा व्यापक रूप से समर्थित हैं, इनमें आकस्मिक टेबल विश्लेषण, लॉग-लीनियर मॉडल, परिमित मिश्रण मॉडल, बायोसियन टेंसर रिग्रेशन शामिल हैं, और इसी तरह। इस क्षेत्र में साहित्य व्यापक है और 1975 में बिशप, एट अल।, असतत बहुभिन्नरूपी विश्लेषण के साथ शुरू हुआ, 80 के दशक के बाद से किए गए अपने काम के आधार पर लियो गुडमैन के आरसी मॉडल के माध्यम से फैली हुई है, एगेस्टी के श्रेणीबद्ध डेटा विश्लेषण , स्टीफन फेनबर्ग की किताबें और थॉमस विकन्स शामिल हैं। 1989 में प्रकाशित सामाजिक विज्ञान के लिए उत्कृष्ट पुस्तक मल्टीवे आकस्मिकता टेबल्स विश्लेषणबेसेसियन टेन्सर प्रतिगमन डेविड ड्यून्सन द्वारा ड्यूक में एक पेपर का शीर्षक है और व्यापक रूप से मल्टीवे आकस्मिक तालिकाओं के मॉडलिंग के लिए एक बहुत ही हालिया विधि होने में "अत्याधुनिक" है।


संदर्भों की सूची प्यार!
क्रिस

3

सहज रूप से आपके दिमाग में क्या आता है? आप संयोजनों की गणना करना चाहते हैं, बस सभी संभावित संयोजनों को क्यों नहीं ढूंढते हैं और केवल गणना करते हैं? मेरा सुझाव है कि आप फ़्रीक्वेंट आइटम सेट माइनिंग में देखें।

विकिपीडिया - अप्रीरी

यहाँ उसी के कुछ कार्यान्वयन हैं:

आवृत्ति पैटर्न खनन

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.