आबादी के बीच अंतर की जांच


9

कहें कि हमारे पास दो आबादी से एक नमूना है: Aऔर B। आइए मान लें कि ये आबादी व्यक्तियों से बनी हैं और हम सुविधाओं के संदर्भ में व्यक्तियों का वर्णन करते हैं। इनमें से कुछ विशेषताएं श्रेणीबद्ध हैं (जैसे वे काम करने के लिए ड्राइव करते हैं?) और कुछ संख्यात्मक हैं (जैसे उनकी ऊंचाई)। आइए इन सुविधाओं को कॉल करें:X1Xn। हम इनमें से सैकड़ों सुविधाएँ एकत्र करते हैं (जैसे n = 200), चलो सरलता के लिए मान लेते हैं, जिसमें सभी व्यक्तियों में कोई त्रुटि नहीं होती है और न ही शोर होता है।

हम दो आबादी अलग-अलग हैं। हमारा लक्ष्य निम्नलिखित दो प्रश्नों का उत्तर देना है:

  1. क्या वे वास्तव में काफी अलग हैं?
  2. उन दोनों के बीच महत्वपूर्ण रूप से क्या अंतर है?

निर्णय वृक्ष (जैसे यादृच्छिक वन) और रैखिक प्रतिगमन विश्लेषण जैसे तरीके मदद कर सकते हैं। उदाहरण के लिए, किसी को यादृच्छिक जंगलों में सुविधा महत्व या रेखीय प्रतिगमन में फिट किए गए गुणांक को यह समझने में मदद मिल सकती है कि इन समूहों में क्या अंतर हो सकता है, और सुविधाओं और आबादी के बीच संबंधों का पता लगा सकता है।

इससे पहले कि मैं इस मार्ग से नीचे जाऊं, मैं यहां अपने विकल्पों की समझ हासिल करना चाहता हूं, अच्छा और आधुनिक बनाम बुरा अभ्यास क्या है। कृपया ध्यान दें कि मेरा लक्ष्य प्रति से अधिक भविष्यवाणी नहीं है, लेकिन समूहों के बीच किसी भी महत्वपूर्ण अंतर का परीक्षण करना और खोजना।

इस समस्या के समाधान के लिए कुछ राजसी दृष्टिकोण क्या हैं ?

यहाँ कुछ चिंताएँ हैं:

  • रैखिक प्रतिगमन विश्लेषण जैसे तरीके पूरी तरह से जवाब नहीं दे सकते हैं (2), है ना? उदाहरण के लिए एक एकल फिट कुछ अंतरों को खोजने में मदद कर सकता है, लेकिन सभी महत्वपूर्ण अंतर नहीं। उदाहरण के लिए, बहु-समरूपता हमें यह पता लगाने से रोक सकती है कि सभी सुविधाएँ समूहों में कैसे भिन्न होती हैं (कम से कम एक फिट पर)। उसी कारण से, मुझे उम्मीद है कि एनोवा किसी को भी (2) का पूर्ण उत्तर नहीं दे सकती है।

  • यह पूरी तरह से स्पष्ट नहीं है कि भविष्यवाणिय दृष्टिकोण कैसे उत्तर देगा (1)। उदाहरण के लिए, हमें किस वर्गीकरण / पूर्वानुमान हानि कार्य को कम करना चाहिए? और हमारे पास फिट होने के बाद समूह कैसे अलग-अलग हैं या नहीं, इसका परीक्षण कैसे किया जाता है? अंत में, मुझे चिंता है कि मुझे मिलने वाला उत्तर (1) मेरे द्वारा उपयोग किए जाने वाले वर्गीकरण मॉडल के विशेष सेट पर निर्भर हो सकता है।

जवाबों:


5

आइए समस्या को निम्नानुसार समझते हैं।

कहो एक्स=(एक्स1,एक्स2,एक्सn) तथा Y जनसंख्या के लिए एक बाइनरी चर है: Y=0 पहली आबादी का मतलब है, Y=1दूसरी आबादी का मतलब है। अशक्त परिकल्पना को कई समकक्ष तरीकों से व्यक्त किया जा सकता है:

  • एच0: आबादी समान हैं
  • एच0: का वितरण एक्स दिया हुआ Y=0 के वितरण के समान है एक्स दिया हुआ Y=1
  • एच0: एक्स तथा Y स्वतंत्र हैं
  • एच0: किसी फंक्शन के लिए में {0,1}, (एक्स) तथा Y स्वतंत्र हैं

मुझे यादृच्छिक जंगलों के बारे में ज्यादा जानकारी नहीं है, लेकिन उन्हें ओवर-फिटिंग से बचने वाले सभी उद्देश्य पूर्वसूचक के रूप में सोचा जा सकता है। अगर हम उन्हें काफी आदर्श बनाते हैं: यह किसी भी तरह के संबंधों का पता लगाने में सक्षम हैY और किसी भी प्रकार की सुविधाएँ एक्स ओवर-फिटिंग के बिना।

इसके आधार पर कुछ प्रयास करना संभव है। मूल डेटासेट को एक प्रशिक्षण सेट और एक परीक्षण सेट में विभाजित करें। फिर:

  • एक यादृच्छिक जंगल को प्रशिक्षित करें यह भविष्यवाणी करता है Y से एक्स प्रशिक्षण सेट पर।
  • एक साधारण ची-स्क्वायड इंडिपेंडेंस टेस्ट (जोखिम के साथ) करें α) के बीच (एक्स) तथा Y परीक्षण सेट पर

यह परीक्षण काफी रूढ़िवादी है। यदि बेतरतीब जंगल एक खराब विधि है, तो सबसे खराब रूप से एक डंबल का उत्पादन होता है(एक्स), तो यह अस्वीकार कर देगा एच0 से कम संभावना के साथ α वैसे भी (जब) एच0सच हैं)। जब हम परीक्षण और प्रशिक्षण सेट का उपयोग करते हैं तब ओवर-फिटिंग की भी समस्या नहीं होगी। हालांकि, परीक्षण की शक्ति सीधे यादृच्छिक वन पद्धति (या उपयोग किए गए किसी भी भविष्यवक्ता) की बुद्धिमत्ता पर निर्भर करती है।

ध्यान दें कि आप कई संभावित भविष्यवक्ताओं का उपयोग कर सकते हैं: जैसे पहले पुराने लॉजिस्टिक रिग्रेशन, फिर कुछ क्रॉस फीचर्स के साथ लॉजिस्टिक रिग्रेशन, फिर कुछ डिसीजन ट्री, फिर एक रैंडम फॉरेस्ट ... लेकिन अगर आप ऐसा करते हैं तो आपको एडजस्ट करना चाहिए α"झूठी खोजों" से बचने के लिए परीक्षणों की संख्या। देखें: कई परीक्षण के लिए अल्फा समायोजन


धन्यवाद बेनोइट (+1)। यह प्रश्न (1) पर लागू होता है। इस या एक वैकल्पिक दृष्टिकोण के साथ (2) निपटने के तरीके पर कोई विचार?
एमिलियो वाज़क्वेज़-रीना

जैसा कि डीजेहॉसन द्वारा बताया गया है, आरएफ व्याख्या करने योग्य नहीं है। लॉजिस्टिक रिग्रेशन हो सकता है (कम से कम सिंगल फीचर्स के साथ)। यह वास्तव में भविष्यवक्ता पर निर्भर करता है। आरएफ के करीब एक विचार के बाद, कई (यादृच्छिक) निर्णय पेड़ों (अच्छी तरह से समायोजित के साथ) का उपयोग करना संभव हैα), और पेड़ को सबसे छोटे (= सर्वोत्तम) पी-मूल्य के साथ प्रदर्शित करें।
बेनोइट सांचेज

धन्यवाद। मुझे यादृच्छिक डीटी को फिट करने और चि-स्क्वेर-जैसे परीक्षण में सबसे महत्वपूर्ण परिणाम प्राप्त करने का सुझाव पसंद है। मुझे लगता है कि जब आप एक अच्छी तरह से समायोजित का उपयोग कर उल्लेख किया है आप Bonferroni सुधार का उल्लेख कर रहे हैंα। यह आरएफ का उपयोग करने और प्रत्येक पेड़ के परीक्षण से अलग कैसे होगा?
अमीलियो वाज़केज़-रीना

इसके अलावा, आरएफ के साथ मेरी आशा उन विशेषताओं की पहचान करना है जो मतभेदों को पकड़ते हैं (अर्थात कम से कम आंशिक उत्तर प्राप्त करें (2))। वे व्याख्यात्मकता के लिए आदर्श नहीं हैं (हालांकि मुझे लगता है कि कोई उनकी ऊंचाई को सीमित करके ऐसा कर सकता है)। या तो मामले में, डीटी के बारे में भी यही कहा जा सकता है? बस यह सुनिश्चित कर रहा हूं कि मैं आपकी टिप्पणी को अच्छी तरह समझता हूं।
अमीलियो वाज़केज़-रीना

हाँ, मैं बॉनफ्रॉनी का संदर्भ देता हूं। RF के साथ आप कई DT के औसत से एक एकल पूर्वसूचक बनाते हैं। फिर आप इस औसत के साथ एक ही परीक्षण करते हैं, प्रत्येक डीटी में नहीं, जिसके परिणामस्वरूपαजोखिम। कई डीटी के साथ आप बनाते हैंn परीक्षणों के परिणामस्वरूप 1-(1-α)nजोखिम (जब तक आप बोनफेरोनी का उपयोग नहीं करते हैं)। यह एक बहु परीक्षण के रूप में सोचा जाना चाहिए, जबकि (एक) कई डीटी का औसत एक एकल परीक्षण है।
बेनोइट सांचेज

3

आप यह नहीं कहते कि डेटा में कितनी सुविधाएँ उपलब्ध हैं। कुछ, कई, बड़े पैमाने पर? क्या हम मान सकते हैं कि वे आबादी के बीच समान विशेषताएं हैं, सभी एक ही उपकरण, विधियों और तौर-तरीकों का उपयोग करके मापा जाता है? यदि नहीं, तो आपके पास एक बड़ी समस्या है जहां एक त्रुटि-चर चर माप मॉडल काम कर सकता है।

@benoitsanchez को सवाल # 1 का जवाब दिया गया प्रतीत होता है।

Wrt # 2), मुझे यकीन नहीं है कि आरएफ मदद कर सकते हैं। एक बार में एक सुविधा के लिए लागू एक तरफ़ा एनोवा जैसे अधिक औपचारिक मॉडल का उपयोग करके, सुविधाओं के लिए आबादी के बीच अंतर का एक परीक्षण विकसित किया जा सकता है। परीक्षण के परिमाण के साथ-साथ इसके महत्व के आधार पर, उन परीक्षणों के परिणामों को संक्षेप में बताकर, विवरणों में कैसे आबादी भिन्न होती है, इसका एक विवरणात्मक प्रोफ़ाइल संभव हो जाता है। यह एक समान रूप से तदर्थ और विधर्मी समाधान है जो आपके स्वाद, वरीयताओं और प्रशिक्षण के लिए पर्याप्त रूप से कठोर नहीं हो सकता है।

लेटेक्स-प्रकार के संकेतन में अच्छा नहीं होने पर, मुझे केवल यह बताएं कि ये परीक्षण कैसे काम कर सकते हैं: सबसे पहले, कुछ प्रकार के मैक्रो लूप का निर्माण करें जो एक बार में सभी सुविधाओं से गुजरता है। लूप के प्रत्येक पास के साथ, नई सुविधा का लक्ष्य या DV बन जाता है जिसमें X जनसंख्या के लिए एक डमी चर के साथ-साथ किसी भी नियंत्रण चर से युक्त होता है जो उपयुक्त हैं। सुनिश्चित करें कि प्रत्येक सुविधा के लिए एक ही नियंत्रण का उपयोग किया जाता है और साथ ही अंतर्निहित डेटा सभी ANOVAs के लिए समान है, जो परिमित डेटा नमूनों के विचलन के कारण भिन्नता को समाप्त करता है। प्रत्येक सुविधा के लिए डमी चर के लिए एफ-परीक्षण मूल्यों को अलग करें। यह सभी विशेषताओं के बीच एक मानकीकृत मीट्रिक सक्षम करने की क्षमता प्रदान करेगा। एफ परीक्षण फिट करने के लिए बेहतर हैं बीटा के बाद से बीटामानकीकृत नहीं हैं, यूनिट में व्यक्त किया जा रहा है और प्रत्येक व्यक्तिगत सुविधा के std devs।

आपकी अंतिम टिप्पणी, "मुझे चिंता है कि मुझे (1) का जो उत्तर मिलता है, वह वर्गीकरण / प्रतिगमन मॉडल के विशेष सेट पर निर्भर हो सकता है जो मैं उपयोग करता हूं," हमेशा सच होता है। उपयोग किए गए मॉडल (नों) के एक फ़ंक्शन के रूप में उत्तर अलग-अलग होने की संभावना है। यह अधिक दृढ़ता से सैद्धांतिक और शास्त्रीय रूप से प्रशिक्षित सांख्यिकीविदों के बीच आमतौर पर देखी जाने वाली अस्वस्थता की अभिव्यक्ति है, जो लागू सांख्यिकीय मॉडलिंग के गैर-निर्धारक प्रकृति को स्वीकार करने में परेशानी या परेशानी नहीं है। इन लक्षणों के लिए एक उत्कृष्ट मारक है एफ्रॉन और हैस्टी की हालिया पुस्तक कंप्यूटर एज स्टैटिस्टिकल इन्वेंशन । वे 21 वीं सी में सांख्यिकीय मॉडलिंग, डेटा विज्ञान और मशीन सीखने की उम्र लाते हैं, स्पष्ट रूप से पुनरावृति, सन्निकटन, अनुमानी स्वभाव को स्वीकार करके सभीएक त्रुटि शब्द रखने वाले मॉडल। इस अवलोकन में निहित सत्य को पहचानने के लिए एक बायसेनियन होना आवश्यक नहीं है। उनका एक ताज़ा दृष्टिकोण है, जो शास्त्रीय, 20 वीं सी सांख्यिकीय अभ्यास के कठोर निर्धारण से भिन्न होता है, जो अपने हाथों को ऊपर उठाता है जब, उदाहरण के लिए, एक क्रॉस-उत्पाद मैट्रिक्स उलटा नहीं होगा और / या कुछ पांडित्यपूर्ण मॉडल धारणा नहीं मिली थी।


धन्यवाद @DJohnson। जब आपने कहा "प्रत्येक सुविधा के लिए डमी चर के लिए एफ-परीक्षण मूल्यों को अलग करें" क्या वास्तव में यो का मतलब है? यानी आप वास्तव में इस परिणाम के साथ क्या करेंगे? इसके अलावा, इस संदर्भ में बेटों से आपका क्या मतलब है? अंत में यह पुनरावृत्ति दृष्टिकोण किसी बातचीत के लिए सीमित नहीं होगा? उदाहरण के लिए मूल उदाहरण का उपयोग करना, क्या होगा अगर "काम करने के लिए ड्राइव करने वाले व्यक्तियों की ऊंचाई" में एक महत्वपूर्ण अंतर है?
एमिलियो वाज़क्वेज़-रीना

इसके अलावा, आप बहु-तरफ़ा एनोवा के विरोध के रूप में 1-तरफ़ा एनोवा परीक्षण के अनुक्रम के साथ क्यों आगे बढ़ेंगे?
एमिलियो वाज़क्वेज़-रीना

2
अच्छे प्रश्न हैं। परिणामी वर्णनात्मक प्रोफ़ाइल के संदर्भ में, मैं बस प्रत्येक सुविधा के लिए एफ-परीक्षण और संबद्ध महत्व या पी-मूल्यों को रिकॉर्ड करने और फिर उन्हें उच्च से निम्न श्रेणी में रखने के बारे में सोच रहा था। चूंकि एफ-परीक्षण ची-वर्गों का एक अनुपात है और इसलिए, सममित नहीं है, जनसंख्या का मतलब परिणाम की दिशा को समझने में मदद करने के लिए रिपोर्ट में जोड़ा जा सकता है। वैकल्पिक रूप से, एक टी-टेस्ट इस समझ में सहायता कर सकता है। यह प्रोफाइल अंतर्निहित आबादी के एक समारोह के रूप में सुविधाओं के परिमाण या शक्ति दोनों को समझने में मदद करेगा।
माइक हंटर

जैसा कि कहा गया है, नियंत्रण चर को उचित रूप में जोड़ा जाना चाहिए। जब तक वे लगातार सभी मॉडलों में उपयोग किए जाते हैं, तब तक वे इंटरैक्शन शामिल कर सकते हैं। अतिरिक्त कारकों का परिचय, परिभाषा के अनुसार, मॉडल को एक तरफ़ा से कई प्रतिगमन या ANOVA तक विस्तारित करेगा।
माइक हंटर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.