"ये सभी डेटा पॉइंट एक ही वितरण से आते हैं।" टेस्ट कैसे करें?


16

मुझे ऐसा लगता है कि मैंने इस विषय पर यहां पहले चर्चा की है, लेकिन मैं कुछ खास नहीं खोज पाया। फिर, मैं वास्तव में निश्चित नहीं हूं कि मुझे क्या खोजना है।

मेरे पास ऑर्डर किए गए डेटा का एक आयामी सेट है। मैं परिकल्पना करता हूं कि सेट के सभी बिंदु समान वितरण से तैयार किए गए हैं।

मैं इस परिकल्पना का परीक्षण कैसे कर सकता हूं? क्या "इस डेटा सेट में टिप्पणियों को दो अलग-अलग वितरणों से खींचा गया" के एक सामान्य विकल्प के खिलाफ परीक्षण करना उचित है?

आदर्श रूप से, मैं यह पहचानना चाहूंगा कि कौन से बिंदु "अन्य" वितरण से आते हैं। चूँकि मेरे डेटा का आदेश दिया गया है, क्या मैं किसी कट बिंदु की पहचान करने के साथ दूर हो सकता हूं, किसी भी तरह परीक्षण के बाद कि क्या डेटा को काटने के लिए "वैध" है?

संपादित करें: Glen_b के उत्तर के अनुसार, मुझे कड़ाई से सकारात्मक, असमान वितरण में दिलचस्पी होगी। मैं एक वितरण संभालने और फिर विभिन्न मापदंडों के लिए परीक्षण करने के विशेष मामले में भी दिलचस्पी लेता हूं ।


"समान वितरण" से आपका क्या तात्पर्य है? क्या गामा की टिप्पणियों को समान वितरण से आता है, या इसे घातीय वितरण का योग माना जाता है?
मेटारिएट

+1 यह आपके लिए अपने आप से पूछने के लिए एक बहुत अच्छा सवाल है।
user541686

@ मेटालिका जब तक प्रत्येक अवलोकन एक घातीय राशि है, मैं कहूंगा कि वे समान वितरण से हैं
शैडल्कर

@ मेहरदाद मेरे पास मास्टर्स डिग्री में मेरे स्नातक स्तर की पढ़ाई और कुछ विविध कक्षाओं से परे औपचारिक सांख्यिकी प्रशिक्षण नहीं है। यदि आप मेरे उत्तर इतिहास को देखते हैं, तो यह स्पष्ट है कि मैं रेखीय प्रतिगमन के बारे में बहुत कुछ जानता हूं और किसी और चीज के बारे में बहुत कुछ नहीं 🤐
छायाकार

2
इस प्रश्न के करीब पहुंचने का एक संभावित तरीका यह है कि वितरण के कुछ वर्ग जैसे और यह देखने के लिए कि आपको अपने डेटा का अच्छी तरह से वर्णन करने के लिए 1 से अधिक मिश्रण घटक की आवश्यकता है या नहीं, एक सीमित मिश्रण पर विचार करें। हालांकि, सवाल यह है कि क्या वितरण का एक वर्ग है जो एक एकल मिश्रण घटक द्वारा आपके "अशक्त परिकल्पना" का वर्णन करने के लिए पर्याप्त रूप से लचीला है (उदाहरण के लिए, यदि आप गामा वितरण के एक सीमित मिश्रण का उपयोग करते हैं तो ये स्केडनेस या पूंछ के मामले में लचीले नहीं हो सकते हैं) बहु-घटक मिश्रण के रूप में संभावित विकल्प को शामिल करते हुए, आप क्या करने की कोशिश कर रहे हैं) के आधार पर व्यवहार।
Björn

जवाबों:


29

दो परिदृश्यों की कल्पना करें:

  1. डेटा बिंदु सभी समान वितरण से तैयार किए गए थे - एक जो एक समान था (16,36)

  2. डेटा अंक दो आबादी के 50-50 मिश्रण से तैयार किए गए थे:

    ए। जनसंख्या A, जिसका आकार इस प्रकार है:

यहाँ छवि विवरण दर्ज करें

ख। जनसंख्या B, इस तरह आकार:

यहाँ छवि विवरण दर्ज करें

... ऐसा है कि दोनों का मिश्रण 1 में मामले की तरह दिखता है।

उन्हें अलग कैसे कहा जा सकता है?

जो भी आकार आप दो आबादी के लिए चुनते हैं, वहाँ हमेशा एक ही जनसंख्या वितरण होता है जिसका आकार समान होता है। यह तर्क स्पष्ट रूप से दर्शाता है कि सामान्य मामले के लिए आप बस ऐसा नहीं कर सकते। अंतर करने का कोई संभव तरीका नहीं है।

यदि आप आबादी (मान्यताओं, प्रभावी रूप से) के बारे में जानकारी पेश करते हैं तो अक्सर आगे बढ़ने के तरीके हो सकते हैं *, लेकिन सामान्य मामला मृत है।

* उदाहरण के लिए, यदि आप मानते हैं कि आबादी असमान है और आपके पास पर्याप्त भिन्न साधन हैं, तो आप कहीं जा सकते हैं

[प्रश्न पर जो प्रतिबंध जोड़े गए थे, वे उपरोक्त वर्णित समस्या के एक अलग संस्करण से बचने के लिए पर्याप्त नहीं हैं - हम अभी भी सकारात्मक आधी लाइन पर एक दोतरफा वितरण के 50-50 मिश्रण के रूप में एक यूमोडल नल लिख सकते हैं सकारात्मक हाफ लाइन पर। बेशक, यदि आपके पास अधिक विशिष्ट अशक्त है, तो यह एक मुद्दे के बहुत कम हो जाता है। वैकल्पिक रूप से यह तब भी संभव है कि जब तक हम कुछ मिश्रण विकल्प के खिलाफ परीक्षण करने की स्थिति में नहीं होते तब तक विकल्प के वर्ग को प्रतिबंधित कर सकते हैं। या कुछ अतिरिक्त प्रतिबंधों को शून्य और वैकल्पिक दोनों पर लागू किया जा सकता है जो उन्हें अलग पहचान देगा।]


1
धन्यवाद, शानदार पलटवार। तो यह वैकल्पिक परिकल्पना को उचित रूप से प्रतिबंधित करने के लिए नीचे आता है, सही है?
छायाकार

@ssdecontrol हाँ, संक्षेप में; यदि (मान्यताओं को देखते हुए) विकल्प शून्य से अलग है, तो आपको अपने महत्वपूर्ण स्तर से अधिक शक्ति वाले परीक्षण की कुछ आशा है।
Glen_b -Reinstate मोनिका

0

आपको स्पष्ट रूप से वितरण के बारे में बात करने के लिए कुछ सिद्धांत की आवश्यकता है और परीक्षण करने के लिए राज्य की परिकल्पना। कुछ जो समूह एक या अधिक समूहों में विषयों और कुछ है जो अलग करने के लिए माप बनाता है।

तुम वहाँ कैसे जा सकते हो? मुझे तीन विकल्प दिखाई देते हैं:

  • यदि आप पहले से ही अपने विषय से जानते हैं, तो आपको बस इसे सांख्यिकीय परिकल्पना की भाषा में अनुवाद करने की आवश्यकता है
  • परीक्षण के लिए परिकल्पना बनने के लिए चार्ट को प्लॉट करें और पैटर्न को पहचानें
  • वितरण की एक सूची के साथ आओ जो आप फिट कर सकते हैं और एक गणितीय प्रयोग कर सकते हैं। संभाव्य प्रोग्रामिंग यहाँ कीवर्ड है

फिर व्यायाम आपको यह निष्कर्ष निकालने देगा कि आपके नमूने में एक या एक से अधिक समूहों का प्रतिनिधित्व किया गया है या सिर्फ एक। या फिर कोई समूह नहीं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.