डेटा की गणना करने के लिए असतत वितरण कैसे फिट करें?


17

मेरे पास गणना डेटा के निम्नलिखित हिस्टोग्राम हैं। और मैं इसके लिए एक असतत वितरण फिट करना चाहता हूं। मुझे यकीन नहीं है कि मुझे इस बारे में कैसे जाना चाहिए।यहाँ छवि विवरण दर्ज करें

क्या मुझे पहले एक असतत वितरण का उल्लेख करना चाहिए, हिस्टोग्राम पर नकारात्मक द्विपद वितरण, ताकि मैं असतत वितरण के मापदंडों को प्राप्त करूं और फिर पी-मूल्यों की जांच के लिए कोलमोगोरोव-स्मिरनोव परीक्षण चलाऊं?

मुझे यकीन नहीं है कि यह तरीका सही है या नहीं।

क्या इस तरह की समस्या से निपटने के लिए एक सामान्य तरीका है?

यह गणना डेटा की एक आवृत्ति तालिका है। मेरी समस्या में, मैं केवल गैर-शून्य गणना पर ध्यान केंद्रित कर रहा हूं।

  Counts:     1    2    3    4    5    6    7    9   10 
 Frequency: 3875 2454  921  192   37   11    1    1    2 

अद्यतन: मैं पूछना चाहूंगा: डेटा फिट करने के लिए पैरामीटर प्राप्त करने के लिए मैंने आर में फिटडेसर फ़ंक्शन का उपयोग किया।

fitdistr(abc[abc != 0], "Poisson")
     lambda  
  1.68147852 
 (0.01497921)

मैं तब हिस्टोग्राम के शीर्ष पर पॉइसन वितरण के प्रायिकता द्रव्यमान फ़ंक्शन को प्लॉट करता हूं। यहाँ छवि विवरण दर्ज करें

हालाँकि, ऐसा लगता है कि पॉइज़न वितरण गणना डेटा को मॉडल करने में विफल रहता है। क्या मै कुछ कर सकता हुं?


3
उम्मीदवार वितरण के लिए अधिकतम संभावना का उपयोग करने के लिए एक सामान्य तरीका है। मापदंडों को प्राप्त करने के लिए वितरण को सुपरिमपोज़ करने से आपका क्या मतलब है, यह स्पष्ट नहीं है, लेकिन यदि आप पैरामीटर मानों का अनुमान लगाते हैं जब तक कि आपको एक अच्छा फिट नहीं मिलता है जो एक घटिया विधि है। Kolmogorov-Smirnov यहां उपयोगी नहीं है। आपको सभ्य सॉफ्टवेयर की आवश्यकता है जो आपको संभावित परिणाम प्रदान करता है, इसलिए आपको अपनी पसंद के सॉफ़्टवेयर को इंगित करने की आवश्यकता है ताकि उपयोग करने वाले लोग आपकी सहायता करने का प्रयास कर सकें। आपका हिस्टोग्राम स्पष्ट नहीं है, लेकिन अगर कोई अंतराल है तो कोई वितरण अच्छी तरह से फिट होने की संभावना नहीं है।
निक कॉक्स

3
उस तरीके से केएस परीक्षण का उपयोग करते समय एक घटिया विधि है (और किसी भी मामले में केएस परीक्षण असतत वितरण के लिए नहीं है), सभी संभावित पैरामीटर मानों पर केएस आँकड़ा को कम करके मापदंडों का अनुमान लगाना संभव होगा; लेकिन अगर आप इस तरह से जा रहे हैं (फिट की कुछ अच्छाई का अनुकूलन), न्यूनतम ची-वर्ग अधिक विशिष्ट दृष्टिकोण होगा। जैसा कि निक कॉक्स ने सुझाव दिया है कि स्पष्ट करने के लिए एमएल, लगभग निश्चित रूप से अधिक कुशल, मानक त्रुटियों को प्राप्त करना आसान होगा, और दूसरों द्वारा अधिक आसानी से स्वीकार किया जाएगा। (अन्य संभावनाएं हैं, जैसे क्षणों की विधि, लेकिन एमएल मुख्य बात है।)
Glen_b -Reinstate Monica

मैं आर का उपयोग कर रहा हूं। जब आप कहते हैं कि MLE का अनुमान है, तो क्या कोई एल्गोरिदम है जिसे आप नौकरी के लिए सुझाएंगे? और एमएल को खोजने के बाद, मुझे आगे क्या करना चाहिए?
user1769197

मैं यहां शुरू करूंगा ?MASS::fitdistr, क्योंकि यह पहले से ही आपके आर वितरण में है (नीचे अंतिम उदाहरण देखें; नकारात्मक द्विनामिक के उस पैरामीटर के बारे में अधिक जानकारी के लिए rnegbin देखें)। .... " और एमएल को खोजने के बाद, मुझे आगे क्या करना चाहिए? " - उस बिंदु पर आपके पास पैरामीटर अनुमान और मानक त्रुटियां हैं। इसके अलावा, आप क्या हासिल करना चाहते हैं? - मैं अनुमान नहीं लगा सकता।
Glen_b -Reinstate मोनिका

यह मेरे साथ होता है कि आप यह पूछने की कोशिश कर रहे होंगे कि 'मैं अपने मॉडल के फिट का आकलन कैसे करूं?' अगर ऐसा है, तो क्या आप अपने प्रश्न को प्रतिबिंबित करने के लिए अपडेट कर सकते हैं?
Glen_b -Reinstate मोनिका

जवाबों:


17

फिटिंग असतत वितरण के तरीके

तीन मुख्य विधियाँ हैं (फिट के मापदंडों का अनुमान लगाने के लिए) असतत वितरण।

1) अधिकतम संभावना

यह पैरामीटर मान पाता है जो आपके नमूने की आपूर्ति का सबसे अच्छा मौका देता है (अन्य मान्यताओं, जैसे कि स्वतंत्रता, निरंतर पैरामीटर, आदि)

2) क्षणों की विधि

यह पैरामीटर मान पाता है जो पहले कुछ जनसंख्या क्षणों को आपके नमूना क्षणों से मेल खाते हैं। यह अक्सर करना काफी आसान है, और कई मामलों में काफी उचित अनुमान लगाता है। इसका उपयोग कभी-कभी एमएल रूटीन के लिए शुरुआती मूल्यों की आपूर्ति करने के लिए भी किया जाता है।

3) न्यूनतम ची-वर्ग

यह असतत वितरण पर फिट स्टेटिस्टिक की ची-स्क्वायर अच्छाई को कम करता है, हालांकि कभी-कभी बड़े डेटा सेट के साथ, अंत-श्रेणियों को सुविधा के लिए जोड़ा जा सकता है। यह अक्सर काफी अच्छी तरह से काम करता है, और यह विशेष रूप से विशेष परिस्थितियों में एमएल पर कुछ फायदे हैं, लेकिन आम तौर पर इसे अभिसरण के लिए पुनरावृत्त होना चाहिए, जिस स्थिति में ज्यादातर लोग एमएल को पसंद करते हैं।

पहले दो तरीकों का उपयोग निरंतर वितरण के लिए भी किया जाता है; तीसरा आमतौर पर उस मामले में उपयोग नहीं किया जाता है।

इन साधनों में एक संपूर्ण सूची शामिल होती है, और उदाहरण के लिए केएस-आँकड़ा को कम करके मापदंडों का अनुमान लगाना काफी संभव होगा - और यहां तक ​​कि (यदि आप विसंगति के लिए समायोजित करते हैं), तो इससे एक संयुक्त व्यंजन क्षेत्र प्राप्त करने के लिए, यदि आप थे इतना झुका हुआ। चूंकि आप R में काम कर रहे हैं, इसलिए नकारात्मक द्विपद को प्राप्त करने के लिए ML अनुमान काफी आसान है। यदि आपका नमूना अंदर था x, तो यह उतना ही सरल है library(MASS);fitdistr (x,"negative binomial"):

> library(MASS) 
> x <- rnegbin(100,7,3)
> fitdistr (x,"negative binomial")
     size         mu    
  3.6200839   6.3701156 
 (0.8033929) (0.4192836)

वे पैरामीटर अनुमान और उनके (असममित) मानक त्रुटियां हैं।

Poisson वितरण के मामले में, MLE और MoM दोनों नमूना माध्य में Poisson पैरामीटर का अनुमान लगाते हैं।

यदि आप उदाहरण देखना चाहते हैं, तो आपको कुछ वास्तविक गणनाएँ पोस्ट करनी चाहिए। ध्यान दें कि आपका हिस्टोग्राम चुना हुआ डब्बा के साथ किया गया है ताकि 0 और 1 श्रेणियां संयुक्त हों और हमारे पास कच्ची गिनती न हो।

जैसे ही मैं अनुमान लगा सकता हूं, आपका डेटा लगभग इस प्रकार है:

    Count:  0&1   2   3   4   5   6  >6    
Frequency:  311 197  74  15   3   1   0

लेकिन बड़ी संख्या अनिश्चित होगी (यह बहुत हद तक इस बात पर निर्भर करता है कि उनके बार-हाइट्स के पिक्सेल-काउंट द्वारा कितनी सही-सही संख्या का प्रतिनिधित्व किया जाता है) और यह उन संख्याओं में से कुछ से अधिक हो सकता है, जैसे दो बार उन संख्याओं पर (कच्ची गिनती प्रभावित होती है मानक त्रुटियां, इसलिए यह मायने रखता है कि वे उन मूल्यों के बारे में हैं या दो बार बड़े हैं)

पहले दो समूहों का संयोजन इसे थोड़ा अजीब बनाता है (यह करना संभव है, लेकिन कुछ श्रेणियों को संयोजित करने पर कम सीधा है। बहुत सारी जानकारी उन पहले दो समूहों में है, इसलिए यह सबसे अच्छा है कि केवल डिफ़ॉल्ट हिस्टोग्राम गांठ न दें। )।


* फिटिंग असतत वितरण के अन्य तरीके निश्चित रूप से संभव हैं (एक मात्रा का मिलान कर सकता है या उदाहरण के लिए फिट आंकड़ों की अन्य अच्छाई को कम कर सकता है)। मैं जिन लोगों का उल्लेख करता हूं, वे सबसे आम हैं।


+1, अच्छी जानकारी। बस जिज्ञासा से बाहर, आप अक्सर उपयोग क्यों लगते हैं 1), मार्कअप नंबर के बजाय जो सीवी का समर्थन करता है (यानी, 1.- जो इंडेंटिंग की ओर जाता है)?
गंग -

1
@ ज्यादातर, मैं इसके बारे में नहीं सोचता - मैं अपनी सूचियों को पसंद करता हूं जिस तरह से मैं उन्हें टाइप करता हूं; लेकिन जब मैं इसके बारे में सोचता हूं तो मुझे मार्कडाउन की संख्याओं के संपादन का पता चलता है जो मैं टाइप करता हूं कि उन्हें लगता है कि उन्हें बहुत कष्टप्रद होना चाहिए (यदि मैंने "36" टाइप किया है ", तो मुझे वास्तव में " 1. "का मतलब नहीं था ) ... इसलिए जब यह मेरे लिए "1." का उपयोग करने के लिए होता है "1)" के बजाय, मैं अक्सर "1 \" टाइप करता हूं। स्पष्ट रूप से इसे पहचानने से रोकने और उन चीजों को करने के लिए जिन्हें मैंने इरादा नहीं किया था। मैं 5 साल के रिडिट के इस व्यवहार से इतना जुड़ गया कि मैं इसके बारे में सोचता भी नहीं हूँ - मैं आदत के बल पर इसके साथ स्वतः हस्तक्षेप कर लेता हूँ।
Glen_b -Reinstate मोनिका

1
@ गुंग यदि इंडेंटिंग बहुत छोटा था, तो मैं शायद रेनिंग-हिंगर्ड के साथ डालूंगा और इसका उपयोग करूंगा। जैसा कि यह खड़ा है, मैं आमतौर पर इसे देखने के दौरान विचलित होता हूं। लेकिन इस विशेष मामले में मैं उन्हें सबहेडिंग की तरह दिखना चाहता था, इसलिए मैं शायद इसे टाल देता, भले ही मुझे व्यवहार से दूर नहीं किया गया था। (दूसरी ओर, अवसरों पर अन्य लोगों ने मेरी सूचियों को संपादित करने का फैसला किया है ताकि इसे इंडेंट करने के लिए किया जा सके। मैं आमतौर पर उन्हें खुद को खुश करने के लिए छोड़ देता हूं। यदि वे इसे एक निश्चित तरीके से बनाना चाहते हैं, तो वे लंबे समय तक ऐसा कर सकते हैं। 't अर्थ में बदलाव।)
Glen_b -Reinstate Monica

मैं अपने आप को नियंत्रित करने की कोशिश करूँगा ;-)।
गंग -

2

एक संपादन में, आपने कुछ डेटा दिया, और एक नया प्रश्न जोड़ा:

"यह गणना डेटा की एक आवृत्ति तालिका है। मेरी समस्या में, मैं केवल गैर-शून्य गणना पर ध्यान केंद्रित कर रहा हूं।

   Counts:     1    2    3    4    5    6    7    9   10 
Frequency:  3875 2454  921  192   37   11    1    1    2 

क्या कोई मुझे इस बात का उदाहरण दे सकता है कि आप यहां फिट टेस्ट की ची-स्क्वायर्ड अच्छाई कैसे करेंगे? "

यह आगे की टिप्पणियों की ओर जाता है:

  1. शून्य होने पर भी उन्हें अनदेखा करने की इच्छा समझ में आती है, लेकिन आम तौर पर सांख्यिकीय और विषय-वस्तु के लोग एक अच्छा कारण देखना चाहते हैं।

  2. यदि आप शून्य को अनदेखा करना चुनते हैं, तो आप अपने आप को कठिन क्षेत्र में रख रहे हैं, जैसा कि आप सिर्फ शून्य या नकारात्मक द्विपद के लिए रूटीन फायर नहीं कर सकते हैं यदि आप शून्य को छोड़ देते हैं। ठीक है, आप कर सकते हैं, लेकिन उत्तर गलत होंगे। आपको वितरण के लिए विशेष प्रयोजन कार्यों या आदेशों की आवश्यकता होती है जैसे कि शून्य-छंटित पॉइसन या शून्य-छंटनी नकारात्मक द्विपद। यह चुनौतीपूर्ण सामान है और आप क्या कर रहे हैं, इस पर स्पष्ट होने के लिए समर्पित पठन की आवश्यकता है।

  3. यह पूछते हुए कि ची-स्क्वायर टेस्ट कैसे किया जाता है, इससे मुझे पता चलता है कि आप वास्तव में समझ नहीं पाए हैं कि मैंने क्या कहा है। दो में विभाजित करना:

    • अपेक्षित आवृत्तियों के बिना कोई ची-स्क्वायर परीक्षण नहीं हो सकता है और पैरामीटर अनुमानों के बिना कोई अपेक्षित आवृत्तियां नहीं हो सकती हैं। यह हो सकता है कि आप ची-स्क्वायर टेस्ट रूटीन से सबसे अधिक परिचित हों जिसमें दो-तरफ़ा तालिका में पंक्तियों और स्तंभों की स्वतंत्रता का परीक्षण किया जाता है। यद्यपि यह ची-स्क्वायर परीक्षण सबसे अधिक परिचयात्मक पाठ्यक्रमों में मिला है, यह वास्तव में सामान्य रूप से ची-स्क्वायर परीक्षणों के बीच बहुत असामान्य है कि प्रभाव में सामान्य सॉफ़्टवेयर आपके लिए पैरामीटर अनुमान करता है और जिससे अपेक्षित आवृत्तियां प्राप्त होती हैं। इसके अलावा, आपकी जैसी अधिकांश जटिल समस्याओं में, आपको पहले पैरामीटर अनुमान प्राप्त करना होगा।

    • ची-स्क्वायर परीक्षण गलत नहीं है, लेकिन यदि आप अधिकतम संभावना द्वारा मापदंडों का अनुमान लगाते हैं तो यह अप्रासंगिक है क्योंकि फिटिंग दिनचर्या आपको अनुमान और मानक त्रुटियां देती है और उनके जागने में परीक्षण की अनुमति देती है। @Glen_b ने अपने जवाब में पहले ही एक उदाहरण दिया।

एक पक्ष-मुद्दा यह है कि चर की असावधानी का सम्मान करने और संभावनाओं को दिखाने के लिए अपने हिस्टोग्राम्स को ट्विस्ट करना स्पष्ट होगा, घनत्व नहीं। स्पष्ट अंतराल डिफ़ॉल्ट बिन विकल्प के केवल गुणांक हैं जो चर की असंगति का सम्मान नहीं करते हैं।

अद्यतन: एक ची-वर्ग परीक्षण के बारे में पूरक प्रश्न अब हटा दिया गया है। फिलहाल, मैं # 3 को स्टैंड से ऊपर जाने दे रहा हूं, यदि कोई व्यक्ति ची-स्क्वायर टेस्ट के लिए उसी रास्ते का अनुसरण करता है।


मुझे शून्य को अनदेखा करना होगा, क्योंकि मैं सक्रिय मायने रखता है। गणना = 0 को निष्क्रिय गणना के रूप में जाना जाता है।
user1769197

यह एक ठोस विकल्प है। ध्यान दें कि कई क्षेत्रों में तथाकथित दो भाग मॉडल हैं, जिसमें आप मॉडल (आपकी शर्तों में) सक्रिय बनाम निष्क्रिय और फिर कितने सक्रिय हैं।
निक कॉक्स

मैंने "प्लॉट (टेबल (एबीसी), टाइप =" एच ")" करके हिस्टोग्राम को मोड़ने की कोशिश की। लेकिन, मुझे यकीन नहीं है कि मैं इसे संभाव्यता दिखाने के लिए कैसे प्राप्त कर सकता हूं
user1769197

मैं R का उपयोग नहीं करता, लेकिन आप उस पर सलाह ले सकते हैं। आपको अलग से पूछना पड़ सकता है।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.