श्रेणीबद्ध समाधान
मानों को श्रेणीबद्ध मानकर सापेक्ष आकार के बारे में महत्वपूर्ण जानकारी खो देता है । इसे दूर करने के लिए एक मानक तरीका लॉजिस्टिक रिग्रेशन का आदेश दिया गया है । वास्तव में, यह विधि "जानता है" किए < बी < ⋯ < जे< … और, रजिस्टरों (जैसे आकार) के साथ देखे गए संबंधों का उपयोग करके प्रत्येक श्रेणी के मान (कुछ मनमाने ढंग से) मूल्य फिट होते हैं जो आदेश का सम्मान करते हैं।
चित्रण के रूप में, 30 (आकार, बहुतायत श्रेणी) जोड़े के रूप में उत्पन्न पर विचार करें
size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))
बहुतायत अंतराल में वर्गीकृत [0,10], [11,25], ..., [10001,25000]।
आदेशित लॉजिस्टिक रिग्रेशन प्रत्येक श्रेणी के लिए संभाव्यता वितरण का उत्पादन करता है; वितरण आकार पर निर्भर करता है। इस तरह की विस्तृत जानकारी से आप उनके आस-पास अनुमानित मूल्य और अंतराल उत्पन्न कर सकते हैं। इन डेटा से अनुमानित 10 PDF का एक प्लॉट यहां दिया गया है (वहां डेटा की कमी के कारण श्रेणी 10 के लिए एक अनुमान संभव नहीं था):
निरंतर समाधान
प्रत्येक श्रेणी का प्रतिनिधित्व करने के लिए एक संख्यात्मक मान का चयन क्यों नहीं किया जाता है और त्रुटि अवधि के हिस्से के रूप में श्रेणी के भीतर सही बहुतायत के बारे में अनिश्चितता को देखना है?
हम इसे एक आदर्शित पुन: अभिव्यक्ति के असतत सन्निकटन के रूप में विश्लेषित कर सकते हैं च जो बहुतायत मूल्यों को परिवर्तित करता है ए अन्य मूल्यों में च( ए ) जिसके लिए अवलोकन संबंधी त्रुटियां हैं, एक अच्छे सन्निकटन के लिए, सममित रूप से वितरित और लगभग समान आकार की परवाह किए बिना ए (एक विचरण-स्थिरीकरण परिवर्तन)।
विश्लेषण को सरल बनाने के लिए, मान लीजिए कि इस तरह के परिवर्तन को प्राप्त करने के लिए श्रेणियों को चुना गया है (सिद्धांत या अनुभव के आधार पर)। हम तब मान सकते हैंच श्रेणी के कटऑफ को फिर से व्यक्त करता है αमैं उनके सूचकांक के रूप में मैं। प्रस्ताव कुछ "विशेषता" मूल्य का चयन करने के लिए हैβमैं प्रत्येक श्रेणी के भीतर मैं और उपयोग कर रहा है च(βमैं) जब भी बहुतायत के बीच में झूठ बोलने के लिए बहुतायत के संख्यात्मक मूल्य के रूप में αमैं तथा αमैं + 1। यह सही री-व्यक्त मूल्य के लिए एक प्रॉक्सी होगाच( ए )।
मान लीजिए, फिर, उस बहुतायत को त्रुटि के साथ देखा जाता है ε, ताकि कल्पित डेटम वास्तव में है a + ε के बजाय ए। इसे कोड करने में हुई त्रुटिच(βमैं) परिभाषा से, अंतर है च(βमैं) - एफ( ए ), जिसे हम दो शब्दों के अंतर के रूप में व्यक्त कर सकते हैं
त्रुटि = एफ( ए + ε ) - एफ( a ) - ( f )( ए + ε ) - एफ(βमैं) ) ।
वह पहला कार्यकाल, च( ए + ε ) - एफ( ए )द्वारा नियंत्रित किया जाता है च (हम कुछ भी नहीं कर सकते हैं ε) और प्रकट होगा यदि हमने अपमान को वर्गीकृत नहीं किया । दूसरा शब्द यादृच्छिक है - यह निर्भर करता हैε- और जाहिर है सहसंबद्ध है ε। लेकिन हम इसके बारे में कुछ कह सकते हैं: इसके बीच झूठ होना चाहिएमैं - एफ(βमैं) < ० तथा मैं + 1 - एफ(βमैं) ≥ 0। इसके अलावा, अगरचएक अच्छा काम कर रहा है, दूसरा शब्द लगभग समान रूप से वितरित किया जा सकता है । दोनों ही विचार चुनने का सुझाव देते हैंβमैं ताकि च(βमैं) के बीच आधा रह जाता है मैं तथा मैं + 1; अर्थात्,βमैं≈च- 1( मैं + 1 / 2 )।
इस सवाल में ये श्रेणियां एक लगभग ज्यामितीय प्रगति का संकेत देती हैं, जो दर्शाता है चएक लघुगणक का थोड़ा विकृत संस्करण है। इसलिए, हमें बहुतायत डेटा का प्रतिनिधित्व करने के लिए अंतराल समापन बिंदुओं के ज्यामितीय साधनों का उपयोग करने पर विचार करना चाहिए ।
इस प्रक्रिया के साथ साधारण न्यूनतम वर्ग प्रतिगमन (ओएलएस) 7.70 (मानक त्रुटि 1.00 है) और 0.70 (मानक त्रुटि 0.58) का अवरोधन है, 8.19 (0.97 का seope) और 0.69 के अवरोधन के बजाय एक ढलान देता है। 0.56) जब आकार के खिलाफ लॉग बहुतायत को पुनः प्राप्त करते हैं। दोनों का मतलब प्रतिगमन प्रदर्शित करता है, क्योंकि सैद्धांतिक ढलान करीब होना चाहिए4 लॉग( १० ) ≈ ९ .२१। श्रेणीबद्ध विवेचन त्रुटि के कारण श्रेणीबद्ध विधि अर्थ (थोड़ी ढलान) के लिए थोड़ा अधिक प्रतिगमन प्रदर्शित करती है।
यह कथानक वर्गीकृत किए गए बहुतायत (अनुशंसित के रूप में श्रेणी के समापन बिंदुओं के ज्यामितीय साधनों का उपयोग करके) और खुद को बहुतायत के आधार पर फिट होने के साथ-साथ अनियंत्रित बहुतायत को दर्शाता है । फिट उल्लेखनीय रूप से करीब हैं, उपयुक्त रूप से चुने हुए संख्यात्मक मूल्यों द्वारा श्रेणियों को बदलने की इस पद्धति का संकेत उदाहरण में अच्छी तरह से काम करता है ।
एक उपयुक्त "मिडपॉइंट" चुनने में आमतौर पर कुछ देखभाल की आवश्यकता होती है βमैं दो चरम श्रेणियों के लिए, क्योंकि अक्सर चवहाँ बँधा नहीं है। (इस उदाहरण के लिए मैंने पहली श्रेणी के बाएं छोर को गंभीर रूप से लिया1 बजाय 0 और अंतिम श्रेणी का सही समापन बिंदु होना चाहिए 25000।) एक समाधान यह है कि समस्या का समाधान पहले डेटा का उपयोग करके चरम श्रेणियों में से किसी में नहीं किया जाए, फिर उन चरम श्रेणियों के लिए उपयुक्त मानों का अनुमान लगाने के लिए फिट का उपयोग करें, फिर वापस जाएं और सभी डेटा को फिट करें। पी-वैल्यू थोड़ा बहुत अच्छा होगा, लेकिन कुल मिलाकर फिट अधिक सटीक और कम पक्षपाती होना चाहिए।