जब रेंज डेटा निरंतर के रूप में व्यवहार करते हैं तो सर्वोत्तम अभ्यास


9

मैं देख रहा हूं कि क्या बहुतायत आकार से संबंधित है। आकार (निश्चित रूप से) निरंतर है, हालांकि, बहुतायत ऐसे पैमाने पर दर्ज की जाती है

A = 0-10
B = 11-25
C = 26-50
D = 51-100
E = 101-250
F = 251-500
G = 501-1000
H = 1001-2500
I = 2501-5000
J = 5001-10,000
etc... 

क्यू के माध्यम से ... 17 स्तरों। मैं सोच रहा था कि प्रत्येक अक्षर को एक संख्या निर्दिष्ट करने के लिए एक संभव दृष्टिकोण होगा: या तो न्यूनतम, अधिकतम या औसत (यानी ए = 5, बी = 18, सी = 38, डी = 75.5 ...)।

संभावित नुकसान क्या हैं - और इस तरह, क्या इस डेटा को श्रेणीबद्ध माना जाएगा?

मैंने इस प्रश्न के माध्यम से पढ़ा है जो कुछ विचार प्रदान करता है - लेकिन इस डेटा सेट की एक कुंजी यह है कि श्रेणियां भी नहीं हैं - इसलिए इसे श्रेणीबद्ध मानते हुए ए और बी के बीच का अंतर समान होगा। बी और सी ... (जो लघुगणक का उपयोग करके ठीक किया जा सकता है - धन्यवाद अनामिका)

अंत में, मैं यह देखना चाहूंगा कि क्या अन्य पर्यावरणीय कारकों को ध्यान में रखने के बाद आकार को बहुतायत के लिए भविष्यवक्ता के रूप में इस्तेमाल किया जा सकता है। भविष्यवाणी एक सीमा में भी होगी: आकार एक्स और कारकों ए, बी और सी को देखते हुए, हम अनुमान लगाते हैं कि बहुतायत वाई न्यूनतम और अधिकतम के बीच गिर जाएगी (जो मुझे लगता है कि एक या एक से अधिक स्केल अंक प्राप्त कर सकते हैं: न्यूनतम डी से अधिक और उससे कम अधिकतम एफ ... हालांकि अधिक सटीक बेहतर)।

जवाबों:


13

श्रेणीबद्ध समाधान

मानों को श्रेणीबद्ध मानकर सापेक्ष आकार के बारे में महत्वपूर्ण जानकारी खो देता है । इसे दूर करने के लिए एक मानक तरीका लॉजिस्टिक रिग्रेशन का आदेश दिया गया है । वास्तव में, यह विधि "जानता है" कि<बी<<जे<... और, रजिस्टरों (जैसे आकार) के साथ देखे गए संबंधों का उपयोग करके प्रत्येक श्रेणी के मान (कुछ मनमाने ढंग से) मूल्य फिट होते हैं जो आदेश का सम्मान करते हैं।

चित्रण के रूप में, 30 (आकार, बहुतायत श्रेणी) जोड़े के रूप में उत्पन्न पर विचार करें

size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))

बहुतायत अंतराल में वर्गीकृत [0,10], [11,25], ..., [10001,25000]।

बहुतायत श्रेणी बनाम आकार का स्कैटरप्लॉट

आदेशित लॉजिस्टिक रिग्रेशन प्रत्येक श्रेणी के लिए संभाव्यता वितरण का उत्पादन करता है; वितरण आकार पर निर्भर करता है। इस तरह की विस्तृत जानकारी से आप उनके आस-पास अनुमानित मूल्य और अंतराल उत्पन्न कर सकते हैं। इन डेटा से अनुमानित 10 PDF का एक प्लॉट यहां दिया गया है (वहां डेटा की कमी के कारण श्रेणी 10 के लिए एक अनुमान संभव नहीं था):

श्रेणी के अनुसार संभावना घनत्व

निरंतर समाधान

प्रत्येक श्रेणी का प्रतिनिधित्व करने के लिए एक संख्यात्मक मान का चयन क्यों नहीं किया जाता है और त्रुटि अवधि के हिस्से के रूप में श्रेणी के भीतर सही बहुतायत के बारे में अनिश्चितता को देखना है?

हम इसे एक आदर्शित पुन: अभिव्यक्ति के असतत सन्निकटन के रूप में विश्लेषित कर सकते हैं जो बहुतायत मूल्यों को परिवर्तित करता है अन्य मूल्यों में () जिसके लिए अवलोकन संबंधी त्रुटियां हैं, एक अच्छे सन्निकटन के लिए, सममित रूप से वितरित और लगभग समान आकार की परवाह किए बिना (एक विचरण-स्थिरीकरण परिवर्तन)।

विश्लेषण को सरल बनाने के लिए, मान लीजिए कि इस तरह के परिवर्तन को प्राप्त करने के लिए श्रेणियों को चुना गया है (सिद्धांत या अनुभव के आधार पर)। हम तब मान सकते हैं श्रेणी के कटऑफ को फिर से व्यक्त करता है αमैं उनके सूचकांक के रूप में मैं। प्रस्ताव कुछ "विशेषता" मूल्य का चयन करने के लिए हैβमैं प्रत्येक श्रेणी के भीतर मैं और उपयोग कर रहा है (βमैं) जब भी बहुतायत के बीच में झूठ बोलने के लिए बहुतायत के संख्यात्मक मूल्य के रूप में αमैं तथा αमैं+1। यह सही री-व्यक्त मूल्य के लिए एक प्रॉक्सी होगा()

मान लीजिए, फिर, उस बहुतायत को त्रुटि के साथ देखा जाता है ε, ताकि कल्पित डेटम वास्तव में है +ε के बजाय । इसे कोड करने में हुई त्रुटि(βमैं) परिभाषा से, अंतर है (βमैं)-(), जिसे हम दो शब्दों के अंतर के रूप में व्यक्त कर सकते हैं

त्रुटि=(+ε)-()-((+ε)-(βमैं))

वह पहला कार्यकाल, (+ε)-()द्वारा नियंत्रित किया जाता है (हम कुछ भी नहीं कर सकते हैं ε) और प्रकट होगा यदि हमने अपमान को वर्गीकृत नहीं किया । दूसरा शब्द यादृच्छिक है - यह निर्भर करता हैε- और जाहिर है सहसंबद्ध है ε। लेकिन हम इसके बारे में कुछ कह सकते हैं: इसके बीच झूठ होना चाहिएमैं-(βमैं)<0 तथा मैं+1-(βमैं)0। इसके अलावा, अगरएक अच्छा काम कर रहा है, दूसरा शब्द लगभग समान रूप से वितरित किया जा सकता है । दोनों ही विचार चुनने का सुझाव देते हैंβमैं ताकि (βमैं) के बीच आधा रह जाता है मैं तथा मैं+1; अर्थात्,βमैं-1(मैं+1/2)

इस सवाल में ये श्रेणियां एक लगभग ज्यामितीय प्रगति का संकेत देती हैं, जो दर्शाता है एक लघुगणक का थोड़ा विकृत संस्करण है। इसलिए, हमें बहुतायत डेटा का प्रतिनिधित्व करने के लिए अंतराल समापन बिंदुओं के ज्यामितीय साधनों का उपयोग करने पर विचार करना चाहिए

इस प्रक्रिया के साथ साधारण न्यूनतम वर्ग प्रतिगमन (ओएलएस) 7.70 (मानक त्रुटि 1.00 है) और 0.70 (मानक त्रुटि 0.58) का अवरोधन है, 8.19 (0.97 का seope) और 0.69 के अवरोधन के बजाय एक ढलान देता है। 0.56) जब आकार के खिलाफ लॉग बहुतायत को पुनः प्राप्त करते हैं। दोनों का मतलब प्रतिगमन प्रदर्शित करता है, क्योंकि सैद्धांतिक ढलान करीब होना चाहिए4लॉग(10)9.21। श्रेणीबद्ध विवेचन त्रुटि के कारण श्रेणीबद्ध विधि अर्थ (थोड़ी ढलान) के लिए थोड़ा अधिक प्रतिगमन प्रदर्शित करती है।

प्रतिगमन परिणाम

यह कथानक वर्गीकृत किए गए बहुतायत (अनुशंसित के रूप में श्रेणी के समापन बिंदुओं के ज्यामितीय साधनों का उपयोग करके) और खुद को बहुतायत के आधार पर फिट होने के साथ-साथ अनियंत्रित बहुतायत को दर्शाता है । फिट उल्लेखनीय रूप से करीब हैं, उपयुक्त रूप से चुने हुए संख्यात्मक मूल्यों द्वारा श्रेणियों को बदलने की इस पद्धति का संकेत उदाहरण में अच्छी तरह से काम करता है

एक उपयुक्त "मिडपॉइंट" चुनने में आमतौर पर कुछ देखभाल की आवश्यकता होती है βमैं दो चरम श्रेणियों के लिए, क्योंकि अक्सर वहाँ बँधा नहीं है। (इस उदाहरण के लिए मैंने पहली श्रेणी के बाएं छोर को गंभीर रूप से लिया1 बजाय 0 और अंतिम श्रेणी का सही समापन बिंदु होना चाहिए 25000।) एक समाधान यह है कि समस्या का समाधान पहले डेटा का उपयोग करके चरम श्रेणियों में से किसी में नहीं किया जाए, फिर उन चरम श्रेणियों के लिए उपयुक्त मानों का अनुमान लगाने के लिए फिट का उपयोग करें, फिर वापस जाएं और सभी डेटा को फिट करें। पी-वैल्यू थोड़ा बहुत अच्छा होगा, लेकिन कुल मिलाकर फिट अधिक सटीक और कम पक्षपाती होना चाहिए।


+1 उत्कृष्ट उत्तर! मुझे विशेष रूप से पसंद है कि कैसे 2 अलग-अलग विकल्पों को उनके औचित्य के साथ वर्णित किया गया है। मैं भी बहुतायत के लॉग को इकट्ठा करता हूं, न कि आकार, जोर होना चाहिए, जो कि मेरा विचार भी था। एक प्रश्न, भाग 1 में, आप "आप उनके आसपास अनुमानित मान और अंतराल उत्पन्न कर सकते हैं"। कोई इसे कैसे करता है?
गूँज - मोनिका

अच्छा सवाल है, @gung। एक क्रूड तरीका, जो प्रभावी हो सकता है, श्रेणियों को अंतराल-मूल्यवान डेटा के रूप में माना जाता है और आदेशित लॉग परिणाम 'आकार' के किसी भी मूल्य के लिए उन अंतरालों पर वितरण (असतत) प्रदान कर रहे हैं। परिणाम एक अंतराल-मूल्यवान वितरण है, जिसमें एक अंतराल-मूल्यवान अर्थ और अंतराल-मूल्यवान आत्मविश्वास सीमाएं होंगी।
whuber

3
@ जब तक, यह सॉफ्टवेयर विकल्पों का उल्लेख करने के लायक होगा। मैं अनुमान लगा रहा हूं कि आपने Stata का उपयोग किया है (यदि मैं Stata रेखांकन के लिए पर्याप्त रूप से प्रशिक्षित हूं और उन्हें R और SAS ग्राफ़ से बताता हूं), जहां इस मॉडल के साथ फिट किया गया है ologit। आर में, आप पैकेज polrमें ऐसा कर सकते हैं MASS
StasK

1
आप सही हैं, @Stask। आर समाधान के संदर्भ के लिए धन्यवाद। (स्टैटा 11 में ग्राफ सभी डिफॉल्ट ग्राफ हैं; केवल लास्ट में लीजेंड और लाइन स्टाइल्स को कस्टमाइज़ किया गया था क्योंकि लाल-हरे रंग का अंतर अन्यथा सभी पाठकों के लगभग 3% तक स्पष्ट नहीं हो सकता है।)
व्ह्यूबर

2
@StasK rms::lrmऔर क्रमसूचक ( clm) पैकेज भी अच्छा विकल्प हैं।
chl

2

आकार के लघुगणक का उपयोग करने पर विचार करें ।


हा - उस उत्तर ने आंशिक चेहरे की हथेली को हटा दिया। यह सच है कि पैमाने के मुद्दे पर ध्यान दिया जाता है - लेकिन अभी भी हाथ में: वर्गीकृत करने या नहीं करने के लिए, और कौन सी संख्या "मान" को खूंटी। यदि ये प्रश्न अप्रासंगिक हैं, तो मैं सुनवाई को भी संभाल सकता हूं।
पेड़ों की संख्या 4

1
ठीक है, आप विभिन्न मुद्दों को एक में डाल रहे हैं। आपके पास जो डेटा है वह लॉगरिदमिक पैमाने पर अधिक समझ में आता है। आप बिनिंग करना चाहते हैं या नहीं, यह एक अलग प्रश्न है, और वहां मेरे पास आपके लिए केवल एक और फेस पॉम उत्तर है: आपके डेटा और आप जो हासिल करना चाहते हैं, उस पर निर्भर करता है। फिर एक और छिपा हुआ प्रश्न है: मैं अंतराल के बीच अंतर की गणना कैसे करूं - उनके साधनों के अंतर की गणना करें? या न्यूनतम दूरी (तब ए से बी 0, बी से सी 0 होगी, लेकिन ए से सी नहीं)। आदि
है क्विट -

अच्छे अंक, मैंने लक्ष्यों को संबोधित करने के लिए अधिक जानकारी के साथ अपने प्रश्न को अपडेट किया है। अंतराल के अंतर के रूप में, मुझे लगता है कि मेरा सवाल है - साधनों के अंतर, न्यूनतम दूरी, अधिकतम दूरी, टकसालों के बीच की दूरी, अधिकतम के बीच की दूरी, आदि के आधार पर अंतराल की गणना करने के सापेक्ष फायदे / नुकसान क्या होंगे। इस निर्णय को करने के लिए मुझे किन-किन चीजों पर विचार करने की आवश्यकता है (या यदि इस पर भी विचार करने की आवश्यकता है) बहुत अच्छा होगा।
पेड़4+Forest 15

आगे बहुत सारे विकल्प हैं। उदाहरण के लिए, सभी पैमाने के प्रभावों को खत्म करने के लिए, आप इसके बजाय रैंकिंग स्थिति का अनुमान लगाने का प्रयास कर सकते हैं। इसके अलावा, यह त्रुटियों को मापने का सवाल है। लघुगणक लेने से, आप आमतौर पर त्रुटियों को इस तरह से भी मापते हैं। इसलिए जब वास्तविक मूल्य 10000 होता है और अनुमानित मूल्य 10100 होता है, तो यह तब की तुलना में बहुत कम होता है जब अनुमानित मूल्य 1 होता है और वास्तविक मूल्य 101 होता है। इसके अलावा बिनिंग और डिब्बे के बीच माइंडिस्ट की गणना करके, आप वजन भी छोटा करेंगे 0. के साथ त्रुटियाँ
QUIT है - Anony-Mousse
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.