प्रतिशत बनाम अनुपात के लिए एक रैखिक मॉडल का निर्माण?


20

मान लीजिए कि मैं किसी प्रकार के अनुपात या प्रतिशत की भविष्यवाणी करने के लिए एक मॉडल बनाना चाहता हूं। उदाहरण के लिए, मान लें कि मैं उन लड़कों बनाम लड़कियों की संख्या की भविष्यवाणी करना चाहता हूं जो एक पार्टी में भाग लेंगे, और पार्टी की जिन विशेषताओं का मैं मॉडल में उपयोग कर सकता हूं, वे हैं पार्टी के लिए विज्ञापन की राशि, स्थल का आकार, चाहे वहाँ पार्टी में किसी भी शराब आदि होगा, (यह सिर्फ एक बना हुआ उदाहरण है; विशेषताएं वास्तव में महत्वपूर्ण नहीं हैं।)

मेरा सवाल है: एक प्रतिशत बनाम एक अनुपात की भविष्यवाणी करने के बीच क्या अंतर है, और मेरा मॉडल कैसे बदलता है जिसके आधार पर मैं चुनता हूं? क्या यह दूसरे से बढ़िया है? क्या कुछ अन्य फ़ंक्शन एक से बेहतर हैं? (मैं वास्तव में अनुपात बनाम प्रतिशत की विशिष्ट संख्या के बारे में परवाह नहीं करता हूं; मैं सिर्फ यह जानना चाहता हूं कि कौन से पक्ष "लड़का पक्ष" बनाम "लड़की पक्ष" होने की संभावना रखते हैं।) उदाहरण के लिए, मैं हूं। विचारधारा:

  • यदि मैं एक प्रतिशत की भविष्यवाणी करना चाहता हूं (कहो, # boys / (# boys + # girls)तो, क्योंकि मेरे आश्रित सुविधा 0 और 1 के बीच बँधी हुई है, मुझे शायद रेखीय प्रतिगमन के बजाय लॉजिस्टिक रिग्रेशन जैसी किसी चीज़ का उपयोग करना चाहिए।
  • अगर मैं एक अनुपात की भविष्यवाणी करना चाहता हूं (कहो, # boys / # girlsया # boys / (1 + # girls)विभाजित-शून्य त्रुटियों से बचने के लिए), तो मेरी निर्भरता सकारात्मक है, इसलिए क्या मुझे रैखिक प्रतिगमन का उपयोग करने से पहले किसी प्रकार का (लॉग?) परिवर्तन लागू करना चाहिए? (या कुछ अन्य मॉडल? सकारात्मक, गैर-गणना डेटा के लिए किस प्रकार के प्रतिगमन मॉडल का उपयोग किया जाता है?)
  • क्या अनुपात के बजाय प्रतिशत (आमतौर पर) की भविष्यवाणी करना बेहतर है और यदि ऐसा है, तो क्यों?

आपके विशेष एप्लिकेशन और आप जो मॉडल बनाने की कोशिश कर रहे हैं, उसके आधार पर, आपको कंपोसल डेटा विश्लेषण ( en.wikipedia.org/wiki/Compositional_data ) का उपयोग करने पर विचार करना चाहिए ; जब कुछ विशेषताएं (स्वतंत्र चर) एकता के योग पर विचार करने के लिए कुछ सूक्ष्म बातें हैं। कृपया जॉन आइचिसन का काम देखें।
ctbrown

जवाबों:


9

पीबीपी

[0,1]

01

लॉग


15

पहला उत्तर गूंज रहा है। कन्वर्ट करने के लिए परेशान मत करो - बस सीधे मायने रखता है और covariates मॉडल।

यदि आप ऐसा करते हैं और लड़के लड़की के लिए एक द्विपद (या समतुल्य लॉजिस्टिक) प्रतिगमन मॉडल फिट करते हैं, तो आप ऐसे मॉडल के लिए सामान्य लिंक फ़ंक्शन का चयन करते हैं, जिसका अर्थ है कि पहले से ही लड़कियों के लिए लड़कों के अनुपात में एक (कोवरिएट स्मूथ लॉग इन) फिट किया जा रहा है। यही लीनियर प्रेडिक्टर है।

अनुपात या अनुपात के बजाय सीधे मॉडल की गणना करने का प्राथमिक कारण यह है कि आप जानकारी नहीं खोते हैं। यदि आप 100 लड़कों और 100 लड़कियों को 2 और 2 देखने की तुलना में देखते हैं, तो आप 1 से अधिक लड़कियों और 100 लड़कियों को देखने से आए हैं, अगर आपके पास अधिक कॉवरिएट्स हैं उनके प्रभावों और संभावित रूप से एक बेहतर भविष्य कहनेवाला मॉडल के बारे में जानकारी।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.