मान लीजिए कि मैं किसी प्रकार के अनुपात या प्रतिशत की भविष्यवाणी करने के लिए एक मॉडल बनाना चाहता हूं। उदाहरण के लिए, मान लें कि मैं उन लड़कों बनाम लड़कियों की संख्या की भविष्यवाणी करना चाहता हूं जो एक पार्टी में भाग लेंगे, और पार्टी की जिन विशेषताओं का मैं मॉडल में उपयोग कर सकता हूं, वे हैं पार्टी के लिए विज्ञापन की राशि, स्थल का आकार, चाहे वहाँ पार्टी में किसी भी शराब आदि होगा, (यह सिर्फ एक बना हुआ उदाहरण है; विशेषताएं वास्तव में महत्वपूर्ण नहीं हैं।)
मेरा सवाल है: एक प्रतिशत बनाम एक अनुपात की भविष्यवाणी करने के बीच क्या अंतर है, और मेरा मॉडल कैसे बदलता है जिसके आधार पर मैं चुनता हूं? क्या यह दूसरे से बढ़िया है? क्या कुछ अन्य फ़ंक्शन एक से बेहतर हैं? (मैं वास्तव में अनुपात बनाम प्रतिशत की विशिष्ट संख्या के बारे में परवाह नहीं करता हूं; मैं सिर्फ यह जानना चाहता हूं कि कौन से पक्ष "लड़का पक्ष" बनाम "लड़की पक्ष" होने की संभावना रखते हैं।) उदाहरण के लिए, मैं हूं। विचारधारा:
- यदि मैं एक प्रतिशत की भविष्यवाणी करना चाहता हूं (कहो,
# boys / (# boys + # girls)
तो, क्योंकि मेरे आश्रित सुविधा 0 और 1 के बीच बँधी हुई है, मुझे शायद रेखीय प्रतिगमन के बजाय लॉजिस्टिक रिग्रेशन जैसी किसी चीज़ का उपयोग करना चाहिए। - अगर मैं एक अनुपात की भविष्यवाणी करना चाहता हूं (कहो,
# boys / # girls
या# boys / (1 + # girls)
विभाजित-शून्य त्रुटियों से बचने के लिए), तो मेरी निर्भरता सकारात्मक है, इसलिए क्या मुझे रैखिक प्रतिगमन का उपयोग करने से पहले किसी प्रकार का (लॉग?) परिवर्तन लागू करना चाहिए? (या कुछ अन्य मॉडल? सकारात्मक, गैर-गणना डेटा के लिए किस प्रकार के प्रतिगमन मॉडल का उपयोग किया जाता है?) - क्या अनुपात के बजाय प्रतिशत (आमतौर पर) की भविष्यवाणी करना बेहतर है और यदि ऐसा है, तो क्यों?