असंतुलन जरूरी एक समस्या नहीं है, लेकिन आप वहां कैसे पहुंच सकते हैं। लक्ष्य चर पर अपनी नमूना रणनीति को आधार बनाना असत्य है। क्योंकि यह चर आपके प्रतिगमन मॉडल में यादृच्छिकता को शामिल करता है, यदि आप इसके आधार पर नमूना लेते हैं तो आपको किसी भी प्रकार की बाधा उत्पन्न करने में बड़ी समस्याएं होंगी। मुझे संदेह है कि उन समस्याओं को "पूर्ववत" करना संभव है।
आप भविष्यवाणियों के आधार पर वैध रूप से ओवर- या अंडर-सैंपल ले सकते हैं । इस मामले में, आपको सावधानीपूर्वक जाँच करें कि मॉडल मान्यताओं को मान्य लगता है (उदाहरण के लिए समरूपता एक है जो इस स्थिति में महत्वपूर्ण है, यदि आपके पास सामान्य मान्यताओं के साथ "साधारण" प्रतिगमन है), तो मुझे नहीं लगता कि आपको इसकी आवश्यकता है भविष्यवाणी करते समय निरीक्षण को पूर्ववत करें। आपका मामला अब एक विश्लेषक के समान होगा जिसने भविष्यवाणियों के संतुलित रेंज के लिए स्पष्ट रूप से एक प्रयोग डिज़ाइन किया है।
संपादित करें - जोड़ - वाई पर आधारित नमूना खराब क्यों है, इस पर विस्तार
फिटिंग में मानक प्रतिगमन मॉडल के ई सामान्य रूप से वितरित होने की उम्मीद है, शून्य का एक मतलब है, और स्वतंत्र और समान रूप से वितरित किया जाना चाहिए। यदि आप y के मूल्य के आधार पर अपना नमूना चुनते हैं (जिसमें ई के साथ-साथ एक्स बी का योगदान भी शामिल हैy= एक्सबी + ईइइएक्सख) ई अब शून्य का मतलब नहीं होगा या पहचान के रूप में वितरित किया जाएगा। उदाहरण के लिए, y के निम्न मानों में ई के बहुत कम मूल्य शामिल हो सकते हैं और उनके चयनित होने की संभावना कम हो सकती है। यह इस तरह के मॉडल फिटिंग के सामान्य साधनों के आधार पर किसी भी अनुमान को बर्बाद कर देता है। ठीक किए गए मॉडल को फिट करने के लिए अर्थमिति में किए गए सुधारों के समान सुधार किए जा सकते हैं, लेकिन वे एक दर्द हैं और अतिरिक्त मान्यताओं की आवश्यकता होती है, और केवल तभी काम करना चाहिए जब कोई विकल्प न हो।
नीचे दिए गए चरम चित्रण पर विचार करें। यदि आप प्रतिक्रिया चर के लिए अपने डेटा को मनमाने मूल्य पर काटते हैं, तो आप बहुत महत्वपूर्ण पूर्वाग्रहों का परिचय देते हैं। यदि आप एक व्याख्यात्मक चर के लिए इसे काटते हैं, तो जरूरी नहीं कि कोई समस्या हो। आप देखते हैं कि हरे रंग की रेखा, उनके पूर्वसूचक मानों के कारण चुनी गई सबसेट पर आधारित है, जो सत्य फिट लाइन के बहुत करीब है; यह केवल नीले बिंदुओं के आधार पर नीली रेखा के बारे में नहीं कहा जा सकता है।
यह अंडरपास या ओवरसम्पलिंग के कम गंभीर मामले तक फैला हुआ है (क्योंकि ट्रंकेशन को इसके तार्किक चरम पर ले जाया गया अंडरस्कोपिंग के रूप में देखा जा सकता है)।
# generate data
x <- rnorm(100)
y <- 3 + 2*x + rnorm(100)
# demonstrate
plot(x,y, bty="l")
abline(v=0, col="grey70")
abline(h=4, col="grey70")
abline(3,2, col=1)
abline(lm(y~x), col=2)
abline(lm(y[x>0] ~ x[x>0]), col=3)
abline(lm(y[y>4] ~ x[y>4]), col=4)
points(x[y>4], y[y>4], pch=19, col=4)
points(x[x>0], y[x>0], pch=1, cex=1.5, col=3)
legend(-2.5,8, legend=c("True line", "Fitted - all data", "Fitted - subset based on x",
"Fitted - subset based on y"), lty=1, col=1:4, bty="n")