तुम दोनों मायने में सही हो। फ्रैंक Harrell के पृष्ठ देखें यहाँ सतत चर binning के साथ समस्याओं की एक लंबी सूची के लिए। यदि आप कुछ डिब्बे का उपयोग करते हैं तो आप भविष्यवाणियों में बहुत सारी जानकारी फेंक देते हैं; यदि आप कई का उपयोग करते हैं, तो आप एक सरल, जो कि रैखिक नहीं होना चाहिए, संबंध, और स्वतंत्रता की बहुत सारी डिग्री का उपयोग करते हैं, में विगल्स फिट करते हैं। आमतौर पर भविष्यवाणियों के लिए बहुपद ( ) या स्प्लिन्स (आसानी से जुड़ने वाले पॉलीमोनियल) का उपयोग करना बेहतर होता है । बिनिंग का वास्तव में केवल एक अच्छा विचार है, जब आप कट-पॉइंट्स पर प्रतिक्रिया में एक असंतोष की उम्मीद करेंगे - कहते हैं कि तापमान कुछ उबलता है, या ड्राइविंग के लिए कानूनी उम्र, और जब प्रतिक्रिया उनके बीच सपाट होती है ..x + x2+ …
मान? - यह, इसके बारे में सोचने के बिना वक्रता को ध्यान में रखने का एक त्वरित और आसान तरीका है, और जो आप इसके लिए उपयोग कर रहे हैं उसके लिए मॉडल काफी अच्छा हो सकता है। जब आप पूर्वानुमानकर्ताओं की संख्या की तुलना में बहुत सारा डेटा प्राप्त करते हैं, तो यह सब ठीक काम करता है, प्रत्येक भविष्यवक्ता को बहुत सारी श्रेणियों में विभाजित किया जाता है; इस मामले में प्रत्येक भविष्यवक्ता बैंड के भीतर प्रतिक्रिया की सीमा छोटी होती है और औसत प्रतिक्रिया सटीक रूप से निर्धारित होती है।
[टिप्पणियों के जवाब में संपादित करें:
कभी-कभी एक निरंतर चर के लिए एक क्षेत्र के भीतर मानक कट-ऑफ का उपयोग किया जाता है: जैसे कि दवा रक्तचाप में निम्न, मध्यम या उच्च के रूप में वर्गीकृत किया जा सकता है। जब आप मॉडल प्रस्तुत करते हैं या लागू करते हैं तो ऐसे कट-ऑफ का उपयोग करने के कई अच्छे कारण हो सकते हैं। विशेष रूप से, निर्णय नियम अक्सर एक मॉडल में जाने की तुलना में कम जानकारी पर आधारित होते हैं, और लागू करने के लिए सरल होने की आवश्यकता हो सकती है। लेकिन यह इस बात का पालन नहीं करता है कि जब आप मॉडल फिट करते हैं, तो भविष्यवाणियों को दूर करने के लिए ये कट-ऑफ उपयुक्त हैं।
मान लीजिए कुछ प्रतिक्रिया रक्तचाप के साथ लगातार बदलती रहती है। यदि आप अपने अध्ययन में एक उच्च रक्तचाप समूह को भविष्यवक्ता के रूप में परिभाषित करते हैं, तो आप जिस प्रभाव का अनुमान लगा रहे हैं, वह उस समूह के व्यक्तियों के विशेष रक्तचाप पर औसत प्रतिक्रिया है। यह नहीं हैएक अन्य अध्ययन में उच्च रक्तचाप वाले लोगों की औसत प्रतिक्रिया या किसी अन्य अध्ययन में उच्च रक्तचाप समूह के लोगों की औसत प्रतिक्रिया का अनुमान है, जब तक कि आप इसे बनाने के लिए विशिष्ट उपाय नहीं करते हैं। यदि सामान्य आबादी में रक्तचाप का वितरण ज्ञात है, जैसा कि मैं कल्पना करता हूं, तो आप सामान्य जनसंख्या में उच्च रक्तचाप वाले लोगों की औसत प्रतिक्रिया की गणना बेहतर तरीके से करेंगे, जो रक्तचाप के रूप में मॉडल से भविष्यवाणियों के आधार पर होती हैं। लगातार बदलने वाला। क्रूड बिनिंग आपके मॉडल को केवल सामान्य बनाने योग्य बनाता है।
सामान्य तौर पर, यदि आपके पास कट-ऑफ के बीच प्रतिक्रिया के व्यवहार के बारे में प्रश्न हैं, तो सबसे अच्छा मॉडल फिट करें जो आप पहले कर सकते हैं, और फिर उन्हें जवाब देने के लिए इसका उपयोग कर सकते हैं।]
[प्रस्तुति के संबंध में; मुझे लगता है कि यह एक लाल हेरिंग है:
(1) प्रस्तुति में आसानी मॉडलिंग के बुरे फैसलों को सही नहीं ठहराती है। (और उन मामलों में जहां बिनिंग एक अच्छा मॉडलिंग निर्णय है, इसे अतिरिक्त औचित्य की आवश्यकता नहीं है।) निश्चित रूप से यह स्वयं स्पष्ट है। कोई भी कभी भी एक मॉडल से एक महत्वपूर्ण बातचीत करने की सिफारिश नहीं करता है क्योंकि यह पेश करना मुश्किल है।
(2) आप जिस भी प्रकार के मॉडल को फिट करते हैं, आप अभी भी श्रेणियों के संदर्भ में इसके परिणाम प्रस्तुत कर सकते हैं यदि आपको लगता है कि यह व्याख्या की सहायता करेगा। हालांकि ...
(3) आपको यह सुनिश्चित करने के लिए सावधान रहना होगा कि यह ऊपर दिए गए कारणों के लिए गलत व्याख्या में सहायता नहीं करता है।
(४) गैर-रेखीय प्रतिक्रियाओं को प्रस्तुत करना वास्तव में कठिन नहीं है। व्यक्तिगत राय, स्पष्ट रूप से, और दर्शक अलग-अलग होते हैं; लेकिन मैंने कभी भी किसी के लिए फिटेड रिस्पांस वैल्यूज का कोई ग्राफ नहीं देखा है। इंटरैक्शन, लॉगिट्स, रैंडम इफेक्ट्स, मल्टीकोलिनरिटी, ... - ये सब समझाने के लिए बहुत कठिन हैं।]
[@ रोलैंड द्वारा लाया गया एक अतिरिक्त बिंदु भविष्यवक्ताओं की माप की सटीकता है; वह सुझाव दे रहा है, मुझे लगता है, कि श्रेणीकरण उचित हो सकता है जब वे विशेष रूप से सटीक नहीं होते हैं। सामान्य ज्ञान का सुझाव हो सकता है कि आप मामलों को फिर से ठीक करके उन्हें कम सटीक बताते हुए सुधार नहीं करते हैं, और सामान्य ज्ञान सही होगा: MacCallum et al (2002), "क्वांटिटेटिव वेरिएबल्स के द्विअर्थीकरण के अभ्यास पर", मनोवैज्ञानिक तरीके , 7 । 1, पीपी 17-19]