मॉडल बनाने से पहले चर को अक्सर समायोजित किया जाता है (जैसे मानकीकृत) - यह एक अच्छा विचार कब है, और यह एक बुरा कब है?


56

मॉडल फिटिंग से पहले आप किन परिस्थितियों में एक चर को मापना या मानकीकृत नहीं करना चाहते हैं? और वैरिएबल स्केलिंग के क्या फायदे / नुकसान हैं?


यहां बहुत ही समान प्रश्न: आंकड़े . stackexchange.com/q/7112/3748 क्या आप और अधिक देख रहे हैं?
माइकल बिशप

हां - मैं सिर्फ लीनियर मॉडल के बजाय सामान्य रूप से मॉडल के लिए जानना चाहता हूं
एंड्रयू

1
बहुत सारे संभावित मॉडल हैं, और मॉडल के संभावित उपयोग हैं। यदि आप अपने प्रश्नों को अधिक विशिष्ट बना सकते हैं और अन्य प्रश्नों के साथ ओवरलैप को कम कर सकते हैं जो बेहतर है।
माइकल बिशप

ऊपर दिए गए लिंक के अलावा, यह सवाल: जब-आप-केंद्र-आपका डेटा-जब-जब-आप-मानकीकरण ब्याज का होगा।
गूँज - मोनिका

जवाबों:


37

मानकीकरण सभी मॉडल के विभिन्न चर के वजन के बारे में है। यदि आप संख्यात्मक स्थिरता के लिए मानकीकरण "केवल" करते हैं, तो ऐसे रूपांतरण हो सकते हैं जो बहुत समान संख्यात्मक गुण उत्पन्न करते हैं लेकिन विभिन्न भौतिक अर्थ जो व्याख्या के लिए बहुत अधिक उपयुक्त हो सकते हैं। वही केंद्रित करने के लिए सच है, जो आमतौर पर मानकीकरण का हिस्सा है।

स्थिति जहाँ आप शायद मानकीकृत करना चाहते हैं:

  • चर अलग-अलग भौतिक मात्राएं हैं
  • और संख्यात्मक मान परिमाण के बहुत भिन्न पैमाने पर हैं
  • और कोई "बाहरी" ज्ञान नहीं है कि उच्च (संख्यात्मक) भिन्नता वाले चर को अधिक महत्वपूर्ण माना जाना चाहिए।

ऐसे स्थान जहाँ आप मानकीकरण नहीं करना चाहते हैं:

  • यदि चर एक ही भौतिक मात्रा हैं, और (लगभग) एक ही परिमाण के हैं, जैसे
    • विभिन्न रासायनिक प्रजातियों के सापेक्ष सांद्रता
    • विभिन्न तरंग दैर्ध्य पर अवशोषण
    • विभिन्न तरंगदैर्ध्य पर उत्सर्जन की तीव्रता (अन्यथा समान माप की स्थिति)
  • आप निश्चित रूप से उन चर को मानकीकृत नहीं करना चाहते हैं जो नमूनों (बेसलाइन चैनल) के बीच नहीं बदलते हैं - आप माप शोर को उड़ा देंगे (आप इसके बजाय उन्हें मॉडल से बाहर करना चाह सकते हैं)
  • यदि आपके पास ऐसे भौतिक रूप से संबंधित चर हैं, तो आपका माप शोर लगभग सभी चर के लिए समान हो सकता है, लेकिन संकेत तीव्रता बहुत अधिक भिन्न होती है। कम मूल्यों वाले I चर में उच्च सापेक्ष शोर होता है। मानकीकरण शोर को उड़ा देगा। दूसरे शब्दों में, आपको यह तय करना पड़ सकता है कि क्या आप सापेक्ष या पूर्ण शोर को मानकीकृत करना चाहते हैं।
  • शारीरिक रूप से सार्थक मूल्य हो सकते हैं जिनका उपयोग आप अपने मापा मूल्य से संबंधित करने के लिए कर सकते हैं, जैसे कि संचरित तीव्रता के बजाय प्रेषित तीव्रता का प्रतिशत (संप्रेषण टी) का उपयोग करें।

आप "बीच में" कुछ कर सकते हैं, और चर को बदल सकते हैं या इकाई चुन सकते हैं ताकि नए चर का अभी भी भौतिक अर्थ हो लेकिन संख्यात्मक मान में भिन्नता अलग नहीं है, जैसे।

  • यदि आप चूहों के साथ काम करते हैं, तो बेस यूनिट किलो और मीटर की बजाय शरीर के वजन जी और लंबाई सेमी (दोनों के लिए 5 के बारे में भिन्नता की अपेक्षित सीमा) का उपयोग करें (भिन्नता 0.005 किलो और 0.05 मीटर की विविधता की सीमा - भिन्नता का एक क्रम)।
  • ऊपर संप्रेषण टी के लिए, आप अवशोषण का उपयोग करने पर विचार कर सकते हैंA=log10T

केंद्रित करने के लिए समान:

  • उपलब्ध आधारभूत मान (जैसे नियंत्रण, अंधा, आदि) (भौतिक / रासायनिक / जैविक रूप से / ...) हो सकते हैं।
  • क्या वास्तव में अर्थ सार्थक है? (औसत मानव में एक अंडाशय और एक अंडकोष होता है)

+1 और स्वीकार किए जाने की सहायक सूची के कारण कब और
एंड्रयू

6
+1 के लिए "औसत मानव में एक अंडाशय और एक अंडकोष होता है" (और शेष उत्तर के लिए; ;-)
गूँज - मोनिका

1
@cbeleites ऐसा कोई मौका है जिससे आप किसी संसाधन को लिंक प्रदान कर सकते हैं जो आपके उत्तर में आपके द्वारा उपयोग किए गए संदर्भ में आधारभूत चैनल बताता है? मैंने पहले शब्द नहीं सुना है और मुझे ऐसे खोज परिणाम मिल रहे हैं जो यहां आपके शब्द के उपयोग को समझने में मददगार नहीं हैं। धन्यवाद!
महोनिसा

1
@sikikan: अंजीर पर एक नज़र है। 1 इस लेख में: americanlaboratory.com/913-Technical-Articles/… जैविक और भौतिक-रासायनिक कारणों के लिए, 2000 से 2700 सेमी के बीच की सीमा में कोई संकेत अपेक्षित नहीं हैं। इस क्षेत्र का उपयोग आधारभूत (भौतिक प्रभावों से जो कि रमन नहीं हैं) का अनुमान लगाने के लिए किया जा सकता है जो तब घटाया जाता है। ये चर फिर लगभग शून्य और कुछ शोर होंगे। 1
cbeleites मोनिका

9

मानकीकरण से पहले एक बात मैं हमेशा खुद से पूछता हूं, "मैं आउटपुट की व्याख्या कैसे करूंगा?" यदि परिवर्तन के बिना डेटा का विश्लेषण करने का एक तरीका है, तो यह एक व्याख्या के दृष्टिकोण से पूरी तरह से बेहतर हो सकता है।


7

सामान्य तौर पर मैं स्केलिंग या मानकीकरण की सिफारिश नहीं करता जब तक कि यह बिल्कुल आवश्यक न हो। ऐसी प्रक्रिया का लाभ या अपील वह है, जब एक व्याख्यात्मक चर का प्रतिक्रिया चर से पूरी तरह से अलग भौतिक आयाम और परिमाण होता है, जो मानक विचलन द्वारा विभाजन के माध्यम से स्केलिंग से संख्यात्मक स्थिरता के संदर्भ में मदद कर सकता है, और किसी को प्रभाव भर में तुलना करने में सक्षम बनाता है विवरणात्मक परिवर्ती। सबसे आम मानकीकरण के साथ, परिवर्तनशील प्रभाव प्रतिक्रिया चर में परिवर्तन की मात्रा है जब व्याख्यात्मक चर एक मानक विचलन से बढ़ता है; यह भी इंगित करता है कि चर प्रभाव का अर्थ (प्रतिक्रिया चर में परिवर्तन की मात्रा जब व्याख्यात्मक चर एक इकाई से बढ़ जाता है) खो जाएगा, हालांकि व्याख्यात्मक चर के लिए सांख्यिकीय मान अपरिवर्तित रहता है। हालाँकि, जब इंटरैक्शन को एक मॉडल में माना जाता है, तो सांख्यिकीय प्रभाव के लिए स्केलिंग बहुत समस्याग्रस्त हो सकती है क्योंकि इंटरैक्शन प्रभाव की मानक त्रुटि की गणना में एक स्टोकेस्टिक स्केलिंग समायोजन को शामिल करने की जटिलता है (उपदेशक, 2003)। इस कारण से, मानक विचलन (या मानकीकरण / सामान्यीकरण) द्वारा स्केलिंग की आमतौर पर सिफारिश नहीं की जाती है, खासकर जब बातचीत शामिल होती है।

उपदेशक, केजे, क्यूरन, पीजे और बाउर, डीजे, 2006. कई रैखिक प्रतिगमन, बहुस्तरीय मॉडलिंग और अव्यक्त वक्र विश्लेषण में बातचीत प्रभाव की जांच के लिए कम्प्यूटेशनल उपकरण। जर्नल ऑफ एजुकेशनल एंड बिहेवियरल स्टैटिस्टिक्स, 31 (4), 437-448।


4
मैं आपके दावे पर सवाल उठाता हूं कि भविष्यवाणियों को मानकीकृत करना "आम तौर पर अनुशंसित नहीं है, खासकर जब सहभागिता शामिल होती है।" न तो गेलमैन और हिल, न ही राउडेनबश और ब्रायक ने अपने ग्रंथों में इस चिंता का उल्लेख किया है। लेकिन जब मुझे मौका मिलेगा तो मैं उन संदर्भों को देखूंगा, जिनका आप रुचि के साथ उल्लेख करते हैं।
माइकल बिशप

यदि हम स्केलिंग चर के रूप में अंशांकन ब्रह्मांड एसटीडी का उपयोग करते हैं, तो स्केलिंग स्टोचस्टिक नहीं है।
एडम

क्या कोई पुष्टि कर सकता है कि बातचीत के मामले में स्केलिंग हानिकारक है? ऐसा प्रतीत नहीं होता है कि उपरोक्त चर्चा में हल किया गया है।
तालीक ३२३३
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.