यह समझने के लिए कि क्या चल सकता है, यह वर्णित (और विश्लेषण) डेटा उत्पन्न करने के लिए है जो वर्णित तरीके से व्यवहार करता है।
सरलता के लिए, हम उस छठे स्वतंत्र चर के बारे में भूल जाते हैं। तो, सवाल पांच स्वतंत्र चर विरुद्ध एक आश्रित चर प्रतिगमन का वर्णन करता है , जिसमेंx 1 , x 2 , x 3 , x 4 , x 5yx1,x2,x3,x4,x5
प्रत्येक साधारण प्रतिगमन से से कम के स्तर पर महत्वपूर्ण है । 0.01 0.001y∼xi0.010.001
एकाधिक प्रतिगमन महत्वपूर्ण गुणांक केवल और ।एक्स 1 एक्स 2y∼x1+⋯+x5x1x2
सभी विचरण मुद्रास्फीति कारक (VIF) कम होते हैं, जो डिज़ाइन मैट्रिक्स में अच्छी कंडीशनिंग का संकेत देते हैं (अर्थात, बीच समरूपता की कमी है )।xi
आइए इसे इस प्रकार बनाते हैं:
उत्पन्न के लिए सामान्य रूप से वितरित मूल्यों और । (हम बाद में चुनेंगे ।)x 1 x 2 nnx1x2n
आज्ञा दें जहां मतलब की स्वतंत्र सामान्य त्रुटि है । लिए एक उपयुक्त मानक विचलन खोजने के लिए कुछ परीक्षण और त्रुटि की आवश्यकता होती है ; ठीक काम करता है (और नहीं बल्कि नाटकीय है: है बेहद अच्छी तरह से साथ सहसंबद्ध और , भले ही यह केवल मामूली साथ जोड़ा जाता है और व्यक्तिगत रूप से)।ε 0 ε 1 / 100 y एक्स 1 एक्स 2 एक्स 1 एक्स 2y=x1+x2+εε0ε1/100yx1x2x1x2
आज्ञा दें = , , जहां स्वतंत्र मानक सामान्य त्रुटि है। यह केवल पर थोड़ा निर्भर करता है । हालांकि, और बीच तंग सहसंबंध के माध्यम से , यह और इन बीच एक छोटे से सहसंबंध को प्रेरित करता है ।एक्स 1 / 5 + δ j = 3 , 4 , 5 δ एक्स 3 , x 4 , x 5 x 1 x 1 y y एक्स जेxjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj
यहाँ रगड़ना है: अगर हम पर्याप्त रूप से बड़ा बनाते हैं , तो इन मामूली सहसंबंधों के परिणामस्वरूप महत्वपूर्ण गुणांक होंगे, हालांकि केवल पहले दो चर द्वारा को लगभग पूरी तरह से "समझाया गया" है।वाईny
मैंने पाया कि रिपोर्ट किए गए पी-वैल्यू को पुन: पेश करने के लिए ठीक काम करता है। यहाँ सभी छह चर का एक स्कैप्लॉट मैट्रिक्स दिया गया है:n=500
सही कॉलम (या नीचे पंक्ति) का निरीक्षण करके आप देख सकते हैं कि में और साथ एक अच्छा (सकारात्मक) सहसंबंध है लेकिन अन्य चर के साथ थोड़ा स्पष्ट सहसंबंध है। इस मैट्रिक्स के बाकी का निरीक्षण करके, आप देख सकते हैं कि स्वतंत्र चरों परस्पर प्रतीत असहसंबद्ध (यादृच्छिक बहुत कुछ नहीं है - कोई असाधारण डेटा कर रहे हैं छोटे निर्भरता हम जानते हैं कि देखते हैं मुखौटा।) उच्च लाभ उठाने के साथ या। हिस्टोग्राम्स बताते हैं कि सभी छह चर लगभग सामान्य रूप से वितरित किए जाते हैं, वैसे: ये डेटा सामान्य और "सादे वेनिला" के रूप में हैं, जो संभवतः चाहते हैं।x 1 x 2 x 1 , ... , एक्स 5 δyx1x2x1,…,x5δ
के प्रतिगमन में के खिलाफ और , पी-मूल्यों अनिवार्य रूप से 0. के अलग-अलग प्रतिगमन में हैं के खिलाफ , तो के खिलाफ , और के खिलाफ , पी-मूल्यों 0.0024, 0.0083, और .००,०६४ क्रमशः : अर्थात्, वे "अत्यधिक महत्वपूर्ण हैं।" लेकिन पूर्ण एकाधिक प्रतिगमन में, संबंधित p- मान क्रमशः .46, .36, और .52 तक बढ़ते हैं: बिल्कुल भी महत्वपूर्ण नहीं है। इसका कारण यह है कि एक बार को और विरुद्ध प्राप्त कर लिया गया हैyx1x2yx3yx4yx5yx1x2, केवल "समझाना" के लिए छोड़ा गया सामान अवशिष्ट में त्रुटि की छोटी मात्रा है, जो अनुमानित , और यह त्रुटि शेष से लगभग पूरी तरह से असंबंधित है । ("लगभग" सही है: इस तथ्य से प्रेरित एक बहुत छोटा संबंध है कि अवशेषों को और और के मूल्यों से भाग में गणना की गई थी , , के लिए कुछ कमजोर संबंध हैं और । यह अवशिष्ट संबंध व्यावहारिक रूप से , हालांकि, जैसा कि हमने देखा।)εxix1x2xii=3,4,5x1x2
डिज़ाइन मैट्रिक्स की कंडीशनिंग संख्या केवल 2.17 है: यह बहुत कम है, जो उच्च मल्टीकोलिनरिटी का कोई संकेत नहीं दिखाता है । (कुलीनता की पूर्ण कमी 1 की कंडीशनिंग संख्या में परिलक्षित होगी, लेकिन व्यवहार में यह केवल कृत्रिम और डिज़ाइन किए गए प्रयोगों के साथ देखा जाता है। 1-6 की श्रेणी में कंडीशनिंग संख्या (या इससे भी अधिक, अधिक चर के साथ) बेहद अचूक हैं। यह अनुकरण पूरा करता है: इसने समस्या के हर पहलू को सफलतापूर्वक पुन: पेश किया है।
इस विश्लेषण प्रस्ताव में महत्वपूर्ण अंतर्दृष्टि शामिल हैं
पी-वैल्यू कोलीनिटी के बारे में सीधे हमें कुछ नहीं बताते हैं। वे डेटा की मात्रा पर दृढ़ता से निर्भर करते हैं।
कई रजिस्ट्रियों में पी-वैल्यू और संबंधित रिग्रेशन में पी-वैल्यू के बीच संबंध (स्वतंत्र चर के उपसमुच्चय) जटिल और आमतौर पर अप्रत्याशित हैं।
नतीजतन, जैसा कि दूसरों ने तर्क दिया है, पी-मानों को मॉडल चयन के लिए आपका एकमात्र मार्गदर्शक (या यहां तक कि आपका प्रमुख मार्गदर्शक) नहीं होना चाहिए।
संपादित करें
इन घटनाओं को प्रदर्शित होने के लिए लिए जितना बड़ा होना आवश्यक नहीं है । 500n500 प्रश्न में अतिरिक्त जानकारी से प्रेरित होकर, निम्नलिखित एक डाटासेट के साथ इसी तरह से निर्माण किया है (इस मामले में के लिए )। यह और बीच 0.38 से 0.73 के सहसंबंध बनाता है । डिज़ाइन मैट्रिक्स की स्थिति संख्या 9.05 है: थोड़ा अधिक है, लेकिन भयानक नहीं है। ( अंगूठे के कुछ नियम कहते हैं कि 10 तक संख्याएँ ठीक हैं।) विरुद्ध व्यक्तिगत प्रतिगमन केएक्स जे = 0.4 x 1 + 0.4 एक्स 2 + δ j = 3 , 4 , 5 एक्स 1 - 2 एक्स 3 - 5 एक्स 3 , x 4 , x 5n=24xj=0.4x1+0.4x2+δj=3,4,5x1−2x3−5x3,x4,x50.002, 0.015 और 0.008: अत्यधिक महत्वपूर्ण हैं। इस प्रकार, कुछ बहुस्तरीयता शामिल है, लेकिन यह इतनी बड़ी नहीं है कि कोई इसे बदलने के लिए काम करे। मूल अंतर्दृष्टि एक ही रहती है : महत्व और बहुरूपता अलग-अलग चीजें हैं; केवल हल्के गणितीय बाधाओं के बीच पकड़; और यह एक एकल चर के समावेश या बहिष्कार के लिए भी संभव है, गंभीर बहुसांस्कृतिकता के बिना सभी पी-मूल्यों पर गहरा प्रभाव पड़ता है।
x1 x2 x3 x4 x5 y
-1.78256 -0.334959 -1.22672 -1.11643 0.233048 -2.12772
0.796957 -0.282075 1.11182 0.773499 0.954179 0.511363
0.956733 0.925203 1.65832 0.25006 -0.273526 1.89336
0.346049 0.0111112 1.57815 0.767076 1.48114 0.365872
-0.73198 -1.56574 -1.06783 -0.914841 -1.68338 -2.30272
0.221718 -0.175337 -0.0922871 1.25869 -1.05304 0.0268453
1.71033 0.0487565 -0.435238 -0.239226 1.08944 1.76248
0.936259 1.00507 1.56755 0.715845 1.50658 1.93177
-0.664651 0.531793 -0.150516 -0.577719 2.57178 -0.121927
-0.0847412 -1.14022 0.577469 0.694189 -1.02427 -1.2199
-1.30773 1.40016 -1.5949 0.506035 0.539175 0.0955259
-0.55336 1.93245 1.34462 1.15979 2.25317 1.38259
1.6934 0.192212 0.965777 0.283766 3.63855 1.86975
-0.715726 0.259011 -0.674307 0.864498 0.504759 -0.478025
-0.800315 -0.655506 0.0899015 -2.19869 -0.941662 -1.46332
-0.169604 -1.08992 -1.80457 -0.350718 0.818985 -1.2727
0.365721 1.10428 0.33128 -0.0163167 0.295945 1.48115
0.215779 2.233 0.33428 1.07424 0.815481 2.4511
1.07042 0.0490205 -0.195314 0.101451 -0.721812 1.11711
-0.478905 -0.438893 -1.54429 0.798461 -0.774219 -0.90456
1.2487 1.03267 0.958559 1.26925 1.31709 2.26846
-0.124634 -0.616711 0.334179 0.404281 0.531215 -0.747697
-1.82317 1.11467 0.407822 -0.937689 -1.90806 -0.723693
-1.34046 1.16957 0.271146 1.71505 0.910682 -0.176185