प्रमेय जिसे आप संदर्भित करते हैं (सामान्य पैरामीटर "अनुमानित मापदंडों के कारण स्वतंत्रता की डिग्री की सामान्य कमी") ज्यादातर आरए फिशर द्वारा वकालत की गई है। 'आकस्मिकता तालिकाओं से ची स्क्वायर की व्याख्या, और पी की गणना' (1922) में उन्होंने नियम और 'प्रतिगमन स्रोतों के फिट होने की भलाई' का उपयोग करने का तर्क दिया ( 1922) वह डेटा से अपेक्षित मूल्यों को प्राप्त करने के लिए प्रतिगमन में उपयोग किए जाने वाले मापदंडों की संख्या से स्वतंत्रता की डिग्री को कम करने का तर्क देता है। (यह ध्यान रखना दिलचस्प है कि लोगों ने ची-स्क्वायर परीक्षण का दुरुपयोग किया, स्वतंत्रता की गलत डिग्री के साथ, बीस से अधिक वर्षों के लिए, क्योंकि यह 1900 में शुरू हुआ है)(R−1)∗(C−1)
आपका मामला दूसरी तरह का है (प्रतिगमन) और पूर्व प्रकार (आकस्मिक तालिका) का नहीं, हालांकि दोनों इस बात से संबंधित हैं कि वे मापदंडों पर रैखिक प्रतिबंध हैं।
चूँकि आप अपने देखे गए मूल्यों के आधार पर अपेक्षित मूल्यों को मॉडल करते हैं, और आप ऐसा मॉडल करते हैं जिसमें दो पैरामीटर होते हैं, स्वतंत्रता की डिग्री में 'सामान्य' कमी दो से एक होती है (अतिरिक्त एक क्योंकि O_i को योग करने की आवश्यकता होती है कुल, जो एक और रैखिक प्रतिबंध है, और आप दो की कमी के साथ प्रभावी ढंग से समाप्त होते हैं, तीन के बजाय, मॉडल किए गए अपेक्षित मूल्यों की 'दक्षता' के कारण)।
ची-वर्ग परीक्षण एक का उपयोग करता है एक दूरी उपाय के रूप में व्यक्त करने के लिए कितने करीब एक परिणाम की उम्मीद डेटा है। ची-स्क्वायर परीक्षणों के कई संस्करणों में इस 'दूरी' का वितरण सामान्य वितरित चर में विचलन के योग से संबंधित है (जो केवल सीमा में सच है और एक अनुमान है यदि आप गैर-सामान्य वितरित डेटा के साथ सौदा करते हैं) ।χ2
मल्टीवेरिएट सामान्य वितरण के लिए घनत्व समारोह से संबंधित है χ2 से
f(x1,...,xk)=e−12χ2(2π)k|Σ|√
के साथ एक्स के सहसंयोजक मैट्रिक्स के निर्धारक|Σ|x
और है महालनोबिस दूरी जो अगर Euclidian दूरी को कम कर देता Σ = मैं ।χ2=(x−μ)TΣ−1(x−μ)Σ=I
उसकी 1900 लेख में पीयरसन ने तर्क दिया कि -levels spheroids कर रहे हैं और वह क्रम में इस तरह के रूप एक मूल्य के एकीकृत करने के लिए गोलाकार निर्देशांक को बदल सकता है कि पी ( χ 2 > एक )χ2P(χ2>a) । जो एकल अभिन्न हो जाता है।
यह यह ज्यामितीय प्रतिनिधित्व है, χ2 एक दूरी है और यह भी घनत्व समारोह में एक शब्द, कि कर सकते हैं स्वतंत्रता की डिग्री की कमी को समझने के लिए जब रैखिक प्रतिबंध मौजूद हैं मदद के रूप में।
सबसे पहले एक 2x2 आकस्मिक तालिका का मामला । आपको ध्यान देना चाहिए कि चार मान Oi−EiEi नहीं कर रहे हैं चार स्वतंत्र सामान्य वितरित चर। वे इसके बजाय एक दूसरे से संबंधित हैं और एक एकल चर के लिए उबलते हैं।
चलो तालिका का उपयोग करें
Oij=o11o21o12o22
फिर यदि अपेक्षित मान
Eij=e11e21e12e22
जहां तय तो स्वतंत्रता के चार डिग्री के साथ एक ची-वर्ग वितरण के रूप में वितरित किया जाएगा, लेकिन अक्सर हम अनुमानईमैंजेके आधार परओमैंjऔर विभिन्नता चार तरह नहीं स्वतंत्र चरों है। इसके बजाय हम पाते हैं किओऔरई केबीच सभी अंतरसमान हैं∑oij−eijeijeijoijoe
−−(o11−e11)(o22−e22)(o21−e21)(o12−e12)====o11−(o11+o12)(o11+o21)(o11+o12+o21+o22)
और वे प्रभावी रूप से चार के बजाय एक एकल चर हैं। ज्यामितीय रूप से आप इसे r 2 के रूप में देख सकते हैंχ2 मान के एक चार आयामी क्षेत्र पर नहीं बल्कि एक पंक्ति में एकीकृत है।
ध्यान दें कि यह आकस्मिक तालिका परीक्षण होसमेर-लेमेशो परीक्षण में आकस्मिक तालिका के लिए मामला नहीं है (यह एक अलग अशांति की परिकल्पना का उपयोग करता है!)। यह भी देखें अनुभाग 2.1 'मामला है जब और β _ जाना जाता है' Hosmer और Lemshow के लेख में। उनके मामले में आपको 2 जी -1 डिग्री की स्वतंत्रता मिलती है और जी -1 की स्वतंत्रता की डिग्री (आर -1) (सी -1) नियम के अनुसार नहीं। यह (आर 1) (सी -1) नियम विशेष रूप से है कि पंक्ति और स्तंभ चर स्वतंत्र हैं (जिस पर आर + सी -1 की कमी पैदा करता है शून्य परिकल्पना के लिए मामला है ओ मैं - ई मैंβ0β––oi−eiमान)। Hosmer-Lemeshow परीक्षण परिकल्पना से संबंधित है कि कोशिकाओं एक रसद प्रतिगमन मॉडल की संभावनाओं पर आधारित के अनुसार भर रहे हैं वितरणात्मक धारणा ए और के मामले में मानकों पी + 1 वितरणात्मक धारणा बी के मामले में मानकोंfourp+1
दूसरा एक प्रतिगमन का मामला। एक प्रतिगमन अंतर करने के लिए कुछ ऐसा ही आकस्मिकता तालिका के रूप में और विभिन्नता के आयामी स्वरूप कम करता है। वहाँ मूल्य के रूप में इस के लिए एक अच्छी ज्यामितीय प्रतिनिधित्व है y मैं एक मॉडल अवधि की राशि के रूप में प्रतिनिधित्व किया जा सकता है β x मैं और एक अवशिष्ट (नहीं त्रुटि) शर्तों ε मैं । ये मॉडल शब्द और अवशिष्ट शब्द प्रत्येक एक आयामी स्थान का प्रतिनिधित्व करते हैं जो एक दूसरे के लंबवत है। मतलब यह है कि अवशिष्ट मामले ε मैंo−eyiβxiϵiϵiकोई संभावित मूल्य नहीं ले सकता है! अर्थात् वे उस हिस्से से कम हो जाते हैं जो मॉडल पर प्रोजेक्ट करता है, और मॉडल में प्रत्येक पैरामीटर के लिए अधिक विशेष 1 आयाम है।
हो सकता है कि निम्नलिखित चित्र थोड़ा मदद कर सकते हैं
B(n=60,p=1/6,2/6,3/6)N(μ=n∗p,σ2=n∗p∗(1−p))χ2=1,2,6χ∫a0e−12χ2χd−1dχ in which this χd−1 part represents the area of the d-dimensional sphere. If we would limit the variables χ in some way than the integration would not be over a d-dimensional sphere but something of lower dimension.
The image below can be used to get an idea of the dimensional reduction in the residual terms. It explains the least squares fitting method in geometric term.
In blue you have measurements. In red you have what the model allows. The measurement is often not exactly equal to the model and has some deviation. You can regard this, geometrically, as the distance from the measured point to the red surface.
The red arrows mu1 and mu2 have values (1,1,1) and (0,1,2) and could be related to some linear model as x = a + b * z + error or
⎡⎣⎢x1x2x3⎤⎦⎥=a⎡⎣⎢111⎤⎦⎥+b⎡⎣⎢012⎤⎦⎥+⎡⎣⎢ϵ1ϵ2ϵ3⎤⎦⎥
so the span of those two vectors (1,1,1) and (0,1,2) (the red plane) are the values for x that are possible in the regression model and ϵ is a vector that is the difference between the observed value and the regression/modeled value. In the least squares method this vector is perpendicular (least distance is least sum of squares) to the red surface (and the modeled value is the projection of the observed value onto the red surface).
So this difference between observed and (modelled) expected is a sum of vectors that are perpendicular to the model vector (and this space has dimension of the total space minus the number of model vectors).
In our simple example case. The total dimension is 3. The model has 2 dimensions. And the error has a dimension 1 (so no matter which of those blue points you take, the green arrows show a single example, the error terms have always the same ratio, follow a single vector).
I hope this explanation helps. It is in no way a rigorous proof and there are some special algebraic tricks that need to be solved in these geometric representations. But anyway I like these two geometrical representations. The one for the trick of Pearson to integrate the χ2 by using the spherical coordinates, and the other for viewing the sum of least squares method as a projection onto a plane (or larger span).
I am always amazed how we end up with o−ee, this is in my point of view not trivial since the normal approximation of a binomial is not a devision by e but by np(1−p) and in the case of contingency tables you can work it out easily but in the case of the regression or other linear restrictions it does not work out so easily while the literature is often very easy in arguing that 'it works out the same for other linear restrictions'. (An interesting example of the problem. If you performe the following test multiple times 'throw 2 times 10 times a coin and only register the cases in which the sum is 10' then you do not get the typical chi-square distribution for this "simple" linear restriction)