एक विपरीत मैट्रिक्स क्या है?


46

क्या वास्तव में इसके विपरीत मैट्रिक्स (एक शब्द, स्पष्ट भविष्यवक्ताओं के साथ एक विश्लेषण से संबंधित) है और कैसे बिल्कुल विपरीत मैट्रिक्स निर्दिष्ट किया जाता है? यानी कॉलम क्या हैं, पंक्तियाँ क्या हैं, उस मैट्रिक्स पर क्या अड़चनें हैं और कॉलम jऔर रो में संख्या का क्या iमतलब है? मैंने डॉक्स और वेब में देखने की कोशिश की, लेकिन ऐसा लगता है कि हर कोई इसका उपयोग करता है फिर भी कहीं भी कोई चूक नहीं है। मैं उपलब्ध पूर्व-निर्धारित विरोधाभासों को बैकवर्ड-इंजीनियर कर सकता था, लेकिन मुझे लगता है कि परिभाषा इसके बिना उपलब्ध होनी चाहिए।

> contr.treatment(4)
  2 3 4
1 0 0 0
2 1 0 0
3 0 1 0
4 0 0 1
> contr.sum(4)
  [,1] [,2] [,3]
1    1    0    0
2    0    1    0
3    0    0    1
4   -1   -1   -1
> contr.helmert(4)
  [,1] [,2] [,3]
1   -1   -1   -1
2    1   -1   -1
3    0    2   -1
4    0    0    3
> contr.SAS(4)
  1 2 3
1 1 0 0
2 0 1 0
3 0 0 1
4 0 0 0

"कंट्रास्ट मैट्रिक्स" का उपयोग मॉडलिंग में श्रेणीबद्ध IV (कारकों) का प्रतिनिधित्व करने के लिए किया जाता है। विशेष रूप से, इसका उपयोग "विपरीत चर" (डमी चर केवल एक उदाहरण के रूप में) के एक सेट में एक कारक को फिर से करने के लिए किया जाता है। प्रत्येक प्रकार के कंट्रास्ट वैरिएबल की अपनी कंट्रास्ट मैट्रिक्स होती है। उदाहरण के लिए देखें मेरा अपना संबंधित प्रश्न , अभी तक उत्तर नहीं दिया गया है।
tnnphns

5
@ttnphns क्षमा करें, लेकिन आप वही करते रहते हैं जो सभी डॉक्स और वेब्स करते हैं: आप यह समझाते हैं कि कंट्रास्ट मैट्रिक्‍स किसके लिए उपयोग किए जाते हैं, इस सवाल के बिना कि कंट्रास्‍ट मैट्रिक्स क्‍या है। यह एक परिभाषा का उद्देश्य है ।
जिज्ञासु

3
बेशक यह संबंधित है, लेकिन "क्या यह" इसके लिए "क्या है" से व्युत्पन्न है, एक जासूस का काम है, जिसकी आवश्यकता नहीं होनी चाहिए। वह रिवर्स इंजीनियरिंग है। चीजों को प्रलेखित किया जाना चाहिए।
जिज्ञासु

2
ats.ucla.edu/stat/r/library/contrast_coding.htmR कोडिंग विधियों पर एक अच्छा- थकाऊ संसाधन है।
whuber

1
@ गंभीर, बस आपको बताने के लिए: मैंने ttnphns को 100 इनाम दिए, लेकिन मैं Gus_est को भी पुरस्कार देने के लिए एक और इनाम शुरू करूंगा (या किसी और से ऐसा करने के लिए कहूंगा)। मैंने अपना उत्तर भी लिखा है, बस अगर आप एक छोटा होना पसंद करते हैं :-)
अमीबा का कहना है कि मोनिका

जवाबों:


31

उनके अच्छे उत्तर में, @Gus_est, ने विपरीत गुणांक मैट्रिक्स L के सार का गणितीय विश्लेषण किया (वहां C लिखा है )। अविभाजित सामान्य रेखीय मॉडलिंग (जहां मानदंड हैं और एक शून्य परिकल्पना का प्रतिनिधित्व करने वाले कार्य हैं) में परिकल्पना का परीक्षण करने का मूल सूत्र है , और यह उत्तर आधुनिक ANOVA कार्यक्रमों में उपयोग किए गए कुछ सूत्र दिखाता है।बी केLb=kbk

मेरे जवाब को बहुत अलग तरीके से स्टाइल किया गया है। यह एक डेटा विश्लेषक के लिए है जो खुद को "गणितज्ञ" के बजाय "इंजीनियर" देखता है, इसलिए इसका उत्तर एक (सतही) "व्यावहारिक" या "सिद्धांतवादी" खाता होगा और केवल विषयों का जवाब देने पर ध्यान केंद्रित करेगा (1) क्या करते हैं विपरीत गुणांक का मतलब है और (2) वे रेखीय प्रतिगमन कार्यक्रम के माध्यम से एनोवा प्रदर्शन करने में कैसे मदद कर सकते हैं ।

डमी चर के साथ प्रतिगमन के रूप में एनोवा: विरोधाभासों का परिचय

हमें निर्भर चर Y और श्रेणीगत कारक A वाले 3 स्तर (समूह) वाले ANOVA की कल्पना करें । आइए हम रेखीय प्रतिगमन बिंदु से एनोवा को देखते हैं, वह है - कारक को डमी (उर्फ इंडिकेटर उर्फ ट्रीटमेंट उर्फ वन-हॉट ) बाइनरी चर के सेट में बदलकर । यह हमारा स्वतंत्र सेट X है । (शायद हर किसी ने सुना है कि एनोवा को इस तरह से करना संभव है - डमी भविष्यवाणी के साथ रैखिक प्रतिगमन के रूप में)।

चूंकि तीन समूहों में से एक निरर्थक है, केवल दो डमी चर रैखिक मॉडल में प्रवेश करेंगे। आइए Group3 को निरर्थक या संदर्भ के रूप में नियुक्त करें। डमी प्रेडिक्टर्स एक्स का गठन विपरीत चर का एक उदाहरण है , अर्थात एक कारक की श्रेणियों का प्रतिनिधित्व करने वाले प्राथमिक चर। एक्स को ही अक्सर डिज़ाइन मैट्रिक्स कहा जाता है। अब हम कई रैखिक रिग्रेशन प्रोग्राम में डेटासेट को इनपुट कर सकते हैं जो डेटा को सेंटर करेगा और रिग्रेशन गुणांक (पैरामीटर) , जहां " + "pseudoinverse को नामित करता है।b=(XX)1Xy=X+y

समतुल्य पास सेंटिंग करने के लिए नहीं होगा, बल्कि X में 1 s के पहले कॉलम के रूप में मॉडल की निरंतर अवधि को जोड़ना होगा , फिर गुणांक का अनुमान उसी तरह लगाना चाहिए जैसे कि । अब तक सब ठीक है।b=(XX)1Xy=X+y

आइए हम मैट्रिक्स सी को स्वतंत्र चर डिजाइन मैट्रिक्स एक्स के एकत्रीकरण (संक्षेप) के रूप में परिभाषित करें । यह बस हमें कोडिंग स्कीम शो मनाया वहाँ, - इसके विपरीत कोडिंग मैट्रिक्स (= आधार मैट्रिक्स): ।C=aggrX

C
              Const  A1    A2
Gr1 (A=1)       1     1     0
Gr2 (A=2)       1     0     1
Gr3 (A=3,ref)   1     0     0

बृहदान्त्र एक्स के चर (कॉलम) हैं - प्राथमिक विपरीत चर A1 A2, इस उदाहरण में डमी, और पंक्तियाँ कारक के सभी समूह / स्तर हैं। तो संकेतक या डमी कंट्रास्ट कोडिंग योजना के लिए हमारी कोडिंग मैट्रिक्स सी थी।

अब, को कॉन्ट्रास्ट गुणांक मैट्रिक्स या L- मैट्रिक्स कहा जाता है । चूंकि C वर्ग है, इसलिए । इसके विपरीत मैट्रिक्स, हमारे लिए इसी सी - के लिए है कि सूचक हमारे उदाहरण के विरोधाभासों - इसलिए है:एल = सी + = सी - 1C+=LL=C+=C1

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const      0     0     1            => Const = Mean_Gr3
A1         1     0    -1            => Param1 = Mean_Gr1-Mean_Gr3
A2         0     1    -1            => Param2 = Mean_Gr2-Mean_Gr3

L- मैट्रिक्स विपरीत गुणांक दिखाने वाला मैट्रिक्स है । ध्यान दें कि हर पंक्ति में (पंक्ति निरंतर को छोड़कर) विपरीत गुणांक का योग । ऐसी हर पंक्ति को कंट्रास्ट कहा जाता है । पंक्तियों के विपरीत चर और कॉलम समूहों, कारक स्तरों के अनुरूप हैं।0

कॉन्ट्रास्ट गुणांक का महत्व यह है कि वे यह समझने में मदद करते हैं कि प्रत्येक प्रभाव ( हमारे एक्स के साथ प्रतिगमन में अनुमानित प्रत्येक पैरामीटर बी , कोडित है) अंतर के अर्थ में प्रतिनिधित्व करता है (समूह की तुलना)। हम तुरंत गुणांक का अनुसरण करते हुए देखते हैं कि अनुमानित कॉन्स्टेंट संदर्भ समूह में वाई माध्य के बराबर होगा; वह पैरामीटर b1 (यानी डमी वैरिएबल A1) अंतर के बराबर होगा: Y का मतलब ग्रुप 1 माइनस Y का मतलब है group3; और पैरामीटर b2 अंतर है: समूह 2 में माध्य का मतलब है group3 में।

नोट : कहने का अर्थ है "ठीक ऊपर (और आगे नीचे) हमारा मतलब है एक समूह के लिए अनुमानित (मॉडल द्वारा अनुमानित ), एक समूह में मनाया गया मतलब नहीं है।

एक शिक्षाप्रद टिप्पणी : जब हम द्विआधारी भविष्यवाणियों चर द्वारा एक प्रतिगमन करते हैं , तो इस तरह के एक चर का पैरामीटर चर 1 और चर = 0 समूहों के बीच वाई में अंतर के बारे में कहता है। हालांकि, उस स्थिति में जब द्विआधारी चर एक- फैक्टर कारक का प्रतिनिधित्व करने वाले k-1 डमी चर का सेट kहोता है, पैरामीटर का अर्थ संकीर्ण हो जाता है : यह चर = 1 और (न केवल चर = 0 लेकिन यहां तक ​​कि) संदर्भ के बीच वाई में अंतर दिखाता है = 1 समूह।

जैसे (द्वारा गुणा करने के बाद ) हमें b के मान लाता है , उसी तरह का अर्थ b लाता है । वाई ( एक जी जी आर एक्स ) +X+y(aggrX)+

ठीक है, हमने इसके विपरीत गुणांक मैट्रिक्स एल की परिभाषा दी है । चूंकि , सममित रूप से , जिसका अर्थ है कि यदि आपको दिया गया है या एक विपरीत मैट्रिक्स L का निर्माण किया है जो श्रेणीबद्ध कारकों पर आधारित है (s) - आपके विश्लेषण में उस L का परीक्षण करने के लिए , तो आपके पास एक सामान्य प्रतिगमन सॉफ़्टवेयर के माध्यम से L का परीक्षण करने के क्रम में अपने कंट्रास्ट प्रेडिक्टर वेरिएबल्स X को सही तरीके से कोड करने के लिए सुराग है (यानी एक प्रोसेसिंग केवल "निरंतर" मानक OLS चर करता है) तरीका, और स्पष्ट कारकों को बिल्कुल नहीं पहचानना)। हमारे वर्तमान उदाहरण में कोडिंग था - संकेतक (डमी) प्रकार चर। सी = एल + = एल - L=C+=C1C=L+=L1

प्रतिगमन के रूप में एनोवा: अन्य विपरीत प्रकार

आइए हम एक स्पष्ट कारक A के लिए अन्य विपरीत प्रकारों (= कोडिंग स्कीम, = पैरामीटराइज़ेशन स्टाइल) का संक्षेप में निरीक्षण करें ।

विचलन या प्रभाव विरोधाभाससी और एल matrices और पैरामीटर अर्थ:

C
              Const  A1    A2
Gr1 (A=1)       1     1     0
Gr2 (A=2)       1     0     1
Gr3 (A=3,ref)   1    -1    -1

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3      => Const = 1/3Mean_Gr3+1/3Mean_Gr2+1/3Mean_Gr3 = Mean_GU
A1        2/3  -1/3  -1/3      => Param1 = 2/3Mean_Gr1-1/3(Mean_Gr2+Mean_Gr3) = Mean_Gr1-Mean_GU
A2       -1/3   2/3  -1/3      => Param2 = 2/3Mean_Gr2-1/3(Mean_Gr1+Mean_Gr3) = Mean_Gr2-Mean_GU

                                  Parameter for the reference group3 = -(Param1+Param2) = Mean_Gr3-Mean_GU

                                  Mean_GU is grand unweighted mean = 1/3(Mean_Gr1+Mean_Gr2+Mean_Gr3)

विचलन कोडिंग के द्वारा, कारक के प्रत्येक समूह की तुलना अचूक भव्य माध्य के साथ की जा रही है, जबकि कॉन्स्टेंट वह भव्य माध्य है। यह क्या आप इसके विपरीत भविष्यवक्ताओं के साथ प्रतिगमन में मिलता है एक्स विचलन या प्रभाव "तरीके से" में कोडित।

सरल विरोधाभास । यह विरोधाभास / कोडिंग योजना संकेतक और विचलन प्रकारों का एक संकर है, यह लगातार प्रकार में विचलन का अर्थ देता है और संकेतक प्रकार में अन्य मापदंडों का अर्थ:

C
              Const  A1    A2
Gr1 (A=1)       1   2/3  -1/3
Gr2 (A=2)       1  -1/3   2/3
Gr3 (A=3,ref)   1  -1/3  -1/3

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = as in Deviation
A1         1     0    -1         => Param1 = as in Indicator
A2         0     1    -1         => Param2 = as in Indicator

हेल्मर कंट्रास्ट । प्रत्येक समूह की तुलना (संदर्भ को छोड़कर) बाद के समूहों के अनवीट किए गए माध्य से की जाती है, और कॉन्स्टैंट अनवैलिड ग्रैंड माध्य है। सी और एल matrces:

C
              Const  A1    A2
Gr1 (A=1)       1   2/3    0
Gr2 (A=2)       1  -1/3   1/2
Gr3 (A=3,ref)   1  -1/3  -1/2

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = Mean_GU
A1         1   -1/2  -1/2        => Param1 = Mean_Gr1-1/2(Mean_Gr2+Mean_Gr3)
A2         0     1    -1         => Param2 = Mean_Gr2-Mean_Gr3

अंतर या हेल्मर्ट विरोधाभासों । प्रत्येक समूह (संदर्भ को छोड़कर) की तुलना पिछले समूहों के अनवीट किए गए माध्य से की जाती है, और कॉन्स्टैंट अनवैलिड ग्रैंड माध्य है।

C
              Const  A1    A2
Gr1 (A=1)       1  -1/2  -1/3
Gr2 (A=2)       1   1/2  -1/3
Gr3 (A=3,ref)   1    0    2/3

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = Mean_GU
A1        -1     1     0         => Param1 = Mean_Gr2-Mean_Gr1
A2       -1/2  -1/2    1         => Param2 = Mean_Gr3-1/2(Mean_Gr2+Mean_Gr1)

बार-बार विरोधाभास । अगले समूह के साथ प्रत्येक समूह (संदर्भ को छोड़कर) की तुलना करता है, और कॉन्स्टेंट अनवैलिड ग्रैंड माध्य है।

C
              Const  A1    A2
Gr1 (A=1)       1   2/3   1/3
Gr2 (A=2)       1  -1/3   1/3
Gr3 (A=3,ref)   1  -1/3  -2/3

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = Mean_GU
A1         1    -1     0         => Param1 = Mean_Gr1-Mean_Gr2
A2         0     1    -1         => Param2 = Mean_Gr2-Mean_Gr3

सवाल पूछता है: how exactly is contrast matrix specified?अब तक उल्लिखित विरोधाभासों के प्रकारों को देखते हुए, यह समझ पाना संभव है कि कैसे। प्रत्येक प्रकार के तर्क हैं कि एल में मूल्यों को "कैसे" भरना है । तर्क यह दर्शाता है कि प्रत्येक पैरामीटर का क्या अर्थ है - उन समूहों के दो संयोजन क्या हैं जिनकी तुलना करने की योजना है।

बहुपद विरोधाभास । ये थोड़े खास, नॉनलाइनर हैं। पहला प्रभाव एक रेखीय है, दूसरा द्विघात है, अगला घन है। मैं यहां यह सवाल छोड़ रहा हूं कि उनके सी और एल मैट्रिस का निर्माण कैसे किया जाना चाहिए और यदि वे एक-दूसरे के विलोम हैं। कृपया इस प्रकार के कंट्रास्ट: 1 , 2 के गहन @Antoni Parellada के स्पष्टीकरण के साथ परामर्श करें ।

संतुलित डिजाइनों में, हेल्मर्ट, रिवर्स हेल्मर्ट, और बहुपद विरोधाभास हमेशा ओर्थोगोनल विपरीत होते हैं । अन्य प्रकारों को ऊपर माना गया है, यह ऑर्थोगोनल विरोधाभास नहीं हैं। ऑर्थोगोनल (संतुलित के तहत) वह कंट्रास्ट है जहां कंट्रास्ट मैट्रिक्स L योग में प्रत्येक पंक्ति में (कांस्ट को छोड़कर) शून्य है और प्रत्येक जोड़ी पंक्तियों के संबंधित तत्वों के उत्पादों का योग शून्य है।

यहाँ विभिन्न समानता प्रकारों के तहत कोण समानता के उपाय (कोसाइन और पियर्सन सहसंबंध) हैं, बहुपद को छोड़कर जो मैंने परीक्षण नहीं किया। हमारे पास kस्तरों के साथ एकल कारक ए है, और फिर इसे k-1एक विशिष्ट प्रकार के कंट्रास्ट चर के सेट में पुन: लोड किया गया । इन विपरीत चर के बीच सहसंबंध या कोसाइन मैट्रिक्स में क्या मूल्य हैं?

                     Balanced (equal size) groups     Unbalanced groups
Contrast type             cos        corr              cos        corr

INDICATOR                  0       -1/(k-1)             0         varied
DEVIATION                 .5          .5              varied      varied
SIMPLE                 -1/(k-1)    -1/(k-1)           varied      varied
HELMERT, REVHELMERT        0           0              varied      varied
REPEATED                varied   =  varied            varied      varied

   "=" means the two matrices are same while elements in matrix vary

मैं जानकारी के लिए तालिका दे रहा हूं और इसे अधूरा छोड़ रहा हूं। सामान्य रेखीय मॉडलिंग में गहरी नज़र के लिए यह कुछ महत्व का है।

उपयोगकर्ता-परिभाषित विरोधाभास । यह वह है जो हम एक कस्टम तुलना परिकल्पना का परीक्षण करने के लिए रचना करते हैं। आम तौर पर हर राशि में, लेकिन L की पहली पंक्ति 0 होनी चाहिए जिसका अर्थ है कि उस पंक्ति में दो समूहों या समूहों की दो रचनाओं की तुलना की जा रही है (अर्थात उस पैरामीटर द्वारा)।

मॉडल के पैरामीटर आखिर कहां हैं ?

क्या वे L की पंक्तियाँ या स्तंभ हैं ? ऊपर के पाठ के दौरान मैं कह रहा था कि पैरामीटर L की पंक्तियों के अनुरूप हैं , क्योंकि पंक्तियाँ विपरीत-चर, भविष्यवाणियों का प्रतिनिधित्व करती हैं। जबकि स्तंभ एक कारक के स्तर हैं, समूह। यह इस तरह के साथ विरोधाभास में गिर सकता है, उदाहरण के लिए, @Gus_est उत्तर से सैद्धांतिक ब्लॉक, जहां स्पष्ट रूप से कॉलम मापदंडों के अनुरूप हैं:

H0:[011000011000011][β0β1β2β3β4]=[000]

वास्तव में, कोई विरोधाभास नहीं है और "समस्या" का उत्तर है: मापदंडों के विपरीत गुणांक मैट्रिक्स की पंक्तियाँ और स्तंभ दोनों! बस याद रखें कि विरोधाभासों (कंट्रास्ट वैरिएबल), पंक्तियों को शुरू में कारक स्तरों के अलावा और कुछ का प्रतिनिधित्व करने के लिए नहीं बनाया गया था: वे छोड़े गए संदर्भ को छोड़कर स्तर हैं। सरल कंट्रास्ट के लिए L- मैट्रिक्स की इन दो बराबर वर्तनी की तुलना करें :

L
          Gr1   Gr2   Gr3
          A=1   A=2   A=3(reference)
Const     1/3   1/3   1/3 
A1         1     0    -1  
A2         0     1    -1   

L
            b0    b1    b2    b3(redundant)
           Const  A=1   A=2   A=3(reference)
b0  Const   1    1/3   1/3   1/3 
b1  A1      0     1     0    -1  
b2  A2      0     0     1    -1   

पहला वह है जो मैंने पहले दिखाया है, दूसरा "सैद्धांतिक" (सामान्य रैखिक मॉडल बीजगणित के लिए) लेआउट है। बस, लगातार शब्द के साथ एक कॉलम जोड़ा गया था। पैरामीटर गुणांक b , पंक्तियों और स्तंभों को लेबल करता है। पैरामीटर b3, निरर्थक के रूप में, शून्य पर सेट किया जाएगा। कोडिंग मैट्रिक्स C प्राप्त करने के लिए आप दूसरे लेआउट को छद्म कर सकते हैं , जहां नीचे-दाएं भाग में अंदर आपको विपरीत चर A1 और A2 के लिए सही कोड मिलेंगे। यह वर्णित किसी भी विपरीत प्रकार के लिए होगा (संकेतक प्रकार को छोड़कर - जहां इस तरह के आयताकार लेआउट का छद्म बिंदु सही परिणाम नहीं देगा; शायद यही कारण है कि सुविधा के लिए सरल विपरीत प्रकार का आविष्कार किया गया था: विपरीत गुणांक संकेतक प्रकार के समान है, लेकिन इसके लिए पंक्ति निरंतर)।

विपरीत प्रकार और एनोवा तालिका के परिणाम

ANOVA तालिका संयुक्त (कुल) के रूप में प्रभाव दिखाती है - उदाहरण के लिए कारक A का मुख्य प्रभाव , जबकि इसके विपरीत चर, A1, A2 और (छोड़ा, संदर्भ) A3 के प्राथमिक प्रभावों के अनुरूप हैं। प्राथमिक शब्दों के लिए पैरामीटर का अनुमान चयनित कंट्रास्ट के प्रकार पर निर्भर करता है, लेकिन संयुक्त परिणाम - इसका मतलब वर्ग और महत्व स्तर - समान है, जो भी प्रकार है। ओम्निबस एनोवा (कहते हैं, एक तरफ़ा) शून्य परिकल्पना है कि ए के सभी तीन साधन समान हैं, समान संख्या में बयान दिए जा सकते हैं, और प्रत्येक एक विशिष्ट विपरीत प्रकार के अनुरूप होगा: = दोहराया प्रकार; = प्रकार; (μ1=μ2,μ2=μ3)(μ1=μ23,μ2=μ3)(μ1=μ123,μ2=μ123)= विचलन प्रकार; = सूचक या सरल प्रकार।(μ1=μ3,μ2=μ3)

सामान्य रैखिक मॉडल प्रतिमान के माध्यम से कार्यान्वित एनोवा कार्यक्रम दोनों एनोवा तालिका (संयुक्त प्रभाव: मुख्य, इंटरैक्शन) और पैरामीटर अनुमान तालिका (प्रारंभिक प्रभाव बी ) दोनों को प्रदर्शित कर सकते हैं । कुछ कार्यक्रम उपयोगकर्ता द्वारा बोली के रूप में विपरीत तालिका प्रकार के बाद वाले पत्राचार का उत्पादन कर सकते हैं, लेकिन अधिकांश आउटपुट हमेशा एक प्रकार के अनुरूप होंगे - अक्सर, संकेतक प्रकार, क्योंकि सामान्य रेखीय मॉडल पर आधारित एनोवा कार्यक्रम विशेष रूप से डमी चर (सबसे सुविधाजनक) का मानकीकरण करते हैं करने के लिए) और फिर विशेष "लिंकिंग" फ़ार्मुलों द्वारा विरोधाभासों के लिए स्विच करें एक (मनमाना) इसके विपरीत डमी इनपुट की व्याख्या।

जबकि मेरे जवाब में - एनोवा को प्रतिगमन के रूप में दिखाते हुए - "लिंक" को इनपुट एक्स के स्तर के रूप में जल्दी महसूस किया जाता है, जिसे डेटा के लिए विनियोग कोडिंग स्कीमा की धारणा को पेश करने के लिए कहा जाता है ।

सामान्य प्रतिगमन के माध्यम से एनोवा विरोधाभासों के परीक्षण को दिखाने वाले कुछ उदाहरण

एसपीएसएस में अनुरोध एनोवा में एक विपरीत प्रकार का दिखा रहा है और रैखिक प्रतिगमन के माध्यम से एक ही परिणाम प्राप्त कर रहा है। हमारे पास Y और कारक A (3 स्तर, संदर्भ = अंतिम) और B (4 स्तर, संदर्भ = अंतिम) के साथ कुछ डेटासेट हैं ; नीचे दिए गए डेटा को बाद में खोजें।

पूर्ण तथ्यात्मक मॉडल (ए, बी, ए * बी) के तहत विचलन विरोधाभासों का उदाहरण है। ए और बी दोनों के लिए अनुरोध किए गए विचलन प्रकार (हम आपकी जानकारी के लिए प्रत्येक कारक के लिए अलग प्रकार की मांग कर सकते हैं)।

A और B के लिए विपरीत गुणांक मैट्रिक्स L :

            A=1      A=2      A=3
Const     .3333    .3333    .3333 
dev_a1    .6667   -.3333   -.3333
dev_a2   -.3333    .6667   -.3333

            B=1      B=2      B=3      B=4
Const     .2500    .2500    .2500    .2500
dev_b1    .7500   -.2500   -.2500   -.2500 
dev_b2   -.2500    .7500   -.2500   -.2500 
dev_b3   -.2500   -.2500    .7500   -.2500

GLMविचलन का विश्लेषण करने और विचलन विरोधाभासों के लिए स्पष्ट परिणाम के उत्पादन के लिए एनोवा कार्यक्रम ( एसपीएसएस में) का अनुरोध करें :

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

विचलन विपरीत प्रकार की तुलना ए = 1 बनाम ग्रैंड अनवीटेड मीन और ए = 2 के साथ की गई है। लाल दीर्घवृत्त अंतर अनुमान और उनके पी-मूल्यों को स्याही करते हैं। कारक A पर संयुक्त प्रभाव लाल आयत द्वारा अंकित किया गया है। फैक्टर बी के लिए, प्रत्येक को नीले रंग में समान रूप से स्याही किया जाता है। ANOVA तालिका भी प्रदर्शित करना। वहाँ ध्यान दें कि संयुक्त विपरीत प्रभाव इसमें मुख्य प्रभावों के बराबर है।

यहाँ छवि विवरण दर्ज करें

आइए अब हम भौतिक रूप से कंट्रास्ट वैरिएबल dev_a1, dev_a2, dev_b1, dev_b2, dev_b3 और रन रिग्रेशन बनाते हैं। कोडिंग सी मैट्रिसेस प्राप्त करने के लिए L -matrices को पलटें :

      dev_a1   dev_a2
A=1   1.0000    .0000 
A=2    .0000   1.0000 
A=3  -1.0000  -1.0000

      dev_b1   dev_b2   dev_b3
B=1   1.0000    .0000    .0000 
B=2    .0000   1.0000    .0000 
B=3    .0000    .0000   1.0000 
B=4  -1.0000  -1.0000  -1.0000

उन (कॉन्सटेंट) के कॉलम को छोड़ दिया गया है: क्योंकि हम नियमित रिग्रेशन प्रोग्राम (जो आंतरिक रूप से केंद्रों के चर का उपयोग करते हैं, और विलक्षणता के प्रति भी असहिष्णु हैं) का उपयोग करना होगा। अब डेटा एक्स बनाएँ : वास्तव में इन मूल्यों में कारकों की कोई मैनुअल रीकोडिंग की आवश्यकता नहीं है, एक-स्ट्रोक समाधान , जहां संकेतक (डमी) चर है, सभी कॉलम ( स्तरों की संख्या है) एक कारक में)।डीX=DCDkk

कॉन्ट्रास्ट वैरिएबल बनाए जाने के बाद, विभिन्न कारकों में से उन लोगों के बीच गुणा करें, जिनसे बातचीत का प्रतिनिधित्व करने के लिए वैरिएबल प्राप्त किया जा सके (हमारा ANOVA मॉडल पूर्ण फैक्टरियल था): dev_a1b1, dev_a1b2, dev_a1b3, dev_a2b1, dev_a2b2, dev_a2b3। फिर सभी भविष्यवक्ताओं के साथ कई रैखिक प्रतिगमन चलाएं।

यहाँ छवि विवरण दर्ज करें

जैसा कि अपेक्षित था, dev_a1 उतना ही प्रभावी है जितना कि इसके विपरीत "स्तर 1 बनाम मीन" था; dev_a2 "लेवल 2 बनाम मीन", इत्यादि के समान है, - ऊपर दिए गए ANOVA विश्लेषण के साथ स्याही वाले भागों की तुलना करें।

ध्यान दें कि यदि हम इंटरैक्शन वैरिएबल dev_a1b1, dev_a1b2 ... का उपयोग नहीं कर रहे हैं, तो प्रतिगमन में परिणाम मुख्य-प्रभाव-केवल ANOVA विपरीत विश्लेषण के परिणामों के साथ मेल खाएंगे।

समान पूर्ण तथ्यात्मक मॉडल (ए, बी, ए * बी) के तहत सरल विरोधाभास।

A और B के लिए विपरीत गुणांक मैट्रिक्स L :

            A=1      A=2      A=3
Const     .3333    .3333    .3333 
sim_a1   1.0000    .0000  -1.0000
sim_a2    .0000   1.0000  -1.0000

            B=1      B=2      B=3      B=4
Const     .2500    .2500    .2500    .2500
sim_b1   1.0000    .0000    .0000  -1.0000
sim_b2    .0000   1.0000    .0000  -1.0000
sim_b3    .0000    .0000   1.0000  -1.0000

सरल विरोधाभासों के लिए एनोवा परिणाम:

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

समग्र परिणाम (ANOVA तालिका) विचलन विरोधाभासों (अब प्रदर्शित नहीं) के समान है।

भौतिक रूप से विपरीत चर sim_a1, sim_a2, sim_b1, sim_b2, sim_b3 बनाएँ। L-matrices के इनवर्टिंग द्वारा कोडिंग मैट्रिसेस हैं (w / o कास्ट कॉलम):

      sim_a1   sim_a2
A=1    .6667   -.3333
A=2   -.3333    .6667
A=3   -.3333   -.3333

      sim_b1   sim_b2   sim_b3
B=1    .7500   -.2500   -.2500
B=2   -.2500    .7500   -.2500
B=3   -.2500   -.2500    .7500
B=4   -.2500   -.2500   -.2500

X=DC

यहाँ छवि विवरण दर्ज करें

पहले की तरह, हम देखते हैं कि प्रतिगमन और एनोवा के परिणाम मेल खाते हैं। एक साधारण विपरीत चर का एक प्रतिगमन पैरामीटर कारक के उस स्तर और संदर्भ (अंतिम, हमारे उदाहरण में) के स्तर के बीच अंतर (और इसका महत्व परीक्षण) है।

उदाहरणों में प्रयुक्त दो-कारक डेटा:

     Y      A      B
 .2260      1      1
 .6836      1      1
-1.772      1      1
-.5085      1      1
1.1836      1      2
 .5633      1      2
 .8709      1      2
 .2858      1      2
 .4057      1      2
-1.156      1      3
1.5199      1      3
-.1388      1      3
 .4865      1      3
-.7653      1      3
 .3418      1      4
-1.273      1      4
1.4042      1      4
-.1622      2      1
 .3347      2      1
-.4576      2      1
 .7585      2      1
 .4084      2      2
1.4165      2      2
-.5138      2      2
 .9725      2      2
 .2373      2      2
-1.562      2      2
1.3985      2      3
 .0397      2      3
-.4689      2      3
-1.499      2      3
-.7654      2      3
 .1442      2      3
-1.404      2      3
-.2201      2      4
-1.166      2      4
 .7282      2      4
 .9524      2      4
-1.462      2      4
-.3478      3      1
 .5679      3      1
 .5608      3      2
1.0338      3      2
-1.161      3      2
-.1037      3      3
2.0470      3      3
2.3613      3      3
 .1222      3      4

उपयोगकर्ता परिभाषित विपरीत उदाहरण। हमें 5 स्तरों के साथ एकल कारक एफ है। मैं ANOVA और प्रतिगमन में कस्टम ऑर्थोगोनल विरोधाभासों के एक सेट का निर्माण और परीक्षण करूंगा।

यहाँ छवि विवरण दर्ज करें

LL

हमें विरोधाभासों का परीक्षण करने के लिए मैट्रिक्स को SPSS 'एनोवा प्रक्रिया में जमा करें। खैर, हम मैट्रिक्स से किसी एक पंक्ति (कंट्रास्ट) को भी जमा कर सकते हैं, लेकिन हम पूरे मैट्रिक्स को सबमिट करेंगे क्योंकि - पिछले उदाहरणों में - हम प्रतिगमन के माध्यम से समान परिणाम प्राप्त करना चाहेंगे, और प्रतिगमन कार्यक्रम को पूरा करने की आवश्यकता होगी विपरीत चर का सेट (जागरूक होने के लिए कि वे एक कारक से एक साथ हैं!)। हम L को निरंतर पंक्ति जोड़ेंगे, जैसा कि हमने पहले किया था, हालाँकि यदि हमें उस अवरोधक के परीक्षण की आवश्यकता नहीं है जिसे हम सुरक्षित रूप से छोड़ सकते हैं।

UNIANOVA Y BY F
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /CONTRAST (F)= special
       (.2 .2 .2 .2 .2
         3  3 -2 -2 -2
         1 -1  0  0  0
         0  0  2 -1 -1
         0  0  0  1 -1)
  /DESIGN=F.

Equivalently, we might also use this syntax (with a more flexible /LMATRIX subcommand)
if we omit the Constant row from the matrix.
UNIANOVA Y BY F
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /LMATRIX= "User contrasts"
       F  3  3 -2 -2 -2;
       F  1 -1  0  0  0;
       F  0  0  2 -1 -1;
       F  0  0  0  1 -1
  /DESIGN=F.

यहाँ छवि विवरण दर्ज करें

समग्र विपरीत प्रभाव (तस्वीर के तल में) अपेक्षित समग्र एनोवा प्रभाव के समान नहीं है:

यहाँ छवि विवरण दर्ज करें

लेकिन यह बस एल मैट्रिक्स में हमारे लगातार डालने का शब्द है। उपयोगकर्ता द्वारा परिभाषित विरोधाभासों के निर्दिष्ट होने पर, SPSS पहले से ही निरंतर है। L से निरंतर पंक्ति निकालें और हमें समान विरोधाभास परिणाम मिलेंगे (ऊपर चित्र पर मैट्रिक्स K), सिवाय इसके कि L0 विपरीत प्रदर्शित नहीं किया जाएगा। और समग्र विपरीत प्रभाव समग्र एनोवा से मेल खाएगा:

यहाँ छवि विवरण दर्ज करें

C=L+X=DC

C
      use_f1   use_f2   use_f3   use_f4
F=1    .1000    .5000    .0000    .0000
F=2    .1000   -.5000    .0000    .0000
F=3   -.0667    .0000    .3333    .0000
F=4   -.0667    .0000   -.1667    .5000
F=5   -.0667    .0000   -.1667   -.5000

यहाँ छवि विवरण दर्ज करें

परिणामों की पहचान पर गौर करें। इस उदाहरण में प्रयुक्त डेटा:

     Y      F
 .2260      1
 .6836      1
-1.772      1
-.5085      1
1.1836      1
 .5633      1
 .8709      1
 .2858      1
 .4057      1
-1.156      1
1.5199      2
-.1388      2
 .4865      2
-.7653      2
 .3418      2
-1.273      2
1.4042      2
-.1622      3
 .3347      3
-.4576      3
 .7585      3
 .4084      3
1.4165      3
-.5138      3
 .9725      3
 .2373      3
-1.562      3
1.3985      3
 .0397      4
-.4689      4
-1.499      4
-.7654      4
 .1442      4
-1.404      4
-.2201      4
-1.166      4
 .7282      4
 .9524      5
-1.462      5
-.3478      5
 .5679      5
 .5608      5
1.0338      5
-1.161      5
-.1037      5
2.0470      5
2.3613      5
 .1222      5

(एम) एनोवा विश्लेषण के अलावा अन्य में विरोधाभास

जहाँ भी नाममात्र के भविष्यवक्ता दिखाई देते हैं, इसके विपरीत (कौन सा विपरीत प्रकार जिसके लिए भविष्यवक्ता का चयन करें) सवाल उठता है। कुछ कार्यक्रम आंतरिक रूप से दृश्य के पीछे हल करते हैं जब समग्र, सर्वग्राही परिणाम चयनित प्रकार पर निर्भर नहीं होंगे। यदि आप अधिक विशिष्ट "प्रारंभिक" परिणाम देखना चाहते हैं, तो आपको चयन करना होगा। जब आप किसी कस्टम तुलना परिकल्पना का परीक्षण कर रहे होते हैं, तो आप एक कॉन्ट्रास्ट का चयन (या, बल्कि, रचना) भी करते हैं।

(एम) एनोवा और लॉगलाइनियर विश्लेषण, मिश्रित और कभी-कभी सामान्यीकृत रैखिक मॉडलिंग में विभिन्न प्रकार के विरोधाभासों के माध्यम से भविष्यवाणियों का इलाज करने के विकल्प शामिल हैं। लेकिन जैसा कि मैंने दिखाने की कोशिश की है, इसके विपरीत कंट्रास्ट चर को स्पष्ट रूप से और हाथ से बनाना संभव है। फिर, यदि आपके पास हाथ में एनोवा पैकेज नहीं है, तो आप ऐसा कर सकते हैं - कई मामलों में सौभाग्य के साथ - कई प्रतिगमन के साथ।


1
कृपया यदि संभव हो तो इस जवाब को केवल एनोवा तक सीमित न रखें। [Aova] टैग को @amoeba द्वारा उस समय जोड़ा गया जब आपने मेरे प्रश्न का उत्तर दिया था, लेकिन मैं नहीं चाहता कि उत्तर को केवल anova तक ही सीमित रखा जाए।
जिज्ञासु

CLCL

@amoeba, मैं "कंट्रास्ट मैट्रिक्स" से परिचित नहीं हूँ और लगभग यह सुनिश्चित करता है कि यह "कॉन्ट्रास्ट गुणांक मैट्रिक्स" या L- मैट्रिक्स के लिए खड़ा हो, जो कि (M) ANOVA / GLM में एक आधिकारिक या कम से कम व्यापक प्रसार अवधि हो। "कंट्रास्ट कोडिंग मैट्रिक्स" शब्द बहुत कम उल्लेख किया गया है क्योंकि यह केवल डिज़ाइन मैट्रिक्स एक्स के aggrigated दृश्य है; मैंने "आधार मैट्रिक्स" शब्द को एक एसपीएसएस के वरिष्ठ सांख्यिकीविद डेव निकोल्स के पत्रों में इस्तेमाल किया है। बिल्कुल, एल (आधिकारिक लेबल) और सी (मनमाने ढंग से लेबल?) मैट्रिसेस इतनी बारीकी से संबंधित हैं कि एक दूसरे पर शायद ही कोई चर्चा कर सकता है। मुझे लगता है कि "कंट्रास्ट मैट्रिक्स" को इस जोड़ी के रूप में माना जाना चाहिए।
ttnphns

1
हाँ मैं सहमत हूँ। अब तक मैं आश्वस्त हूं कि "कंट्रास्ट मैट्रिक्स" एक शब्द है जो केवल आर समुदाय में उपयोग किया जाता है और कोडिंग योजना को संदर्भित करता है। मैंने पाठ्यपुस्तक की जाँच की जिसे Gus_est संदर्भित करता है और वे कभी भी "कंट्रास्ट मैट्रिक्स" शब्द का उपयोग नहीं करते हैं, वे केवल "कंट्रास्ट" के बारे में बात करते हैं (उनके उत्तर के तहत मेरी आखिरी टिप्पणी देखें)। ओपी स्पष्ट रूप से आर अर्थ में "कंट्रास्ट मैट्रिक्स" के बारे में पूछ रहा था।
अमीबा का कहना है कि

1
That L will determine what are you going to test, you aren't free anymore to choose what to testβi=0β1β2/2β3/2=0

17

मैं वैक्टर के लिए लोअर-केस लेटर्स और मैट्रिसेस के लिए अपर-केस लेटर्स का उपयोग करूंगा।

प्रपत्र के रैखिक मॉडल के मामले में:

y=Xβ+ε

जहां एक है रैंक के मैट्रिक्स , और हम यह मान ।Xn×(k+1)k+1nεN(0,σ2)

हम अनुमान कर सकते हैं द्वारा , के बाद से का विलोम मौजूद है।β^(XX)1XyXX

अब, एनोवा के मामले के लिए, हमारे पास उस को पूर्ण-रैंक नहीं है। इसका निहितार्थ यह है कि हमारे पास और हमें सामान्यीकृत व्युत्क्रम लिए व्यवस्थित करना होगा ।X(XX)1(XX)

इस सामान्यीकृत व्युत्क्रम का उपयोग करने की समस्याओं में से एक यह है कि यह अद्वितीय नहीं है। एक और समस्या यह है कि हम लिए एक निष्पक्ष अनुमानक नहीं ढूंढ सकते हैं , क्योंकि β

β^=(XX)XyE(β^)=(XX)XXβ.

इसलिए, हम अनुमान नहीं लगा सकते । लेकिन क्या हम रैखिक संयोजन का अनुमान लगा सकते हैं ?ββ

हम इस बात का एक रैखिक संयोजन है s ', कहते हैं कि , है बहुमूल्य यदि वहां मौजूद एक वेक्टर कि इस तरह के ।βgβaE(ay)=gβ


विरोधाभासों बहुमूल्य कार्यों का एक विशेष मामला है, जिसमें के गुणांकों का योग कर रहे हैं शून्य के बराबर है।g

और, रेखीय मॉडल में श्रेणीबद्ध भविष्यवक्ताओं के संदर्भ में विरोधाभास सामने आते हैं। (यदि आप @amoeba द्वारा लिंक किए गए मैनुअल की जांच करते हैं , तो आप देखते हैं कि उनके सभी कंट्रास्ट कोडिंग श्रेणीबद्ध चर से संबंधित हैं)। फिर, @Curious और @amoeba का उत्तर देते हुए, हम देखते हैं कि वे ANOVA में उत्पन्न होते हैं, लेकिन केवल "निरंतर" भविष्यवाणियों के साथ "शुद्ध" प्रतिगमन मॉडल में नहीं (हम ANCOVA में विरोधाभासों के बारे में भी बात कर सकते हैं, क्योंकि हम इसमें कुछ श्रेणीबद्ध चर हैं)।


अब, मॉडल जहां पूर्ण-रैंक नहीं है, और , रैखिक फ़ंक्शन अनुमान है अगर कोई वेक्टर ऐसा । अर्थात, की पंक्तियों का एक रैखिक संयोजन है । इसके अलावा, वेक्टर कई विकल्प हैं , जैसे कि , जैसा कि हम नीचे दिए गए उदाहरण में देख सकते हैं।

y=Xβ+ε
XE(y)=XβgβaaX=ggXaaX=g

उदाहरण 1

वन-वे मॉडल पर विचार करें:

yij=μ+αi+εij,i=1,2,j=1,2,3.

X=[110110110101101101],β=[μτ1τ2]

और मान लें कि , इसलिए हम अनुमान लगाना चाहते हैं ।g=[0,1,1][0,1,1]β=τ1τ2

हम देख सकते हैं कि वेक्टर विभिन्न विकल्प हैं, जो : take ; या ; या ।aaX=ga=[0,0,1,1,0,0]a=[1,0,0,0,0,1]a=[2,1,0,0,1,2]


उदाहरण 2

दो-तरफ़ा मॉडल लें: ।

yij=μ+αi+βj+εij,i=1,2,j=1,2

X=[11010110011011010101],β=[μα1α2β1β2]

हम की पंक्तियों के रैखिक संयोजनों को ले कर अनुमानित कार्यों को परिभाषित कर सकते हैं ।X

पंक्तियों 2, 3, और 4 ( ) से पंक्ति 1 को घटाना : X

[11010000110110001111]

और पंक्तियों 2 और 3 को चौथी पंक्ति से लेना:

[11010000110110000000]

इसे पैदावार से गुणा करते हुए:β

g1β=μ+α1+β1g2β=β2β1g3β=α2α1

तो, हमारे पास तीन रैखिक स्वतंत्र अनुमान कार्य हैं। अब, केवल और को इसके गुणांक माना जा सकता है, क्योंकि इसके गुणांकों का योग (या, पंक्ति) संबंधित वेक्टर ) का योग शून्य के बराबर है।g2βg3βg


एक तरफ़ा संतुलित मॉडल

yij=μ+αi+εij,i=1,2,,k,j=1,2,,n.

और मान लीजिए कि हम परिकल्पना का परीक्षण करना चाहते हैं ।H0:α1==αk

इस सेटिंग में मैट्रिक्स पूर्ण-रैंक नहीं है, इसलिए अद्वितीय नहीं है और यह नहीं है। यह बहुमूल्य हम गुणा कर सकते हैं बनाने के लिए द्वारा , जब तक कि । दूसरे शब्दों में, अनुमान योग्य iff ।Xβ=(μ,α1,,αk)βgigi=0igiαiigi=0

यह सच क्यों है?

हम जानते हैं कि का अनुमान है कि कोई वेक्टर मौजूद है या नहीं ऐसा । और की अलग-अलग पंक्तियों को लेते हुए , फिर: gβ=(0,g1,,gk)β=igiαiag=aXXa=[a1,,ak]

[0,g1,,gk]=g=aX=(iai,a1,,ak)

और परिणाम इस प्रकार है।


यदि हम एक विशिष्ट विपरीत का परीक्षण करना चाहते हैं, तो हमारी परिकल्पना । उदाहरण के लिए: , जिसे रूप में लिखा जा सकता है , इसलिए हम की औसत और की तुलना कर रहे हैं ।H0:giαi=0H0:2α1=α2+α3H0:α1=α2+α32α1α2α3

इस परिकल्पना को रूप में व्यक्त किया जा सकता है , जहाँ । इस स्थिति में, और हम इस परिकल्पना का परीक्षण निम्नलिखित आंकड़ों के साथ करते हैं: H0:gβ=0g=(0,g1,g2,,gk)q=1

F=[gβ^][g(XX)g]1gβ^SSE/k(n1).

यदि को रूप में व्यक्त किया जाता है, जहां मैट्रिक्स की परस्पर विरोधाभास हैं ( ), तो हम का परीक्षण कर सकते हैं जो सांख्यिकीय , जहांH0:α1=α2==αkGβ=0

G=[g1g2gk]
gigj=0H0:Gβ=0F=SSHrank(G)SSEk(n1)SSH=[Gβ^][G(XX)1G]1Gβ^

उदाहरण 3

इसे बेहतर ढंग से समझने के लिए, हम का उपयोग करते हैं , और मान लें कि हम का परीक्षण करना चाहते हैं जिसे रूप में व्यक्त किया जा सकता है k=4H0:α1=α2=α3=α4,

H0:[α1α2α1α3α1α4]=[000]

या, : H0:Gβ=0

H0:[011000101001011]G,our contrast matrix[μα1α2α3α4]=[000]

तो, हम देखते हैं कि हमारे विपरीत मैट्रिक्स की तीन पंक्तियों को ब्याज के विरोधाभास के गुणांक द्वारा परिभाषित किया गया है। और प्रत्येक स्तंभ कारक स्तर देता है जो हम अपनी तुलना में उपयोग कर रहे हैं।


बहुत कुछ जो मैंने लिखा है, वह रेनचर और शाल्जे, "सांख्यिकी में रेखीय मॉडल", अध्याय 8 और 13 (उदाहरण, प्रमेयों का शब्दांकन, कुछ व्याख्याएं) से लिया गया था, लेकिन अन्य शब्द जैसे "कंटेंट मैट्रिक्स" "(जो वास्तव में, इस पुस्तक में दिखाई नहीं देता है) और यहाँ दी गई परिभाषा मेरी अपनी थी।


मेरे जवाब के लिए ओपी के विपरीत मैट्रिक्स से संबंधित

ओपी मैट्रिक्स में से एक (जो इस मैनुअल में भी पाया जा सकता है ) निम्नलिखित है:

> contr.treatment(4)
  2 3 4
1 0 0 0
2 1 0 0
3 0 1 0
4 0 0 1

इस स्थिति में, हमारे कारक के 4 स्तर हैं, और हम मॉडल को निम्नानुसार लिख सकते हैं: यह मैट्रिक्स के रूप में लिखा जा सकता है:

[y11y21y31y41]=[μμμμ]+[a1a2a3a4]+[ε11ε21ε31ε41]

या

[y11y21y31y41]=[11000101001001010001]X[μa1a2a3a4]β+[ε11ε21ε31ε41]

अब, एक ही मैनुअल पर डमी कोडिंग उदाहरण के लिए, वे संदर्भ समूह के रूप में उपयोग करते हैं । इस प्रकार, हम रो 1 को मैट्रिक्स में हर दूसरी पंक्ति से घटाते हैं , जो कि पैदावार देता है :a1XX~

[11000011000101001001]

यदि आप contr.treatment (4) मैट्रिक्स में पंक्तियों और स्तंभों की संख्या का निरीक्षण करते हैं, तो आप देखेंगे कि वे सभी पंक्तियों और कारकों 2, 3, और 4 से संबंधित स्तंभों पर विचार करते हैं। यदि हम ऐसा ही करते हैं उपरोक्त मैट्रिक्स पैदावार:

[000100010001]

इस तरह, contr.treatment (4) मैट्रिक्स हमें बता रहा है कि वे कारक 2, 3 और 4 की तुलना कारक 1 से कर रहे हैं, और कारक 1 की निरंतरता से तुलना कर रहे हैं (यह ऊपर की मेरी समझ है)।

और, को परिभाषित करना (अर्थात उपरोक्त मैट्रिक्स में केवल उसी पंक्तियों को 0 पर ले जाना): G

[011000101001001]

हम परीक्षण कर सकते हैं और विरोधाभासों का अनुमान लगा सकते हैं।H0:Gβ=0

hsb2 = read.table('http://www.ats.ucla.edu/stat/data/hsb2.csv', header=T, sep=",")

y<-hsb2$write

dummies <- model.matrix(~factor(hsb2$race)+0)
X<-cbind(1,dummies)

# Defining G, what I call contrast matrix
G<-matrix(0,3,5)
G[1,]<-c(0,-1,1,0,0)
G[2,]<-c(0,-1,0,1,0)
G[3,]<-c(0,-1,0,0,1)
G
     [,1] [,2] [,3] [,4] [,5]
[1,]    0   -1    1    0    0
[2,]    0   -1    0    1    0
[3,]    0   -1    0    0    1

# Estimating Beta

X.X<-t(X)%*%X
X.y<-t(X)%*%y

library(MASS)
Betas<-ginv(X.X)%*%X.y

# Final estimators:
G%*%Betas
          [,1]
[1,] 11.541667
[2,]  1.741667
[3,]  7.596839

और अनुमान वही हैं।


@Ttnphns का जवाब मेरे साथ संबंधित है।

उनके पहले उदाहरण में, सेटअप में तीन स्तरों वाले एक स्पष्ट कारक ए है। हम इसे मॉडल के रूप में लिख सकते हैं (मान लीजिए, सादगी के लिए, ): j=1

yij=μ+ai+εij,for i=1,2,3

और मान लें कि हम अपने संदर्भ समूह / कारक के रूप में साथ , या का परीक्षण करना चाहते हैं ।H0:a1=a2=a3H0:a1a3=a2a3=0a3

इसे मैट्रिक्स रूप में लिखा जा सकता है:

[y11y21y31]=[μμμ]+[a1a2a3]+[ε11ε21ε31]

या

[y11y21y31]=[110010101001]X[μa1a2a3]β+[ε11ε21ε31]

अब, यदि हम पंक्ति 1 और पंक्ति 2 से पंक्ति 3 को घटाते हैं, तो हमारे पास वह बन जाता है (मैं इसे " :XX~

X~=[010100111001]

उपरोक्त मैट्रिक्स के अंतिम 3 कॉलम की तुलना @ttnphns 'मैट्रिक्स । आदेश के बावजूद, वे काफी समान हैं। वास्तव में, यदि गुणा करें, तो हम:LX~β

[010100111001][μa1a2a3]=[a1a3a2a3μ+a3]

तो, हमारे पास कार्य हैं: ; ; ।c1β=a1a3c2β=a2a3c3β=μ+a3

चूँकि , हम ऊपर से देखते हैं कि हम अपने स्थिरांक की तुलना संदर्भ समूह (a_3) के गुणांक से कर रहे हैं; समूह 1 के गुणांक group3 के गुणांक तक; और समूह 2 के गुणांक group3 के लिए। या, जैसा कि @ttnphns ने कहा: "हम तुरंत देखते हैं, गुणांक का अनुसरण करते हुए, कि अनुमानित कॉन्स्टेंट संदर्भ समूह में Y माध्य के बराबर होगा; वह पैरामीटर b1 (यानी डमी वैरिएबल A1) अंतर के बराबर होगा: Y का अर्थ है Group1 माइनस में; Group3 में Y का मतलब है; और पैरामीटर b2 का अंतर है: समूह 2 में माध्य का मतलब है group3 में। "H0:ciβ=0

इसके अलावा, यह देखें कि (इसके विपरीत की परिभाषा का पालन करें: अनुमानित फ़ंक्शन + पंक्ति योग = 0), कि वैक्टर और विरोधाभास हैं। और, अगर हम एक मैट्रिक्स की कमी का निर्माण करते हैं, तो हमारे पास है:c1c2G

G=[01010011]

का परीक्षण करने के लिए हमारा कंट्रास्ट मैट्रिक्सH0:Gβ=0

उदाहरण

हम @ttnphns के "उपयोगकर्ता परिभाषित विपरीत उदाहरण" के रूप में एक ही डेटा का उपयोग करेंगे (मैं उल्लेख करना चाहता हूं कि मैंने जो सिद्धांत यहां लिखा है, उसे बातचीत के साथ मॉडल पर विचार करने के लिए कुछ संशोधनों की आवश्यकता है, इसलिए मैंने इस उदाहरण को चुना है। हालांकि विरोधाभासों की परिभाषा और - जिसे मैं कहता हूं - इसके विपरीत मैट्रिक्स समान रहते हैं)।

Y<-c(0.226,0.6836,-1.772,-0.5085,1.1836,0.5633,0.8709,0.2858,0.4057,-1.156,1.5199,
     -0.1388,0.4865,-0.7653,0.3418,-1.273,1.4042,-0.1622,0.3347,-0.4576,0.7585,0.4084,
     1.4165,-0.5138,0.9725,0.2373,-1.562,1.3985,0.0397,-0.4689,-1.499,-0.7654,0.1442,
     -1.404,-0.2201,-1.166,0.7282,0.9524,-1.462,-0.3478,0.5679,0.5608,1.0338,-1.161,
     -0.1037,2.047,2.3613,0.1222)

F_<-c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,
    5,5,5,5,5,5,5,5,5,5,5)

dummies.F<-model.matrix(~as.factor(F_)+0)

X_F<-cbind(1,dummies.F)

G_F<-matrix(0,4,6)
G_F[1,]<-c(0,3,3,-2,-2,-2)
G_F[2,]<-c(0,1,-1,0,0,0)
G_F[3,]<-c(0,0,0,2,-1,-1)
G_F[4,]<-c(0,0,0,0,1,-1)

 G 
 [,1] [,2] [,3] [,4] [,5] [,6]
[1,]    0    3    3   -2   -2   -2
[2,]    0    1   -1    0    0    0
[3,]    0    0    0    2   -1   -1
[4,]    0    0    0    0    1   -1

# Estimating Beta 

X_F.X_F<-t(X_F)%*%X_F
X_F.Y<-t(X_F)%*%Y

Betas_F<-ginv(X_F.X_F)%*%X_F.Y

# Final estimators:
G_F%*%Betas_F
           [,1]
[1,]  0.5888183
[2,] -0.1468029
[3,]  0.6115212
[4,] -0.9279030

इसलिए, हमारे पास समान परिणाम हैं।


निष्कर्ष

मुझे ऐसा लगता है कि कंट्रास्ट मैट्रिक्स क्या है इसकी कोई एक परिभाषित अवधारणा नहीं है।

यदि आप Scheffe ("विश्लेषण का विश्लेषण", पृष्ठ 66) द्वारा दिए गए कंट्रास्ट की परिभाषा लेते हैं, तो आप देखेंगे कि यह एक अनुमानित कार्य है जिसका गुणांक शून्य के बराबर है। इसलिए, यदि हम अपने श्रेणीगत चर के गुणांक के विभिन्न रैखिक संयोजनों का परीक्षण करना चाहते हैं, तो हम मैट्रिक्स उपयोग करते हैं । यह एक मैट्रिक्स है जिसमें पंक्तियाँ शून्य के बराबर होती हैं, जिनका उपयोग हम अपने गुणांक के मैट्रिक्स को गुणा करने के लिए करते हैं ताकि उन गुणांक का अनुमान लगाया जा सके। इसकी पंक्तियाँ उन विभिन्न रेखीय संयोजनों का संकेत देती हैं जिनका हम परीक्षण कर रहे हैं और इसके स्तंभ यह दर्शाते हैं कि किन कारकों (गुणांक) की तुलना की जा रही है।G

जैसा कि ऊपर मैट्रिक्स का निर्माण इस तरह से किया गया है कि इसकी प्रत्येक पंक्तियाँ एक कॉन्ट्रास्ट वेक्टर (जो कि 0 के योग्‍य हैं) से बनी हैं, मेरे लिए यह को "कंट्रास्‍ट मैट्रिक्स" ( मोनाहन - "रैखिक मॉडलों पर एक प्राइमर" - इस शब्दावली का उपयोग भी करता है)।GG

हालाँकि, जैसा कि @ttnphns द्वारा खूबसूरती से समझाया गया है, सॉफ्टवेअर कुछ और ही "कंट्रास्ट मैट्रिक्स" कह रहे हैं, और मैं मैट्रिक्स और अंतर्निहित कमांड्स / मैट्रिस से SPSS (@ttnphns) के बीच सीधा संबंध नहीं खोज सका। ) या आर (ओपी का सवाल), केवल समानताएं। लेकिन मेरा मानना ​​है कि यहाँ प्रस्तुत अच्छी चर्चा / सहयोग इस तरह की अवधारणाओं और परिभाषाओं को स्पष्ट करने में मदद करेगा।G


कृपया यदि संभव हो तो इस जवाब को केवल एनोवा तक सीमित न रखें। [Aova] टैग को @amoeba द्वारा उस समय जोड़ा गया जब आपने मेरे प्रश्न का उत्तर दिया था, लेकिन मैं नहीं चाहता कि उत्तर को केवल anova तक ही सीमित रखा जाए।
जिज्ञासु

इतने बड़े अपडेट के लिए बहुत बहुत धन्यवाद। मैंने अपनी कुछ टिप्पणियों को ऊपर हटा दिया था जो अब तक अप्रचलित थीं (आप में से कुछ को हटा सकते हैं, जैसे पहले वाला)। हालाँकि, अब तक यह मेरे लिए स्पष्ट है कि आपके (और मोनाहन के) अर्थ में "कंट्रास्ट मैट्रिक्स" कुछ इस अर्थ में "कंट्रास्ट मैट्रिक्स" से बिल्कुल अलग है जिसका उपयोग इस आर मैनुअल में किया गया है और मूल प्रश्न में यहाँ भी है (क्या ttnphns कॉल सी-मैट्रिक्स)। मुझे लगता है कि अगर आप इस अंतर के बारे में अपने जवाब में कहीं नोट करते हैं तो यह समझ में आएगा।
अमीबा का कहना है कि मोनिका

मैं सही उदाहरण 1 से शुरू समझ के साथ परेशानी हो रही है। क्या है एक अपने अंकन में ? क्या है और कॉलम od क्या दर्शाता है? क्या वह लगातार शब्द (लोगों का स्तंभ) और दो डमी चर हैं? ijyijaiX
ttnphns

@ttnphns: इंडेक्सिंग ग्रुप है (उदाहरण 1 में दो ग्रुप हैं), प्रत्येक ग्रुप के अंदर डेटा पॉइंट इंडेक्स कर रहा है। एक स्थिर है और प्रत्येक समूह के लिए स्थिरांक हैं जैसे कि समूह साधन हैं (इसलिए कुल अर्थ हो सकता है और समूह का विचलन कुल मतलब से हो सकता है)। कॉलम निरंतर शब्द और दो डमी हैं, हां। ijμαiμ+αiμαiX
अमीबा का कहना है कि मोनिका

इस उत्तर के लिए धन्यवाद, लेकिन मैं शायद इसे समझने में सक्षम नहीं हूं और न ही इसके पास समय है। और मैंने गणित का अध्ययन किया :-) मैंने उत्तर के रूप में कुछ बहुत ही सरल परिभाषा की उम्मीद की थी :-)
जिज्ञासु

7

"कंट्रास्ट मैट्रिक्स" सांख्यिकीय साहित्य में एक मानक शब्द नहीं है। यह अलग-अलग अर्थों से संबंधित [कम से कम] दो हो सकते हैं:

  1. एक मैट्रिक्स एक विशेष प्रतिगमन (कोडिंग योजना से संबंधित) में एक विशेष अशक्त परिकल्पना को निर्दिष्ट करता है, जहां प्रत्येक पंक्ति एक विपरीत होती है यह शब्द का मानक उपयोग नहीं है। मैंने क्रिस्टेंसेन प्लेन उत्तर में जटिल प्रश्नों के पूर्ण पाठ खोज का उपयोग किया , रदरफोर्ड ने एनोवा और एंकोवा का परिचय दिया; सांख्यिकी में जीएलएम दृष्टिकोण और रेनचर और शैलजा लीनियर मॉडल । वे सभी "विरोधाभासों" के बारे में बहुत बात करते हैं लेकिन कभी भी "विपरीत मैट्रिक्स" शब्द का उल्लेख नहीं करते हैं। हालाँकि, जैसा कि @Gus_est ने पाया, इस शब्द का प्रयोग मोनाहन के ए प्राइमर ऑन लाइनियर मॉडल्स में किया जाता है

  2. एक मैट्रिक्स एक एनोवा प्रतिगमन में डिजाइन मैट्रिक्स के लिए कोडिंग योजना को निर्दिष्ट करता है। यह है कि आर समुदाय में "कंट्रास्ट मैट्रिक्स" शब्द का उपयोग किया जाता है (उदाहरण के लिए यह मैनुअल या यह सहायता पृष्ठ देखें )।

@Gus_est द्वारा दिए गए उत्तर का पहला अर्थ है। @Ttnphns द्वारा दिए गए उत्तर का दूसरा अर्थ है (वह इसे "कंट्रास्ट कोडिंग मैट्रिक्स" कहता है और "विपरीत गुणांक मैट्रिक्स" पर भी चर्चा करता है, जो एसपीएसएस साहित्य में एक मानक शब्द है)।


मेरी समझ यह है कि आप अर्थ # 2 के बारे में पूछ रहे थे, इसलिए यहां परिभाषा दी गई है:

R अर्थ में "कंट्रास्ट मैट्रिक्स" मैट्रिक्स जहां समूहों की संख्या है, यह निर्दिष्ट करते हुए कि डिज़ाइन मैट्रिक्स में समूह सदस्यता कैसे एन्कोडेड है । विशेष रूप से, एक अगर वें अवलोकन समूह के अंतर्गत आता तो ।k×kCkXmiXmj=Cij

नोट: आमतौर पर का पहला कॉलम सभी का कॉलम होता है (डिजाइन मैट्रिक्स में इंटरसेप्ट कॉलम के अनुसार)। जब आप R कमांड्स को कॉल करते हैं , तो आपको इस पहले कॉलम के बिना मैट्रिक्स मिलता है ।Ccontr.treatment(4)C


मैं इस उत्तर को विस्तारित करने की योजना बना रहा हूं कि कैसे @ttnphns और @Gus_est द्वारा उत्तर एक साथ फिट किए जाएं।


The answer by @Gus_est explores the first meaning. The answer by @ttnphns explores the second meaning.मैं विरोध करता हूं। (और सुनकर आश्चर्य हुआ - जब हम दोनों ने उत्तर देने के लिए टिप्पणियों में परिभाषाओं पर एक लंबी बातचीत की।) मैंने दो शब्द आमंत्रित किए: विपरीत गुणांक मैट्रिक्स (जहां पंक्तियाँ विरोधाभासी हैं, रैखिक रैखिक संयोजन का अर्थ है) उर्फ ​​एल-मैट्रिक्स। और कंट्रास्ट कोडिंग स्कीमा मैट्रिक्स, उर्फ ​​सी मैट्रिक्स। दोनों संबंधित हैं, मैंने दोनों पर चर्चा की।
ttnphns

(cont।) कॉन्ट्रास्ट गुणांक एल मैट्रिक्स उदाहरण के लिए , एनोवा / जनरल रैखिक मॉडल में एक मानक शब्द है, जिसका उपयोग ग्रंथों और एसपीएसएस डॉक्स में किया जाता है । कोडिंग योजनाएँ यहाँ देखें ।
ttnphns

You were asking about meaning #2हम वास्तव में निश्चित नहीं हैं कि ओपी के निहितार्थ शब्द का क्या अर्थ है। ओपी ने कंट्रास्ट कोडिंग योजनाओं के कुछ उदाहरण प्रदर्शित किए, - यह जरूरी नहीं है कि एस / एल मेट्रिक्स में उसकी रुचि नहीं थी।
ttnphns

1
मुझे खुशी है कि हम अब उसी भाषा को बोलते हैं। ऐसा लगता है, कम से कम। यह हर किसी के लिए बहुत अच्छा होगा, विशेष रूप से एक आगंतुक पाठक, यदि आप अपना जवाब पूरा करते हैं, तो यह दिखाते हैं कि कैसे गूस 'और' tnnphns 'रिपोर्ट एक ही परिणाम में बदल जाती हैं। अगर आप पूरा करना चाहते हैं।
ttnphns

1
(cont।) बेशक दोनों "दृष्टिकोण" में एल मैट्रिक्स समान है (और कोई रहस्यमय जी मैट्रिक्स की आवश्यकता नहीं है)। दिखाएँ कि दो बराबर पथ (एल मनमाना है, एक्स डमी है): L -> XC -> regression -> resultऔर X -> [regression -> adjusting to test for L] -> resultएक ही परिणाम छोड़ें। दूसरा रास्ता यह है कि एक एनोवा प्रोग्राम कैसे करेगा (ब्रैकेटेड भाग []); पहला रास्ता एक प्रैक्टिकल प्रदर्शन है कि कैसे विरोधाभास केवल प्रतिगमन कार्यक्रम के माध्यम से हल करने योग्य हैं।
ttnphns

3

एक कॉन्ट्रास्ट शून्य के साथ उनके अंतर की तुलना करके दो समूहों की तुलना करता है। एक विपरीत मैट्रिक्स में पंक्तियां विरोधाभास हैं और शून्य में जोड़ना चाहिए, कॉलम समूह हैं। उदाहरण के लिए:

मान लीजिए कि आपके पास 4 समूह A, B, C, D हैं जिनकी आप तुलना करना चाहते हैं, तो इसके विपरीत मैट्रिक्स होगा:

समूह: एबीसीडी
ए बनाम बी: 1 -1 0 0
सी बनाम डी: 0 0 -1 -1
ए, बी बनाम डी, सी: 1 1 1 -1

औद्योगिक प्रयोग को समझना :

यदि k वस्तुओं का एक समूह है, k उपसमूह औसत के साथ तुलना की जाती है, तो k गुणांक, [c1, c2, c3, ... cj, ..., ck के किसी भी समूह द्वारा k वस्तुओं के इस सेट पर एक कंट्रास्ट को परिभाषित किया जाता है। ] वह राशि जो शून्य है।

C को विपरीत होने दें,

C=c1μ1+c2μ2+...cjμj+...ckμk

C=j=1kcjμj

बाधा के साथ

j=1kcj=0

जिन उपसमूह को शून्य का गुणांक सौंपा गया है, उन्हें तुलना से बाहर रखा जाएगा। (*)

यह गुणांक के लक्षण हैं जो वास्तव में तुलना को परिभाषित करते हैं, न कि चुने गए मूल्यों को। गुणांक के पूर्ण मान कुछ भी हो सकते हैं जब तक कि गुणांक का योग शून्य है।

(*) प्रत्येक सांख्यिकीय सॉफ़्टवेयर में यह इंगित करने का एक अलग तरीका होता है कि कौन से उपसमूहों को बाहर रखा जाएगा / शामिल किया जाएगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.