संक्षेप में
MANOVA और LDA दोनों ही कुल तितर बितर मैट्रिक्स को वर्ग- खंड तितर बितर मैट्रिक्स W और बीच-वर्ग तितर बितर मैट्रिक्स B , जैसे कि T = W + B, के साथ शुरू होते हैं । ध्यान दें कि यह पूरी तरह से अनुरूप है कि एक-तरफ़ा एनोवा कुल योग-वर्गों को कैसे घटाता हैTWBT=W+B के भीतर वर्ग और बीच स्तरीय रकम-वर्गों के में: टी = बी + डब्ल्यू । एनोवा में एक अनुपात बी / डब्ल्यू तब गणना की जाती है और इसका उपयोग पी-मूल्य खोजने के लिए किया जाता है: यह अनुपात जितना बड़ा होगा, पी-मूल्य उतना ही छोटा होगा। MANOVA और LDA एक अनुरूप बहुभिन्नरूपी मात्रा W - 1 की रचना करते हैंTT=B+WB/W ।W−1B
यहां से वे अलग हैं। MANOVA का एकमात्र उद्देश्य यह परीक्षण करना है कि क्या सभी समूहों के साधन समान हैं; इस शून्य परिकल्पना का अर्थ होगा कि W के आकार जैसा होना चाहिएBW । इसलिए MANOVA का एक इगेंडेकम्पोजीशन करता है और अपने आइजेनवल्यूस λ i को खोजता है । विचार अब परीक्षण करने के लिए है यदि वे अशक्त को अस्वीकार करने के लिए पर्याप्त बड़े हैं। आइजनवाल्यूस λ i के पूरे सेट से एक स्केलर स्टेटिस्टिक बनाने के चार सामान्य तरीके हैं । एक तरीका यह है कि सभी स्वदेशी का योग लें। दूसरा तरीका यह है कि मैक्सिमम ईजेनवल्यू लिया जाए। प्रत्येक मामले में, यदि चुना गया आंकड़ा काफी बड़ा है, तो शून्य परिकल्पना खारिज कर दी जाती है।W−1Bλiλi
इसके विपरीत, LDA का eigendecomposition करता है और eigenvectors (eigenvalues नहीं) को देखता है। ये eigenvectors चर स्थान में दिशाओं को परिभाषित करते हैं और इन्हें विभेदक अक्ष कहा जाता है । पहले विभेदक अक्ष पर डेटा की प्रोजेक्शन में उच्चतम श्रेणी पृथक्करण है ( बी / डब्ल्यू के रूप में मापा जाता है ); दूसरे पर - दूसरा उच्चतम; जब एलडीए का उपयोग आयामी कमी के लिए किया जाता है, तो डेटा को पहले दो अक्षों पर उदाहरण के लिए अनुमानित किया जा सकता है, और शेष को छोड़ दिया जाता है।W−1BB/W
एक अन्य सूत्र में @ttnphns द्वारा एक उत्कृष्ट उत्तर भी देखें जो लगभग एक ही जमीन को कवर करता है।
उदाहरण
आइए हम आश्रित चर और k = 3 समूहों के अवलोकनों के साथ एकतरफा मामला मानते हैं (अर्थात तीन स्तरों वाला एक कारक)। मैं जाने-माने फिशर के आइरिस डेटासेट ले जाऊंगा और केवल सेपाल की लंबाई और सीपल की चौड़ाई (इसे दो आयामी बनाने के लिए) पर विचार करूंगा। यहाँ बिखराव की साजिश है:M=2k=3
हम अलग-अलग लंबाई / चौड़ाई दोनों के साथ ANOVAs कंप्यूटिंग के साथ शुरू कर सकते हैं। एक्स और वाई कुल्हाड़ियों पर लंबवत या क्षैतिज रूप से अनुमानित डेटा बिंदुओं की कल्पना करें, और तीन समूहों के समान साधन होने पर परीक्षण के लिए 1-तरफ़ा एनोवा का प्रदर्शन किया। हमें sepal लंबाई के लिए और p = 10 - 31 मिलता है और sepal चौड़ाई के लिए F 2 , 147 = 49 और p = 10 - 17 है । ठीक है, इसलिए मेरा उदाहरण बहुत बुरा है क्योंकि दोनों उपायों पर हास्यास्पद पी-मूल्यों के साथ तीन समूह काफी भिन्न हैं, लेकिन मैं वैसे भी इससे चिपकूंगा।F2,147=119p=10−31F2,147=49p=10−17
अब हम एक अक्ष को खोजने के लिए LDA का प्रदर्शन कर सकते हैं जो अधिकतम तीन समूहों को अलग करता है। जैसा कि ऊपर वर्णित है, हम पूर्ण तितर बितर मैट्रिक्स , भीतर-वर्ग तितर बितर मैट्रिक्स डब्ल्यू और वर्ग-वर्ग तितर बितर मैट्रिक्स बी = टी - डब्ल्यू की गणना करते हैं और डब्ल्यू - 1 बी के आइगेनवेक्टर्स को ढूंढते हैं । मैं एक ही स्कैटरप्लॉट पर दोनों ईजेनवेक्टरों की साजिश कर सकता हूं:TWB=T−WW−1B
धराशायी लाइनें भेदभावपूर्ण कुल्हाड़ियों हैं। मैंने उन्हें मनमाने ढंग से लंबाई के साथ प्लॉट किया, लेकिन लंबी धुरी बड़ी प्रतिजन (4.1) और छोटी वाली के साथ आइगेनवेक्टर को दिखाती है - छोटे आइगेनवेल्यू (0.02) के साथ। ध्यान दें कि वे ऑर्थोगोनल नहीं हैं, लेकिन एलडीए का गणित इस बात की गारंटी देता है कि इन अक्षों पर अनुमान शून्य सहसंबंध हैं।
यदि हम अब पहले (लंबे समय तक) विभेदक अक्ष पर अपना डेटा प्रोजेक्ट करते हैं और फिर एनोवा को चलाते हैं, तो हमें और p = 10 मिलते हैं।F=305 , जो पहले की तुलना में कम है, और सभी रैखिक अनुमानों के बीच सबसे कम संभव मान है ( एलडीए का पूरा बिंदु था)। दूसरी धुरी पर प्रक्षेपण केवलp= 10 - 5 देता है ।p=10−53p=10−5
यदि हम एक ही डेटा पर MANOVA चलाते हैं, तो हम समान मैट्रिक्स गणना करते हैं और इसके eigenvalues को देखते हैं, ताकि पी-वैल्यू की गणना की जा सके। इस मामले में बड़ा स्वदेशी 4.1 के बराबर है, जो पहले विभेदक के साथ एनोवा के लिए बी / डब्ल्यू के बराबर है (वास्तव में, एफ = बी / डब्ल्यू ⋅ ( एन - के ) / ( के - 1 ) = 4.1W−1BB/W , जहां एन = 150 डेटा बिंदुओं की कुल संख्या है औरF=B/W⋅(N−k)/(k−1)=4.1⋅147/2=305N=150 समूहों की संख्या है)।k=3
कई सामान्य रूप से उपयोग किए जाने वाले सांख्यिकीय परीक्षण हैं जो ईजेन्सप्रेक्टर से पी-मान की गणना करते हैं (इस मामले में और λ 2 =λ1=4.1 ) और थोड़ा अलग परिणाम देते हैं। MATLAB मुझे विल्क्स टेस्ट देता है, जो पी = 10 - 55 रिपोर्ट करता है। ध्यान दें कि यह मान किसी भी एनोवा के साथ पहले हमारे मुकाबले कम है, और यहाँ अंतर्ज्ञान यह है कि मैनोवा का पी-वैल्यू दो विवेकशील कुल्हाड़ियों पर एनोवा के साथ प्राप्त दो पी-वैल्यू को जोड़ती है।λ2=0.02p=10−55
क्या एक विपरीत स्थिति प्राप्त करना संभव है: MANOVA के साथ उच्च पी-मूल्य? हाँ यही है। इसके लिए हमें एक ऐसी स्थिति की आवश्यकता होती है जब केवल एक भेदभाव वाली धुरी महत्वपूर्ण होती है, और दूसरा एक बिल्कुल भी भेदभाव नहीं करता है। मैंने निर्देशांक ( 8 , 4 ) के साथ "ग्रीन" वर्ग मेंसात बिंदुओं को जोड़कर उपरोक्त डेटासेट को संशोधित किया(बड़ी हरी डॉट इन सात समान बिंदुओं का प्रतिनिधित्व करती है):F(8,4)
दूसरा विभेदक अक्ष चला गया है: इसका प्रतिजन लगभग शून्य है। दो विभेदक कुल्हाड़ियों पर ANOVAs और p = 0.26 देते हैं । लेकिन अब MANOVA रिपोर्ट केवल p = 10 -p=10−55p=0.26करता है, जो कि एनोवा से थोड़ा अधिक है। इसके पीछे अंतर्ज्ञान है (मेरा मानना है) कि इस तथ्य के लिए पीओवीए के मूल्य में वृद्धि हुई है कि हमने न्यूनतम संभव मूल्य प्राप्त करने के लिए विवेचक अक्ष को फिट किया और संभव गलत सकारात्मक के लिए सही किया। औपचारिक रूप से कोई यह कहेगा कि MANOVA स्वतंत्रता की अधिक मात्रा में खपत करता है। कल्पना कीजिए 100 चर देखते हैं, और केवल के साथ कि~5दिशाओं से एक हो जाता हैपी≈0.05p=10−54∼5p≈0.05महत्व; यह अनिवार्य रूप से कई परीक्षण हैं और वे पांच मामले झूठे सकारात्मक हैं, इसलिए MANOVA इसे ध्यान में रखेगा और समग्र गैर-महत्वपूर्ण रिपोर्ट करेगा ।p
मशीन सीखने बनाम सांख्यिकी के रूप में मैगा बनाम एलडीए
यह अब मुझे लगता है कि अलग-अलग मशीन सीखने वाले समुदाय और सांख्यिकी समुदाय एक ही चीज के अनुकरणीय मामलों में से एक हैं। मशीन सीखने पर हर पाठ्यपुस्तक झील प्राधिकरण, शो अच्छा चित्रों आदि को शामिल किया गया है, लेकिन यह होगा कभी नहीं भी Manova (जैसे उल्लेख बिशप , Hastie और मर्फी )। शायद इसलिए कि एलडीए वर्गीकरण सटीकता (जो मोटे तौर पर प्रभाव के आकार से मेल खाती है) में अधिक रुचि रखने वाले लोग हैं , और सांख्यिकीय महत्व में कोई दिलचस्पी नहीं है समूह अंतर के । दूसरी ओर, बहुभिन्नरूपी विश्लेषण पर पाठ्यपुस्तकें MANOVA ad nauseam पर चर्चा करेंगी, बहुत सारे सारणीबद्ध डेटा (arrrgh) प्रदान करेंगी, लेकिन शायद ही कभी LDA का उल्लेख करें और यहां तक कि दुर्लभ किसी भी भूखंड (जैसेएंडरसन , या हैरिस ; हालाँकि, Rencher & Christensen करते हैं और Huberty & Olejnik को "MANOVA और डिस्क्रिमिनिट एनालिसिस) भी कहा जाता है।"
फैक्टरियल मैनोवा
फैक्टरियल MANOVA बहुत अधिक भ्रमित है, लेकिन विचार करने के लिए दिलचस्प है क्योंकि यह LDA से इस अर्थ में भिन्न है कि "factorial LDA" वास्तव में मौजूद नहीं है, और factorial MANOVA सीधे किसी भी "सामान्य LDA" के अनुरूप नहीं है।
3⋅2=6
इस आंकड़े पर सभी छह "कोशिकाएं" (मैं उन्हें "समूह" या "कक्षाएं" भी कहूंगा) अच्छी तरह से अलग हैं, जो अभ्यास में शायद ही कभी होता है। ध्यान दें कि यहां दोनों कारकों के महत्वपूर्ण मुख्य प्रभाव हैं, और महत्वपूर्ण बातचीत प्रभाव भी है (क्योंकि ऊपरी-दाएं समूह को दाईं ओर स्थानांतरित कर दिया गया है; अगर मैंने इसे "ग्रिड" स्थिति में स्थानांतरित कर दिया, तो कोई भी नहीं होगा। परस्पर प्रभाव)।
इस मामले में MANOVA संगणना कैसे काम करती है?
WBABAW−1BA
BBBAB
T=BA+BB+BAB+W.
Bतीन कारकों के योग में विशिष्ट रूप से विघटित नहीं किया जा सकता क्योंकि कारक अब ऑर्थोगोनल नहीं हैं; यह एनोवा में टाइप I / II / III एसएस की चर्चा के समान है।]
BAडब्ल्यूए= टी - बीए
डब्ल्यू- 1बीए