ANOVA किस प्रश्न का उत्तर देता है?


10

मैं एनोवा सीखना चाहता हूं। इससे पहले कि मैं सीखना शुरू करूं कि एल्गोरिथ्म कैसे काम करता है (क्या गणना की जानी है) और यह क्यों काम करता है, मैं सबसे पहले यह जानना चाहता हूं कि हम वास्तव में एनोवा के साथ क्या समस्या हल करते हैं, या हम क्या जवाब देने की कोशिश करते हैं। दूसरे शब्दों में: इनपुट क्या है और एल्गोरिदम का आउटपुट क्या है?

मैं समझता हूं कि हम इनपुट के रूप में क्या उपयोग करते हैं। हमारे पास संख्याओं का एक समूह है। प्रत्येक संख्या एक या अधिक श्रेणीबद्ध चर ("कारक" के रूप में भी जाना जाता है) के मूल्यों के साथ आती है। उदाहरण के लिए:

+------------+------------+-------+
|   factor 1 |   factor 2 | value |
+------------+------------+-------+
|     "A"    |     "a"    |  1.0  |
|     "A"    |     "a"    |  2.4  |
|     "A"    |     "b"    |  0.3  |
|     "A"    |     "b"    |  7.4  |
|     "B"    |     "a"    |  1.2  |
|     "B"    |     "a"    |  8.4  |
|     "B"    |     "b"    |  0.4  |
|     "B"    |     "b"    |  7.2  |
+------------+------------+-------+

क्या यह कहना सही है कि ANOVA शून्य परिकल्पना के पी-मूल्य की गणना करता है जो बताता है कि मूल्यों के माध्यम पर कारकों का कोई प्रभाव नहीं है? दूसरे शब्दों में, हम ऊपर दिए गए डेटा को एल्गोरिथ्म में देते हैं और परिणामस्वरूप हमें शून्य परिकल्पना का पी-मूल्य मिलता है?

यदि यह मामला है, तो पी-वैल्यू की गणना करने के लिए हम वास्तव में किस उपाय का उपयोग करते हैं। उदाहरण के लिए, हम यह कह सकते हैं कि, शून्य परिकल्पना M को केवल 1% मामलों में संयोग से देखा जा सकता है (या इससे भी अधिक)। M क्या है?

क्या हम अलग से एनोवा में कारकों की जांच नहीं करते हैं? क्या ANOVA कह सकता है कि factor_1 का प्रभाव है, लेकिन factor_2 नहीं? क्या एनोवा कह सकता है, कि दिए गए कारक मानों के लिए "A", "B" और "C" समान हैं, सांख्यिकीय रूप से अप्रभेद्य हैं (उदाहरण के लिए समान अर्थ है), लेकिन मूल्य "D" का प्रभाव है?

जवाबों:


6

एनोवा का अर्थ है "विश्लेषण का विश्लेषण"। अनिश्चित रूप से, यह विचरण का विश्लेषण करता है।

चलो थोड़ा और स्पष्ट हो। आपके अवलोकन कुछ विचरण प्रदर्शित करेंगे। यदि आप अपने कारक 1 द्वारा अपनी टिप्पणियों का समूह बनाते हैं, तो कारक 1 द्वारा परिभाषित समूहों के भीतर का विचरण समग्र विचरण से छोटा होगा। फैक्टर 1 "विचरण बताता है"।

हालांकि, यह निष्कर्ष निकालने के लिए पर्याप्त नहीं है कि कारक 1 वास्तव में आपकी टिप्पणियों के लिए एक रिश्ता है ... क्योंकि जो कुछ भी "विवेचन" को स्पष्ट करेगा। अच्छी बात यह है कि हम जानते हैं कि अशक्त परिकल्पना के तहत कितना प्रसरण समझाया जाएगा, जो आपके कारक करते हैं, वास्तव में, आपकी टिप्पणियों से कोई लेना-देना नहीं है। अशक्त के तहत समझाया गया विचरण की यह राशि ए द्वारा वर्णित हैएफ वितरण।

इस प्रकार, एनोवा में रणनीति समग्र विचरण और भीतर-समूह विचरण (वर्गों की रकम का उपयोग करके) और इन अनुमानित संस्करणों के अनुपात लेने का अनुमान लगाना है। यह अनुपात हैएफआंकड़ा। हम फिर इसकी तुलना करते हैंएफ के महत्वपूर्ण मूल्य के लिए सांख्यिकीय एफ एक तरफा परीक्षण में वितरण, अपनी उपज पीमूल्य। कारक स्तरों की संख्या एक पैरामीटर में जाती हैएफवितरण (अधिक कारक स्तर शून्य परिकल्पना के तहत अधिक विचरण को स्पष्ट करेगा), और टिप्पणियों की संख्या और स्तरों की संख्या दूसरे में जाती है। यह पहले वाला सवाल मददगार हो सकता है।

(एक तरफा परीक्षण क्यों? क्योंकि, जैसा कि ऊपर, कोई समूह कुछ विचरण की व्याख्या करेगा, इसलिए यह केवल यह जांचने के लिए समझ में आता है कि क्या आपका कारक विचरण की एक बड़ी मात्रा की व्याख्या करता है ।)

विकिपीडिया प्रविष्टि का "प्रेरक उदाहरण" खंड उन कारकों के कुछ बहुत अच्छे चित्र प्रदान करता है जो बहुत कम, कुछ और समग्र विचरण के बारे में बताते हैं।

दो-तरफ़ा एनोवा और इंटरैक्शन, जैसा कि आपके उदाहरण में, साथ ही एंकोवा, इस विषय पर सिर्फ सामान्यीकरण हैं। प्रत्येक मामले में, हम जांच करते हैं कि क्या कुछ व्याख्यात्मक चर जोड़ने से काफी बड़ी मात्रा में विचरण होता है।

एक बार हमारे पास एक महत्वपूर्ण समग्र है एफपरीक्षण, हम जांच कर सकते हैं कि कुछ कारकों के स्तर के अवलोकन पोस्ट-हॉक परीक्षणों में दूसरों की तुलना में काफी भिन्न हैं या नहीं । उदाहरण के लिए, D A, B और C से भिन्न हो सकता है, लेकिन वे एक दूसरे से काफी भिन्न नहीं हो सकते हैं। आप आमतौर पर उपयोग करेंगेटीइसके लिए परीक्षण। यह पहले वाला प्रश्न उपयोगी हो सकता है, साथ ही साथ यह भी


इसलिए, हम समग्र भिन्नता की गणना करने के लिए सभी संख्याओं का उपयोग करते हैं वी, तब हम प्रत्येक समूह के लिए भिन्नताओं की गणना करते हैं vमैं और अंत में हम "माप" प्राप्त करने के लिए इन सभी प्रकारों (शायद समूह आकारों के साथ) को जोड़ते हैं: =(वी,v1,v2,,v,n1,n2,,n)। फिर हम एम की संभावना की गणना करते हैं कि यह जितना बड़ा है या धारणा के तहत भी बड़ा है कि अशक्त परिकल्पना सही है।
रोमन

बिल्कुल सही। आपका एफआंकड़ा। यहाँ वास्तविक सूत्र है।
Stephan Kolassa

सच कहूं तो मैं अभी भी थोड़ा भ्रमित हूं। जहाँ तक मैं आपको मिला, एनोवा एन-हाइपोथीसिस के पी-मूल्य को वापस करता है। लेकिन दूसरी ओर, विकिपीडिया से "प्रेरक उदाहरण" से यह निष्कर्ष निकल सकता है कि एनोवा हमें सबसे अच्छा कारक (या कारकों का एक संयोजन) देता है, जो डेटा को सबसे अच्छा "समझाता है"। इसलिए, उदाहरण में एनोवा का कहना है कि कुत्तों के वजन को समझाने के लिए नस्ल सबसे अच्छा कारक है।
रोमन

1
"बेस्ट" लोडेड है। यह स्टेप वाइज मॉडल-चयन-आधारित-पर-पी-मान क्षेत्र में विकसित होता है, और यह समस्याग्रस्त है। प्रेरक उदाहरण में बहुत अधिक न पढ़ें। इसके बारे में सबसे अच्छी बात यह है कि समझाया गया शून्य का चित्रण (शून्य, थोड़ा, बहुत)। नीचे जाने और पढ़ने के बारे में बेहतर है कि कैसेएफआँकड़ों की गणना वर्गों के योगों के आधार पर की जाती है, और याद रखें कि वर्गों के उन योगों को केवल भिन्नताओं का अनुमान है।
स्टीफ़न कोलासा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.