पियर्सन पैरामीट्रिक और स्पीयरमैन गैर पैरामीट्रिक क्यों है


19

जाहिर तौर पर पियर्सन का सहसंबंध गुणांक पैरामीट्रिक है और स्पीयरमैन का आरएच गैर पैरामीट्रिक है।

मुझे यह समझने में परेशानी हो रही है। जैसा कि मैं समझता हूँ कि पियर्सन की गणना में की जाती है और स्पीयरमैन की गणना उसी तरह से की जाती है, सिवाय इसके कि हम उनके रैंक के साथ सभी मूल्यों को प्रतिस्थापित करते हैं।

rxy=cov(X,Y)σxσy

विकिपीडिया कहता है

पैरामीट्रिक मॉडल और गैर-पैरामीट्रिक मॉडल के बीच का अंतर यह है कि पूर्व में मापदंडों की एक निश्चित संख्या होती है, जबकि बाद वाले प्रशिक्षण डेटा की मात्रा के साथ मापदंडों की संख्या को बढ़ाते हैं।

लेकिन मुझे नमूनों को छोड़कर कोई पैरामीटर नहीं दिखता है। कुछ का कहना है कि पैरामीट्रिक परीक्षण सामान्य वितरण को मान लेते हैं और कहते हैं कि पियर्सन सामान्य वितरित डेटा को ग्रहण करता है, लेकिन मैं यह देखने में विफल हूं कि पियर्सन को इसकी आवश्यकता क्यों होगी।

तो मेरा सवाल यह है कि आंकड़ों के संदर्भ में पैरामीट्रिक और गैर पैरामीट्रिक क्या हैं? और पियर्सन और स्पीयरमैन वहां कैसे फिट होते हैं?


6
यह एक अच्छा सवाल है और वहाँ गलत सूचना का एक बहुत कुछ है। उदाहरण के लिए, पैरामीट्रिक परीक्षण और सामान्य वितरण मानने का समीकरण दुर्भाग्य से एक लगातार भ्रम है, जिससे कई पाठ्यपुस्तक के लेखक, पाठ्यक्रम शिक्षक और इंटरनेट पोस्टर सिर्फ दूसरों से कॉपी करते हैं जो कि अधिक या भ्रमित हैं।
निक कॉक्स

5
शायद सवाल का सबसे सरल सकारात्मक संकल्प यह है: हाँ, स्पीयरमैन के सहसंबंध एक रिश्ते की मात्रा का अनुमान लगाने की शक्ति का पैरामीटर है और इसलिए पियर्सन जैसा दिखता है (जड़ में, यह एक ही विचार है, जैसा कि आप बताते हैं); लेकिन नहीं, स्पीयरमैन का सहसंबंध एक वितरण में सुविधाएँ देने वाला पैरामीटर नहीं है, जबकि पियर्सन एक द्विभाजित सामान्य वितरण में एक पैरामीटर है (जब आप सहसंबंध बनाते हैं तो एक ऐतिहासिक लेकिन अब आप क्या कर रहे हैं इसकी व्याख्या की गई है)। यह एक अच्छा अंतर है, जिसे देखकर समझा जा सकता है कि शब्द "पैरामीटर" में कई इंद्रियां हैं।
निक कॉक्स

@NickCox, आप एक उत्तर के रूप में पोस्ट क्यों नहीं करते।
रिचर्ड हार्डी

5
वितरण की सामान्यता के बारे में बात वास्तव में तभी काटती है जब आप सहसंबंध के साथ महत्व परीक्षण करना चाहते हैं। यदि आप केवल वर्णनात्मक उपायों के रूप में सहसंबंधों का उपयोग करते हैं, तो गैर-सामान्यता सहसंबंधों का उपयोग करने के लिए बाधा नहीं होनी चाहिए। सहसंबंध भी दो बाइनरी चर के साथ थोड़ा उपयोगी हो सकता है जब तक दोनों भिन्न होते हैं। आपको अभी भी आउटलेर, इत्यादि के प्रभावों को देखने की आवश्यकता है, आदि
निक कॉक्स

1
चूंकि ऐसा नहीं लगता कि स्पष्ट रूप से अभी तक कहा गया है, इसलिए मैं इस बात पर जोर देना चाहूंगा कि कोई आंकड़ा "पैरामीट्रिक" नहीं है। यह कहना कि संख्याएँ स्वादिष्ट हैं: विशेषण केवल संज्ञा पर लागू नहीं होता है। सांख्यिकीय मॉडल पैरामीट्रिक (विकिपीडिया उद्धरण द्वारा इंगित) के साथ-साथ उन पर आधारित परीक्षण और प्रक्रियाएं हो सकती हैं। स्पीयरमैन और पियरसन सांख्यिकी का उपयोग पैरामीट्रिक और गैर-पैरामीट्रिक दोनों सेटिंग्स में किया जा सकता है। इस पर और अधिक आँकड़े । एक मॉडल पैरामीट्रिक जो बनाता है वह उसका राज्य स्थान है
whuber

जवाबों:


17

समस्या यह है कि "नॉनपैमेट्रिक" वास्तव में इन दिनों दो अलग-अलग अर्थ हैं। विकिपीडिया में परिभाषा गैरपार्मी वक्र वक्र जैसे चीजों पर लागू होती है, जैसे कि स्प्लिन या स्थानीय प्रतिगमन के माध्यम से। दूसरा अर्थ, जो पुराना है, "वितरण-मुक्त" की तर्ज पर अधिक है - अर्थात, ऐसी तकनीकें जिन्हें डेटा के ग्रहण किए गए वितरण की परवाह किए बिना लागू किया जा सकता है। उत्तरार्द्ध वह है जो स्पीयरमैन के आरएचओ पर लागू होता है, क्योंकि रैंक-परिवर्तन का अर्थ है कि यह वही परिणाम देगा जो आपके मूल वितरण का कोई फर्क नहीं पड़ता।


2
नॉनपामेट्रिक के दो अर्थ हैं, लेकिन विकिपीडिया में टिप्पणी वास्तव में दोनों पर लागू होती है। गैरपारंपरिक प्रतिगमन में यह रिश्ते को परिमित-पैरामीट्रिक नहीं होने का उल्लेख करता है। चीजों के 'वितरण-मुक्त' पक्ष में यह वितरण मॉडल को परिमित-पैरामीट्रिक नहीं होने के लिए संदर्भित करता है।
Glen_b -Reinstate मोनिका

1
हम्म, विकिपीडिया से वह उद्धरण मुझे नहीं है। किसी और ने इसे जोड़ा है।
हांग ओई

2
मुख्य संपादन - जो मेरा मानना ​​है कि एक विवरण में गलत है और विशेष रूप से उपयोगी कुछ भी नहीं जोड़ता है - समीक्षा के लिए आया था क्योंकि यह कम = प्रतिनिधि उपयोगकर्ता द्वारा बनाया गया था, और एक व्यक्ति द्वारा अस्वीकार कर दिया गया था, लेकिन तब ऑटो-स्वीकार किया गया था जब एक तीसरे व्यक्ति ने इसे बेहतर बनाने के लिए संपादन करने की कोशिश की (उन्हें पता ही नहीं चला कि यह एक परिणाम होगा)। मैं उस रोल को वापस अपने मूल में संपादित करने जा रहा हूं। आप ऐसा कर सकते हैं कि किसी भी समय कोई ऐसा संपादन हो जो आपको पसंद न हो।
Glen_b -Reinstate मोनिका

अब मैं अपने मूल पद पर वापस आ गया, क्योंकि मुझे लगता है कि यह आपके समझौते की मांग के बिना आपकी पोस्ट को बहुत बदल देता है और ऐसा लगता है जैसे आप इससे सहमत नहीं हैं। अगर आपको इसके बारे में कुछ भी पसंद था, तो मेरे नाम के ऊपर "संपादित ... पहले" लिंक पर क्लिक करें और कॉपी करें कि आपको पहले से क्या क्या पसंद है, फिर इसे संपादित करें और इसे पेस्ट करें।
Glen_b -Reinstate Monica

स्पीयरमैन का उपयोग कब उचित है? जब आप स्पीयरमैन का उपयोग करते हैं तो पियर्सन कैसे मदद कर सकता है?
लेओ लेपोल्ड हर्ट्ज़ '

3

मुझे लगता है कि केवल यही कारण है कि पियर्सन के सहसंबंध गुणांक को पैरामीट्रिक कहा जाएगा क्योंकि आप इसका उपयोग बहुभिन्नरूपी सामान्य वितरण के मापदंडों का अनुमान लगाने के लिए कर सकते हैं। उदाहरण के लिए, बाइवेरेट के सामान्य वितरण में 5 पैरामीटर होते हैं: दो साधन, दो संस्करण और सहसंबंध गुणांक। उत्तरार्द्ध का अनुमान पियरसन सहसंबंध गुणांक के साथ लगाया जा सकता है।

ρ


इस मायने में पीयरसन के सहसंबंध गुणांक पैरामीटर नहीं है कि आपको इसके महत्व का परीक्षण करने के लिए सामान्यता माननी होगी? यही है, यह सामान्यता को एक आंकड़े के रूप में नहीं मानता है, लेकिन आप मानते हैं कि नमूना सहसंबंध गुणांक के वितरण की गणना करते समय डेटा सामान्य है और इसका परीक्षण करें? यह एक ईमानदार सवाल है, मैं 100% गलत हो सकता है।
मर्ग

यदि आप स्पर्म और केंडल में कोई वितरण धारणा करते हैं तो क्या आप इसे समझा सकते हैं?
लेओ लेपोल्ड हर्ट्ज़ '

@ मुर्गन आपको पियर्सन सहसंबंध के महत्व का परीक्षण करने के लिए सामान्यता मानने की ज़रूरत नहीं है; पियरसन सहसंबंध का एक सामान्य परीक्षण ऐसा करता है। आप एक अलग पैरामीट्रिक धारणा बना सकते हैं और एक अलग परीक्षण के साथ आ सकते हैं ... या वास्तव में, कोई अशक्त का एक परीक्षण परीक्षण कर सकता है कि जनसंख्या पियर्सन सहसंबंध शून्य है, जिसके परिणामस्वरूप एक गैर-पैरामीटर परीक्षण होता है।
Glen_b -Reinstate Monica

0

सबसे सरल उत्तर मुझे लगता है कि स्पीयरमैन का आरओएच परीक्षण क्रमिक डेटा (संख्याओं को रैंक किया जा सकता है लेकिन संख्याओं के बीच के अंतराल के बारे में कुछ नहीं बताता है। उदाहरण के लिए आइसक्रीम के 3 स्वादों को 1, 2 और 3 रैंक दिया गया है, लेकिन यह केवल आपको बताता है कि कौन सा स्वाद पसंद किया गया न कि कितना)। पैरामीट्रिक परीक्षणों में साधारण डेटा का उपयोग नहीं किया जा सकता है।

पियर्सन की आर परीक्षण अंतराल या अनुपात डेटा (संख्याएं जो निश्चित अंतराल जैसे सेकंड, किलो, मिमी) का उपयोग करती हैं। 1 मिमी न केवल 5 मिमी से छोटा है, लेकिन आप वास्तव में कितना जानते हैं। इस प्रकार के डेटा का उपयोग पैरामीट्रिक परीक्षण में किया जा सकता है।


1
निश्चित रूप से यह पैरामीट्रिक मॉडल का उपयोग करना संभव है - और इसलिए पैरामीट्रिक परीक्षण - क्रमिक डेटा के साथ। एक को इस चर के लिए एक परिमित के साथ एक वितरण का प्रस्ताव करना चाहिए - और निश्चित - मापदंडों की संख्या, और उन मापदंडों और वॉइला के संबंध में कुछ उपयुक्त परिकल्पना , एक पैरामीट्रिक परीक्षण मौजूद है। पियर्सन सहसंबंध उन स्थितियों में गणना की जाती है जहां एक या दोनों चर में दो श्रेणियां होती हैं (दो अलग-अलग संख्याओं के साथ, आमतौर पर 0/1) उन स्थितियों के लिए आमतौर पर उपयोग किए गए उपायों के अनुरूप होते हैं।
Glen_b -Reinstate मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.