क्या रैंक के आंकड़ों (स्पीयरमैन सहसंबंध) के लिए एक प्रतिगमन लाइन की साजिश करना "ठीक है"?

मेरे पास डेटा है जिसके लिए मैंने स्पीयरमैन सहसंबंध की गणना की और इसे प्रकाशन के लिए कल्पना करना चाहता हूं। निर्भर चर को रैंक किया गया है, स्वतंत्र चर नहीं है। जो मैं कल्पना करना चाहता हूं वह वास्तविक ढलान की तुलना में सामान्य प्रवृत्ति है, इसलिए मैंने स्वतंत्र को स्थान दिया और स्पीयरमैन सहसंबंध / प्रतिगमन लागू किया। लेकिन जब मैंने अपना डेटा प्लॉट किया और इसे अपनी पांडुलिपि में सम्मिलित करने वाला था, तो मैं इस कथन पर अड़ गया (अपनी वेबसाइट पर :

जब आप स्पीयरमैन रैंक सहसंबंध करते हैं तो आप विवरण या भविष्यवाणी के लिए एक प्रतिगमन रेखा का उपयोग कभी नहीं करेंगे, इसलिए प्रतिगमन रेखा के बराबर की गणना न करें ।

और बादमें

आप स्पीयरमैन रैंक सहसंबंध डेटा को उसी तरह से ग्राफ़ कर सकते हैं जैसे आप एक रेखीय प्रतिगमन या सहसंबंध के लिए करेंगे। हालांकि, ग्राफ पर एक प्रतिगमन लाइन मत डालो ; जब आप रैंक सहसंबंध के साथ इसका विश्लेषण करेंगे तो रेखीय प्रतिगमन रेखा को ग्राफ पर रखना भ्रामक होगा।

बात यह है कि, प्रतिगमन रेखाएं अलग नहीं हैं जब मैं स्वतंत्र रैंक नहीं करता हूं और पियर्सन सहसंबंध की गणना करता हूं । प्रवृत्ति समान है, लेकिन पत्रिकाओं में रंगीन ग्राफिक्स के लिए अत्यधिक शुल्क के कारण मैं मोनोक्रोम प्रतिनिधित्व के साथ गया था और वास्तविक डेटा अंक इतने अधिक ओवरलैप कर रहे हैं कि यह पहचानने योग्य नहीं है।

मैं इसके चारों ओर अपना काम कर सकता था, बेशक, दो अलग-अलग भूखंड बनाकर: डेटा बिंदुओं के लिए एक (रैंक) और प्रतिगमन लाइन के लिए एक (अनक्रैक्ड), लेकिन अगर यह पता चला कि मेरे द्वारा उद्धृत स्रोत गलत है या मुद्दा मेरे मामले में समस्याग्रस्त नहीं है, यह मेरे जीवन को आसान बना देगा। (मैंने भी यह प्रश्न देखा , लेकिन इसने मेरी मदद नहीं की।)

अतिरिक्त जानकारी के लिए संपादित करें:

एक्स-अक्ष पर स्वतंत्र चर सुविधाओं की संख्या का प्रतिनिधित्व करता है और वाई-अक्ष पर आश्रित चर रैंक का प्रतिनिधित्व करता है यदि उनके प्रदर्शन की तुलना में वर्गीकरण एल्गोरिदम। अब मेरे पास कुछ एल्गोरिदम हैं जो औसत पर तुलनीय हैं, लेकिन मैं अपने प्लॉट के साथ जो कहना चाहता हूं वह कुछ इस तरह है: "जबकि क्लासिफायर ए बेहतर हो जाता है और अधिक सुविधाएँ मौजूद होती हैं, कम सुविधाओं के मौजूद होने पर क्लासिफायर बी बेहतर होता है"

मेरे भूखंडों को शामिल करने के लिए 2 संपादित करें:

एल्गोरिदम की रैंक सुविधाओं की संख्या बनाम प्लॉट की गई यहाँ छवि विवरण दर्ज करें

एल्गोरिदम के रैंक रैंक बनाम सुविधाओं की संख्या यहाँ छवि विवरण दर्ज करें

इसलिए, शीर्षक से प्रश्न को दोहराने के लिए:

क्या स्पीयरमैन सहसंबंध / प्रतिगमन के रैंक किए गए डेटा के लिए एक प्रतिगमन रेखा की साजिश करना ठीक है?

— पहरेदार
स्रोत

रैंक में कितनी श्रेणियां हैं? क्या आपने आनुपातिकता धारणा का परीक्षण किया? कई शोधकर्ता हैं जो क्रमिक डेटा (जैसे रैंकिंग) को निरंतर मानते हुए पूरी तरह से ठीक हैं। कभी-कभी यदि बहुत सारी श्रेणियां हैं, तो यह समझ में आता है।

— रॉबिन.डाटड्राइवर्स

सात रैंक हैं, उनका उपयोग फ्रिडमैन टेस्ट के लिए किया जाता है

— संतरी

जवाबों:

एक रैंक-सहसंबंध का उपयोग नोटों के बीच वैरिएंट के बीच मोनोटोनिक एसोसिएशन लेने के लिए किया जा सकता है; जैसे कि आप सामान्य रूप से उस के लिए एक पंक्ति नहीं बना सकते।

ऐसी स्थितियाँ हैं जहाँ यह रैंक-सहसंबंधों का उपयोग करने के लिए सही मायने में संख्यात्मक-वाई बनाम संख्यात्मक-एक्स, चाहे केंडल या स्पीयरमैन (या कुछ अन्य) का उपयोग करने के लिए सही समझ में आता है। चर्चा (और विशेष रूप से, पिछले साजिश) देखें यहाँ ।

हालांकि यह आपकी स्थिति नहीं है। आपके मामले में, मैं मूल डेटा के एक स्कैल्पलॉट को प्रस्तुत करना चाहूंगा, शायद एक सहज संबंध (जैसे LOESS) के साथ।

आप रिश्ते को एकरस होने की उम्मीद करते हैं; आप शायद एक नीरस रिश्ते का अनुमान लगाने और साजिश करने की कोशिश कर सकते हैं। [यहाँ एक R- फंक्शन की चर्चा की गई है जो कि आइसोटोनिक रिग्रेशन को फिट कर सकती है - जबकि उदाहरण है कि आइसोडोनिक आइसोटोनिक नहीं है, फ़ंक्शन आइसोटोनिक फिट कर सकता है।]

इस तरह का एक उदाहरण मैं यहाँ दे रहा हूँ:

यहाँ छवि विवरण दर्ज करें

भूखंड एक्स और वाई के बीच एक मोनोटोनिक संबंध दिखाता है; लाल वक्र एक चिकनी चिकनाई है (इस मामले में R द्वारा उत्पन्न scatter.smooth), जो मोंटोनिक भी होता है (चिकनी फिट प्राप्त करने के तरीके हैं जो मोनोटोनिक होने की गारंटी है, लेकिन इस मामले में डिफ़ॉल्ट लूस चिकनी एकरस था, इसलिए मुझे चिंता करने की आवश्यकता महसूस नहीं हुई।

यहाँ छवि विवरण दर्ज करें
रैंक ऑफ प्लॉट (y) बनाम रैंक (x), एक मोनोटोनिक रिश्ते को दर्शाता है। ग्रीन लाइन रैंक (x) के खिलाफ लूप वक्र फिटेड मानों की रैंक दिखाती है।

$\hat{y}$

यदि आप एक्स के अलावा रैंक (वाई) बनाम कुछ भी प्रदर्शित नहीं कर रहे हैं, तो मुझे लगता है कि मैं भूखंडों पर लाइनों का उपयोग करने से बचूंगा; जहाँ तक मैं देख सकता हूँ कि वे सहसंबंध गुणांक के ऊपर बहुत अधिक मूल्य नहीं देते हैं। और पहले से ही कहा कि आप केवल प्रवृत्ति में रुचि रखते हैं।

[मुझे नहीं पता कि रैंक-वाई बनाम रैंक-एक्स प्लॉट पर एक प्रतिगमन लाइन की साजिश करना गलत है, कठिनाई इसकी व्याख्या होगी।]

— Glen_b -Reinstate मोनिका
स्रोत

धन्यवाद, आपका उत्तर अच्छा है और अच्छी तरह से समझाया गया है। हालाँकि इससे मुझे एहसास हुआ कि मैंने महत्वपूर्ण जानकारी को छोड़ दिया है। क्या यह मेरे द्वारा प्रदान की गई अतिरिक्त जानकारी के साथ अभी भी मान्य है? जब मैं अपने कार्य पीसी पर होता हूं, तो ग्राफ आज बाद में आता है।

— संतरी

मेरे अद्यतन पर एक नज़र डालें और देखें कि क्या आपको लगता है कि किसी भी मूल्य का है।

— Glen_b -Reinstate मोनिका

हां, यह एक सामान्य अर्थ में, लेकिन अधिक मूल्य का है। मैं यह भी मानता हूं कि "गलतता" भूखंड की व्याख्या करने में कठिनाई से आती है। मुझे डर है कि लोग हमेशा यह मानेंगे कि मैं फीचर से रैंक की भविष्यवाणी करना चाहता हूं , भले ही मैं यह कहूं कि मैं केवल प्रवृत्ति दिखाना चाहता हूं ।

— संतरी

अपने भूखंडों को देखते हुए --- आप रैंक दिखाते हैं, लेकिन क्या आपके पास प्रदर्शन के मूल उपाय हैं कि किस रैंक पर आधारित थे?

— Glen_b -Reinstate मोनिका

हां, मैं करता हूं, लेकिन वे यहां इस्तेमाल नहीं किए जा सकते, मेरा विश्वास करो। मेरे अध्ययन का फोकस फ्रीडमैन परीक्षण का उपयोग करते हुए एल्गोरिदम की तुलना करने पर है, जो उन्हें रैंक करता है। अत्यधिक भिन्न प्रदर्शन सीमाओं के साथ कई डेटा सेट होते हैं, इसलिए उनके बीच केवल तुलना ही यहाँ दिलचस्प है।

— संतरी

$\rho$ $X$ $X$ $X$ $Y$ $Y$

— फ्रैंक हैरेल
स्रोत