महालनोबिस दूरी के शीर्ष विवरण के नीचे?


127

मैं पैटर्न मान्यता और आँकड़ों का अध्ययन कर रहा हूँ और लगभग हर पुस्तक मैं उस विषय पर खोलता हूँ जिसे मैं महालनोबिस दूरी की अवधारणा से टकराता हूँ । किताबें सहज ज्ञान युक्त व्याख्याएं देती हैं, लेकिन फिर भी मेरे लिए बहुत अच्छे नहीं हैं जो वास्तव में वास्तव में समझते हैं कि क्या चल रहा है। अगर कोई मुझसे पूछे कि "महालनोबिस दूरी क्या है?" मैं केवल उत्तर दे सकता था: "यह अच्छी बात है, जो किसी प्रकार की दूरी को मापता है" :)

परिभाषाओं में आमतौर पर आइजनवेक्टर और ईजेनवेल्यूज़ भी होते हैं, जिनसे मुझे महालनोबिस दूरी से जुड़ने में थोड़ी परेशानी होती है। मैं eigenvectors और eigenvalues ​​की परिभाषा को समझता हूं, लेकिन वे महालनोबिस दूरी से कैसे संबंधित हैं? क्या यह रैखिक बीजगणित आदि में आधार को बदलने के साथ कुछ करने के लिए है?

मैंने इस विषय पर इन पूर्व प्रश्नों को भी पढ़ा है:

मैंने इसका स्पष्टीकरण भी पढ़ा है

उत्तर अच्छे हैं और चित्र अच्छे हैं, लेकिन फिर भी मैं वास्तव में इसे प्राप्त नहीं करता ... मुझे एक विचार है लेकिन यह अभी भी अंधेरे में है। क्या कोई "अपनी दादी को यह कैसे समझाएगा" - क्या आप इसे समझा सकते हैं ताकि मैं अंत में इसे लपेट सकूं और कभी भी आश्चर्य नहीं कर सकता कि बिल्ली महालनोबिस दूरी क्या है? :) यह कहाँ से आता है, क्या, क्यों?

अपडेट करें:

यहाँ कुछ है जो महालनोबिस सूत्र को समझने में मदद करता है:

https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-ellipsoid

जवाबों:


188

यहां कुछ बहुभिन्नरूपी डेटा (दो आयामों में) का विस्‍तार दिया गया है:

यहां छवि विवरण दर्ज करें

कुल्हाड़ी छूटने पर हम इसका क्या कर सकते हैं?

यहां छवि विवरण दर्ज करें

उन निर्देशांकों का परिचय दें जो डेटा द्वारा स्वयं सुझाए गए हैं।

मूल अंक के केन्द्रक (उनके औसत की बात) पर किया जाएगा। पहले समन्वय अक्ष (अगले चित्र में नीला) अंक, जो (परिभाषा के द्वारा) किसी भी दिशा में विचरण सबसे बड़ी है है की "मेरुदण्ड" के साथ विस्तार होगा। दूसरा समन्वय अक्ष (चित्र में लाल) पहले एक के लंबवत का विस्तार होगा। (दो से अधिक आयामों में, इसे उस लंबवत दिशा में चुना जाएगा, जिसमें विचरण जितना संभव हो उतना बड़ा हो, और इसी तरह)

यहां छवि विवरण दर्ज करें

हमें एक पैमाना चाहिए । प्रत्येक अक्ष के साथ मानक विचलन कुल्हाड़ियों के साथ इकाइयों को स्थापित करने के लिए अच्छी तरह से करेंगे। 68-95-99.7 नियम याद रखें: अंक का लगभग दो-तिहाई (68%) मूल (अक्ष के साथ) की एक इकाई के भीतर होना चाहिए; लगभग 95% दो इकाइयों के भीतर होना चाहिए। यह सही इकाइयों को आसान बनाने के लिए बनाता है। संदर्भ के लिए, इस आंकड़े में इन इकाइयों में यूनिट सर्कल शामिल है:

यहां छवि विवरण दर्ज करें

यह वास्तव में एक चक्र की तरह नहीं दिखता है, यह करता है? ऐसा इसलिए है क्योंकि यह चित्र विकृत है (जैसा कि दो अक्षों पर संख्याओं के बीच अलग-अलग स्पेसिंग द्वारा दर्शाया गया है)। आइए इसे कुल्हाड़ियों के साथ उनकी उचित झुकावों में छोड़ दें - बाएं से दाएं और नीचे से ऊपर - और एक इकाई पहलू अनुपात के साथ ताकि एक इकाई क्षैतिज रूप से खड़ी एक इकाई के बराबर हो।

यहां छवि विवरण दर्ज करें

आप इस चित्र में महालनोबिस की दूरी को मापते हैं न कि मूल में।

यहाँ क्या हुआ? हम डेटा को यह बताते हैं कि स्कैल्पलॉट में माप बनाने के लिए एक समन्वय प्रणाली का निर्माण कैसे करें। बस इतना ही। यद्यपि हमारे पास रास्ते बनाने के लिए कुछ विकल्प थे (हम हमेशा या तो या दोनों अक्षों को उल्टा कर सकते थे; और दुर्लभ स्थितियों में " स्पाइन्स " के साथ दिशा-निर्देश - प्रमुख दिशा-निर्देश अद्वितीय नहीं हैं), वे दूरियां नहीं बदलते हैं अंतिम साजिश में।


तकनीकी टिप्पणियां

(दादी के लिए नहीं, जो शायद प्लॉटों पर दोबारा नंबर आने के बाद दिलचस्पी खोने लगी थीं, लेकिन उन बचे हुए सवालों को हल करने के लिए जो सामने आए थे।

  • नई कुल्हाड़ियों के साथ यूनिट वैक्टर eigenvectors हैं (या तो सहसंयोजक मैट्रिक्स या इसके व्युत्क्रम के)।

  • हमने ध्यान दिया कि एक वृत्त बनाने के लिए दीर्घवृत्त को अविभाजित करने से मानक विचलन द्वारा प्रत्येक ईजेनवेक्टर के साथ दूरी को विभाजित किया जाता है: कोवरियन का वर्गमूल। दे सहप्रसरण समारोह के लिए स्टैंड, नया (महालनोबिस) के बीच दो अंक दूरी और दूरी से है करने के लिए के वर्गमूल से विभाजित । संबंधित बीजगणितीय संक्रियाएं, मैट्रिक्स के रूप में अपने प्रतिनिधित्व के संदर्भ में अब सोचती हैं और वैक्टर के रूप में उनके अभ्यावेदन के संदर्भ में और , को लिखा जाता है । यह कामCxyxyC(xy,xy)Cxy(xy)C1(xy)वैक्टर और मैट्रिस का प्रतिनिधित्व करने के लिए किस आधार का उपयोग किया जाता है, इसकी परवाह किए बिना। विशेष रूप से, यह मूल निर्देशांक में महालनोबिस दूरी के लिए सही सूत्र है

  • अंतिम चरण में कुल्हाड़ियों का विस्तार करने वाली मात्राएं व्युत्क्रम सहसंयोजक मैट्रिक्स की (प्रति वर्ग) की स्वजातियां हैं। समान रूप से, कुल्हाड़ी मैट्रिक्स के eigenvalues ​​की (जड़ें) द्वारा कुल्हाड़ियों को सिकोड़ती हैं । इस प्रकार, जितना अधिक तितर बितर होता है, उतना ही सिकुड़ने के लिए उस दीर्घवृत्त को एक चक्र में बदलने की आवश्यकता होती है।

  • यद्यपि यह प्रक्रिया हमेशा किसी भी डेटासेट के साथ काम करती है, यह डेटा के लिए यह अच्छा (शास्त्रीय फुटबॉल के आकार का बादल) दिखता है जो लगभग बहुभिन्नरूपी सामान्य हैं। अन्य मामलों में, औसत बिंदु डेटा के केंद्र का अच्छा प्रतिनिधित्व नहीं हो सकता है या "स्पाइन" (डेटा में सामान्य रुझान) को प्रसार के माप के रूप में विचरण का उपयोग करके सटीक रूप से पहचाना नहीं जाएगा।

  • समन्वय की उत्पत्ति, घूर्णन, और कुल्हाड़ियों के विस्तार सामूहिक रूप से एक बदलाव का निर्माण होता है। उस प्रारंभिक पारी के अलावा, यह मूल एक (नए यूनिटों के एक विकल्प का उपयोग करके) के साथ मूल एक (सकारात्मक समन्वय दिशाओं में इंगित इकाई वैक्टर का उपयोग करके) के आधार पर परिवर्तन है।

  • प्रिंसिपल कंपोनेंट्स एनालिसिस (पीसीए) के साथ एक मजबूत संबंध है । यह अकेला "जहां से आता है" और "क्यों" से सवाल करता है, यह समझाने की दिशा में एक लंबा रास्ता तय करता है - यदि आप पहले से ही डेटा का उपयोग करने वाले निर्देशांक निर्धारित करने और उनके वर्णन को मापने के लिए लालित्य और उपयोगिता से आश्वस्त नहीं थे मतभेद।

  • बहुभिन्नरूपी सामान्य वितरणों के लिए (जहाँ हम बिंदु बादल के अनुरूप गुणों के बजाय प्रायिकता घनत्व के गुणों का उपयोग करके एक ही निर्माण कर सकते हैं), महालनोबिस दूरी (नए मूल में) अभिव्यक्ति में " " के स्थान पर दिखाई देती है। जो मानक सामान्य वितरण की संभावना घनत्व की विशेषता है। इस प्रकार, नए निर्देशांक में, एक बहुभिन्नरूपी सामान्य वितरण मानक सामान्य दिखता हैxexp(12x2)जब उत्पत्ति के माध्यम से किसी भी लाइन पर प्रोजेक्ट किया जाता है। विशेष रूप से, यह नए निर्देशांक में से प्रत्येक में मानक सामान्य है। इस दृष्टिकोण से, एकमात्र पर्याप्त अर्थ जिसमें बहुभिन्नरूपी सामान्य वितरण एक दूसरे के बीच भिन्न होते हैं, वे कितने आयामों का उपयोग करते हैं। (ध्यान दें कि यह संख्या आयामों की हो सकती है, और कभी-कभी, आयामों की नाममात्र संख्या से कम होती है।)


3
क्या किसी को जिज्ञासु होना चाहिए, एक परिवचन परिवर्तन है "एक परिवर्तन है जो सीधी रेखाओं को संरक्षित करता है ... और सीधी रेखा पर स्थित बिंदुओं के बीच दूरियों का अनुपात"। (@whuber, मैं तुम्हें बुलेटेड बिंदु में कुछ इस तरह जोड़ सकते हैं, तो पता नहीं है।)
गुंग

@ सुंग के रूपांतरों के बारे में मेरा उल्लेख तुरंत उनमें से एक लक्षण वर्णन द्वारा किया गया है: एक अनुवाद जिसके बाद एक परिवर्तन हुआ। मैंने इस भाषा को चुना क्योंकि यह प्रश्न में उपयोग की गई समान है। (हम "के आधार के परिवर्तन" लेने के लिए कुछ हद तक उदारतापूर्वक गैर उलटी रैखिक परिवर्तनों समाहित करने के लिए है: कि एक मुद्दा पीसीए, के लिए महत्वपूर्ण है जो प्रभावी रूप से आधार तत्वों में से कुछ बूँदें है।)
whuber

13
@whuber, आपकी व्याख्या शायद सबसे अच्छी एक है जिसे मैंने कभी देखा है। आमतौर पर, जब यह समझाया जाता है, तो यह बहुत सारगर्भित होता है, जब उन्होंने दीर्घवृत्त और गोले का उल्लेख किया, और वे यह दिखाने में विफल रहे कि उनका क्या मतलब है। कुदोस आपको यह प्रदर्शित करने के लिए है कि कैसे धुरी परिवर्तन डेटा वितरण को "गोले" में बदल देता है ताकि डेटा के माध्यम से डेटा के एसडीडी के गुणकों के रूप में दूरी को "देखा" जा सके, जैसा कि एक आयामी के लिए आसानी से मामला है। डेटा। यह दृश्य मेरे विचार में महत्वपूर्ण है, और दुर्भाग्य से विषय पर अधिकांश चर्चाओं से बचा हुआ है। अच्छी नौकरी --- आपकी व्याख्या

क्या एक मजबूत पीसीए है? एक भिन्नता जो हमें सहसंयोजक मैट्रिक्स के आकार को देखते हुए बाहरी डेटा बिंदुओं को दूर करने की अनुमति देती है?
19

@ निश्चित रूप से: सहसंयोजक मैट्रिक्स के किसी भी मजबूत अनुमान से एक मजबूत पीसीए बन जाएगा। अन्य प्रत्यक्ष विधियां मौजूद हैं, जैसा कि मजबूत पीसीए के बारे में सवालों के जवाब में उनके द्वारा इंगित किया गया है
whuber

37

मेरी दादी खाना बनाती हैं। आपका भी हो सकता है। पाक कला आँकड़ों को पढ़ाने का एक स्वादिष्ट तरीका है।

कद्दू Habanero कुकीज़ कमाल कर रहे हैं! इस बारे में सोचें कि क्रिसमस की दावत में दालचीनी और अदरक कितना अद्भुत हो सकता है, तो एहसास करें कि वे अपने आप पर कितने गर्म हैं।

इसकी सामाग्री है:

  • हैबानो मिर्च (10, बीजयुक्त और बारीक कीमा बनाया हुआ)
  • चीनी (1.5 कप)
  • मक्खन (1 कप)
  • वेनिला अर्क (1 चम्मच)
  • अंडे (2 मध्यम)
  • आटा (2.75 कप)
  • बेकिंग सोडा (1 चम्मच)
  • नमक (1 चम्मच)

अपने डोमेन के संघटक कुल्हाड़ियों के लिए अपने समन्वित अक्षों की कल्पना करें। चीनी। आटा। नमक। बेकिंग सोडा। उन दिशाओं के साथ भिन्नता, बाकी सभी समान होने के कारण, स्वाद की गुणवत्ता पर लगभग प्रभाव नहीं पड़ता है, जैसा कि हैबानो मिर्च की गिनती में भिन्नता है। आटा या मक्खन में 10% परिवर्तन इसे कम महान बनाने वाला है, लेकिन हत्यारा नहीं। बस थोड़ी सी अधिक मात्रा में हब्बेरो जोड़ने से आपको नशे की लत-मिठाई से टेस्टोस्टेरोन आधारित दर्द-प्रतियोगिता में एक स्वाद की चट्टान पर दस्तक मिलेगी।

महालनोबिस "संघटक संस्करणों" में उतनी दूरी नहीं है जितनी "सर्वश्रेष्ठ स्वाद" से दूर है। वास्तव में "शक्तिशाली" अवयव, बहुत भिन्नता के प्रति संवेदनशील हैं, वे हैं जिन्हें आपको सबसे सावधानी से नियंत्रित करना चाहिए।

यदि आप किसी भी गौसियन वितरण बनाम मानक सामान्य वितरण के बारे में सोचते हैं , तो क्या अंतर है? केंद्र और केंद्रीय प्रवृत्ति (माध्य) और भिन्नता की प्रवृत्ति (मानक विचलन) के आधार पर पैमाने। एक दूसरे का समन्वय रूपांतर है। महालनोबिस वह परिवर्तन है। यह आपको दिखाता है कि दुनिया क्या देखती है यदि आपकी रुचि का वितरण गौसियन के बजाय मानक सामान्य के रूप में फिर से कास्ट किया गया था।


4
गाऊसी वितरण कर रहे हैं सामान्य वितरण, तो क्या अंतर आप अपने पिछले पैराग्राफ में बनाने की कोशिश कर रहे हैं?
whuber

1
@Huber - मानक। मेरा मतलब था मानक। सोचा मैंने कहा। संपादित इतिहास की जांच करनी चाहिए। निम्नलिखित वाक्य मुख्य विचार को दोहराते हैं।
EngrStudent

2
आप "से तो क्या मतलब है गाऊसी वितरण"?
whuber

1
बेहतर? यह किसी भी माध्य और विचरण के साथ गॉसियन वितरण हो सकता है - लेकिन मानक विचलन द्वारा औसत और स्केलिंग घटाकर मानक सामान्य में रूपांतरित नक्शे।
EngrStudent

4
हां, अब यह साफ हो गया है। मैं हैरान हूं कि आप एक ही चीज़ को संदर्भित करने के लिए दो शब्दों (गौसियन और सामान्य) का उपयोग क्यों करते हैं, लेकिन यह ठीक है कि अब आपने इसे समझाया है। मैं आपके अंतिम दावे के बारे में थोड़ा उलझन में हूं, जो यह कहता है कि प्रत्येक बहुभिन्नरूपी वितरण को एक मानक सामान्य में बदल दिया जा सकता है (जो कि आपके द्वारा लिंक की गई परिभाषा के अनुसार एकतरफा है ): मुझे लगता है कि इसका मतलब है कि आप मानक दिख सकते हैं प्रत्येक घटक में सामान्य बावजूद, आप के साथ शुरू होने वाली उपमा अच्छी है।
whuber

10

एक प्रारंभिक बिंदु के रूप में, मैं हमेशा की तरह इयूक्लिडियन दूरी का एक उपयुक्त विरूपण के रूप में महालनोबिस दूरी देखना होगा के बीच वैक्टर और में । यहां जानकारी का अतिरिक्त टुकड़ा यह है कि और वास्तव में यादृच्छिक वैक्टर हैं, यानी यादृच्छिक चर के वेक्टर के 2 अलग-अलग अहसास , जो हमारी चर्चा की पृष्ठभूमि में हैं। महालनोबिस ने जो सवाल करने की कोशिश की वह निम्नलिखित है:d(x,y)=x,yxyRnxyX

"मैं और बीच" असमानता "को कैसे माप सकता हूं , यह जानते हुए कि वे एक ही मल्टीवेट पैरा वेरिएबल की प्राप्ति हैं?" xy

स्पष्ट रूप से स्वयं के साथ किसी भी बोधन की असमानता 0 के बराबर होनी चाहिए; इसके अलावा, असंगति को साकार का एक सममित कार्य होना चाहिए और पृष्ठभूमि में एक यादृच्छिक प्रक्रिया के अस्तित्व को प्रतिबिंबित करना चाहिए। इस अंतिम पहलू को बहुभिन्नरूपी यादृच्छिक चर के सहसंयोजक मैट्रिक्स को शुरू करने पर ध्यान दिया जाता है ।xC

उपरोक्त विचारों को एकत्रित करते हुए हम स्वाभाविक रूप से काफी कम पहुंचते हैं

D(x,y)=(xy)C1(xy)

यदि मल्टीवेरिएट रैंडम वैरिएबल के घटक होते हैं, उदाहरण के लिए, (हम सामान्य रूप से " 'है) ताकि ), तो महालनोबिस दूरी है के बीच इयूक्लिडियन दूरी और । गैर तुच्छ सहसंबंधों की उपस्थिति में, अनुमानित (अनुमानित) सहसंबंध मैट्रिक्स यूक्लिडियन दूरी को "विकृत" करता है।XiX=(X1,,Xn)Cij=δijXiVar(Xi)=1D(x,y) xyC(x,y)


9

आइए दो चर मामले पर विचार करें। सामान्य (bivariate) की इस तस्वीर को देखकर (धन्यवाद @whuber), आप बस यह दावा नहीं कर सकते कि AB AC से बड़ा है। एक सकारात्मक सहसंयोजक है; दो चर एक दूसरे से संबंधित हैं।

आप साधारण यूक्लिडियन माप (एबी और एसी जैसी सीधी रेखाएं) तभी लागू कर सकते हैं जब चर हैं

  1. स्वतंत्र
  2. 1 के बराबर संस्करण हैं।

अनिवार्य रूप से, महालनोबिस दूरी माप निम्नलिखित करता है: यह चर को 1 के बराबर भिन्न वाले चर में बदल देता है, और फिर साधारण यूक्लिडियन दूरी की गणना करता है।


1
क्या आप सुझाव दे रहे हैं कि हर बार जब मैं आपके उत्तर में दिखाए गए ग्राफ में एक सहसंबंध देखता हूं, तो मुझे केवल यूक्लिडियन दूरी के बजाय महालनोबिस की गणना करने के बारे में सोचना चाहिए? मुझे बताओ कि कब कौन सा उपयोग करना है?
संदीप

7

मैं आपको बस यथा संभव समझाने की कोशिश करूँगा:

महालनोबिस दूरी डेटा वितरण से बिंदु x की दूरी को मापता है। डेटा वितरण को माध्य और सहसंयोजक मैट्रिक्स द्वारा विशेषता दी जाती है, इस प्रकार एक बहुभिन्नरूपी गॉसियन के रूप में परिकल्पित किया जाता है।

इसका उपयोग पैटर्न पहचान में पैटर्न (एक वर्ग के प्रशिक्षण उदाहरण का डेटा वितरण) और परीक्षण उदाहरण के बीच समानता माप के रूप में किया जाता है। सहसंयोजक मैट्रिक्स यह बताता है कि फीचर स्पेस में डेटा कैसे वितरित किया जाता है।

आंकड़ा तीन अलग-अलग वर्गों को इंगित करता है और लाल रेखा प्रत्येक कक्षा के लिए समान महालनोबिस दूरी को इंगित करता है।  लाल रेखा पर पड़े सभी बिंदुओं की कक्षा माध्य से समान दूरी है, क्योंकि इसका उपयोग सहसंयोजक मैट्रिक्स द्वारा किया जाता है।

आंकड़ा तीन अलग-अलग वर्गों को इंगित करता है और लाल रेखा प्रत्येक कक्षा के लिए समान महालनोबिस दूरी को इंगित करता है। लाल रेखा पर पड़े सभी बिंदुओं की कक्षा माध्य से समान दूरी है, क्योंकि इसका उपयोग सहसंयोजक मैट्रिक्स द्वारा किया जाता है।

मुख्य विशेषता एक सामान्यीकरण कारक के रूप में कोवरियन का उपयोग है।


6

व्हीबर के उत्कृष्ट उत्तर के लिए मैं थोड़ी तकनीकी जानकारी जोड़ना चाहूंगा। यह जानकारी शायद दादी की रुचि में न हो, लेकिन शायद उनके पोते को यह मददगार लगे। निम्नलिखित प्रासंगिक रैखिक बीजगणित का नीचे-से-ऊपर विवरण है।

महालनोबिस दूरी को रूप में परिभाषित किया गया है , जहां कुछ डेटा के लिए सहसंयोजक मैट्रिक्स का एक अनुमान है; इसका मतलब यह सममित है। अनुमान किया कॉलम हैं रैखिक रूप से निर्भर नहीं हैं, सकारात्मक निश्चित है। सममित मैट्रिसेस तिरछे होते हैं और उनके ईजेनवेल्स और ईजेनवेक्टर असली होते हैं। पीडी मेट्रिसेस में आइजनवेल्स होते हैं जो सभी सकारात्मक होते हैं। Eigenvectors को यूनिट की लंबाई के लिए चुना जा सकता है, और वे ऑर्थोगोनल (यानी ऑर्थोनॉर्मल) हैं इसलिए हम और लिख सकते हैं। । दूरी परिभाषा में प्लग करना,d(x,y)=(xy)TΣ1(xy)ΣΣΣΣ=QTDQΣ1=QD12D12QTd(x,y)=[(xy)TQ]D12D12[QT(xy)]=zTz । स्पष्ट रूप से वर्ग कोष्ठक में उत्पाद स्थानान्तरण हैं, और द्वारा गुणा का प्रभाव वेक्टर को एक ऑर्थोगोनल आधार में घुमा रहा है। अंत में, , जो विकर्ण है, और विकर्ण पर प्रत्येक तत्व को सम्मिलित करके बनता है, फिर वर्गमूल ले रहा है, प्रत्येक वेक्टर के प्रत्येक तत्व को rescaling है। वास्तव में, ऑर्थोगोनल स्पेस में प्रत्येक फीचर का उलटा मानक विचलन है (यानीQ(xy)D12D12D1एक सटीक मैट्रिक्स, और क्योंकि डेटा एक ऑर्थोगोनल आधार में हैं, मैट्रिक्स विकर्ण है)। इसका प्रभाव यह है कि व्हिबर एक घुमाए गए दीर्घवृत्त को अपनी कुल्हाड़ियों को "समतल" करके एक सर्कल में बदल देता है। स्पष्ट रूप से को इकाइयों में मापा जाता है, इसलिए वर्गमूल लेने से दूरी मूल इकाइयों में वापस आ जाती है।zTz


5

मुझे इस प्रश्न का उत्तर देने में थोड़ी देर हो सकती है। में इस पत्र यहाँ महालनोबिस दूरी समझने के लिए एक अच्छी शुरुआत है। वे संख्यात्मक मूल्यों के साथ एक पूर्ण उदाहरण प्रदान करते हैं। मैं इसके बारे में क्या पसंद करता हूं समस्या का ज्यामितीय प्रतिनिधित्व प्रस्तुत किया गया है।


4

बस ऊपर के उत्कृष्ट स्पष्टीकरणों को जोड़ने के लिए, महालनोबिस दूरी स्वाभाविक रूप से (बहुभिन्नरूपी) रैखिक प्रतिगमन में उत्पन्न होती है। यह महालनोबिस दूरी और गाऊसी वितरण के बीच कुछ कनेक्शनों का एक सरल परिणाम है, जो अन्य उत्तरों में चर्चा करते हैं, लेकिन मुझे लगता है कि यह वैसे भी वर्तनी के लायक है।

मान लें कि हमारे पास कुछ डेटा , साथ में और । मान हैं कि एक पैरामीटर वेक्टर और एक पैरामीटर मैट्रिक्स जैसे कि , जहाँ iid -dimensional Gaussian यादृच्छिक वैक्टर हैं जिनका माध्य और सहसंयोजक (और वे स्वतंत्र हैं )। तब दिया माध्य के साथ गाऊसी है(x1,y1),,(xN,yN)xiRnyiRmβ0Rmβ1Rm×nyi=β0+β1xi+ϵiϵ1,,ϵNm0Cxiyixiβ0+β1xi और सहप्रसरण ।C

यह निम्नानुसार है कि दी गई ( कार्य के रूप में नकारात्मक लॉग- द्वारा दी गई है हम को स्थिर करने के लिए ले रहे हैं , इसलिए जहां बीच की महालनोबिस दूरी हैyixiβ=(β0,β1)

logp(yixi;β)=m2log(2πdetC)+12(yi(β0+β1xi))C1(yi(β0+βxi)).
C
argminβ[logp(yixi;β)]=argminβDC(β0+β1xi,yi),
DC(y^,y)=(yy^)C1(yy^)
y^,yRm

स्वतंत्रता, लॉग-संभावना से की दिए गए को योग इसलिए, जहां कारक , अर्गमिन को प्रभावित नहीं करता है।logp(yx;β)y=(y1,,yN)x=(x1,,xN)

logp(yx;β)=i=1Nlogp(yixi;β)
argminβ[logp(yx;β)]=argminβ1Ni=1NDC(β0+β1xi,yi),
1/N

सारांश में, गुणांक जो अवलोकन किए गए डेटा की नकारात्मक लॉग- (यानी अधिकतम संभावना) को कम करते हैं, वे महालानीसिस दूरी द्वारा दिए गए नुकसान फ़ंक्शन के साथ डेटा के अनुभवजन्य जोखिम को कम करते हैं।β0,β1


1
खैर, काफी नहीं। अनुरूप यह शब्द चीजों को काफी बदल देता है। और अगर आप अन्य आयाम पर ध्यान केंद्रित किया लगते हैं: महालनोबिस दूरी वास्तव में एक बहुत अधिक महत्वपूर्ण भूमिका निभाता है , आयामी स्तंभों के आधार पर फैला अंतरिक्ष क्योंकि उस का लाभ उठाने से संबंधित है। पाठक संभवतः इस बात से भ्रमित होंगे, हालाँकि, आपके अंकन में और की भूमिकाओं के उलट होने के कारण : पैरामीटर वेक्टर और डिज़ाइन मैट्रिक्स है! logdetCnxβxβ
व्हीबर

मेरा अभिप्राय एकल लेबल प्रशिक्षण उदाहरण (इसलिए यहां कोई डिज़ाइन मैट्रिक्स नहीं को दर्शाने के लिए ) था; कारण एक सदिश है कि मैं बहुभिन्नरूपी प्रतिगमन कर रहा हूं (अन्यथा शोर शब्द एक एकल चर गाऊसी होगा, कोई सहसंयोजक मैट्रिक्स नहीं होगा, और उदाहरण बहुत तुच्छ लग सकता है)। शायद मेरी धारणा गैर-मानक है, क्योंकि मेरी पृष्ठभूमि आंकड़ों में नहीं है। टर्म की उपस्थिति के बारे में , मेरा मतलब है कि वह । (x,y)yϵlogdetCargminβ[logp(yx;β)]=argminβ(yβx)C1(yβx)
बेन सीडब्ल्यू

पाठकों को अनुमान लगाने की आवश्यकता के बजाय आपके प्रतीकों का संदर्भ क्या है, यह बताना महत्वपूर्ण है। संभवतः आपका स्पष्टीकरण एक अच्छा है, लेकिन उस स्पष्टीकरण के बिना (जो आपने उस नवीनतम टिप्पणी के साथ शुरू किया है) मुझे संदेह है कि अधिकांश पाठकों को आपके अर्थ को समझने में परेशानी होगी।
व्हीबर

2
में तुम्हारी बात समझ रहा हूँ। मैंने इन टिप्पणियों में कुछ विचारों को शामिल करने के लिए मूल उत्तर को संपादित किया है।
बेन सीडब्ल्यू

2

महालनोबिस दूरी एक यूक्लिडियन दूरी (प्राकृतिक दूरी) है जो डेटा के सह-अस्तित्व को ध्यान में रखती है। यह शोर करने वाले घटक को एक बड़ा वजन देता है और इसलिए दो डेटासेट के बीच समानता की जांच करने के लिए बहुत उपयोगी है।

जैसा कि आप अपनी छूट यहां देख सकते हैं जब चर संबंधित होते हैं, तो वितरण को एक दिशा में स्थानांतरित कर दिया जाता है। आप इस प्रभाव को दूर करना चाह सकते हैं। यदि आप अपनी दूरी में सहसंबंध को ध्यान में रखते हैं, तो आप शिफ्ट प्रभाव को हटा सकते हैं।


2
मेरा मानना ​​है कि महालनोबिस की दूरी बड़े-बड़े कोविरियस दिशाओं को प्रभावी ढंग से घटाती है, बजाय इसके कि वहां "बड़ा" वेट दिया जाए।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.