कई गुना पर आँकड़ों का चित्रमय अंतर्ज्ञान


12

पर इस पोस्ट , आप बयान पढ़ सकते हैं:

मॉडल आमतौर पर अंक का प्रतिनिधित्व कर रहे एक परिमित आयामी कई गुना पर।θ

पर विभेदकों ज्यामिति और सांख्यिकी माइकल मरे और जॉन डब्ल्यू चावल से इन अवधारणाओं को पठनीय भी गणितीय अभिव्यक्ति अनदेखी गद्य में समझाया गया है। दुर्भाग्य से, बहुत कम चित्रण हैं। वही इस पोस्ट के लिए MathOverflow पर जाता है।

मैं मानचित्र के रूप में सेवा करने के लिए एक दृश्य प्रतिनिधित्व के साथ या विषय की अधिक औपचारिक समझ के लिए प्रेरणा के लिए पूछना चाहता हूं।

कई गुना पर अंक क्या हैं? इस ऑनलाइन खोज से यह उद्धरण प्रतीत होता है कि यह इंगित करता है कि यह या तो डेटा बिंदु हो सकता है, या वितरण पैरामीटर:

कई गुना और सूचना ज्यामिति पर आँकड़े दो अलग-अलग तरीके हैं जिनसे अंतर ज्यामिति आँकड़ों से मिलती है। कई गुना आंकड़ों में, यह डेटा है जो कई गुना झूठ है, सूचना ज्यामिति में डेटा , लेकिन संभावना के घनत्व कार्यों के पैरामीटर परिवार को कई गुना माना जाता है। इस तरह के कई गुना सांख्यिकीय सांख्यिकीय के रूप में जाने जाते हैं।Rn


मैंने इस चित्र को यहाँ के स्पर्शरेखा स्थान के स्पष्टीकरण से प्रेरित होकर बनाया है :

यहाँ छवि विवरण दर्ज करें

[ बारे में नीचे टिप्पणी को प्रतिबिंबित करने के लिए संपादित करें :C ] कई गुना, , स्पर्शरेखा स्थान एक बिंदु जुड़े सभी संभावित डेरिवेटिव ("वेग") का सेट है। माध्यम से चल रहे कई गुना पर हर संभव वक्रइसे माध्यम से प्रत्येक वक्र पार से नक्शे के एक सेट के रूप में देखा जा सकता है अर्थात जिसे कंपोज़िशन रूप में परिभाषित किया गया है , with एक वक्र (वास्तविक रेखा से कई गुना ( की सतह तक कार्य करता हैपी एम (ψ: आर एम )पीपी, सी (टी) आर , ( ψ ) ' (टी)ψ एम पी,,पी(M)pM(ψ:RM)p.p,C(t)R,(fψ)(t)ψM) बिंदु माध्यम से चल रहा है और ऊपर चित्र पर लाल रंग में चित्रित किया गया है; और एक परीक्षण समारोह का प्रतिनिधित्व करते हैं। "आइसो- " सफेद समोच्च रेखाएं वास्तविक रेखा पर समान बिंदु पर मैप करती हैं, और बिंदु घेरती हैं ।p,f,fp

तुल्यता (या आँकड़ों के लिए लागू समतुल्य) की यहाँ चर्चा की गई है , और निम्नलिखित उद्धरण से संबंधित होगी :

एक घातीय हेतु प्राचल काल एक हैं, तो आयामी खुला सेट है, तो यह पूर्ण रैंक कहा जाता है।s

एक घातीय परिवार जो पूर्ण रैंक नहीं है, उसे आम तौर पर एक घुमावदार घातीय परिवार कहा जाता है, क्योंकि आमतौर पर पैरामीटर स्पेस से कम आयाम के में वक्र होता है एसRss.

ऐसा लगता है कि प्लॉट की व्याख्या निम्नानुसार है: वितरण संबंधी पैरामीटर (घातांक वितरण के परिवारों के इस मामले में) कई गुना अधिक है। में डेटा बिंदुओं को फ़ंक्शन से एक रैंक की कमी वाले गैर-रेखीय अनुकूलन समस्या के मामले में एक पंक्ति में मैप किया जाएगा । यह भौतिकी में वेग की गणना को समानांतर करेगा: "आइसो-एफ" लाइनों (नारंगी में दिशात्मक व्युत्पन्न) के ढाल के साथ फ़ंक्शन के व्युत्पन्न की तलाश में:समारोह वक्र के रूप में एक वितरणात्मक पैरामीटर के चयन के अनुकूलन की भूमिका अदा कर सकता ψ : आरएम एफ ( ψ ) ' ( टी ) : एमआर ψ Rψ:RMf(fψ)(t).f:MRψ के समोच्च लाइनों के साथ कई गुना पर यात्रा करता है।f


बैकग्राउंड एडेड स्टड:

ध्यान दें, मेरा मानना ​​है कि ये अवधारणाएं एमएल में गैर-रैखिक आयामीता में कमी से संबंधित नहीं हैं । वे सूचना ज्यामिति के लिए अधिक समान हैं । यहाँ एक उद्धरण है:

महत्वपूर्ण रूप से, कई गुना के आंकड़े कई गुना सीखने से अलग हैं। उत्तरार्द्ध मशीन लर्निंग की एक शाखा है, जहां लक्ष्य सेलेक्टेड डेटा से एक अव्यक्त मैनिफोल्ड सीखना है । आमतौर पर, मांग के बाद अव्यक्त कई गुना का आयाम से कम है । अव्यक्त मैनिफोल्ड रैखिक या गैर-रेखीय हो सकता है, जो विशेष रूप से प्रयुक्त विधि पर निर्भर करता है। एनRnn


ऑरेन फ़्रीफ़ेल्ड द्वारा आकृति आकृति विकृति के अनुप्रयोगों के साथ कई गुना आंकड़ों पर निम्न जानकारी :

यहाँ छवि विवरण दर्ज करें

जबकि आमतौर पर , हम एक स्पर्शरेखा स्थान को जोड़ सकते हैं, जिसे द्वारा निरूपित किया जाता है , हर बिंदु के लिए । एक सदिश स्थान है जिसका आयाम के समान है । के मूल पर है । यदि कुछ यूक्लिडियन स्पेस में एम्बेडेड है, तो हम को एक उप- रूप में सोच सकते हैं जैसे: 1) यह को को स्पर्श करता है ; 2) कम से कम स्थानीय रूप से, इसके पक्ष में पूरी तरह से निहित है। TpM के तत्वों को स्पर्शरेखा वैक्टर कहा जाता है।टी पी एम पी एम टी पी एम एम टी पी एम पी एम टी पी एम एम पी एमMTpMpMTpMMTpMpMTpMMpM

[...] कई गुना पर, सांख्यिकीय मॉडल अक्सर स्पर्शरेखा रिक्त स्थान में व्यक्त किए जाते हैं।

[...]

[हम दो पर विचार करते हैं] डेटासेट में बिंदुओं से मिलकर बनता है :M

DL={p1,,pNL}M ;

DS={q1,,qNS}M

आज्ञा देना और दो का प्रतिनिधित्व करते हैं, संभवतः अज्ञात, में अंक । यह माना जाता है कि दो डेटासेट निम्नलिखित सांख्यिकीय नियमों को पूरा करते हैं:µL एमµSM

{ लॉग μ एस ( क्ष 1 ) , , लॉग μ एस ( क्ष एन एस ) } टी μ एस एम ,{logμL(p1),,logμL(pNL)}TμLM,logμL(pi)i.i.dN(0,ΣL) {logμS(q1),,logμS(qNS)}TμSM,logμS(qi)i.i.dN(0,ΣS)

[...]

दूसरे शब्दों में, जब को व्यक्त किया जाता है (स्पर्शरेखा वैक्टर के रूप में ) पर स्पर्शरेखा स्थान ( ) में , इसे covariance साथ शून्य मीन गाऊसी से आईआईडी नमूनों के सेट के रूप में देखा जा सकता है । इसी तरह, जब पर स्पर्श अंतरिक्ष में व्यक्त किया है यह एक शून्य मतलब गाऊसी साथ सहप्रसरण से आईआईडी नमूने का एक सेट के रूप में देखा जा सकता है । यह यूक्लिडियन मामले को सामान्य करता है। एम μ एल Σ एल डी एस μ एस Σ एसDLMμLΣLDSμSΣS

इसी संदर्भ में, मैं इस आलेखीय अवधारणा के सबसे नज़दीकी (और व्यावहारिक रूप से केवल) उदाहरण के बारे में पूछ रहा हूँ:

यहाँ छवि विवरण दर्ज करें

क्या यह दर्शाता है कि स्पर्शरेखा वैक्टर के रूप में व्यक्त कई गुना की सतह पर डेटा झूठ है, और मापदंडों को कार्टेशियन विमान पर मैप किया जाएगा?


1
आप यहां क्या करने की कोशिश कर रहे हैं? कई गुना ड्रा करें? उनमें से ज्यादातर आकर्षित करने के लिए बहुत उबाऊ हैं। उदाहरण के लिए, गाऊसी वितरण का प्रयास करें।
अक्कल

मैं आमतौर पर वेक्टर रिक्त स्थान के रूप में पैरामीटर रिक्त स्थान के बारे में सोचता हूं, उदाहरण के लिए । अगर मैं पैरामीट्रिक "मैनिफोल्ड्स" के बारे में सोचता, तो पहली बात जो दिमाग में आती है, वह है "बाधा प्रणाली" जैसे । अन्यथा, अंतरिक्ष "पूर्ण" क्यों नहीं है? (" एफ ( θ ) = 0θRnf(θ)=0
मेनिफोल्ड

2
उम्मीद है, @whuber साथ आएंगे और उन टिप्पणियों पर विस्तार से बताएंगे जो वह चैट में कर रहे थे।
गंग - मोनिका

1
आपके संपादित प्रश्न का संक्षिप्त उत्तर "नहीं" है। स्पर्शरेखा स्थान कई गुना आसान पथों के वेगों का वर्णन करता है। आंकड़ों में इसकी मुख्य भूमिका संभावना को अधिकतम करने में है, जहां कई गुना अधिक परिमित परिवार का वर्णन करता है। "मैनिफोल्ड लर्निंग में," डेटा को एक स्थानीय सन्निकटन के रूप में कई गुना प्रयोग किया जाता है - यह रैखिक प्रतिगमन में "कॉलम स्पेस" का एक घुमावदार संस्करण है। वहाँ, स्पर्शरेखा स्थान परिवेश यूक्लिडियन स्थान के भीतर सन्निहित है। स्थानीय रूप से, यह डेटा की "दिशाओं" का वर्णन करता है और इसकी सामान्य बंडल "त्रुटि" निर्देश देता है।
whuber

1
हाँ: cotangent अंतरिक्ष पर के आसपास कार्यों के कीटाणुओं के derivations के रूप में परिभाषित किया जा सकता है । पर स्पर्शरेखा स्थान (इसलिए!) बस इसका दोहरा है। और एक टोपोलॉजी प्राप्त करते हैं - अर्थात, दो स्पर्शरेखा रिक्त स्थान और "पास" होने की धारणा को स्वीकार करते हैं - पर समन्वय चार्ट के माध्यम से । यह स्पर्शरेखा स्थान को परिभाषित करने की परिभाषा (और विज़ुअलाइज़ेशन की समस्या) को कम करता है । यह पर उत्पन्न होने वाले सभी वैक्टर का सेट है । स्पिवाक, कैलकुलस इन मेनीफोल्ड्सपी पी पी टी * एम टी एम टी पी एम टी क्यू एम एम टी x आर एन एक्सTpMpppTMTMTpMTqMMTxRnx, इस तरह की एक स्पष्ट, प्राथमिक परिभाषा प्रदान करता है।
whuber

जवाबों:


3

संभाव्यता वितरण के एक परिवार का विश्लेषण किया जा सकता है क्योंकि वितरण के मापदंडों के अनुरूप आंतरिक निर्देशांक के साथ कई गुना है । एक गलत मीट्रिक के साथ एक प्रतिनिधित्व से बचने के लिए विचार है: यूनीवेरेट गॉसियंस मैथेकल को प्लॉट के दाईं ओर के रूप में यूक्लिडिड गुना में बिंदुओं के रूप में प्लॉट किया जा सकता है। अक्ष में माध्य के साथ और अक्ष में SD (प्रसरण की साजिश रचने के मामले में सकारात्मक आधा):एन ( μ , σ 2 ) , आर 2 एक्स y(Θ)N(μ,σ2),R2xy

यहाँ छवि विवरण दर्ज करें

हालाँकि, पहचान मैट्रिक्स (यूक्लिडियन दूरी) अलग-अलग 's की डिग्री को मापने में विफल रहेगी : डोमेन में एक अंतराल दिया, जो ऊपर दिए गए प्लॉट के बाईं ओर है। ओवरलैप के बिना (गहरे नीले रंग में) गौसियन घटता के साथ बड़ा होता है, भले ही इसका मतलब स्थिर रखा जाए। वास्तव में, एकमात्र रीमानियन मीट्रिक जो सांख्यिकीय अर्थ के लिए "समझ में आता है" है, फिशर सूचना मीट्रिक हैpdf

में फिशर जानकारी दूरी: एक ज्यामितीय पढ़ने , कोस्टा एसआई, सैंटोस एसए और Strapasson जेई के बीच समानता का लाभ लेने के गाऊसी वितरण के फिशर जानकारी मैट्रिक्स और मीट्रिक Beltrami-Pointcaré डिस्क मॉडल एक बंद सूत्र प्राप्त करने के लिए।

हाइपरबोलाइड का "उत्तर" शंकु एक गैर-यूक्लिडियन मैनिफोल्ड बन जाता है, जिसमें प्रत्येक बिंदु एक माध्य और मानक विचलन (पैरामीटर स्पेस) से मेल खाता है, और बीच में कम दूरी जैसे और नीचे दिए गए चित्र में, एक जियोडेसिक वक्र है, जिसे भूमध्यरेखीय तल पर हाइपरपरबोलिक स्ट्रेट लाइनों के रूप में प्रक्षेपित (चार्ट मैप) किया जाता है, और मीट्रिक मैट्रिक के माध्यम से बीच की दूरी को मापने में सक्षम बनाता है। - फिशर सूचना मीट्रिक :x2+y2x2=1pdfs,PQ,pdfsgμν(Θ)eμeν

D(P(x;θ1),Q(x;θ2))=minθ(t)|θ(0)=θ1,θ(1)=θ201(dθdt)I(θ)dθdtdt

साथ

I(θ)=1σ2[1002]

यहाँ छवि विवरण दर्ज करें

Kullback-Leibler विचलन बारीकी से ज्यामिति की कमी और मीट्रिक जुड़े यद्यपि, संबंधित है।

और यह ध्यान रखना दिलचस्प है कि फिशर सूचना मैट्रिक्स को शैनॉन एन्ट्रापी के हेसियन के रूप में व्याख्या किया जा सकता है :

gij(θ)=E[2logp(x;θ)θiθj]=2H(p)θiθj

साथ में

H(p)=p(x;θ)logp(x;θ)dx.

यह उदाहरण अवधारणा में समान है जैसा कि अधिक सामान्य स्टीरियोग्राफिक अर्थ मैप है

एमएल बहुआयामी एम्बेडिंग या कई गुना सीखने को यहां संबोधित नहीं किया गया है।


1

संभावनाओं को ज्यामिति से जोड़ने का एक से अधिक तरीका है। मुझे यकीन है कि आपने अण्डाकार वितरण (जैसे गॉसियन) के बारे में सुना होगा । शब्द का अर्थ है ज्यामिति लिंक और यह स्पष्ट है जब आप इसका सहसंयोजक मैट्रिक्स खींचते हैं । मैनिफ़ेस्ट्स के साथ यह समन्वय प्रणाली में बस हर संभव पैरामीटर मान दे रहा है। उदाहरण के लिए, एक गौसियन मैनिफोल्ड दो आयामों में होगा: । आपके पास का कोई भी मान हो सकता है, लेकिन केवल सकारात्मक संस्करण । इसलिए, गौसियन मैनिफोल्ड पूरे स्थान का आधा हिस्सा होगा । दिलचस्प नहीं है μ आर σ 2 > 0 आर 2μ,σ2μRσ2>0R2


मुझे लगता है कि मैंने सोचा था कि एक "कई गुना" को इसके एम्बेडिंग स्पेस की तुलना में कम आयाम माना जाता है? तो एक आधे क्षेत्र की गिनती नहीं होगी?
जियोमैट 22

गाऊसी के साथ यह कई गुना सही भी नहीं है। आपको बाधाओं की आवश्यकता होती है, इसलिए यह किसी प्रकार का विमान या रेखा बन जाता है
अक्षल

मैं अपने जवाब के निहितार्थ को समझने के लिए ... क्या आपका मतलब है "कोशिश कर रहा हूँ एक ज्यामिति लिंक"? इसके अलावा, मैं सिर्फ MathOverflow पर इस संबंधित पोस्ट पाया ।
एंटोनी परेलाडा

3
यह एक उचित मीट्रिक के साथ और अधिक दिलचस्प हो जाता है ... फिशर-राव से एक की तरह है, और फिर पोंकारे अतिशयोक्तिपूर्ण आधा जगह हो जाता है en.wikipedia.org/wiki/Poincar%C3%A9_half-plane_model
माइक

2
सभी के लिए: (1) जो पैरामीट्रिक परिवारों का वर्णन करते हैं वे आंतरिक मैनिफोल्ड हैं: उन्हें किसी भी वेक्टर स्थान में एम्बेड करने की आवश्यकता नहीं है। (२) वे केवल भिन्न भिन्नताओं से अधिक हैं: फिशर सूचना उन्हें रीमानियन मीट्रिक - ए स्थानीय दूरी के साथ संपन्न करती है - जो उन्हें ज्यामितीय रूप से अध्ययन करने में सक्षम बनाती है। यह एक घुमावदार सतह में " संपूर्ण स्थान" का आधा हिस्सा बनाता है । R2
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.