इकाई गेंद से एन नमूनों की उत्पत्ति के लिए निकटतम निकटतम बिंदु के लिए सूत्र की व्याख्या


12

में सांख्यिकीय लर्निंग के तत्वों , एक समस्या उच्च आयामी रिक्त स्थान का k- nn साथ प्रकाश डाला मुद्दों के लिए शुरू की है। कर रहे हैं डेटा बिंदुओं कि समान रूप से एक में वितरित कर रहे आयामी इकाई गेंद।पीNp

मूल से निकटतम डेटा बिंदु की औसत दूरी अभिव्यक्ति द्वारा दी गई है:

d(p,N)=(1(12)1N)1p

जब , सूत्र गेंद के आधे त्रिज्या तक टूट जाता है, और मैं देख सकता हूं कि कैसे निकटतम बिंदु सीमा को रूप में देखता है , इस प्रकार उच्च आयामों में घुटने के पीछे अंतर्ज्ञान बनाते हैं। लेकिन मैं समझ नहीं पा रहा हूं कि फार्मूला एन पर निर्भरता क्यों है। क्या कोई स्पष्ट कर सकता है?पी N=1p

साथ ही पुस्तक इस मुद्दे को आगे बताते हुए कहती है: "... प्रशिक्षण नमूने के किनारों के पास भविष्यवाणी बहुत अधिक कठिन है। एक को पड़ोसी नमूना बिंदुओं से अलग करना चाहिए, न कि उनके बीच में अंतर करना चाहिए"। यह एक गहन कथन की तरह लगता है, लेकिन मैं इसका मतलब समझ नहीं सकता। क्या कोई फिर सकता है?


1
आपको अपने प्रदर्शित समीकरण को थोड़ा संपादित करना होगा। क्या यह घातांक में केवल लिए लागू होता है जिस तरह से यह अब दिखता है, या क्या आप चाहते थे कि यह संपूर्ण पर लागू हो ? 1N112
दिलीप सरवटे

1
यह "हाइपरस्फेयर" (जो कि है को अलग करने में मदद करेगा "यूनिट बॉल" (जिसमें आयाम ) से आयाम का एक गुना होता है । हाइपरस्फेयर गेंद की सीमा है। यदि, जैसा कि आपका शीर्षक कहता है, सभी बिंदु हाइपरस्फियर से नमूने लिए गए हैं , तो - परिभाषा के अनुसार - इन सभी की उत्पत्ति से दूरी है , औसत दूरी , और सभी समान रूप से मूल के करीब हैं। पी-1पी11Rpp1p11
whuber

@DilipSarwate यह पूरे । पुस्तक में एक उदाहरण है जहाँ इतना एन=500,पी=10(पी,एन)0.5212N=500,p=10d(p,N)0.52
user64773

जवाबों:


9

एक की मात्रा त्रिज्या के आयामी hyperball करने के लिए एक मात्रा आनुपातिक है ।आर आर पीprrp

अतः मूल से दूरी से अधिक आयतन का अनुपात ।r p - ( k r ) pkrrp(kr)prp=1kp

संभावना है कि अनियमित रूप से चुने अंक एक दूरी से अधिक हैं मूल से है । मध्य दूरी को निकटतम यादृच्छिक बिंदु पर लाने के लिए, इस संभाव्यता को बराबर सेट करें । Soके आर (- के पी ) एन Nkr(1kp)N (1-kp)N=112

(1kp)N=12
k=(1121/N)1/p.

Intuitively इस अर्थ में किसी प्रकार का बना देता है: अधिक यादृच्छिक अंक देखते हैं, करीब आप मूल के सबसे नजदीक एक, होना करने के लिए, ताकि आप की उम्मीद करनी चाहिए की उम्मीद के एक कम समारोह होने के लिए । यहाँ के एक कम समारोह है , तो का एक बढ़ा हुआ कार्य है इस प्रकार, और है का घटता फलन इसकी वीं जड़ है।एन 2 1 / एन एन 1kN21/NN एन1-1121/NN एनपी1121/NNp


आह, इसे देखने का अच्छा तरीका है। क्या आप मेरे दूसरे प्रश्न में बोली को फिर से व्याख्यायित कर पाएंगे?
user64773

मुझे संदेह है कि यह सुझाव दे सकता है कि उच्च आयामों में, भविष्यवाणी के बिंदु प्रभावी रूप से प्रशिक्षण डेटा से एक लंबा रास्ता तय करते हैं, जैसे कि एक गोले के किनारे पर, इसलिए आप वास्तव में प्रक्षेप नहीं कर रहे हैं, बल्कि अतिरिक्त रूप से, और इसलिए अनिश्चितताएं बहुत अधिक हैं। लेकिन मैं वास्तव में नहीं जानता।
हेनरी

मुझे यह नहीं मिला - मैं समझता हूं कि यह अभिव्यक्ति सभी बिंदुओं के लिए kr से अधिक दूर होने की संभावना है, लेकिन इस संभावना को 1/2 पर सेट करने से माध्य दूरी क्यों मिलती है ??
इदानी

1
@ihadanny: मान त्रिज्या का वह अंश देता है, जहाँ प्रायिकता सभी बिंदुओं से दूर है। , और इसलिए जहां कम से कम एक बिंदु की संभावना करीब है , इसलिए निकटतम बिंदु की दूरी के वितरण का माध्यिका है। एनk=(1121/N)1/pN 1-112 केआर112=12kr
हेनरी

1
मध्यमा की परिभाषा, आधी बड़ी है और आधी छोटी है।
ग्रांट इज़मिरलियन

2

और अब बिना हाथ लहराए

  1. rv के किसी भी क्रम के लिए, जहां सामान्य CDF है

    P(min1iNYi>y)=(1F(y))N,
    F
  2. इस प्रकार अगर हम है समान रूप से वितरित आईआईडी इकाई गेंद में में आयाम है, तो जहां दूरी के आम CDF है, । आखिरकार, में यूनिट बॉल में समान रूप से वितरित बिंदु के लिए सीडीएफ, क्या है ? इकाई त्रिज्या की गेंद के भीतर त्रिज्या r की गेंद पर बिंदु की संभावना वॉल्यूम के अनुपात के बराबर होती है:NXip

    P(min1iN||Xi||>r)=(1F(r))N,
    F||Xi||,i=1,2,,NFRp

F(r)=P(||Xi||r)=Crp/(C1p)=rp

इस प्रकार करने के लिए समाधान

1/2=P(min1iN||Xi||>r)=(1rp)N

है

r=(1(1/2)1/N)1/p.

इसके अलावा नमूने के आकार पर निर्भरता के बारे में आपका प्रश्न, । लिए , जैसा कि गेंद अधिक बिंदुओं से भर जाती है, स्वाभाविक रूप से मूल की न्यूनतम दूरी छोटी हो जानी चाहिए।Np

अंत में, आपके वॉल्यूम के अनुपात में कुछ गड़बड़ है। ऐसा लगता है कि को में यूनिट बॉल का वॉल्यूम होना चाहिए ।kRp


0

संक्षिप्त रूप में लेकिन शब्दों में:

हम आयामों में इकाई त्रिज्या के मूल में समान रूप से वितरित बिंदुओं में मूल के निकटतम बिंदु की औसत दूरी खोजना चाहते हैं । संभावना है कि सबसे छोटी दूरी से अधिक है , (इस मात्रा अभिव्यक्ति को बुलाओ [1]) की संभावना है कि एक समान रूप से वितरित बिंदु से अधिक है , क्योंकि सांख्यिकीय स्वतंत्रता। उत्तरार्द्ध एक न्यूनतम संभावना है कि एक समान रूप से वितरित बिंदु से कम है । उत्तरार्द्ध इकाई त्रिज्या, या की गेंद के त्रिज्या की गेंद के संस्करणों का अनुपात है । हम अब अभिव्यक्ति [1] के रूप में लिख सकते हैंNprNthrrrrp

P(min1iN||Xi||>r)=(1rp)N.

न्यूनतम दूरी के वितरण के माध्यिका को खोजने के लिए, उपरोक्त संभावना को सेट करें और उत्तर प्राप्त करते हुए लिए हल करें ।1/2r

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.