क्या कोई समझा सकता है कि मैं हस्ति की ईएसएल बुक से इस समस्या के बारे में 5 साल का हूं?


9

मैं हस्ती की ईएसएल पुस्तक के माध्यम से काम कर रहा हूं, और मुझे प्रश्न 2.3 के साथ कठिन समय मिल रहा है। प्रश्न इस प्रकार है:

यहाँ छवि विवरण दर्ज करें

हम मूल पर एक निकटतम पड़ोसी अनुमान पर विचार कर रहे हैं, और मूल से निकटतम डेटा बिंदु तक की औसत दूरी इस समीकरण द्वारा दी गई है। मुझे यह पता नहीं है कि इसे प्राप्त करने की कोशिश करने के संदर्भ में कहां से शुरू करना है।

मुझे पता है कि अधिकांश डेटा बिंदु किसी अन्य डेटा बिंदु (आयामीता का अभिशाप) की तुलना में नमूना स्थान की सीमा के करीब हैं, लेकिन मुझे रैखिक बीजगणित / संभाव्यता अर्थ में इसका अनुवाद करने में परेशानी हो रही है।

धन्यवाद!


4
शीर्षक में "ELI5" का क्या अर्थ है? यदि आप उस समीकरण को प्राप्त करना चाहते हैं, तो आपको गेंद में अंकों के लिए प्रायिकता मॉडल के साथ शुरुआत करनी होगी: वह मॉडल क्या है? (कृपया अपने पाठकों की आवश्यकता नहीं है क्रम में अपने प्रश्न को समझने के लिए एक किताब या किसी दूसरी साइट का उल्लेख करने के।)
whuber

3
@whuber मैं सहमत हूं - विज्ञापन एक भयानक हैशिंग योजना है।
साइकोरैक्स का कहना है कि मोनिका

14
तुम पाँच साल के हो। ईएसएल को समझना चाहते हैं, लेकिन आपको छह साल तक इंतजार करना होगा। यह बड़े लड़कों और लड़कियों के लिए एक किताब है।
निक कॉक्स

4
एक पांच वर्षीय एक आयामी मामले (पी = 1) को देखकर शुरू हो सकता है। और एक बार जो हाथ में है, उसे वहां से ले जाएं।
मार्क एल। स्टोन

3
अगर हम ईएलआई 5 के बारे में बताने जा रहे हैं तो ईएसएल के बारे में क्या होगा?
mdewey

जवाबों:


15

चलो r मूल से दूरी हो, और जाने दो V0[p] में इकाई हाइपरस्फेयर की मात्रा हो pआयाम। फिर आयतन के एक हाइपरस्फियर में समाहित मात्राr है

V[r]=V0[p]rp

अगर हम दें P=V[r]/V0[p] इस हाइपरस्फेयर के भीतर मौजूद वॉल्यूम के अंश को निरूपित करें, और परिभाषित करें R=rp, फिर

P[R]=R

अगर यूनिट बॉल के भीतर डेटा पॉइंट समान रूप से वितरित किए जाते हैं, तो इसके लिए 0R1 उपरोक्त सूत्र के लिए संचयी वितरण फ़ंक्शन (CDF) है R। यह के लिए एक समान संभावना घनत्व के बराबर हैR इकाई अंतराल पर, यानी p[R]=P[R]=1। इसलिए, जैसा कि टिप्पणियों में मार्क स्टोन ने संकेत दिया है, हम इसे कम कर सकते हैंp समतुल्य 1D समस्या के लिए आयामी मामला।

अब अगर हमारे पास एक भी बिंदु है R, तो हमारे पास सीडीएफ की परिभाषा है Pr[Rρ]=P[ρ]और । यदि बिंदुओं में से सबसे छोटा मान है , और अंक सभी स्वतंत्र हैं, तो CDF के लिए द्वारा दिया जाता है (यह एक मानक परिणाम का अविभाज्य चरम मान है )।Pr[Rρ]=1P[ρ]Rminn

Pr[Rminρ]=Pr[Rρ]n=(1ρ)n

माध्यिका की परिभाषा से, हमारे पास जो हम कर सकते हैं रूप में फिर से लिखना जो वांछित परिणाम के बराबर है।

12=Pr[(Rmin)medR]=(1R)n
(1dp)n=12

संपादित करें: " ELI5 " -स्टाइल उत्तर पर तीन भागों में प्रयास करें ।

  1. एक बिंदु के साथ 1D मामले के लिए, दूरी को समान रूप से पर वितरित किया जाता है , इसलिए माध्यिका ।[0,1]12

  2. -1 डी में, से अधिक कम से कम के लिए वितरण अंक के लिए पहला मामला है वें सत्ता।nn

  3. में आयाम, दूरी समान रूप से वितरित नहीं है, लेकिन है।prrp


1
हा हा, मैंने टिप्पणी दी कि एक 5 साल की उम्र p = 1 मामले को देखकर शुरू हो सकती है। मैंने एक टिप्पणी जोड़ने के बारे में सोचा कि एक 4 साल की उम्र न केवल पी = 1 मामले के साथ शुरू हो सकती है, बल्कि n = 1. लेकिन मुझे लगा कि मैं 5 साल का आंकड़ा बताऊंगा।
मार्क एल। स्टोन

1
ध्यान दें कि जब मैंने प्रश्न का उत्तर दिया था, तब इसे पढ़ने के लिए @fcop द्वारा स्पष्ट किया गया था: "मूल रूप से केंद्रित पी-आयामी इकाई गेंद में समान रूप से वितरित एन डेटा बिंदुओं पर विचार करें। दिखाएं कि मूल से औसत दूरी। निकटतम डेटा बिंदु द्वारा दिया गया है ... "। के संबंध में एक इकाई गेंद तो में आदर्श आयामी अंतरिक्ष। इसके बाद प्रश्न को मूल में वापस लाया गया, जो अलग है और इतना स्पष्ट नहीं है। (मूल प्रश्न के तहत टिप्पणी श्रृंखला देखें।)L2p
GeoMatt22
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.