मैं अपनी पिछली त्रुटि के लिए कुछ विपरीत दिखा कर प्रायश्चित करने का प्रयास करूंगा - वह नमूने पर्याप्त हैं ( का निचला भाग) लगभग तंग है)! देखिये आपको क्या लगता है…।1/ε2Θ~(1ϵ2)1/ϵ2
मुख्य अंतर्ज्ञान दो अवलोकनों से शुरू होता है। सबसे पहले, वितरण के लिए की दूरी होने के लिए , उच्च संभावना ( ) के साथ अंक होने चाहिए । उदाहरण के लिए, यदि हमारे पास अंक, प्रायिकता अंक हैं , तो हमारे पास । ε Ω ( ε 2 ) 1 / ε 3 ε 3 ‖ डी 1 - डी 2 ‖ 2 ≤ √L2ϵΩ(ϵ2)1/ϵ3ϵ3∥D1−D2∥2≤1ϵ3(ϵ3)2−−−−−−√=ϵ3/2<ϵ
दूसरा, की दूरी के साथ समान वितरण पर विचार करें । यदि हमारे पास प्रायिकता अंक होते हैं, तो वे और नमूने द्वारा भिन्न होंगे। दूसरी ओर, यदि हमारे पास अंक हैं, तो उन्हें प्रत्येक को और फिर नमूने (एक स्थिर संख्या) प्रति भिन्न करने की आवश्यकता होगी। बिंदु) पर्याप्त है। तो हम उम्मीद कर सकते हैं कि, पहले उल्लेख किए गए उच्च-संभावना वाले बिंदुओं के बीच, हमेशा कुछ बिंदु "पर्याप्त" होता है जो ड्रॉ करता है। ε हे ( 1 ) हे ( 1 ) हे ( ε ) 1 / ε 2 हे ( 1 / ε 2 ) हे ( ε 2 ) हे ( 1 / ε 2 ) हे ( 1 / ε 2 )L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)
कलन विधि। दिए गए और एक आत्मविश्वास पैरामीटर , । प्रत्येक वितरण से नमूने ड्रा करें । आइए बिंदु लिए संबंधित उच्चतर, निम्न संख्या के नमूने हैं । अगर कोई बिंदु है जिसके लिए और , की घोषणा करें वितरण अलग। अन्यथा, उन्हें वही घोषित करें।एम एक्स = एम लॉग ( 1 / ε 2 ) एक्सϵMX=Mlog(1/ϵ2) एकमैं,खमैंमैंमैं∈[एन]एकमैं≥एक्सXϵ2ai,biii∈[n] एकमैं-खमैं≥√ai≥X8ai−bi≥ai−−√X√4
शुद्धता और आत्मविश्वास की सीमा ( ) निम्नलिखित लेम्मा पर निर्भर करती है जो कहती है कि डिस्टेंस में विचलन उन सभी बिंदुओं से आता है जिनकी संभावनाएँ भिन्न होती हैं । एल 2 Ω ( ε 2 )1−e−Ω(M)L2Ω(ϵ2)
दावा। मान लीजिए । Let। आज्ञा देना । उसके बाद
δ मैं = | डी 1 ( i ) - डी 2 ( i ) | एस कश्मीर = { मैं : δ मैं > ε 2∥D1−D2∥2≥ϵδi=|D1(i)−D2(i)|Σमैं∈ एस कश्मीर δ 2 मैं ≥ε2(1-2Sk={i:δi>ϵ2k}
∑i∈Skδ2i≥ϵ2(1−2k).
सबूत । हमारे पास
हमें दूसरी राशि के लिए बाध्य करते हैं; हम को । समारोह के बाद से सख्ती से उत्तल और बढ़ती, हम किसी भी लेने से उद्देश्य को बढ़ा सकते हैं है और बढ़ती द्वारा , जबकि कम हो रही द्वारा । इस प्रकार, उनके अधिकतम मूल्यों पर उद्देश्य को अधिकतम शर्तों के साथ अधिकतम किया जाएगा, और बाकी कोΣ मैं ∉ एस कश्मीर δ 2 मैं Σ मैं ∉ एस कश्मीर δमैं≤2एक्स↦एक्स2δमैं≥δजेδमैंγδजेγ0 ε 2
∑i∈Skδ2i + ∑i∉Skδ2i≥ϵ2.
∑i∉Skδ2i∑i∉Skδi≤2x↦x2δi≥δjδiγδjγ0। प्रत्येक पद का अधिकतम मान , और इस मूल्य के अधिकांश शब्द हैं (क्योंकि वे अधिकतम )। तो
2केϵ2k 2Σमैं∉एसकश्मीरδ 2 मैं ≤2कश्मीर2kϵ22∑i∉Skδ2i≤2kϵ2(ϵ2k)2=2ϵ2k. □
दावा करते हैं । आज्ञा देना । अगर , और साथ कम से कम एक बिंदु मौजूद है। ।‖ डी 1 - डी 2 ‖ 2 ≥ ε मैं ∈ [ एन ] पी मैं > ε 2pi=max{D1(i),D2(i)}∥D1−D2∥2≥ϵi∈[n]pi>ϵ24δi≥ϵpi√2
सबूत । सबसे पहले, सभी बिंदुओं Have परिभाषा के द्वारा (और नहीं करने के लिए खाली हो सकता है पिछला दावा द्वारा)।Skpi≥δi>ϵ2kSkk>2
दूसरा, क्योंकि , हमारे पास
या, उलटफेर,
इसलिए असमानता
में कम से कम एक बिंदु । अब । ∑ipi≤2
∑i∈Skδ2i≥ϵ2(12−1k)∑i∈Skpi,
∑i∈Sk(δ2i−piϵ2(12−1k))≥0,
δ2i≥piϵ2(12−1k)
Skk=4□
दावा (झूठी सकारात्मक) । यदि , हमारे एल्गोरिथ्म उन्हें प्रायिकता के साथ अलग-अलग तरीके से घोषित करता है, तो ।D1=D2e−Ω(M)
स्केच । दो मामलों पर विचार करें: और । पहले मामले में, के नमूनों की संख्या या तो वितरण से से अधिक नहीं होगी : नमूनों की औसत संख्या और एक पूंछ बाध्य कहती है कि संभावना के साथ , के नमूने एक additive से उनके मतलब से अधिक नहीं है ; अगर हम पूंछ में बंधे मान को रखने के लिए सावधान हैं , तो हम उन पर बाध्य कर सकते हैं, चाहे कितने भी ऐसे बिंदु हों (सहज रूप से, संभव बिंदुओं की संख्या में सीमा तेजी से घट जाती है)।pi<ϵ2/16pi≥ϵ2/16iX/8<X/16e−Ω(X/pi)=ϵ2e−Ω(M/pi)iX/16pi
मामले में , हम उपयोग कर सकते हैं एक Chernoff बाध्य: ऐसा नहीं है कि कहते हैं, जब हम ले के नमूने और एक बिंदु संभावना के साथ तैयार की है , अपने मतलब से अलग करने की संभावना से सबसे अधिक । यहाँ, , इसलिए प्रायिकता ।pi≥ϵ2/16mppmcpm−−−√e−Ω((cpm√)2/pm)=e−Ω(c2)c=X√16e−Ω(X)=ϵ2e−Ω(M)
तो संभावना के साथ , (दोनों वितरण के लिए) के नमूनों की संख्या भीतर है इसके माध्य । इस प्रकार, हमारे परीक्षण इन बिंदुओं को नहीं पकड़ेंगे (वे एक-दूसरे के बहुत करीब हैं), और हम उनमें से सभी पर बंधे हो सकते हैं। 1−ϵ2e−Ω(M)ipiXϵ2−−−−√X√16piXϵ216/ϵ2□
दावा (झूठे नकारात्मक) । अगर , हमारे एल्गोरिथ्म उन्हें प्रायिकता के साथ समान रूप से घोषित करता है, तो अधिकांश ।∥D1−D2∥2≥ϵϵ2e−Ω(M)
स्केच । कुछ बिंदु नहीं है के साथ और । पिछले दावे के अनुसार बाध्य वही चेर्नॉफ़ कहता है कि प्रायिकता के साथ , के नमूनों की संख्या इसके माध्य से अधिकांश से भिन्न होती है । वह (WLOG) वितरण जिसमें ; लेकिन वितरण से के नमूनों की संख्या की एक और भी कम संभावना हैipi>ϵ2/4δi≥ϵpi−−√/21−ϵ2e−Ω(M)ipimpim−−−√X√161pi=D1(i)=D2(i)+δii2 इस योजक राशि से इसके माध्य से भिन्नता (माध्य और विचरण कम है)।
इसलिए उच्च संभावना के साथ प्रत्येक वितरण से के नमूनों की संख्या के भीतर है; लेकिन उनकी संभावनाएँ भिन्न होती हैं , इसलिए उनके साधन अलग-अलग होते हैं
ipiXϵ2−−−√X√16δi
Xϵ2δi≥Xpi−−√2ϵ=piXϵ2−−−−√X−−√2.
तो उच्च संभावना के साथ, बिंदु , नमूनों की संख्या कम से कम से भिन्न होती है । i#samples(1)−−−−−−−−−−−√X√4□
रेखाचित्रों को पूरा करने के लिए, हमें और अधिक कठोरता से यह दिखाने की आवश्यकता होगी कि काफी के लिए, के नमूनों की संख्या इसके अर्थ के काफी करीब है, जब एल्गोरिथ्म का उपयोग करता है बजाय , यह कुछ भी नहीं बदलता है (जो स्थिरांक में कुछ झालर कमरे को छोड़कर सीधा होना चाहिए)।Mi#samples−−−−−−−−√mean−−−−−√