उच्च आयामों के लिए "औसत चाल" को सामान्य बनाना?


22

एल्गोरिदम यादृच्छिक के लिए वास्तविक मूल्यों ले, "मंझला चाल" एक सरल किसी भी सीमा की विफलता की संभावना को कम करने के लिए रास्ता है δ > 0 , केवल एक गुणक की कीमत पर टी = हे ( लॉग इन करें 1Aδ>0ओवरहेड। अर्थात, यदिएकके उत्पादन के लिए एक "अच्छी रेंज" में गिर जाता हैमैं=[एक,]संभावना (कम से कम) के साथ2/3, तो स्वतंत्र प्रतियां चल रहाएक1,...,एकटीऔर उनके outputs की औसत लेनेएक1,...,एकटीमें गिरने एक मूल्य में परिणाम होगामैंसंभावना कम से कम के साथ1-δChernoff / Hoeffding सीमा से।t=O(log1δ)AI=[a,b]2/3A1,,Ata1,,atI1δ

क्या इस "ट्रिक" का उच्च आयामों के लिए कोई सामान्यीकरण है, , जहां अच्छी रेंज अब उत्तल सेट (या गेंद या कोई पर्याप्त रूप से अच्छा और संरचित सेट) है? यही कारण है, एक यादृच्छिक एल्गोरिथ्म दिया एक में मानों outputting आर डी , और एक "अच्छा सेट" एस आर d ऐसी है कि पी आर { एक ( एक्स , आर ) एस } 2 / 3 सभी के लिए एक्स , कैसे एक बढ़ावा कर सकते हैं करने के लिए सफलता की प्रायिकता 1 - δRdARdSRdPr{A(x,r)S}2/3x1δकेवल में एक लघुगणकीय लागत के साथ ?1/δ

(Phrased अलग ढंग से: को देखते हुए तय, arbirary गारंटी नहीं है कि कम से कम के साथ 2 टीa1,,atRd केएकमैं'से संबंधित हैएस, वहाँ एक प्रक्रिया से एक मूल्य outputting हैएस? यदि हां, तो क्या कोई कुशल है?)2t3aiSS

और उपर्युक्त प्राप्त करने के लिए पर किसी की ज़रूरतों का न्यूनतम सेट क्या है ?S

क्षमा करें यदि यह तुच्छ हो जाता है - मुझे इस प्रश्न पर संदर्भ नहीं मिला ...


3
विशेष मामले में कि एक घनाभ है, क्या यह काम करता है यदि आप व्यक्तिगत रूप से प्रत्येक आयाम में माध्यिका चाल का उपयोग करते हैं? तो बिंदुओं का एक गुच्छा नमूना करें, फिर 1, 2, ..., d, में उनके निर्देशांक के माध्यिका को लें और फिर आप R d में एक बिंदु प्राप्त करें । हो सकता है कि आपको यह करना होगा हे ( लॉग ( / ε ) ) इस रणनीति के साथ नमूने? SRdO(log(d/ϵ))
रोबिन कोठारी

1
एक आयामी मामले में, आम तौर पर क्या आप जानते हैं है लेकिन ठीक उसी अंतराल (हालांकि भले ही आप नहीं जानते कि - एक मंझला चाल अभी भी काम करता है)। क्या हमें यह मान लेना चाहिए कि हम S को जानते हैं लेकिन केवल अनुवाद तक? अनुवाद और स्केलिंग तक? babaS
साशो निकोलेव

@SashoNikolov मुझे लगता है यह सबसे "सामान्य सामान्यीकरण" वास्तव में (उदाहरण के लिए, हम केवल पता होगा एक "व्यास की अच्छी गेंद है ε ")। Sε
क्लेमेंट सी।

1
खैर, थॉमस ने अपने उत्तर में जो लिखा वह और भी सामान्य है: वह मानता है कि ( जी उसके उत्तर में) एक अज्ञात उत्तल सेट है। SG
साशो निकोलेव

जवाबों:


17

आप जो देख रहे हैं वह लगभग एक ही मजबूत केंद्रीय प्रवृत्ति है : एक बिंदु पर डेटा बिंदुओं के क्लाउड को कम करने का एक तरीका, जैसे कि यदि डेटा बिंदुओं में से कुछ "जमीनी सच्चाई" के करीब हैं, लेकिन उनमें से बाकी मनमाने ढंग से दूर हैं, तो आपका आउटपुट भी जमीनी सच्चाई के करीब होगा। इस तरह की विधि का "ब्रेकडाउन पॉइंट" मनमाने ढंग से खराब आउटलेर का अंश है जिसे वह सहन कर सकता है। अंतर यह है कि आपके मामले में आप "करीब" को "उत्तल हल के भीतर" से बदलना चाहते हैं।

इस पर कब्जा करने का एक तरीका तुकी गहराई की धारणा के साथ है। एक बिंदु पर Tukey गहराई ( n डेटा बिंदुओं के दिए गए सेट के संबंध में ) है, अगर दिए गए बिंदु वाले प्रत्येक आधे क्षेत्र में भी कम से कम p n डेटा बिंदु हैं। यदि एक अच्छा उत्तल उप-भाग है जिसे आप अंदर रखना चाहते हैं, तो तुक गहराई पी के साथ एक बिंदु उसके अंदर होगा जब तक कि उसके अंदर डेटा बिंदुओं के कम से कम ( 1 - पी ) एन होते हैं। तो इस विधि का ब्रेकडाउन बिंदु p का सबसे बड़ा मूल्य है जिसे आप प्राप्त कर सकते हैं।pnpnp(1p)np

दुर्भाग्यवश यह ब्रेकडाउन पॉइंट , 1/2 के करीब नहीं, टकी डेप्थ के लिए और आपकी समस्या के लिए। यहाँ क्यों है: यदि आपका डेटा एक सिम्पलेक्स के d + 1 कोने के पास क्लस्टर किया गया है , तो जब तक उनमें से 1 / ( d + 1 ) से कम अंश आउटलेर्स हैं (लेकिन आप नहीं जानते कि कौन से हैं) तब किसी भी बिंदु में सिंप्लेक्स लेने के लिए सुरक्षित है क्योंकि यह हमेशा गैर-आउटलेयर के उत्तल पतवार के भीतर होगा। लेकिन अगर 1 से अधिक / ( डी + 1 )1/(d+1)d+11/(d+1)1/(d+1) अंक आउटलेयर हो सकते हैं, कहीं भी सुरक्षित नहीं है: जो भी बिंदु आपके द्वारा चुने गए सिंप्लेक्स में है, आउटलेयर निकटतम सिंप्लेक्स के शीर्ष बिंदु से सभी हो सकते हैं, और आप गैर के पतवार के बाहर होंगे: बाहरी कारकों के कारण।

यदि आप भी बदतर ब्रेकडाउन पॉइंट को सहन करने के लिए तैयार हैं , तो n और d दोनों में बहुपद है जो एक गहरे बिंदु को खोजने के लिए एक यादृच्छिक विधि है : मेरा पेपर देखेंO(1/d2)nd

लगभग केंद्र बिंदुओं के साथ पुनरावृत्त रैडॉन अंक, के। क्लार्कसन, डी। एपस्टीन, जीएल मिलर, सी। स्टर्टिवेंट, और एस.एच. टेंग, 9 वीं एसीएम सीमैप। अनि। Geom। , सैन डिएगो, 1993, पीपी 91-98, इंट। जे। कॉम्प। Geom। और Appl। 6 (3): 357-377, 1996, http://kenclarkson.org/center/p.pdf


हां। इसके अलावा मैं यह उल्लेख करूंगा कि एक एप्स-नेट्स एप्स-सन्निकटन और उनके विभिन्न दोस्तों को एक छोटा सा नमूना प्राप्त करने के तरीके के रूप में उपयोग कर सकता है जो इस तरह के गहराई उपायों को अच्छी तरह से अनुमानित करता है। आपको एक भी बिंदु नहीं मिलता है, लेकिन आपको अधिक जानकारी मिलती है।
सरील हर-पेलेड

आपके पेपर की शब्दावली के साथ, क्या एक सत्यापित करने के लिए एक कुशल तरीका है दावा किया -center परिमेय संख्याओं के लिए बीटाββ?

यदि "कुशल" से आप आयाम में बहुपद का अर्थ करते हैं, तो मुझे इस तरह के परिणाम का पता नहीं है। मेरा कागज केवल एक बिंदु पाता है, यह आपको गहराई के स्थानिक वितरण के बारे में अधिक जानकारी नहीं देता है (जैसे कि ऊपर से सारिल के रूप में)।
डेविड एप्स्टीन

धन्यवाद! दक्षता के विचारों को एक तरफ रखकर (अभी के लिए), यह ऐसा प्रतीत होता है कि मनमाना उत्तल सेट के सामान्य मामले के लिए, मनमानी संभावना को निरंतर संभावना को बढ़ावा देने का कोई तरीका नहीं है? (चूंकि अच्छे अंकों का अंश 1 - 1 से अधिक होना चाहिए ? (या मुझे कुछ याद नहीं है - इसे वापस देखना, ऐसा लगता है कि दूसरा सूत्रीकरण मैं "स्वतंत्र पुनरावृत्ति" के विचार पर कब्जा नहीं करता हूं, जहां हमारे पासकईबिंदुओं के सेट होंगे, जिनमें से प्रत्येक कम से कम होगा एक2/3अच्छा अंक के अंश)।11d+12/3
क्लेमेंट सी

1
एक बिंदु, कई बिंदु, या नहीं, यदि आप सभी जानते हैं कि एक उत्तल सेट मौजूद है, लेकिन यह नहीं है कि यह कहाँ है, और आप सही सेट में होने की संभावना को बेहतर करने में सक्षम होना चाहते हैं तो d / (d + 1), तो सरल बिंदुओं के चारों ओर पाने के लिए अच्छे अंकों का अंश कम से कम d / (d + 1) होना चाहिए। अन्यथा, एक विरोधी आपको एक सिम्प्लेक्स के रूप में डेटा दे सकता है और रैंडम सेट के रूप में सिम्पलेक्स के एक चेहरे के बेतरतीब ढंग से एप्सिलॉन-पड़ोस चुन सकता है; यहां तक ​​कि अगर आप एक बिंदु के पास सिंपल के शीर्ष पर यादृच्छिक रूप से अनुमान लगाते हैं, तो आपके पास गलत तरीके से चुनने की संभावना कम से कम 1 / (डी + 1) होगी।
डेविड एपस्टीन

14

यह एक साफ सवाल है और मैंने इसके बारे में पहले भी सोचा है। यहाँ हम क्या लेकर आए हैं:

आप अपने एल्गोरिथ्म चलाने आउटपुट प्राप्त करने के लिए कई बार एक्स 1 , , एक्स एनआर डी और आप जानते हैं कि उच्च संभावना के साथ के एक बड़े अंश एक्स मैं कुछ अच्छा में रों गिरावट सेट जी । आपको नहीं पता कि जी क्या है, बस यह उत्तल है। अच्छी खबर यह है कि जी में एक बिंदु प्राप्त करने का एक तरीका है जिसके बारे में अधिक जानकारी नहीं है। इस बिंदु को f ( x 1 , , x n ) कहेंnx1,,xnRdxiGGGf(x1,,xn)

प्रमेय। सभी प्राकृतिक संख्याओं और d के लिए , एक फ़ंक्शन मौजूद है f : ( R d ) nR d ऐसा कि निम्नलिखित रखती है। आज्ञा देना x 1एक्स एनआर डी और जाने जी आर d एक उत्तल संतोषजनक सेट हो 1ndf:(Rd)nRdx1...xnRdGRdतब(एक्स1,,Xn)जी। इसके अलावा,एफndमें समय बहुपद में कम्प्यूटेशनल है।
1n|{i[n]:xiG}|>dd+1.
f(x1,...,xn)Gfnd

ध्यान दें कि, , हम f को माध्यिका के रूप में सेट कर सकते हैं । तो यह दिखाता है कि डी > 1 के लिए माध्यिका को कैसे सामान्य किया जाए ।d=1fd>1

n=d+1x1,,xdxd+1=0dGd1Gnd/(d+1)=df(x1,,xn)

प्रमाण। हम निम्नलिखित परिणाम का उपयोग करते हैं।

K1...KmRdd+1 KiKi

हेल्ली के प्रमेय के प्रमाण के लिए यहां क्लिक करें।

अब हमारे प्रमेय को सिद्ध करने के लिए:

k<n/(d+1)GK1...KmRdnkKid+1

Kikd+1 Kink(d+1)KisfKi

KiG

GG

GGGnkGKiKiG

fKiKi

f

fnd

x1,,xnB(y,ε)zB(y,3ε)ndz=xiiB(z,2ε)


मुझे लगता है कि आप मूल रूप से डेविड एपपस्टीन के रूप में टकी की गहराई को पुनः प्राप्त कर लेते हैं :)
सुरेश वेंकट

7

उच्च-आयामों और सामान्य मानदंडों में बिंदुओं के एक सेट के माध्य की एक धारणा है जिसे विभिन्न नामों के तहत जाना जाता है। यह केवल वह बिंदु है जो सेट में सभी बिंदुओं के लिए दूरी का योग कम करता है। यह एक समान आत्मविश्वास प्रवर्धन संपत्ति के रूप में जाना जाता है, जो कि दूरी में एक छोटे से गुणात्मक वृद्धि के साथ सामान्य मंझला है। आप इस पत्र के प्रमेय 3.1 में विवरण पा सकते हैं: http://arxiv.org/pdf/1308.1334.pdf

एक अच्छी बात यह है कि यह कागज दिखाता है कि जिस कारक से दूरी बढ़ती है उसे कोई भी स्थिर बनाया जा सकता है> 1 यदि आप मनमाने ढंग से उच्च (लेकिन निरंतर <1) आत्मविश्वास से बढ़ सकते हैं।

संपादित करें: Hsu और Sabato http://arxiv.org/pdf/1307.1827v6.pdf द्वारा इस विषय पर एक और हालिया पेपर है। यह ज्यादातर उस प्रक्रिया का विश्लेषण करता है और लागू करता है जिसमें सेट में बिंदु सबसे छोटी मध्य दूरी के साथ आराम से दूरी तय करता है का उपयोग किया जाता है। इस प्रक्रिया का उपयोग किसी भी मीट्रिक के साथ किया जा सकता है, लेकिन केवल 3 का अनुमानित कारक देता है।


Sp

1
ज़रुरी नहीं। परिणाम सभी Banach रिक्त स्थान के लिए कहा गया है। किसी भी निकाय के लिए जो उसके केंद्र के चारों ओर उत्पत्ति-केन्द्रित और सममित है, इसके लिए एक समान मानदंड है जिसमें यह निकाय इकाई गेंद है। चूँकि आपके प्रश्न के प्रयोजनों के लिए हम यह अनुमान लगा सकते हैं कि सामान्यता की हानि के बिना उत्तल शरीर की उत्पत्ति होती है, इसलिए हमें हर केन्द्रित सममित उत्तल शरीर के लिए परिणाम प्राप्त होता है। शायद कुछ हल्के प्रयासों के साथ परिणाम सामान्य उत्तल निकायों तक बढ़ाया जा सकता है।
विटाली

1
आपको उस मानदंड के लिए न्यूनतम मापक की गणना करने के लिए आदर्श को जानना होगा, हालांकि - यदि आप केवल यह जानते हैं कि एक मानक है लेकिन यह नहीं है कि आप क्या कर रहे हैं, तो आप भाग्य से बाहर हैं।
डेविड एप्स्टीन

1
आप सही कह रहे हैं, डेविड। आपको मानदंड जानना आवश्यक है। (यह उत्तल शरीर को केंद्र तक जानने और स्केलिंग करने के लिए अनुवाद करता है)।
विटाली

X0.9(1,0)(+1,0)0.1(0,0.0001)(1,0)(1,0)(0,0.0001)
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.