उचित पीएसी सीखने कुलपति आयाम सीमा


11

यह सर्वविदित है कि एक अवधारणा वर्ग के लिए VC आयाम , यह को प्राप्त करने के लिए पर्याप्त है। PAC learn लिए लेबल किए गए उदाहरण । यह मेरे लिए स्पष्ट नहीं है कि क्या पीएसी लर्निंग एल्गोरिथ्म (जो इन कई नमूनों का उपयोग करता है) उचित या अनुचित है? Kearns और Vazirani की पाठ्यपुस्तकों के साथ-साथ एंथनी और Biggs में ऐसा लगता है जैसे PAC सीखने का एल्गोरिथ्म अनुचित है (यानी, आउटपुट परिकल्पना नहीं ) dCdO(dεlog1ε)CC

  1. क्या कोई स्पष्ट कर सकता है कि एक समान ऊपरी बाध्य उचित PAC सीखने की सेटिंग के लिए भी है? यदि हां, तो क्या आप मुझे एक संदर्भ दे सकते हैं जहां यह स्पष्ट रूप से उल्लिखित है और इसमें एक स्व-निहित प्रमाण भी है?

  2. हाल ही में हनेके ने इस कारक से छुटकारा पाकर इसे बेहतर बनाया । क्या कोई स्पष्ट कर सकता है कि उचित पीएसी लर्निंग सेटिंग के लिए को हटाने योग्य माना जाता है? या यह अभी भी एक खुला सवाल है?log(1/ε)log(1/ε)


यह हन्नेक पेपर कौन सा है जिसका आप जिक्र कर रहे हैं?
धीरे

जवाबों:


9

इस सवाल को मेरे ध्यान में लाने के लिए आर्येह को मेरा धन्यवाद ।

दूसरों के रूप में उल्लेख किया है, (1) का जवाब है हाँ , और में अनुभवजन्य जोखिम न्यूनतम करने की आसान विधि प्राप्त होता नमूना जटिलता ( Vapnik और Chervonenkis, 1974 देखें; ब्लमेर, एरेनफ्यूच, हौसलर और वार्मथ, 1989)।CO((d/ε)log(1/ε))

(2) के रूप में, यह वास्तव में ज्ञात है कि वहां रिक्त स्थान मौजूद है, जहां कोई भी उचित लर्निंग अल्गोरिथम से बेहतर नहीं होता है: नमूना जटिलता, और इसलिए उचित अधिगम नमूना जटिलता प्राप्त नहीं कर सकता है। मेरी जानकारी के लिए, यह तथ्य वास्तव में कभी भी प्रकाशित नहीं हुआ है, लेकिन डेनियली और शैलेव-शवार्ट्ज (COLT 2014) के एक संबंधित तर्क में निहित है (मूल रूप से एक अलग, लेकिन संबंधित, बहुस्तरीय शिक्षण में प्रश्न के लिए तैयार)।C Ω ( ( / ε ) लॉग ( 1 / ε ) ) हे ( / ε )Ω((d/ε)log(1/ε))O(d/ε)

साधारण केस पर विचार करें , और space रूप में रखें । अब सीखने वाला कभी भी लेबल वाला कोई उदाहरण नहीं देखता हैd=1X{1,2,...,1/ε}सी एफ जेड ( एक्स ) : = मैं [ एक्स = z ] , जेड एक्स सी एक्स 1 0 एक्स * एक्स * ~ यू एन मैं आर एम ( एक्स ) पी एक्स एक्स{ x , और एक : अर्थात, प्रत्येक in रूप में से ठीक एक अंक और अन्य को रूप में वर्गीकृत करता है । निचले बाउंड के लिए, लक्ष्य फ़ंक्शन को एक यादृच्छिक सिंगलटन , जहां , और , का सीमांत वितरण , पर एक समान हैCfz(x):=I[x=z],zXCX10fxxUniform(X)Pएक्सएक्स{एक्स*}1 , लेकिन यह एक बिंदु का चयन करना होगा करने के लिए अनुमान लेबल किया गया है (महत्वपूर्ण बात, `` सब शून्य '' समारोह है नहीं में , किसी भी उचित शिक्षार्थी तो चाहिए कुछ लगता है कि ), और जब तक यह प्रत्येक बिंदु को पहले तक नहीं देख पाया हो, तब तक इसका गलत अनुमान लगाने का कम से कम मौका होता है (अर्थात, इसके के पीछे होने की संभावना कम से कम ) है। कूपन कलेक्टर का तर्क है कि इसकी आवश्यकता होगीz1 सी जेड एक्स{ x * } 1 / 2 जेड जेड एक्स * 1 / 2 Ω ( ( 1 / ε ) लॉग ( 1 / ε ) ) एक्स{ x * } Ω ( ( 1 / ε ) लॉग ( 1 / ε ) )1सीzएक्स{एक्स*}1/2zzएक्स*1/2Ω((1/ε)लॉग(1/ε)) नमूने प्रत्येक बिंदु को देखने के लिए । तो यह सभी उचित शिक्षार्थियों के लिए की निचली सीमा को सिद्ध करता है ।एक्स{एक्स*}Ω((1/ε)लॉग(1/ε))

सामान्य , हम रूप में लेते हैं।>1एक्स{1,2,,/(4ε)}सी मैं एक एक एक्स डी सी पी 0 1 Ω ( ( / ε ) लॉग ( 1 / ε ) ) | एक्स | - 2 डी एक्स 1 / 3 डी / 4 डी एच लेते हैं, रूप में लेते हैं। सेट के लिए का आकार बिल्कुल , से यादृच्छिक पर लक्ष्य फ़ंक्शन का चयन करें , और फिर से समान ले लें क्योंकि लक्ष्य फ़ंक्शन वर्गीकृत करता है (इसलिए शिक्षार्थी कभी नहीं देखता है एक बिंदु )। फिर कूपन-कलेक्टर तर्क के एक सामान्यीकरण का तात्पर्य है कि हमें कम से कम देखने के लिए नमूने चाहिएसीमैंएक्ससीपी01Ω((/ε)लॉग(1/ε))|एक्स|-2विशिष्ट अंक से , और यह कई अलग अंक किसी भी उचित शिक्षार्थी कम से कम है देखे बिना से अधिक होने की संभावना अपने अनुमान के से अंक अपने चुने हुए परिकल्पना में गलत , इसका त्रुटि दर से अधिक है । तो इस मामले में, नमूना जटिलता के साथ कोई उचित शिक्षार्थी नहीं है, जो कि , जिसका अर्थ है कि कोई भी उचित शिक्षार्थी इष्टतम नमूना समानता प्राप्त नहीं करता है ।एक्स1/3/4εΩ((/ε)लॉग(1/ε))हे(/ε)

ध्यान दें कि परिणाम अंतरिक्ष के लिए काफी विशिष्ट है का निर्माण किया। वहाँ रिक्त स्थान जहां उचित शिक्षार्थी इष्टतम नमूना जटिलता प्राप्त कर सकते हैं , और वास्तव में सटीक पूर्ण अभिव्यक्ति (हेंके, 2016 ए) से। सामान्य ईआरएम शिक्षार्थियों के लिए कुछ ऊपरी और निचले सीमा को विकसित किया गया है (हनेके, 2016 बी), स्पेस गणित के गुणों के हिसाब से निर्धारित किया गया है , साथ ही कुछ और विशेष मामलों पर चर्चा करते हुए जहां विशिष्ट उचित शिक्षार्थी कभी-कभी इष्टतम प्राप्त कर सकते हैं। नमूना जटिलता।सीसीहे(/ε)हे((/ε)+(1/ε)लॉग(1/δ))सी

संदर्भ:

वाप्निक और चेरोवेनेकिस (1974)। पैटर्न मान्यता का सिद्धांत। नाका, मास्को, 1974।

ब्लुमर, एरेनफ़ेक्ट, हॉसस्लर और वार्मथ (1989)। सीखने की क्षमता और वाप्निक-चेर्वोनेंकिस आयाम। कम्प्यूटिंग मशीनरी एसोसिएशन ऑफ जर्नल, 36 (4): 929–965।

डेनियली और शलेव-शवार्ट्ज (2014)। मल्टीस्कलैस समस्याओं के लिए इष्टतम शिक्षार्थी। लर्निंग थ्योरी पर 27 वें सम्मेलन की कार्यवाही में।

हैनेके (2016 ए)। पीएसी लर्निंग का इष्टतम नमूना जटिलता। जर्नल ऑफ मशीन लर्निंग रिसर्च, वॉल्यूम। 17 (38), पीपी 1-15।

हैनेके (2016 बी)। कई लर्निंग एल्गोरिदम के लिए परिष्कृत त्रुटि सीमाएँ। जर्नल ऑफ मशीन लर्निंग रिसर्च, वॉल्यूम। 17 (135), पीपी। 1-55।


दिलचस्प ... क्या वर्गों का एक जुझारू चरित्र है सी जिसके लिए उचित PAC सीखना नमूना-इष्टतम है? या कम से कम पर्याप्त स्थितियों (चौराहे, संघ के तहत बंद?)
क्लेमेंट सी।

2
@ClementC। सामान्य रूप से उचित शिक्षार्थियों द्वारा इष्टतम दरों को प्राप्त करने वाली कौन सी कक्षाओं का कोई ज्ञात पूर्ण लक्षण वर्णन नहीं है। संदर्भित पेपर "परिष्कृत त्रुटि सीमा ..." एक दहनशील लक्षण वर्णन देता है, जिसमें सभी ईआरएम शिक्षार्थियों (कोरोलरी 14) के लिए कक्षाएं इष्टतम दरों को स्वीकार करती हैं। प्रासंगिक मात्रा "स्टार नंबर" है: सबसे बड़ी संख्या में अंक जैसे कि किसी भी एकल बिंदु को दूसरों (परिभाषा) को बदलने के बिना लेबल को फ्लिप कर सकते हैं। इंटरसेक्शन-क्लोज्ड क्लासेस में एक इष्टतम उचित शिक्षार्थी है: "क्लोजर" एल्ग (पेपर में प्रमेय 5, और डर्नस्टैट, 2015 द्वारा सिद्ध भी)।
एस। हैनेके

धन्यवाद!
क्लेमेंट सी।

6

आपके प्रश्न (1) और (2) संबंधित हैं। सबसे पहले, चलो उचित पीएसी सीखने के बारे में बात करते हैं। यह ज्ञात है कि उचित पीएसी शिक्षार्थी हैं जो शून्य नमूना त्रुटि को प्राप्त करते हैं, और फिर भी उन्हेंε[एक,][0,1]हे(1/ε)[0,0]1Ω(dϵlog1ϵ) उदाहरणों की आवश्यकता होती है। निर्भरता के एक सरल प्रमाण के लिए , समान वितरण के तहत अंतराल की अवधारणा वर्ग पर विचार करें। यदि हम सबसे छोटे संगत अंतराल को चुनते हैं, तो हम वास्तव में एक नमूना जटिलता प्राप्त करते हैं । मान लीजिए, हालांकि, हम सबसे बड़ा सुसंगत अंतराल चुनते हैं, और लक्ष्य अवधारणा एक बिंदु अंतराल है जैसे किϵ[a,b][0,1]O(1/ϵ)[0,0]। फिर एक सरल कूपन-संग्राहक तर्क दिखाता है कि जब तक हम मोटे तौर पर उदाहरण प्राप्त नहीं करते, हम नकारात्मक उदाहरणों (केवल हम देखेंगे) के बीच अंतर द्वारा मूर्ख बनेंगे। ) - जिसमें समान वितरण के तहत [नमूना आकार] की विशेषता व्यवहार है । इस प्रकार के अधिक सामान्य निचले सीमा में दिए गए हैं 1/1ϵlog1ϵ1/

पी। एयूआर, आर। ऑर्टनर। चौराहे-बंद अवधारणा वर्गों के लिए बाध्य एक नया पीएसी। मशीन लर्निंग 66 (2-3): 151-163 (2007) http://personal.unileoben.ac.at/rortner/Pubs/PAC-intclosed.pdf

उचित पीएसी के बारे में बात यह है कि अमूर्त मामले में सकारात्मक परिणामों के लिए, कोई ईआरएम से परे एक एल्गोरिथ्म निर्दिष्ट नहीं कर सकता है, जो कहता है "लेबल के नमूने के अनुरूप एक अवधारणा खोजें"। जब आपके पास अतिरिक्त संरचना होती है, जैसे अंतराल, तो आप दो अलग-अलग ईआरएम एल्गोरिदम की जांच कर सकते हैं, जैसा कि ऊपर: एक न्यूनतम बनाम अधिकतम संगत खंड। और ये अलग नमूना जटिलताएं हैं!

अनुचित पीएसी की शक्ति यह है कि आपको विभिन्न वोटिंग योजनाओं को तैयार करने के लिए मिलता है (हेंकेज़ एक ऐसा परिणाम है) - और यह अतिरिक्त संरचना आपको बेहतर दरों को साबित करने की सुविधा देती है। (कहानी अज्ञेय पीएसी के लिए सरल है, जहां ईआरएम आपको सबसे खराब संभव केस दर देता है, जो स्थिरांक तक है।)

संपादित करें। अब यह मेरे साथ घटित होता है कि डी। हॉसस्लर, एन। लिटलस्टोन, एमडी के। वार्मथ की 1-समावेशी ग्राफ भविष्यवाणी रणनीति। {0,1} का पूर्वानुमान लगाना, रैंडमली ड्रॉ पॉइंट्स पर नियंत्रण। Inf। कंप्यूटर। 115 (2): 248-292 (1994) सार्वभौमिक के लिए एक प्राकृतिक उम्मीदवार हो सकता हैO(d/ϵ) उचित PAC शिक्षार्थी के ।


धन्यवाद! ठीक है, इसलिए यदि मैं आपको सही तरीके से समझता हूं, तो अनुचित PAC सीखने का नमूना जटिलता और उचित PAC सीखने के लिए यह , आपके द्वारा दिए गए उदाहरण के लिए उत्तरार्द्ध के लिए कम बाध्य होना। क्या वह सही है? Θ ( / ε लॉग इन करें ( 1 / ε ) )Θ(d/ϵ)Θ(d/ϵlog(1/ϵ))
9

हां, थोड़े से आरक्षण के साथ कि अनुचित पीएसी के लिए आपको एक विशिष्ट एल्गोरिथ्म (हैनेक) का उपयोग करने की आवश्यकता है - न कि किसी भी पुराने ईआरएम। बेझिझक उत्तर स्वीकार करें :)
आर्येह

मैं पार्टी के लिए देर से आया हूं, लेकिन केवल उपर्युक्त उचित-पीएसी कम नहीं है, केवल एक विशिष्ट शिक्षण एल्गोरिथ्म (या प्रतिबंधित वर्ग) के लिए एक नमूना जटिलता कम बाध्य है? मेरा मतलब है, इस तरह के प्रतिबंध के बिना उचित और अनुचित पीएसी के बीच सूचना-सैद्धांतिक रूप से कोई अलगाव नहीं है, है ना? (और इस तरह या इसी तरह की कम्प्यूटेशनल मान्यताओं के बिना कोई अलगाव नहीं ?)NPRP
क्लेमेंट सी।

1
PAC सीखने की सामान्य परिभाषा पॉली टाइम एल्गोरिदम के लिए पूछती है। मेरी बात यह है कि (i) आराम करना, उचित और अनुचित का एक ही नमूना जटिलता है; (ii) इस आवश्यकता के साथ, हम उचित और अनुचित के बीच बिना शर्त अलगाव को सिद्ध नहीं कर सकते (क्योंकि यह अनिवार्य रूप से एनपी जैसा कुछ साबित करेगा आरपी के बराबर नहीं)। (हम विशिष्ट उचित शिक्षण एल्गोरिदम के नमूने की जटिलता पर कम सीमा साबित कर सकते हैं , हालांकि, जहां तक ​​मैं समझता हूं कि आर्यह का संदर्भ क्या है।)
क्लेमेंट सी।

1
@ClementC। आपके पहले की टिप्पणियों में, आपने एक अनुचित पीएसी एल्गोरिथ्म चलाने के बाद उल्लेख किया था, एक शिक्षार्थी संभवतः अनुचित परिकल्पना प्राप्त करता है और सीखने वाला तब अवधारणा वर्ग से निकटतम उचित परिकल्पना (बिना किसी और नमूने के) पा सकता है। लेकिन वितरण के बारे में जानने के बिना शिक्षार्थी ऐसा कैसे कर सकता है जिसके तहत उसे नमूने दिए जा रहे हैं? क्या अज्ञात वितरण के अनुसार निकटतम नहीं मापा जा रहा है?
बेनामी

5

वर्तमान में स्वीकृत उत्तर में जोड़ने के लिए:

  1. हाँ। नमूना जटिलता ऊपरी बाध्य उचित पीएसी सीखने के लिए भी रखती है(हालांकि यह ध्यान रखना महत्वपूर्ण है कि यह कम्प्यूटेशनल रूप से कुशल शिक्षण एल्गोरिथ्म के लिए नेतृत्व नहीं कर सकता है। जो सामान्य है, जब सेएनपी=आरपीयह ज्ञात है कि कुछ कक्षाएं हैं। कुशलता से उचित पीएसी सीखने योग्य नहीं। Cf. उदाहरण के लिए Kearns में प्रमेय 1.3 - वज़ीरानी पुस्तक जिसका आप उल्लेख करते हैं)। यह वास्तव में Kearns- वज़ीरानी किताब (थ्योरम 3.3) में दिखाया गया है, क्योंकिएल मेंहाइपोथीसिस क्लासएच=सी केसाथ एक सुसंगत परिकल्पना खोजकहै। [१] भी देखें।

    O(dεlog1ε)
    NP=RPLH=C
  2. अनजान। हैनेके का एल्गोरिथ्म [2] एक अनुचित शिक्षण एल्गोरिथ्म है। इस अतिरिक्त चाहे नमूना जटिलता में कारक उचित पीएसी सीखने के लिए हटाया जा सकता है (सैद्धांतिक रूप से जानकारी, यानी एक तरफ किसी भी कम्प्यूटेशनल दक्षता आवश्यकता की स्थापना)log(1/ε) अभी भी एक खुला सवाल है। सी एफ [३] के अंत में खुले प्रश्न:

    शास्त्रीय आधार पर, यह अभी भी एक खुला प्रश्न है कि क्या में ऊपरी के लिए बाध्य -factor [1] के लिए ( ε , δ )log(1/ε)(ε,δ) पीएसी -proper सीखने के लिए आवश्यक है।

    (उसी पेपर में फुटनोट 1 भी प्रासंगिक है)


[१] ए। ब्लमेर, ए। इरेनफ्यूच, डी। हॉसस्लर और एमके वार्मथ। सीखने की क्षमता और वाप्निक-चेर्वोनेंकिस आयाम। एसीएम जर्नल, 36 (4): 929–965, 1989।

[२] एस। हैनेके। पीएसी सीखने का इष्टतम नमूना जटिलता।जे मच। जानें। रेस। 17, 1, 1319-1333, 2016।

[३] एस। अरुणाचलम और आर। डी। वुल्फ। ऑप्टिमल क्वांटम नमूना एल्गोरिदम सीखने की जटिलता। 32 वीं कम्प्यूटेशनल जटिलता सम्मेलन (सीसीसी), 2017 की कार्यवाही में।


क्या यह अनुमान लगाया गया है कि हौसस्लर एट अल का 1-समावेश ग्राफ। इस तरह के एक इष्टतम पीएसी शिक्षार्थी है?
आर्येह

@ आर्येह मैं निश्चित नहीं हूँ। 2004 में वार्मथ ने जो पाया, उससे मुझे बहुत खुशी हुई। मैं इससे ज्यादा नहीं जानता।
क्लेमेंट सी।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.