इस सवाल को मेरे ध्यान में लाने के लिए आर्येह को मेरा धन्यवाद ।
दूसरों के रूप में उल्लेख किया है, (1) का जवाब है हाँ , और में अनुभवजन्य जोखिम न्यूनतम करने की आसान विधि प्राप्त होता नमूना जटिलता ( Vapnik और Chervonenkis, 1974 देखें; ब्लमेर, एरेनफ्यूच, हौसलर और वार्मथ, 1989)।CO((d/ε)log(1/ε))
(2) के रूप में, यह वास्तव में ज्ञात है कि वहां रिक्त स्थान मौजूद है,
जहां कोई भी उचित लर्निंग अल्गोरिथम से बेहतर नहीं होता है: नमूना जटिलता, और इसलिए उचित अधिगम नमूना जटिलता प्राप्त नहीं कर सकता है। मेरी जानकारी के लिए, यह तथ्य वास्तव में कभी भी प्रकाशित नहीं हुआ है, लेकिन डेनियली और शैलेव-शवार्ट्ज (COLT 2014) के एक संबंधित तर्क में निहित है (मूल रूप से एक अलग, लेकिन संबंधित, बहुस्तरीय शिक्षण में प्रश्न के लिए तैयार)।C Ω ( ( घ / ε ) लॉग ( 1 / ε ) ) हे ( घ / ε )Ω((d/ε)log(1/ε))O(d/ε)
साधारण केस पर विचार करें , और space रूप में रखें । अब सीखने वाला कभी भी लेबल वाला कोई उदाहरण नहीं देखता हैd=1X{1,2,...,1/ε}सी एफ जेड ( एक्स ) : = मैं [ एक्स = z ] , जेड ∈ एक्स सी एक्स 1 0 च एक्स * एक्स * ~ यू एन मैं च ओ आर एम ( एक्स ) पी एक्स एक्स ∖ { x , और एक : अर्थात, प्रत्येक in रूप में से ठीक एक अंक और अन्य को रूप में वर्गीकृत करता है । निचले बाउंड के लिए, लक्ष्य फ़ंक्शन को एक यादृच्छिक सिंगलटन , जहां , और , का सीमांत वितरण , पर एक समान हैCfz(x):=I[x=z],z∈XCX10fx∗x∗∼Uniform(X)PXX∖{x∗}1 , लेकिन यह एक बिंदु का चयन करना होगा करने के लिए अनुमान लेबल किया गया है (महत्वपूर्ण बात, `` सब शून्य '' समारोह है नहीं में , किसी भी उचित शिक्षार्थी तो चाहिए कुछ लगता है कि ), और जब तक यह प्रत्येक बिंदु को पहले तक नहीं देख पाया हो, तब तक इसका गलत अनुमान लगाने का कम से कम मौका होता है (अर्थात, इसके के पीछे होने की संभावना कम से कम ) है। कूपन कलेक्टर का तर्क है कि इसकी आवश्यकता होगीz1 सी जेड एक्स ∖ { x * } 1 / 2 च जेड जेड ≠ एक्स * 1 / 2 Ω ( ( 1 / ε ) लॉग ( 1 / ε ) ) एक्स ∖ { x * } Ω ( ( 1 / ε ) लॉग ( 1 / ε ) )1CzX∖{x∗}1/2fzz≠x∗1/2Ω((1/ε)log(1/ε)) नमूने प्रत्येक बिंदु को देखने के लिए । तो यह सभी उचित शिक्षार्थियों के लिए की निचली सीमा को सिद्ध करता है ।X∖{x∗}Ω ( ( 1 / ε ) लॉग(1/ε))
सामान्य , हम रूप में लेते हैं।d>1X{1,2,...,d/(4ε)}सी मैं एक एक ⊂ एक्स डी सी पी 0 1 Ω ( ( घ / ε ) लॉग ( 1 / ε ) ) | एक्स | - 2 डी एक्स 1 / 3 डी / 4 ए डी एच लेते हैं, रूप में लेते हैं। सेट के लिए का आकार बिल्कुल , से यादृच्छिक पर लक्ष्य फ़ंक्शन का चयन करें , और फिर से समान ले लें क्योंकि लक्ष्य फ़ंक्शन वर्गीकृत करता है (इसलिए शिक्षार्थी कभी नहीं देखता है एक बिंदु )। फिर कूपन-कलेक्टर तर्क के एक सामान्यीकरण का तात्पर्य है कि हमें कम से कम देखने के लिए नमूने चाहिएCIAA⊂XdCP01Ω((d/ε)log(1/ε))|X|−2dविशिष्ट अंक से , और यह कई अलग अंक किसी भी उचित शिक्षार्थी कम से कम है देखे बिना से अधिक होने की संभावना अपने अनुमान के से अंक अपने चुने हुए परिकल्पना में गलत , इसका त्रुटि दर से अधिक है । तो इस मामले में, नमूना जटिलता के साथ कोई उचित शिक्षार्थी नहीं है, जो कि , जिसका अर्थ है कि कोई भी उचित शिक्षार्थी इष्टतम नमूना समानता प्राप्त नहीं करता है ।X1/3d/4AdhAεΩ((d/ε)log(1/ε))O(d/ε)
ध्यान दें कि परिणाम अंतरिक्ष के लिए काफी विशिष्ट है का निर्माण किया। वहाँ रिक्त स्थान जहां उचित शिक्षार्थी इष्टतम नमूना जटिलता प्राप्त कर सकते हैं , और वास्तव में सटीक पूर्ण अभिव्यक्ति (हेंके, 2016 ए) से। सामान्य ईआरएम शिक्षार्थियों के लिए कुछ ऊपरी और निचले सीमा को विकसित किया गया है (हनेके, 2016 बी), स्पेस गणित के गुणों के हिसाब से निर्धारित किया गया है , साथ ही कुछ और विशेष मामलों पर चर्चा करते हुए जहां विशिष्ट उचित शिक्षार्थी कभी-कभी इष्टतम प्राप्त कर सकते हैं। नमूना जटिलता।CCO(d/ε)O((d/ε)+(1/ε)log(1/δ))C
संदर्भ:
वाप्निक और चेरोवेनेकिस (1974)। पैटर्न मान्यता का सिद्धांत। नाका, मास्को, 1974।
ब्लुमर, एरेनफ़ेक्ट, हॉसस्लर और वार्मथ (1989)। सीखने की क्षमता और वाप्निक-चेर्वोनेंकिस आयाम। कम्प्यूटिंग मशीनरी एसोसिएशन ऑफ जर्नल, 36 (4): 929–965।
डेनियली और शलेव-शवार्ट्ज (2014)। मल्टीस्कलैस समस्याओं के लिए इष्टतम शिक्षार्थी। लर्निंग थ्योरी पर 27 वें सम्मेलन की कार्यवाही में।
हैनेके (2016 ए)। पीएसी लर्निंग का इष्टतम नमूना जटिलता। जर्नल ऑफ मशीन लर्निंग रिसर्च, वॉल्यूम। 17 (38), पीपी 1-15।
हैनेके (2016 बी)। कई लर्निंग एल्गोरिदम के लिए परिष्कृत त्रुटि सीमाएँ। जर्नल ऑफ मशीन लर्निंग रिसर्च, वॉल्यूम। 17 (135), पीपी। 1-55।