वीसी आयाम क्यों महत्वपूर्ण है?


12

विकिपीडिया कहता है कि:

कुलपति आयाम अंक के सबसे बड़े सेट की कार्डिनैलिटी है जो एक एल्गोरिथ्म चकनाचूर कर सकता है।

उदाहरण के लिए, एक रैखिक क्लासिफायरियर में कार्डिनैलिटी n + 1 है। मेरा सवाल यह है कि हम क्यों परवाह करते हैं? अधिकांश डेटासेट जो आप रैखिक वर्गीकरण करते हैं वे बहुत बड़े होते हैं और उनमें बहुत सारे बिंदु होते हैं।

जवाबों:


4

वीसी आयाम क्या है

जैसा कि @CPerkins ने उल्लेख किया है कि वीसी आयाम एक मॉडल की जटिलता का माप है। यह भी, जैसा कि आपने बताया, विकिपीडिया करता है, जैसे डेटालेटर को बिखरने की क्षमता के संबंध में परिभाषित किया जा सकता है।

मूल समस्या है

  • हम एक मॉडल (जैसे कुछ क्लासिफ़ायर) चाहते हैं जो अनदेखी डेटा पर अच्छी तरह से सामान्यीकरण करता है।
  • हम नमूना डेटा की एक विशिष्ट राशि तक सीमित हैं।

निम्न छवि ( यहां से ली गई ) कुछ मॉडल ( को ) को अलग-अलग जटिलता (वीसी आयाम) से दिखाती है, यहां एक्स-एक्सिस पर दिखाया गया है और कहा जाता है ।एस1एस

बायस-वेरिएंस ट्रेडऑफ़

छवियों से पता चलता है कि एक उच्च कुलपति आयाम कम अनुभवजन्य जोखिम के लिए अनुमति देता है (नमूना डेटा पर एक मॉडल बनाता है), लेकिन यह भी एक उच्च आत्मविश्वास अंतराल का परिचय देता है। इस अंतराल को मॉडल के सामान्यीकरण की क्षमता में विश्वास के रूप में देखा जा सकता है।

कम वीसी आयाम (उच्च पूर्वाग्रह)

यदि हम कम जटिलता के मॉडल का उपयोग करते हैं, तो हम डेटासेट के बारे में कुछ प्रकार की धारणा (पूर्वाग्रह) का परिचय देते हैं जैसे कि रैखिक क्लासिफायर का उपयोग करते समय हम मानते हैं कि डेटा को रैखिक मॉडल के साथ वर्णित किया जा सकता है। यदि यह मामला नहीं है, तो हमारी दी गई समस्या को एक रेखीय मॉडल द्वारा हल नहीं किया जा सकता है, उदाहरण के लिए क्योंकि समस्या nonlinear प्रकृति की है। हम एक खराब प्रदर्शन वाले मॉडल के साथ समाप्त हो जाएंगे जो डेटा की संरचना को सीखने में सक्षम नहीं होंगे। इसलिए हमें एक मजबूत पूर्वाग्रह शुरू करने से बचने की कोशिश करनी चाहिए।

उच्च कुलपति आयाम (अधिक आत्मविश्वास अंतराल)

एक्स-अक्ष के दूसरी तरफ हम उच्च जटिलता के मॉडल देखते हैं जो इतनी महान क्षमता के हो सकते हैं कि यह सामान्य अंतर्निहित संरचना यानी मॉडल ओवरफिट सीखने के बजाय डेटा को याद रखेगा। इस समस्या को महसूस करने के बाद ऐसा लगता है कि हमें जटिल मॉडलों से बचना चाहिए।

यह विवादास्पद लग सकता है क्योंकि हम एक पूर्वाग्रह का परिचय नहीं देंगे अर्थात वीसी का आयाम कम होगा, लेकिन उच्च वीसी आयाम नहीं होना चाहिए। इस समस्या की सांख्यिकीय शिक्षा सिद्धांत में गहरी जड़ें हैं और इसे पूर्वाग्रह-विचरण-व्यापार के रूप में जाना जाता है । इस स्थिति में हमें क्या करना चाहिए जितना संभव हो उतना जटिल और जितना संभव हो उतना सरल होना चाहिए, इसलिए जब दो मॉडलों की तुलना होती है जो समान अनुभवजन्य त्रुटि के साथ समाप्त होती है, तो हमें कम जटिल एक का उपयोग करना चाहिए।

मुझे उम्मीद है कि मैं आपको दिखा सकता हूं कि वीसी आयाम के विचार के पीछे और भी बहुत कुछ है।


1

कुलपति आयाम वस्तुओं (कार्यों) के एक सेट के बीच एक विशिष्ट वस्तु (फ़ंक्शन) को खोजने के लिए सूचना (नमूने) के बिट्स की संख्या हैएन

वीसी आयाम सूचना सिद्धांत में एक समान अवधारणा से आता है। निम्नलिखित के शैनन के अवलोकन से सूचना सिद्धांत की शुरुआत हुई:

यदि आपके पास ऑब्जेक्ट्स हैं और इन ऑब्जेक्ट्स के बीच आप एक विशिष्ट की तलाश कर रहे हैं। इस ऑब्जेक्ट को खोजने के लिए आपको कितने बिट्स की जानकारी चाहिए ? आप अपने सेट के ऑब्जेक्ट्स को दो हाफ में विभाजित कर सकते हैं और पूछ सकते हैं कि "मैं किस आधे ऑब्जेक्ट को देख रहा हूं जो स्थित है?" । आप "हाँ" प्राप्त करते हैं यदि यह पहली छमाही में है या "नहीं", अगर यह दूसरी छमाही में है। दूसरे शब्दों में, आपको 1 बिट जानकारी मिलती है । उसके बाद, आप एक ही सवाल पूछते हैं और अपने सेट को बार-बार विभाजित करते हैं, जब तक कि आप अंत में अपनी वांछित वस्तु नहीं पाते। आपको कितने बिट्स की जानकारी की आवश्यकता है ( हां / कोई जवाब नहीं )? यह स्पष्ट रूप सेएनएनएलजी2(एन) सूचना के बिट्स - समान रूप से छांटे गए सरणी के साथ द्विआधारी खोज समस्या।

वापनिक और चेर्नोवेंकिस ने पैटर्न मान्यता समस्या में एक समान प्रश्न पूछा। मान लें कि आपके पास फ़ंक्शन सेंट दिए गए इनपुट का एक सेट है , प्रत्येक फ़ंक्शन हाँ या नहीं (पर्यवेक्षित बाइनरी वर्गीकरण समस्या) को आउटपुट करता है और इन फ़ंक्शन के बीच आप एक विशिष्ट फ़ंक्शन की तलाश कर रहे हैं, जो आपको दिए गए डेटासेट के लिए हां / नहीं में सही परिणाम देता है । आप प्रश्न पूछ सकते हैं: "कौन से फ़ंक्शंस रिटर्न नहीं करते हैं और कौन से फ़ंक्शंस किसी दिए गए लिए हाँ करते हैंएनएक्सएनडी={(एक्स1,y1),(एक्स2,y2),,(एक्सएल,yएल)}एक्समैंअपने डेटासेट से। चूंकि आप जानते हैं कि आपके पास मौजूद प्रशिक्षण डेटा से वास्तविक उत्तर क्या है, आप उन सभी कार्यों को दूर कर सकते हैं जो आपको कुछ लिए गलत उत्तर देते हैं । आपको कितने बिट्स की जानकारी चाहिए? या दूसरे शब्दों में: उन सभी गलत कार्यों को हटाने के लिए आपको कितने प्रशिक्षण उदाहरणों की आवश्यकता है? । यहाँ यह सूचना सिद्धांत में शैनन के अवलोकन से एक छोटा अंतर है। आप अपने कार्यों के सेट को बिल्कुल आधे हिस्से में नहीं बांट रहे हैं (हो सकता है कि से केवल एक फ़ंक्शन आपको कुछ लिए गलत उत्तर देता है ), और हो सकता है, आपके कार्यों का सेट बहुत बड़ा हो और आपके लिए एक फ़ंक्शन ढूंढना पर्याप्त हो -close अपने इच्छित कार्य के लिए और आप यह सुनिश्चित करना चाहते हैं कि यह फ़ंक्शन हैएक्समैंएनएक्समैंεεप्रायिकता के साथ -close ( - PAC ढाँचा), सूचना की बिट्स की संख्या (नमूनों की संख्या) आपको आवश्यकता होगी, ।1-δ(ε,δ)एलजी2एन/δε

अब मान लीजिए कि फ़ंक्शन के सेट के बीच कोई फ़ंक्शन नहीं है जो त्रुटियां नहीं करता है। पहले की तरह, यह आपके लिए एक फ़ंक्शन खोजने के लिए पर्याप्त है जो प्रायिकता साथ -close है । आपको जिन नमूनों की आवश्यकता होगी, वह है ।एनε1-δएलजी2एन/δε2

ध्यान दें कि दोनों मामलों में परिणाम समानुपाती हैं - बाइनरी खोज समस्या के समान।एलजी2एन

अब मान लीजिए कि आपके पास फ़ंक्शंस का एक अनंत सेट है और उन फ़ंक्शंस के बीच आप उस फ़ंक्शन को खोजना चाहते हैं जो कि प्रोबेशन साथ सर्वश्रेष्ठ फ़ंक्शन के लिए -close है । मान लीजिए (उदाहरण की सादगी के लिए) कि फ़ंक्शंस निरंतर (एसवीएम) सम्‍मिलित हैं और आपको एक ऐसा फ़ंक्शन मिला है, जो कि सबसे बेहतर फ़ंक्शन के लिए -close है। यदि आप अपने फ़ंक्शन को थोड़ा सा सेंट करते हैं तो यह वर्गीकरण के परिणामों को नहीं बदलेगा आपके पास एक अलग फ़ंक्शन होगा जो पहले परिणाम के समान ही वर्गीकृत करता है। आप ऐसे सभी फ़ंक्शन ले सकते हैं जो आपको समान वर्गीकरण परिणाम (वर्गीकरण त्रुटि) देते हैं और उन्हें एक ही फ़ंक्शन के रूप में गिनते हैं क्योंकि वे आपके डेटा को सटीक समान हानि (चित्र में एक पंक्ति) के साथ वर्गीकृत करते हैं।ε1-δε

यहाँ छवि विवरण दर्ज करें

___________________Both लाइनें (फ़ंक्शन) समान सफलता वाले अंकों को वर्गीकृत करेगी। __________________

इस तरह के कार्यों के सेट से एक विशिष्ट फ़ंक्शन को खोजने के लिए आपको कितने नमूनों की आवश्यकता है (याद रखें कि हमने अपने कार्यों को फ़ंक्शन के सेट में विभाजित कर दिया था जहां प्रत्येक फ़ंक्शन दिए गए सेट के लिए समान वर्गीकरण परिणाम देता है)? यह वही है जो आयाम बताता है - को से बदल दिया जाता है क्योंकि आपके पास अनंत प्रकार के निरंतर कार्य होते हैं जो विशिष्ट बिंदुओं के लिए समान वर्गीकरण त्रुटि वाले कार्यों के एक सेट से विभाजित होते हैं। आपके लिए आवश्यक नमूनों की संख्या यदि आपके पास कोई ऐसा फ़ंक्शन है जो पूरी तरह से पहचानता है औरवीसीएलजी2एनवीसीवीसी-एलजी(δ)εवीसी-एलजी(δ)ε2 यदि आपके पास अपने मूल कार्यों में एक पूर्ण कार्य नहीं है।

यही है, आयाम आपको एक उच्च सीमा देता है (जो कि btw में सुधार नहीं किया जा सकता है) आपको कई नमूने के लिए आवश्यक है ताकि संभावना साथ त्रुटि प्राप्त हो सके ।वीसीε1-δ


0

वीसी आयाम मॉडल की जटिलता का एक उपाय है। उदाहरण के लिए, वीसी आयाम Dvc को देखते हुए, अंगूठे का एक अच्छा नियम यह है कि आपके मॉडल की जटिलता को देखते हुए आपके पास n = 10xDvc डेटा बिंदु होने चाहिए।

आप परीक्षण त्रुटि पर एक ऊपरी बाध्य बनाने के लिए भी इसका उपयोग कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.