संकोचन वास्तव में क्यों काम करता है, 0 के बारे में क्या खास है?


15

इस साइट पर पहले से ही एक पोस्ट है जो एक ही मुद्दे के बारे में बात कर रही है: संकोचन क्यों काम करता है?

लेकिन, उत्तर लोकप्रिय होने के बावजूद, मुझे विश्वास नहीं होता कि प्रश्न का सार वास्तव में संबोधित है। यह बहुत स्पष्ट है कि अनुमान में कुछ पूर्वाग्रह शुरू करने से विचरण में कमी आती है और अनुमान की गुणवत्ता में सुधार हो सकता है। तथापि:

1) पूर्वाग्रह में लाभ की तुलना में पूर्वाग्रह की शुरुआत से होने वाली क्षति कम क्यों है?

2) यह हमेशा काम क्यों करता है? उदाहरण के लिए रिज रिग्रेशन: अस्तित्व प्रमेय

3) 0 (मूल) के बारे में क्या दिलचस्प है? स्पष्ट रूप से हम कहीं भी सिकुड़ सकते हैं (यानी स्टीन अनुमानक ), लेकिन क्या यह मूल के रूप में अच्छा काम करने वाला है?

4) विभिन्न सार्वभौमिक कोडिंग योजनाएं मूल के आसपास कम संख्या में बिट्स को क्यों पसंद करती हैं? इन परिकल्पनाओं हैं बस अधिक संभावित?

सिद्ध प्रमेयों या स्थापित परिणामों के संदर्भों के साथ उत्तर अपेक्षित हैं।


@ KarolisKoncevičius, लिंक ठीक करने के लिए धन्यवाद! हालाँकि, ध्यान दें, कि पिछले एक को छोड़कर आपकी भाषा के संपादन बहुत उपयोगी नहीं हो सकते हैं। दूसरे लोग कुछ अनावश्यक पाठ जोड़ना चाहते हैं और इस तरह से इस पोस्ट को थोड़ा कम पढ़ा जा सकता है।
रिचर्ड हार्डी

1
3) "मूल के बारे में इतना दिलचस्प क्या है?" आप इस कथन को कैसे समझते हैं? यदि आपके पास एक समूह कारक है (उदाहरण के लिए देश) और व्यक्तिगत कारक (जैसे शहर), तो संकोचन देश स्तर पर औसत डाल देगा, और फिर केवल पर्याप्त डेटा वाले शहर स्तर के विचलन में गुणांक होगा) - अर्थात आपका मॉडल समूह स्तर पर धकेल दिया गया है (देश) औसत (शहर के स्तर के गुणांक को शून्य पर धकेलकर) ... और इसी तरह पदानुक्रम (और कई पदानुक्रम) में अधिक स्तरों के लिए
seanv507

जवाबों:


7

1) पूर्वाग्रह में लाभ की तुलना में पूर्वाग्रह की शुरुआत से होने वाली क्षति कम क्यों है?

यह आमतौर पर है , यह नहीं है। क्या ट्रेडऑफ लायक है यह नुकसान फ़ंक्शन पर निर्भर करता है। लेकिन वास्तविक जीवन में हम जिन चीजों की परवाह करते हैं, वे अक्सर चुकता त्रुटि के समान होती हैं (जैसे हम लगभग दो त्रुटियों की तुलना में एक बड़ी त्रुटि के बारे में आधे आकार की परवाह करते हैं)।

एक प्रतिधारण के रूप में - कल्पना करें कि कॉलेज के प्रवेश के लिए हम लोगों के SAT स्कोर को थोड़ा सा घटाते हैं मतलब SAT के लिए उनके जनसांख्यिकीय (हालांकि परिभाषित)। यदि ठीक से किया जाता है, तो यह पूर्वाग्रह को कम करेगा और पूर्वाग्रह का परिचय देते समय व्यक्ति की (कुछ प्रकार की) क्षमता के अनुमानों की चुकता त्रुटि। ज्यादातर लोग IMHO का तर्क देंगे कि इस तरह का व्यापार अस्वीकार्य है।

2) यह हमेशा काम क्यों करता है?

3) 0 (मूल) के बारे में क्या दिलचस्प है? स्पष्ट रूप से हम कहीं भी सिकुड़ सकते हैं (यानी स्टीन अनुमानक), लेकिन क्या यह मूल के रूप में अच्छा काम करने वाला है?

मुझे लगता है कि यह इसलिए है क्योंकि हम आमतौर पर गुणांक या प्रभाव अनुमानों को छोटा करते हैं। यह मानने के कारण हैं कि अधिकांश प्रभाव बड़े नहीं हैं (उदाहरण के लिए एंड्रयू गेलमैन का लेना )। इसे लगाने का एक तरीका यह है कि एक ऐसी दुनिया जहां सब कुछ एक मजबूत प्रभाव के साथ सब कुछ प्रभावित करता है एक हिंसक अप्रत्याशित दुनिया है। चूँकि हमारी दुनिया हमें लंबे जीवन जीने और अर्द्ध-स्थिर सभ्यताओं का निर्माण करने के लिए पर्याप्त रूप से अनुमानित है, इसलिए यह इस प्रकार है कि अधिकांश प्रभाव बड़े नहीं हैं।

चूंकि अधिकांश प्रभाव बड़े नहीं होते हैं, इसलिए यह वास्तव में कुछ बड़े लोगों को गलत तरीके से सिकोड़ने के लिए उपयोगी होता है जबकि नगण्य प्रभावों के भार को सही ढंग से सिकोड़ता है।

मेरा मानना ​​है कि यह सिर्फ हमारी दुनिया की एक संपत्ति है और आप शायद आत्म-सुसंगत दुनिया का निर्माण कर सकते हैं जहां संकोचन व्यावहारिक नहीं है (सबसे अधिक संभावना है कि अर्थ-स्क्वेर्ड एरर एक अव्यावहारिक नुकसान फ़ंक्शन है)। हम जिस दुनिया में रहते हैं, वह होना ही नहीं है।

दूसरी ओर, जब हम बायेसियन विश्लेषण में एक पूर्व वितरण के रूप में संकोचन के बारे में सोचते हैं, तो ऐसे मामले हैं जहां 0 में संकोचन सक्रिय रूप से व्यवहार में हानिकारक है।

एक उदाहरण गाऊसी प्रक्रियाओं में लंबाई का पैमाना है (जहां 0 समस्याग्रस्त है) स्टेन की नियमावली में सिफारिश एक ऐसे पूर्व का उपयोग करने के लिए है जो नगण्य वजन को शून्य के करीब रखता है अर्थात शून्य से दूर छोटे मूल्यों को प्रभावी ढंग से "सिकुड़" रहा है। इसी तरह, नकारात्मक द्विपद वितरण में फैलाव के लिए अनुशंसित पुजारी प्रभावी रूप से शून्य से दूर हट जाते हैं। अंतिम लेकिन कम से कम, जब भी सामान्य वितरण सटीक (INLA के रूप में) के साथ पैराट्राइज्ड होता है, तो उलटा-गामा या अन्य पूर्व वितरणों का उपयोग करना उपयोगी होता है जो शून्य से दूर हटते हैं।

4) विभिन्न सार्वभौमिक कोडिंग योजनाएं मूल के आसपास बिट्स की कम संख्या को क्यों पसंद करती हैं? क्या ये परिकल्पनाएं अधिक संभावित हैं?

P(i)P(i+1)मैं


1
1) का उत्तर वास्तव में अच्छा है!
डेविड

स्पष्ट रूप से एंड्रयू जेलमैन के दिमाग में मानक मॉडल थे जहां हम इनपुट के साथ गुणांक को गुणा करते हैं। यह जरूरी नहीं कि मामला हो। क्या होगा अगर हम गुणांक व्युत्क्रम मॉडल में आते हैं? फिर 0 चीजों को उड़ा देगा।
कैगदास ओजेंक

1
@CowboyTrader हाँ और वहाँ वास्तविक-दुनिया के उपयोग के मामले हैं जहां 0 समस्याग्रस्त है और हम दूर हटते हैं (उत्तर में जोड़ा गया)। इसलिए मेरा मानना ​​है कि यह इस बात का थोड़ा समर्थन करता है कि शून्य की ओर सिकुड़न सिर्फ एक ऐसा अनुमान है जो अक्सर (व्यवहार में) काम करता है, लेकिन एक मौलिक गणितीय सत्य नहीं है।
मार्टिन मोद्रक

1
मेरी प्रारंभिक प्रतिक्रिया के लिए क्षमा करें। आपका उत्तर अधिक सार्थक हो रहा है। ध्यान दें कि संकोचन अन्य नुकसान कार्यों के तहत काम करता है, न केवल वर्ग हानि के तहत। असली मुद्दा यह है कि आखिर मैं हमेशा काम क्यों करता हूं? मीन / लोकेशन पैरामीटर के लिए 0 एक मैजिक नंबर लगता है।
कैगदास ओजेंक

σ

0

रिज, लैस्सो और इलास्टिक नेट शून्य पर केंद्रित पुजारियों के साथ बायेसियन विधियों के समान हैं - उदाहरण के लिए, हेस्टी , टिब्शिरानी और वेनराइट द्वारा स्पार्सिटी के साथ सांख्यिकीय सीखना , अनुभाग 2.9 Lq Penalties and Bayes Estimates: "इन अनुमानकों का एक बायेसियन दृष्टिकोण भी है ... इसका मतलब यह है कि लैस्सो अनुमान पूर्व में लाप्लाकैस का उपयोग करने वाला बायेसियन एमएपी (अधिकतम एपोस्टेरियोरी) अनुमानक है। "

आपके प्रश्न ( what's so special about zero?) का उत्तर देने का एक तरीका यह है कि हम जिन प्रभावों का अनुमान लगा रहे हैं, वे औसतन शून्य हैं, और वे छोटे होते हैं (यानी हमारे पुजारी शून्य के आसपास केंद्रित होने चाहिए )। शून्य के प्रति सिकुड़न का अनुमान एक बायेसियन अर्थ में इष्टतम है, और उस लेंस के माध्यम से लासो और रिज और इलास्टिक नेट के बारे में सोचा जा सकता है।


3
शून्य पर सिकुड़ना कुछ खास नहीं है (सिवाय इसके कि समीकरण सरल हो क्योंकि आप किसी विशेष कारक के साथ परिणाम को गुणा करते हैं)। आप किसी अन्य बिंदु पर भी सिकुड़ सकते हैं। आगे वह बिंदु सही मूल्य से है, सिकुड़ने का कम अच्छा प्रदर्शन (लेकिन किसी भी बिंदु के लिए कुछ सिकुड़ने की मात्रा मौजूद है जो कुछ प्रदर्शन को बढ़ा देगा ... कम से कम गॉज़ियन वितरित चर के लिए)। इसलिए जब कोई परिणाम आम तौर पर शून्य से बहुत दूर होता है तो शून्य से सिकुड़ना केवल बहुत कम सुधार देगा।
सेक्स्टस एम्पिरिकस

1
@MartijnWeterings स्पष्ट रूप से खुद को सच्चाई पर रखने से पहले आदर्श (बुल-आई) होगा। लेकिन 0 को सिकोड़ना अभी भी कुछ सुधार क्यों देता है? मैं उसके बाद क्या हूँ।
कैगदास ओजेंक

@CowboyTrader किसी भी मूल्य में सिकुड़ने से सुधार होता है। यही कारण है कि यह 0 के लिए भी काम करता है।
सेक्सटस एम्पिरिकस

@MartijnWeterings हाँ, लेकिन सीखने के सिद्धांत से सीमा हमेशा मूल पर आधारित होती है। वे मूल पर केंद्रित एक गेंद / पॉलीहेड्रॉन / आदि डालते हैं। क्या यह सिर्फ एक सबूत की सुविधा है? MDL परिकल्पना एन्कोडिंग 0 से सबसे छोटा कोडेलोड देकर पूर्णांक को कूटबद्ध करता है? क्या यह एक संयोग है?
कैगदास ओजेंक

1
तो मान लीजिए कि आप इस मामले में रिज रिग्रेशन करते हैं कि वास्तव में सभी चर वास्तव में मॉडल का हिस्सा हैं (जो व्यवहार में सामान्य नहीं है) तो यह इतनी अच्छी तरह से काम नहीं करेगा। हो सकता है कि एड्रियन का यह मतलब हो कि "प्रभाव औसत रूप से शून्य हैं, और वे छोटे होते हैं" (मुझे उन मामलों के बारे में नहीं पता है जिनके लिए यह बिल्कुल सच है। लेकिन मशीन सीखने के कई मामले हैं जहां हम बहुत कुछ खिलाते हैं। मापदंडों, और जहां कई की शायद आवश्यकता नहीं है, तो अधिकांश प्रभाव शून्य या छोटे हैं।)
सेक्स्टस एम्पिरिकस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.