1) पूर्वाग्रह में लाभ की तुलना में पूर्वाग्रह की शुरुआत से होने वाली क्षति कम क्यों है?
यह आमतौर पर है , यह नहीं है। क्या ट्रेडऑफ लायक है यह नुकसान फ़ंक्शन पर निर्भर करता है। लेकिन वास्तविक जीवन में हम जिन चीजों की परवाह करते हैं, वे अक्सर चुकता त्रुटि के समान होती हैं (जैसे हम लगभग दो त्रुटियों की तुलना में एक बड़ी त्रुटि के बारे में आधे आकार की परवाह करते हैं)।
एक प्रतिधारण के रूप में - कल्पना करें कि कॉलेज के प्रवेश के लिए हम लोगों के SAT स्कोर को थोड़ा सा घटाते हैं मतलब SAT के लिए उनके जनसांख्यिकीय (हालांकि परिभाषित)। यदि ठीक से किया जाता है, तो यह पूर्वाग्रह को कम करेगा और पूर्वाग्रह का परिचय देते समय व्यक्ति की (कुछ प्रकार की) क्षमता के अनुमानों की चुकता त्रुटि। ज्यादातर लोग IMHO का तर्क देंगे कि इस तरह का व्यापार अस्वीकार्य है।
2) यह हमेशा काम क्यों करता है?
3) 0 (मूल) के बारे में क्या दिलचस्प है? स्पष्ट रूप से हम कहीं भी सिकुड़ सकते हैं (यानी स्टीन अनुमानक), लेकिन क्या यह मूल के रूप में अच्छा काम करने वाला है?
मुझे लगता है कि यह इसलिए है क्योंकि हम आमतौर पर गुणांक या प्रभाव अनुमानों को छोटा करते हैं। यह मानने के कारण हैं कि अधिकांश प्रभाव बड़े नहीं हैं (उदाहरण के लिए एंड्रयू गेलमैन का लेना )। इसे लगाने का एक तरीका यह है कि एक ऐसी दुनिया जहां सब कुछ एक मजबूत प्रभाव के साथ सब कुछ प्रभावित करता है एक हिंसक अप्रत्याशित दुनिया है। चूँकि हमारी दुनिया हमें लंबे जीवन जीने और अर्द्ध-स्थिर सभ्यताओं का निर्माण करने के लिए पर्याप्त रूप से अनुमानित है, इसलिए यह इस प्रकार है कि अधिकांश प्रभाव बड़े नहीं हैं।
चूंकि अधिकांश प्रभाव बड़े नहीं होते हैं, इसलिए यह वास्तव में कुछ बड़े लोगों को गलत तरीके से सिकोड़ने के लिए उपयोगी होता है जबकि नगण्य प्रभावों के भार को सही ढंग से सिकोड़ता है।
मेरा मानना है कि यह सिर्फ हमारी दुनिया की एक संपत्ति है और आप शायद आत्म-सुसंगत दुनिया का निर्माण कर सकते हैं जहां संकोचन व्यावहारिक नहीं है (सबसे अधिक संभावना है कि अर्थ-स्क्वेर्ड एरर एक अव्यावहारिक नुकसान फ़ंक्शन है)। हम जिस दुनिया में रहते हैं, वह होना ही नहीं है।
दूसरी ओर, जब हम बायेसियन विश्लेषण में एक पूर्व वितरण के रूप में संकोचन के बारे में सोचते हैं, तो ऐसे मामले हैं जहां 0 में संकोचन सक्रिय रूप से व्यवहार में हानिकारक है।
एक उदाहरण गाऊसी प्रक्रियाओं में लंबाई का पैमाना है (जहां 0 समस्याग्रस्त है) स्टेन की नियमावली में सिफारिश एक ऐसे पूर्व का उपयोग करने के लिए है जो नगण्य वजन को शून्य के करीब रखता है अर्थात शून्य से दूर छोटे मूल्यों को प्रभावी ढंग से "सिकुड़" रहा है। इसी तरह, नकारात्मक द्विपद वितरण में फैलाव के लिए अनुशंसित पुजारी प्रभावी रूप से शून्य से दूर हट जाते हैं। अंतिम लेकिन कम से कम, जब भी सामान्य वितरण सटीक (INLA के रूप में) के साथ पैराट्राइज्ड होता है, तो उलटा-गामा या अन्य पूर्व वितरणों का उपयोग करना उपयोगी होता है जो शून्य से दूर हटते हैं।
4) विभिन्न सार्वभौमिक कोडिंग योजनाएं मूल के आसपास बिट्स की कम संख्या को क्यों पसंद करती हैं? क्या ये परिकल्पनाएं अधिक संभावित हैं?
P(i)≥P(i+1)i