पूर्वाग्रह और विचरण के उपचार में हमेशा एक गुप्त सूक्ष्मता होती है, और अध्ययन करते समय इस पर ध्यान देना महत्वपूर्ण है। यदि आप उस अध्याय के एक खंड में ईएसएल के पहले कुछ शब्दों को फिर से पढ़ते हैं, तो लेखक इसे कुछ सम्मान देंगे।
त्रुटि दर के आकलन की चर्चा भ्रामक हो सकती है, क्योंकि हमें यह स्पष्ट करना होगा कि कौन सी मात्राएं निर्धारित हैं और कौन सी यादृच्छिक हैं
सूक्ष्मता जो तय है, और जो यादृच्छिक है ।
रेखीय प्रतिगमन के पारंपरिक उपचार में, डेटा एक्सतय और ज्ञात के रूप में माना जाता है। यदि आप ईएसएल में तर्कों का पालन करते हैं, तो आप पाएंगे कि लेखक भी यह धारणा बना रहे हैं। इन मान्यताओं के तहत, आपका उदाहरण खेल में नहीं आता है, क्योंकि सशर्त वितरण से यादृच्छिकता का एकमात्र शेष स्रोत हैy दिया हुआ एक्स। यदि यह मदद करता है, तो आप नोटेशन को बदलना चाह सकते हैंइआर आर (एक्स0) आपके मन में इआर आर (एक्स0∣ एक्स)।
यह कहना नहीं है कि आपकी चिंता अमान्य है, यह निश्चित रूप से सच है कि प्रशिक्षण डेटा का चयन वास्तव में हमारे मॉडल एल्गोरिथ्म में यादृच्छिकता का परिचय देता है, और एक मेहनती चिकित्सक अपने परिणामों पर इस यादृच्छिकता के प्रभाव को निर्धारित करने का प्रयास करेगा। वास्तव में, आप काफी स्पष्ट रूप से देख सकते हैं कि बूटस्ट्रैपिंग और क्रॉस-वैधीकरण की सामान्य प्रथाएं स्पष्ट रूप से यादृच्छिकता के इन स्रोतों को अपने निष्कर्षों में शामिल करती हैं।
एक यादृच्छिक प्रशिक्षण डेटा सेट के संदर्भ में एक रैखिक मॉडल के पूर्वाग्रह और विचरण के लिए एक स्पष्ट गणितीय अभिव्यक्ति प्राप्त करने के लिए, किसी को यादृच्छिकता की संरचना के बारे में कुछ धारणाएं बनाने की आवश्यकता होगी। एक्सडेटा। इसमें वितरण पर कुछ अनुमान शामिल होंगेएक्स। यह किया जा सकता है, लेकिन इन विचारों के मुख्यधारा के विस्तार का हिस्सा नहीं बन गया है।