चुकंदर का अंतर इतना अधिक क्यों इस्तेमाल किया जाता है?


14

बहुत बार जब मैं नए सांख्यिकीय तरीकों और अवधारणाओं की जांच करता हूं, तो मैं चुकता अंतर (या मतलब चुकता त्रुटि, या अन्य एपिसोड की अधिकता) में भाग लेता हूं। एक उदाहरण के रूप में, पियरसन का निर्णय प्रतिगमन रेखा से औसत वर्ग अंतर के आधार पर तय किया जाता है कि अंक झूठ बोलते हैं। एनोवा के लिए, आप वर्गों का योग देख रहे हैं, और इसी तरह।

अब, मैं समझता हूं कि सब कुछ चुकाने के बाद, आप यह सुनिश्चित करते हैं कि आउटलेर के साथ डेटा वास्तव में दंडित हो जाता है। हालाँकि, घातांक का उपयोग ठीक 2 क्यों किया जा रहा है? क्यों नहीं 2.1, या ई, या पी, या जो भी हो? क्या कुछ विशेष कारण है कि 2 का उपयोग किया जाता है या यह केवल एक सम्मेलन है? मुझे संदेह है कि स्पष्टीकरण में घंटी की वक्र के साथ कुछ करना हो सकता है, लेकिन मुझे पूरा यकीन है।


4
सबसे पहले, आप EXPONENTIAL शब्द का दुरुपयोग कर रहे हैं, जो कि बजाय जैसी चीजों को संदर्भित करता । दूसरा, आंकड़े पर देखें ।stackexchange.com / questions / 118 / जहां यह विषय पूरी तरह से कवर किया गया है। x aaxxa
रस लेथेन

@ धन्यवाद, मैंने अपने प्रश्न से उस शब्द को संपादित किया। और धन्यवाद, मैं उस प्रश्न की जाँच करूँगा!
जून को Speldosa

3
एक अच्छा कारण यह है कि वे अंत में सभी सरल सूत्रों से उपजी हैं जो कि समास के भिन्न रूप (घटकों और संभवतः संवेगों) से भिन्न होते हैं, और वर्गों के विघटन के बारे में साफ परिणाम देते हैं। यदि ऊपर दिए गए प्रश्न @rvl आपके प्रश्न का उत्तर देता है, तो कृपया अपने प्रश्न को बंद करने पर विचार करें। यदि यह आपके प्रश्न का पूरी तरह से उत्तर नहीं देता है, तो कृपया अपने प्रश्न को संपादित करें कि आप क्या जानना चाहते हैं और वहाँ क्या है, के बीच अंतर को उजागर करें।
Glen_b -Reinstate मोनिका

मुझे लगता है कि यह स्क्वेरिंग के बारे में दूसरे (लोकप्रिय) धागे की तुलना में एक अलग सवाल है। एक चुकता हानि फ़ंक्शन (जो, नीचे, इस सवाल का जवाब देने की कुंजी है) और विचलन का आकलन करने के लिए चौकोर (जो दूसरे धागे का जोर है) के बीच एक वैचारिक अंतर है।
whuber

इसी तरह की समस्याओं के लिए यहां और यहां जांचें ।
टिम

जवाबों:


16

आंकड़ों के लिए एक निर्णय-सिद्धांत दृष्टिकोण एक गहन व्याख्या प्रदान करता है। इसमें कहा गया है कि स्क्वेरिंग अंतर कई प्रकार के नुकसान के कार्यों के लिए एक प्रॉक्सी है, जो (जब भी उन्हें उचित रूप से अपनाया जा सकता है) संभव सांख्यिकीय प्रक्रियाओं में काफी सरलीकरण की ओर जाता है, जिस पर विचार करना होगा।

दुर्भाग्य से, इसका अर्थ क्या है और यह इंगित करना कि यह सच क्यों है, बहुत सारी सेटिंग लेता है। अंकन जल्दी से समझ से बाहर हो सकता है। मैं यहाँ क्या करने का लक्ष्य रखता हूँ, बस थोड़ा विस्तार के साथ मुख्य विचारों को स्केच करना है। फुलर खातों के लिए संदर्भ देखें।


डेटा का एक मानक, समृद्ध मॉडल है कि वे एक (वास्तविक, सदिश-मूल्यवान) यादृच्छिक चर का एक बोध हैं, जिसका वितरण केवल कुछ सेट के तत्वों के तत्व के रूप में जाना जाता है , राज्यों प्रकृति का । एक सांख्यिकीय प्रक्रिया एक समारोह है के फैसले के कुछ समूह में मान लेने , निर्णय अंतरिक्ष।एक्स एफ Ω टी एक्स डीxXFΩtxD

उदाहरण के लिए, एक भविष्यवाणी या वर्गीकरण समस्या में में एक "प्रशिक्षण सेट" और "डेटा का परीक्षण सेट" का एक संघ शामिल होगा और परीक्षण सेट के लिए अनुमानित मूल्यों के एक सेट में मैप करेगा । सभी संभावित अनुमानित मूल्यों का सेट होगा । टी एक्स डीxtxD

प्रक्रियाओं की एक पूरी सैद्धांतिक चर्चा को यादृच्छिक प्रक्रियाओं को समायोजित करना है । एक यादृच्छिक प्रक्रिया कुछ संभाव्यता वितरण (जो डेटा पर निर्भर करता है ) के अनुसार दो या अधिक संभावित निर्णयों के बीच चयन करता है । यह सहज विचार को सामान्य करता है कि जब डेटा दो विकल्पों के बीच अंतर नहीं करता है, तो आप निश्चित रूप से एक निश्चित विकल्प पर निर्णय लेने के लिए "एक सिक्का फ्लिप" करें। कई लोग अनियमित प्रक्रियाओं को नापसंद करते हैं, इस तरह के अप्रत्याशित तरीके से निर्णय लेने पर आपत्ति करते हैं।x

निर्णय सिद्धांत की विशिष्ट विशेषता इसका नुकसान फ़ंक्शन का उपयोग है । W प्रकृति के किसी भी राज्य के लिए और , नुकसानडीFΩdD

W(F,d)

एक अंकीय मान का प्रतिनिधित्व करने के लिए कैसे "बुरा" यह फैसला लेने के लिए होगा जब प्रकृति की सही स्थिति है : छोटे नुकसान अच्छे हैं, बड़े नुकसान बुरा कर रहे हैं। उदाहरण के लिए, एक परिकल्पना परीक्षण की स्थिति में, पास दो तत्व "स्वीकार" और "अस्वीकार" (शून्य परिकल्पना) हैं। नुकसान फ़ंक्शन सही निर्णय लेने पर जोर देता है: यह शून्य पर सेट होता है जब निर्णय सही होता है और अन्यथा कुछ निरंतर । (इसे " हानि फ़ंक्शन कहा जाता है :" सभी बुरे निर्णय समान रूप से बुरे हैं और सभी अच्छे निर्णय समान रूप से अच्छे हैं।) विशेष रूप से, जब शून्य परिकल्पना में है औरएफ डी डब्ल्यू 0 - 1 डब्ल्यू ( एफ ,  स्वीकार ) = 0 एफ डब्ल्यू ( एफ ,  अस्वीकार ) = 0 एफdFDw01W(F, accept)=0FW(F, reject)=0F वैकल्पिक परिकल्पना में है।

जब प्रक्रिया का उपयोग , डेटा के लिए नुकसान जब प्रकृति की सही स्थिति है लिखा जा सकता है। यह नुकसान एक यादृच्छिक चर बनाता है जिसका वितरण (अज्ञात) द्वारा निर्धारित किया जाता है ।एक्स एफ डब्ल्यू ( एफ , टी ( एक्स ) ) डब्ल्यू ( एफ , टी ( एक्स ) ) एफtxFW(F,t(x))W(F,t(X))F

एक प्रक्रिया अपेक्षित नुकसान को इसका जोखिम कहा जाता है , । उम्मीद प्रकृति की वास्तविक स्थिति का उपयोग करती है , इसलिए यह अपेक्षा ऑपरेटर के एक उपप्रकार के रूप में स्पष्ट रूप से दिखाई देगा। हम जोखिम को एक समारोह के रूप में देखेंगे और इस पर जोर देंगे :आर टी एफ एफtrtFF

rt(F)=EF(W(F,t(X))).

बेहतर प्रक्रियाओं से जोखिम कम होता है। इस प्रकार, जोखिम कार्यों की तुलना करना अच्छी सांख्यिकीय प्रक्रियाओं के चयन का आधार है। चूंकि सभी जोखिम वाले कार्यों को एक सामान्य (सकारात्मक) स्थिरांक से बदलने से कोई तुलना नहीं बदलेगी, के पैमाने पर कोई फर्क नहीं पड़ता है: हम इसे किसी भी सकारात्मक मूल्य से गुणा करना चाहते हैं जो हमें पसंद है। विशेष रूप से, को गुणा करने पर हम नुकसान फ़ंक्शन (इसके नाम को सही ठहराने) के लिए हमेशा ले सकते हैं ।डब्ल्यू 1 / डब्ल्यू डब्ल्यू = 1 0 - 1WW1/ww=101

परिकल्पना परीक्षण उदाहरण को जारी रखने के लिए, जो हानि समारोह का चित्रण करता है, इन परिभाषाओं में अशक्त परिकल्पना में किसी भी का खतरा है, यह मौका है कि निर्णय "अस्वीकार" है, जबकि विकल्प में किसी भी का जोखिम है मौका है कि निर्णय "स्वीकार करते हैं।" अधिकतम मान ( शून्य परिकल्पना में सभी पर ) परीक्षण का आकार है , जबकि वैकल्पिक परिकल्पना पर परिभाषित जोखिम फ़ंक्शन का हिस्सा परीक्षण शक्ति ( )। इसमें हम देखते हैं कि शास्त्रीय (अक्सरवादी) परिकल्पना परीक्षण सिद्धांत की संपूर्णता एक विशेष प्रकार के नुकसान के लिए जोखिम कार्यों की तुलना करने के लिए एक विशेष तरीके से कैसे होती है।01FFFpowert(F)=1rt(F)

वैसे, अब तक प्रस्तुत की गई सभी चीजें बेसिकियन प्रतिमान सहित सभी मुख्यधारा के आंकड़ों के साथ पूरी तरह से संगत हैं। इसके अलावा, बायेसियन विश्लेषण ने पर "पूर्व" संभावना वितरण का परिचय दिया है और जोखिम कार्यों की तुलना को आसान बनाने के लिए इसका उपयोग करता है: संभावित जटिल फ़ंक्शन को पूर्व वितरण के संबंध में इसके अपेक्षित मूल्य से बदला जा सकता है। इस प्रकार सभी प्रक्रियाओं एक संख्या की विशेषता है ; एक बेयस प्रक्रिया (जो आमतौर पर अद्वितीय होती है) कम । नुकसान फ़ंक्शन अभी भी कंप्यूटिंग में एक आवश्यक भूमिका निभाता है ।Ωrttrtrtrt

नुकसान कार्यों के उपयोग के आसपास कुछ (अपरिहार्य) विवाद है। कैसे ? यह परिकल्पना परीक्षण के लिए अनिवार्य रूप से अद्वितीय है, लेकिन अन्य सांख्यिकीय सेटिंग्स में कई विकल्प संभव हैं। वे निर्णय निर्माता के मूल्यों को दर्शाते हैं। उदाहरण के लिए, यदि डेटा एक चिकित्सा रोगी के शारीरिक माप हैं और निर्णय "इलाज" या "इलाज नहीं करते हैं," चिकित्सक को विचार करना चाहिए - और संतुलन में तौलना - या तो कार्रवाई के परिणाम। परिणामों को कैसे तौला जाता है यह रोगी की अपनी इच्छा, उनकी आयु, उनके जीवन की गुणवत्ता और कई अन्य चीजों पर निर्भर हो सकता है। एक हानि समारोह की पसंद भयावह और गहरी व्यक्तिगत हो सकती है। आम तौर पर इसे सांख्यिकीविद् को नहीं छोड़ा जाना चाहिए!W

एक बात जिसे हम जानना चाहते हैं, वह यह है कि नुकसान को बदलने के लिए सबसे अच्छी प्रक्रिया का विकल्प कैसे बदलेगा? यह पता चला है कि कई सामान्य, व्यावहारिक स्थितियों में बदलाव के बिना एक निश्चित मात्रा में भिन्नता को सहन किया जा सकता है जो सबसे अच्छी प्रक्रिया है। इन स्थितियों को निम्नलिखित स्थितियों की विशेषता है:

  • निर्णय स्थान एक उत्तल सेट (अक्सर संख्याओं का अंतराल) होता है। इसका मतलब यह है कि किसी भी दो निर्णयों के बीच में कोई भी मूल्य एक वैध निर्णय है।

  • नुकसान शून्य है जब सबसे अच्छा संभव निर्णय किया जाता है और अन्यथा बढ़ जाता है (निर्णय के बीच विसंगतियों को प्रतिबिंबित करने के लिए जो किया जाता है और सबसे अच्छा वह है जो सच्चे - लेकिन अज्ञात - प्रकृति की स्थिति के लिए किया जा सकता है)।

  • नुकसान निर्णय का एक अलग कार्य है (कम से कम स्थानीय रूप से सर्वश्रेष्ठ निर्णय के पास)। इसका मतलब यह है कि यह निरंतर है - यह उस तरह से नहीं कूदता है जिस तरह से नुकसान होता है - लेकिन इसका मतलब यह भी है कि जब यह निर्णय सबसे अच्छा होता है तो यह अपेक्षाकृत कम बदलता है।01

जब ये स्थितियां होती हैं, तो जोखिम कार्यों की तुलना करने में शामिल कुछ जटिलताएं दूर हो जाती हैं। की भिन्नता और उत्तलता हमें यह दिखाने के लिए जेन्सन की असमानता को लागू करने की अनुमति देती हैW

(1) हमें यादृच्छिक प्रक्रियाओं [लेहमैन, कोरोलरी 6.2] पर विचार करने की आवश्यकता नहीं है।

(2) यदि किसी एक प्रक्रिया को ऐसे लिए सबसे अच्छा जोखिम माना जाता है , तो इसे एक प्रक्रिया में सुधार किया जा सकता है, जो केवल एक पर्याप्त आँकड़ा पर निर्भर करता है और कम से कम सभी के लिए एक जोखिम कार्य करता है [केफेर, पी। 151]।tWt W

उदाहरण के लिए, मान लीजिए मतलब के साथ सामान्य वितरण का सेट है (और इकाई विचरण)। यह पहचान करता है सभी वास्तविक संख्या के सेट के साथ है, तो (संकेतन कोस) मैं भी "का प्रयोग करेंगे " में वितरण की पहचान के लिए के साथ मतलब । चलो आकार की एक आईआईडी नमूना होना ये वितरण में से एक से। मान लीजिए उद्देश्य अनुमान लगाने के लिए है । यह निर्णय स्थान को (किसी भी वास्तविक संख्या) के सभी संभावित मानों से पहचानता है । Let मनमाना निर्णय लेने के लिए, नुकसान एक कार्य हैΩμΩμΩμXnμDμμ^

W(μ,μ^)0

साथ यदि और केवल यदि । पूर्ववर्ती धारणाएं (टेलर के प्रमेय के माध्यम से)W(μ,μ^)=0μ=μ^

W(μ,μ^)=w2(μ^μ)2+o(μ^μ)2

कुछ निरंतर सकारात्मक संख्या । (थोड़ा-ओ संकेत " " का अर्थ है किसी भी समारोह जहां की सीमित मूल्य है के रूप में ।) जैसा कि पहले उल्लेख, हम rescale के लिए स्वतंत्र हैं बनाने के लिए । इस परिवार के लिए , का मतलब , लिखा , एक पर्याप्त आंकड़ा है। पिछला परिणाम (केइफर से उद्धृत) का कहना है कि कोई भी का अनुमान लगाने वाला हो सकता है, जो वेरिएबल्स कुछ मनमाने ढंग से कार्य कर सकता है जो कि इस तरह के लिए अच्छा हैw2o(y)pff(y)/yp0y0Ww2=1ΩXX¯μn(x1,,xn)W, एक अनुमानक में बदला जा सकता है केवल पर निर्भर करता है जो कम से कम ऐसे सभी लिए अच्छा है ।x¯W

इस उदाहरण में जो पूरा किया गया है वह विशिष्ट है: संभावित प्रक्रियाओं का बेहद जटिल सेट, जिसमें मूल रूप से वेरिएबल्स के संभवतः यादृच्छिक कार्यों में शामिल है , एक एकल चर के गैर-यादृच्छिक कार्यों से मिलकर प्रक्रियाओं के बहुत सरल सेट तक कम कर दिया गया है। या उन मामलों में कम से कम कम संख्या में चर जहां पर्याप्त आँकड़े बहुभिन्नरूपी हैं)। और यह बिना निर्णय की चिंता किए किया जा सकता है कि निर्णय-निर्माता के नुकसान का कार्य क्या है, बशर्ते कि यह उत्तल और भिन्न हो।n

इस तरह के नुकसान का सबसे सरल कार्य क्या है? वह जो शेष शब्द की उपेक्षा करता है, निश्चित रूप से, यह विशुद्ध रूप से एक द्विघात कार्य करता है। इसी वर्ग के अन्य नुकसान कार्यों में शक्तियां शामिल हैं यह से अधिक है (जैसे कि और प्रश्न में उल्लिखित), , और कई और।z=|μ^μ|22.1,e,πexp(z)1z

आकृति

नीला (ऊपरी) वक्र भूखंड जबकि लाल (निचला) वक्र भूखंड । क्योंकि नीले रंग की वक्र भी पर न्यूनतम होती है, विभेदी होती है, और उत्तल होती है, द्विघात हानि (लाल वक्र) द्वारा आनंदित सांख्यिकीय प्रक्रियाओं के कई अच्छे गुण नीले रंग के नुकसान समारोह पर लागू होंगे,z 2 0 |2(exp(|z|)1|z|)z20 भले ही विश्व स्तर पर घातीय कार्य हो। द्विघात फ़ंक्शन की तुलना में अलग व्यवहार करता है)।

ये परिणाम (हालांकि स्पष्ट रूप से लगाए गए शर्तों द्वारा सीमित) यह समझाने में मदद करते हैं कि सांख्यिकीय सिद्धांत और व्यवहार में द्विघात नुकसान सर्वव्यापी क्यों है: एक सीमित सीमा तक, यह किसी भी उत्तल विभेदीकरण हानि फ़ंक्शन के लिए एक विश्लेषणात्मक रूप से सुविधाजनक प्रॉक्सी है ।


द्विघात हानि किसी भी तरह से एकमात्र या यहां तक ​​कि सबसे अच्छा नुकसान पर विचार करने के लिए नहीं है। दरअसल, लेहमन लिखते हैं कि

उत्तल हानि कार्यों को अनुमान समस्याओं के सरलीकरण के लिए नेतृत्व किया गया है। हालांकि, किसी को आश्चर्य हो सकता है कि क्या इस तरह के नुकसान वाले कार्य यथार्थवादी होने की संभावना है। यदि न केवल अशुद्धि का एक उपाय है, बल्कि वास्तविक (उदाहरण के लिए, वित्तीय) नुकसान का प्रतिनिधित्व करता है, तो कोई यह तर्क दे सकता है कि इस तरह के सभी नुकसान बाध्य हैं: एक बार जब आप सभी खो देते हैं, तो आप किसी भी अधिक नहीं खो सकते हैं। ...W(F,d)

... [एफ] एस्ट्रो-ग्रॉसिंग लॉस फ़ंक्शंस में अनुमान लगाने वाले पैदा होते हैं, जो अनुमानित वितरण के []] पूंछ व्यवहार [] के बारे में बनी धारणाओं के प्रति संवेदनशील होते हैं, और ये धारणाएँ आमतौर पर बहुत कम जानकारी पर आधारित होती हैं और इस प्रकार बहुत अधिक नहीं होती हैं विश्वसनीय।

यह पता चला है कि चुकता त्रुटि हानि द्वारा उत्पादित अनुमानक अक्सर इस संबंध में असुविधाजनक रूप से संवेदनशील होते हैं।

[लेहमैन, खंड 1.6; संकेतन के कुछ बदलावों के साथ।]

वैकल्पिक नुकसान को ध्यान में रखते हुए संभावनाओं का एक समृद्ध समूह खुलता है: मात्रात्मक प्रतिगमन, एम-अनुमानक, मजबूत आँकड़े, और बहुत कुछ इस निर्णय-सैद्धांतिक तरीके से तैयार किया जा सकता है और वैकल्पिक नुकसान कार्यों का उपयोग करके उचित ठहराया जा सकता है। एक सरल उदाहरण के लिए, Percentile Loss Functions देखें ।


संदर्भ

जैक कार्ल किफर, सांख्यिकीय परिचय का परिचय। स्प्रिंगर-वर्लग 1987।

ईएल लेहमैन, थ्योरी ऑफ़ पॉइंट एस्टीमेशन । विली 1983।


0

इस दूरी के मीट्रिक के लिए ज्यामितीय गुण ऐसे हैं कि इसका उपयोग करना आसान होगा।

और निश्चित रूप से आसान गणित यदि आपके पास अधिकांश समस्याओं का विश्लेषणात्मक समाधान है।


2
हो सकता है कि आप थोड़ा और विस्तृत कर सकें?
टिम

@ समय, त्रिभुज असमानता और द्विघात रूपों के गणितीय गुण मेरे दिमाग में आए ...
विश्लेषक

त्रिकोण असमानता हर दूरी मीट्रिक के लिए मौजूद है। यूक्लिडियन दूरी क्या बनाती है / 2 मानक / चौकोर अंतर / MSE अजीबोगरीब परिवर्तनों का एक बड़ा समूह है जो इसे संरक्षित करता है (सभी ऑर्थोगोनल मैट्रीस)।
फेडरिको पोलोनी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.