आंकड़ों के लिए एक निर्णय-सिद्धांत दृष्टिकोण एक गहन व्याख्या प्रदान करता है। इसमें कहा गया है कि स्क्वेरिंग अंतर कई प्रकार के नुकसान के कार्यों के लिए एक प्रॉक्सी है, जो (जब भी उन्हें उचित रूप से अपनाया जा सकता है) संभव सांख्यिकीय प्रक्रियाओं में काफी सरलीकरण की ओर जाता है, जिस पर विचार करना होगा।
दुर्भाग्य से, इसका अर्थ क्या है और यह इंगित करना कि यह सच क्यों है, बहुत सारी सेटिंग लेता है। अंकन जल्दी से समझ से बाहर हो सकता है। मैं यहाँ क्या करने का लक्ष्य रखता हूँ, बस थोड़ा विस्तार के साथ मुख्य विचारों को स्केच करना है। फुलर खातों के लिए संदर्भ देखें।
डेटा का एक मानक, समृद्ध मॉडल है कि वे एक (वास्तविक, सदिश-मूल्यवान) यादृच्छिक चर का एक बोध हैं, जिसका वितरण केवल कुछ सेट के तत्वों के तत्व के रूप में जाना जाता है , राज्यों प्रकृति का । एक सांख्यिकीय प्रक्रिया एक समारोह है के फैसले के कुछ समूह में मान लेने , निर्णय अंतरिक्ष।एक्स एफ Ω टी एक्स डीxXFΩtxD
उदाहरण के लिए, एक भविष्यवाणी या वर्गीकरण समस्या में में एक "प्रशिक्षण सेट" और "डेटा का परीक्षण सेट" का एक संघ शामिल होगा और परीक्षण सेट के लिए अनुमानित मूल्यों के एक सेट में मैप करेगा । सभी संभावित अनुमानित मूल्यों का सेट होगा । टी एक्स डीxtxD
प्रक्रियाओं की एक पूरी सैद्धांतिक चर्चा को यादृच्छिक प्रक्रियाओं को समायोजित करना है । एक यादृच्छिक प्रक्रिया कुछ संभाव्यता वितरण (जो डेटा पर निर्भर करता है ) के अनुसार दो या अधिक संभावित निर्णयों के बीच चयन करता है । यह सहज विचार को सामान्य करता है कि जब डेटा दो विकल्पों के बीच अंतर नहीं करता है, तो आप निश्चित रूप से एक निश्चित विकल्प पर निर्णय लेने के लिए "एक सिक्का फ्लिप" करें। कई लोग अनियमित प्रक्रियाओं को नापसंद करते हैं, इस तरह के अप्रत्याशित तरीके से निर्णय लेने पर आपत्ति करते हैं।x
निर्णय सिद्धांत की विशिष्ट विशेषता इसका नुकसान फ़ंक्शन का उपयोग है । W प्रकृति के किसी भी राज्य के लिए और , नुकसानघ ∈ डीF∈Ωd∈D
W(F,d)
एक अंकीय मान का प्रतिनिधित्व करने के लिए कैसे "बुरा" यह फैसला लेने के लिए होगा जब प्रकृति की सही स्थिति है : छोटे नुकसान अच्छे हैं, बड़े नुकसान बुरा कर रहे हैं। उदाहरण के लिए, एक परिकल्पना परीक्षण की स्थिति में, पास दो तत्व "स्वीकार" और "अस्वीकार" (शून्य परिकल्पना) हैं। नुकसान फ़ंक्शन सही निर्णय लेने पर जोर देता है: यह शून्य पर सेट होता है जब निर्णय सही होता है और अन्यथा कुछ निरंतर । (इसे " हानि फ़ंक्शन कहा जाता है :" सभी बुरे निर्णय समान रूप से बुरे हैं और सभी अच्छे निर्णय समान रूप से अच्छे हैं।) विशेष रूप से, जब शून्य परिकल्पना में है औरएफ डी डब्ल्यू 0 - 1 डब्ल्यू ( एफ , स्वीकार ) = 0 एफ डब्ल्यू ( एफ , अस्वीकार ) = 0 एफdFDw0−1W(F, accept)=0FW(F, reject)=0F वैकल्पिक परिकल्पना में है।
जब प्रक्रिया का उपयोग , डेटा के लिए नुकसान जब प्रकृति की सही स्थिति है लिखा जा सकता है। यह नुकसान एक यादृच्छिक चर बनाता है जिसका वितरण (अज्ञात) द्वारा निर्धारित किया जाता है ।एक्स एफ डब्ल्यू ( एफ , टी ( एक्स ) ) डब्ल्यू ( एफ , टी ( एक्स ) ) एफtxFW(F,t(x))W(F,t(X))F
एक प्रक्रिया अपेक्षित नुकसान को इसका जोखिम कहा जाता है , । उम्मीद प्रकृति की वास्तविक स्थिति का उपयोग करती है , इसलिए यह अपेक्षा ऑपरेटर के एक उपप्रकार के रूप में स्पष्ट रूप से दिखाई देगा। हम जोखिम को एक समारोह के रूप में देखेंगे और इस पर जोर देंगे :आर टी एफ एफtrtFF
rt(F)=EF(W(F,t(X))).
बेहतर प्रक्रियाओं से जोखिम कम होता है। इस प्रकार, जोखिम कार्यों की तुलना करना अच्छी सांख्यिकीय प्रक्रियाओं के चयन का आधार है। चूंकि सभी जोखिम वाले कार्यों को एक सामान्य (सकारात्मक) स्थिरांक से बदलने से कोई तुलना नहीं बदलेगी, के पैमाने पर कोई फर्क नहीं पड़ता है: हम इसे किसी भी सकारात्मक मूल्य से गुणा करना चाहते हैं जो हमें पसंद है। विशेष रूप से, को गुणा करने पर हम नुकसान फ़ंक्शन (इसके नाम को सही ठहराने) के लिए हमेशा ले सकते हैं ।डब्ल्यू 1 / डब्ल्यू डब्ल्यू = 1 0 - 1WW1/ww=10−1
परिकल्पना परीक्षण उदाहरण को जारी रखने के लिए, जो हानि समारोह का चित्रण करता है, इन परिभाषाओं में अशक्त परिकल्पना में किसी भी का खतरा है, यह मौका है कि निर्णय "अस्वीकार" है, जबकि विकल्प में किसी भी का जोखिम है मौका है कि निर्णय "स्वीकार करते हैं।" अधिकतम मान ( शून्य परिकल्पना में सभी पर ) परीक्षण का आकार है , जबकि वैकल्पिक परिकल्पना पर परिभाषित जोखिम फ़ंक्शन का हिस्सा परीक्षण शक्ति ( )। इसमें हम देखते हैं कि शास्त्रीय (अक्सरवादी) परिकल्पना परीक्षण सिद्धांत की संपूर्णता एक विशेष प्रकार के नुकसान के लिए जोखिम कार्यों की तुलना करने के लिए एक विशेष तरीके से कैसे होती है।0−1FFFpowert(F)=1−rt(F)
वैसे, अब तक प्रस्तुत की गई सभी चीजें बेसिकियन प्रतिमान सहित सभी मुख्यधारा के आंकड़ों के साथ पूरी तरह से संगत हैं। इसके अलावा, बायेसियन विश्लेषण ने पर "पूर्व" संभावना वितरण का परिचय दिया है और जोखिम कार्यों की तुलना को आसान बनाने के लिए इसका उपयोग करता है: संभावित जटिल फ़ंक्शन को पूर्व वितरण के संबंध में इसके अपेक्षित मूल्य से बदला जा सकता है। इस प्रकार सभी प्रक्रियाओं एक संख्या की विशेषता है ; एक बेयस प्रक्रिया (जो आमतौर पर अद्वितीय होती है) कम । नुकसान फ़ंक्शन अभी भी कंप्यूटिंग में एक आवश्यक भूमिका निभाता है ।Ωrttrtrtrt
नुकसान कार्यों के उपयोग के आसपास कुछ (अपरिहार्य) विवाद है। कैसे ? यह परिकल्पना परीक्षण के लिए अनिवार्य रूप से अद्वितीय है, लेकिन अन्य सांख्यिकीय सेटिंग्स में कई विकल्प संभव हैं। वे निर्णय निर्माता के मूल्यों को दर्शाते हैं। उदाहरण के लिए, यदि डेटा एक चिकित्सा रोगी के शारीरिक माप हैं और निर्णय "इलाज" या "इलाज नहीं करते हैं," चिकित्सक को विचार करना चाहिए - और संतुलन में तौलना - या तो कार्रवाई के परिणाम। परिणामों को कैसे तौला जाता है यह रोगी की अपनी इच्छा, उनकी आयु, उनके जीवन की गुणवत्ता और कई अन्य चीजों पर निर्भर हो सकता है। एक हानि समारोह की पसंद भयावह और गहरी व्यक्तिगत हो सकती है। आम तौर पर इसे सांख्यिकीविद् को नहीं छोड़ा जाना चाहिए!W
एक बात जिसे हम जानना चाहते हैं, वह यह है कि नुकसान को बदलने के लिए सबसे अच्छी प्रक्रिया का विकल्प कैसे बदलेगा? यह पता चला है कि कई सामान्य, व्यावहारिक स्थितियों में बदलाव के बिना एक निश्चित मात्रा में भिन्नता को सहन किया जा सकता है जो सबसे अच्छी प्रक्रिया है। इन स्थितियों को निम्नलिखित स्थितियों की विशेषता है:
निर्णय स्थान एक उत्तल सेट (अक्सर संख्याओं का अंतराल) होता है। इसका मतलब यह है कि किसी भी दो निर्णयों के बीच में कोई भी मूल्य एक वैध निर्णय है।
नुकसान शून्य है जब सबसे अच्छा संभव निर्णय किया जाता है और अन्यथा बढ़ जाता है (निर्णय के बीच विसंगतियों को प्रतिबिंबित करने के लिए जो किया जाता है और सबसे अच्छा वह है जो सच्चे - लेकिन अज्ञात - प्रकृति की स्थिति के लिए किया जा सकता है)।
नुकसान निर्णय का एक अलग कार्य है (कम से कम स्थानीय रूप से सर्वश्रेष्ठ निर्णय के पास)। इसका मतलब यह है कि यह निरंतर है - यह उस तरह से नहीं कूदता है जिस तरह से नुकसान होता है - लेकिन इसका मतलब यह भी है कि जब यह निर्णय सबसे अच्छा होता है तो यह अपेक्षाकृत कम बदलता है।0−1
जब ये स्थितियां होती हैं, तो जोखिम कार्यों की तुलना करने में शामिल कुछ जटिलताएं दूर हो जाती हैं। की भिन्नता और उत्तलता हमें यह दिखाने के लिए जेन्सन की असमानता को लागू करने की अनुमति देती हैW
(1) हमें यादृच्छिक प्रक्रियाओं [लेहमैन, कोरोलरी 6.2] पर विचार करने की आवश्यकता नहीं है।
(2) यदि किसी एक प्रक्रिया को ऐसे लिए सबसे अच्छा जोखिम माना जाता है , तो इसे एक प्रक्रिया में सुधार किया जा सकता है, जो केवल एक पर्याप्त आँकड़ा पर निर्भर करता है और कम से कम सभी के लिए एक जोखिम कार्य करता है [केफेर, पी। 151]।tWt∗ W
उदाहरण के लिए, मान लीजिए मतलब के साथ सामान्य वितरण का सेट है (और इकाई विचरण)। यह पहचान करता है सभी वास्तविक संख्या के सेट के साथ है, तो (संकेतन कोस) मैं भी "का प्रयोग करेंगे " में वितरण की पहचान के लिए के साथ मतलब । चलो आकार की एक आईआईडी नमूना होना ये वितरण में से एक से। मान लीजिए उद्देश्य अनुमान लगाने के लिए है । यह निर्णय स्थान को (किसी भी वास्तविक संख्या) के सभी संभावित मानों से पहचानता है । Let मनमाना निर्णय लेने के लिए, नुकसान एक कार्य हैΩμΩμΩμXnμDμμ^
W(μ,μ^)≥0
साथ यदि और केवल यदि । पूर्ववर्ती धारणाएं (टेलर के प्रमेय के माध्यम से)W(μ,μ^)=0μ=μ^
W(μ,μ^)=w2(μ^−μ)2+o(μ^−μ)2
कुछ निरंतर सकारात्मक संख्या । (थोड़ा-ओ संकेत " " का अर्थ है किसी भी समारोह जहां की सीमित मूल्य है के रूप में ।) जैसा कि पहले उल्लेख, हम rescale के लिए स्वतंत्र हैं बनाने के लिए । इस परिवार के लिए , का मतलब , लिखा , एक पर्याप्त आंकड़ा है। पिछला परिणाम (केइफर से उद्धृत) का कहना है कि कोई भी का अनुमान लगाने वाला हो सकता है, जो वेरिएबल्स कुछ मनमाने ढंग से कार्य कर सकता है जो कि इस तरह के लिए अच्छा हैw2o(y)pff(y)/yp0y→0Ww2=1ΩXX¯μn(x1,…,xn)W, एक अनुमानक में बदला जा सकता है केवल पर निर्भर करता है जो कम से कम ऐसे सभी लिए अच्छा है ।x¯W
इस उदाहरण में जो पूरा किया गया है वह विशिष्ट है: संभावित प्रक्रियाओं का बेहद जटिल सेट, जिसमें मूल रूप से वेरिएबल्स के संभवतः यादृच्छिक कार्यों में शामिल है , एक एकल चर के गैर-यादृच्छिक कार्यों से मिलकर प्रक्रियाओं के बहुत सरल सेट तक कम कर दिया गया है। या उन मामलों में कम से कम कम संख्या में चर जहां पर्याप्त आँकड़े बहुभिन्नरूपी हैं)। और यह बिना निर्णय की चिंता किए किया जा सकता है कि निर्णय-निर्माता के नुकसान का कार्य क्या है, बशर्ते कि यह उत्तल और भिन्न हो।n
इस तरह के नुकसान का सबसे सरल कार्य क्या है? वह जो शेष शब्द की उपेक्षा करता है, निश्चित रूप से, यह विशुद्ध रूप से एक द्विघात कार्य करता है। इसी वर्ग के अन्य नुकसान कार्यों में शक्तियां शामिल हैं यह से अधिक है (जैसे कि और प्रश्न में उल्लिखित), , और कई और।z=|μ^−μ|22.1,e,πexp(z)−1−z
नीला (ऊपरी) वक्र भूखंड जबकि लाल (निचला) वक्र भूखंड । क्योंकि नीले रंग की वक्र भी पर न्यूनतम होती है, विभेदी होती है, और उत्तल होती है, द्विघात हानि (लाल वक्र) द्वारा आनंदित सांख्यिकीय प्रक्रियाओं के कई अच्छे गुण नीले रंग के नुकसान समारोह पर लागू होंगे,z 2 0 |2(exp(|z|)−1−|z|)z20 भले ही विश्व स्तर पर घातीय कार्य हो। द्विघात फ़ंक्शन की तुलना में अलग व्यवहार करता है)।
ये परिणाम (हालांकि स्पष्ट रूप से लगाए गए शर्तों द्वारा सीमित) यह समझाने में मदद करते हैं कि सांख्यिकीय सिद्धांत और व्यवहार में द्विघात नुकसान सर्वव्यापी क्यों है: एक सीमित सीमा तक, यह किसी भी उत्तल विभेदीकरण हानि फ़ंक्शन के लिए एक विश्लेषणात्मक रूप से सुविधाजनक प्रॉक्सी है ।
द्विघात हानि किसी भी तरह से एकमात्र या यहां तक कि सबसे अच्छा नुकसान पर विचार करने के लिए नहीं है। दरअसल, लेहमन लिखते हैं कि
उत्तल हानि कार्यों को अनुमान समस्याओं के सरलीकरण के लिए नेतृत्व किया गया है। हालांकि, किसी को आश्चर्य हो सकता है कि क्या इस तरह के नुकसान वाले कार्य यथार्थवादी होने की संभावना है। यदि न केवल अशुद्धि का एक उपाय है, बल्कि वास्तविक (उदाहरण के लिए, वित्तीय) नुकसान का प्रतिनिधित्व करता है, तो कोई यह तर्क दे सकता है कि इस तरह के सभी नुकसान बाध्य हैं: एक बार जब आप सभी खो देते हैं, तो आप किसी भी अधिक नहीं खो सकते हैं। ...W(F,d)
... [एफ] एस्ट्रो-ग्रॉसिंग लॉस फ़ंक्शंस में अनुमान लगाने वाले पैदा होते हैं, जो अनुमानित वितरण के []] पूंछ व्यवहार [] के बारे में बनी धारणाओं के प्रति संवेदनशील होते हैं, और ये धारणाएँ आमतौर पर बहुत कम जानकारी पर आधारित होती हैं और इस प्रकार बहुत अधिक नहीं होती हैं विश्वसनीय।
यह पता चला है कि चुकता त्रुटि हानि द्वारा उत्पादित अनुमानक अक्सर इस संबंध में असुविधाजनक रूप से संवेदनशील होते हैं।
[लेहमैन, खंड 1.6; संकेतन के कुछ बदलावों के साथ।]
वैकल्पिक नुकसान को ध्यान में रखते हुए संभावनाओं का एक समृद्ध समूह खुलता है: मात्रात्मक प्रतिगमन, एम-अनुमानक, मजबूत आँकड़े, और बहुत कुछ इस निर्णय-सैद्धांतिक तरीके से तैयार किया जा सकता है और वैकल्पिक नुकसान कार्यों का उपयोग करके उचित ठहराया जा सकता है। एक सरल उदाहरण के लिए, Percentile Loss Functions देखें ।
संदर्भ
जैक कार्ल किफर, सांख्यिकीय परिचय का परिचय। स्प्रिंगर-वर्लग 1987।
ईएल लेहमैन, थ्योरी ऑफ़ पॉइंट एस्टीमेशन । विली 1983।