आम आदमी के लिए पर्याप्त आँकड़े

23

क्या कोई कृपया बहुत ही बुनियादी शब्दों में पर्याप्त आँकड़ों की व्याख्या कर सकता है ? मैं एक इंजीनियरिंग पृष्ठभूमि से आता हूं, और मैं बहुत सारी चीजों से गुजरा हूं, लेकिन सहज ज्ञान की खोज में असफल रहा।

machine-learning mathematical-statistics intuition

— user1343318
स्रोत

33

एक पर्याप्त आँकड़ा एक नमूने में निहित सभी जानकारी को संक्षेप में प्रस्तुत करता है ताकि आप एक ही पैरामीटर का अनुमान लगा सकें कि क्या हमने आपको नमूना दिया है या केवल सांख्यिकीय। यह सूचना के नुकसान के बिना डेटा की कमी है।

यहाँ एक उदाहरण है। मान लीजिए कि में शून्य के बारे में एक सममित वितरण है। आपको एक नमूना देने के बजाय, मैं आपको इसके बजाय पूर्ण मूल्यों का एक नमूना सौंपता हूं (यह आँकड़ा है)। आपको साइन देखने को नहीं मिलता है। लेकिन आप जानते हैं कि वितरण सममित है, इसलिए किसी दिए गए मान के लिए , और समान रूप से संभव हैं (सशर्त संभावना )। तो आप एक उचित सिक्का फ्लिप कर सकते हैं। यदि यह सिर पर आता है, तो उस ऋणात्मक बना दें। यदि पूंछता है, तो इसे सकारात्मक बनाएं। यह आपको से एक नमूना देता है , जिसका मूल डेटा के समान वितरण है $X$ $x$ $-x$ $x$ $0.5$ $x$ $X'$ $X$ । आप मूल रूप से आँकड़ों से डेटा को फिर से संगठित करने में सक्षम थे। वही इसे पर्याप्त बनाता है।

— दिमित्री वी। मास्टरोव
स्रोत

स्पष्ट / पुष्टि करने के लिए: आँकड़े एक पैरामीटर के लिए पर्याप्त हैं । इस उदाहरण में कोई पैरामीटर नहीं है, लेकिन मुझे लगता है कि सांख्यिकीय किसी भी चयनित पैरामीट्रिक वितरण एक्स के किसी भी पैरामीटर के लिए पर्याप्त होगा ? तो यह एक असामान्य उदाहरण के कुछ है - लेकिन अभी भी अंतर्ज्ञान के लिए एक उपयोगी है।

— डेनजिलो

2

@Denziloe 0. के आसपास समरूपता की मजबूत धारणा के तहत, उस वितरण के किसी भी पैरामीटर के लिए पर्याप्त है। यह एक खिलौना उदाहरण है जिसे अंतर्ज्ञान बनाने के लिए डिज़ाइन किया गया है।

— दिमित्री वी। मास्टरोव

13

बायेसियन संदर्भ में, आप कुछ नमूदार संपत्ति है $X$ और एक पैरामीटर $\Theta$ । के लिए संयुक्त वितरण $X,\Theta$ निर्दिष्ट है, लेकिन की सशर्त वितरण के रूप में शामिल होती है $X\mid \Theta$ और की पूर्व वितरण $\Theta$ । वह आंकड़ा $T$ इस मॉडल के लिए पर्याप्त है यदि और केवल यदि का पिछला वितरण $\Theta\mid X$ की तरह ही है $\Theta\mid T(X)$ , के हर पहले वितरण के लिए $\Theta$ । शब्दों में, के बारे में अपने अद्यतन अनिश्चितता $\Theta$ का मूल्य जानने के बाद $X$ के बारे में अपने अद्यतन अनिश्चितता रूप में ही है $\Theta$ मूल्य जानने के बाद का $T(X)$ ,जो भी पहले जानकारी आप के बारे में है $\Theta$ । ध्यान रखें कि पर्याप्तता एक मॉडल पर निर्भर अवधारणा है।

— जेन
स्रोत

1

कहते हैं कि आपके पास एक सिक्का है, और आप नहीं जानते कि यह उचित है या नहीं। दूसरे शब्दों में, इसमें सिर ( ) और के ऊपर आने की संभावना $p$ ( ) है, और आपको इसका मूल्य नहीं पता है $H$ $1 - p$ $T$ $p$ ।

आप कई बार सिक्का उछालकर $p$ के मूल्य का अंदाजा लगाने की कोशिश करते हैं , कहते हैं कि $n$ बार ।

मान लीजिए कि $n = 5$ और आपको प्राप्त होने वाला परिणाम अनुक्रम $(H, H, T, H, T)$ ।

अब आप चाहते हैं कि आपका सांख्यिकीविद् मित्र मूल्य का अनुमान लगा ले $p$ लिए, और शायद आपको बताए कि क्या सिक्का उचित है या नहीं। आपको उन्हें बताने के लिए क्या जानकारी चाहिए ताकि वे अपनी गणना कर सकें और अपना निष्कर्ष निकाल सकें?

आप उन्हें डेटा $(H, H, T, H, T)$ यानी सभी बता सकते हैं । हालांकि यह आवश्यक है? क्या आप किसी भी प्रासंगिक जानकारी को खोए बिना इस डेटा को सारांशित कर सकते हैं?

यह स्पष्ट है कि सिक्के के टॉस का क्रम अप्रासंगिक है, क्योंकि आप प्रत्येक सिक्के के टॉस के लिए एक ही काम कर रहे थे, और सिक्का के टोकन एक दूसरे को प्रभावित नहीं करते थे। उदाहरण के लिए यदि परिणाम $(H, H, T, T, H)$ , तो हमारे निष्कर्ष कोई भिन्न नहीं होंगे। यह इस प्रकार है कि आपको वास्तव में अपने सांख्यिकीविद् मित्र को यह बताने की आवश्यकता है कि कितने प्रमुख थे।

हम यह कहकर व्यक्त करते हैं कि सिर की संख्या p के लिए पर्याप्त आँकड़ा है ।

यह उदाहरण अवधारणा का स्वाद देता है। यदि आप यह देखना चाहते हैं कि यह औपचारिक परिभाषा से कैसे जुड़ता है, तो पढ़ें।

औपचारिक रूप से, एक आँकड़ा एक पैरामीटर के लिए पर्याप्त होता है यदि, आँकड़ों के मूल्य को देखते हुए, परिणामों की संभाव्यता वितरण में पैरामीटर शामिल नहीं होता है।

$p^\text{number of heads}(1 - p)^\text{n - number of heads}$ $p$

$(H, H, T, H, T)$ $(H, H, T, T, H)$ , $...$ ) are equally likely (in fact there are ten possibilities so they all have probability $1/10$ ). So the distribution no longer has anything to do with $p$ . Intuitively this means whichever specific outcome we observe won't tell us any more information about $p$ , because the outcomes aren't affected by $p$ .

As an aside, note that the probability before we know the number of heads only depends on $p$ through the $\text{number of heads}$ . It turns out that this is equivalent to the $\text{number of heads}$ being sufficient for $p$ .

— Denziloe
स्रोत