"स्वतंत्र टिप्पणियों" का क्या अर्थ है?


28

मैं यह समझने की कोशिश कर रहा हूं कि स्वतंत्र टिप्पणियों का क्या मतलब है। कुछ परिभाषाएँ हैं:

  1. "दो घटनाएँ स्वतंत्र हैं यदि और केवल यदि ।" ( सांख्यिकीय शर्तें शब्दकोश )पी()=पी()*पी()
  2. "एक घटना की घटना दूसरे के लिए संभावना नहीं बदलती" ( विकिपीडिया )।
  3. "एक अवलोकन का नमूना दूसरे अवलोकन की पसंद को प्रभावित नहीं करता है" ( डेविड एम। लेन )।

आश्रित टिप्पणियों का एक उदाहरण जो अक्सर दिया जाता है छात्रों को नीचे के रूप में शिक्षकों के भीतर निहित है। मान लेते हैं कि शिक्षक छात्रों को प्रभावित करते हैं लेकिन छात्र एक दूसरे को प्रभावित नहीं करते हैं।

तो इन आंकड़ों के लिए इन परिभाषाओं का उल्लंघन कैसे किया जाता है? [छात्र = 1] के लिए [ग्रेड = 7] का नमूना लेना ग्रेड के लिए संभाव्यता वितरण को प्रभावित नहीं करता है जिसे अगले नमूने में लिया जाएगा। (या यह करता है? और यदि ऐसा है, तो क्या अवलोकन 1 अगले अवलोकन के बारे में भविष्यवाणी करता है?)

अगर मैं gender इसके बजाय मापा होता तो अवलोकन स्वतंत्र क्यों होते teacher_id? क्या वे उसी तरह से टिप्पणियों को प्रभावित नहीं करते हैं?

teacher_id   student_id   grade
         1            1       7
         1            2       7
         1            3       6
         2            4       8
         2            5       8
         2            6       9

4
एक का सुझाव हो सकता है कि शिक्षक 1 के लिए ग्रेड के वितरण में शिक्षक 2 की तुलना में कम "माध्य" मूल्य था और इसलिए शिक्षक 1 के छात्रों की संख्या औसतन शिक्षक के छात्रों की तुलना में कम ग्रेड होगी, 2. दूसरे शब्दों में दो शिक्षकों के लिए छात्रों / ग्रेड का वितरण अलग-अलग वितरण हो सकता है। यह काफी हद तक निर्भर टिप्पणियों को प्रस्तुत करने के लिए पर्याप्त होगा।
मोनिका को बहाल करना - जी। सिम्पसन

1
@GavinSimpson: मैं तर्क की इस सटीक रेखा के बारे में सोच रहा हूं। हालाँकि, क्या होगा अगर मैं इसके teacherद्वारा प्रतिस्थापित genderकरूँ? जेंडर अधिकांश सामाजिक विज्ञान के आंकड़ों में मौजूद है और कुछ हद तक लगभग किसी भी चीज के साथ संबंध रखता है।
RubenGeert

1
यह निश्चित रूप से प्रतिक्रिया पर निर्भर होना चाहिए। यदि हम ब्रिटेन में विज्ञान के छात्रों के ग्रेड देख रहे थे, तो शायद दो लिंगों के लिए अलग-अलग प्राप्ति वितरण के साथ एक प्रभाव होगा, औसतन आप जो आबादी पढ़ रहे हैं। वैसे भी, यह सब केवल अवशेषों के लिए (एक सांख्यिकीय मॉडल में) मायने रखता है, या फिट किए गए मॉडल पर प्रतिक्रियाओं की स्थिति के लिए अलग-अलग रखा गया है। दूसरे शब्दों में, यदि अवलोकन स्वतंत्र नहीं हैं, तो यह ठीक है जब तक कि मॉडल इस तरह के लिए खाता है कि अवशेष स्वतंत्र हैं।
मोनिका को बहाल करें - जी। सिम्पसन

4
आप (सांख्यिकीय) स्वतंत्रता की परिभाषा के रूप में या तो (1) या (2) नहीं ले सकते , क्योंकि स्वतंत्रता को कार्य-कारण के संदर्भ के बिना परिभाषित किया जा सकता है। सभी तीन कोटेशन केवल अनौपचारिक, सहज उदाहरण प्रदान करने के प्रयास हैं । (3) संभवत: एक परिभाषा के रूप में लिया जा सकता है बशर्ते आपके पास सूचना की मात्रा की मात्रात्मक, कठोर परिभाषा तक पहुंच हो।) इसलिए वास्तविक परिभाषा को संदर्भित करना एक अच्छा विचार होगा जैसे कि शीर्षक "परिभाषा" के तहत आने वाले लोग। विकिपीडिया लेख में आप संदर्भ।
whuber

1
नहीं, आप अवशिष्टों को स्वतंत्र रूप से प्रस्तुत कर सकते हैं (या कम से कम निर्भरता को इस हद तक कम कर सकते हैं कि अवशिष्ट स्वतंत्र दिखाई दें)। यह रैखिक मॉडल की मान्यताओं से कहता है; जहां एक सहसंबंध मैट्रिक्स है। सामान्य धारणा यह है कि एक पहचान मैट्रिक्स है, इसलिए ऑफ-विकर्ण शून्य हैं और इसलिए स्वतंत्रता की धारणा अवशिष्टों पर है। एक और तरीका रखो, हालांकि यह फिट मॉडल पर सशर्त के बारे में एक बयान है । Λ Λ yεN(0,σ2Λ)ΛΛy
मोनिका को बहाल करें - जी। सिम्पसन

जवाबों:


11

संभाव्यता सिद्धांत में, सांख्यिकीय स्वतंत्रता (जो कार्य-कारण की स्वतंत्रता के समान नहीं है) को आपकी संपत्ति (3) के रूप में परिभाषित किया गया है, लेकिन (1) इसके परिणामस्वरूप । कहा जाता है कि घटनाएँ और को सांख्यिकीय रूप से स्वतंत्र कहा जाता है अगर और केवल अगर:बीबी

पी(बी)=पी()पी(बी)

यदि तो यदि निम्न प्रकार है:पी(बी)>0

P(A|B)=P(AB)P(B)=P(A)P(B)P(B)=P(A)

इसका मतलब यह है कि सांख्यिकीय स्वतंत्रता का अर्थ है कि एक घटना की घटना दूसरे की संभावना को प्रभावित नहीं करती है। यह कहने का एक और तरीका यह है कि एक घटना की घटना दूसरे के बारे में आपकी धारणाओं को नहीं बदलनी चाहिए। सांख्यिकीय स्वतंत्रता की अवधारणा को आम तौर पर घटनाओं से यादृच्छिक चर तक विस्तारित किया जाता है जो निरंतर यादृच्छिक चर (जिसमें किसी विशेष परिणाम की शून्य संभावना होती है) सहित यादृच्छिक चर के लिए अनुरूप कथन की अनुमति देता है। यादृच्छिक चर के लिए स्वतंत्रता का उपचार मूल रूप से वितरण कार्यों पर लागू समान परिभाषाओं को शामिल करता है।


यह समझना महत्वपूर्ण है कि स्वतंत्रता एक बहुत मजबूत संपत्ति है - अगर घटनाएं सांख्यिकीय रूप से स्वतंत्र हैं (तो परिभाषा के अनुसार) हम एक को दूसरे को देखने से नहीं सीख सकते हैं। इस कारण से, सांख्यिकीय मॉडल में आमतौर पर सशर्त स्वतंत्रता की धारणाएं शामिल होती हैं , कुछ अंतर्निहित वितरण या मापदंडों को देखते हुए। सटीक वैचारिक ढाँचा इस बात पर निर्भर करता है कि कोई बायेसियन विधियों या शास्त्रीय विधियों का उपयोग कर रहा है या नहीं। पूर्व में अवलोकन योग्य मूल्यों के बीच स्पष्ट निर्भरता शामिल है, जबकि बाद में निर्भरता का एक (जटिल और सूक्ष्म) निहित रूप शामिल है। इस मुद्दे को ठीक से समझने के लिए शास्त्रीय बनाम बायेशियन आंकड़ों की थोड़ी समझ की आवश्यकता है।

सांख्यिकीय मॉडल अक्सर कहते हैं कि वे एक धारणा का उपयोग करते हैं कि यादृच्छिक चर के अनुक्रम "स्वतंत्र और पहचानपूर्वक वितरित (IID)" हैं। उदाहरण के लिए, आपके पास एक नमूदार अनुक्रम , जिसका अर्थ है कि प्रत्येक अवलोकन योग्य यादृच्छिक चर को सामान्य रूप से माध्य साथ वितरित किया जाता है। और मानक विचलन iationएक्स मैंX1,X2,X3,...IID N(μ,σ2)Xiμσ। अनुक्रम में प्रत्येक यादृच्छिक चर इस अर्थ में दूसरों का "स्वतंत्र" है कि इसके परिणाम अन्य मूल्यों के कथित वितरण को नहीं बदलते हैं। इस तरह के मॉडल में हम मॉडल में मापदंडों का अनुमान लगाने के लिए अनुक्रम के देखे गए मूल्यों का उपयोग करते हैं, और फिर हम क्रम के बिना पढ़े मानों की भविष्यवाणी कर सकते हैं। इसमें आवश्यक रूप से दूसरों के बारे में जानने के लिए कुछ देखे गए मूल्यों का उपयोग करना शामिल है।

बायेसियन सांख्यिकी: सब कुछ वैचारिक रूप से सरल है। मान लें कि सशर्त आईआईडी दिया जाता है मापदंडों μ और σ , और यादृच्छिक चर के रूप में उन अज्ञात मानकों का इलाज। इन मापदंडों के लिए किसी भी गैर-अध: पतन पूर्व वितरण को देखते हुए, अवलोकन अनुक्रम में मान (बिना शर्त) निर्भर हैं, आमतौर पर सकारात्मक सहसंबंध के साथ। इसलिए, यह सही समझ में आता है कि हम देखे गए परिणामों का उपयोग करने के लिए बाद में अप्राप्य परिणामों की भविष्यवाणी करते हैं - वे सशर्त रूप से स्वतंत्र हैं, लेकिन बिना शर्त निर्भर हैं।X1,X2,X3,...μσ

शास्त्रीय आँकड़े: यह काफी जटिल और सूक्ष्म है। मान लें कि आईआईडी दिया जाता है मापदंडों μ और σX1,X2,X3,...μσ, लेकिन उन मापदंडों को "अज्ञात स्थिरांक" के रूप में मानते हैं। चूंकि मापदंडों को स्थिरांक माना जाता है, इस मामले में सशर्त और बिना शर्त स्वतंत्रता के बीच कोई स्पष्ट अंतर नहीं है। फिर भी, हम अभी भी मापदंडों का अनुमान लगाने के लिए प्रेक्षित मानों का उपयोग करते हैं और अप्रमाणित मूल्यों की भविष्यवाणी करते हैं। इसलिए, हम देखे गए परिणामों का उपयोग बाद में अनुमानित परिणामों के बारे में भविष्यवाणी करने के लिए करते हैं, भले ही वे एक दूसरे के "स्वतंत्र" हों। इस स्पष्ट असंगति की चर्चा ओ'नील, बी। (2009) आदान-प्रदान, सहसंबंध और बेयर्स इफ़ेक्ट में विस्तार से की गई है अंतर्राष्ट्रीय सांख्यिकीय समीक्षा 77 (2) , पीपी 241 - 250


कि यह सोचते हैं द्वारा इस तरह मॉडल कुछ अपने छात्र ग्रेड डेटा को यह लागू करने के लिए, आप चाहते हैं शायद gradeहै सशर्त स्वतंत्र दिए गए teacher_id। आप प्रत्येक शिक्षक के लिए ग्रेडिंग वितरण के बारे में अनुमान लगाने के लिए डेटा का उपयोग करेंगे (जो समान नहीं माना जाएगा) और यह आपको gradeकिसी अन्य छात्र के अज्ञात के बारे में भविष्यवाणियां करने की अनुमति देगा । चूँकि gradeचर का प्रयोग अनुमान में किया जाता है, यह किसी gradeअन्य छात्र के लिए किसी अज्ञात चर के आपके पूर्वानुमान को प्रभावित करेगा । के teacher_idसाथ genderबदलने से यह नहीं बदलता है; या तो मामले में आपके पास एक चर है जिसे आप भविष्यवक्ता के रूप में उपयोग कर सकते हैं grade

यदि आप बायेसियन पद्धति का उपयोग करते हैं, तो आपके पास सशर्त स्वतंत्रता की स्पष्ट धारणा और शिक्षकों के ग्रेड वितरण के लिए एक पूर्व वितरण होगा, और इससे ग्रेड की बिना शर्त (पूर्वसूचक) निर्भरता बढ़ जाती है , जिससे आप तर्कसंगत रूप से एक ग्रेड का उपयोग दूसरे की भविष्यवाणी में कर सकते हैं। यदि आप शास्त्रीय आंकड़ों का उपयोग कर रहे हैं, तो आपके पास स्वतंत्रता की धारणा होगी (मापदंडों के आधार पर जो "अज्ञात स्थिरांक हैं") और आप शास्त्रीय सांख्यिकीय भविष्यवाणी विधियों का उपयोग करेंगे जो आपको एक ग्रेड का उपयोग करके दूसरे की भविष्यवाणी करने की अनुमति देते हैं।


प्रायिकता सिद्धांत के कुछ मूलभूत प्रस्तुतिकरण हैं जो सशर्त संभाव्यता बयान के माध्यम से स्वतंत्रता को परिभाषित करते हैं और फिर परिणाम के रूप में संयुक्त संभावना बयान देते हैं। यह कम आम है।


6
सांख्यिकीय स्वतंत्रता बहुत अधिक है जो आप अपने उत्तर के पहले भाग में वर्णित करते हैं। लेकिन आपका वाक्य "... यदि घटनाएं सांख्यिकीय रूप से स्वतंत्र हैं (तो परिभाषा के अनुसार) हम एक को दूसरे को देखने से नहीं सीख सकते हैं।" है तो एकदम गलत। दुनिया सांख्यिकीय रूप से स्वतंत्र लेकिन समान घटनाओं और यादृच्छिक चर से भरी है ।
एलेकोस पापाडोपोलस

1
क्या "सीखना" का मतलब दूसरे के अवलोकन के आधार पर किसी चीज़ के बारे में हमारी धारणाओं को बदलना नहीं होगा? यदि ऐसा है, तो स्वतंत्रता (परिभाषात्मक रूप से) इसे पूर्व निर्धारित नहीं करती है?
मोनिका

6
मैं @Alecos की ऐसी ही टिप्पणी करने जा रहा था। समग्र रूप से एक धारणा यह है कि आप यह दावा कर रहे हैं कि एक यादृच्छिक चर के एक बोध का अवलोकन हमें इसके वितरण बारे में कुछ नहीं बताता है , ताकि आप एक दूसरे स्वतंत्र प्राप्ति के बारे में कुछ भी भविष्यवाणी नहीं कर सकें। यदि ऐसा होता, तो नमूनाकरण और अनुमान के अधिकांश सिद्धांत विकसित करना असंभव होता। लेकिन आप इस अर्थ में सही हैं कि यदि हम F को जानते हैं और एक अहसास का निरीक्षण करते हैं , तो इससे हमें किसी अन्य स्वतंत्र प्राप्ति के बारे में कोई अतिरिक्त जानकारी नहीं मिलती है। एफएफ
whuber

4
मुझे लगता है कि यहां मुद्दा यह है कि वितरण के साथ मानक आईआईडी मॉडल है परोक्ष की धारणा उपयोग कर रहा है सशर्त स्वतंत्रता का ज्ञान दिया एफएफ के ज्ञान पर सशर्त , अवलोकन स्वतंत्र हैं, लेकिन बिना शर्त आपके पास एक ऐसी स्थिति है जहां प्रत्येक अवलोकन एफ के बारे में जानकारी देता है , जो तब अन्य टिप्पणियों के बारे में आपकी धारणाओं को प्रभावित करता है। एफएफएफएफ
मोनिका

2
इस मुद्दे में कठिनाई यह है कि शास्त्रीय आंकड़े अंतर्निहित वितरण और मापदंडों को "अज्ञात स्थिरांक" मानते हैं और इसलिए इस मामले में सशर्त या बिना शर्त स्वतंत्रता के बीच कोई स्पष्ट अंतर नहीं करते हैं। बायेसियन आंकड़ों में, यह सब बहुत सरल है।
मोनिका

4

चलो एक से कश्मीर - आयामी यादृच्छिक वेक्टर, यादृच्छिक चर की यानी एक निश्चित स्थिति संग्रह (औसत दर्जे का वास्तविक कार्यों)।x=(X1,...,Xj,...,Xk)k

ऐसे कई वैक्टरों पर विचार करें, कहें , और इन वैक्टरों को i = 1 , के द्वारा अनुक्रमित करें , एन , तो, कहते हैंnमैं=1,,n

और उन्हें एक संग्रह "नमूना" कहा जाता है, के रूप में मानतेएस=( एक्स 1 ,, एक्स मैं ,, x n )। फिर हम प्रत्येकk कोकॉल करते हैं-

एक्समैं=(एक्स1मैं,,एक्सjमैं,,एक्सकश्मीरमैं)
S=(x1,...,xi,...,xn)k आयामी वेक्टर एक "अवलोकन" (हालांकि यह वास्तव में केवल एक बार हो जाता है जब हम मापते हैं और इसमें शामिल यादृच्छिक चर की वास्तविकताओं को रिकॉर्ड करते हैं)।

आइए पहले उस मामले का इलाज करें जहां या तो एक संभाव्यता द्रव्यमान फ़ंक्शन (PMF) या एक प्रायिकता घनत्व फ़ंक्शन (PDF) मौजूद है, और संयुक्त कार्य भी। F i ( x i ) द्वारा अस्वीकृत करें , संयुक्त PMF या प्रत्येक यादृच्छिक वेक्टर के संयुक्त पीडीएफ, और( एक्स 1 , , एक्स मैं , , X n ) संयुक्त PMF या इन सभी वैक्टर की संयुक्त पीडीएफ एक साथ। fi(xi),i=1,...,nf(x1,...,xi,...,xn)

तब, नमूना को "स्वतंत्र नमूना" कहा जाता है, यदि निम्नलिखित गणितीय समानता रखती है:एस

f(x1,...,xi,...,xn)=i=1nfi(xi),(x1,...,xi,...,xn)DS

जहां संयुक्त द्वारा बनाई डोमेन है n यादृच्छिक वैक्टर / टिप्पणियों।DSn

इसका अर्थ है कि "अवलोकन" "संयुक्त रूप से स्वतंत्र" हैं, (सांख्यिकीय अर्थ में, या "संभावना में स्वतंत्र" जैसा कि पुरानी कहावत थी जो आज भी कभी-कभी देखी जाती है)। आदत बस उन्हें "स्वतंत्र टिप्पणियों" कहने की है।

ध्यान दें कि यहां सांख्यिकीय स्वतंत्रता संपत्ति सूचकांक , अर्थात टिप्पणियों के बीच। यह असंबंधित है कि प्रत्येक अवलोकन में यादृच्छिक चर के बीच संभाव्य / सांख्यिकीय संबंध क्या हैं (सामान्य स्थिति में हम यहां व्यवहार करते हैं जहां प्रत्येक अवलोकन बहुआयामी है)।i

यह भी ध्यान दें कि जिन मामलों में हमारे पास निरंतर यादृच्छिक चर हैं जिनमें कोई घनत्व नहीं है, उपरोक्त को वितरण कार्यों के संदर्भ में व्यक्त किया जा सकता है।

यह "स्वतंत्र टिप्पणियों" का मतलब है । यह गणितीय रूप से व्यक्त की गई एक सटीक परिभाषित संपत्ति है। आइए देखें कि इसका क्या अर्थ है

कुछ औचित्य के स्रोत

A. यदि दो अवलोकन संयुक्त रूप से स्वतंत्र टिप्पणियों के समूह का हिस्सा हैं, तो वे "जोड़ी-वार स्वतंत्र" (सांख्यिकीय रूप से) भी हैं।

f(xi,xm)=fi(xi)fm(xm)im,i,m=1,...,n

यह बदले में यह दर्शाता है कि सशर्त PMF / PDF "सीमांत" वाले के बराबर हैं

f(xixm)=fi(xi)im,i,m=1,...,n

यह कई तर्कों, वातानुकूलित या कंडीशनिंग के लिए सामान्यीकृत करता है, कहते हैं

f(xi,xxm)=f(xi,x),f(xixm,x)=fi(xi)

आदि, जब तक बाईं ओर के अनुक्रमणिकाएं ऊर्ध्वाधर रेखा के दाईं ओर अनुक्रमित से भिन्न होती हैं।

इसका तात्पर्य यह है कि यदि हम वास्तव में एक अवलोकन करते हैं, तो नमूने के किसी अन्य अवलोकन की विशेषता वाली संभावनाएं नहीं बदलती हैं। इसलिए जैसा कि भविष्यवाणी है , एक स्वतंत्र नमूना हमारा सबसे अच्छा दोस्त नहीं है। हम निर्भरता रखना पसंद करेंगे ताकि प्रत्येक अवलोकन हमें किसी अन्य अवलोकन के बारे में कुछ और कहने में मदद कर सके।

B. दूसरी ओर, एक स्वतंत्र नमूने में अधिकतम सूचनात्मक सामग्री होती है। प्रत्येक अवलोकन, स्वतंत्र होने के नाते, नमूने में किसी भी अन्य अवलोकन द्वारा, पूर्ण रूप से, आंशिक या आंशिक रूप से जानकारी नहीं दी जा सकती है। तो कुल योग किसी भी तुलनात्मक नमूने की तुलना में अधिकतम है, जहां कुछ टिप्पणियों के बीच कुछ सांख्यिकीय निर्भरता मौजूद है। लेकिन यह जानकारी किस उपयोग की है, अगर यह हमारी भविष्यवाणियों को बेहतर बनाने में हमारी मदद नहीं कर सकती है?

खैर, यह उन अप्रत्यक्ष सूचनाओं के बारे में अप्रत्यक्ष जानकारी है जो नमूने में यादृच्छिक चर की विशेषता है। जितना अधिक इन अवलोकनों में सामान्य विशेषताएं हैं (हमारे मामले में सामान्य संभावना वितरण), उतना ही हम उन्हें उजागर करने के लिए बेहतर स्थिति में हैं, अगर हमारा नमूना स्वतंत्र है।

दूसरे शब्दों में अगर नमूना स्वतंत्र है और "समान रूप से वितरित" है, जिसका अर्थ है

fi(xi)=fm(xm)=f(x),im

न केवल सामान्य संयुक्त संभाव्यता वितरण बारे में जानकारी प्राप्त करने के लिए यह सबसे अच्छा संभव नमूना है , बल्कि यादृच्छिक चर के सीमांत वितरण के लिए भी है जिसमें प्रत्येक अवलोकन शामिल है, f j ( x j i ) कहते हैंf(x)fj(xji)

तो भले ही , तो शून्य अतिरिक्त भविष्य कहनेवाला के रूप में संबंध है बिजली की वास्तविक प्राप्ति एक्स मैं एक स्वतंत्र और हूबहू वितरित नमूने के साथ, हम सबसे अच्छा स्थिति में करने के लिए उजागर कर रहे हैं कार्यों मैं (या उसके गुण से कुछ), सीमांत वितरण अर्थात्।f(xixm)=fi(xi)xi fमैं

इसलिए, संबंध के रूप में आकलन (जो कभी कभी यहां एक कैच-ऑल शब्द के रूप में प्रयोग किया जाता है, लेकिन यह की अवधारणा से अलग रखा जाना चाहिए भविष्यवाणी ), एक स्वतंत्र नमूना है , हमारे "बेस्ट फ्रेंड" अगर यह के साथ "हूबहू वितरित संयुक्त है " संपत्ति।

सी। यह भी अनुसरण करता है कि टिप्पणियों का एक स्वतंत्र नमूना जहां प्रत्येक को पूरी तरह से अलग-अलग संभाव्यता वितरण की विशेषता है, जिसमें कोई भी सामान्य विशेषता नहीं है, एक के रूप में जानकारी का एक संग्रह के रूप में बेकार है, जो निश्चित रूप से प्राप्त कर सकता है (निश्चित रूप से जानकारी का हर टुकड़ा अपने आप में है) योग्य, यहाँ मुद्दा यह है कि इनको एक साथ लिया जाए तो इन्हें कुछ भी उपयोगी बनाने के लिए नहीं जोड़ा जा सकता है)। तीन अवलोकनों से युक्त एक नमूने की कल्पना कीजिए: एक जिसमें दक्षिण अमेरिका के फलों की (मात्रात्मक विशेषताएं) हैं, एक अन्य जिसमें यूरोप के पहाड़ हैं, और तीसरा एशिया से कपड़े हैं। बहुत दिलचस्प जानकारी के सभी तीनों को टुकड़े-टुकड़े करते हैं, लेकिन एक नमूना के रूप में एक साथ हमारे लिए कुछ भी उपयोगी नहीं हो सकता है।

एक अन्य तरीके से रखो, एक स्वतंत्र नमूने के लिए एक आवश्यक और पर्याप्त स्थिति उपयोगी होने के लिए, यह है कि टिप्पणियों में कुछ सांख्यिकीय विशेषताएं हैं। यही कारण है कि, सांख्यिकी में, "नमूना" शब्द सामान्य रूप से "सूचना के संग्रह" का पर्याय नहीं है, लेकिन "कुछ सामान्य विशेषताओं वाले संस्थानों पर जानकारी का संग्रह" है।

ओपा के डेटा एक्सपेलिमेंट के लिए आवेदन

उपयोगकर्ता @gung के अनुरोध के जवाब में, ऊपर के प्रकाश में ओपी के उदाहरण की जांच करते हैं। हम यथोचित रूप से मानते हैं कि हम दो से अधिक शिक्षकों और छह से अधिक विद्यार्थियों वाले स्कूल में हैं। इसलिए ए) हम विद्यार्थियों और शिक्षकों दोनों का नमूना ले रहे हैं, और बी) हम अपने डेटा में उस ग्रेड को शामिल करते हैं जो प्रत्येक शिक्षक-शिष्य संयोजन से मेल खाता है।

जीपीटीएस=(रों1,,रों6)

रों1=(टी1,पी1,जी1)रों2=(टी1,पी2,जी2)रों3=(टी1,पी3,जी3)रों3=(टी2,पी4,जी4)रों4=(टी2,पी5,जी5)रों5=(टी2,पी6,जी6)

पीमैंजीमैं
टी1,टी2

रों1,रों2,रों3टी1रों4,रों5,रों6टी2

ध्यान से "समान यादृच्छिक चर" और "समान वितरण वाले दो अलग-अलग यादृच्छिक चर" के बीच अंतर को ध्यान से देखें।

रों1,रों2,रों3टी1रों4,रों5,रों6टी2

अब मान लें कि हम अपने नमूने से यादृच्छिक चर "शिक्षक" को बाहर करते हैं। (पुपिल, ग्रेड) छह अवलोकनों का नमूना है, एक स्वतंत्र नमूना है? यहां, शिक्षकों, विद्यार्थियों और ग्रेड के बीच संरचनात्मक संबंध क्या है, इसके बारे में हम जो धारणाएँ बनाएंगे, वे मायने रखती हैं।

टी1टी2जी1,जी2,जी3टी1

लेकिन कहते हैं कि शिक्षक उस संबंध में समान हैं। फिर बताई गई धारणा के तहत "शिक्षक छात्रों को प्रभावित करते हैं" हमारे पास फिर से है कि पहले तीन अवलोकन एक-दूसरे पर निर्भर हैं, क्योंकि शिक्षक विद्यार्थियों को प्रभावित करते हैं जो ग्रेड को प्रभावित करते हैं, और हम एक ही परिणाम पर आते हैं, इस मामले में अप्रत्यक्ष रूप से (और इसी तरह) अन्य तीन)। तो फिर, नमूना स्वतंत्र नहीं है।

विक्रेता का मामला

जीएम,एफ

रों1=(जी1,पी1,जी1)रों2=(जी2,पी2,जी2)रों3=(जी3,पी3,जी3)रों3=(जी4,पी4,जी4)रों4=(जी5,पी5,जी5)रों5=(जी6,पी6,जी6)

नोट ध्यान से है कि हम क्या के रूप में संबंध है लिंग नमूने के वर्णन में शामिल है, नहीं वास्तविक मूल्य है कि यह प्रत्येक छात्र के लिए ले जाता है, लेकिन यादृच्छिक चर "लिंग" । इस बहुत लंबे उत्तर की शुरुआत में पीछे देखें: नमूना को संख्याओं के संग्रह के रूप में परिभाषित नहीं किया गया है (या सामान्य में निश्चित संख्यात्मक या मान नहीं), लेकिन यादृच्छिक चर (कार्यों के साधन) के संग्रह के रूप में ।

जीमैं1जी1पी2,पी3,, तो यह टिप्पणियों के बीच निर्भरता का एक और संभावित स्रोत हो जाता है। अंत में, एक पुतली का लिंग सीधे दूसरे पुतली के ग्रेड को प्रभावित करता है? अगर हम तर्क देते हैं कि ऐसा नहीं है, तो हम एक स्वतंत्र नमूना प्राप्त करते हैं (एक ही शिक्षक वाले सभी विद्यार्थियों पर सशर्त)।


मैं आपकी बात में सहमत नहीं हूं। बी कुछ उद्देश्यों के लिए, जैसे कि किसी मतलब का अनुमान लगाने के लिए, नकारात्मक सहसंबंध स्वतंत्रता से बेहतर है।
kjetil b halvorsen

@kjetil किस मायने में बेहतर है?
एलेकोस पापाडोपोलोस

यदि आप पाठ में ओपी के प्रश्नों के लिए इसे संक्षिप्त रूप से जोड़ सकते हैं तो यह मदद करेगा। यह देखते हुए, हम कैसे समझते हैं कि सूचीबद्ध अवलोकन स्वतंत्र नहीं हैं? और टीचर को बाहर छोड़ना सेक्स छोड़ने से कैसे अलग है?
गूँज - मोनिका

@ गुंग मैंने आपके द्वारा सुझाई गई लाइनों के साथ कुछ विस्तार शामिल किए हैं।
एलेकोस पापाडोपोलोस

विचरण को कम करने के अर्थ में बेहतर है
kjetil b halvorsen

2

सांख्यिकीय स्वतंत्रता की परिभाषाएँ जो आप अपनी पोस्ट में देते हैं, वे सभी अनिवार्य रूप से सही हैं, लेकिन वे सांख्यिकीय मॉडल में स्वतंत्रता की धारणा के दिल में नहीं आती हैं । एक सांख्यिकीय मॉडल में स्वतंत्र टिप्पणियों की धारणा से हमारा क्या मतलब है, यह समझने के लिए, एक वैचारिक स्तर पर एक सांख्यिकीय मॉडल क्या है, यह फिर से समझना मददगार होगा।

"प्रकृति के पासा" के रूप में सांख्यिकीय मॉडल

आइए एक परिचित उदाहरण का उपयोग करें: हम वयस्क मनुष्यों का एक यादृच्छिक नमूना एकत्र करते हैं (अच्छी तरह से परिभाषित आबादी से - कहते हैं, पृथ्वी पर सभी वयस्क मनुष्य) और हम उनकी ऊंचाइयों को मापते हैं। हम वयस्क मनुष्यों की जनसंख्या की ऊँचाई का अनुमान लगाना चाहते हैं। ऐसा करने के लिए, हम यह मानकर एक साधारण सांख्यिकीय मॉडल का निर्माण करते हैं कि लोगों की ऊंचाइयां एक सामान्य वितरण से उत्पन्न होती हैं।

हमारा मॉडल एक अच्छा होगा यदि एक सामान्य वितरण एक अच्छा सन्निकटन प्रदान करता है कि प्रकृति लोगों के लिए "पिक" कैसे करती है। यही है, अगर हम अपने सामान्य मॉडल के तहत डेटा का अनुकरण करते हैं, तो परिणामस्वरूप डेटासेट निकटता (एक सांख्यिकीय अर्थ में) क्या हम प्रकृति में निरीक्षण करते हैं? हमारे मॉडल के संदर्भ में, क्या हमारा यादृच्छिक-संख्या जनरेटर जटिल स्टोचस्टिक प्रक्रिया का एक अच्छा सिमुलेशन प्रदान करता है जिसे प्रकृति यादृच्छिक रूप से चयनित मानव वयस्कों ("प्रकृति का पासा") की ऊंचाइयों को निर्धारित करने के लिए उपयोग करती है?

एक साधारण मॉडलिंग संदर्भ में स्वतंत्रता की धारणा

जब हमने यह मान लिया कि हम सामान्य वितरण से यादृच्छिक संख्याओं को खींचकर "प्रकृति के पासा" का अनुमान लगा सकते हैं, तो हमारा मतलब यह नहीं था कि हम सामान्य वितरण से एक ही संख्या आकर्षित करेंगे, और फिर उस ऊंचाई को हर किसी को सौंप देंगे। हमारा मतलब था कि हम समान रूप से समान वितरण से हर किसी के लिए स्वतंत्र रूप से संख्या आकर्षित करेंगे। यह हमारी स्वतंत्रता की धारणा है।

अब कल्पना कीजिए कि वयस्कों का हमारा नमूना एक यादृच्छिक नमूना नहीं था, बल्कि कुछ मुट्ठी भर परिवारों से आया था। कुछ परिवारों में तनाव चलता है, और दूसरों में लघुता चलती है। हमने पहले ही कहा है कि हम यह मानने को तैयार हैं कि सभी वयस्कों की हाइट एक सामान्य वितरण से आती है। लेकिन सामान्य वितरण से नमूना एक डेटासेट प्रदान नहीं करेगा जो हमारे नमूने की तरह दिखता है (हमारा नमूना अंक के "क्लंप" दिखाएगा, कुछ छोटे, अन्य लम्बे - प्रत्येक क्लंप एक परिवार है)। हमारे नमूने में लोगों की ऊंचाइयां समग्र सामान्य वितरण से स्वतंत्र नहीं हैं ।

अधिक जटिल मॉडलिंग के संदर्भ में स्वतंत्रता की धारणा

लेकिन सब खो नहीं है! हम अपने नमूने के लिए एक बेहतर मॉडल लिखने में सक्षम हो सकते हैं - एक जो ऊंचाइयों की स्वतंत्रता को संरक्षित करता है। उदाहरण के लिए, हम एक रेखीय मॉडल लिख सकते हैं, जहां ऊंचाइयां एक सामान्य वितरण से उत्पन्न होती हैं, जो इस बात पर निर्भर करता है कि विषय किस परिवार से संबंधित है। इस संदर्भ में, सामान्य वितरण में अवशिष्ट भिन्नता का वर्णन है , परिवार के प्रभाव के लिए हम खाते हैं। और सामान्य वितरण से स्वतंत्र नमूने इस अवशिष्ट भिन्नता के लिए एक अच्छा मॉडल हो सकते हैं।

कुल मिलाकर, हमने जो कुछ किया है, वह हमारे अध्ययन के संदर्भ में प्रकृति के पासे की अपेक्षा के बारे में अधिक परिष्कृत मॉडल लिखने के लिए है। एक अच्छा मॉडल लिखकर, हमें यह मानने में अभी भी उचित ठहराया जा सकता है कि मॉडल के यादृच्छिक भाग (यानी परिवार के चारों ओर यादृच्छिक भिन्नता) जनसंख्या के प्रत्येक सदस्य के लिए स्वतंत्र रूप से नमूना है।

एक सामान्य मॉडलिंग के संदर्भ में (सशर्त) स्वतंत्रता की धारणा

सामान्य तौर पर, सांख्यिकीय मॉडल यह मानकर काम करते हैं कि डेटा कुछ संभाव्यता वितरण से उत्पन्न होता है। उस वितरण के मानदंड (जैसे ऊपर दिए गए उदाहरण में सामान्य वितरण के साधन ) सहसंयोजकों पर निर्भर हो सकते हैं (उदाहरण में परिवार जैसे)। लेकिन निश्चित रूप से अंतहीन विविधताएं संभव हैं। वितरण सामान्य नहीं हो सकता है, जो पैरामीटर कोवरेट्स पर निर्भर करता है वह मतलब नहीं हो सकता है, निर्भरता का रूप रैखिक नहीं हो सकता है, आदि। ये सभी मॉडल इस धारणा पर भरोसा करते हैं कि वे प्रकृति के पासा को एक बहुत अच्छा अनुमान प्रदान करते हैं। व्यवहार करें (फिर, मॉडल के तहत नकली डेटा प्रकृति द्वारा प्राप्त वास्तविक डेटा के समान सांख्यिकीय रूप से दिखेगा)।

जब हम मॉडल के तहत डेटा का अनुकरण करते हैं, तो अंतिम चरण हमेशा कुछ मॉडल किए गए संभाव्यता वितरण के अनुसार एक यादृच्छिक संख्या आकर्षित करना होगा। ये ऐसे ड्रा हैं जिन्हें हम एक दूसरे से स्वतंत्र मानते हैं। वास्तविक डेटा जो हम बाहर निकालते हैं, वह स्वतंत्र नहीं लग सकता है, क्योंकि कोवरिएट्स या मॉडल की अन्य विशेषताएं हमें अलग-अलग ड्रॉ (या ड्रॉ के सेट) के लिए अलग-अलग संभावना वितरण का उपयोग करने के लिए कह सकती हैं। लेकिन इस जानकारी के सभी मॉडल में ही बनाया जाना चाहिए। हमें यादृच्छिक अंतिम संख्या आकर्षित करने की अनुमति नहीं दी जाती है जो हम अन्य डेटा बिंदुओं के लिए किन मूल्यों पर आकर्षित करते हैं। इस प्रकार, जिन घटनाओं को स्वतंत्र होने की आवश्यकता है, वे हमारे मॉडल के संदर्भ में "प्रकृति के पासा" के रोल हैं।

इस स्थिति को सशर्त स्वतंत्रता के रूप में संदर्भित करना उपयोगी है , जिसका अर्थ है कि डेटा बिंदु एक दूसरे को दिए गए (यानी वातानुकूलित) सहसंयोजकों से स्वतंत्र हैं । हमारे ऊंचाई के उदाहरण में, हम मानते हैं कि मेरे परिवार में मेरे भाई और मेरे भाई की ऊँचाई एक दूसरे से स्वतंत्र हैं, और आपकी ऊँचाई से भी स्वतंत्र हैं और आपकी बहन की ऊँचाई आपके परिवार पर है।। एक बार जब हम किसी के परिवार को जानते हैं, तो हम जानते हैं कि उनकी ऊंचाई का अनुकरण करने के लिए किस सामान्य वितरण से ड्रा करना है, और विभिन्न व्यक्तियों के लिए ड्रा उनके परिवार की परवाह किए बिना स्वतंत्र हैं (भले ही हमारे सामान्य वितरण से चुनने का विकल्प परिवार पर निर्भर करता है)। यह भी संभव है कि हमारे डेटा की पारिवारिक संरचना से निपटने के बाद भी, हम अभी भी अच्छी सशर्त स्वतंत्रता प्राप्त नहीं करते हैं (उदाहरण के लिए, लिंग को मॉडल करना भी महत्वपूर्ण है)।

अंतत:, क्या यह समझ में आता है कि अवलोकनों की सशर्त स्वतंत्रता एक ऐसा निर्णय है जिसे किसी विशेष मॉडल के संदर्भ में किया जाना चाहिए। यही कारण है कि, उदाहरण के लिए, रैखिक प्रतिगमन में, हम यह नहीं जांचते हैं कि डेटा एक सामान्य वितरण से आता है, लेकिन हम यह जांचते हैं कि परिणाम सामान्य वितरण से आते हैं (और एसएएमई सामान्य वितरण से पूरी रेंज में। डेटा)। रेखीय प्रतिगमन मानता है कि, कोवरिएट्स (प्रतिगमन रेखा) के प्रभाव के लिए लेखांकन के बाद, डेटा को मूल वितरण में स्वतंत्रता की सख्त परिभाषा के अनुसार, एक सामान्य वितरण से स्वतंत्र रूप से नमूना लिया जाता है।

अपने उदाहरण के संदर्भ में

आपके डेटा में "शिक्षक" ऊंचाई उदाहरण में "परिवार" की तरह हो सकता है।

उस पर एक अंतिम स्पिन

परिचित मॉडल के बहुत सारे मानते हैं कि अवशिष्ट एक सामान्य वितरण से उत्पन्न होते हैं। कल्पना कीजिए कि मैंने आपको कुछ डेटा दिया जो बहुत स्पष्ट रूप से सामान्य नहीं थे। शायद आप दृढ़ता से तिरछे हो गए हैं, या शायद वे बिमोडल हैं। और मैंने आपको बताया "ये डेटा सामान्य वितरण से आते हैं।"

"कोई रास्ता नहीं," आप कहते हैं, "यह स्पष्ट है कि वे सामान्य हैं!"

"डेटा के सामान्य होने के बारे में किसने कुछ कहा?" मैं कहता हूँ। "मैंने केवल यह कहा कि वे एक सामान्य वितरण से आते हैं।"

"उसी में से एक!" तुम कहो। "हम जानते हैं कि एक सामान्य वितरण से यथोचित बड़े नमूने का एक हिस्टोग्राम लगभग सामान्य दिखाई देगा!"

"लेकिन," मैं कहता हूं, "मैंने कभी नहीं कहा कि डेटा को सामान्य वितरण से स्वतंत्र रूप से नमूना किया गया था। डीओ एक सामान्य वितरण से आते हैं, लेकिन वे स्वतंत्र ड्रॉ नहीं हैं।"

सांख्यिकीय मॉडलिंग में (सशर्त) स्वतंत्रता की धारणा मेरे जैसे स्मार्ट-एलेक्स को अवशिष्टों के वितरण की अनदेखी करने और मॉडल को गलत तरीके से लागू करने से रोकने के लिए है।

दो अंतिम नोट

1) शब्द "प्रकृति का पासा" मूल रूप से मेरा नहीं है, लेकिन संदर्भों के एक जोड़े से परामर्श करने के बावजूद मैं यह नहीं जान सकता कि मुझे इस संदर्भ में कहां मिला है।

2) कुछ सांख्यिकीय मॉडल (जैसे ऑटोरेग्रेसिव मॉडल) को इस तरह से टिप्पणियों की स्वतंत्रता की आवश्यकता नहीं है। विशेष रूप से, वे दिए गए अवलोकन के लिए नमूना वितरण को न केवल निश्चित कोवरिअट्स पर निर्भर करने की अनुमति देते हैं, बल्कि इससे पहले आए डेटा पर भी।


इसके लिए धन्यवाद। मुझे यह पसंद है कि इसे बहुत सुलभ तरीके से रखा जाए। आप इस मुद्दे को संबोधित करते हैं कि यह शिक्षक के लिए कैसे खेलता है, क्या आप चर्चा को सेक्स के विचार को सहसंयोजक के रूप में भी विस्तारित कर सकते हैं?
गूँग - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.