दुरुपयोग की दृष्टि से सांख्यिकीय शब्द क्या सही हैं?


103

सांख्यिकी हर जगह है; हालांकि, सांख्यिकीय शब्दों का सामान्य उपयोग अक्सर अस्पष्ट होता है।

अंग्रेजी में अच्छी तरह से परिभाषित और विभिन्न गणितीय अभिव्यक्तियों के बावजूद प्रायिकता और बाधाओं का उपयोग करने योग्य शब्दों में किया जाता है।

शब्द संभावना को संभावना से अलग नहीं करना नियमित रूप से भ्रमित करने वाले चिकित्सकों को एक सकारात्मक मैमोग्राफी, "ओह, क्या बकवास है, स्तन कैंसर की संभावना को निर्धारित करने की कोशिश कर रहा है ।" मैं ऐसा नहीं कर सकता। आपको मेरी बेटी का परीक्षण करना चाहिए; वह दवा पढ़ रही है। ”

समान रूप से फैलाव संघ के बजाय सहसंबंध का उपयोग है । या सहसंबंध आसन्न कारण

अल गोर की प्रसिद्ध डॉक्यूमेंट्री An Inconvenient Truth में , एक स्लाइड में आइस कोर और तापमान के सहसंबंध का चित्रण किया गया है, जो चर्चा से हटने के लिए अधिक तकनीकी कार्य छोड़ रहा है:CO2

यहाँ छवि विवरण दर्ज करें

प्रश्न: कौन से सांख्यिकीय शब्द गणितीय कठोरता के बिना उपयोग किए जाने पर व्याख्या की समस्याओं को हल करते हैं, और इसलिए, सही करने के लायक हैं?


4
बाधाओं बनाम बाधाओं के बीच की संभावना मेरे लिए एक समस्या नहीं लगती है क्योंकि आम आदमी वैसे भी उनकी गणना नहीं करेगा, वे बस कह रहे होंगे कि मान कम या अधिक हैं, और दोनों सीधे सहसंबद्ध हैं।
मेहरदाद

@ मेहरदाद मैं सहमत हूँ। दरअसल, यह वह बिंदु है ... क्या कोई ऐसी स्थिति है जहां इन शब्दों का दुरुपयोग किया जाता है, जो आंकड़ों की सीमा के भीतर अपनाया और तकनीकी किया गया है, समस्याओं का परिणाम है। उदाहरण के लिए, यह स्पष्ट है कि जलवायु परिवर्तन के पीछे अनुसंधान का एक महत्वपूर्ण निकाय है, लेकिन कई अन्य परिस्थितियों में यह दावा करते हुए कि भ्रष्टाचार सहने के बराबर है, झूठे दावे किए जा सकते हैं। बाधाओं और संभावनाओं के मामले में, या तो दूसरे में परिवर्तित किया जा सकता है, इसलिए एकमात्र जोखिम आपके दांव को गलत समझ रहा है।
एंटोनी परेलाडा

3
@ मेहरदाद बाधाओं के बारे में बात एक दिलचस्प है, लेकिन मुझे लगता है कि यह आंख से मिलने की तुलना में अधिक जटिल है। जब आम आदमी बाधाओं के बारे में बात करते हैं, तो उनका मतलब आमतौर पर जुआ बाधाओं से होता है, और ये अक्सर "बाधाओं के खिलाफ" प्रारूप में व्यक्त किए जाते हैं। तो इस प्रणाली में कि ज्यादातर लोग परिचित हैं, बाधाओं के लिए एक उच्च मूल्य कम संभावना के साथ जुड़ा हुआ है , हालांकि एक सांख्यिकीविद् के लिए उच्च संभावनाएं उच्च संभावना से जुड़ी हैं। इसलिए यह भ्रम के लिए काफी परिपक्व है: हमारे पोस्ट को ऑड्स मेड सिंपल
सिल्वरफ़िश

5
यह संभवतः ध्यान में रखने योग्य है कि इनमें से कुछ शब्द अंग्रेजी भाषा में पहले से मौजूद थे (ढीले अर्थ के साथ), आंकड़ों द्वारा विनियोजित किए जाने से पहले और कठोर तकनीकी परिभाषाएं दी गई थीं। यह शब्द लेने, अर्थ बदलने, और फिर इसका गलत उपयोग करने के लिए दूसरों को दोषी ठहराने के लिए थोड़ा सा संघनित होता है, जब वे इसे पुराने, गैर-तकनीकी, परिभाषा के साथ उपयोग कर रहे होते हैं।
आरएम

मैं वास्तव में कॉलिंग टेस्ट "पोस्ट हॉक" को पसंद नहीं करता, तब भी जब वे पहले से योजनाबद्ध हों। मुझे लगता है कि यह कुछ स्टेट पैकेज के साथ शुरू हुआ था लेकिन अब यह व्यापक है।
डेविड लेन

जवाबों:


101

भाषा में बदलाव के खिलाफ लड़ना निरर्थक हो सकता है। परंतु

पैरामीटर का मतलब चर नहीं है

शास्त्रीय आंकड़ों में, जो इस मामले में आरए फिशर के साथ ठीक शुरू होता है, जिन्होंने पहली बार इस अर्थ के साथ शब्द का उपयोग किया था, एक पैरामीटर एक अज्ञात निरंतर अनुमान है, एक आबादी का मतलब या सहसंबंध कहें। गणित में, संबंधित लेकिन समान अर्थ नहीं हैं, जैसे कि एक वक्र को पैरामीट्रिक रूप से दिया जाता है। कई विज्ञानों में, माप के लिए पैरामीटर केवल एक और शब्द है (गणितीय अर्थ के साथ एक शब्द घने), संपत्ति या चर, लंबाई या चालकता या सरंध्रता या गुण, जैसा कि मामला हो सकता है। स्वाभाविक रूप से, किसी व्यक्ति की लंबाई या गुण अज्ञात होने से पहले मापा जाता है। लेकिन सांख्यिकीय रूप से दिमाग वाले लोगों को इस तरह के माप के एक सेट के लिए उपयोग किया जा सकता है। साधारण या अशिष्ट पैरालांस में, पैरामीटर(लगभग हमेशा बहुवचन) का अर्थ अक्सर किसी चीज की सीमा, व्यक्तिगत संबंध या राजनीतिक नीति, शायद परिधि के साथ कुछ मूल भ्रम से उपजी है । उच्च पूर्व संभावना के साथ यह अनुमान लगाया जाना है कि बायेसियन अपने स्वयं के उपयोग के लिए खुद से बात करेंगे (@conjugatepyer के लिए आभारी हैं)।

तिरछा का मतलब पक्षपातपूर्ण नहीं है

एक सदी या उससे अधिक के लिए, तिरछेपन में वितरण की विषमता का जिक्र करने का एक विशिष्ट सांख्यिकीय अर्थ है, चाहे वह रेखांकन, संख्यात्मक रूप से मापा गया हो, या सैद्धांतिक रूप से विश्वास या आशा के विषय के रूप में माना गया हो। बहुत लंबे समय तक, या इसलिए यह अनुमान लगाया जा सकता है, पूर्वाग्रह का मतलब औसत रूप से गलत होना है, जो कि - जब तक हम सत्य को जानते हैं, एक सच्चे या सही मूल्य का अर्थ है - व्यवस्थित त्रुटि के रूप में मात्रा निर्धारित की जा सकती है। साधारण भाषा में तिरछे होने का एक सामान्य अर्थ है विकृत या विकृत, और इस प्रकार गलत, गलत और इसलिए भी पक्षपाती है। उस अर्थ (जहाँ तक मैंने ध्यान दिया है, केवल हाल ही में) ने सांख्यिकीय चर्चाओं को वापस फ़िल्टर करना शुरू कर दिया है, ताकि तिरछा होने का मूल अर्थ धुंधला होने या जलमग्न होने के कुछ खतरे में हो।

सहसंबंध का मतलब समझौते से नहीं है

सहसंबंध ने आंकड़ों में कई सटीक इंद्रियों को आकर्षित किया है, जो सामान्य रूप से कुछ सटीक अर्थों में एक द्विभाजित संबंध का एक विचार है: प्रमुख मामले रैखिक और एकरस संबंध हैं। लगभग किसी भी तरह के संबंध या जुड़ाव के लिए, सांख्यिकीय चर्चाओं में भी यह अक्सर पतला होता है। क्या सहसंबंध मतलब यह नहीं है, जरूरी, समझौता है: इस प्रकार के पियर्सन सहसंबंध का तात्पर्य या के रूप में इतने लंबे समय , लेकिन समझौते की आवश्यकता बहुत सख्त हालत ।y=a+bx11b0y=xa=0,b=1

अद्वितीय मतलब यह नहीं है अलग

यह काफी के रूप में डेटा के विशिष्ट मूल्यों के बारे में बात करने के लिए आम है अद्वितीय है, लेकिन अद्वितीय अर्थ केवल एक बार होने वाली के रूप में अभी भी आदर्श बेहतर संरक्षित है। मेरा अपना अनुमान है कि कुछ दोष यूनिक्स [sic] उपयोगिता uniqऔर इसके अनुकरणकर्ताओं से उपजा है , जो संभवतया दोहराया मूल्यों को एक सेट में कम करते हैं जिसमें प्रत्येक मूल्य वास्तव में अद्वितीय है। इस अनुमान पर उपयोग, एक कार्यक्रम के इनपुट और आउटपुट को भ्रमित करता है। (इसके विपरीत, यदि हम डेटा में डुप्लिकेट की बात करते हैं, तो हम शायद ही कभी खुद को दो गुना तक सीमित कर लेते हैं जो दो बार ठीक होता है। शब्द दोहराता है।भाषाई रूप से अधिक समझ में आता है, लेकिन प्रयोगों में नियंत्रण की जानबूझकर प्रतिकृति के लिए पहले से खाली कर दिया गया है; परिणामी प्रतिक्रिया मूल्य आमतौर पर सभी समान नहीं होते हैं, जो कि बहुत अधिक है।)

नमूने शायद ही दोहराया जाता है

आंकड़ों में, एक नमूने में कई मूल्य शामिल हैं, और दोहराया नमूना एक उच्च सैद्धांतिक गुण है, लेकिन अनुकरण द्वारा छोड़कर, शायद ही कभी अभ्यास किया जाता है, जो कि सिलिको में किसी भी तरह के फ़ेकिंग के लिए हमारा प्रथागत शब्द है । कई विज्ञानों में, एक नमूना एक एकल वस्तु है, जिसमें पानी, मिट्टी, तलछट, चट्टान, रक्त, ऊतक, या अन्य पदार्थ हैं, जो सौम्य से घृणित के माध्यम से भिन्न होते हैं; असाधारण होने से दूर, कई नमूने लेना किसी भी गंभीर विश्लेषण के लिए आवश्यक हो सकता है। यहाँ हर क्षेत्र की शब्दावली अपने लोगों के लिए सही अर्थ रखती है, लेकिन कभी-कभी अनुवाद की आवश्यकता होती है।

त्रुटि आमतौर पर गलती मतलब यह नहीं है; जैसा कि हेरोल्ड जेफ़रीज़ ने बताया, प्राथमिक अर्थ अनिश्चित है, त्रुटिपूर्ण नहीं है।

फिर भी, हमें अपने स्वयं के पापों से सावधान रहना चाहिए या शब्दावली का विरोध करना चाहिए:

प्रतिगमन पीछे की ओर नहीं जा रहा है

स्थिर का मतलब स्थिर या स्थिर नहीं है

आत्मविश्वास का किसी की मानसिक या मनोवैज्ञानिक स्थिति से कोई लेना-देना नहीं है

महत्व केवल कभी-कभी इसका रोजमर्रा का अर्थ होता है

सटीक अक्सर एक सम्मानजनक शब्द है, जो समस्या के लिए एक उपयुक्त के बजाय एक सुविधाजनक ट्रैफ़िक समाधान या गणना की बात करता है

कई तिरछी बांहों को दाएं-तिरछे बांए, और इसके विपरीत

lognormal इसलिए कहा जाता है क्योंकि यह एक सामान्य exponentiated है

लेकिन lognormal की तुलना में अधिक सामान्य है सामान्य

गाऊसी द्वारा Moivre डी की खोज की थी

प्वासों खोज नहीं की थी प्वासों , अकेले प्वासों प्रतिगमन जाने

बूटस्ट्रैप अपने जूते के साथ मदद नहीं करेगा

jackknife कटौती नहीं करता है

कुर्टोसिस एक चिकित्सा स्थिति नहीं है

स्टेम-एंड-लीफ प्लॉट पौधों को संदर्भित नहीं करते हैं

एक डमी चर उपयोगी है, व्यर्थ या मूर्ख नहीं है

पृथ्वी पर (या कहीं और) कौन सोचता है कि विषमता वास्तव में असमान परिवर्तनशीलता पर एक बेहतर शब्द है ?

मजबूत अब अलग-अलग समूहों के लिए कम से कम दो प्रमुख तकनीकी अर्थ हैं, जिनमें से कोई भी इसके लगातार उपयोग को रोकता नहीं है, यहां तक ​​कि तकनीकी चर्चाओं में भी, इसका मतलब है कि "कुछ भी अच्छा व्यवहार करने के लिए जोर दिया"

IV में अब विभिन्न समूहों के लिए कम से कम दो प्रमुख अर्थ हैं

कारक में अलग-अलग समूहों के लिए कम से कम दो प्रमुख अर्थ हैं

सामान्यीकरण और मानकीकरण के कई अर्थ हैं (हमें वास्तव में वहां मानकीकृत करने की आवश्यकता है)

बनाम एक ग्राफ का वर्णन का मतलब खड़ी चर बनाम क्षैतिज चर , जब तक यह विपरीत मतलब है

और (अंतिम लेकिन कम से कम, एक वाक्यांश को सिक्का करने के लिए) आंकड़ों के कम से कम तीन प्रमुख अर्थ हैं।

टिप्पणियाँ:

  1. इसके विपरीत किसी भी दिखावे के बावजूद, मुझे लगता है कि यह एक अच्छा, गंभीर सवाल है।

  2. फैशन बदलाव। अच्छी तरह से बीसवीं सदी में, ऐसा लगता है कि कई लोग (कोई नाम नहीं, कोई पैक-ड्रिल नहीं, लेकिन कार्ल पियर्सन का उल्लेख किया जा सकता है) केवल अपने ग्रीक और लैटिन शब्दकोशों के लिए पहुंचकर शब्दों का आविष्कार कर सकते हैं। (यह बिखराव की साजिश का श्रेय नहीं दिया जाना अनुचित होगा ।) लेकिन आरए फिशर ने कई पूर्व-मौजूदा अंग्रेजी शब्दों का अपहरण कर लिया, जिनमें विचरण , पर्याप्तता , दक्षता और संभावना शामिल है । अभी हाल ही में, JW Tukey घरेलू शर्तों का उपयोग करने में एक मास्टर था, लेकिन कुछ को यह महसूस करना चाहिए कि बंटवारे और बदमाशों ने पकड़ नहीं लिया।

  3. एक टिप्पणी "जीवन है [...] के गुणन पर आधारित है न कि additive के बजाय गुणा: लॉग सामान्य वितरण सामान्य से अधिक सामान्य है।" Anon। 1962. ब्लॉग्स के कार्य नियम। गुड, IJ (एड।) में वैज्ञानिक अनुमान लगाते हैं: आंशिक रूप से पके हुए विचारों का एक संकलन। लंदन: हेनीमैन, 212-213 (पृष्ठ 22 पर उद्धरण)।


टिप्पणियाँ विस्तारित चर्चा के लिए नहीं हैं; इस वार्तालाप को बातचीत में स्थानांतरित कर दिया गया है ।
whuber

Heteroscedasticity पूरी तरह से बिल्ली बॉक्स चट्टानों! "असमान परिवर्तनशीलता?" [फुग!]) (+1 बहुत अच्छा;)
एलेक्सिस

1
यह जोड़ने के लायक हो सकता है कि प्रतिगमन परीक्षण अक्सर सॉफ्टवेयर विकास के संदर्भ में उपयोग किया जाता है, जहां, मोटे तौर पर, यह पीछे की ओर जाने का
कोनराड

@Konrad दिलचस्प है, लेकिन तब (मुझे गलत होने पर सही करें) (ए) जो शब्द का दुरुपयोग नहीं होगा और (बी) शब्द का कोई सांख्यिकीय अर्थ नहीं है।
निक कॉक्स

@ नाइकॉक्स सही।
कोनराड

33

मेरे द्वारा किए गए कुछ काम:

  1. विनिमेय स्तर और सीआई कवरेज संभावनाओं को विनिमेय के रूप में व्यवहार करना, ताकि लोग "95% महत्व" की बात करने जैसी चीजों को समाप्त कर दें।

    [क्या बुरा है जब ऐसी त्रुटियां करने वाले लोग अपने व्याख्यान नोटों को इंगित करते हैं - या यहां तक ​​कि पाठ्यपुस्तक - इसके लिए समर्थन के रूप में; दूसरे शब्दों में गलती उनकी नहीं है, लेकिन सौ गुना या कई-हजारों गुना जटिल है, और इससे भी बदतर, अगर वे इसे सही ढंग से समझते हैं, तो उन्हें वास्तव में इस विषय को पारित करने के लिए, वैसे भी त्रुटि को दोहराना पड़ सकता है।]

  2. यह सोचने की भी एक आम प्रवृत्ति है कि "महत्व" किसी भी तरह से एक विशिष्ट परिकल्पना / प्रश्न के बाहर मौजूद है (सवालों के लिए अग्रणी "मेरे डेटा महत्वपूर्ण हैं" बिना किसी स्पष्ट धारणा के कि किस प्रश्न को संबोधित किया जाना है)। [एक संबंधित मुद्दा है "मुझे इन आंकड़ों के लिए किस परीक्षण का उपयोग करना चाहिए?" जैसे कि यह डेटा था - जवाब देने के लिए सवाल के बजाय - यह विश्लेषण की पसंद का ड्राइवर है। (जबकि अध्ययन का "डिज़ाइन" उपयोग किए गए विशिष्ट परीक्षणों को प्रभावित कर सकता है, ब्याज का सवाल अधिक महत्वपूर्ण है - उदाहरण के लिए, यदि आपके पास तीन समूह उपलब्ध हैं, लेकिन आपकी रुचि का प्रश्न केवल उनमें से दो की तुलना से संबंधित है, तथ्य यह है कि आप तीनों को ब्याज के दो समूहों की सीधी तुलना के बजाय एक-तरफ़ा विश्लेषण करने के लिए मजबूर नहीं करते हैं ... जब तक आपकी पसंद का विश्लेषण डेटा दिखाने से नहीं होता है। आदर्श रूप से आप डेटा पर विश्लेषण फेंकने के बजाय अपने प्रश्नों और विश्लेषणों की योजना बनाते हैं और देखते हैं कि क्या चिपक जाता है, जो कि पोस्ट-हॉक विश्लेषण प्रश्न लगता है - जिसमें "इन डेटा के लिए मुझे किस परीक्षण का उपयोग करना चाहिए?" - नेतृत्व करने के लिए जाते हैं)

  3. पी-मान के पूरक के रूप में एक सामयिक प्रवृत्ति कुछ प्रकार के "आत्मविश्वास", या विकल्प की "संभावना" के रूप में।

  4. "नॉनपरमेट्रिक डेटा"; दुर्भाग्य से एक और किताबों की एक जोड़ी में पाया गया (और, दुख की बात है, एक लेख में, जो एक सामान्य त्रुटि को ठीक करने के लिए शुद्धिकरण करता है) यह एक ऐसा अक्सर आता है कि यह स्वचालित रूप से उत्पन्न टिप्पणियों की मेरी छोटी सूची में है (जो शुरू होता है "डेटा न तो पैरामीट्रिक हैं और न ही अपरंपरागत; वे विशेषण हैं जो मॉडल या तकनीक पर लागू होते हैं ... ") (इस विशेष बगबियर की याद दिलाने के लिए धन्यवाद निक कॉक्स)

    आमतौर पर जो इरादा किया जाता है वह "गैर-सामान्य डेटा" होता है, लेकिन पैरामीट्रिक सामान्य नहीं होता है, और लगभग सामान्य होने का मतलब यह नहीं है कि हमें पैरामीट्रिक प्रक्रियाओं की आवश्यकता है। इसी तरह, गैर-सामान्यता का मतलब यह नहीं है कि हमें गैर-पैरामीट्रिक प्रक्रियाओं की आवश्यकता है। कभी-कभी, जो इरादा किया जाता है वह "क्रमिक डेटा" या "नाममात्र डेटा" होता है, लेकिन न तो मामले में इसका मतलब यह है कि परिमित-पैरामीट्रिक मॉडल अनुचित हैं।

  5. "रैखिक" के अर्थ को "रैखिक मॉडल" में गलत तरीके से समझने की एक सामान्य प्रवृत्ति "सामान्यीकृत रैखिक मॉडल" में "रैखिक" शब्द के उपयोग के साथ असंगत होगी। यह आंशिक रूप से हम शब्दावली का उपयोग करने के तरीके की गलती है।

  6. तीसरे क्षण तिरछापन के साथ मीन-माइनस-प्रकार की विषमता का सामना करना, और समरूपता के साथ या तो (या यहां तक ​​कि दोनों) में एक शून्य का सामना करना। दोनों त्रुटियां अक्सर कुछ विशेष अनुप्रयोग क्षेत्रों में व्यापक रूप से उपयोग किए जाने वाले मूल ग्रंथों में पाई जाती हैं। [सामान्यता के रूप में शून्य तिरछापन और शून्य अतिरिक्त कर्टोसिस के इलाज से संबंधित एक त्रुटि है]

  7. यह इतना आम है कि इसे किसी भी त्रुटि को और अधिक कठिन कहा जा सकता है (किसी विशेष कार्यक्रम के प्रयासों के कारण) - अतिरिक्त कर्टोसिस को "कुर्टोसिस" कहना; एक गलती बहुत संचार समस्याओं का नेतृत्व करने की गारंटी है।


2
+1। मैं आपको उस "गैर-पैरामीट्रिक डेटा" के बारे में याद दिलाना चाहता हूं, जो इस सूची में मेरा से बेहतर है। अतिरिक्त कुर्तोसिस कच्चे कुर्तोसिस का एक बदसूरत भाई है।
निक कॉक्स

@ धन्यवाद, मैं यहाँ अपनी सूची में यह कहते हुए बैठा हूँ कि "कुछ और है जो वास्तव में मुझे गुस्सा दिलाता है कि मैं जानता हूँ कि यहाँ है"। वही है वो।
Glen_b

3
एक और "सांख्यिकीय परीक्षण" का व्यापक रूप से विस्तार किया गया है ताकि यह प्रारंभिक प्रश्न बन जाए: मुझे अपने डेटा पर कौन सा परीक्षण लागू करना चाहिए? अक्सर इस विश्वास में कि "स्टूडेंट टी", "मान-व्हिटनी" या "ची-स्क्वायर" फॉर्म का एक ही उत्तर होगा। जिस पर मेरा उत्तर आमतौर पर अधिक होता है, शायद कोई भी नहीं, या हमें आपके डेटा को ध्यान से देखना होगा और चर्चा करनी चाहिए कि इससे पहले कि हम इस बारे में सोच सकें, आपका असली सवाल क्या है।
निक कॉक्स

@nick वह एक मेरे आइटम से निकटता से संबंधित है 2. मुझे आश्चर्य है कि क्या उस एक का विस्तार करने का एक अच्छा तरीका है।
Glen_b

1
मुझे डर है कि कई सांख्यिकीय ग्रंथ (प्रतीत होते हैं) ऐसी सोच को प्रोत्साहित करते हैं।
निक कॉक्स

31

" डेटा " बहुवचन है । (एकवचन "डेटम" है)।


2
क्या आप वास्तव में डेटम के बारे में बात करते हैं? अधिक आम तौर पर, वह बिंदु ... वह मूल्य ..., वह अवलोकन ..., कम से कम हेअरआउट्स।
निक कॉक्स

5
डेटा एक विलक्षण एंड्रॉइड भी है, जो मनुष्यों के बारे में डेटा को आत्मसात करता है जो वह डेटा संचालित डेटा निष्कर्ष पर आने के लिए देखता है, अक्सर हास्य प्रभाव के लिए।
मैथ्यू डॉरी

2
आपको यह सुनने के लिए एक लंबा रास्ता तय करना होगा।
निक कॉक्स

5
बहुवचन डेटा के लिए न केवल क्रिया के समझौते की आवश्यकता होती है - "डेटा" के बजाय "डेटा" होता है, लेकिन क्वांटिफायर का - "बहुत से डेटा" के बजाय "कई डेटा", "कम डेटा" के बजाय "कम डेटा"। इतने कम लोग संगत होते हैं कि यह एक खोया हुआ कारण प्रतीत होता है।
Scortchi

5
इस (मेरे लैटिन शिक्षक प्रसन्न होंगे) लड़ने के वर्षों (नाय दशकों) के बावजूद, मैं @ स्कोर्टची के समान एक दृश्य में आया हूं। लेकिन मैं विशेष रूप से StataCorp प्रथाओं से प्रभावित होने वाले शब्द डेटासेट का उपयोग करने की कोशिश करता हूं । यह कुछ कठिनाइयों का हल करता है।
निक कॉक्स

14

जबकि कड़ाई से सांख्यिकीय शब्द नहीं है, मैं एंडोगीनिटी को रिटायर करने के लिए वोट देता हूं । इसका उपयोग उल्टे करण से लेकर चयन और कोलाइडर बायस तक हर चीज को संदर्भित करने के लिए किया जाता है, जब सभी लोग वास्तव में करना चाहते हैं: "उस प्रभाव की पहचान नहीं की जाती है"।


टिप्पणियाँ विस्तारित चर्चा के लिए नहीं हैं; इस वार्तालाप को बातचीत में स्थानांतरित कर दिया गया है ।
ग्लेन_ बी

13

"माध्य के प्रति प्रतिगमन" का अर्थ यह नहीं है कि यदि हमने अपेक्षित मूल्य से कम संख्या में iid नमूने देखे हैं, तो अगले iid नमूने अपेक्षित मूल्य से ऊपर होने की संभावना है।


3
+1 यह महत्वपूर्ण है। उल्लेखनीय लोगों को इससे असाधारण रूप से भ्रमित किया गया है। उदाहरण के लिए, जोखिमों के विश्लेषण पर पीटर बर्नस्टीन की लोकप्रिय पुस्तक, अगेंस्ट द गॉड्स । कई अलग-अलग तरीकों से माध्य के लिए प्रतिगमन को दर्शाता है - उनमें से एक भी सही नहीं है।
व्हिबर

10

प्रतिशत बनाम प्रतिशत अंक : यदि कुछ 1% से 2% तक बढ़ता है, तो यह 100% बढ़ जाता है। या: आप कह सकते हैं कि इसमें 1 प्रतिशत की वृद्धि हुई।

यह कहते हुए कि 1% की वृद्धि बहुत भ्रामक है।


7

मुझे लगता है कि स्पष्ट रूप से संकेत नहीं कर रहे हैं एक वास्तविक समस्या हैं संक्षिप्तीकरण पाते हैं। उदाहरण के लिए, मैं जीएलएम जैसी चीजों को देखता हूं और यह कहीं निर्दिष्ट नहीं है यदि इसका मतलब सामान्य रैखिक मॉडल या सामान्यीकृत रैखिक मॉडल है। एक बार आमतौर पर यह पता लगा सकते हैं कि संदर्भ में खुदाई करने के बाद क्या संदर्भित किया जा रहा है, लेकिन मुझे लगता है कि यह छात्रों के लिए विशेष रूप से परेशानी है, जो केवल सांख्यिकीय मॉडल के बारे में सीखना शुरू करते हैं।

इसका एक और उदाहरण IV है। क्या इसका मतलब वाद्य चर या स्वतंत्र चर है? अक्सर बार जब तक आप संदर्भ की जांच नहीं करते तब तक यह स्पष्ट नहीं किया गया है।

कुछ और जो मैं देख रहा हूँ भ्रम "मध्यस्थ" और "बातचीत" हैं। इसके अलावा, जनसंख्या (सामान्य रूप में जनसंख्या में) और ब्याज की आबादी नए छात्रों को भ्रमित करने लगती है जब तक कि इसे बहुत स्पष्ट नहीं किया जाता है।


5
मैंने यह भी देखा है कि GLM मशीन सीखने की भीड़ में कुछ लोगों द्वारा "ग्लोबल रैखिक मॉडल" का उपयोग करने का मतलब है। बस पहले से ही अतिभारित शब्द पर भ्रम को जोड़ने के लिए
Glen_b

1
मैं आंशिक रूप से इस उत्तर / अवलोकन का समर्थन करता हूं। मुझे लगता है कि "सामान्यीकृत" (जो भी हो) जीजी के लिए बेहतर संक्षिप्त होना चाहिए, जी से नहीं। जैसे कि जीएलएलएम (सामान्यीकृत रैखिक मॉडल)।
ttnphns 8:22 पर

2
@ttnphns: हम में से कुछ लिखने सामान्यीकृत एक साथ रों
हेनरी

मैं जिज्ञासु @ttnphns हूं, इस उत्तर के किस हिस्से का आप समर्थन नहीं करते हैं और क्यों? यह बहुत संभव है कि मुझे किसी चीज़ की गलतफहमी हो, इसलिए यदि आप आगे की पेशकश करने के लिए कुछ भी चाहते हैं, तो मैं और जानना चाहूंगा। धन्यवाद!
स्टेट्सटूडेंट

1
हुह, मुझे लगा कि IV का मतलब इन विट्रो है। = पी
मेहरदाद

7

एक जो रोजमर्रा की भाषा में आम है:

औसत

औसत व्यक्ति के लिए वहाँ (कड़वी विडंबना पूरी तरह से इरादा), मतलब, माध्य, मोड और किसी भी चीज़ का अपेक्षित मूल्य समान प्रतीत होता है। उनके पास एक बिंदु आकलन करने की एक स्वाभाविक प्रवृत्ति है, अचेतन और अनुपलब्ध धारणा के साथ कि एक अंतर्निहित सामान्य वितरण है। और एक बहुत ही छोटे विचरण की समान रूप से बेहोश धारणा। यह विश्वास कि इस तरह के अनुमान 1) मौजूद हैं और 2) उनके लिए बहुत उपयोगी होंगे, क्योंकि वे इसे व्यावहारिक रूप से निश्चित भविष्यवक्ता के रूप में ले सकते हैं, इतना निपुण है, कि अन्यथा उन्हें मना पाना मूल रूप से असंभव है।

एक वास्तविक दुनिया के उदाहरण के लिए, एक रसोइए से बात करने की कोशिश करें, जो पूछ रहा है कि "औसत आकार का आलू क्या है", बिल्कुल निश्चित है कि यदि आप उसे एक नंबर बताते हैं, तो वह किसी भी नुस्खा के लिए इस का उपयोग करने में सक्षम होगा जो एक संख्या को निर्दिष्ट करता है आलू की, और क्या यह हर बार सही निकला है। और उस पर गुस्सा करने के लिए उसे बताने की कोशिश कर रहा है "ऐसी कोई संख्या नहीं है"। अफसोस की बात है, यह सूप बनाने की तुलना में बहुत अधिक दांव वाली स्थितियों में होता है।


3
मुझे लगता है कि यह थोड़ा अतिरंजित है। उदाहरण के लिए, लाखों अगर अरबों लोगों को खेल में औसत से बहुत कम कठिनाई होती है।
निक कॉक्स

1
@ नाइकॉक्स यह निश्चित रूप से संदर्भ पर निर्भर है। विशेष रूप से दिए गए डेटा के लिए एक अंकगणितीय माध्य की गणना अप्रमाणिक है। मैंने विशेष रूप से वर्णित मामलों में परेशानी को देखा है, जहां उन्हें एक बिंदु अनुमान की आवश्यकता है और मान लें कि "औसत" एक बहुत सटीक है। इसके अलावा, वे इस "औसत" को एक अर्थ के रूप में गणना करने के लिए मानते हैं, लेकिन यदि आप उन्हें यह समझाने के लिए कहें कि उनका औसत से क्या मतलब है, तो वे मोटे तौर पर एक मोड का वर्णन करते हैं।
रुमचो

@rumtscho, आप सही कह रहे हैं। जो औसत औसत मोड, या ठेठ होने के रूप में औसत के बारे में सोच सकते हैं।
मार्क एल। स्टोन

जब लोग यूके में "औसत" घर की कीमतों के बारे में बात करते हैं, तो वे मुझे उस प्रकार का औसत नहीं बता सकते हैं जो वे उपयोग कर रहे हैं, या यदि आउटलाइनरों को बाहर रखा गया है।
इयान रिंगरोस

1
ऐसा कुछ भी नहीं है जो कहता है कि मल्टीमॉडल वितरण के लिए गणना नहीं की जा सकती है, यह सिर्फ अक्सर है, यह वितरण का वर्णन करने के लिए सबसे बड़ा उपाय नहीं है। इसके अलावा, मुझे यकीन नहीं है कि यह सभी को बताने के लिए सांख्यिकीविदों की छवि के लिए बहुत अच्छा काम करेगा "आपको नहीं पता कि औसत शब्द का क्या मतलब है!" और फिर जब वे एक शब्दकोश परिभाषा की ओर इशारा करते हैं, तो हम जवाब देते हैं "ठीक है, न ही शब्दकोश!"
क्लिफ एबी

7

कर्टोसिस "शिखरता" को मापता नहीं है।

Z4|Z||Z|

* 3 या घटाना; इससे इस बात पर कोई फर्क नहीं पड़ता।


1
ZZ

1
मेरे पास एक ग्रीक-साइप्रट सांख्यिकी प्रोफेसर था, जिसने हमें पढ़ाया कि लेप्टोकोर्टिक, ग्रीक में, "संकीर्ण-कंधा" या "हंच-समर्थित" है। इस प्रकार, एक लेप्टोकर्टिक वितरण (उदाहरण के लिए, एक लैप्लस या डबल-एक्सपोनेंशियल ) में अपने "कंधे" क्षेत्रों में गॉसियन (समान विचरण) की तुलना में कम द्रव्यमान होता है - और सिर और पूंछ के क्षेत्रों में इसी तरह अधिक द्रव्यमान होता है। इसके विपरीत, एक प्लैटीक्यूरिक वितरण (जैसे, वर्दी) में कंधों में अधिक द्रव्यमान होता है, और सिर और पूंछ के क्षेत्रों में सामान्य से कम द्रव्यमान होता है।
मिको

2
शब्दों की अच्छी व्याख्या, लेकिन वास्तव में उनका कर्टोसिस आँकड़ा से कोई लेना-देना नहीं है जो पियर्सन ने विकसित किया था। पियर्सन ने इसे गलत बताया था, लेकिन उन फैंसी-साउंडिंग ग्रीक शब्दों का उपयोग करके उन्होंने दूसरों को लगता था कि वह कुछ गहरा है। उनकी त्रुटि ने दुखद रूप से 100 वर्षों से सांख्यिकी शिक्षा और साक्षरता को नुकसान पहुंचाया है। नुकीले ("लेप्टो") वितरण के लिए मेरा पेपर देखें जहां कुर्तोसिस छोटा है, और फ्लैट-टॉपेड ("पठारी") वितरण है जहां कुर्तोसिस अनंत के पास है। पियर्सन का कुर्तोसिस आपको "लेप्टो" या "प्लैटी" के बारे में कुछ नहीं बताता है। ncbi.nlm.nih.gov/pmc/articles/PMC4321753
पीटर वेस्टफॉल

5

रैखिक का मतलब है:

  • y=a+bxy=a+bx+cx2y=axb

  • अनुमानित किए जा रहे मापदंडों में रैखिक। प्रतिगमन मॉडल (लीनियर, लॉजिस्टिक, जीएलएम, आदि) के रूप में स्केलर मापदंडों और स्वतंत्र चर के उत्पादों की एक संख्या पर जोर देता है । इस संबंध में nonlinear का अर्थ है जैसी चीजेंy=ea+bx1+ea+bxy=a+bx+xmax(xθ,0)

  • yt=a+byt1+cxytyt1=a+b(yt1xtx)+c(xtxt1)+dxt1

yxa,b,c,dθ


5

प्रश्न सांख्यिकीय शब्दों के उपयोग के बारे में था जिन्हें हमें सही करने के लिए ध्यान देना चाहिए। मैं अपने सहस्राब्दी के बच्चों के 'यादृच्छिक' शब्द का उपयोग करने के लिए उन चीजों को सही कर रहा हूं जो 10 साल से यादृच्छिक के विपरीत हैं। यह देखते हुए कि मेरे कितने प्रशिक्षु एक यादृच्छिक डेटा नमूने का उत्पादन करने के लिए संघर्ष करते हैं, जो वास्तव में यादृच्छिक है, जो कि इस शब्द के उपयोग से पहले भी हुआ था, रोज़मर्रा की कठबोली में इस शब्द का आक्षेप एक संकट है।

OnlineSlangDictionary से:

Definition of random


random

adjective
  • अप्रत्याशित और आश्चर्यजनक।
    All of the sudden this guy jumped out from behind the bushes, it was so random!
    The street cleaner never comes down our street. How random.
    
  • अप्रत्याशित रूप से महान।
    The party was totally random.
    

4

ग्लेन और निक द्वारा उल्लिखित कई महान उदाहरण पहले से ही हैं ... बहुत ज्यादा नहीं बचा है!

प्रतिगमन के कुछ पहलू

  • त्रुटि अवधि और अवशिष्ट (यह कुछ अजीब है जब लोगों को गर्व होता है कि उनके अवशेष अवशिष्टों के साथ असंबंधित हैं)

  • भविष्यवाणी और अनुमान (क्या हमें भी अनुमान लगाना बंद कर देना चाहिए जब वे अनुमानित यादृच्छिक प्रभावों के बारे में हैं?)

  • भविष्यवाणी / पूर्वानुमान अंतराल बनाम विश्वास अंतराल। मुझे लगता है कि गलत को उद्धृत करने की संभावना> 0.5 है।

  • प्रतिगामी (डिजाइन मैट्रिक्स में स्तंभ) बनाम सहनीय एट अल। विशेष रूप से तकनीकी स्थितियों में जहां भेद आवश्यक है, बहुत से लोग (स्वयं सहित) अप्रतिबंधित होते हैं।


क्षमा करें, मैं भ्रमित हूँ। क्या भविष्यवाणी और अनुमान के बीच अंतर है? क्या आप अपने अंतिम दो बिंदुओं पर और अधिक व्याख्या कर सकते हैं? धन्यवाद!
युकेयन

3

विशेष रूप से बीमा परिवेशों में, प्रत्येक डेटा बिंदु और डेटा सेट के बीच के अंतर के माध्यम के बजाय किसी भी प्रकार के अंतर को संदर्भित करने के लिए विचरण का उपयोग करना आम है ।


6
मैं भी इस भिन्न अर्थ में प्रयुक्त विचरण से मिला हूं, लेकिन ध्यान दें कि विचरण एक मौजूदा अंग्रेजी शब्द था जब आरए फिशर ने इसे 1918 में इस उद्देश्य के लिए अपहृत किया था। इसलिए यह एक अलग प्रयोग है; सांख्यिकीय लोग सही अर्थ के स्वामित्व का दावा नहीं कर सकते।
निक कॉक्स

3

बायेसियन

इसे सीखने वाले छात्रों को आपको यह बताने में परेशानी नहीं हो सकती है कि क्या कुछ "बायेसियन" दिखता है, लेकिन उन्हें बार-बार आने वाले और बायेसियन दृष्टिकोण के साथ एक समस्या को हल करने के लिए कहें और वे शायद विफल हो जाएंगे।

मेरे अनुभव में छात्रों को पढ़ाया जा रहा है कि यह सिर्फ एक दार्शनिक अंतर है, कोई ठोस उदाहरण नहीं है जो दिखाता है कि दोनों दृष्टिकोणों के साथ एक ही समस्या पर हमला किया जा रहा है।

अब उनसे पूछें कि कोई उनके उदाहरण में बार-बार क्यों आ सकता है; संभावना है कि उनका सबसे अच्छा स्पष्टीकरण कुछ इस तरह होगा "ठीक है, पुराने दिनों में वापस, कंप्यूटर मौजूद नहीं थे ..."


क्या आप अपना स्पष्टीकरण साझा कर सकते हैं कि कोई व्यक्ति लगातार दृष्टिकोण क्यों ले सकता है? धन्यवाद!
युकेयन

4
@#qian: हाँ। मेरे लिए, महत्वपूर्ण हिस्सा यह है कि आप ऐसा तब करते हैं जब आप चाहते हैं कि लोग आपके साथ सहमति व्यक्त करें। बायेसियन दृष्टिकोणों को पूर्व वितरण की आवश्यकता होती है, जो स्वाभाविक रूप से व्यक्तिपरक हैं, और वास्तविक दुनिया की समस्याओं में एक भी उद्देश्यपूर्ण-सही पूर्व नहीं है ... जिसका अर्थ है कि दो लोग एक ही समस्या के लिए अलग-अलग उत्तरों की गणना कर सकते हैं, जो इस बात पर निर्भर करता है कि उन्हें क्या करना चाहिए। एक लगातार दृष्टिकोण के साथ, ऐसी कोई अस्पष्टता नहीं है, और यह एक उद्देश्य तरीके से दूसरों के साथ अपने परिणामों की तुलना करना संभव बनाता है।
मेहरदाद

2

जोखिम

जोखिम का मतलब संभावना नहीं है

जोखिम सभी परिणामों की लागतों का योग है, इनमें से प्रत्येक की लागत उनके होने की संभावना से कई गुना अधिक है।

जोखिम आमतौर पर इनाम के मुकाबले तौला जाता है जो कि वह लाभ है जिसे हम हासिल करना चाहते हैं।

यहाँ एक उदाहरण है: हाउ डेडली इज़ योर किलोवाट । यहां जोखिम - ऊर्जा के विभिन्न स्रोतों के लिए मृत लोगों की संख्या - इनाम के खिलाफ तौला जाता है - ऊर्जा के इन स्रोतों द्वारा उत्पादित ऊर्जा के टेरावाट घंटे।

उदाहरण के लिए: परमाणु ऊर्जा का खतरा इस बात की संभावना नहीं है कि मंदी का दौर होगा; यह संभावना है कि एक मंदी क्या होगा, लोगों को है कि यह से मर जाते हैं, की संख्या से गुणा है के साथ अभिव्यक्त किया लोगों की है कि संभावना है कि संचालन सामान्य रह से गुणा सामान्य कार्यों से मरने की संख्या के साथ।


4
"जोखिम" में सार्वभौमिक रूप से स्वीकृत मानक परिभाषा नहीं है। लेकिन, सभी परिणामों के "लागत [नुकसान] का योग, इनमें से प्रत्येक की लागत [नुकसान] उनके होने की संभावना से गुणा" अपेक्षित लागत [हानि] की परिभाषा है। दूसरी ओर, जोखिम, आमतौर पर अपेक्षित नुकसान से (प्रतिकूल) विचलन को संदर्भित करता है। तो, आपकी परिभाषा उम्मीद है, जबकि मुझे लगता है कि फैलाव के साथ जोखिम से निपटने की सामान्य परिभाषा है।
ए। वेब

उदाहरण के लिए, जब हम बीमा खरीदते हैं, तो इसका उद्देश्य जोखिम को कम करना (असंभावित घटनाओं के प्रभाव को कम करना) होता है, लेकिन बीमाधारक के लिए वास्तविक अपेक्षित लागत अधिक होती है, अंतर बीमाकर्ता के खर्च और मुनाफे का होता है। प्रीमियम की अधिक स्थिर लागत के लिए पूंछ में अत्यधिक नुकसान का कारोबार किया गया है।
ए। वेब

3
@ A.Webb FWIW, (इंटरनेशनल) सोसाइटी फॉर रिस्क एनालिसिस जोखिम को परिभाषित करता है "मानव जीवन, स्वास्थ्य, संपत्ति या पर्यावरण के लिए अवांछित, प्रतिकूल परिणामों की प्राप्ति की संभावना, जोखिम का आकलन आमतौर पर अपेक्षित मूल्य पर आधारित होता है; इस घटना के परिणाम की संभावित संभावना उस घटना के परिणाम को बताती है जो यह घटित हुई है। " इस प्रकार जोखिम की एक मानक परिभाषा है - और यह दर्शाता है कि आप जोखिम को भेद करने के लिए सही हैं कि इसका अनुमान या माप कैसे किया जा सकता है।
व्हिबर

1
P(A)/t

2

निश्चित प्रभाव और यादृच्छिक प्रभाव अलग-अलग लोगों के लिए अलग-अलग चीजों का मतलब हो सकता है। अर्थमिति में नियत प्रभाव वास्तव में यादृच्छिक होते हैं और जब आप इसके बारे में सोचते हैं कि आँकड़ों में प्रत्येक प्रभाव यादृच्छिक होता है तो कुछ का नामकरण कुछ भी अतिरिक्त अतिरिक्त जानकारी नहीं देता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.