अधिकांश भ्रामक सांख्यिकीय शब्द


47

हम सांख्यिकीविद कई शब्दों का उपयोग उन तरीकों से करते हैं, जो हर किसी के उपयोग करने के तरीके से थोड़े अलग हैं। जब हम सिखाते हैं या समझाते हैं तो यह बहुत समस्याएँ पैदा करता है। मैं एक सूची शुरू करूँगा (और अब मैं कुछ परिभाषाएँ जोड़ूंगा, प्रति टिप्पणी):

  • शक्ति एक झूठे अशक्त परिकल्पना को सही ढंग से अस्वीकार करने की क्षमता है। आमतौर पर, इसका मतलब सही ढंग से "कुछ हो रहा है" है।
  • पूर्वाग्रह - एक आँकड़ा पक्षपाती है यदि यह व्यवस्थित रूप से इससे जुड़े जनसंख्या पैरामीटर से अलग है।
  • महत्व - परिणाम निम्नलिखित स्थिति में कुछ प्रतिशत (अक्सर 5%) पर सांख्यिकीय रूप से महत्वपूर्ण होते हैं: यदि जनसंख्या जिस नमूने से आती है, उस पर 0 का सही प्रभाव पड़ता है, तो कम से कम एक सांख्यिकीय के रूप में चरम के रूप में नमूना से केवल प्राप्त होगा। समय का 5%।
  • इंटरैक्शन - दो स्वतंत्र चर बातचीत करते हैं यदि आश्रित चर और एक स्वतंत्र चर के बीच का संबंध अन्य स्वतंत्र चर के विभिन्न स्तरों पर अलग होता है

लेकिन वहाँ कई अन्य होना चाहिए!


5
मेरा सुझाव है कि लोग अपने जवाबों के साथ कुछ और संदर्भ भी जोड़ेंगे। उदाहरण अलग-अलग क्षेत्रों (निश्चित प्रभाव जेलमैन, 2005 ) या अलग संदर्भों में अलग-अलग अर्थों (महत्व बनाम सांख्यिकीय महत्व बुशवे एट अल।, 2006 ) के लिए अलग-अलग अर्थों में उपयोग किए जाने वाले एक ही शब्द हो सकते हैं ।
एंडी डब्ल्यू

5
यह अच्छा होगा यदि उत्तरदाता एक या दो वाक्यों में समझा सके कि "तकनीकी" शब्द का वास्तव में क्या मतलब है, या इसका क्या अर्थ हो सकता है कि इसका अलग अर्थ हो।
chl

मैं अपना जवाब बाद में आपकी टिप्पणियों के अनुसार पूरा कर लूंगा ;-)
समुद्रम

1
... और "सहसंबंध"!
स्टीफन लॉरेंट

1
"सैंपल" के लिए, कॉमेंट्स को नीचे देख सकते हैं
whuber

जवाबों:


21

"महत्वपूर्ण" सबसे बड़ा एक है जिसे मैं चला रहा हूं, क्योंकि इसमें एक सामान्य अंग्रेजी-उपयोग दोनों अर्थ है और यह अर्थ अनुसंधान परिणामों की चर्चा में फसल देगा। मैं अपने आप को "महत्वपूर्ण" में मिश्रण करने के लिए उसी वाक्य में महत्वपूर्ण पाता हूं जहां मैंने सांख्यिकीय परिणामों के बारे में बात की है।

वह तरीका पागलपन है।


सही है, लेकिन इसके लिए कोई बेहतर शब्द नहीं है "मैं बहुत लानत है यकीन है कि यह महत्वपूर्ण है, लेकिन मैंने इस पर कोई परीक्षण नहीं किया है, और नहीं, क्योंकि यह स्पष्ट है / नहीं किया जा सकता / जो भी हो"
n

17

मैं सूची में रैखिक जोड़ने का सुझाव दूंगा।

YXYY^=aX+babE[(YaXb)2]

"मैं आपकी भाषा के साथ कुछ असहज हूं, क्योंकि मुझे डर है कि" रैखिक "शब्द का उपयोग करने का यह तरीका लोकप्रिय गलतफहमी में खिल सकता है, यही कारण है कि रेखीय प्रतिगमन को रैखिक प्रतिगमन कहा जाता है, जो कि एक पंक्ति को फिट कर रहा है। जो लोग सोचते हैं कि तब यह भ्रामक लगता है जब एक सांख्यिकीविद् जोर देकर कहते हैं कि एक रैखिक प्रतिगमन कर रहा है जब कोई एक पैराबोला या एक साइन लहर, आदि फिट बैठता है।

तो, क्या करता है एक सांख्यिकीविद् के लिए रेखीय प्रतीपगमन मतलब?


5
इस उत्तर के संदर्भ में साइट पर संबंधित प्रश्न, रैखिक प्रतिगमन में रैखिक क्या है?
एंडी डब्ल्यू

1
@AndyW तो क्या आप कहेंगे कि लिन इस सूची में हैं कि पीटर फ्लॉम शुरू हुआ या नहीं?
दिलीप सरवटे

1
हाँ, मैं मानता हूँ कि यह इस सूची के लिए बिल फिट बैठता है। (+1)
एंडी डब्ल्यू

4
यह सूची में फिट बैठता है, लेकिन एक असामान्य कारण के लिए: "रैखिक" शब्द का अर्थ अच्छी तरह से स्थापित है और कई गणितीय रूप से उन्मुख क्षेत्रों में लगातार उपयोग किया जाता है। संभावित भ्रम की चिंताएं सूत्र का कौन सा हिस्सा रैखिक है।
whuber

क्या आप एक उदाहरण दे सकते हैं कि आप कैसे एक पैराबोला फिट करते हैं और फिर भी इसे एक रैखिक मॉडल कहते हैं?
oneloop

14

संभावना

यह मुझे प्रतीत होता है कि प्रक्रिया की निरंतरता पर आधारित होने पर "संभावना" की एक बायेसियन परिभाषा के आवेदन से हाइपोथिसिस परीक्षण और आत्मविश्वास अंतराल की व्याख्या करने से जुड़ी अधिकांश समस्याएं होती हैं। उदाहरण के लिए, पी-वैल्यू होने की संभावना शून्य परिकल्पना सच है, जब AFAICS कोई प्रायिकता किसी सेटिंग में किसी विशेष परिकल्पना की सच्चाई से जुड़ी हो सकती है।


4
ऐसा लगता है कि समान विचार उन लोगों के लिए लागू होगा जो यह कहने के लिए उपयोग किए जाते हैं कि (सच्चे) पैरामीटर में xx और xx के बीच झूठ बोलने की 95% संभावना है, जब आत्मविश्वास अंतराल की व्याख्या / व्याख्या करते हैं।
15:12

1
हाँ बिल्कुल!
डिक्रान मार्सुपियल

1
+1 हालांकि मैं आपके अंतिम वाक्य को थोड़ा अलग तरीके से लिखूंगा। लगातार संभावना के भीतर कि शून्य परिकल्पना सच है या तो 1 या 0 है, लेकिन आपको पता नहीं है कि कौन है । (सख्ती से कहें तो यह बिलकुल सही नहीं है, क्योंकि 'प्रायिकता' लंबे समय तक चलने वाली सापेक्ष आवृत्ति है और 'लंबे समय तक चलने वाली आवृत्ति' वास्तव में लागू नहीं होती है। फिर भी, जब इस तरह से लोगों को समझा जाता है कि लोग समझ सकते हैं कि क्या कहा जा रहा है / हम कैसे समझते हैं? । स्थिति हम में हैं उदाहरण के लिए, लोगों को लगता है कि आप संभावना है कि शून्य परिकल्पना सच है के रूप में शून्य परिकल्पना पी-मूल्य का उपयोग नहीं कर सकते हैं)।
फिर से बहाल करते मोनिका - गुंग

2
"क्योंकि 'संभावना' एक लंबे समय तक चलने वाली सापेक्षिक आवृत्ति है" बहुत सारे
संभावनावादी

14

"विश्वास"

गैर-सांख्यिकीविदों को यह बताना बहुत मुश्किल है कि उनका विश्वास अंतराल अलग-अलग पैरामीटर मानों की विश्वसनीयता के बारे में एक बयान (सीधे) नहीं है ।

आत्मविश्वास के लिए, शब्द के तकनीकी अर्थ में, हमें दोहराया प्रयोगों के कुछ सेट की कल्पना करने की आवश्यकता है, प्रत्येक एक कुछ पूर्व-निर्दिष्ट तरीके से अंतराल की गणना करता है। 95% विश्वास अंतराल होने के लिए, सूत्र के इन उपयोगों का 95% ब्याज के प्रासंगिक पैरामीटर को फंसा देगा।

ab

(जब दो धारणाएँ सहमत होती हैं, तो लगभग या बिलकुल अलग-अलग स्थितियाँ होती हैं। लेकिन आम तौर पर वे ऐसा नहीं करते हैं, और संख्यात्मक समझौते तकनीकी शब्दों के दुरुपयोग की समस्या को दूर नहीं करते हैं।)


10

"संभावना" - यह रोज़मर्रा के भाषण में "संभावना" का पर्याय है, लेकिन आंकड़ों में इसका एक विशेष अर्थ है: यह एक सांख्यिकीय मॉडल के मापदंडों का एक कार्य है, जिसका मान मानने वाले परिणामों को मानने की संभावना है। पैरामीटर मान के बराबर हैं।


8

त्रुटि।

आंकड़ों में, एक "त्रुटि" एक मॉडल की भविष्यवाणी से वास्तविक डेटा मूल्य का विचलन है।

वास्तविक जीवन में, एक त्रुटि स्पेलिंग मैस्टेक या अन्य नासमझ है।


क्या संचार माध्यम के वास्तविक (अभीष्ट) मूल्य से वर्तनी की गलती नहीं है? मैं वास्तव में नहीं देखता कि यह एक अलग शब्द कैसे है, यह सिर्फ इतना है कि इसका उपयोग एक अलग (लेकिन परस्पर विरोधी नहीं) संदर्भ में किया जाता है। मुझे यह विश्वास करना कठिन लगता है कि यह सब उस क्षेत्र के लिए किसी नए को भ्रमित करने वाला होगा।
n

2
एक मूल्य एक भविष्यवाणी से अलग क्यों हो सकता है इसका एक कारण यह है कि प्रयोगकर्ता गड़बड़ कर देता है। यह एक वर्तनी की गलती की तरह है। लेकिन आपका लिंग आपके लिंग और उम्र के सभी लोगों के औसत वजन से अलग क्यों है? आपकी आय औसत आय से अलग क्यों है? आंकड़ों में, इस माध्य से विचलन एक "त्रुटि" है, लेकिन यह एक गलती नहीं है, बस भिन्नता है।
हार्वे मोटुलस्की

सच है, लेकिन यह निर्भर करता है कि आप इसे कैसे देखते हैं, मुझे लगता है। यदि आप एक प्राथमिक विद्यालय के नमूने पर एक शब्द की वर्तनी को देखते हैं, तो आप भिन्नता प्राप्त करने जा रहे हैं, मनुष्यों के कारण, हाँ, लेकिन न ही प्रयोग करने वाले के कारण। आप विभिन्न युगों से अंग्रेजी में लिखने पर एक ही चीज को देख सकते हैं। मुझे लगता है कि आप पाएंगे कि शुरुआती अंग्रेजी में बहुत अधिक परिवर्तनशीलता थी :)
n

@ हर्वेमोतुलस्की: विश्लेषणात्मक रसायन विज्ञान दोनों तरीकों से त्रुटि का उपयोग करता है। हम व्यवस्थित त्रुटि, यादृच्छिक त्रुटि और स्थूल त्रुटियों की बात करते हैं। पाठ्यपुस्तक: "सकल त्रुटियों से बचा जा सकता है"।
cbeleites मोनिका का

8

"निष्कर्ष"

βb

अनुमान के बारे में एक और महत्वपूर्ण हिस्सा केंद्रीय सीमा प्रमेय है। एक बार जब आपको एहसास हो जाता है कि आप बस आबादी से नमूना ले रहे हैं - हालांकि नमूना एक और जटिल विशेषता है, जो कि अनुमान के समान है - तो आप समझते हैं कि भले ही नमूना का अर्थ एक मूल्य रखता हो, लेकिन यह आवश्यक नहीं है कि जनसंख्या में भी इसका मतलब है। ।

शायद मैंने आपके प्रश्न की अपेक्षाकृत ढीली समझ ली थी, लेकिन एक बार जब कोई एक नमूना या आबादी के बीच अंतर या अंतर्ज्ञान को समझ लेता है, तो आंकड़ों की संपूर्णता उनके लिए खुल जाती है।


7

हमारे लिए (या कम से कम मुझे), एक "नमूना" की "यादृच्छिकता" से पता चलता है कि यह "आबादी" का प्रतिनिधि है।

दूसरों के लिए, "यादृच्छिकता" कभी-कभी इसका अर्थ है कि एक व्यक्ति / चीज असामान्य है।


1
मैं "यादृच्छिकता" पर उस भ्रम में नहीं चला। लेकिन अगर आपके पास है, तो स्पष्ट रूप से मौजूद है।
पीटर Flom - को पुनः स्थापित मोनिका

3
अधिक सटीक रूप से, यह अस्तित्व में है कि
थॉमस लेविन

1
"यादृच्छिक" का बाद का उपयोग मुझे हाल ही में बहुत अच्छा लगता है। मुझे यह उस कारण के लिए थोड़ा कष्टप्रद लगता है (सिर्फ लोगों को समझने के लिए आँकड़े कठिन बनाता है)। यह और अधिक कष्टप्रद है जब मैं खुद को उस अर्थ में इसका उपयोग करते हुए सुनता हूं ..
n

5

मुझे लगता है कि किसी को जनता को भ्रमित करने वाले शब्दों और सांख्यिकीविदों को भ्रमित करने वाले शब्दों के बीच अंतर करना चाहिए। उपर्युक्त सुझाव, ज्यादातर शब्दों को अच्छी तरह से सांख्यिकीविदों द्वारा समझा जाता है और (संभवतः) जनता द्वारा गलत समझा गया है। मैं सूची में कुछ शब्दों को जोड़ना चाहता हूं जो सांख्यिकीविदों द्वारा समझे गए हैं:

  • बायेसियन: मूल रूप से जिसे अब व्यक्तिपरक बेयस (उर्फ एपिस्टेमिक, डी-फिनेटी) के रूप में जाना जाता है। आज इस शब्द का उपयोग कभी भी किया जाएगा, बेयस नियम दिखाता है, शायद ही कभी व्यक्तिपरक मान्यताओं के संदर्भ में, जिसे निर्णय-सिद्धांत माना जाता है।
  • अनुभवजन्य बेस: मूल रूप से एक गैर पैरामीट्रिक से पहले एक निरंतरवादी सेटअप का जिक्र । आज, आमतौर पर इसका मतलब होगा कि पैरामीट्रिक (उद्देश्य) के मापदंडों का अनुमान लगाया जाता है और पूर्व-प्राथमिकताओं को नहीं जाना जाता है। यानी, जिसे कभी टाइप -2 अधिकतम संभावना के रूप में जाना जाता था।
  • गैर पैरामीट्रिक: कभी-कभी "मॉडल मुक्त" को संदर्भित करता है। कभी-कभी "वितरण मुक्त" करने के लिए। "पैरामीट्रिक" मॉडल में लाखों मापदंडों को शामिल करने वाले दिनों में व्यावहारिक रूप से एकरूप नहीं हो सकता है।
  • टाइप III एरर: कभी-कभी साइन एरर का जिक्र होता है। कभी-कभी मॉडल के एक गलत निर्धारण का जिक्र होता है।

जब मैंने पूछा, मैं इरादा "आम जनता के लिए भ्रामक शब्द" लेकिन निश्चित रूप से सांख्यिकीविदों को भ्रमित शर्तें भी लायक सूची रहे हैं
फिर से बहाल करते मोनिका - पीटर Flom

इसे संभवतः अलग-अलग उत्तरों में विभाजित किया जाना चाहिए।
n

4

पारिस्थितिक, आमतौर पर जैविक प्रणालियों को संदर्भित करने के लिए उपयोग किया जाता है, लेकिन यह भी सांख्यिकीय गिरावट है। विकिपीडिया से:

पारिस्थितिक अध्ययन में सांख्यिकीय आंकड़ों की व्याख्या में एक पारिस्थितिक गिरावट (या पारिस्थितिक इंजेक्शन गिरावट) एक त्रुटि है, जिसके तहत विशिष्ट व्यक्तियों की प्रकृति के बारे में अनुमान पूरी तरह से समूह के लिए एकत्र किए गए आँकड़ों पर आधारित होते हैं जिनसे उन व्यक्तियों का संबंध है। यह गिरावट मानती है कि समूह के अलग-अलग सदस्यों के पास समूह की औसत विशेषताएँ हैं।


3

एक "सर्वेक्षण" एक प्रकार का गणित ("सर्वेक्षण नमूनाकरण") या कागज का एक टुकड़ा ("प्रश्नावली") है?

मैंने इस पर एक सर्वेक्षण नहीं किया है, लेकिन मुझे संदेह है कि अधिकांश जनता "सर्वेक्षण" को उत्तरार्द्ध मानती है। मुझे आगे संदेह है कि वे पूर्व के बारे में नहीं सोचते हैं।


2
क्या सर्वेक्षणकर्ताओं द्वारा सर्वेक्षण नहीं किया गया है? ;)
zbicyclist

3

"लोडिंग", "गुणांक" और "भार"; जब प्रधान घटक विश्लेषण के बारे में बात कर रहे हैं।

मैं आमतौर पर लोगों का उपयोग करते समय काफी तदर्थ पाया जाता हूं, उन्हें बिना किसी अंतर के स्थान पर नियोजित करते हुए पहली बार स्पष्ट रूप से परिभाषित करते हैं कि उनका क्या मतलब है और मैं वास्तव में उन कागजों के बारे में आया हूं जो "लोडिंग वैक्टर" का उल्लेख करते हैं और कभी-कभी पीसी का मतलब खुद और अन्य बार "वेट" करते हैं। एक विशिष्ट पीसी के साथ जुड़ा हुआ है।

संभवतः तथ्य यह है कि प्रिंसिपल कंपोनेंट्स पर जोलीफी का उत्कृष्ट संदर्भ धारा 1.1 के अंत में कहा गया है "कुछ लेखक 'लोडिंग' और 'गुणांक,' के बीच अंतर करते हैं, जो कि उपयोग किए जाने वाले सामान्यीकरण के आधार पर होता है, लेकिन उनका उपयोग इस पुस्तक में परस्पर रूप से किया जाएगा।" सिर्फ लोगों को लगता है कि उनके पास अपनी पसंद के हिसाब से शब्दावली को मिलाने और मेल करने के लिए एक मुफ्त पास है ...।


1

योजक मॉडल। अभी भी वास्तव में यकीन नहीं है कि इसका क्या मतलब है। मुझे लगता है कि यह बातचीत के संदर्भ के बिना एक मॉडल को संदर्भित करता है। लेकिन फिर मैं एक लेख भर में आऊँगा जहाँ वे इसका उपयोग किसी और चीज़ के लिए, यानी एक तख़्ता मॉडल के लिए कर रहे हैं।


0

मुझे सबसे अधिक भ्रमित करने वाली शर्तों में से एक "भ्रम मैट्रिक्स" है। बेशक, इस शब्द का उपयोग ही भ्रामक है, अवधारणा नहीं।

मैंने शब्द के इतिहास को ट्रैक करने की कोशिश की और यह काफी दिलचस्प भी है। भ्रम मैट्रिक्स का आविष्कार 1904 ( http://en.wikipedia.org/wiki/Karl_Pearson ) द्वारा किया गया था । उन्होंने http://en.wikipedia.org/wiki/Contingency_table शब्द का इस्तेमाल किया । यह कार्ल पियर्सन, FRS (1904) में दिखाई दिया। विकासवाद के सिद्धांत में गणितीय योगदान (पीडीएफ)। दुलौ एंड कंपनी http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf

वार वर्ल्ड 2 के दौरान, h ttps: //en.wikipedia.org/wiki/Detection_theory को उत्तेजना और प्रतिक्रिया के बीच संबंधों की जांच के रूप में विकसित किया गया था। भ्रम की मैट्रिक्स वहाँ इस्तेमाल किया गया था।

डिटेक्शन थ्योरी के कारण, इस शब्द का इस्तेमाल एक मनोविज्ञान के रूप में किया गया था। वहां से यह शब्द मशीन लर्निंग तक पहुंच गया।

ऐसा लगता है कि हालांकि यह अवधारणा आँकड़ों में ईजाद की गई थी, जो कि मशीन लर्निंग से संबंधित है, यह 100 वर्षों की अवधि के दौरान मशीन सीखने के बाद पहुंची।

शब्द के उपयोग के कुछ संदर्भों के लिए देखें: शब्द भ्रम मैट्रिक्स की उत्पत्ति क्या है?


-4

"आंकड़े"

आम जनता के लिए, एक विकल्प है, "अब मैं आपके बारे में झूठ बोल रहा हूं और ऐसे तरीके से बोल रहा हूं, जिसे आप नहीं समझते हैं।"

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.