औसत मूल्य विरोधाभास - इसे क्या कहा जाता है?


22

मेरे पास एक डेटासेट है। टिप्पणियों और चर कहो :103

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

कहें कि ग्राहक हैं जिन्होंने प्रत्येक श्रेणी में (या नहीं) खरीदा है । वहाँ लोग हैं तो ये 10 ग्राहक औसतन 1.6 उत्पाद श्रेणियों में खरीदते हैं ।1010A, B, C16101.6

नोट ग्राहक A, B और C में से एक से अधिक में खरीद सकते हैं।

अगर मैं केवल खरीदने वालों को देखता हूं A, तो 5 ग्राहक हैं जिन्होंने 9 उत्पाद श्रेणियों में खरीदा है , इसलिए यह औसतन 1.8 है।

Bहै 9/5 फिर से, या 1.8

Cहै 10/6=1.67.

ये सभी 1.6 से ऊपर हैं 1.6.

जो अजीब लगता है। मैं इसे समझता हूं लेकिन अगले सप्ताह विपणन के लिए इसे समझाने की जरूरत है और इसलिए मदद की जरूरत है!

इस चीज को क्या कहा जाता है?

मुझे पता है कि यह सिम्पसन का विरोधाभास नहीं है। मेरे लिए यह मोंटी हॉल समस्या और सशर्त संभाव्यता के तर्क में समान है।


2
व्यक्तिगत रूप से, मुझे नहीं पता कि आप किस बारे में बात कर रहे हैं। क्रॉस-खरीद पैटर्न की जांच करने के लिए As, Bs और Cs की आकस्मिक तालिका क्यों नहीं बनाई गई?
माइक हंटर

3
हमारे पास ऐसी रिपोर्टें हैं जो कहती हैं कि "C खरीदने वाले ग्राहक औसत से अधिक मूल्य के हैं - 1.67 बनाम 1.6" जो कि सही है, लेकिन A और B औसत से भी अधिक मूल्य के हैं। जिसके लिए अपरिहार्य प्रश्न उठेगा "सभी ग्राहक औसत से अधिक मूल्य के कैसे हो सकते हैं"?
जेम्स एडम्स

3
मुझे लगता है कि उनकी पहेली यह है कि यह सतही रूप से लेक वोबगन की तरह दिखता है जहां हर कोई औसत से ऊपर है: पी लेट एक ग्राहक द्वारा खरीदी गई श्रेणियों / आइटम की संख्या हो। चलो , , और श्रेणी में ए, बी, और सी क्रमशः क्रय के लिए संकेतक हो। बी सी [ एक्स | एक ] = 1.8 [ एक्स | बी ] = 1.8 [ एक्स | सी ] = 1.67 [ एक्स ] = 1.6XABCE[XA]=1.8 , , और जबकिE[XB]=1.8E[XC]=1.67E[X]=1.6
मैथ्यू गन

12
आप पूरक सेट और वेन आरेख के संदर्भ में सोचना चाह सकते हैं । सेट "ग्राहक जो ए खरीदते हैं" और " ए नहीं खरीदने वाले ग्राहक " गैर-अतिव्यापी हैं। लेकिन आप अपने प्रश्न में जो सेट करते हैं, वह ओवरलैप होता है। आप के रूप में कुल औसत गणना कर सकता है एक (भारित) सबसेट औसत की औसत केवल यदि सबसेट एक फार्म विभाजन
GeoMatt22

4
क्या यह शिथिल है बहुसंख्यक-भ्रम विरोधाभास के ? इसी तरह से किसी भी व्यक्ति को सुपर नेटवर्क से जुड़े होने की संभावना है, किसी भी खरीद श्रेणी में सुपर खरीदार होने की संभावना है? (मैं एक सुपर नेटवर्कर को फोन कर रहा हूं, जो कई लोगों से जुड़ता है और एक सुपर क्रेता है जो कई अलग-अलग वस्तुओं की खरीद करता है)
मैथ्यू गन

जवाबों:


28

की औसत हर उपश्रेणी समग्र औसत से ऊपर हो सकता है यदि उपश्रेणियाँ बड़े ग्राहकों पर ओवरलैप।

अंतर्ज्ञान प्राप्त करने के लिए सरल उदाहरण:

  • आज्ञा देना संकेतक है कि क्या किसी व्यक्ति ने श्रेणी ए में एक आइटम खरीदा है।A
  • चलो एक संकेतक है कि क्या किसी व्यक्ति ने श्रेणी बी में एक आइटम खरीदा है।B
  • चलो खरीदी गई वस्तुओं की संख्या हो।X=A+B

PersonABi10ii01iii11

व्यक्तियों का समूह जहाँ सत्य है, उन व्यक्तियों के समुच्चय का बोध कराता है जहाँ B सत्य है। वेसेट से असहमतनहींहैं।AB

फिर जबकि [ एक्स | एक ] = 1.5 और [ एक्स | बी ] = 1.5E[X]1.33E[XA]=1.5E[XB]=1.5

यह कथन सत्य होगा:

P(A)E[XA]+P(B)E[XB]P(AB)E[XAB]=E[X]

231.5+231.5132=1.3333

आप कर सकते हैं नहीं बस गणना क्योंकि सेट एक और बी ओवरलैप, अभिव्यक्ति डबल गिना जाता है जो व्यक्ति दोनों आइटम खरीद एक और बी !P(A)E[XA]+P(B)E[XB]ABAB

भ्रम / विरोधाभास का नाम?

मेरा तर्क है कि यह सामाजिक नेटवर्क में बहुसंख्यक भ्रम विरोधाभास से संबंधित है।

आपके पास एक एकल दोस्त हो सकता है जो सभी को नेटवर्क / मित्र बनाता है। वह व्यक्ति कुल मिलाकर दस लाख में से एक हो सकता है, लेकिन वह प्रत्येक व्यक्ति में से एक होगा मित्र।k

इसी प्रकार, आपके पास यहां 3 में से 1 है, दोनों श्रेणियों ए और बी को खरीद रहा है लेकिन या तो श्रेणी ए या बी के भीतर, 2 खरीदारों में से 1 सुपर खरीदार है।

चरम परिस्थिति में:

चलो लोट्टो टिकट के सेट बनाते हैं। हर सेट S i में दो टिकट शामिल हैं: एक खोने वाला टिकट inSii और जैकपॉट जीतने टिकट।

हर सेट में औसत जीत तो है जम्मूSi जेजहांजैकपॉट है। प्रत्येक श्रेणी की औसत हैरास्ताप्रति टिकट समग्र औसत जीत से ऊपरजम्मूJ2JJn+1

यह बिक्री के मामले के समान ही वैचारिक गतिशील है। हर सेट उसी तरह है कि हर वर्ग ए, बी, या सी भारी खरीदारों में शामिल हैं में जैकपॉट टिकट भी शामिल है।Si

मेरा लब्बोलुआब यह होगा कि अंतरंग सेट के आधार पर अंतर्ज्ञान , नमूना स्थान का एक पूर्ण विभाजन ओवरलैपिंग सेट की एक श्रृंखला तक नहीं ले जाता है । यदि आप ओवरलैपिंग श्रेणियों पर शर्त रखते हैं, तो हर श्रेणी औसत से ऊपर हो सकती है।

यदि आप सैंपल स्पेस और कंडीशन को डिसऑइंट सेट पर विभाजित करते हैं, तो श्रेणियों को औसत माध्य तक औसत करना होगा, लेकिन ओवरले सेट के लिए यह सही नहीं है।


3
धन्यवाद! मुझे लगता है कि डबल काउंटिंग समझाने की कुंजी है। मुझे नहीं लगता कि यह आवश्यक रूप से कुछ चरम मूल्यों का परिणाम है। ऊपर दिया गया मेरा उदाहरण डेटासेट काफी साँवला है और "औसत से ऊपर के सभी समूह" प्रभाव अभी भी होता है। मेरा अनुमान है कि यह ज्यादातर मामलों में होगा। अगर यह एक नाम या पिछले उदाहरण था तो बस आश्चर्य हुआ।
जेम्स एडम्स

यदि डेटा @JamesAdams का विश्लेषण कर रहा है तो यह स्पष्टीकरण नहीं होगा। मैं तर्क दे रहा हूं कि यह है। आपके पास ए, बी और सी श्रेणियों का एक पारस्परिक रूप से अनन्य और पूर्ण सेट नहीं हो सकता है, जहां समूह का औसत डेटा विश्लेषण की कुछ मौलिक धारणा का उल्लंघन किए बिना सभी एक साथ लिए गए 3 के औसत से अधिक है। आपके मामले में, यह सबसे अधिक संभावना है कि समग्र औसत अंतर के लिए भाजक (जैसे, अधिक उत्तरदाता होता है) ए, बी और सी के लिए साधनों के अनुमान के लिए इस्तेमाल किए गए लोगों से
माइक हंटर

2
@DJohnson बेशक आप सही हैं अगर सेट ए, बी, और सी नमूना स्थान को विभाजित करते हैं। प्रश्न और आपूर्ति "डेटा" (जो भी हो) की मेरी रीडिंग यह है कि ए, बी और सी ओवरलैपिंग सेट हैं। यदि A, B, और C ओवरलैप करते हैं, तो समूह औसत कुल मिलाकर औसत से अधिक हो सकता है (जो कि मेरे उत्तर का बिंदु है; सेट सबसे बड़े ग्राहकों पर ओवरलैप करता है!)। ओपी ने जो कुछ भी कहा है वह आंतरिक रूप से असंगत है। आपका "हम बीएस डेटा पास कर रहे हैं" डिटेक्टर मेरे से बेहतर हो सकता है, और मैं मानता हूं कि डेटा / संख्या की वैधता के बारे में महत्वपूर्ण प्रश्न पूछना हमेशा महत्वपूर्ण होता है।
मैथ्यू गन

हां, वे ओवरलैपिंग सेट हैं। मेरे डेटासेट लाखों ग्राहक और 12 श्रेणियां हैं। जब मैंने देखा कि मेरा औसत कुल मिलाकर औसत से अधिक है, तो मुझे लगा कि यह अजीब लेकिन व्याख्यात्मक लग रहा है। मैंने इसे देखने के लिए 10 अवलोकन और 3 श्रेणियों के उदाहरण सेट को एक साथ रखा। मैंने यहां 1s और 0s बिखेर दिए और यह उसी से निकला। मुझे संदेह है कि यह अधिकांश डेटासेट के साथ होता है जहां इस प्रकार की औसत गणना की जाती है। @Djohnson मेरे उदाहरण के ऊपर है कि मैं समग्र औसत के लिए 10 का उपयोग कर रहा हूं, 5 के लिए As, 5 के लिए Bs, 6 के लिए Cs। क्या आप बता सकते हैं कि मैं इस उदाहरण में क्या उल्लंघन कर रहा हूं?
जेम्स एडम्स

Represent 10 ’क्या दर्शाता है? 3 श्रेणियों में उत्तरदाताओं का जाल? यदि आप सभी के लिए समान भाजक का उपयोग करते हैं तो क्या होता है? यह औसत औसत लौटना चाहिए जो भव्य माध्य के आसपास उतार-चढ़ाव करता है।
माइक हंटर

10

मैं इसे पारिवारिक आकार विरोधाभास या कुछ इसी तरह का कहूंगा

मान लीजिए, एक सरल उदाहरण के लिए, हर किसी के पास एक साथी और पैरामीटर वाले बच्चों की एक पॉइसन-वितरित संख्या है :2

  • प्रति व्यक्ति बच्चों की औसत संख्या 2 होगी2
  • बच्चों के साथ प्रति व्यक्ति बच्चों की औसत संख्या 2 होगी21e22.313
  • प्रत्येक व्यक्ति के लिए औसत भाई-बहन के समूह का आकार (उनके भाइयों और बहनों और खुद की गिनती) 3 होगा3

वास्तविक जनसांख्यिकीय और सर्वेक्षण संख्याएं अलग-अलग संख्याएं लेकिन समान पैटर्न का उत्पादन करती हैं

स्पष्ट विरोधाभास यह है कि व्यक्तियों के समूह का औसत आकार प्रति परिवार बच्चों की औसत संख्या से बड़ा है; स्थिर जनसंख्या की गतिशीलता के साथ, लोगों को अपने माता-पिता की तुलना में औसतन कम बच्चे होते हैं

स्पष्टीकरण यह है कि क्या माता-पिता और परिवारों पर या भाई-बहनों पर औसत लिया जा रहा है: बड़े परिवारों पर अलग-अलग भार लागू किए जा रहे हैं। आपके उदाहरण में व्यक्तियों द्वारा या खरीद द्वारा भार के बीच अंतर है; आपके सशर्त औसत को एक विशेष खरीद पर आपके द्वारा दी गई शर्त से धक्का दिया जाता है।


8

अन्य जवाबों को पलट रहे हैं कि क्या हो रहा है। मान लीजिए कि एक उत्पाद और दो ग्राहक हैं। एक उत्पाद खरीदा (एक बार) और एक नहीं था। खरीदे गए उत्पादों की औसत संख्या 0.5 है, लेकिन यदि आप केवल उस ग्राहक को देखते हैं जिसने उत्पाद खरीदा है, तो औसत 1 तक बढ़ जाता है।

यह मेरे लिए विरोधाभास या प्रतिवाद जैसा नहीं लगता है; एक उत्पाद खरीदने पर कंडीशनिंग आमतौर पर खरीदे गए उत्पादों की औसत संख्या बढ़ाएगा।


ठीक ठीक। यह मानते हुए कि प्रत्येक 3 श्रेणियों में खरीद बहुत अधिक सहसंबद्ध नहीं है, जो आप करते हैं वह श्रेणियों में से 100% तक खरीद दर बढ़ने के बाद औसत की गणना है। संभवतः उदाहरण के लिए तुलना करना अधिक जानकारीपूर्ण होगा। ए (4/10) खरीदने वालों में सभी ग्राहकों (11/20) बी के बीच श्रेणियों बी और सी: ए में औसत खरीद दर। इस बात पर निर्भर करता है कि आप क्या अनुमान लगाने / खोजने की कोशिश कर रहे हैं।
कोनराड

2

क्या यह महज "औसत का औसत" भ्रम नहीं है (जैसे पिछले स्टैकएक्सचेंज सवाल भेस में ) नहीं है? आपका प्रलोभन यह प्रतीत होता है कि सदस्यता औसत औसत आबादी का औसत समाप्त हो जाना चाहिए, लेकिन ऐसा शायद ही कभी होगा।

शास्त्रीय "औसत औसत" में, किसी को एन पारस्परिक रूप से अनन्य सबसेट के औसत का पता चलता है, और फिर यह स्पष्ट है कि ये मान जनसंख्या औसत तक नहीं जाते हैं। औसत का यह एकमात्र तरीका काम करता है यदि आपके गैर-अतिव्यापी सबसेट का आकार समान है। अन्यथा, आपको एक भारित औसत लेने की आवश्यकता है।

ओवरलैपिंग सबसेट होने से आपकी समस्या इस पारंपरिक औसत औसत भ्रम की तुलना में अधिक जटिल हो जाती है, लेकिन यह मुझे सिर्फ एक क्लासिक गलती के साथ प्रतीत होता है। ओवरलैपिंग सबसेट्स के साथ, औसत औसत सब्सक्रिप्शन औसत के साथ समाप्त होना मुश्किल है।

आपके उदाहरण में, चूंकि उपयोगकर्ता जो कई उपसमूह में दिखाई देते हैं (और इसलिए कई चीजें खरीदी हैं) ये औसत बढ़ाएंगे। मूल रूप से आप प्रत्येक बड़े-खर्च करने वाले को कई बार गिन रहे हैं, जबकि मितव्ययी लोग जो केवल एक आइटम खरीदते हैं, वे केवल एक बार सामना करते हैं, इसलिए आप बड़े मूल्यों के पक्षपाती हैं। यही कारण है कि आपके विशेष उपसमुच्चय औसत मूल्यों से ऊपर हैं, लेकिन मुझे लगता है कि यह अभी भी "औसत औसत" समस्या है।

आप अपने डेटा से सभी प्रकार के अन्य सबसेट का निर्माण भी कर सकते हैं, जहां सब्सक्रिप्शन औसत विभिन्न मूल्यों पर ले जाता है। उदाहरण के लिए, चलो कुछ सबसेट को अपने सबसेट के समान लेते हैं। यदि आप उन लोगों का सबसेट लेते हैं जिन्होंने A नहीं खरीदा है, तो आपको औसतन 7/5 = 1.4 आइटम मिलते हैं। सबसेट के साथ, जिसने B नहीं खरीदा है, आपको औसतन 1.4 आइटम भी मिलते हैं। जिन लोगों ने C नहीं खरीदा, उन्होंने औसतन 1.5 आइटम खरीदे। ये सभी १.६ वस्तुओं / ग्राहक की जनसंख्या औसत से नीचे हैं। सही डेटासेट और सबसेट के सही संग्रह को देखते हुए, आप ओवरलैपिंग सबसेट के साथ समाप्त हो सकते हैं, जिनकी औसत जनसंख्या औसत है; हालाँकि, यह सामान्य अनुप्रयोगों में असामान्य होगा।

क्या यह सिर्फ मेरे लिए है, या क्या शब्द औसत अब इतने सारे पुनरावृत्तियों के बाद अजीब लगता है ... आशा है कि मेरा उत्तर मददगार था, और अगर मैंने आपके लिए औसत शब्द को बर्बाद कर दिया तो मुझे खेद है!


Thanks! The comment about non-overlapping same size partitions clarified it in my mind. I was hoping when I come to present these figures I could say something like "All the category averages are higher than the overall average, but that's the Blahblah paradox". Like when you say "Simpson's Paradox!, Ivy League Sexism!" and then run out of the room. (You all do that sometimes don't you?) Would love to say to them "It's because these are overlapping subsets of different sizes" but don't think that will land!
James Adams

1
Haha, fair enough. I didn't totally get the context before - I'm an astrophysics grad student, so I'm not very familiar with the context. You could say something brief, to the effect of "All the subset averages are higher than the overall average because they way we made the subsets biases us towards larger values." I wouldn't mention the average of averages name since it's not all that well known, and your case is like a generalization to it. I'd also try to find a synonym to replace the word categories - generally I see the word as implying mutually exclusive subsets.
tbell

सिमेंटिक तुष्टि एक मनोवैज्ञानिक घटना है, जिसमें पुनरावृत्ति अस्थायी रूप से खो श्रोता, जो तब बार-बार अर्थहीन लगता है के रूप में भाषण मानते के लिए जिसका अर्थ है करने के लिए एक शब्द या वाक्यांश का कारण बनता है।
पैट्रिक

1

चूंकि मुद्दा " मुझे यह समझ में आता है, लेकिन मार्केटिंग के लिए इसे समझाने की जरूरत है ", ओपी चिंतित है कि एक आम आदमी इन तथ्यों की व्याख्या कैसे करेगा - (तथ्य यह है कि क्या तथ्य सच हैं, या कैसे दिखाते हैं कि वे हैं)। प्रश्न 10 उत्पाद श्रेणियों को संदर्भित करता है, (ए जे), तो इस उदाहरण के बारे में कैसे:

[in meeting with marketing group]
OP: So, as you can see here, customers who buy A, B, and C, are all more valuable than average.
Layman: Wait?! How can everyone be higher than average?
OP: Good question. This slide focuses on customers of A, B, and C, but there are other, low performing, groups not shown. For example, customers of categories D and G are each worth about half of average.

This should quell everyone's internal bs-alarm about 'everything is above average'.


This is not the way to answer a question.
Michael R. Chernick

His question had been answered, but no one addressed his problem.
Patrick

My comment only had to do with Patrick's answer.
Michael R. Chernick

I don't see any rule against different styles of answering. Reporting (real or imagined) discussions and conversations is a time-honoured way of thinking through issues from Socrates onwards (and before him for all I know).
निक कॉक्स

But that explanation is factually wrong. Even in the absence of further categories (D-J), the observation remains true: the averages of overlapping subsets can all be higher than the average of the whole set, even if the subsets cover the whole set.
इसरांडी

0

Ignore the other answers here. This actually is not a paradox at all. The actual issue at hand here which everyone seems to be ignoring is that you are mistaking which probability you are actually looking at. There are in fact two completely different averages and statistics at play here which both have there own uses and interpretations in your proposed example (marketing)!

First off there is the average number of products bought per customer. So on average, one customer buys 1.6 items. Of course, a customer cannot but 0.6 of the product (assuming it isn't something like rice or grain that has a continuous measurement associated with it).

Secondly, there is the average number of customers that buy a particular product. Sounds weird right? So on average a product has 5.33333333... customers buying it. This is different however. What we're describing here is not the number of products bought (there's only three of them!) but rather the number of people actually purchasing said product.

Think of the two values this way: What would these two values represent if there was only one customer or only one product? After all, the average of a single data point is just that given data point.

Or better yet, think of the chart as if it were giving you dollar amounts spent to buy the product. Obviously the average amount spent by an individual customer will be far less than the amount of money made on average by a product supplied by a major corporation (or even just a small business). I'm sure you can think of good ways to use both values when discussing the well-being of the company.

When you go to explain this to the marketing staff, explain it to them just like I have said. It isn't a paradox. It's just a completely different statistic. The only issue here was noticing that there was in fact, two different ways to read the chart (i.e. number of people buying per product vs. number of products bought per person).

tl; पहली बात जो आपने बताई वह है औसत राशि जो एक ग्राहक आपके उत्पादों को खरीदने के लिए खर्च करने को तैयार है। दूसरा जनता द्वारा दिए गए उत्पाद की औसत मांग है। मुझे यकीन है कि अब आप देख सकते हैं कि दोनों सबसे निश्चित रूप से एक ही चीज क्यों नहीं हैं। उनकी तुलना इस तरह से करने से आपको सिर्फ कचरा की जानकारी मिलेगी।


संपादित करें

ऐसा प्रतीत होता है कि प्रश्न वास्तव में ग्राहकों द्वारा खर्च किए गए औसत धन के बारे में पूछ रहा है जो कुछ उत्पाद ए, बी या सी खरीदते हैं। ठीक है। यह वास्तव में गणना में केवल एक त्रुटि है। मैं इसे विरोधाभास नहीं कहूंगा। यह वास्तव में सिर्फ एक सूक्ष्म परत है।

Look at your columns. There are people that are shared between columns. Let's assume you did a proper weighted average. You are still adding up people twice. This means that the average will contain extra people with a value greater than or equal to 2. Now what was your average? It was 1.6! In essence your average looks like this:

i=0nvalueOfPersonivalueOfPersonin

That is definitely not the right formula. It is a weighted average though assuming mutual exclusiveness that is how you would adjust to get a true average in your situation.

i=0nnumberOfPeopleBuyingiaverageSpentByPersonBuyingin

Either way you'll get a messed up average. One mistake was ignoring the need for a weighted average as one category has a greater "weight" in terms of the average. It's like density. One value is denser in people represents. The other issue is duplicate adding which will distort the average. I don't call either of these "paradoxes" though. Once I saw what you were doing it seemed obvious to me why that wouldn't work. The weighted average is somewhat self-explanatory for its need and I think now that you see that you added values multiple times... that cannot work. You basically took the average of the squares of their values.


I don't think this is the case. I'm not interested here in how many people buy a particular product. I am interested in how many total products a customer has bought given that they have bought A.
James Adams

@JamesAdams Alright fair enough. In that case the issue is even more trivial. You're just taking an average of a subset of your sample. In theory if you did the same with B and C the final average wouldn't be the actual average. However, this is just due to the samples being unequal. That's all. In fact, I see no reason why that would be obvious to a person. There is actually a solution to fixing the averages to get you the proper average. It's called a weighted average and basically you would "weight" each subaverage with the number of people in that group. Make sense?
The Great Duck

@JamesAdams and I know you are not interested in it. You're math which you claimed formed a paradox used that average to try and compute the average number of products per person. That's why in this answer I emphasize that there is a second average for a different statistic and your "mistake" was in trying to shoehorn it into being a completely different average.
The Great Duck
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.