मॉडलिंग के लिए तिरछा डेटा क्यों पसंद नहीं किया जाता है?


16

अधिकांश बार जब लोग परिवर्तनकारी परिवर्तन के बारे में बात करते हैं (भविष्यवक्ता और प्रतिक्रिया चर दोनों के लिए), तो वे डेटा की विषमता (जैसे परिवर्तन, बॉक्स और कॉक्स परिवर्तन आदि) के इलाज के तरीकों पर चर्चा करते हैं। जो बात मैं नहीं समझ पा रहा हूं वह यह है कि तिरछापन दूर करना इस तरह का सबसे अच्छा अभ्यास क्यों माना जाता है? वृक्ष आधारित मॉडल, रैखिक मॉडल और गैर-रेखीय मॉडल जैसे विभिन्न प्रकार के मॉडल के प्रदर्शन पर प्रभाव कैसे होता है? किस तरह के मॉडल तिरछापन से अधिक प्रभावित होते हैं और क्यों?


2
एक उचित जवाब देने के लिए, कृपया स्पष्ट करें कि आपके द्वारा क्या मतलब है: ए) डेटा, बी) मॉडलिंग और सी) मॉडल। कुंजी प्रश्न - हमेशा की तरह - क्या आप के साथ क्या करना चाहते है यह । लेकिन यह क्या है ?
करूब

मैंने कुछ प्रासंगिक उद्धरणों को जोड़ने और दावों पर विस्तार करने के लिए अपने उत्तर को अपडेट किया।
तावरॉक

जवाबों:


11

तिरछापन को दूर करते समय, रूपांतरण गॉसियन वितरण का पालन करने के लिए डेटासेट बनाने का प्रयास कर रहे हैं। कारण बस इतना है कि अगर डेटासेट को सांख्यिकीय रूप से एक गाऊसी डेटासेट के काफी करीब में तब्दील किया जा सकता है, तो संभव है कि उपकरणों का सबसे बड़ा सेट उन्हें उपयोग करने के लिए उपलब्ध हो। ANOVA, -est, F -test, और कई अन्य जैसे परीक्षण निरंतर विचरण ( iance 2 ) वाले डेटा पर निर्भर करते हैं या एक गाऊसी वितरण का पालन करते हैं। 1टीएफσ2

ऐसे मॉडल हैं जो 1 से अधिक मजबूत हैं (जैसे कि बार्टलेट के परीक्षण के बजाय लेवाइन के परीक्षण का उपयोग करना), लेकिन अधिकांश परीक्षण और मॉडल जो अन्य वितरण के साथ अच्छी तरह से काम करते हैं, आपको यह जानना होगा कि आप किस वितरण के साथ काम कर रहे हैं और आमतौर पर केवल एक वितरण के लिए उपयुक्त हैं भी।

NIST इंजीनियरिंग सांख्यिकी पुस्तिका को उद्धृत करने के लिए :

प्रतिगमन मॉडलिंग में, हम अक्सर निम्नलिखित दो लक्ष्यों को प्राप्त करने के लिए परिवर्तन लागू करते हैं:

  1. त्रुटियों के लिए भिन्न धारणाओं की समरूपता को संतुष्ट करने के लिए।
  2. जितना संभव हो सके फिट को रैखिक बनाने के लिए।

कुछ देखभाल और निर्णय की आवश्यकता है कि ये दो लक्ष्य संघर्ष कर सकते हैं। हम आम तौर पर सजातीय भिन्नताओं को प्राप्त करने की कोशिश करते हैं और फिर फिट को रेखीय करने की कोशिश के मुद्दे को संबोधित करते हैं।

और दूसरे स्थान पर

एक प्रतिक्रिया चर और एक एकल स्वतंत्र चर वाले मॉडल में रूप है:

Yमैं=(एक्समैं)+मैं

जहां प्रतिक्रिया चर है, X स्वतंत्र चर है, f रैखिक या गैर-रैखिक फिट फ़ंक्शन है, और E यादृच्छिक घटक है। एक अच्छे मॉडल के लिए, त्रुटि घटक को व्यवहार करना चाहिए:Yएक्स

  1. यादृच्छिक चित्र (यानी, स्वतंत्र);
  2. एक निश्चित वितरण से;
  3. निश्चित स्थान के साथ; तथा
  4. निश्चित भिन्नता के साथ।

इसके अलावा, फिटिंग मॉडल के लिए आमतौर पर यह माना जाता है कि निश्चित वितरण सामान्य है और निर्धारित स्थान शून्य है। एक अच्छे मॉडल के लिए निर्धारित विविधता यथासंभव छोटी होनी चाहिए। फिटिंग मॉडल का एक आवश्यक घटक त्रुटि घटक के लिए इन मान्यताओं को सत्यापित करना है और यह आकलन करना है कि त्रुटि घटक के लिए विविधता पर्याप्त रूप से छोटी है। हिस्टोग्राम, लैग प्लॉट और सामान्य संभाव्यता प्लॉट का उपयोग त्रुटि घटक पर निश्चित वितरण, स्थान और भिन्नता मान्यताओं को सत्यापित करने के लिए किया जाता है। प्रतिक्रिया चर और अनुमानित चर बनाम अनुमानित चर का प्लॉट यह आकलन करने के लिए उपयोग किया जाता है कि क्या भिन्नता पर्याप्त रूप से छोटी है। स्वतंत्र चर और अनुमानित मूल्यों के बीच अवशिष्टों के भूखंडों का उपयोग स्वतंत्रता धारणा का आकलन करने के लिए किया जाता है।

उपरोक्त मान्यताओं के संदर्भ में फिट की वैधता और गुणवत्ता का आकलन करना मॉडल-फिटिंग प्रक्रिया का एक महत्वपूर्ण हिस्सा है। किसी भी मॉडल को पर्याप्त मॉडल सत्यापन कदम के बिना पूर्ण नहीं माना जाना चाहिए।


  1. (संक्षिप्त) दावों के लिए उद्धरण:
    • ब्रेफोगेल III, फॉरेस्ट डब्ल्यू। सिक्स सिग्मा को लागू करना
    • Pyzdek, थॉमस। सिक्स सिग्मा हैंडबुक
    • मॉन्टगोमेरी, डगलस सी। सांख्यिकीय गुणवत्ता नियंत्रण का परिचय
    • ईडी। कूबली, विलिम एच और बेकरजन, रेमन। उपकरण और विनिर्माण इंजीनियर हैंडबुक: डेस्कटॉप संस्करण

आपकी प्रतिक्रिया Tavrock के लिए धन्यवाद। लेकिन जहां तक ​​मैं जानता हूं, निर्णय पेड़ों में (कम से कम विभाजन करने के लिए) एनोवा या एफ-टेस्ट का उपयोग नहीं किया जाता है। इसके अलावा, रैखिक प्रतिगमन में वितरण के आकार के संबंध में अधिकांश धारणाएं त्रुटियों से संबंधित हैं। यदि त्रुटियों को तिरछा किया जाता है तो ये परीक्षण विफल हो जाते हैं। तो, इसका मतलब है कि भविष्यवक्ता चर का तिरछापन इन मॉडलों के लिए भविष्यवाणी की गुणवत्ता को प्रभावित नहीं करना चाहिए। यदि मैं गलत हूं तो मुझे बताएं। एक बार फिर धन्यवाद!!
सूरव शेखर

1
क्या आप अपने प्रश्न को स्पष्ट कर सकते हैं - क्या आप प्रतिक्रिया चर को बदलने के बारे में जानना चाहते हैं, या भविष्यवक्ता चर को बदलने के बारे में, या दोनों के बारे में जानना चाहते हैं?
ग्रूवी_वर्म

1
@Groovy_Worm इंगित करने के लिए धन्यवाद। इस प्रश्न में मैं पूर्वसूचक और अनुक्रिया चर दोनों के बारे में चिंतित हूँ।
saurav shekhar

आप सामान्यीकृत रैखिक मॉडलिंग (GLM) की तलाश में हो सकते हैं । रैखिक प्रतिगमन में, आप आमतौर पर मान लेते हैं कि आपका आश्रित चर यादृच्छिक चर X और e पर एक गौसियन वितरण सशर्त का अनुसरण करता है । GLM के साथ, आप अपने आश्रित चर के लिए (लगभग) किसी भी प्रकार के वितरण की अनुमति देने के लिए अपने ब्रह्मांड का विस्तार कर सकते हैं, आपके स्वतंत्र चर (एक लिंक फ़ंक्शन के माध्यम से जो आप निर्दिष्ट करते हैं)।
क्रिस के

7

यह पैरामीट्रिक मॉडल के लिए ज्यादातर सही है। जैसा कि टैवॉक ने कहा, एक प्रतिक्रिया चर है जिसे तिरछा नहीं किया गया है, जिससे पैरामीटर अनुमान का गौसेन अनुमानित रूप से बेहतर काम करता है, क्योंकि यह सममित वितरण गॉसियन की तुलना में तिरछे लोगों की तुलना में बहुत तेजी से परिवर्तित होता है। इसका मतलब यह है कि, यदि आपके पास डेटा तिरछा है, तो इसे बदलना छोटे डेटासेट को कम से कम आत्मविश्वास के अंतराल और मापदंडों पर परीक्षणों के लिए बना देगा (भविष्यवाणी अंतराल अभी भी मान्य नहीं होगा, क्योंकि भले ही आपका डेटा अब सममित न हो, आप कह नहीं सकते यह सामान्य है, केवल मापदंडों का अनुमान गॉसियन में परिवर्तित होगा)।

यह पूरा भाषण प्रतिक्रिया चर के वातानुकूलित वितरण के बारे में है, आप कह सकते हैं: त्रुटियों के बारे में। फिर भी, यदि आपके पास एक ऐसा चर है, जो आपके बिना बांटे हुए वितरण को देखने पर तिरछा लगता है, तो इसका मतलब यह हो सकता है कि इसका तिरछा वितरण है। आपके डेटा पर एक मॉडल फिट करने से उस पर आपका मन साफ ​​हो जाएगा।

निर्णय वृक्षों में, मैं पहले एक बात बताता हूँ: तिरछी व्याख्यात्मक चर को बदलने का कोई मतलब नहीं है, मोनोटोनिक कार्य किसी चीज़ को नहीं बदलेंगे; यह रैखिक मॉडल पर उपयोगी हो सकता है, लेकिन निर्णय पेड़ों पर नहीं। यह कहा गया है, कार्ट मॉडल थूक का प्रदर्शन करने के लिए विचरण के विश्लेषण का उपयोग करते हैं, और विचरण आउटलेर्स और तिरछे डेटा के लिए बहुत समझदार है, यही कारण है कि आपके प्रतिक्रिया चर को बदलने से आपके मॉडल की सटीकता में काफी सुधार हो सकता है।


1

मेरा मानना ​​है कि यह गाऊसी को उनके अच्छे गुणों के कारण वापस लाने की परंपरा की एक बहुत बड़ी कलाकृति है।

लेकिन अच्छे वितरण विकल्प हैं, उदाहरण के लिए सामान्यीकृत गामा जो विभिन्न तिरछा वितरण आकार और रूपों के एक मेजबान को शामिल करता है


1

जैसे अन्य पाठकों ने कहा है, आप अपने डेटा के साथ जो हासिल करने की योजना बना रहे हैं, उस पर कुछ और पृष्ठभूमि सहायक होगी।

कहा जा रहा है, केंद्रीय सीमा प्रमेय और बड़ी संख्या के कानून के रूप में ज्ञात आंकड़ों के दायरे में दो महत्वपूर्ण सिद्धांत हैं । कहने का मतलब यह है कि, जितने अधिक अवलोकनों का उपयोग किया जाता है, उतने अधिक डेटासेट के एक सामान्य वितरण , एक समान माध्य, माध्य और मोड के साथ अनुमानित होने की उम्मीद की जाती है। बड़ी संख्या के कानून के तहत, यह उम्मीद की जाती है कि अपेक्षित और वास्तविक मूल्य के बीच विचलन अंततः पर्याप्त टिप्पणियों को देखते हुए शून्य हो जाएगा।

इसलिए, एक सामान्य वितरण शोधकर्ता को आबादी के बारे में अधिक सटीक भविष्यवाणियां करने की अनुमति देता है यदि अंतर्निहित वितरण ज्ञात हो।

तिरछापन तब होता है जब वितरण इससे विचलित हो जाता है, अर्थात विचलन सकारात्मक या नकारात्मक रूप से तिरछा हो सकता है। हालांकि, केंद्रीय सीमा प्रमेय का तर्क है कि टिप्पणियों का एक बड़ा पर्याप्त सेट दिया गया है, परिणाम लगभग एक सामान्य वितरण होगा। इसलिए, यदि वितरण सामान्य नहीं है, तो आपके द्वारा उल्लिखित परिवर्तन प्रक्रियाओं के माध्यम से वितरण की अंतर्निहित संरचना को बदलने का प्रयास करने से पहले अधिक डेटा इकट्ठा करने के लिए हमेशा सिफारिश की जाती है।


1

कब तिरछा होना बुरी बात है? सममित वितरण (आमतौर पर लेकिन हमेशा नहीं: उदाहरण के लिए, कॉची वितरण के लिए नहीं) में माध्यिका, मोड होता है और एक दूसरे के बहुत करीब होता है। तो विचार करें, यदि हम किसी आबादी के स्थान को मापना चाहते हैं, तो मध्यिका, मोड और एक दूसरे के करीब होना उपयोगी है।

ln0=-। इस समस्या का उपचार सत्ता परिवर्तन में शामिल है ।

उदाहरण के लिए www से शुद्ध किलो डॉलर में 25 आय।

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

पहले स्तंभ का तिरछा भाग 0.99 है, और दूसरे का -0.05 है। पहला स्तंभ सामान्य होने की संभावना नहीं है (शापिरो-विल्क पी = 0.04) और दूसरा महत्वपूर्ण रूप से सामान्य नहीं (पी = 0.57)।

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

तो, सवाल यह है कि यदि आप एक यादृच्छिक व्यक्ति हैं जो कमाई में से एक सूचीबद्ध है, तो आप क्या कमा सकते हैं? क्या यह निष्कर्ष निकालना उचित है कि आप 84k के औसत से 90k या उससे अधिक कमाएंगे? या यह निष्कर्ष निकालने की अधिक संभावना है कि यहां तक ​​कि माध्य स्थान के माप के रूप में पक्षपाती है और यह किexp[मतलबln($)]  76.7 k, जो कि माध्यिका से कम है, एक अनुमान के रूप में भी अधिक उचित है?

जाहिर है, यहां लॉग-नॉर्मल एक बेहतर मॉडल है और औसत लॉगरिदम हमें बेहतर लोकेशन देता है। यह अच्छी तरह से जाना जाता है, अगर पूरी तरह से समझा नहीं गया है, तो "मैं 5-आंकड़ा वेतन प्राप्त करने का अनुमान लगाता हूं" वाक्यांश द्वारा चित्रित किया गया है।


0

अधिकतर परिणाम गाऊसी मान्यताओं पर आधारित होते हैं। यदि आपके पास एक तिरछा वितरण है, तो आपके पास एक गौसियन वितरण नहीं है, इसलिए हो सकता है कि आप इसे उस में बदलने के लिए सख्त प्रयास करें।

लेकिन, आप GLM के साथ कोशिश कर सकते हैं।


0

मुझे लगता है कि यह केवल मॉडलिंग नहीं है, लेकिन हमारे दिमाग का उपयोग अत्यधिक तिरछे डेटा के साथ काम करने के लिए नहीं किया जाता है। उदाहरण के लिए, यह व्यवहार वित्त में अच्छी तरह से जाना जाता है कि हम बहुत कम या उच्च संभावनाओं का अनुमान लगाने में अच्छे नहीं हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.