ट्रांसफॉर्मिंग अनुपात डेटा: जब आर्किसिन स्क्वायर रूट पर्याप्त नहीं है


20

प्रतिशत / अनुपात डेटा के लिए आर्किसिन स्क्वायर रूट परिवर्तन के लिए एक (मजबूत?) विकल्प है? वर्तमान में मैं जिस डेटा सेट पर काम कर रहा हूं, इस परिवर्तन को लागू करने के बाद, चिह्नित विषमता बनी हुई है, यानी अवशेषों बनाम सज्जित मूल्यों का कथानक अभी भी बहुत ही कठोर है।

टिप्पणियों का जवाब देने के लिए संपादित: डेटा प्रयोगात्मक प्रतिभागियों द्वारा निवेश के फैसले हैं जो 10% के गुणकों में 0-100% का निवेश कर सकते हैं। मैंने ऑर्डिनल लॉजिस्टिक रिग्रेशन का उपयोग करते हुए इन आंकड़ों को भी देखा है, लेकिन यह देखना चाहूंगा कि एक वैध चमक क्या पैदा करेगी। इसके अलावा, मैं जवाब को भविष्य के काम के लिए उपयोगी होने के रूप में देख सकता था, क्योंकि आर्किसिन वर्गमूल का उपयोग मेरे क्षेत्र में एक-आकार-फिट समाधान के रूप में किया जा रहा है और मैं किसी भी विकल्प के काम में नहीं आया था।


2
फिट किए गए मूल्य क्या हैं? आपका मॉडल क्या है? आर्कोसिन द्विपद के लिए स्थिर (लगभग) विचरण है, लेकिन यदि अनुपात 0 या 1 के करीब है, तो भी आपके पास "बढ़त" प्रभाव होगा - क्योंकि सामान्य भाग प्रभावी रूप से छोटा हो जाता है।
probabilityislogic

1
@Probabilityislogic ने जो भी कहा है उस पर मुझे संदेह करना चाहिए और डेटा कहां से आता है, इसके बारे में भी पूछताछ करें। समस्या में कुछ हो सकता है जो एक और परिवर्तन का सुझाव देता है, या एक और मॉडल पूरी तरह से, जो अधिक उपयुक्त और / या व्याख्या योग्य हो सकता है।
JMS

1
@prob @JMS हम ओपी को ऐसा क्यों नहीं करते, जो मेरा मानना ​​है कि आंकड़ों के बारे में काफी जानकार हैं, पहले परिवर्तन मार्ग का प्रयास करें? फिर, अगर वह काम नहीं करता है, तो यह एक नया धागा शुरू करने के लिए उपयोगी होगा जिसमें समस्या कम संकीर्ण रूप से प्रस्तुत की जाती है। उस संदर्भ में आपकी टिप्पणी उचित होगी।
whuber

1
आर्किसिन स्क्वायर रूट परिवर्तन के साथ भारी समस्याएं हैं, मनोरंजक शीर्षक वाले पेपर में स्पष्ट रूप से वर्णित हैं । आर्सेनिन असिनिन है: पारिस्थितिकी में अनुपात का विश्लेषण
mkt -

1
@ संदर्भ के लिए धन्यवाद, यह सामान्यीकृत रैखिक मॉडल पर अगले शब्द के व्याख्यान में सीधे चला गया है।
फ्रेया हैरिसन

जवाबों:


28

ज़रूर। जॉन टुके ने EDA में (बढ़ते, एक-से-एक) परिवर्तनों के परिवार का वर्णन किया है । यह इन विचारों पर आधारित है:

  1. एक पैरामीटर द्वारा नियंत्रित के रूप में पूंछ (0 और 1 की ओर) का विस्तार करने में सक्षम होने के लिए।

  2. फिर भी, बीच (के पास मूल (untransformed) मान से मेल करने के लिए 1/2 ) है, जो परिवर्तन आसान व्याख्या करने के लिए बनाता है।

  3. 1/2. बारे में पुन: अभिव्यक्ति सममित बनाने के लिए , यही है, अगर p को फिर से f(p) रूप में व्यक्त किया जाता है , तो 1p को फिर से f(p) रूप में व्यक्त किया जाएगा ।

आप किसी भी बढ़ती जा रही monotonic समारोह के साथ आरंभ करते g:(0,1)R पर डिफ़्रेंशिएबल 1/2 आप दूसरे और तीसरे मानदंडों को पूरा करने के लिए इसे समायोजित कर सकते हैं: बस को परिभाषित

f(p)=g(p)g(1p)2g(1/2).

अंश स्पष्ट रूप से सममित (मानदंड (3) ) है, क्योंकि 1 - पी के साथ स्वैपिंग p घटाव को उलट देता है, जिससे यह नकारात्मक होता है। कि देखने के लिए ( 2 ) संतुष्ट हो जाता है, ध्यान दें कि भाजक ठीक कारक बनाने के लिए आवश्यक है ' ( 1 / 2 ) = 1. याद रखें कि व्युत्पन्न हैं approximates रैखिक कार्य के साथ एक समारोह के स्थानीय व्यवहार; की एक ढलान 1 = 1 : 1 जिससे इसका मतलब है कि ( पी ) पी1p(2)f(1/2)=1.1=1:1f(p)p(प्लस एक निरंतर 1/2 ) जब p पर्याप्त के करीब है 1/2. यह समझ है, जिसमें मूल मान रहे हैं कि "बीच के पास मिलान नहीं हुआ।"

Tukey इसे g का "मुड़ा हुआ" संस्करण कहता है । उनके परिवार में शक्ति और लॉग ट्रांसफ़ॉर्मेशन g(p)=pλ , जब λ=0 , हम g(p)=log(p) मानते हैं ।

आइए कुछ उदाहरण देखें। जब λ=1/2 हम मुड़ा हुआ जड़, या प्राप्त "Froot," f(p)=1/2(p1p)। जबλ=0हमारे पास मुड़ा लघुगणक, या "कोड़े लगाना,"f(p)=(log(p)log(1p))/4. जाहिर है इस का सिर्फ एक निरंतर कई हैlogitपरिवर्तन,log(p1p)

लैम्ब्डा के लिए रेखांकन = 1, 1/2, 0, और आर्क्सिन

इस ग्राफ में नीली रेखा मेल खाती को λ=1 , मध्यवर्ती लाल रेखा λ=1/2 , और करने के लिए चरम हरे रंग की रेखा λ=0 । धराशायी सोने लाइन arcsine परिवर्तन, है arcsin(2पी-1)/2=arcsin(पी)-arcsin(1/2)। ढलानों के "मिलान" (कसौटी(2)) मेल खाना के पास करने के लिए सभी रेखांकन का कारण बनता हैपी=1/2।

पैरामीटर λ सबसे उपयोगी मान 1 और 0 बीच स्थित हैं । (आप पूंछ भी की नकारात्मक मूल्यों के साथ भारी कर सकते हैं λ , लेकिन इस प्रयोग के दुर्लभ है।) λ=1 मूल्यों recenter को छोड़कर सभी में कुछ भी नहीं करता है ( (पी)=पी-1/2 )। के रूप में λ शून्य की ओर सिकुड़ती, पूंछ की ओर आगे खींच लिया हो ± । यह मानदंड # 1 को संतुष्ट करता है। इस प्रकार, λ का एक उचित मूल्य चुनकर , आप पूंछ में इस पुन: अभिव्यक्ति की "ताकत" को नियंत्रित कर सकते हैं।


Whuber, किसी भी R फ़ंक्शन के बारे में जानें जो यह स्वचालित रूप से करता है?
जॉन

1
@ नहीं, मैं नहीं, लेकिन यह लागू करने के लिए पर्याप्त सरल है।
whuber

2
मैंने इसे मूल रूप से कठिन नहीं देखा, लेकिन यह अच्छा होगा यदि बॉक्सकोक्स ट्रानफॉर्म जैसे कुछ होते हैं जो स्वचालित रूप से लैम्ब्डा के लिए सबसे अच्छा चयन करते हैं। हां, लागू करने के लिए भयानक नहीं ...
जॉन

2
धन्यवाद whuber, यह बिल्कुल उसी तरह की चीज है जिसकी मैं तलाश कर रहा था और ग्राफ वास्तव में मददगार है। निश्चित रूप से जॉन के साथ सहमत हूं कि बॉक्सकॉक्स जैसा कुछ मददगार होगा, लेकिन यह काम करने के लिए काफी सरल लगता है।
फ्रेया हैरिसन

7

शामिल करने का एक तरीका अनुक्रमित परिवर्तन शामिल करना है। एक सामान्य तरीका किसी भी सममित (उलटा) संचयी वितरण फ़ंक्शन का उपयोग करना है, ताकि और एफ ( एक्स ) = 1 - एफ ( - एक्स ) । एक उदाहरण स्वतंत्रता के ν डिग्री के साथ मानक छात्र टी वितरण है । पैरामीटर v नियंत्रित करता है कि कितनी जल्दी रूपांतरित चर अनंत तक भटकता है। यदि आप v = 1 सेट करते हैं, तो आपके पास आर्कटन परिवर्तन है:एफ(0)=0.5एफ(एक्स)=1-एफ(-एक्स)νvv=1

एक्स=आरसीटीn(π[2पी-1]2)

यह आर्सेनिन की तुलना में बहुत अधिक चरम है, और लॉगिट ट्रांसफॉर्म की तुलना में अधिक चरम है। ध्यान दें कि लॉग ट्रांसफ़ॉर्म को साथ टी-वितरण का उपयोग करके लगभग अनुमान लगाया जा सकता है । किसी तरह से अतः यह (logit और PROBIT के बीच लगभग एक लिंक प्रदान करता है ν = ) रूपांतरण, और अधिक चरम परिवर्तनों के लिए उनमें से एक विस्तार।ν8ν=

इन रूपांतरण के साथ समस्या यह है कि वे दे जब मनाया अनुपात के बराबर है 1 या 0 । तो आपको किसी भी तरह से किसी भी तरह से इनको सिकोड़ने की जरूरत है - सबसे आसान तरीका है + 1 "सफलता" और + 1 "विफलताओं" को जोड़ना ।±10+1+1


2
विभिन्न कारणों से, Tukey ने गिनती में +1/6 जोड़ने की सिफारिश की। ध्यान दें कि यह उत्तर Tukey के तह दृष्टिकोण का एक विशेष मामला है जिसका मैंने वर्णन किया है: सकारात्मक पीडीएफ के साथ कोई भी सीडीएफ एकरस है; एक सममित सीडीएफ को मोड़ने से यह अपरिवर्तित हो जाता है।
whuber

2
मैं सोच रहा था कि तुम्हारा मोटा अंदाज कहाँ से आता है। कैसे आप पर पहुंचने करते ? मैं इसे पुन: पेश नहीं कर सकता। मैं स्वीकार करता हूँ कि सन्निकटन चाहिए के चरम पर टूट पी के पास 0 या 1 है, लेकिन मुझे लगता है कि ν = 5 के लिए logit के लिए एक बहुत अच्छा मैच है पी के पास 1 / 2 । क्या आप शायद t ν और logit के CDF के बीच औसत अंतर के कुछ माप का अनुकूलन कर रहे हैं ? ν8पी01ν=5पी1/2टीνlogit
whuber

2
@ शुभकर्ता - आप मुझे बहुत अधिक श्रेय देते हैं। मेरे सुझाव का पीडीएफ का ग्राफ को देखकर पर आधारित था , रसद पीडीएफ का ग्राफ ( एक्स ) = - एक्स ( 1 + - एक्स ) - 2 , और मानक सामान्य पीडीएफ का ग्राफ। स्वतंत्रता के 5 डिग्री अतिरिक्त कर्टोसिस से मेल खाते हैं, और अच्छी तरह से बेहतर हो सकते हैं। टी8(एक्स)=-एक्स(1+-एक्स)-25
probabilityislogic

5
@whuber के लिए 1/6 को काउंट में जोड़ने का एक कारण यह है कि परिणामी "शुरू हुई" गिनती औसत दर्जे का है जो जेफ्रीस के साथ एक द्विपद वितरण को पूर्व अनुमान लगाती है (मैं इस बारे में थोड़ा लिखता हूं: sumsar.net/bj/2013/09// a-bayesian-twist-on-tukeys-flogs )। हालाँकि मुझे नहीं पता कि यह 1/6 जोड़ने का टके का कारण था। क्या आप जानते हैं कि उसकी वजह क्या रही होगी?
रासमस बैथ

4
@ रैसमथ ईडीए में , पी। 496, Tukey लिखते हैं "हम यहां उपयोग करने की सलाह देते हैं, इसका एक बहाना है, लेकिन चूंकि यह बहाना (i) अप्रत्यक्ष है और (ii) में अधिक परिष्कृत विचार शामिल हैं, हम इसके बारे में और नहीं कहेंगे। हम जो अनुशंसा करते हैं वह 1 जोड़ रहा है / सभी को विभाजित करने के लिए 6, इस प्रकार उन्हें 'शुरू'। (ए के किसी भी मूल्य "विभाजित गिनती" की संख्या है एक्स मैं < एक्स प्लस आधा की संख्या एक्स मैं = एक्स डेटा का एक बैच में ( एक्स मैं ) ।) मैं इन "परिष्कृत विचार" भर में आ याद नहीं है अन्य टके पत्रों या पुस्तकों में मैंने पढ़ा है, लेकिन हमेशा कल्पना की कि वे संभावना प्लॉटिंग पॉइंट से संबंधित हो सकते हैं।एक्सएक्समैं<एक्सएक्समैं=एक्स(एक्समैं)
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.