डेटा के लिए सांख्यिकीय तरीके जहां केवल एक न्यूनतम / अधिकतम मूल्य ज्ञात है


29

क्या आंकड़ों की एक शाखा है जो डेटा से संबंधित है जिसके लिए सटीक मान ज्ञात नहीं हैं , लेकिन प्रत्येक व्यक्ति के लिए, हम या तो अधिकतम या न्यूनतम मूल्य के लिए बाध्य जानते हैं ?

मुझे संदेह है कि मेरी समस्या इस तथ्य से काफी हद तक उपजी है कि मैं इसे सांख्यिकीय रूप से स्पष्ट करने के लिए संघर्ष कर रहा हूं, लेकिन उम्मीद है कि एक उदाहरण स्पष्ट करने में मदद करेगा:

कहते हैं कि दो जुड़ी हुई आबादी और ऐसी हैं, जो किसी बिंदु पर, सदस्य में "संक्रमण" कर सकते हैं , लेकिन रिवर्स संभव नहीं है। परिवर्तन का समय परिवर्तनशील है, लेकिन गैर-यादृच्छिक है। उदाहरण के लिए, "संतान के बिना व्यक्ति" और "कम से कम एक संतान वाले व्यक्ति" हो सकता है। मुझे लगता है कि यह प्रगति उम्र में होती है, लेकिन मेरे पास केवल अनुभागीय डेटा है। किसी भी व्यक्ति के लिए, मुझे पता चल सकता है कि क्या वे या से संबंधित हैं । मुझे इन व्यक्तियों की आयु का भी पता है। जनसंख्या में प्रत्येक व्यक्ति के लिएABABABABA, मुझे पता है कि संक्रमण की उम्र उनकी वर्तमान उम्र में महान होगी। इसी तरह, सदस्यों के लिए , मुझे पता है कि संक्रमण की उम्र कम उम्र थी। लेकिन मैं सटीक मूल्यों को नहीं जानता।B

कहें कि मेरे पास कुछ अन्य कारक हैं जिनकी मैं संक्रमण की उम्र के साथ तुलना करना चाहता हूं। उदाहरण के लिए, मैं जानना चाहता हूं कि क्या किसी व्यक्ति की उप-प्रजाति या शरीर का आकार पहली संतान की आयु को प्रभावित करता है। मेरे पास निश्चित रूप से कुछ उपयोगी जानकारी है जो उन सवालों को सूचित करना चाहिए: में व्यक्तियों की औसत पर , पुराने व्यक्तियों का बाद में संक्रमण होगा। लेकिन जानकारी अपूर्ण है , विशेष रूप से युवा व्यक्तियों के लिए। और जनसंख्या लिए इसके विपरीत ।AB

क्या इस तरह के डेटा से निपटने के लिए स्थापित तरीके हैं ? मुझे जरूरी नहीं कि इस तरह के विश्लेषण को पूरा करने की पूरी विधि की आवश्यकता है, बस कुछ खोज शब्द या उपयोगी संसाधन मुझे सही जगह पर शुरू करने के लिए!

कैविट्स: मैं सरलीकृत धारणा बना रहा हूं कि से तक संक्रमण तात्कालिक है। मैं यह मानने के लिए भी तैयार हूं कि अधिकांश व्यक्ति कुछ बिंदु पर प्रगति करेंगे , यह मानते हुए कि वे लंबे समय तक रहते हैं। और मुझे एहसास है कि दीर्घकालिक डेटा बहुत मददगार होगा, लेकिन यह मान लें कि यह इस मामले में उपलब्ध नहीं है।ABB

माफी अगर यह एक डुप्लिकेट है, जैसा कि मैंने कहा, मेरी समस्या का हिस्सा यह है कि मुझे नहीं पता कि मुझे क्या खोजना चाहिए। उसी कारण से, यदि उपयुक्त हो तो कृपया अन्य टैग जोड़ें।

नमूना डेटासेट: Ssp दो उप-प्रजातियों में से एक, या इंगित करता है । संतान या तो कोई संतान ( ) या कम से कम एक संतान ( ) को इंगित करती हैवाई बीXYAB

 age ssp offsp
  21   Y     A
  20   Y     B
  26   X     B
  33   X     B
  33   X     A
  24   X     B
  34   Y     B
  22   Y     B
  10   Y     B
  20   Y     A
  44   X     B
  18   Y     A
  11   Y     B
  27   X     A
  31   X     B
  14   Y     B
  41   X     B
  15   Y     A
  33   X     B
  24   X     B
  11   Y     A
  28   X     A
  22   X     B
  16   Y     A
  16   Y     B
  24   Y     B
  20   Y     B
  18   X     B
  21   Y     B
  16   Y     B
  24   Y     A
  39   X     B
  13   Y     A
  10   Y     B
  18   Y     A
  16   Y     A
  21   X     A
  26   X     B
  11   Y     A
  40   X     B
   8   Y     A
  41   X     B
  29   X     B
  53   X     B
  34   X     B
  34   X     B
  15   Y     A
  40   X     B
  30   X     A
  40   X     B

संपादित करें: उदाहरण के लिए डाटासेट बदल गया क्योंकि यह बहुत प्रतिनिधि नहीं था


2
यह एक रोचक स्थिति है। क्या आप अपना डेटा प्रदान कर सकते हैं?
गूँग - मोनिका

1
मैं संपूर्ण डेटा पोस्ट नहीं कर पाऊंगा लेकिन एक उदाहरण सेट कर सकता हूं।
user2390246

जवाबों:


26

इसे वर्तमान स्थिति डेटा के रूप में संदर्भित किया जाता है । आपको डेटा का एक पार अनुभागीय दृश्य मिलता है, और प्रतिक्रिया के संबंध में, आप सभी जानते हैं कि प्रत्येक विषय की देखी गई उम्र में, घटना (आपके मामले में: ए से बी में संक्रमण) हुई है या नहीं। यह इंटरवल सेंसरिंग का एक विशेष मामला है ।

औपचारिक रूप से इसे परिभाषित करने के लिए, चलो (अप्रत्यक्ष) सच घटना विषय के लिए समय हो मैं । Let सी मैं विषय के लिए निरीक्षण समय मैं (आपके मामले में: निरीक्षण के समय आयु)। यदि C i < T i , डेटा सही सेंसर है । अन्यथा, डेटा सेंसर छोड़ दिया जाता है । हम टी के वितरण के मॉडलिंग में दिलचस्प हैं । प्रतिगमन मॉडल के लिए, हम मॉडलिंग में रुचि रखते हैं कि कैसे वितरण कोविरेट्स एक्स के सेट के साथ बदलता है ।TiiCiiCi<TiTX

अंतराल सेंसरिंग विधियों का उपयोग करके इसका विश्लेषण करने के लिए, आप अपने डेटा को सामान्य अंतराल सेंसरिंग प्रारूप में डालना चाहते हैं। यही है, प्रत्येक विषय के लिए, हमारे पास अंतराल , जो उस अंतराल का प्रतिनिधित्व करता है जिसमें हम T i को समाहित करना जानते हैं । इसलिए यदि विषय i को निरीक्षण समय c i पर सेंसर किया गया है , तो हम लिखेंगे ( c i , ) । यदि इसे c i पर सेंसर किया गया है , तो हम इसे ( 0 , c i ) के रूप में दर्शाएंगे(li,ri)Tiici(ci,)ci(0,ci)

बेशर्म प्लग: यदि आप अपने डेटा का विश्लेषण करने के लिए प्रतिगमन मॉडल का उपयोग करना चाहते हैं, तो यह आर का उपयोग करके किया जा सकता है icenReg (मैं लेखक हूं)। वास्तव में, वर्तमान स्थिति डेटा के बारे में एक समान प्रश्न में , ओपी ने icenReg का उपयोग करने का एक अच्छा डेमो रखा । वह यह दिखाने से शुरू होता है कि सेंसरिंग भाग को अनदेखा करने और लॉजिस्टिक रिग्रेशन का उपयोग करने से पूर्वाग्रह होता है (महत्वपूर्ण नोट: वह उम्र के लिए समायोजन के बिना लॉजिस्टिक प्रतिगमन का उपयोग करने की बात कर रहा है । इस पर बाद में और अधिक।)

एक और बढ़िया पैकेज है interval, जिसमें अन्य उपकरणों के अलावा लॉग-रैंक स्टेटिस्टिक टेस्ट शामिल हैं।

संपादित करें:

@ एडीएम ने समस्या का जवाब देने के लिए लॉजिस्टिक रिग्रेशन का उपयोग करने का सुझाव दिया। मैं इसे गलत तरीके से खारिज कर रहा था, यह कहते हुए कि आपको समय के कार्यात्मक रूप के बारे में चिंता करनी होगी। जब मैं इस कथन के पीछे खड़ा होता हूं कि आपको समय के कार्यात्मक रूप के बारे में चिंता करनी चाहिए, तो मुझे एहसास हुआ कि एक बहुत ही उचित परिवर्तन था जो एक उचित पैरामीट्रिक अनुमानक की ओर जाता है।

विशेष रूप से, यदि हम लॉजिस्टिक रिग्रेशन वाले अपने मॉडल में कोवरिएट के रूप में लॉग (समय) का उपयोग करते हैं, तो हम लॉग-लॉजिस्टिक बेसलाइन के साथ आनुपातिक बाधाओं के मॉडल के साथ समाप्त होते हैं।

इसे देखने के लिए, पहले विचार करें कि आनुपातिक बाधाओं का प्रतिगमन मॉडल के रूप में परिभाषित किया गया है

Odds(t|X,β)=eXTβOddso(t)

जहां समय t पर उत्तरजीविता का आधारभूत अंतर है । ध्यान दें कि रिग्रेशन प्रभाव लॉजिस्टिक रिग्रेशन के समान ही हैं। इसलिए अब हमें केवल यह दिखाने की जरूरत है कि बेसलाइन वितरण लॉग-लॉजिस्टिक है।Oddso(t)t

अब लॉग (समय) के साथ एक लॉजिस्टिक रिग्रेशन को कोवरिएट के रूप में मानें। हम तो है

P(Y=1|T=t)=exp(β0+β1log(t))1+exp(β0+β1log(t))

थोड़े काम के साथ, आप इसे लॉग-लॉजिस्टिक मॉडल के सीडीएफ (मापदंडों के गैर-रैखिक परिवर्तन के साथ) के रूप में देख सकते हैं।

आर प्रदर्शन कि फिट बराबर हैं:

> library(icenReg)
> data(miceData)
> 
> ## miceData contains current status data about presence 
> ## of tumors at sacrifice in two groups
> ## in interval censored format: 
> ## l = lower end of interval, u = upper end
> ## first three mice all left censored
> 
> head(miceData, 3)
  l   u grp
1 0 381  ce
2 0 477  ce
3 0 485  ce
> 
> ## To fit this with logistic regression, 
> ## we need to extract age at sacrifice
> ## if the observation is left censored, 
> ## this is the upper end of the interval
> ## if right censored, is the lower end of interval
> 
> age <- numeric()
> isLeftCensored <- miceData$l == 0
> age[isLeftCensored] <- miceData$u[isLeftCensored]
> age[!isLeftCensored] <- miceData$l[!isLeftCensored]
> 
> log_age <- log(age)
> resp <- !isLeftCensored
> 
> 
> ## Fitting logistic regression model
> logReg_fit <- glm(resp ~ log_age + grp, 
+                     data = miceData, family = binomial)
> 
> ## Fitting proportional odds regression model with log-logistic baseline
> ## interval censored model
> ic_fit <- ic_par(cbind(l,u) ~ grp, 
+            model = 'po', dist = 'loglogistic', data = miceData)
> 
> summary(logReg_fit)

Call:
glm(formula = resp ~ log_age + grp, family = binomial, data = miceData)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.1413  -0.8052   0.5712   0.8778   1.8767  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  18.3526     6.7149   2.733  0.00627 **
log_age      -2.7203     1.0414  -2.612  0.00900 **
grpge        -1.1721     0.4713  -2.487  0.01288 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 196.84  on 143  degrees of freedom
Residual deviance: 160.61  on 141  degrees of freedom
AIC: 166.61

Number of Fisher Scoring iterations: 5

> summary(ic_fit)

Model:  Proportional Odds
Baseline:  loglogistic 
Call: ic_par(formula = cbind(l, u) ~ grp, data = miceData, model = "po", 
    dist = "loglogistic")

          Estimate Exp(Est) Std.Error z-value        p
log_alpha    6.603 737.2000   0.07747  85.240 0.000000
log_beta     1.001   2.7200   0.38280   2.614 0.008943
grpge       -1.172   0.3097   0.47130  -2.487 0.012880

final llk =  -80.30575 
Iterations =  10 
> 
> ## Comparing loglikelihoods
> logReg_fit$deviance/(-2) - ic_fit$llk
[1] 2.643219e-12

ध्यान दें कि grpप्रत्येक मॉडल में इसका प्रभाव समान होता है, और अंतिम लॉग-लिक्विडिटी केवल संख्यात्मक त्रुटि से भिन्न होती है। बेसलाइन पैरामीटर (यानी लॉजिस्टिक रिग्रेशन के लिए इंटरसेप्ट और लॉग_जेज, इंटरवल सेंसर मॉडल के लिए अल्फा और बीटा) अलग-अलग पैरामीटर हैं, इसलिए वे समान नहीं हैं।

इसलिए आपके पास यह है: लॉजिस्टिक प्रतिगमन का उपयोग करना लॉग-लॉजिस्टिक बेसलाइन वितरण के साथ आनुपातिक बाधाओं को फिट करने के बराबर है। यदि आप इस पैरामीट्रिक मॉडल को फिट करने के साथ ठीक हैं, तो लॉजिस्टिक प्रतिगमन काफी उचित है। मैं सावधान करता हूं कि अंतराल सेंसर डेटा के साथ, अर्ध-पैरामीट्रिक मॉडल आमतौर पर मॉडल फिट का आकलन करने में कठिनाई के कारण इष्ट हैं, लेकिन अगर मुझे वास्तव में लगता है कि पूरी तरह से पैरामीट्रिक मॉडल के लिए कोई जगह नहीं थी , तो मैं उन्हें इसमें शामिल नहीं करता icenReg


यह बहुत मददगार लगता है। मेरे पास आपके द्वारा इंगित संसाधनों और icenReg पैकेज के साथ एक नाटक होगा। मैं अपने सिर को पाने की कोशिश कर रहा हूं कि लॉजिस्टिक रिग्रेशन कम उपयुक्त क्यों है - @ ईडीएम का सुझाव सतह पर दिखता है जैसे कि यह काम करना चाहिए। क्या पूर्वाग्रह पैदा होता है क्योंकि "घटना" - यहां, संतान होने पर - अस्तित्व पर असर पड़ सकता है? इसलिए, यदि यह उत्तरजीविता कम हो जाती है, तो हम पाएंगे कि किसी दिए गए उम्र के व्यक्तियों के बीच, जिन लोगों ने प्रजनन नहीं किया है, उनका अधिक प्रतिनिधित्व होगा?
user2390246

1
@ user2390246: आप वर्तमान स्थिति डेटा के लिए लॉजिस्टिक प्रतिगमन का उपयोग कर सकते हैं। लेकिन फिर आपको उम्र के कार्यात्मक रूप को प्राप्त करने के लिए बहुत काम करना होगा, और यह अन्य चर के साथ बातचीत है, सही है। यह बहुत गैर-तुच्छ है। उत्तरजीविता आधारित मॉडलों के साथ, आप अर्ध-पैरामीट्रिक बेसलाइन ( ic_spइन icenReg) का उपयोग कर सकते हैं और इस बारे में बिल्कुल चिंता न करें। इसके अलावा, दो समूहों के लिए उत्तरजीविता घटता को देखना आपके प्रश्न का सही उत्तर देता है। लॉजिस्टिक फिट से इसे फिर से बनाने की कोशिश की जा सकती है, लेकिन फिर से, उत्तरजीविता मॉडल का उपयोग करने की तुलना में बहुत अधिक काम।
क्लिफ एबी

मैं इस पर @CliffAB से सहमत हूं। मुझे विशेष रूप से उम्र पर निर्भरता के लिए सही कार्यात्मक रूप प्राप्त करने की कठिनाई के कारण लॉजिस्टिक प्रतिगमन की सिफारिश करने के बारे में एक झिझक थी। मुझे वर्तमान स्थिति डेटा विश्लेषण के साथ कोई अनुभव नहीं है; उम्र पर निर्भरता के उस रूप का पता लगाना उस तकनीक का एक बड़ा लाभ है। मैं अपना जवाब फिर भी रखूंगा ताकि बाद में जो लोग इस धागे की जांच करेंगे, वे समझ पाएंगे कि यह कैसे खेला गया।
एड्म

मुझे ऐसा लगता है कि आपकी टिप्पणी यहाँ मामले की क्रूरता है। यदि आप इसे अपने उत्तर में विकसित कर सकते हैं तो यह मदद करेगा। उदाहरण के लिए, यदि आप एलआर मॉडल और एक इंटरवल सेंसर वाले सर्वाइवल मॉडल का निर्माण करने के लिए ओपी के उदाहरण डेटा का उपयोग कर सकते हैं, और यह दिखा सकते हैं कि उत्तरार्द्ध कैसे आसानी से ओपी के शोध प्रश्न का उत्तर देता है।
गंग -

1
@gung: वास्तव में, मैंने लॉजिस्टिक रिग्रेशन के बारे में नरम रुख अपनाया है। मैंने इसे दर्शाने के लिए अपना उत्तर संपादित किया।
क्लिफ एबी

4

f(x)F(x)xiif(xi). If we only know that the time was greater than yi (right-censoring), then the likelihood contribution is 1F(yi) under the assumption of independent censoring. If we know that the time is less than zi (left-censoring), then the likelihood contribution is F(zi). Finally, if the time falls into some interval (yi,zi], then the likelihood contribution would be F(zi)F(yi).


1
There's no need for f(x) to be continuous. Or even well behaved. It could be a discrete survival model (so the pdf is undefined and a pmf is used instead) and the rest of what you said would be correct, with a slight adjustment (replace F(yi) with F(yi+).
Cliff AB

4

This problem seems like it might be handled well by logistic regression.

You have two states, A and B, and want to examine the probability of whether a particular individual has switched irreversibly from state A to state B. One fundamental predictor variable would be age at the time of observation. The other factor or factors of interest would be additional predictor variables.

Your logistic model would then use the actual observations of A/B state, age, and other factors to estimate the probability of being in state B as a function of those predictors. The age at which that probability passes 0.5 could be used as the estimate of the transition time, and you would then examine the influences of the other factor(s) on that predicted transition time.

Added in response to discussion:

As with any linear model, you need to ensure that your predictors are transformed in a way that they bear a linear relation to the outcome variable, in this case the log-odds of the probability of having moved to state B. That is not necessarily a trivial problem. The answer by @CliffAB shows how a log transformation of the age variable might be used.

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.