क्या होगा यदि मेरे रेखीय प्रतिगमन डेटा में कई सह-रेखीय रैखिक संबंध शामिल हैं?


34

मान लीजिए कि मैं अध्ययन कर रहा हूं कि विभिन्न मिट्टी की स्थितियों में डैफोडील्स कैसे प्रतिक्रिया करते हैं। मैंने मिट्टी के पीएच बनाम डैफोडिल की परिपक्व ऊंचाई पर डेटा एकत्र किया है। मैं एक रैखिक संबंध की उम्मीद कर रहा हूं, इसलिए मैं एक रैखिक प्रतिगमन चलाने के बारे में बताता हूं।

हालांकि, मुझे यह महसूस नहीं हुआ कि जब मैंने अपना अध्ययन शुरू किया कि जनसंख्या में वास्तव में डैफोडिल की दो किस्में हैं, जिनमें से प्रत्येक मिट्टी पीएच के लिए बहुत अलग तरीके से प्रतिक्रिया करता है। इसलिए ग्राफ में दो अलग-अलग रैखिक संबंध हैं:

मिट्टी का पीएच बनाम फूल की ऊंचाई (सेमी)

मैं इसे नेत्रहीन कर सकता हूं और इसे मैन्युअल रूप से अलग कर सकता हूं, बिल्कुल। लेकिन मुझे आश्चर्य है कि अगर अधिक कठोर दृष्टिकोण है।

प्रशन:

  1. क्या यह निर्धारित करने के लिए एक सांख्यिकीय परीक्षण है कि क्या डेटा सेट एक पंक्ति या एन लाइनों द्वारा बेहतर फिट होगा?

  2. मैं एन लाइनों को फिट करने के लिए एक रैखिक प्रतिगमन कैसे चलाऊंगा? दूसरे शब्दों में, मैं सह-मिलिंग डेटा को कैसे अलग करूं?

मैं कुछ दहनशील दृष्टिकोणों के बारे में सोच सकता हूं, लेकिन वे कम्प्यूटेशनल रूप से महंगे लगते हैं।


स्पष्टीकरण:

  1. डेटा संग्रह के समय दो किस्मों का अस्तित्व अज्ञात था। प्रत्येक डैफोडिल की विविधता का अवलोकन नहीं किया गया, नोट नहीं किया गया और रिकॉर्ड नहीं किया गया।

  2. इस जानकारी को पुनर्प्राप्त करना असंभव है। डेटा संग्रह के समय से डैफोडील्स की मृत्यु हो गई है।

मुझे यह आभास है कि यह समस्या क्लस्टरिंग एल्गोरिदम को लागू करने के समान है, जिसमें आपको शुरू होने से पहले क्लस्टर की संख्या जानना लगभग आवश्यक है। मेरा मानना ​​है कि किसी भी डेटा सेट के साथ, लाइनों की संख्या बढ़ने से कुल आरएमएस त्रुटि में कमी आएगी। चरम में, आप अपने डेटा सेट को मनमाने जोड़े में विभाजित कर सकते हैं और बस प्रत्येक जोड़ी के माध्यम से एक रेखा खींच सकते हैं। (जैसे, यदि आपके 1000 अंक थे, तो आप उन्हें 500 मनमानी जोड़ियों में विभाजित कर सकते हैं और प्रत्येक जोड़े के माध्यम से एक रेखा खींच सकते हैं।) फिट सटीक होगा और आरएमएस त्रुटि बिल्कुल शून्य होगी। लेकिन ऐसा नहीं है जो हम चाहते हैं। हम लाइनों की "सही" संख्या चाहते हैं।



3
क्या आप जानते हैं कि कौन सा डैफोडिल कौन सा वैरायटी है। यदि हां, तो आप उस जानकारी को अपने मॉडल में शामिल कर सकते हैं
rep_ho

1
यह @Demetri Pananos के उत्तर में सांख्यिकीय बातचीत का एक क्लासिक मामला लगता है।
rolando2

2
मुझे लग रहा है कि उनके पास यह जानकारी नहीं है कि उनके डेटा में फूल किस किस्म के थे। मैं सहमत हूं कि अगर उनके पास ऐसा था तो यह सिर्फ एक इंटरेक्शन मॉडल बनाने या यहां तक ​​कि प्रत्येक किस्म के लिए अलग-अलग पंजीकरण चलाने का मामला होगा। हालांकि, अगर उनके पास वह जानकारी नहीं है, तो सभी आशा खो जाती है। एक मॉडल का निर्माण किया जा सकता है जो न केवल अलग-अलग लाइनों का अनुमान लगाता है, बल्कि उन संभावनाओं की भी भविष्यवाणी करता है जो प्रत्येक अवलोकन या तो समूह से संबंधित हैं।
दासोन

1
@DemetriPananos मैंने एक उत्तर दिया जो उम्मीद करता है कि समझ में आता है। वे जो करना चाहते हैं, उसके आधार पर यह काफी अधिक काम है। किसी प्रकार का परीक्षण करने के लिए आपको संभावना अनुपात परीक्षण करना होगा या किसी प्रकार का यादृच्छिक परीक्षण या कुछ करना होगा। लेकिन उन्होंने हमें बहुत अधिक जानकारी नहीं दी है और यदि लक्ष्य सिर्फ रेखाओं को फिट करना है और उनके पास लेबल नहीं हैं तो मिक्सटूल पैकेज का उपयोग करना बहुत बुरा नहीं है।
दासोन

जवाबों:


31

मुझे लगता है कि डेमेट्री का उत्तर एक महान है यदि हम मानते हैं कि आपके पास विभिन्न किस्मों के लिए लेबल हैं। जब मैंने आपका प्रश्न पढ़ा तो मुझे ऐसा नहीं लगा। हम ईएम एल्गोरिथ्म पर आधारित एक दृष्टिकोण का उपयोग कर सकते हैं जो मूल रूप से उस मॉडल को फिट करने के लिए है जो डेमेट्री सुझाव देता है, लेकिन विविधता के लिए लेबल को जाने बिना। सौभाग्य से आर में मिक्सटूल पैकेज हमारे लिए यह कार्यक्षमता प्रदान करता है। चूंकि आपका डेटा काफी अलग है और आपको लगता है कि यह काफी हद तक सफल होना चाहिए।

library(mixtools)

# Generate some fake data that looks kind of like yours
n1 <- 150
ph1 = runif(n1, 5.1, 7.8)
y1 <- 41.55 + 5.185*ph1 + rnorm(n1, 0, .25)

n2 <- 150
ph2 <- runif(n2, 5.3, 8)
y2 <- 65.14 + 1.48148*ph2 + rnorm(n2, 0, 0.25)

# There are definitely better ways to do all of this but oh well
dat <- data.frame(ph = c(ph1, ph2), 
                  y = c(y1, y2), 
                  group = rep(c(1,2), times = c(n1, n2)))

# Looks about right
plot(dat$ph, dat$y)

# Fit the regression. One line for each component. This defaults
# to assuming there are two underlying groups/components in the data
out <- regmixEM(y = dat$y, x = dat$ph, addintercept = T)

हम परिणामों की जांच कर सकते हैं

> summary(out)
summary of regmixEM object:
          comp 1    comp 2
lambda  0.497393  0.502607
sigma   0.248649  0.231388
beta1  64.655578 41.514342
beta2   1.557906  5.190076
loglik at estimate:  -182.4186 

इसलिए इसने दो प्रतिगमन फिट किए और यह अनुमान लगाया कि घटक 1 के लिए प्रतिगमन में 49.7% अवलोकन प्रतिगमन में और घटक 2 के लिए प्रतिगमन में गिर गया। 2. जिस तरह से मैंने डेटा का अनुकरण किया वह 50-50 का विभाजन था इसलिए यह अच्छा है।

सिमुलेशन के लिए मैंने जिन The सच्चे ’मूल्यों का इस्तेमाल किया है, उन्हें लाइनें देनी चाहिए:

y = 41.55 + 5.185 * ph और y = 65.14 + 1.48148 * ph

(जो मैंने आपके भूखंड से 'हाथ से' अनुमान लगाया था, ताकि मैं जो डेटा बनाता हूं वह आपकी तरह दिखता है) और इस मामले में ईएम एल्गोरिथ्म ने जो लाइनें दीं, वे थीं:

y = 41.514 + 5.19 * ph और y = 64.655 + 1.55 * ph

वास्तविक मूल्यों के करीब सुंदर झकना।

हम डेटा के साथ-साथ फिट लाइनों को भी प्लॉट कर सकते हैं

plot(dat$ph, dat$y, xlab = "Soil Ph", ylab = "Flower Height (cm)")
abline(out$beta[,1], col = "blue") # plot the first fitted line
abline(out$beta[,2], col = "red") # plot the second fitted line

ईएम के माध्यम से फिट लाइनें


21

संपादित करें: मैंने सोचा था कि ओपी जानता था कि कौन सी प्रजातियां किस प्रजाति से आई हैं। ओपी का संपादन यह स्पष्ट करता है कि मेरा मूल दृष्टिकोण संभव नहीं है। मैं इसे पश्चाताप के लिए छोड़ दूंगा, लेकिन अन्य उत्तर बहुत बेहतर है। सांत्वना के रूप में, मैंने स्टेन में एक मिश्रण मॉडल को कोडित किया है। मैं यह नहीं कह रहा हूं कि इस मामले में बायेसियन दृष्टिकोण विशेष रूप से अच्छा है, लेकिन यह सिर्फ कुछ साफ-सुथरा है जो मैं योगदान कर सकता हूं।

स्टेन कोड

data{

  //Number of data points
  int N; 

  real y[N];
  real x[N];
}
parameters{
  //mixing parameter
  real<lower=0, upper =1>  theta;

  //Regression intercepts
  real beta_0[2];

  //Regression slopes.
  ordered[2] beta_1;

  //Regression noise
  real<lower=0> sigma[2];
}
model{

  //priors
  theta ~ beta(5,5);
  beta_0 ~ normal(0,1);
  beta_1 ~ normal(0,1);
  sigma ~ cauchy(0,2.5);

  //mixture likelihood
  for (n in 1:N){
    target+=log_mix(theta,
                     normal_lpdf(y[n] | beta_0[1] + beta_1[1]*x[n], sigma[1]),
                     normal_lpdf(y[n] | beta_0[2] + beta_1[2]*x[n], sigma[2]));
  }
}
generated quantities {
  //posterior predictive distribution
  //will allow us to see what points belong are assigned
  //to which mixture 
  matrix[N,2] p;
  matrix[N,2] ps;
  for (n in 1:N){
    p[n,1] = log_mix(theta,
                     normal_lpdf(y[n] | beta_0[1] + beta_1[1]*x[n], sigma[1]),
                     normal_lpdf(y[n] | beta_0[2] + beta_1[2]*x[n], sigma[2]));

    p[n,2]= log_mix(1-theta,
                     normal_lpdf(y[n] | beta_0[1] + beta_1[1]*x[n], sigma[1]),
                     normal_lpdf(y[n] | beta_0[2] + beta_1[2]*x[n], sigma[2]));

    ps[n,]= p[n,]/sum(p[n,]);
  }
}

आर से स्टेन मॉडल को चलाएं

library(tidyverse)
library(rstan)


#Simulate the data
N = 100
x = rnorm(N, 0, 3)
group = factor(sample(c('a','b'),size = N, replace = T))

y = model.matrix(~x*group)%*% c(0,1,0,2) 
y = as.numeric(y) + rnorm(N)

d = data_frame(x = x, y = y)

d %>% 
  ggplot(aes(x,y))+
  geom_point()

#Fit the model
N = length(x)
x = as.numeric(x)
y = y

fit = stan('mixmodel.stan', 
           data = list(N= N, x = x, y = y),
           chains = 8,
           iter = 4000)

परिणाम

यहाँ छवि विवरण दर्ज करें

धराशायी लाइनें जमीनी सच्चाई हैं, ठोस लाइनों का अनुमान है।


मूल उत्तर

यदि आप जानते हैं कि कौन सा नमूना किस प्रकार के डैफोडिल से आता है, तो आप विविधता और मिट्टी के पीएच के बीच बातचीत का अनुमान लगा सकते हैं।

आपका मॉडल जैसा दिखेगा

y=β0+β1variety+β2PH+β3varietyPH

यहाँ आर में एक उदाहरण है। मैंने कुछ डेटा उत्पन्न किया है जो इस तरह दिखता है:

यहाँ छवि विवरण दर्ज करें

स्पष्ट रूप से दो अलग-अलग लाइनें, और लाइनें दो प्रजातियों के अनुरूप हैं। यहां रेखीय प्रतिगमन का उपयोग करके लाइनों का अनुमान लगाने का तरीका बताया गया है।

library(tidyverse)

#Simulate the data
N = 1000
ph = runif(N,5,8)
species = rbinom(N,1,0.5)

y = model.matrix(~ph*species)%*% c(20,1,20,-3) + rnorm(N, 0, 0.5)
y = as.numeric(y)

d = data_frame(ph = ph, species = species, y = y)

#Estimate the model
model = lm(y~species*ph, data = d)
summary(model)

और नतीजा है

> summary(model)

Call:
lm(formula = y ~ species * ph, data = d)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.61884 -0.31976 -0.00226  0.33521  1.46428 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 19.85850    0.17484  113.58   <2e-16 ***
species     20.31363    0.24626   82.49   <2e-16 ***
ph           1.01599    0.02671   38.04   <2e-16 ***
species:ph  -3.03174    0.03756  -80.72   <2e-16 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.4997 on 996 degrees of freedom
Multiple R-squared:  0.8844,    Adjusted R-squared:  0.8841 
F-statistic:  2541 on 3 and 996 DF,  p-value: < 2.2e-16

0 लेबल वाली प्रजातियों के लिए, रेखा लगभग है

y=19+1PH

1 लेबल वाली प्रजातियों के लिए, रेखा लगभग है

y=402PH


यदि ओपी पहले से डफोडिल की विविधता जानता है, तो वे डेटा को केवल दो भागों में विभाजित क्यों नहीं कर सकते हैं, और प्रत्येक विविधता के लिए दो अलग-अलग पंजीकरण चला सकते हैं?
अकवाल २ Ak

यदि ओपी डैफोडिल किस्मों के बीच मतभेदों में रुचि नहीं रखता है (जैसे कि विविधता 1 मिट्टी पीएच पर वातानुकूलित विविधता 2 से अधिक बढ़ती है) तो सभी डेटा को एक साथ पुनः प्राप्त करने का कोई कारण नहीं है, शायद सटीक आस-पास के तर्कों को छोड़कर।
डेमेट्री पानानोस

@Akavail - वे डेटा को विभाजित कर सकते हैं लेकिन इसे इस तरह से चलाना किसी भी प्रकार की तुलना को करना आसान बनाता है यदि वे किस्मों के बीच के अंतर के बारे में किसी भी परिकल्पना का परीक्षण करने में रुचि रखते थे। यदि समान रूप से मान्य मान्य है, तो इसे संयुक्त रूप से चलाने से थोड़ा बेहतर अनुमान मिलेगा।
दसन

1
इससे पहले कि मैं ईएम दृष्टिकोण में देखा मैंने बायेसियन दृष्टिकोण पर विचार किया। लेकिन जितना मुझे काम करने का बेयसियन तरीका पसंद है उतना ही मैं आलसी हो गया और यह सिर्फ ईएम दृष्टिकोण लेने के लिए बहुत आसान है। इसके साथ ही मैंने कहा कि मैं एक बायेसियन विश्लेषण को पसंद करता हूं और मुझे लगता है कि यह सवालों के जवाब देना आसान बनाता है - आपके पास शुरुआती मॉडल को कोड करने में कठिन समय हो सकता है लेकिन एक बार जब आप ऐसा कर लेते हैं तो आपके द्वारा उपयोग किए जा सकने वाले सवालों का जवाब देना बहुत आसान हो जाता है। वितरण के बाद।
दासोन

2

सांख्यिकीय दृष्टिकोण ऊपर दिए गए उत्तर के दो के समान है, लेकिन यह पूर्व ज्ञान की कमी होने पर अव्यक्त कक्षाओं की संख्या को चुनने के तरीके के साथ थोड़ा अधिक व्यवहार करता है। आप अव्यक्त वर्गों की संख्या चुनने में एक गाइड के रूप में सूचना मानदंड या पारसमनी का उपयोग कर सकते हैं।

यहां 2-4 अव्यक्त वर्गों / घटकों के साथ परिमित मिश्रण मॉडल (FMM) के अनुक्रम का उपयोग करके एक स्टैटा उदाहरण दिया गया है। पहली तालिका अव्यक्त वर्ग सदस्यता के लिए गुणांक है। इनकी व्याख्या करना थोड़ा मुश्किल है, लेकिन इन्हें बाद में संभावनाओं में बदला जा सकता है estat lcprob। प्रत्येक वर्ग के लिए, आपको एक इंटरसेप्ट और एक पीएच ढलान पैरामीटर भी मिलता है, उसके बाद अव्यक्त वर्ग सीमांत संभावनाएं, और दो-इन-सैंपल आईसी। इन गुणांक अनुमानों की व्याख्या एक रेखीय प्रतिगमन मॉडल से गुणांक के रूप में की जाती है। यहां सबसे छोटा इन-सैंपल BIC आपको दो घटक मॉडल को सर्वश्रेष्ठ के रूप में चुनने के लिए कहता है। AIC अजीब तरीके से 3 घटक मॉडल का चयन करता है। क्रॉस सत्यापन को चुनने या उपयोग करने के लिए आप आउट-ऑफ-सैंपल IC का भी उपयोग कर सकते हैं ।

.01433133004

यदि क्लासेस कम स्टार्क हैं तो FMM दृष्टिकोण हमेशा व्यवहार में इस तरह से काम नहीं करेगा। आप बहुत अधिक अव्यक्त वर्गों के साथ कम्प्यूटेशनल कठिनाइयों में भाग सकते हैं, खासकर यदि आपके पास पर्याप्त डेटा नहीं है, या संभावना फ़ंक्शन में कई स्थानीय मैक्सिमा हैं।

. clear

. /* Fake Data */
. set seed 10011979

. set obs 300
number of observations (_N) was 0, now 300

. gen     ph = runiform(5.1, 7.8) in 1/150
(150 missing values generated)

. replace ph = runiform(5.3, 8)   in 151/300
(150 real changes made)

. gen y      = 41.55 + 5.185*ph   + rnormal(0, .25)  in 1/150
(150 missing values generated)

. replace y  = 65.14 + 1.48148*ph + rnormal(0, 0.25) in 151/300
(150 real changes made)

. 
. /* 2 Component FMM */
. fmm 2, nolog: regress y ph

Finite mixture model                            Number of obs     =        300
Log likelihood =  -194.5215

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
1.Class      |  (base outcome)
-------------+----------------------------------------------------------------
2.Class      |
       _cons |   .0034359   .1220066     0.03   0.978    -.2356927    .2425645
------------------------------------------------------------------------------

Class          : 1
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   5.173137   .0251922   205.35   0.000     5.123761    5.222513
       _cons |     41.654   .1622011   256.80   0.000      41.3361    41.97191
-------------+----------------------------------------------------------------
     var(e.y)|   .0619599   .0076322                      .0486698     .078879
------------------------------------------------------------------------------

Class          : 2
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.486062    .026488    56.10   0.000     1.434147    1.537978
       _cons |   65.10664   .1789922   363.74   0.000     64.75582    65.45746
-------------+----------------------------------------------------------------
     var(e.y)|   .0630583   .0075271                      .0499042    .0796797
------------------------------------------------------------------------------

. estat lcprob

Latent class marginal probabilities             Number of obs     =        300

--------------------------------------------------------------
             |            Delta-method
             |     Margin   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       Class |
          1  |    .499141   .0305016      .4396545    .5586519
          2  |    .500859   .0305016      .4413481    .5603455
--------------------------------------------------------------

. estat ic

Akaike's information criterion and Bayesian information criterion

-----------------------------------------------------------------------------
       Model |        Obs  ll(null)  ll(model)      df         AIC        BIC
-------------+---------------------------------------------------------------
           . |        300         .  -194.5215       7     403.043   428.9695
-----------------------------------------------------------------------------
               Note: N=Obs used in calculating BIC; see [R] BIC note.

. 
. /* 3 Component FMM */
. fmm 3, nolog: regress y ph

Finite mixture model                            Number of obs     =        300
Log likelihood =  -187.4824

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
1.Class      |  (base outcome)
-------------+----------------------------------------------------------------
2.Class      |
       _cons |  -.0312504    .123099    -0.25   0.800    -.2725199    .2100192
-------------+----------------------------------------------------------------
3.Class      |
       _cons |  -3.553227   .5246159    -6.77   0.000    -4.581456   -2.524999
------------------------------------------------------------------------------

Class          : 1
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   5.173077   .0252246   205.08   0.000     5.123637    5.222516
       _cons |   41.65412     .16241   256.48   0.000      41.3358    41.97243
-------------+----------------------------------------------------------------
     var(e.y)|   .0621157   .0076595                      .0487797    .0790975
------------------------------------------------------------------------------

Class          : 2
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.476049   .0257958    57.22   0.000      1.42549    1.526608
       _cons |   65.18698   .1745018   373.56   0.000     64.84496    65.52899
-------------+----------------------------------------------------------------
     var(e.y)|   .0578413   .0070774                      .0455078    .0735173
------------------------------------------------------------------------------

Class          : 3
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.776746   .0020074   885.09   0.000     1.772811     1.78068
       _cons |   62.76633   .0134072  4681.54   0.000     62.74005    62.79261
-------------+----------------------------------------------------------------
     var(e.y)|   9.36e-06   6.85e-06                      2.23e-06    .0000392
------------------------------------------------------------------------------

. estat lcprob

Latent class marginal probabilities             Number of obs     =        300

--------------------------------------------------------------
             |            Delta-method
             |     Margin   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       Class |
          1  |   .5005343   .0304855      .4410591    .5599944
          2  |   .4851343   .0306119      .4256343    .5450587
          3  |   .0143313   .0073775      .0051968     .038894
--------------------------------------------------------------

. estat ic

Akaike's information criterion and Bayesian information criterion

-----------------------------------------------------------------------------
       Model |        Obs  ll(null)  ll(model)      df         AIC        BIC
-------------+---------------------------------------------------------------
           . |        300         .  -187.4824      11    396.9648   437.7064
-----------------------------------------------------------------------------
               Note: N=Obs used in calculating BIC; see [R] BIC note.

. 
. /* 4 Component FMM */
. fmm 4, nolog: regress y ph

Finite mixture model                            Number of obs     =        300
Log likelihood = -188.06042

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
1.Class      |  (base outcome)
-------------+----------------------------------------------------------------
2.Class      |
       _cons |  -.6450345   .5853396    -1.10   0.270    -1.792279      .50221
-------------+----------------------------------------------------------------
3.Class      |
       _cons |  -.8026907   .6794755    -1.18   0.237    -2.134438    .5290568
-------------+----------------------------------------------------------------
4.Class      |
       _cons |  -3.484714   .5548643    -6.28   0.000    -4.572229     -2.3972
------------------------------------------------------------------------------

Class          : 1
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   5.173031   .0251474   205.71   0.000     5.123743    5.222319
       _cons |   41.65574    .161938   257.23   0.000     41.33835    41.97313
-------------+----------------------------------------------------------------
     var(e.y)|   .0617238   .0076596                      .0483975    .0787195
------------------------------------------------------------------------------

Class          : 2
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.503764   .0371216    40.51   0.000     1.431007    1.576521
       _cons |   65.13498   .2666049   244.31   0.000     64.61244    65.65751
-------------+----------------------------------------------------------------
     var(e.y)|   .0387473   .0188853                      .0149062    .1007195
------------------------------------------------------------------------------

Class          : 3
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.441334   .0443892    32.47   0.000     1.354333    1.528335
       _cons |   65.26791   .2765801   235.98   0.000     64.72582       65.81
-------------+----------------------------------------------------------------
     var(e.y)|   .0307352    .010982                      .0152578    .0619127
------------------------------------------------------------------------------

Class          : 4
Response       : y
Model          : regress

------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
y            |
          ph |   1.665207   .0079194   210.27   0.000     1.649685    1.680728
       _cons |   63.42577   .0510052  1243.52   0.000      63.3258    63.52573
-------------+----------------------------------------------------------------
     var(e.y)|    .000096   .0000769                        .00002    .0004611
------------------------------------------------------------------------------

. estat lcprob

Latent class marginal probabilities             Number of obs     =        300

--------------------------------------------------------------
             |            Delta-method
             |     Margin   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       Class |
          1  |   .4991443   .0304808      .4396979     .558615
          2  |   .2618733   .1506066      .0715338    .6203076
          3  |   .2236773    .150279      .0501835    .6110804
          4  |    .015305    .008329       .005234    .0438994
--------------------------------------------------------------

. estat ic

Akaike's information criterion and Bayesian information criterion

-----------------------------------------------------------------------------
       Model |        Obs  ll(null)  ll(model)      df         AIC        BIC
-------------+---------------------------------------------------------------
           . |        300         .  -188.0604      15    406.1208   461.6776
-----------------------------------------------------------------------------
               Note: N=Obs used in calculating BIC; see [R] BIC note.

इस बहुत ही दिलचस्प जवाब के लिए धन्यवाद। आपने मुझे शोध के लिए कुछ नई अवधारणाएँ दी हैं!
धीरे

0

मैं सांख्यिकीय महत्व के सवाल पर ध्यान केंद्रित करूंगा क्योंकि दासोन पहले से ही मॉडलिंग भाग को कवर करता था।

मैं इसके लिए किसी भी औपचारिक परीक्षण से अपरिचित हूं (जो मुझे यकीन है कि मौजूद है), इसलिए मैं बस कुछ विचारों को वहां फेंक दूंगा (और मैं शायद आर कोड और तकनीकी विवरण बाद में जोड़ूंगा)।

सबसे पहले, वर्गों का अनुमान लगाना सुविधाजनक है। मान लें कि आपके पास डेटा के लिए दो लाइनें हैं, तो आप लगभग प्रत्येक वर्ग को उसके निकटतम रेखा के वर्ग को प्रत्येक बिंदु बताकर दोनों वर्गों को फिर से जोड़ सकते हैं। चौराहे के पास के बिंदुओं के लिए, आप मुद्दों में भाग लेंगे, लेकिन अभी के लिए बस उन पर ध्यान न दें (इस के आसपास जाने का एक तरीका हो सकता है, लेकिन अभी के लिए बस उम्मीद है कि यह बहुत बदल नहीं जाएगा)।

xlxrxlxrxlxr

फिर दो प्राकृतिक तरीके हैं जो मैं ऐसा करने के बारे में जाना चाहता हूं।

कम मज़ेदार तरीका यह है कि आप अपने मूल डेटासेट को डेट्रायट के जवाब में रेखीय प्रतिगमन के माध्यम से अवर श्रेणी के लेबल के साथ संयुक्त रूप से चलाएं।

ऐसा करने का एक और दिलचस्प तरीका एनोवा के एक संशोधित संस्करण के माध्यम से होगा। बिंदु एक कृत्रिम डेटासेट बनाना है जो दो पंक्तियों (उनके बीच समान प्रसार के साथ) का प्रतिनिधित्व करता है और फिर एनोवा को लागू करता है। तकनीकी रूप से, आपको इसे एक बार बाईं ओर करने की आवश्यकता है, और एक बार दाईं ओर (यानी आपके पास दो कृत्रिम डेटासेट होंगे)।

y1(i)=β1,1x1(i)+β1,0+e1(i)
β1,1x1(i)+β1,0
β1,1xavg+β1,0
xlavgएक्सy1(मैं)
y~1(मैं)=β1,1एक्सvजी+β1,0+1(मैं),
y~1(मैं)y~2(मैं)

एन


-2

क्या यह संभव है कि एक ही चार्ट में दोनों को शामिल करना एक त्रुटि है? यह देखते हुए कि किस्में पूरी तरह से अलग व्यवहार करती हैं क्या डेटा को ओवरलैप करने में कोई मूल्य है? यह मुझे लगता है कि आप डैफोडिल की एक प्रजाति के प्रभावों की तलाश कर रहे हैं, न कि विभिन्न डैफोडिल्स पर समान वातावरण के प्रभावों की। यदि आपने डेटा खो दिया है जो प्रजातियों को "ए" प्रजातियों से निर्धारित करने में मदद करता है "बी" तो आप बस समूह व्यवहार "ए" और व्यवहार "बी" कर सकते हैं और अपने कथन में दो प्रजातियों की खोज को शामिल कर सकते हैं। या, यदि आप वास्तव में एक चार्ट चाहते हैं, तो बस एक ही अक्ष पर दो डेटा सेट का उपयोग करें। मेरे पास उस विशेषज्ञता के पास कहीं भी नहीं है जो मुझे दी गई अन्य प्रतिक्रियाओं में दिखाई देती है इसलिए मुझे कम "कुशल" तरीके खोजने होंगे। मैं एक वर्कशीट वातावरण में एक डेटा विश्लेषण चलाऊंगा जहां समीकरणों को विकसित करना आसान है। फिर, एक बार समूह स्पष्ट हो जाने के बाद, दो अलग-अलग डेटा तालिकाओं को चार्ट / ग्राफ़ में परिवर्तित करके बनायें। मैं डेटा का एक बड़ा सौदा के साथ काम करता हूं और मैं अक्सर पाता हूं कि अलग-अलग सहसंबंधों की मेरी धारणाएं गलत हैं; यह वह डेटा है जो हमें खोजने में मदद करने वाला है। एक बार जब मुझे पता चलता है कि मेरी धारणा गलत है, तो मैं खोजे गए व्यवहारों के आधार पर डेटा प्रदर्शित करता हूं और उन व्यवहारों पर चर्चा करता हूं और परिणामस्वरूप सांख्यिकीय विश्लेषण कथा के भाग के रूप में करता हूं।


1
मैं अचंभित कर रहा हूं कि आपको नीचा दिखाया गया है क्योंकि आपका जवाब सवाल के जवाब में कोई स्पष्टता या अंतर्दृष्टि प्रदान नहीं कर रहा है। आपको अपने उत्तर को और अधिक उपयोगी रूप से संरचना करने और यह स्पष्ट करने की आवश्यकता है कि आप प्रत्येक बिंदु पर क्या उप-प्रश्न पूछते हैं। प्रश्न उत्तर के बीच और आपके उत्तर से पहले स्पष्ट रूप से अपडेट किया गया था कि विविधता की जानकारी उपलब्ध नहीं थी।
रेनेबट

2
वेलिडेट पार करने के लिए आपका स्वागत है! कृपया अपने पहले उत्तर को ठीक से प्राप्त नहीं होने दें - और सरल समाधान बहुत उपयोगी हो सकते हैं - लेकिन जैसा कि प्रश्नकर्ता पहले से ही कहता है "मैं इसे नेत्रहीन कर सकता हूं और इसे मैन्युअल रूप से अलग कर सकता हूं, निश्चित रूप से", यह प्रतीत नहीं होता है बहुत कुछ जोड़ना।
Scortchi - को पुनः स्थापित मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.