मार्कोव श्रृंखला की स्मृतिहीन संपत्ति की जाँच करें


17

मुझे संदेह है कि देखे गए अनुक्रमों की एक श्रृंखला एक मार्कोव श्रृंखला है ...

X=(ACDDBACBAACADABCADABE)

हालाँकि मैं कैसे जाँच सकता हूँ कि वे वास्तव में P ( X i = x i | X j = x j ) की स्मृतिहीन संपत्ति का सम्मान करते हैं ?

P(Xi=xi|Xj=xj)?

या बहुत कम से कम साबित होता है कि वे प्रकृति में मार्कोव हैं? ध्यान दें कि ये आनुभविक रूप से देखे गए क्रम हैं। कोई विचार?

संपादित करें

बस जोड़ने के लिए, इसका उद्देश्य प्रेक्षित लोगों से अनुक्रम के एक अनुमानित सेट की तुलना करना है। इसलिए हम इनकी तुलना करने के लिए सबसे अच्छी टिप्पणियों की सराहना करेंगे।

पहला ऑर्डर ट्रांज़िशन मैट्रिक्स

Mij=xijmxik
जहां m = A..E बताता है

M=(0.18340.30770.07690.14790.28400.46970.11360.00760.25000.15910.18270.24040.22120.19230.16350.23780.18180.06290.33570.18180.24580.17880.11730.17880.2793)

एम के eigenvalues

E=(1.0000000000.2283000000.1344000000.11360.0430i000000.1136+0.0430i)

एम के eigenvectors

V=(0.44720.58520.42190.23430.0421i0.2343+0.0421i0.44720.78380.42110.44790.2723i0.4479+0.2723i0.44720.20060.37250.63230.63230.44720.00100.70890.21230.0908i0.2123+0.0908i0.44720.05400.05890.2546+0.3881i0.25460.3881i)

कॉलम में श्रृंखलाएं होती हैं, और अनुक्रमों के तत्वों की पंक्तियाँ होती हैं? पंक्तियों और स्तंभों की देखी गई संख्या क्या है?
एमपीकटास

2
संभावित डुप्लिकेट: आंकड़े.stackexchange.com/questions/29490/…
mpiktas

@mpiktas पंक्तियाँ राज्यों AD के माध्यम से संक्रमणों के स्वतंत्र देखे गए अनुक्रमों का प्रतिनिधित्व करती हैं। कुछ 400 सीक्वेंस हैं ... ध्यान रखें कि जो सीक्वेंस देखे गए हैं, वे सभी समान लंबाई के नहीं हैं। वास्तव में कई मामलों में उपरोक्त मैट्रिक्स शून्य द्वारा संवर्धित है। वैसे लिंक के लिए धन्यवाद। ऐसा लगता है कि इस क्षेत्र में काम करने के लिए अभी भी काफी जगह है। क्या आपके पास कोई और विचार है? सादर,
एचसीएआई

1
रेखीय प्रतिगमन मेरे तर्क के बिंदु को मजबूत करने के लिए एक उदाहरण था। यानी कि आपको सीधे मार्कोव संपत्ति का परीक्षण करने की आवश्यकता नहीं हो सकती है, आपको केवल कुछ मॉडेम फिट करने की आवश्यकता है जो मार्कोव संपत्ति को मानते हैं और फिर मॉडल वैधता की जांच करते हैं।
एमपिकेटस

1
मुझे याद है कि मैंने कहीं कहीं H0 = {मार्कोव} बनाम एच 1 = {मार्कोव आदेश 2} के लिए एक परिकल्पना परीक्षण देखा है। यह मदद कर सकता है।
स्टीफन लॉरेंट

जवाबों:


5

मुझे आश्चर्य है अगर निम्नलिखित एक वैध पियर्सन देना होगा के रूप में इस अनुपात के लिए परीक्षण।χ2

  1. एक-चरण संक्रमण संभावनाओं का अनुमान लगाएं - आपने ऐसा किया है।
  2. प्राप्त दो कदम मॉडल
    p^U,V=Prob[Xi+2=U|Xi=V]=W{A,B,C,D}Prob[Xi+2=U|Xi+1=W]Prob[Xi+1=W|Xi=V]
  3. दो कदम अनुभवजन्य संभावनाओं प्राप्त
    p~U,V=i#Xi=V,Xi+2=Ui#Xi=V
  4. फार्म पियर्सन परीक्षण आंकड़ा
    TV=#{Xi=V}U(p^U,Vp~U,V)2p^U,V,T=TA+TB+TC+TD

यह है आकर्षक मुझे सोचने के लिए के लिए कि प्रत्येक , ताकि कुल टी ~ χ 2 12 । हालाँकि, मुझे इस पर पूरा यकीन नहीं है, और इस पर आपके विचारों की सराहना करेंगे। मैं नहीं इसी तरह के बारे में एक की जरूरत है स्वतंत्रता के बारे में पागल होना करने के लिए है कि क्या सह sertain नहीं कर रहा हूँ, और हिस्सों में विभाजित करने के लिए नमूना अनुमान लगाने के लिए चाहते हो जाएगा पी और ˉ पीTUχ32Tχ122p^p¯


क्या सम्भावनाओं के लिए सामान्य वितरण का मतलब 0 और विचरण = 1 के साथ होना नहीं है? मुझे यह जानने में बहुत दिलचस्पी होगी कि यहां कोई क्या सोचता है।
एचसीएआई

यही कारण है कि इस योग में बड़ी संख्याओं के साथ, समान रूप से माना जाता है।
13

6

मार्कोव संपत्ति को सीधे परीक्षण करना कठिन हो सकता है। लेकिन यह एक मॉडल को फिट करने के लिए पर्याप्त हो सकता है जो मार्कोव संपत्ति को मानता है और फिर परीक्षण करता है कि क्या मॉडल रखता है। यह पता चल सकता है कि फिट किया गया मॉडल एक अच्छा सन्निकटन है जो व्यवहार में आपके लिए उपयोगी है, और आपको यह चिंतित होने की आवश्यकता नहीं है कि मार्कोव संपत्ति वास्तव में रखती है या नहीं।

समानांतर को रेखीय प्रतिगमन के लिए तैयार किया जा सकता है। सामान्य अभ्यास यह परीक्षण करने के लिए नहीं है कि क्या रैखिकता रखती है, लेकिन क्या रैखिक मॉडल एक उपयोगी सन्निकटन है।


यह वास्तविकता में सबसे अच्छा विकल्प लगता है, केवल मैं वास्तव में किसी भी वास्तविक प्रयोगात्मक डेटा के लिए एक रेखीय मॉडल की तुलना नहीं कर सकता। या आपके मन में कुछ और था?
एचसीएआई

6

पिछले उत्तर के सुझाव को संक्षिप्त करने के लिए, आप पहले मार्कोव संभावनाओं का अनुमान लगाना चाहते हैं - यह मार्कोव मानते हैं। यहां देखें जवाब मार्कोव चेन प्रोबेबिलिटीज का अनुमान लगाते हुए

आप एक के लिए राज्य एक से संक्रमण के अनुपात में, बी के लिए एक, आदि इस मैट्रिक्स कॉल के आधार पर एक 4 x 4 मैट्रिक्स मिलना चाहिए एम 2 तब दो-चरण संक्रमण मैट्रिक्स होना चाहिए: ए से ए 2 चरणों में, और इसी तरह। आप तब परीक्षण कर सकते हैं यदि आपका मनाया गया 2 चरण संक्रमण मैट्रिक्स M 2 के समान है ।MM2M2

चूंकि आपके पास राज्यों की संख्या के लिए बहुत अधिक डेटा है, इसलिए आप डेटा के एक आधे से अनुमान लगा सकते हैं और दूसरे आधे का उपयोग करके एम 2 का परीक्षण कर सकते हैं - आप एक बहुराष्ट्रीय की सैद्धांतिक संभावनाओं के खिलाफ मनाया आवृत्तियों का परीक्षण कर रहे हैं। इससे आपको अंदाजा होना चाहिए कि आप कितने दूर हैं।MM2

यह देखने की एक और संभावना है कि क्या मूल राज्य अनुपात: A में बिताया गया अनुपात समय, B में बिताया गया समय, इकाई के आइगेनवेक्टर से मेल खाता है, एम। के स्वदेशी से मेल खाता है। यदि आपकी श्रृंखला किसी स्थिर अवस्था में पहुंच गई है, तो प्रत्येक में समय का अनुपात राज्य को उस सीमा तक जाना चाहिए।


वहाँ लेने के लिए थोड़ा सा है। मैंने संक्रमण मैट्रिक्स गणना की है , लेकिन मुझे यकीन नहीं है कि आप एम 2 को आनुभविक रूप से कैसे गणना करेंगे । क्या आप उस बिंदु को स्पष्ट कर सकते हैं? सादर,MM2
HCAI

इसके अलावा, बाद की टिप्पणी बहुत दिलचस्प है, हालांकि मेरे पास मेरे देखे गए दृश्यों के प्रत्येक राज्य में बिताए समय नहीं है। मेरे पास केवल प्रत्येक पंक्ति के लिए कुल समय है। ताकि उस विधि की प्रयोज्यता को सीमित किया जा सके। आपके क्या विचार हैं?
HCAI

1
इसे उसी तरह से करें जैसे आपने एम किया, केवल निकटतम पड़ोसी संक्रमणों को देखने के बजाय, (कहते हैं, अनुक्रम एबी), उन जोड़ियों को देखें जो 2 अलग हैं। इसलिए, यदि कोई विषय ACB जाता है, तो वह आपके AB संक्रमण गणना की ओर गिनता है। तो एबीबी करता है। एक मैट्रिक्स बनाएं जहां पंक्ति i में आइटम, कॉलम j में i से j संक्रमण है। फिर कॉलम योग द्वारा विभाजित करें। आप चाहते हैं कि कॉलम 1 पर आ जाए। मार्कोव संपत्ति के तहत, यह मैट्रिक्स करीब होना चाहिएM2
Placidia

पुन: संतुलन। मैं यह मान रहा था कि परिवर्तन निर्धारित क्षणों में होते हैं - प्रत्येक सेकंड का कहना है, आप वर्तमान स्थिति से अगले राज्य में संक्रमण करते हैं। आप सीमा के सिरों के पास ए, बी, सी, और डी राज्यों की आवृत्ति या सीक्वेंस के पार ले जा सकते हैं ताकि सीमा व्यवहार का अनुमान लगाया जा सके।
Placidia

R में, यदि आप eigen (M) करते हैं, तो आपको एम। वन के स्वदेशी eigenvalues ​​और eigenvectors मिलने चाहिए। 1. संबंधित eigenvector आपके स्थिर राज्य अनुपात के समानुपाती होना चाहिए .... यदि मार्कोव।
Placidia

2

XtP(t)tt if observations are daily, and then a dependence Xt on Xt7 conditional on Xt1 may be diagnosed if TH is unduly assumed.

Assuming TH holds, a possible check for MP is testing that Xt is independent from Xt2 conditional on Xt1, as Michael Chernick and StasK suggested. This can be done by using a test for contingency table. We can build the n contingency tables of Xt and Xt2 conditional on {Xt1=xj} for the n possible values xj, and test for independence. This can also be done using Xt with >1 in place of Xt2.

In R, contingency tables or arrays are easily produced thanks to the factor facility and the functions apply, sweep. The idea above can also be exploited graphically. Packages ggplot2 or lattice easily provide conditional plots to compare conditional distributions p(Xt|Xt1=xj,Xt2=xi). For instance setting i as row index and j as column index in trellis should under MP lead to similar distributions within a column.

The chap. 5 of the book The statistical analysis of stochastic processes in time by J.K Lindsey contains other ideas for checking assumptions.

enter image description here

[## simulates a MC with transition matrix in 'trans', starting from 'ini'
simMC <- function(trans, ini = 1, N) {
  X <- rep(NA, N)
  Pcum <- t(apply(trans, 1, cumsum))
  X[1] <- ini 
  for (t in 2:N) {
    U <- runif(1)
    X[t] <- findInterval(U, Pcum[X[t-1], ]) + 1
  }
  X
}
set.seed(1234)
## transition matrix
P <- matrix(c(0.1, 0.1, 0.1, 0.7,
              0.1, 0.1, 0.6, 0.2,
              0.1, 0.3, 0.2, 0.4,
              0.2, 0.2, 0.3, 0.3),
            nrow = 4, ncol = 4, byrow = TRUE)
N <- 2000
X <- simMC(trans = P, ini = 1, N = N)
## it is better to work with factors
X <- as.factor(X)
levels(X) <- LETTERS[1:4]
## table transitions and normalize each row
Phat <- table(X[1:(N-1)], X[2:N])
Phat <- sweep(x = Phat, MARGIN = 1, STATS = apply(Phat, 1, sum), FUN = "/")
## explicit dimnames
dimnames(Phat) <- lapply(list("X(t-1)=" ,"X(t)="),
                         paste, sep = "", levels(as.factor(X)))
## transition 3-fold contingency array
P3 <- table(X[1:(N-2)], X[2:(N-1)], X[3:N])
dimnames(P3) <- lapply(list("X(t-2)=", "X(t-1)=" ,"X(t)="),
                       paste, sep = "", levels(as.factor(X)))
## apply ONE indendence test 
fisher.test(P3[ , 1, ], simulate.p.value = TRUE)
## plot conditional distr.
library(lattice)
X3 <- data.frame(X = X[3:N], lag1X =  X[2:(N-1)], lag2X = X[1:(N-2)])
histogram( ~ X | lag1X + lag2X, data = X3, col = "SteelBlue3")

]


2

I think placida and mpiktas have both given very thoughtful and excellent approaches.

I am answering because I just want to add that one could construct a test to see if P(Xi=x|Xi1=y) is different from P(Xi=x|Xi1=y and Xi2=z).

I would pick values for x, y and z for which there are a large number of cases where the transition from z to y to x occurs. Compute sample estimates for both probabilities. Then test for difference in proportions. The difficult aspect of this is to get the variances of the two estimates under the null hypothesis that say the proportions are equal and the chain is stationary and Markov. In that case under the null hypothesis if we just look at all 2 stage transitions and compare them to their corresponding three stage transitions but only include outcomes where these sets of paired outcomes are separate by at least 2 time points then the sequence of joint outcomes where success is defined as a z to y to x transition and all other two stage transitions to x as failures represent a set of independent Bernoulli trials under the null hypothesis. The same would work for defining all y to x transitions as successes and other one stage transitions to x as failures.

Then the test statistic would be the difference between these estimated proportions. The complication to the standard comparison of the Bernoulli sequences is that they are correlated. But you could do a bootstrap test of binomial proportions in this case.

The other possibility is to construct a two by two table of the two stage and three stage paired outcomes where 0 is failure and 1 is success and the cell frequencies are counts for the pairs (0,0), (0,1), (1,0) and (1,1) where the first component is the two stage outcome and the second is the corresponding three stage outcome. You can then apply McNemar's test to the table.


I see what you are referring to here although I'm finding the first paragraph very terse however. For example "Compute sample estimates[...], then test for difference in proportions". What do you mean by sample estimates? Surely there would be no variance in
P(Xi|Xi1=y)
or am I misunderstanding your train of thought?
HCAI

@user1134241 You mentioned "empirically observed", I assumed that you have data from this stochastic sequence. If you want to estimate P(Xi=x|Xi1=y) for each index i-1 where Xi1=y, count the number of times Xi = x and divide it by the number of times Xi1 = y (regardless of what Xi equals). That is an estimate because the observed finite sequence is just a sample of a portion of a sequence of the stochastic process.
Michael R. Chernick

In your last paragraph, let me ask what constitute a success and exactly? In the case where you say a two-step transition: are you saying iji and a 3-step would be ijki?
HCAI

1

You could bin the data into evenly spaced intervals, then compute the unbiased sample variances of subsets {Xn+1:Xn=x1,Xnk=x2}. By the law of total variance,

Var[E(Xn+1|Xn,Xnk)|Xn]=Var[Xn+1|Xn]E(Var[Xn+1|Xn])

The LHS, if it is almost zero, provides evidence that the transition probabilities do not depend on Xnk, though it is clearly a weaker statement: e.g., let Xn+1N(Xn,Xn1). Taking the expected value of both sides of the above equation, the RHS can be computed from the sample variances (i.e., replacing expected values with averages). If the expected value of the variance is zero then the variance is 0 almost always.

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.