बेस जोड़े के एक विशेष अनुक्रम को खोजने की संभावना


10

संभावना के बारे में सोचकर मुझे हमेशा एहसास होता है कि मैं गिनती में कितना बुरा हूं ...

आधार अक्षरों अनुक्रम पर विचार करें , प्रत्येक समान रूप से प्रकट होने की संभावना है। इस अनुक्रम में लंबाई के हित के आधार जोड़े के एक विशेष अनुक्रम में क्या संभावना है ?,nआर एनA,T,C, and Grn

कर रहे हैं अलग (समान रूप से होने की संभावना) संभव दृश्यों। पूर्ण अनुक्रम की शुरुआत में ब्याज के अनुक्रम से शुरू करें; क्रम इस तरह संभव हैं। हम विभिन्न स्थानों में अपनी रुचि के क्रम को शुरू कर सकते हैं । इसलिए, मेरा उत्तर है ।4 एन - आर एन + 1 - आर ( एन + 1 - आर ) / 4 आर4n4nrn+1r(n+1r)/4r

यह संभावना में बढ़ रही है , जो मुझे समझ में आता है। लेकिन यह संभावना 1 से अधिक होती है जब । लेकिन ऐसा नहीं हो सकता। संभावना को सीमा में 1 तक पहुंचना चाहिए (मुझे लगता है), लेकिन इससे अधिक नहीं।n > 4 आर + आर - 1nn>4r+r1

मुझे लगता है कि मैं कुछ गिन रहा हूं। मैं क्या खो रहा हूँ? धन्यवाद।

(FYI करें, होमवर्क नहीं, परीक्षा की तैयारी में सिर्फ एक खिलौना उदाहरण। मेरे आणविक जीवविज्ञानी मित्र द्वारा प्रस्तुत एक प्रश्न।)


इसके बारे में यह सही है कि यह एक से अधिक नहीं होना चाहिए क्योंकि संभावना स्वयंसिद्धों का उल्लंघन करेगा: books.google.com/…
क्रिस सिमोकैट

1
(अस्पष्ट रूप से) संबंधित: आंकड़े.stackexchange.com/questions/12174/…
कार्डिनल

जवाबों:


5

आइए साथ इस समस्या के एक छोटे संस्करण पर विचार करें । पांच अक्षरों के एक क्रम को लक्षित करने के लिए क्या मौका होगा ? यह आसान है: सभी अनुक्रमों के इस स्ट्रिंग के साथ शुरू होते हैं, एक और इसके साथ समाप्त होते हैं, और कोई भी क्रम इस स्ट्रिंग के साथ शुरू और समाप्त नहीं होता है। इसलिए मौका ।A C G T 4 - 4 4 - 4 2 × 4 - 4n=5ACGT44442×44

दूसरी ओर, का मौका क्या है ? एक बार फिर, अनुक्रमों के इस स्ट्रिंग के साथ शुरू होते हैं, इस स्ट्रिंग के साथ समान अनुपात समाप्त होता है, और सभी अनुक्रमों के दोनों करते हैं । इसलिए, समावेशन-बहिष्करण के सिद्धांत द्वारा, उत्तर ।4 - 4 4 - 5 2 × 4 - 4 - 4 - 5AAAA44452×4445

सामान्य तौर पर, उत्तर प्रतिस्थापन की संरचना पर निर्भर करता है। अधिक विशिष्ट होने के लिए, जब आप लिए एक स्ट्रिंग (बाएं से दाएं, कहते हैं) स्कैन कर रहे हैं, तो आप सभी वर्णों को तब तक अनदेखा करते हैं जब तक कि आप इस प्रारंभिक देख लेते । उसके बाद, तीन संभावनाएं हैं: अगला चरित्र लिए एक मैच , अगले एक लिए एक गैर-मैच लेकिन नहीं है (इसलिए आप प्रतीक्षा के लिए वापस- - राज्य में हैं), या अगला एक गैर-मैच है, फिर भी यह एक , जो आपको सिर्फ-देखा- - राज्य में रखता है । इसके विपरीत, खोज पर विचार करें । मान लीजिए आपने उपसर्ग को देखा हैA C C A A AACGTACCAAAएक सी टी सी जी सी टी सी जी सी सी टी ... एक सी टी AACTACGACTAC। यदि है तो अगला वर्ण मेल करेगा । जब यह एक गैर-मैच होता है, (i) एक आपको प्रारंभिक प्रतीक्षा-में- स्थिति में डालता है , (ii) ने आपको लिए बाहर देखा , और (iii) एक अर्थ है कि आपने पहले ही देख लिया है और आप पहले से ही एक मैच के लिए आधे रास्ते पर हैं (और दूसरे )। प्रासंगिक "संरचना" स्पष्ट रूप से लक्ष्य में सबस्ट्रिंग के पैटर्न से युक्त होती है जो लक्ष्य के उपसर्ग से मेल खाती है। इसलिए मौके टारगेट पर निर्भर करते हैं।GCAACTACTA

एफएसए आरेख मैं समय-समय पर एक उत्तर में वकालत करता हूं जो सिक्का-टॉस की एक श्रृंखला में सिर और पूंछ के पैटर्न को हिट करने के लिए लिया गया था, इस घटना को समझने में मदद कर सकता है।


3

एक कच्चा सन्निकटन । आप इस संभावना को लेते हैं कि आपका अनुक्रम किसी विशेष स्थान पर नहीं होता है, इसे स्थानों की संख्या की शक्ति में डाल दें (स्वतंत्रता को गलत तरीके से मानते हुए), जो नहीं है , और यह इसके घटित नहीं होने का एक अनुमान है तो आपको फिर इसे से घटाना होगा । एन - आर + 1 एन - आर 11(11/4r)nr+1nr+1nr1

एक सटीक गणना उस सटीक पैटर्न पर निर्भर करेगी जिसे आप खोज रहे हैं। तुलना में नहीं होने की अधिक संभावना है ।टी सी जी टीAAAAAATCGT


शायद यह सिर्फ मेरे लिए है, लेकिन यह समझने के संदर्भ में थोड़ा स्पष्ट है कि समीकरण का निर्माण कैसे किया गया था। 1(1(1/4)r)n(r1)

@JoeRocc - मुझे संदेह है कि यह व्यक्तिगत है। आप पेज से पढ़ते हैं पेज के माध्यम से एक किताब के, आप पढ़ा है पृष्ठों या पृष्ठों? 400 400 - 300 + 1 = 101 400 - ( 300 - 1 ) = 101300400400300+1=101400(3001)=101
हेनरी

कोई चिंता नहीं, मैं केवल समस्या के अपने अंतर्ज्ञान से जा रहा था। अगर हम सहज रूप से एक समीकरण , तो जब किसी को यह समझाने की कोशिश की जाती है कि मुझे लगता है कि इसे छोड़ना सबसे अच्छा है बजाय इसके कि इसे को सरल बनाया जाए (हालांकि यह निश्चित रूप से विचार पर अधिक सहज हो सकता है)। आपका अंतर्ज्ञान किसी भी मामले में अलग हो सकता है :)एक - + - 1 + (a(b(c1+d)))ab+c1+d

2

आप उन दृश्यों को दोहरा रहे हैं, जिनमें आपका लक्ष्य बाद में कई बार शामिल होता है, उदाहरण के लिए स्थिति A और स्थिति B! = A दोनों। इसलिए आपकी त्रुटिपूर्ण संभावना 1 से अधिक हो सकती है


बहुत अच्छा किया ! +1
माइकल आर। चेर्निक

1

समस्या के मार्कोव श्रृंखला प्रतिनिधित्व का उपयोग करके किसी विशेष परिणाम की सटीक संभावना प्राप्त करना संभव है। श्रृंखला का निर्माण करने की बारीकियों में ब्याज की विशेषता पर निर्भर करता है, लेकिन मैं इसे कैसे करना है, इसके कुछ उदाहरण दूंगा।


मार्कोव श्रृंखला के माध्यम से सटीक संभावना: के परिणामों के एक असतत अनुक्रम पर विचार करें जहां अनुक्रम में परिणाम विनिमेय हैं, और मान लें कि हम लंबाई कुछ विकल्प में रुचि रखते हैं । के किसी भी मूल्य के लिए , चलो घटना है कि ब्याज की सबस्ट्रिंग होता हो, और घटना है कि पिछले होना परिणामों पहले कर रहे हैं की सबस्ट्रिंग में पात्रों ब्याज (लेकिन इससे अधिक नहीं)। हम इन घटनाओं का उपयोग ब्याज के संभावित राज्यों के निम्नलिखित विभाजन को देने के लिए करते हैं:A,T,C,GknWHaaa<kk+1

State 0W¯H0,   State 1W¯H1,   State 2W¯H2,   State 3W¯H3,   State k1W¯Hk1,State kW.  

चूंकि परिणामों के अनुक्रम को विनिमेय माना जाता है, इसलिए हमारे पास उनकी संभावित संभावनाओं पर स्वतंत्र परिणाम सशर्त होते हैं । ब्याज की आपकी प्रक्रिया को असतत समय मार्कोव श्रृंखलाओं के रूप में दर्शाया जा सकता है जो कि पर में शुरू होता है और एक संभावना मैट्रिक्स के अनुसार संक्रमण होता है जो ब्याज के विशेष विकल्प पर निर्भर करता है। संक्रमण मैट्रिक्स हमेशा एकθA+θT+θC+θG=1State 0n=0(k+1)×(k+1)मैट्रिक्स उपरोक्त राज्यों का उपयोग करके संक्रमण की संभावनाओं का प्रतिनिधित्व करता है। यदि ब्याज की प्रतिस्थापन नहीं हुई है, तो प्रत्येक संक्रमण या तो आपको प्रतिस्थापन के करीब एक कदम ला सकता है या यह आपको पिछली स्थिति में वापस सेट कर सकता है जो विशेष प्रतिस्थापन पर निर्भर करता है। एक बार जब सबस्टेशन पहुंच जाता है, तो यह श्रृंखला का एक अवशोषित अवस्था है, इस तथ्य का प्रतिनिधित्व करता है कि ब्याज की घटना हुई है।

उदाहरण के लिए, यदि ब्याज का विकल्प तो संक्रमण मैट्रिक्स है:AAAAAA

P=[1θAθA000001θA0θA00001θA00θA0001θA000θA001θA0000θA01θA00000θA0000001.]

इसके विपरीत, यदि ब्याज का विकल्प तो संक्रमण मैट्रिक्स है:ACTAGC

P=[1θAθA00001θAθCθAθC00001θAθTθA0θT0001θA000θA001θAθCθGθAθC00θG01θAθCθA0000θC0000001.]

जैसा कि ऊपर देखा जा सकता है, संक्रमण मैट्रिक्स के निर्माण के लिए विशेष प्रतिस्थापन पर ध्यान देने की आवश्यकता होती है। एक गलत परिणाम आपको पिछली स्थिति में वापस स्ट्रिंग में सेट करता है जो ब्याज के विशेष विकल्प पर निर्भर करता है। एक बार ट्रांस्फ़ॉर्म मैट्रिक्स के निर्माण के बाद, के दिए गए मान के लिए श्रृंखला में सबस्ट्रिंग होने की संभावना । (यह संभावना सभी लिए शून्य है ।)nP(W|n)={Pn}0,kn<k


आर में यह प्रोग्रामिंग: आप इसे एक फ़ंक्शन के रूप में प्रोग्राम कर सकते हैं Rजो मार्कोव चेन के लिए संक्रमण मैट्रिक्स और कुछ वांछित परीक्षणों तक अपनी शक्तियों का एक सरणी उत्पन्न करता है। तब आप ब्याज के के मूल्य के लिए उपयुक्त संक्रमण संभावना पढ़ सकते हैं । ऐसा करने के लिए यहां कुछ कोड का एक उदाहरण दिया गया है:n

#Create function to give n-step transition matrix for n = 1...N
#We will use the example of the substring of interest "AAAAAA"

#a is the probability of A
#t is the probability of T
#c is the probability of C
#g is the probability of G
#N is the last value of n
PROB <- function(N,a,t,c,g) { TOT <- a+t+c+g;
                              a <- a/TOT; 
                              t <- t/TOT; 
                              c <- c/TOT; 
                              g <- g/TOT; 

                              P <- matrix(c(1-a, a, 0, 0, 0, 0, 0,
                                            1-a, 0, a, 0, 0, 0, 0,
                                            1-a, 0, 0, a, 0, 0, 0,
                                            1-a, 0, 0, 0, a, 0, 0,
                                            1-a, 0, 0, 0, 0, a, 0,
                                            1-a, 0, 0, 0, 0, 0, a,
                                              0, 0, 0, 0, 0, 0, 1),
                                          nrow = 7, ncol = 7, 
                                          byrow = TRUE);
                              PPP <- array(0, dim = c(7,7,N));
                              PPP[,,1] <- P;
                              for (n in 2:N) { PPP[,,n] <- PPP[,,n-1] %*% P; } 
                              PPP }

#Calculate probability for N = 100 for equiprobable outcomes
N <- 100;
a <- 1/4;
t <- 1/4;
c <- 1/4;
g <- 1/4;
PROB(N,a,t,c,g)[1,7,N];

[1] 0.01732435

जैसा कि आप इस गणना से देख सकते हैं, को में बदलने योग्य परिणामों के साथ घटिया होने की संभावना । किसी विशेष सबस्ट्रिंग और दिए गए परीक्षणों की संख्या का उपयोग करने के लिए यह सिर्फ एक उदाहरण है, लेकिन ब्याज के अन्य पदार्थों के संबंध में संभावनाएं प्राप्त करने के लिए यह भिन्न हो सकता है।AAAAAAn=1000.01732435

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.