एक आरएनए seq और एक चिप चिप डेटा सेट के बीच जीन सूची ओवरलैप की संभावना की गणना


13

उम्मीद है कि इन मंचों पर कोई व्यक्ति जीन अभिव्यक्ति अध्ययन में इस बुनियादी समस्या से निपटने में मेरी मदद कर सकता है।

मैंने एक प्रायोगिक और एक नियंत्रण ऊतक की गहरी अनुक्रमण किया। मैंने तब नियंत्रण में प्रायोगिक नमूने में जीन के गुना संवर्धन मूल्यों को प्राप्त किया। संदर्भ जीनोम में ~ 15,000 जीन होते हैं। १५,००० में से ३,००० जीन नियंत्रण के मुकाबले मेरी रुचि के नमूने में एक निश्चित कट-ऑफ से ऊपर हैं।

तो: A = कुल जीन जनसंख्या = 15,000 B = RNA-Seq समृद्ध उप-युग्म = 3,000।

पिछले चिप चिप प्रयोग में, मुझे 400 जीन मिले जो चिप चिप द्वारा समृद्ध हैं। 400 चिप चिप जीनों में से, 100 जीन 3,000 समृद्ध आरएनए-सेक टेपों के समूह में हैं।

तो: चिप चिप समृद्ध जीन के सी = कुल # = 400।

क्या संभावना है कि मेरे 100 चिप चिप जीन आरएनए-सेक द्वारा अकेले संयोग से समृद्ध होंगे? दूसरे शब्दों में, बी और सी (100 जीन) के बीच ओवरलैप होने पर गणना करने का सबसे विवेकपूर्ण तरीका क्या अकेले संयोग से प्राप्त किसी भी तरह से बेहतर है? मैंने अब तक जो कुछ भी पढ़ा है, उसमें से यह सबसे अच्छा तरीका है हाइपरमेट्रिक वितरण का उपयोग करके।

मैंने एक ऑनलाइन कैलकुलेटर (stattrek.com) का उपयोग निम्न मापदंडों के साथ एक हाइपरजेटोमेट्रिक वितरण परीक्षण स्थापित करने के लिए किया: - पॉप आकार = 15,000 - जनसंख्या में सफलताओं का = 3,000 - नमूना आकार = 400, - # 100 में सफलताओं का। मुझे हाइपरजोमेट्रिक प्रोबेबिलिटी P (x = 100) = 0.00224050636447747 के लिए निम्नलिखित मिलता है

B और C = 100 के बीच ओवरलैप करने वाले जीन का वास्तविक #। क्या यह संयोग से बेहतर है? ऐसा नहीं लगता है कि अगर किसी एक जीन के समृद्ध होने की संभावना 1: 5 (15,000 में से 3,000) है। यही कारण है कि मुझे समझ नहीं आ रहा है कि मेरा पी (x = 100) कैसे आता है, जिसकी गणना मैंने ऊपर 0.0022 की है। मौका द्वारा होने वाली ओवरलैप की 0.2% संभावना के लिए यह मात्रा। यह बहुत अधिक नहीं होना चाहिए?

यदि मैंने 400 यादृच्छिक जीनों की गणना 15,000 की बड़ी सूची से की है, तो इनमें से किसी भी 80 जीनों को अकेले संयोग से समृद्ध होने की उम्मीद होगी (1: 5)। वास्तव में अतिव्यापी जीन की संख्या 100 है, इसलिए यह संयोग से थोड़ा बेहतर है।

मैंने R में dhyper या phyper फ़ंक्शंस का उपयोग करके एक समाधान के साथ आने की कोशिश की (जो मैंने किसी अन्य पोस्ट में देखा था): A = जीन में सभी जीन (15,000) B = RNA-Seq समृद्ध जीन (3,000 C) = चिप -चिप समृद्ध जीन (400) यहां आर इनपुट / आउटपुट (पिछले स्टैकएक्सचेंज पोस्ट से अनुकूलित):

> totalpop <- 15000    
> sample1 <- 3000    
> sample2 <- 400    
> dhyper(0:2, sample1, totalpop-sample1, sample2)    
[1] 4.431784e-40 4.584209e-38 2.364018e-36    
> phyper(-1:2, sample1, totalpop-sample1, sample2)    
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36    

मुझे यकीन नहीं है कि इन नंबरों की व्याख्या कैसे करें। मेरा मानना ​​है कि 2.36e-36 अकेले बी और सी के बीच पूर्ण ओवरलैप होने की संभावना है? लेकिन इससे कोई मतलब नहीं है, क्योंकि संभावना 1: 5 के करीब है। यदि मैं 15,000 जीनों से शुरू करता हूं, तो 3,000 समृद्ध होंगे। इसी तरह, अगर मैं 400 चिप चिप जीन के साथ शुरू करता हूं, तो उनमें से 80 को उस डेटा सेट में संवर्धन के 1: 5 अवसरों के कारण अकेले आरएनए-सेक में समृद्ध होना चाहिए।

बी और सी के ओवरलैप के लिए, हाइपरजोमेट्रिक वितरण के अनुसार, पी-मूल्य की गणना करने का उचित तरीका क्या है?

जवाबों:


15

आप के उपयोग के साथ dhyperऔर पास हैं phyper, लेकिन मुझे समझ नहीं आ रहा है कि कहां 0:2और कहां -1:2से आ रहे हैं।

जो पी-वैल्यू आप चाहते हैं, वह एक सफेद कलश से ४०० सफ़ेद बॉल्स और १२००० ब्लैक बॉल्स के साथ ४०० के नमूने में १०० या अधिक व्हाइट बॉल्स प्राप्त करने की संभावना है । इसकी गणना करने के चार तरीके यहां दिए गए हैं।

sum(dhyper(100:400, 3000, 12000, 400))
1 - sum(dhyper(0:99, 3000, 12000, 400))
phyper(99, 3000, 12000, 400, lower.tail=FALSE)
1-phyper(99, 3000, 12000, 400)

ये 0.0078 देते हैं।

dhyper(x, m, n, k)वास्तव में ड्राइंग की संभावना देता है x। पहली पंक्ति में, हम 100 - 400 के लिए संभावनाओं को जोड़ते हैं; दूसरी पंक्ति में, हम 1 शून्य से 0 - 99 की संभावनाओं का योग लेते हैं।

phyper(x, m, n, k)xकम या कम होने की संभावना देता है , तो phyper(x, m, n, k)जैसा है वैसा ही है sum(dhyper(0:x, m, n, k))

lower.tail=FALSEथोड़ा भ्रमित है। phyper(x, m, n, k, lower.tail=FALSE)के रूप में ही है 1-phyper(x, m, n, k), और इसलिए x+1या अधिक की संभावना है । [मुझे यह कभी याद नहीं है और इसलिए हमेशा डबल चेक करना पड़ता है।]

उस stattrek.com साइट पर , आप पहली पंक्ति "हाइपरजोमेट्रिक प्रायिकता: P (X = 100)" के बजाय "संचयी संभावना: P (X 100)," को देखना चाहते हैं ।

किसी भी विशेष रूप से संख्या है कि आप आकर्षित छोटे संभावना है करने के लिए जा रहा है (वास्तव में, max(dhyper(0:400, 3000, 12000, 400))देता है 0.050), और 101 या 102 हो रही या अन्य कोई बड़ी संख्या और भी दिलचस्प है कि 100 है, और पी-मूल्य अशक्त है, संभावना है परिकल्पना सच थी, जो कि देखी गई तुलना में दिलचस्प या अधिक के रूप में एक परिणाम प्राप्त करने की थी।~

यहाँ इस मामले में अतिवृद्धि वितरण की एक तस्वीर है। आप देख सकते हैं कि यह 80 (400 का 20%) पर केंद्रित है और यह 100 सही पूंछ में बहुत दूर है। यहां छवि विवरण दर्ज करें


आपकी मदद के लिए एक गुच्छा धन्यवाद। मैं आपके उत्तर के पीछे के तर्क को समझता हूं। लेकिन मैं जीव विज्ञानियों के एक समूह को कैसे समझाऊं कि यह अकेले मौका के कारण देखे गए ओवरलैप से अधिक है? वे कहेंगे कि मेरे पास ओवरलैप का 1: 5 मौका है। क्या मेरा ओवरलैप महत्वपूर्ण है क्योंकि ४०० गेंदों (१५,००० कुल गेंदों में से) का एक नमूना आकार में, एक सफेद गेंद प्राप्त करने का मेरा मौका वास्तव में १: ५ से कम है क्योंकि मैं एक छोटी आबादी (पूरे १५,००० नहीं) का नमूना ले रहा हूं? इसका कोई मतलब नहीं है क्योंकि भले ही 400 <15,000 है, फिर भी 1: 5 का अनुपात सफेद: काला है। इसका कोई मतलब भी है क्या?
स्टेंड्रॉइडफैन

@stlandroidfan - मुझे समझ नहीं आ रहा है कि आप क्या भ्रमित कर रहे हैं। मैंने एक आंकड़ा जोड़ा है; क्या यह मदद करता है?
कार्ल

0

इसे इस तरह से देखें .. यदि आपने इसे एक द्विपद के रूप में मान लिया है, जो सही नहीं हो सकता है, लेकिन यह काफी अनुमानित होना चाहिए .. आपका सिग्मा ^ 2 है ।8 * .2 * 400 = 64, तब सिग्मा = 8. तो 80 से 100 तक आप 2.5 मानक विचलन गए हैं .. यह बहुत महत्वपूर्ण है .. इसका एक छोटा पी-मान होना चाहिए।


आपके उत्तर के लिए धन्यवाद। साहित्य में मैंने जो देखा है उससे जीन सूची ओवरलैप के लिए हाइपरजोमेट्रिक वितरण अधिक बार उपयोग किया जाता है। सवाल यह है कि 3000 सफेद गेंदों और 12000 काली गेंदों के साथ कलश से आकार 400 के नमूने में 100 या अधिक सफेद गेंदों को प्राप्त करने की संभावना क्या है? मुझे लगता है कि मैं अभी भी इस बात से हैरान हूं कि जीव विज्ञानियों के झुंड को यह कैसे समझा जाए? जिस तरह से वे इसे देखते हैं वह 3000: 12000 है 1: 5 सफेद होने की संभावना: काला। तो 400, 80 के नमूने में सफेद होना चाहिए। तो कैसे 100 या अधिक होने की संभावना 20% (5 में 1) से बहुत कम है?
स्टेंड्रॉइडफैन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.