उम्मीद है कि इन मंचों पर कोई व्यक्ति जीन अभिव्यक्ति अध्ययन में इस बुनियादी समस्या से निपटने में मेरी मदद कर सकता है।
मैंने एक प्रायोगिक और एक नियंत्रण ऊतक की गहरी अनुक्रमण किया। मैंने तब नियंत्रण में प्रायोगिक नमूने में जीन के गुना संवर्धन मूल्यों को प्राप्त किया। संदर्भ जीनोम में ~ 15,000 जीन होते हैं। १५,००० में से ३,००० जीन नियंत्रण के मुकाबले मेरी रुचि के नमूने में एक निश्चित कट-ऑफ से ऊपर हैं।
तो: A = कुल जीन जनसंख्या = 15,000 B = RNA-Seq समृद्ध उप-युग्म = 3,000।
पिछले चिप चिप प्रयोग में, मुझे 400 जीन मिले जो चिप चिप द्वारा समृद्ध हैं। 400 चिप चिप जीनों में से, 100 जीन 3,000 समृद्ध आरएनए-सेक टेपों के समूह में हैं।
तो: चिप चिप समृद्ध जीन के सी = कुल # = 400।
क्या संभावना है कि मेरे 100 चिप चिप जीन आरएनए-सेक द्वारा अकेले संयोग से समृद्ध होंगे? दूसरे शब्दों में, बी और सी (100 जीन) के बीच ओवरलैप होने पर गणना करने का सबसे विवेकपूर्ण तरीका क्या अकेले संयोग से प्राप्त किसी भी तरह से बेहतर है? मैंने अब तक जो कुछ भी पढ़ा है, उसमें से यह सबसे अच्छा तरीका है हाइपरमेट्रिक वितरण का उपयोग करके।
मैंने एक ऑनलाइन कैलकुलेटर (stattrek.com) का उपयोग निम्न मापदंडों के साथ एक हाइपरजेटोमेट्रिक वितरण परीक्षण स्थापित करने के लिए किया: - पॉप आकार = 15,000 - जनसंख्या में सफलताओं का = 3,000 - नमूना आकार = 400, - # 100 में सफलताओं का। मुझे हाइपरजोमेट्रिक प्रोबेबिलिटी P (x = 100) = 0.00224050636447747 के लिए निम्नलिखित मिलता है
B और C = 100 के बीच ओवरलैप करने वाले जीन का वास्तविक #। क्या यह संयोग से बेहतर है? ऐसा नहीं लगता है कि अगर किसी एक जीन के समृद्ध होने की संभावना 1: 5 (15,000 में से 3,000) है। यही कारण है कि मुझे समझ नहीं आ रहा है कि मेरा पी (x = 100) कैसे आता है, जिसकी गणना मैंने ऊपर 0.0022 की है। मौका द्वारा होने वाली ओवरलैप की 0.2% संभावना के लिए यह मात्रा। यह बहुत अधिक नहीं होना चाहिए?
यदि मैंने 400 यादृच्छिक जीनों की गणना 15,000 की बड़ी सूची से की है, तो इनमें से किसी भी 80 जीनों को अकेले संयोग से समृद्ध होने की उम्मीद होगी (1: 5)। वास्तव में अतिव्यापी जीन की संख्या 100 है, इसलिए यह संयोग से थोड़ा बेहतर है।
मैंने R में dhyper या phyper फ़ंक्शंस का उपयोग करके एक समाधान के साथ आने की कोशिश की (जो मैंने किसी अन्य पोस्ट में देखा था): A = जीन में सभी जीन (15,000) B = RNA-Seq समृद्ध जीन (3,000 C) = चिप -चिप समृद्ध जीन (400) यहां आर इनपुट / आउटपुट (पिछले स्टैकएक्सचेंज पोस्ट से अनुकूलित):
> totalpop <- 15000
> sample1 <- 3000
> sample2 <- 400
> dhyper(0:2, sample1, totalpop-sample1, sample2)
[1] 4.431784e-40 4.584209e-38 2.364018e-36
> phyper(-1:2, sample1, totalpop-sample1, sample2)
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36
मुझे यकीन नहीं है कि इन नंबरों की व्याख्या कैसे करें। मेरा मानना है कि 2.36e-36 अकेले बी और सी के बीच पूर्ण ओवरलैप होने की संभावना है? लेकिन इससे कोई मतलब नहीं है, क्योंकि संभावना 1: 5 के करीब है। यदि मैं 15,000 जीनों से शुरू करता हूं, तो 3,000 समृद्ध होंगे। इसी तरह, अगर मैं 400 चिप चिप जीन के साथ शुरू करता हूं, तो उनमें से 80 को उस डेटा सेट में संवर्धन के 1: 5 अवसरों के कारण अकेले आरएनए-सेक में समृद्ध होना चाहिए।
बी और सी के ओवरलैप के लिए, हाइपरजोमेट्रिक वितरण के अनुसार, पी-मूल्य की गणना करने का उचित तरीका क्या है?