जीन दोहराव स्तर द्वारा संवर्धन विश्लेषण


11

जैविक पृष्ठभूमि

समय के साथ, कुछ पौधों की प्रजातियां अपने पूरे जीनोम की नकल करती हैं, प्रत्येक जीन की एक अतिरिक्त प्रति प्राप्त करती हैं। इस सेटअप की अस्थिरता के कारण, इन जीनों में से कई को हटा दिया जाता है, और जीनोम खुद को फिर से व्यवस्थित करता है और स्थिर होता है, फिर से डुप्लिकेट करने के लिए तैयार होता है। ये दोहराव घटनाएँ अटकलों और आक्रमण की घटनाओं से जुड़ी हैं, और सिद्धांत यह है कि दोहराव पौधों को उनके नए वातावरण में तेजी से अनुकूल बनाने में मदद करता है।

लुपिनस, फूलों के पौधे की एक जीनस, कभी पता चला सबसे तेजी से सट्टा घटनाओं में से एक में एंडीज पर हमला किया, और क्या अधिक है, यह सबसे निकट से संबंधित जीनस, बैप्टिसिया की तुलना में इसके जीनोम में अधिक डुप्लिकेट प्रतियां हैं।

और अब गणितीय समस्या:

ल्यूपिनस के एक सदस्य और बैप्टीशिया के सदस्य के जीनोम को अनुक्रमित किया गया है, जो प्रत्येक प्रजाति में लगभग 25,000 जीनों को कच्चा डेटा प्रदान करता है। ज्ञात फ़ंक्शन के जीन के एक डेटाबेस के खिलाफ क्वेरी करके, अब मेरे पास "सर्वश्रेष्ठ अनुमान" है कि जीन क्या कार्य कर सकता है - इसलिए, उदाहरण के लिए, जीन 1298 "फ्रुक्टोज चयापचय, नमक तनाव प्रतिक्रिया, ठंड तनाव प्रतिक्रिया" के साथ जुड़ा हो सकता है। मैं जानना चाहता हूं, अगर बैप्टीशिया और ल्यूपिनस के बीच दोहराव की घटना थी, क्या जीन की हानि यादृच्छिक रूप से हुई थी, या क्या विशेष कार्य करने वाले जीनों को रखा जाना या नष्ट होने की संभावना थी।

मेरे पास एक स्क्रिप्ट है जो नीचे दिखाई गई तालिका की तरह एक आउटपुट देगी। L * फंक्शन से जुड़े सभी ल्यूपिनस जीन की गिनती है। L 1+ लूपिनस जीन की एक गिनती है जो फ़ंक्शन से जुड़ी होती है जहां कम से कम एक डुप्लिकेट कॉपी मौजूद होती है। मैं इसे एल 2+, एल 3+ आदि का उत्पादन करने के लिए प्राप्त कर सकता हूं, हालांकि अनुक्रमण प्रक्रिया के कारण एल 1+ एल 2+ की तुलना में बहुत अधिक विश्वसनीय समूह है।

Function            | L *  | L 1+ | B *  | B 1+ |
fructose metabolism | 1000 | 994  | 1290 | 876  |
salt stress         | 56   | 45   | 90   | 54   |
etc.

मैं क्या करना चाहूंगा, प्रत्येक जीन फ़ंक्शन के लिए परीक्षण करना है, चाहे डुप्लिकेट के साथ अधिक या कम जीन हैं जो ल्युपिनस और बैपटिसिया में संयोग से उम्मीद की जा सकती है, और क्या ल्यूपिनस लुप्तप्राय से बपतिस्मा से अलग होने की उम्मीद है।

मेरे पास अब तक की सबसे अच्छी चीज है

प्रत्येक प्रजाति पर एक आकस्मिक परीक्षण करने के लिए, विभिन्न प्रजातियों पर किए गए पिछले अध्ययनों ने फिशर के सटीक परीक्षण और कई नमूने के लिए एफडीआर सुधार के साथ संवर्धन विश्लेषण का उपयोग किया है।

इस पर सुधार करना अच्छा होगा; मुझे यकीन नहीं है कि यह ऐसा करने का सबसे अच्छा तरीका लगता है।

Glen_b ने डेटा का विश्लेषण करने के लिए GLM का उपयोग करने का सुझाव दिया है; मैंने JMP8 में GLMs के साथ खेला है, जो दिलचस्प रहा है, लेकिन मैं वास्तव में उन्हें नहीं समझने के लिए स्वीकार करूंगा।

उस ने कहा, मैं अब के बजाय आर का उपयोग करने की कोशिश कर रहा हूं।

मैं इसके लिए क्या उपयोग कर रहा हूं?

यह मूल रूप से एक छोटी अनुसंधान परियोजना के हिस्से के रूप में माना जाता था जो मैं विश्वविद्यालय में कर रहा था, लेकिन अब एक विशाल जीनोम एनोटेशन परियोजना में बंद हो गया है। क्यों? क्योंकि जैव सूचना विज्ञान ठंडा है। ए, टी, सी और जी का तार लेने में सक्षम होना और लाखों वर्षों पहले हुई घटनाओं के बारे में जानकारी के लिए इसका उपयोग करना अद्भुत है।

कहने की जरूरत नहीं है, मैं अपने स्वयं के काम के रूप में किसी भी तरह का जवाब देने की कोशिश करने और प्रस्तुत करने नहीं जा रहा हूं। यदि मैं प्रस्तुत कार्य में यहां बताई गई विधि का उपयोग करता हूं तो मुझे पेपर में एक पावती शामिल करने में खुशी होगी।


1
आपके अन्य प्रश्न के मेरे पहले उत्तर में बताई गई समस्या पर ध्यान दें - केवल एक चर के खिलाफ परीक्षण के बारे में जब अन्य महत्वपूर्ण चर हैं (मैंने सिम्पसन के विरोधाभास पर विकिपीडिया लेख की ओर इशारा किया है) - फिशर का सटीक परीक्षण इसके आसपास नहीं मिलता है।
Glen_b -Reinstate Monica

जैव सूचना विज्ञान है शांत !! साइट पर आपका स्वागत है!
काइल।

मैं जल्द ही वापस आऊंगा और अधिक व्यापक उत्तर दूंगा, लेकिन आर को देखने के लिए उपयुक्त कार्य लॉगलिन, लॉज्लम (पैकेज एमएएस में, जो आर के साथ आता है, लेकिन डिफ़ॉल्ट रूप से स्थापित नहीं होता है) और खुद को चमक देता है। इन मॉडलों की समझ कई प्रतिगमन और एनोवा को समझने के लिए समानता का एक बहुत कुछ करना होगा - अपवादों के साथ कि वितरण सामान्य नहीं हैं, और लॉग-ऑफ-द का मतलब है क्या मॉडल में रैखिक हैं।
Glen_b -Reinstate मोनिका

जवाबों:


1

जबकि मैं मानता हूं कि फिशर का परीक्षण (या कुछ इसी तरह) यहां सबसे प्राकृतिक दृष्टिकोण हो सकता है, इस बारे में:

  1. प्रत्येक अद्वितीय जीन के लिए, आप एल और बी में दोहराव की संख्या का अंतर निर्धारित करते हैं
  2. इस अंतर से जीन का आदेश दें। अब प्रजातियों के बीच अधिकांश अंतर दिखाने वाले जीन आपकी सूची में सबसे ऊपर होंगे।
  3. जीन की क्रमबद्ध सूची में जीन सेट संवर्धन परीक्षण लागू करें। उदाहरण के लिए, आप मेरे पैकेज tmod से संशोधित फ़िशर विधि का उपयोग कर सकते हैं , जिसके लिए आपको अपने जीन सेट को परिभाषित करना होगा (यह काफी सीधा होना चाहिए)। ध्यान दें कि फिशर की विधि फिशर के परीक्षण से संबंधित नहीं है।

संशोधित फिशर का परीक्षण (लेखकों द्वारा डर्ब्ड CERNO, जिन्होंने पहले इस संदर्भ में इसका वर्णन किया था) इनपुट के रूप में किसी भी क्रमबद्ध जीन की सूची लेता है , जब तक कि आप उन्हें कुछ उपयोगी श्रेणियों में समूहित कर सकते हैं।

इस दृष्टिकोण का लाभ यह है कि एक पी-मूल्य के अलावा, आप आसानी से संवर्धन के प्रभाव के आकार की गणना कर सकते हैं और इसे कल्पना कर सकते हैं (उदाहरण के लिए, जीन की क्रमबद्ध सूची में आरओसी वक्र के रूप में)। यह आपको एक बेहतर विचार देता है कि आप जीव विज्ञान के अध्ययन के लिए कितना मायने रखते हैं।


0

जैसा कि आप कहते हैं, आप दो अलग-अलग प्रश्न पूछ रहे हैं।

प्रश्न 1 "किसी दिए गए जीन फ़ंक्शन के लिए B * / B1 + से भिन्न L * / L1 + का अनुपात है"

जैसा कि आपने पहले पाया था, पंक्ति के डेटा का उपयोग करके फिशर के सटीक परीक्षण के साथ इसका सबसे अच्छा जवाब दिया जा सकता है।

प्रश्न 2 "वह अनुपात है: जीन जहां एक एकल प्रति / जीन है जहां एक से अधिक प्रति है, जीन कार्यों के बीच अलग है?"

मुझे लगता है कि यह फिशर के सटीक परीक्षण के साथ सबसे अच्छा जवाब हो सकता है। आप जीन समारोह 1 के लिए L * / L1 + के अनुपात को L * / L1 + जीन फ़ंक्शन के लिए परीक्षण करेंगे। फिर जीन फ़ंक्शन 1 Vs जीन फ़ंक्शन 3, आदि।

इनमें से न तो प्रश्नों के सेट पर यह पाया जाता है कि वे संयोग से शुद्ध रूप से अपेक्षित से अधिक तेजी से बनाए / हटाए जा रहे हैं या नहीं, केवल उन्हें एक दूसरे से अलग दरों पर हटाया / बनाए रखा जा रहा है या नहीं। यह जानने के लिए कि क्या उन्हें संयोग से भिन्न दर से हटाया / बनाए रखा जा रहा है, आपको बहुत सारे डीएनए क्षेत्रों के लिए एकलकोपी / मल्टीकॉपी के अनुपात को जानना होगा जो केवल संयोग से प्रभावित हो रहे हैं। यदि आप ऐसे क्षेत्र पा सकते हैं, तो आप एक "फ़ंक्शन समूह" के साथ समाप्त होंगे जहां फ़ंक्शन "कोई नहीं" है। आप फिर इसे अपने अन्य जीन फ़ंक्शन समूहों की उसी तरह से तुलना करेंगे जैसे मैंने प्रश्न 2 में वर्णित किया था।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.