जैविक पृष्ठभूमि
समय के साथ, कुछ पौधों की प्रजातियां अपने पूरे जीनोम की नकल करती हैं, प्रत्येक जीन की एक अतिरिक्त प्रति प्राप्त करती हैं। इस सेटअप की अस्थिरता के कारण, इन जीनों में से कई को हटा दिया जाता है, और जीनोम खुद को फिर से व्यवस्थित करता है और स्थिर होता है, फिर से डुप्लिकेट करने के लिए तैयार होता है। ये दोहराव घटनाएँ अटकलों और आक्रमण की घटनाओं से जुड़ी हैं, और सिद्धांत यह है कि दोहराव पौधों को उनके नए वातावरण में तेजी से अनुकूल बनाने में मदद करता है।
लुपिनस, फूलों के पौधे की एक जीनस, कभी पता चला सबसे तेजी से सट्टा घटनाओं में से एक में एंडीज पर हमला किया, और क्या अधिक है, यह सबसे निकट से संबंधित जीनस, बैप्टिसिया की तुलना में इसके जीनोम में अधिक डुप्लिकेट प्रतियां हैं।
और अब गणितीय समस्या:
ल्यूपिनस के एक सदस्य और बैप्टीशिया के सदस्य के जीनोम को अनुक्रमित किया गया है, जो प्रत्येक प्रजाति में लगभग 25,000 जीनों को कच्चा डेटा प्रदान करता है। ज्ञात फ़ंक्शन के जीन के एक डेटाबेस के खिलाफ क्वेरी करके, अब मेरे पास "सर्वश्रेष्ठ अनुमान" है कि जीन क्या कार्य कर सकता है - इसलिए, उदाहरण के लिए, जीन 1298 "फ्रुक्टोज चयापचय, नमक तनाव प्रतिक्रिया, ठंड तनाव प्रतिक्रिया" के साथ जुड़ा हो सकता है। मैं जानना चाहता हूं, अगर बैप्टीशिया और ल्यूपिनस के बीच दोहराव की घटना थी, क्या जीन की हानि यादृच्छिक रूप से हुई थी, या क्या विशेष कार्य करने वाले जीनों को रखा जाना या नष्ट होने की संभावना थी।
मेरे पास एक स्क्रिप्ट है जो नीचे दिखाई गई तालिका की तरह एक आउटपुट देगी। L * फंक्शन से जुड़े सभी ल्यूपिनस जीन की गिनती है। L 1+ लूपिनस जीन की एक गिनती है जो फ़ंक्शन से जुड़ी होती है जहां कम से कम एक डुप्लिकेट कॉपी मौजूद होती है। मैं इसे एल 2+, एल 3+ आदि का उत्पादन करने के लिए प्राप्त कर सकता हूं, हालांकि अनुक्रमण प्रक्रिया के कारण एल 1+ एल 2+ की तुलना में बहुत अधिक विश्वसनीय समूह है।
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
मैं क्या करना चाहूंगा, प्रत्येक जीन फ़ंक्शन के लिए परीक्षण करना है, चाहे डुप्लिकेट के साथ अधिक या कम जीन हैं जो ल्युपिनस और बैपटिसिया में संयोग से उम्मीद की जा सकती है, और क्या ल्यूपिनस लुप्तप्राय से बपतिस्मा से अलग होने की उम्मीद है।
मेरे पास अब तक की सबसे अच्छी चीज है
प्रत्येक प्रजाति पर एक आकस्मिक परीक्षण करने के लिए, विभिन्न प्रजातियों पर किए गए पिछले अध्ययनों ने फिशर के सटीक परीक्षण और कई नमूने के लिए एफडीआर सुधार के साथ संवर्धन विश्लेषण का उपयोग किया है।
इस पर सुधार करना अच्छा होगा; मुझे यकीन नहीं है कि यह ऐसा करने का सबसे अच्छा तरीका लगता है।
Glen_b ने डेटा का विश्लेषण करने के लिए GLM का उपयोग करने का सुझाव दिया है; मैंने JMP8 में GLMs के साथ खेला है, जो दिलचस्प रहा है, लेकिन मैं वास्तव में उन्हें नहीं समझने के लिए स्वीकार करूंगा।
उस ने कहा, मैं अब के बजाय आर का उपयोग करने की कोशिश कर रहा हूं।
मैं इसके लिए क्या उपयोग कर रहा हूं?
यह मूल रूप से एक छोटी अनुसंधान परियोजना के हिस्से के रूप में माना जाता था जो मैं विश्वविद्यालय में कर रहा था, लेकिन अब एक विशाल जीनोम एनोटेशन परियोजना में बंद हो गया है। क्यों? क्योंकि जैव सूचना विज्ञान ठंडा है। ए, टी, सी और जी का तार लेने में सक्षम होना और लाखों वर्षों पहले हुई घटनाओं के बारे में जानकारी के लिए इसका उपयोग करना अद्भुत है।
कहने की जरूरत नहीं है, मैं अपने स्वयं के काम के रूप में किसी भी तरह का जवाब देने की कोशिश करने और प्रस्तुत करने नहीं जा रहा हूं। यदि मैं प्रस्तुत कार्य में यहां बताई गई विधि का उपयोग करता हूं तो मुझे पेपर में एक पावती शामिल करने में खुशी होगी।