मानव जीनोम को संग्रहीत करने के लिए कितना संग्रहण आवश्यक होगा?


84

मैं बाइट्स (एमबी, जीबी, टीबी, आदि) में स्टोरेज की मात्रा की तलाश कर रहा हूं ताकि किसी एक मानव जीनोम को स्टोर किया जा सके। मैंने विकिपीडिया पर डीएनए, क्रोमोसोम, बेस पेयर, जीन के बारे में कुछ लेख पढ़े और कुछ मोटे अनुमान भी लगाए, लेकिन कुछ भी बताने से पहले मैं यह देखना चाहूँगा कि अन्य लोग इस मुद्दे को कैसे देखेंगे।

एक वैकल्पिक प्रश्न यह होगा कि मानव डीएनए में कितने परमाणु हैं, लेकिन यह इस साइट के लिए विषय नहीं होगा।

मैं समझता हूं कि यह एक सन्निकटन होगा, इसलिए मैं न्यूनतम मूल्य की तलाश कर रहा हूं जो किसी भी मानव के डीएनए को स्टोर करने में सक्षम होगा।


परमाणुओं की संख्या के लिए, यह रचना पर निर्भर करता है। ए और टी जी और सी की तुलना में छोटे अणु हैं। अणु की संरचना बीफ है, हालांकि, इसकी परमाणु संरचना नहीं है, इसलिए यह वास्तव में बहुत उपयोगी गणना नहीं है। (क्या यह की कीमत, जैसे एक अणु उर्फ लिए deoxyadenosine C10H13N5O3 तो 31 परमाणुओं है।)
tripleee


उपयोगकर्ताओं को छोड़कर, स्लेटन, पॉल एमस्ट्रॉन्ग और दिए गए अन्य सभी उत्तरों को इसके सार में गलत या पूर्ण से दूर हैं। उत्तर उपयोगकर्ताओं में (विफल) उल्लेख किया संपीड़न विधियों या खराब तरीके से समझाया गया है। जीनोम के 4 बार डाउनसाइज़िंग को स्पष्ट करने के लिए मेरे उत्तर को देखें जैसा कि कई उत्तरों में देखा गया है।
ZF007

मैं के रूप में विषय से हटकर है क्योंकि यह यहाँ विषय बंद है इस सवाल के बंद करने के लिए, पर होना चाहिए मतदान कर रहा हूँ bioinformatics.stackexchange.com
Chris_Rands

जवाबों:


68

यदि आप ऐसी बातों पर भरोसा करते हैं, तो यहां विकिपीडिया के दावों ( http://en.wikipedia.org/wiki/Human_genome#Information_content से ) का दावा किया गया है :

अगुणित मानव जीनोम का 2.9 बिलियन बेस पेयर अधिकतम 725 मेगाबाइट डेटा के अनुरूप है, क्योंकि हर बेस पेयर को 2 बिट्स द्वारा कोड किया जा सकता है। चूंकि व्यक्तिगत जीनोम एक दूसरे से 1% से कम भिन्न होते हैं, इसलिए वे दोषरहित रूप से लगभग 4 मेगाबाइट तक संकुचित हो सकते हैं।


8
बस कुछ जैविक टिप्पणी जोड़ने के लिए, "अगुणित" का अर्थ है प्रत्येक गुणसूत्र की केवल एक प्रति। मानव संदर्भ सभा अगुणित है (और कई लोगों की पच्चीकारी)। एक वास्तविक व्यक्तिगत जीनोम द्विगुणित होगा (प्रत्येक गुणसूत्र की 2 प्रतियां, एक्स और वाई को छोड़कर) लेकिन फिर से साइटों के एक छोटे से उप-समूह में दो प्रतियों के बीच केवल संस्करण।
एलेक्स स्टोडार्ड

9
एक दिन के लिए इसके बारे में सोचा, और यह महसूस किया: यदि आपने कुछ बेस केस मानव डीएनए को संग्रहीत किया है, तो किसी भी बाद के मानव डीएनए को केवल इसके और आधार मामले के बीच अंतर के रूप में संग्रहीत करने की आवश्यकता होगी। समान सेक्स उदाहरणों के लिए डीएनए 99.9% समान है। और लिंगों के पार यह 98.5% की तरह है।
कोस्टा

3
यह भी याद रखने योग्य बात है कि डीएनए बेस पेयर के भीतर एनकोड की गई सभी जानकारी एपिजेनेटिक जानकारी भी नहीं है ।
अनारफिक

यह समझ में आता है। आधार जोड़े मूल रूप से 4-नारी हैं। 4-नारी संख्या 2 बिट्स है, इसलिए आकार दोगुना करें। इसलिए यह 5.8 गीगाबिट या 5.8 / 8 गीगाबाइट है जो 0.725 जीबी या 725 एमबी है। the कम्प्रेशन ’केवल इसलिए संभव है क्योंकि आप अपने पूरे जीनोम को संचय करने के बजाय मैप किए गए जीनोम के खिलाफ एक अंतर को स्टोर कर सकते हैं।
डेव कजिनो

@Annarfych यह बहुत ही भ्रामक है क्योंकि एपिजेनेटिक जानकारी परिभाषा के अनुसार है, अंतर्निहित नहीं (लोकप्रिय प्रेस में इसके विपरीत भ्रामक दावों के बावजूद)। पैतृक जानकारी केवल डीएनए में संग्रहित है।
कोनराड रूडोल्फ

25

आप सभी डीएनए को एक स्ट्रीम में संग्रहीत नहीं करते हैं, बल्कि अधिकांश समय यह क्रोमोसोम द्वारा स्टोर किया जाता है।

एक बड़ा गुणसूत्र लगभग 300 एमबी और एक छोटा लगभग 50 एमबी का होता है।


संपादित करें:

मुझे लगता है कि पहला कारण जो 2 बिट प्रति बेस जोड़ी में नहीं बचा है, वह डेटा के साथ काम करने के लिए बाधा का कारण होगा। अधिकांश लोगों को यह नहीं पता होगा कि इसे कैसे बदलना है। और यहां तक ​​कि जब रूपांतरण के लिए एक कार्यक्रम दिया जाएगा, तो बड़ी कंपनियों या शोध संस्थानों में बहुत से लोगों को प्रोग्राम स्थापित करने के लिए / पूछने की आवश्यकता नहीं है या पता नहीं है ...

1 जीबी स्टोरेज में कुछ भी खर्च नहीं होता है, यहां तक ​​कि 3 जीबी के डाउनलोड में 100 Mbitps के साथ केवल 4 मिनट लगते हैं और ज्यादातर कंपनियों में तेज गति होती है।

एक और बिंदु यह है कि डेटा उतना सरल नहीं है जितना कि आपको बताया जाता है।

उदाहरण क्रेग_वेंटर द्वारा आविष्कार की गई अनुक्रमण के लिए विधि एक बड़ी सफलता थी लेकिन इसके नीचे के पक्ष हैं। यह एक ही बेस पेयर की लंबी श्रृंखलाओं को अलग नहीं कर सकता है, इसलिए 8 ए या 9 ए के होने पर यह हमेशा 100% स्पष्ट नहीं होता है। जिन चीजों का आपको बाद में ध्यान रखना है ...

एक अन्य उदाहरण डीएनए मिथाइलेशन है क्योंकि आप इस सूचना को 2-बिट प्रतिनिधित्व में संग्रहीत नहीं कर सकते हैं।


2
मुझ से +1। हालांकि, मेरे पास कोई सुराग नहीं है कि "बड़े" या "छोटे" गुणसूत्र का क्या मतलब है?
मिलन बाबुकोव

1
विकिपीडिया जो कहता है उसके साथ ये संख्याएँ मेल नहीं खाती हैं (तालिका देखें। en.wikipedia.org/wiki/Human_genome#Information_content ); मैं यह नहीं कह रहा कि आप गलत हैं, लेकिन क्या आप विसंगति की व्याख्या कर सकते हैं?
ओलिवर चार्ल्सवर्थ

ऐसा लगता है कि वह एमबीपी के बजाय एमबीपी (लाखों बेस-जोड़े, प्रत्येक बेस-जोड़ी जीनोम में एकल स्थिति है) को उद्धृत कर रहा है, जो प्रत्येक स्थिति के 2-बिट एन्कोडिंग को मान सकता है
एलेक्स स्टोडर्ड

कुछ जीनोम के डीएनए मेथिलिकेशन जीव के जीवनकाल में बदल जाते हैं। एक मानव जीनोम के लिए डीएनए मिथाइलेशन डेटा शामिल करना किसी व्यक्ति के सामान्य विवरण के बजाय किसी विशेष समय में किसी व्यक्ति के विस्तृत स्नैपशॉट की तरह होगा। हालाँकि, ओपी ने यह निर्दिष्ट नहीं किया कि वे क्या चाहते हैं।
काउलिनेटर

12

मूल रूप से, प्रत्येक बेस जोड़ी में 2 बिट्स होते हैं (आप टी, जी, सी और ए के लिए 00, 01, 10, 11 का उपयोग कर सकते हैं)। चूंकि मानव जीनोम में लगभग 2.9 बिलियन बेस जोड़े हैं, (2 * 2.9 बिलियन) बिट्स = = 691 मेगाबाइट।

हालाँकि, मैं कोई विशेषज्ञ नहीं हूँ, विकिपीडिया पर ह्यूमन जीनोम पेज निम्नलिखित है:

कच्चा एमबी:

  • पुरुष (XY): 770MB
  • महिला (XX): 756MB

मुझे यकीन नहीं है कि उनका विचलन कहां से आता है, लेकिन मुझे यकीन है कि आप इसका पता लगा सकते हैं।


6
वास्तविक रूप से, 2 से अधिक बिट्स की आवश्यकता होती है, क्योंकि अनुक्रम जानकारी में संग्रहीत अन्य आधार हैं ( Nउदाहरण के लिए, जहां डेटा मैप करने योग्य नहीं है और इसलिए अज्ञात है)। IUPAC न्यूक्लियोटाइड कोड में मानक चार से अधिक शामिल हैं, और यह भंडारण उपरि बढ़ा सकता है। ebi.ac.uk/2can/tutorials/aa.html
एलेक्स रेनॉल्ड्स

@AlexReynolds टूटी हुई कड़ी: /
'।

2
@AlexReynolds @ o0 ' bioinformatics.org/sms2/iupac.html उन IUPAC कोड के लिए एक बेहतर लिंक है। एआईयूआई, एक विशेष जीनोम "स्कैन" को 2% से अधिक की आवश्यकता होती है, क्योंकि इस प्रकार Rए या जी, Nकिसी भी आधार के लिए, .एक अंतर के लिए, आदि। अगर हम पूरी तरह से जीनोम पढ़ सकते हैं, तो यह प्रति बेस सिर्फ 2 बिट होगा। ।
स्काईपेज पेज

1
X गुणसूत्र महिलाओं के लिए एकल है। नर में अतिरिक्त वाई क्रोम होता है। कोडित होने के लिए, जिसे हम सभी एक्स क्रॉम से अलग जानते हैं।
ZF007

यह इस बात पर भी निर्भर करता है कि आप मेगाबाइट को कैसे परिभाषित करते हैं : बाइनरी 2 ^ 20 या मीट्रिक 10 ^ 6 बाइट्स। आप बाइनरी का उपयोग करते हैं, इसलिए आपकी संख्या कम है।
इल -

8

हां, पूरे मानव डीएनए के लिए आवश्यक न्यूनतम रैम लगभग 770 एमबी है। हालाँकि, 2-बिट प्रतिनिधित्व अव्यवहारिक है। इसके माध्यम से खोज करना या उस पर कुछ गणना करना कठिन है। इसलिए कुछ गणितज्ञों ने आधारों की उन अनुक्रमों को संग्रहीत करने के लिए अधिक प्रभावी तरीके से डिज़ाइन किया ... और उन्हें खोज और तुलना एल्गोरिदम में उपयोग किया जैसे उदाहरण GARLI (www.bio.utexas.edu/facademy/antisense/garli/garli.html)। यह एप्लिकेशन अभी मेरे पीसी पर चलता है, इसलिए मैं आपसे कह सकता हूं ... कि व्यावहारिक रूप से इसमें लगभग 563 एमबी का डीएनए संग्रहीत है ।


4

उपयोगकर्ताओं को छोड़कर अधिकांश उत्तर स्लेटन, रचेन, पॉल एमस्ट्रॉन्ग गलत हैं, यदि इसके शुद्ध भंडारण के बारे में एक-एक करके बिना संपीड़न तकनीकों के।

3 जी के साथ न्यूक्लियोटाइड्स का मानव जीनोम 3 जी बाइट्स के साथ मेल खाता है और ~ 750 एमबी नहीं। NCBI के अनुसार निर्मित "अगुणित" जीनोम वर्तमान में 3436687kb या 3.436687 Gb है। अपने लिए यहां देखें ।

हाप्लोइड = एक गुणसूत्र की एकल प्रति। डिप्लोइड = अगुणित के दो संस्करण। मनुष्य के 22 अद्वितीय गुणसूत्र हैं x 2 = 44. पुरुष 23 वा गुणसूत्र X, Y है और कुल मिलाकर 46 बनाता है। मादा 23 वें क्रोम। X है, X है और इस प्रकार कुल मिलाकर 46 बनता है।

पुरुषों के लिए यह एक HDD पर डेटा भंडारण में 23 + 1 गुणसूत्र होगा और महिलाओं के लिए 23 गुणसूत्रों के लिए, अब और फिर जवाब में वर्णित छोटे अंतरों की व्याख्या करना। एक्स क्रोम। पुरुषों से X गुणन के बराबर है। महिलाओं से।

इस प्रकार मेमोरी में जीनोम (23 + 1) को लोड करना फास्टा-फाइलों से निर्मित डेटाबेस का उपयोग करके BLAST के माध्यम से भागों में किया जाता है। ज़िप किए गए संस्करणों के बावजूद या न्यूक्लियोटाइड्स को संकुचित करना मुश्किल नहीं है। शुरुआती दिनों में वापस इस्तेमाल किए गए ट्रिक्स में से एक को बदलने के लिए था (GACGACGAC को छोटे कोडिंग जैसे "3GAC"; 9byte to 4byte)। इसका कारण हार्डड्राइव स्पेस को बचाने के लिए था (500bm-2GB HDDD प्लैटर्स का क्षेत्र 7.200 आरपीएम और एससीएसआई कनेक्टर्स के साथ)। अनुक्रम खोज के लिए यह क्वेरी के साथ भी किया गया था।

यदि "कोडित न्यूक्लियोटाइड" भंडारण 2-बिट प्रति अक्षर होगा तो आपको एक बाइट मिलेगा:

ए = 00
सी = 01
जी = 10
टी = ११

केवल इस तरह से आप 1 बाइट कोडिंग के लिए 1,2,3,4,5,6,7 और 8 पदों से पूरी तरह से लाभ प्राप्त करते हैं। उदाहरण के लिए संयोजन 00.01.10.11 (बाइट के रूप में 00011011) फिर "एक्टीजी" के लिए अनुरूप होगा (और एक अपरिचित चरित्र के रूप में टेक्स्टफाइल में दिखा)। यह अकेले फ़ाइल-आकार में चार गुना कमी के लिए जिम्मेदार है जैसा कि हम अन्य उत्तरों में देखते हैं। इस प्रकार 3.4Gb को 0.85917175 Gb में बदल दिया जाएगा ... ~ 860MB एक तत्कालीन आवश्यक रूपांतरण कार्यक्रम (23kb-4mb) सहित।

लेकिन ... जीव विज्ञान में आप कुछ पढ़ना चाहते हैं, इस तरह से कम से कम gzipped पर्याप्त है। अनज़ैप्ड आप अभी भी इसे पढ़ सकते हैं। यदि इस बाइट भरने का उपयोग किया जाता है, तो डेटा को पढ़ना कठिन हो जाता है। यही कारण है कि फास्टा-फाइलें वास्तविकता में सादा-पाठ फाइलें हैं।


1
आप इसे एक चित्र या ऑडियो रिकॉर्डिंग या वीडियो के रूप में भी स्टोर कर सकते हैं - और यह स्टोर करने के लिए टेराबेट्स ले जाएगा। लेकिन यह आवश्यक और न्यूनतम नहीं है , जैसा कि पूछा गया था।
इल -

@ il - ya ... मुझे वह बिंदु याद आ रहा है जिसे आप बनाने की कोशिश कर रहे हैं ... (मुझे लगता है कि आप टीडीके टेप के 250 किमी के आसपास घूमना पसंद कर रहे हैं .. 600 किलो वजन और रिवाइंड करने में तीन घंटे लगते हैं)?
ZF007

1
मुद्दा यह है, कि 4 बेस जोड़े में से 1 को 2 बिट्स जानकारी के साथ कोडित किया गया है। इसे कोड करने के लिए कितना डेटा चाहिए - आप कम के साथ कोड नहीं कर सकते। लेकिन आप इसे एक अलग तरीके से कोड करने के लिए चुन सकते हैं: आप पूरी बाइट का उपयोग कर सकते हैं, या एक चित्र खींच सकते हैं जो कुछ केबी लेता है, या एक ऑडियो रिकॉर्डिंग करता है। यह सब अभी भी आवश्यक जानकारी संग्रहीत करने की अनुमति देगा, लेकिन इसकी आवश्यकता या न्यूनतम कोडिंग नहीं होगी । आपने मनमाने ढंग से पठनीयता मानदंड (मानक पाठ संपादक का उपयोग करके) लगाया, जो कि मूल प्रश्न में नहीं पूछा गया था।
il -

यह दुर्भाग्य से जीव विज्ञान में काम नहीं करता है। वैज्ञानिकों के बीच संचार की विधि या तो मौखिक रूप से है, कागज या टेक्स्टफाइल-प्रारूप हैं जिन्हें आसानी से एक स्क्रीन से पढ़ा जा सकता है। इस मामले में आपके पास एक बेस-जोड़ियां हैं, शून्य या लोगों के साथ एक बाइट भरना पर्याप्त होगा। हालांकि, 4 आधार (2 जोड़े) हैं। एक बाइट में आपके पास एक बेसीपेयर के लिए 4 पोजीशन और 4 पोजीशन होती है जो बेसपेयर के प्रकार को दर्शाती है। डेटा-कम्प्रेशन काम करता है लेकिन मनुष्यों को पठनीयता की आवश्यकता होती है। RGB कोड में एक एकल पिक्सेल (3 मान और एक तीव्रता मान) 32byte का उपयोग करता है। एक पत्र के लिए 8 बिट्स। इस प्रकार इसे मोना लिसा बनाने का कोई मतलब नहीं है, है ना?
ZF007

6
ZF007, आपने न्यूनतमता के बारे में मेरी बात को याद किया। सवाल था: " मानव डीएनए को संग्रहीत करने के लिए कितनी मेमोरी की आवश्यकता होगी ?" आगे विस्तार के साथ "... मैं न्यूनतम मूल्य की तलाश कर रहा हूं जो किसी भी मानव के डीएनए को स्टोर करने में सक्षम होगा।" आप एक अलग सवाल का जवाब देने की कोशिश कर रहे हैं , जिसका नाम है " जीनोम डेटा को संप्रेषित करने के लिए जीवविज्ञानी द्वारा उपयोग किए जाने वाले पठनीय रूप में मानव डीएनए को संग्रहीत करने में कितना मेमोरी लगेगा ?" यदि आप अच्छे संपीड़न एल्गोरिदम के साथ पठनीय पाठ डेटा को संपीड़ित करते हैं, तो इसका आकार बेसपीयर के 2 बिट्स के नीचे अच्छी तरह से आ जाएगा।
इल -

3

मानव जीनोम में 2.9 बिलियन बेस जोड़े हैं। इसलिए यदि आप प्रत्येक बेस जोड़ी को बाइट के रूप में दर्शाते हैं तो यह 2.9 बिलियन बाइट्स या 2.9 जीबी लेगी। आप संभवतः आधार जोड़े को संग्रहीत करने के अधिक रचनात्मक तरीके से आ सकते हैं क्योंकि प्रत्येक बेस जोड़ी में केवल 2 बिट्स की आवश्यकता होती है। तो आप शायद प्रति जीबी 4 आधार जोड़े को एक जीबी से कम के कुल स्टोर कर सकते हैं।


बिट्स ~ = बाइट्स। 2.9 बिलियन बिट लगभग 350 MB
SDGuero

4
@SDGuero, बेस-जोड़े बेस 4 नहीं बेस 2 हैं, इसलिए आपको बेस पेयर का प्रतिनिधित्व करने के लिए कम से कम 2 बिट्स की आवश्यकता होती है।
स्लैटन

बिट लिंगो पर बीएस ... प्रत्येक न्यूक्लियोटाइड का आधार 1 वर्ण है और इस प्रकार 1 बाइट, चरित्र रूपांतरण तालिका (AscII, UTF-8, आदि) की परवाह किए बिना; 2byte Asian कोडिंग शामिल नहीं है।
ZF007

1
@ zf007 बेस जोड़े एक, सी, जी और टी के टोकन द्वारा दर्शाए जाते हैं। एक चरित्र के समान एक टोकन नहीं है। कोई कारण नहीं है कि 00 के रूप में एनकोडिंग नहीं की जा सकती, 01 के रूप में, 10 के रूप में जी और 11 के रूप में टी
MatBailie

1
वहाँ विसंगति है; आप एक मानव पठनीय फ़ाइल की आवश्यकता पर जोर दे रहे हैं, जो मूल पोस्ट में नहीं है।
MatBailie

3

4 न्यूक्लियोटाइड आधार हैं जो हमारे डीएनए को बनाते हैं ये ए, सी, जी, टी हैं इसलिए डीएनए में प्रत्येक आधार के लिए 2 बिट्स होते हैं। वहाँ लगभग 700 मेगाबाइट के आसपास 2.9billion ठिकाने हैं। अजीब बात यह है कि एक सामान्य डेटा सीडी भरना होगा! संयोग?!?


3

बस भी किया। कच्चे अनुक्रम ~ 700 एमबी है। अगर कोई एक निश्चित भंडारण अनुक्रम या एक निश्चित अनुक्रम भंडारण algoritm का उपयोग करता है - और तथ्य यह है कि परिवर्तन 1% i कैलेक्स्ड हैं ~ 120 एमबी एक पेरोक्रोमोसम-सीक्वॉफसेट-सेंटेल्टा-स्टोरेज भंडारण के साथ। यह भंडारण के लिए है।


1

सभी उत्तर इस तथ्य को छोड़ रहे हैं कि एनयूडीएनए एकमात्र डीएनए नहीं है जो मानव जीनोम को परिभाषित करता है। mtDNA भी विरासत में मिला है और यह एक मानव जीनोम के लिए अतिरिक्त 16,500 बेस पेयर का योगदान देता है, इसे पुरुषों के लिए 770MB के विकिपीडिया अनुमान और महिलाओं के लिए 756MB के अनुरूप अधिक लाता है।

इसका मतलब यह नहीं है कि एक मानव जीनोम को आसानी से 4 जीबी यूएसबी स्टिक पर संग्रहीत किया जा सकता है। बिट्स स्वयं द्वारा सूचना का प्रतिनिधित्व नहीं करते हैं, यह बिट्स का संयोजन है जो जानकारी का प्रतिनिधित्व करता है। तो nuDNA और mtDNA के मामले में, बिट्स को एन्कोड किया जाता है (संपीड़ित होने के लिए भ्रमित नहीं होना) प्रोटीन और एंजाइमों का प्रतिनिधित्व करने के लिए कि खुद को प्रतिनिधित्व करने के लिए कई एमबी कच्चे डेटा की आवश्यकता होती है, खासकर कार्यक्षमता के मामले में।

विचार के लिए भोजन: मानव जीनोम का 80% "गैर-कोडिंग" डीएनए कहा जाता है, तो क्या आप वास्तव में वास्तव में मानते थे कि पूरे मानव शरीर और मस्तिष्क को 151 से 154MB कच्चे डेटा में दर्शाया जा सकता है?


-3

बेस जोड़े के केवल 2 प्रकार हैं, साइटोसिन केवल गुआनिन को बांध सकता है, और एडेनिन केवल थाइमिन को बांध सकता है, इसलिए प्रत्येक बेस जोड़ी को एक ही बिट माना जा सकता है। इसका मतलब यह है कि मानव डीएनए का एक पूरा किनारा ~ 3 बिलियन "बिट्स" ~ 350 मेगाबाइट के आसपास सही होगा।


2
आपके पास 2 प्रकार के जोड़े हैं, और वे दो दिशाओं में हो सकते हैं - इसलिए आपको प्रत्येक जोड़ी के लिए दो बिट्स की आवश्यकता है। यही कारण है कि ऊपर के अधिकांश पोस्ट ~ 700MB, और 350MB नहीं लिखते हैं।
ट्रॉनस्टर

-3

एक बेस - टी, सी, ए, जी (बेस -4 नंबर सिस्टम में: 0, 1, 2, 3) - दो बिट्स (एक नहीं) के रूप में इनकोड किया गया है , इसलिए एक बेस जोड़ी चार बिट्स द्वारा एन्कोड किया गया है ।


2
सिवाय इसके कि एक जोड़ी में एक दूसरे को शामिल किया गया है, इसलिए कोई जानकारी न जोड़ें। तो बेस और बेस पेयर दोनों को दो बिट्स के साथ एनकोड किया जा सकता है।
इल -

यदि आपके पास "ए" है तो आप इसके साथ क्या पूरक हैं? "एसी" "एजी" "एटी" सभी वैध हैं। इसी तरह, यदि आपके पास "टी" "टीजी" "टीसी" "टीए" वैध है, तो आप क्या करते हैं?
रोजर जोहानसन

1
@RogerJohansson नहीं, केवल "AT" बेस पेयर डीएनए में मान्य है। इसी तरह "टीए", "सीजी" और "जीसी" के लिए। कोई अन्य आधार युग्म संयोजन मौजूद नहीं है।
कोनराड रुडोल्फ

@KonradRudolph में कम से कम नौ प्यूरिन हैं ( en.wikipedia.org/wiki/Purine )। इन सभी का उपयोग ए या जी को स्थानापन्न करने के लिए किया जा सकता है। इससे ओपी के प्रश्न का समाधान अधिक जटिल हो जाएगा। मैं इसे सरल रखने के लिए सहमत हूं और ए, जी, टी और सी
ZF007

1
@ ZF007 वे मौजूद हैं, लेकिन वे मानव जीनोम में स्थिर रूप से नहीं होते हैं और इसलिए जीनोम भंडारण के लिए प्रासंगिक नहीं हैं। उनकी जैविक प्रासंगिकता केवल उत्परिवर्तन (और केवल क्षणिक रूप से) और आरएनए संशोधनों के संदर्भ में महत्वपूर्ण है। विशेष रूप से (इस उत्तर के संदर्भ में), जीनोमिक डेटा को "आधार जोड़े" के रूप में संग्रहीत नहीं किया जाता है, इसे एकल ठिकानों के अनुक्रम के रूप में संग्रहीत किया जाता है, और प्रत्येक स्थिति को दो बिट्स में एन्कोड किया जा सकता है। यह सैद्धांतिक नहीं है, यह है कि यह वास्तव में कैसे किया जाता है (इसके अलावा, अधिकांश अनुप्रयोगों के लिए, जेनेटिक डेटा को एएससीआईआई में संग्रहीत किया जाता है, बिट-संकुचित नहीं)।
कोनराड रूडोल्फ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.