उपयोगकर्ताओं को छोड़कर अधिकांश उत्तर स्लेटन, रचेन, पॉल एमस्ट्रॉन्ग गलत हैं, यदि इसके शुद्ध भंडारण के बारे में एक-एक करके बिना संपीड़न तकनीकों के।
3 जी के साथ न्यूक्लियोटाइड्स का मानव जीनोम 3 जी बाइट्स के साथ मेल खाता है और ~ 750 एमबी नहीं। NCBI के अनुसार निर्मित "अगुणित" जीनोम वर्तमान में 3436687kb या 3.436687 Gb है। अपने लिए यहां देखें ।
हाप्लोइड = एक गुणसूत्र की एकल प्रति। डिप्लोइड = अगुणित के दो संस्करण। मनुष्य के 22 अद्वितीय गुणसूत्र हैं x 2 = 44. पुरुष 23 वा गुणसूत्र X, Y है और कुल मिलाकर 46 बनाता है। मादा 23 वें क्रोम। X है, X है और इस प्रकार कुल मिलाकर 46 बनता है।
पुरुषों के लिए यह एक HDD पर डेटा भंडारण में 23 + 1 गुणसूत्र होगा और महिलाओं के लिए 23 गुणसूत्रों के लिए, अब और फिर जवाब में वर्णित छोटे अंतरों की व्याख्या करना। एक्स क्रोम। पुरुषों से X गुणन के बराबर है। महिलाओं से।
इस प्रकार मेमोरी में जीनोम (23 + 1) को लोड करना फास्टा-फाइलों से निर्मित डेटाबेस का उपयोग करके BLAST के माध्यम से भागों में किया जाता है। ज़िप किए गए संस्करणों के बावजूद या न्यूक्लियोटाइड्स को संकुचित करना मुश्किल नहीं है। शुरुआती दिनों में वापस इस्तेमाल किए गए ट्रिक्स में से एक को बदलने के लिए था (GACGACGAC को छोटे कोडिंग जैसे "3GAC"; 9byte to 4byte)। इसका कारण हार्डड्राइव स्पेस को बचाने के लिए था (500bm-2GB HDDD प्लैटर्स का क्षेत्र 7.200 आरपीएम और एससीएसआई कनेक्टर्स के साथ)। अनुक्रम खोज के लिए यह क्वेरी के साथ भी किया गया था।
यदि "कोडित न्यूक्लियोटाइड" भंडारण 2-बिट प्रति अक्षर होगा तो आपको एक बाइट मिलेगा:
ए = 00
सी = 01
जी = 10
टी = ११
केवल इस तरह से आप 1 बाइट कोडिंग के लिए 1,2,3,4,5,6,7 और 8 पदों से पूरी तरह से लाभ प्राप्त करते हैं। उदाहरण के लिए संयोजन 00.01.10.11 (बाइट के रूप में 00011011
) फिर "एक्टीजी" के लिए अनुरूप होगा (और एक अपरिचित चरित्र के रूप में टेक्स्टफाइल में दिखा)। यह अकेले फ़ाइल-आकार में चार गुना कमी के लिए जिम्मेदार है जैसा कि हम अन्य उत्तरों में देखते हैं। इस प्रकार 3.4Gb को 0.85917175 Gb में बदल दिया जाएगा ... ~ 860MB एक तत्कालीन आवश्यक रूपांतरण कार्यक्रम (23kb-4mb) सहित।
लेकिन ... जीव विज्ञान में आप कुछ पढ़ना चाहते हैं, इस तरह से कम से कम gzipped पर्याप्त है। अनज़ैप्ड आप अभी भी इसे पढ़ सकते हैं। यदि इस बाइट भरने का उपयोग किया जाता है, तो डेटा को पढ़ना कठिन हो जाता है। यही कारण है कि फास्टा-फाइलें वास्तविकता में सादा-पाठ फाइलें हैं।