यह एक दिलचस्प सवाल है। मेरा शोध समूह हमारे सार्वजनिक रूप से उपलब्ध जैव सूचना विज्ञान सॉफ़्टवेयर में कुछ वर्षों के लिए आपके द्वारा संदर्भित वितरण का उपयोग कर रहा है। जहां तक मुझे पता है, वितरण का कोई नाम नहीं है और उस पर कोई साहित्य नहीं है। जबकि चन्द्र एट अल (2012) द्वारा अक्षल द्वारा उद्धृत पेपर निकट से संबंधित है, उनके द्वारा माना गया वितरण लिए पूर्णांक मान तक सीमित है और वे पीडीएफ के लिए एक स्पष्ट अभिव्यक्ति नहीं देते हैं।r
आपको कुछ पृष्ठभूमि देने के लिए, एनबी वितरण जीनोमिक अनुसंधान में आरएनए-सीक और संबंधित प्रौद्योगिकियों से उत्पन्न होने वाले जीन अभिव्यक्ति डेटा के लिए बहुत अधिक उपयोग किया जाता है। गणना डेटा उठता है क्योंकि डीएनए या आरएनए अनुक्रम की संख्या एक जैविक नमूने से निकाली गई है जिसे प्रत्येक जीन को मैप किया जा सकता है। आमतौर पर प्रत्येक जैविक नमूने से दसियों लाख रीड होते हैं जो लगभग 25,000 जीनों में मैप किए जाते हैं। वैकल्पिक रूप से किसी के डीएनए नमूने हो सकते हैं जिसमें से जीनोमिक खिड़कियों तक मैप किए जाते हैं। हम और अन्य लोगों ने एक दृष्टिकोण को लोकप्रिय बना दिया है जिसके तहत NB जीन को प्रत्येक जीन के अनुक्रम रीड के लिए फिट किया जाता है, और आनुभविक फैलाव अनुमानकों को फैलाने के लिए अनुभवजन्य बेयस विधियों का उपयोग किया जाता है (फैलावϕ=1/r)। इस दृष्टिकोण को जीनोमिक साहित्य में दसियों हजार जर्नल लेखों में उद्धृत किया गया है, जिससे आप यह जान सकते हैं कि इसका कितना उपयोग किया जाता है।
मेरा समूह एज आरआर सोफ़वेयर पैकेज रखता है। कुछ साल पहले हमने पूरे पैकेज को संशोधित किया था ताकि यह एनबी पीएमएफ के निरंतर संस्करण का उपयोग करते हुए आंशिक अंशों के साथ काम करे। हमने बस एनबी पीएमएफ में सभी द्विपद गुणांक को गामा कार्यों के अनुपात में बदल दिया और इसे एक (मिश्रित) निरंतर पीडीएफ के रूप में उपयोग किया। इसके लिए अभिप्राय यह था कि अनुक्रम रीड काउंट्स कभी-कभी तकनीकी प्रभावों के लिए सही करने के लिए प्रतिलेख या जीनोम और / या (2) काउंट के सामान्यीकरण के लिए (1) अस्पष्ट मैपिंग की वजह से भिन्न हो सकते हैं। इसलिए, काउंट्स कभी-कभी देखे गए काउंट्स के बजाय अपेक्षित काउंट्स या अनुमानित काउंट्स होते हैं। और निश्चित रूप से पढ़ने की संख्या सकारात्मक संभावना के साथ बिल्कुल शून्य हो सकती है। हमारा दृष्टिकोण यह सुनिश्चित करता है कि हमारे सॉफ्टवेयर से निष्कर्ष परिणाम निरंतर मायने रखता है, असतत एनबी परिणामों के साथ मेल खाता है जब अनुमानित गणना पूर्णांक होती है।
जहां तक मुझे पता है, पीडीएफ में सामान्यीकरण के लिए कोई बंद फॉर्म नहीं है, न ही माध्य या विचरण के लिए बंद फॉर्म हैं। जब कोई मानता है कि अभिन्न
(फ्रांसेन-रॉबिन्सन स्थिरांक) के लिए कोई बंद रूप नहीं है,
तो यह स्पष्ट है कि निरंतर के अभिन्न के लिए नहीं हो सकता एनबी पीडीएफ या तो। हालाँकि यह मुझे प्रतीत होता है कि NB के लिए पारंपरिक माध्य और विचरण सूत्र निरंतर NB के लिए अच्छे सन्निकटन होने चाहिए। इसके अलावा सामान्य करने वाला स्थिरांक धीरे-धीरे मापदंडों के साथ अलग-अलग होना चाहिए और इसलिए अधिकतम संभावना गणनाओं में नगण्य प्रभाव होने के कारण इसे अनदेखा किया जा सकता है।
∫∞01Γ(x)dz
एक संख्यात्मक एकीकरण द्वारा इन परिकल्पनाओं की पुष्टि की जा सकती है। एनबी वितरण जैव सूचना विज्ञान में पॉइज़न वितरण के गामा मिश्रण के रूप में उत्पन्न होता है (नीचे विकिपीडिया नकारात्मक द्विपद लेख या मैककार्थी एट अल नीचे देखें)। निरंतर एनबी वितरण केवल पीडीएफ साथ अपने निरंतर एनालॉग के साथ पॉसों वितरण की जगह लेने से उत्पन्न होता है
के लिए जहां उदाहरण के लिए मान लीजिए 1. करने के लिए घनत्व जुड़ता है सुनिश्चित करने के लिए एक सामान्य स्थिर है कि । Poisson वितरण ने pmf को गैर-नकारात्मक पूर्णांकों पर उपरोक्त pdf के बराबर किया है और, एक्स≥0एक(λ)λ=10λ=10एक(10)=1/.९,९९,८७५-1/2∞
f(x;λ)=a(λ)e−λλxΓ(x+1)
x≥0a(λ)λ=10λ=10, पोइसन माध्य और विचरण 10 के बराबर हैं। संख्यात्मक एकीकरण से पता चलता है कि और निरंतर वितरण का माध्य और विचरण 10 से 4 महत्वपूर्ण आंकड़ों के बराबर है। अतः स्थिरांक स्थिरांक वस्तुतः 1 है और असतत पोइसन वितरण के लिए माध्य और विचरण लगभग समान हैं। यदि हम निरंतरता सुधार को जोड़ते हैं, तो सन्निकटन और भी बेहतर हो जाता है, 0. के बजाय से को एकीकृत करना। निरंतरता सुधार के साथ, सब कुछ सही है (निरंतर को सामान्य करना 1 है और पल असतत पॉइसन से सहमत हैं) लगभग 6 आंकड़े।
a(10)=1/0.999875−1/2∞
हमारे किनारे के पैकेज में, हमें इस तथ्य के लिए कोई समायोजन करने की आवश्यकता नहीं है कि शून्य पर द्रव्यमान है, क्योंकि हम हमेशा सशर्त लॉग-लाइबिलिटी के साथ या लॉग-लाइबिलिटी अंतर के साथ काम करते हैं और कोई भी डेल्टा फ़ंक्शन गणना से बाहर रद्द कर देता है। यह मिश्रित संभावना वितरण के साथ glms के लिए विशिष्ट BTW है। वैकल्पिक रूप से, हम वितरण को शून्य पर कोई द्रव्यमान नहीं मान सकते हैं, लेकिन शून्य के बजाय -1/2 से शुरू होने का समर्थन करते हैं। या तो सैद्धांतिक दृष्टिकोण व्यवहार में समान गणना की ओर जाता है।
यद्यपि हम निरंतर NB वितरण का सक्रिय उपयोग करते हैं, हमने स्पष्ट रूप से इस पर कुछ भी प्रकाशित नहीं किया है। नीचे दिए गए लेख एनबी को जीनोमिक डेटा के दृष्टिकोण के बारे में बताते हैं लेकिन स्पष्ट रूप से निरंतर एनबी वितरण पर चर्चा नहीं करते हैं।
सारांश में, मुझे आश्चर्य नहीं है कि आप जिस लेख का अध्ययन कर रहे हैं, वह एनबी पीडीएफ के एक निरंतर संस्करण से उचित परिणाम प्राप्त कर रहा है, क्योंकि यह हमारा अनुभव भी है। प्रमुख आवश्यकता यह है कि हमें साधन और रूपांतरों को सही ढंग से मॉडलिंग करना चाहिए और यह ठीक है कि डेटा प्रदान किया जाएगा, चाहे पूर्णांक या नहीं, द्विघात माध्य-विचरण संबंध का वही रूप प्रदर्शित करता है जो एनबी वितरण करता है।
संदर्भ
रॉबिन्सन, एम।, और स्मिथ, जीके (2008)। SAGE डेटा के अनुप्रयोगों के साथ नकारात्मक द्विपद फैलाव का छोटा नमूना अनुमान । बायोस्टैटिस्टिक्स 9, 321-332।
रॉबिन्सन, एमडी, और स्मिथ, जीके (2007)। टैग बहुतायत में अंतर का आकलन करने के लिए सांख्यिकीय परीक्षण । जैव सूचना विज्ञान 23, 2881-2887।
मैकार्थी, डीजे, चेन, वाई, स्मिथ, जीके (2012)। जैविक भिन्नता के संबंध में मल्टीएक्टर आरएनए-सीक्यू प्रयोगों के विभेदक अभिव्यक्ति विश्लेषण । न्यूक्लिक एसिड रिसर्च 40, 4288-4297।
चेन, वाई, लून, एटीएल, और स्मिथ, जीके (2014)। किनारे की मदद से जटिल RNA-seq प्रयोगों का विभेदक अभिव्यक्ति विश्लेषण। में: अगली पीढ़ी के अनुक्रम डेटा के सांख्यिकीय विश्लेषण, सोमनाथ दत्ता और डैनियल एस नेटलटन (एड), स्प्रिंगर, न्यूयॉर्क, पृष्ठ 51--74। प्रीप्रिंट
लून, एटीएल, चेन, वाई और स्मिथ, जीके (2016)। यह DE-licious है: धार में अर्ध-संभावना तरीकों का उपयोग करके RNA-seq प्रयोगों के अंतर अभिव्यक्ति विश्लेषण के लिए एक नुस्खा। आणविक जीवविज्ञान 1418, 391-416 में विधियां। प्रीप्रिंट
चेन वाई, लुन एटीएल, और स्मिथ, जीके (2016)। पढ़े जाने वाले जीन से लेकर रास्ते तक: रुब्रेड और एज आरआरआई-अर्ध-संभावना पाइपलाइन का उपयोग करके आरएनए-सीक प्रयोगों के अंतर अभिव्यक्ति विश्लेषण । F1000Research 5, 1438।