डीएनए अनुक्रमण के लिए नकारात्मक द्विपद वितरण को तैयार करना


16

ऋणात्मक द्विपद वितरण जैव सूचना विज्ञान में गणना डेटा के लिए एक लोकप्रिय मॉडल बन गया है (विशेषकर अनुक्रमण की अपेक्षित संख्या जीनोम के किसी दिए गए क्षेत्र के भीतर पढ़ती है)। स्पष्टीकरण भिन्न हैं:

  • कुछ इसे कुछ के रूप में समझाते हैं जो पॉइसन वितरण की तरह काम करता है, लेकिन एक अतिरिक्त पैरामीटर है, जो वास्तविक वितरण को मॉडल करने के लिए अधिक स्वतंत्रता की अनुमति देता है, एक विचरण जरूरी नहीं के बराबर है।
  • कुछ लोग इसे पॉइसन डिस्ट्रीब्यूशन के भारित मिश्रण के रूप में समझाते हैं (पॉसन पैरामीटर पर गामा मिश्रण वितरण के साथ)

क्या एक नकारात्मक द्विपद वितरण की पारंपरिक परिभाषा के साथ इन तर्कसंगतताओं को वर्गबद्ध करने का एक तरीका है, एक निश्चित संख्या में विफलताओं को देखने से पहले बर्नौली परीक्षणों की सफलताओं की संख्या को मॉडलिंग करना? या क्या मुझे इसे एक सुखद संयोग के रूप में समझना चाहिए कि गामा मिश्रण वितरण के साथ पॉइसन वितरण का एक भारित मिश्रण नकारात्मक द्विपद के समान संभावना जन कार्य है?


2
यह एक मिश्रित पॉसों वितरण भी है जहां आप लॉगरिदमिक यादृच्छिक चर के एक पॉइज़न-वितरित संख्या को जोड़ते हैं।
डगलस ज़ारे

जवाबों:


8

IMOH, मुझे वास्तव में लगता है कि सुविधा के लिए नकारात्मक द्विपद वितरण का उपयोग किया जाता है।

तो RNA Seq में एक आम धारणा है कि यदि आप एक ही जीन की अनंत संख्या को समान रूप से प्रतिकृतियों की एक अनंत संख्या में लेते हैं, तो सही वितरण तार्किक होगा। इस वितरण को एक पॉइसन प्रक्रिया (एक गिनती के साथ) के माध्यम से नमूना किया जाता है, इसलिए सही वितरण प्रति जीन में प्रति जीन में पढ़ता है, एक पॉइसन-लोगनॉर्मल वितरण होगा।

लेकिन उन पैकेजों में जिनका उपयोग हम EdgeR और DESeq के रूप में करते हैं, यह वितरण एक नकारात्मक द्विपद वितरण के रूप में है। ऐसा इसलिए नहीं है क्योंकि जिन लोगों ने इसे लिखा है, वे एक पॉइसन लोगनॉर्मल डिस्ट्रीब्यूशन के बारे में नहीं जानते थे।

यह इसलिए है क्योंकि पॉइसन लोगनॉर्मल डिस्ट्रीब्यूशन के साथ काम करने के लिए एक भयानक बात है क्योंकि इसे फिट करने के लिए संख्यात्मक एकीकरण की आवश्यकता होती है इसलिए जब आप वास्तव में कभी-कभी इसका उपयोग करने की कोशिश करते हैं तो प्रदर्शन वास्तव में खराब होता है।

एक नकारात्मक द्विपद वितरण का एक बंद रूप होता है, इसलिए इसके साथ काम करना बहुत आसान होता है और गामा वितरण (अंतर्निहित वितरण) एक लॉगऑनॉर्मल वितरण की तरह दिखता है जिसमें यह कभी-कभी सामान्य दिखता है और कभी-कभी एक पूंछ होती है।

लेकिन इस उदाहरण में (यदि आप विश्वास करते हैं) यह संभवतः सैद्धांतिक रूप से सही नहीं हो सकता है क्योंकि सैद्धांतिक रूप से सही वितरण पॉसन लॉगऑनॉर्मल है और दो वितरण एक दूसरे के उचित अनुमान हैं लेकिन समान नहीं हैं।

लेकिन मुझे अभी भी लगता है कि "गलत" नकारात्मक द्विपद वितरण अक्सर बेहतर विकल्प होता है क्योंकि आनुभविक रूप से यह बेहतर परिणाम देगा क्योंकि एकीकरण धीरे-धीरे प्रदर्शन करता है और फिट बुरी तरह से प्रदर्शन कर सकता है, खासकर लंबी पूंछ वाले वितरण के साथ।


7

मैंने कुछ वेब पृष्ठों को देखा और स्पष्टीकरण नहीं पाया, लेकिन मैं पूर्णांक मूल्यों के लिए एक के साथ आया । मान लीजिए कि हमें दो रेडियोधर्मी स्रोतों स्वतंत्र रूप से अल्फा और बीटा कणों पैदा दर है अल्फा और β क्रमश।rαβ

वें बीटा कण से पहले अल्फा कणों की संख्या का वितरण क्या है ?r

  1. अल्फा कणों को सफल मानते हैं, और बीटा कण विफलताओं के रूप में। जब एक कण का पता लगाया जाता है, तो संभावना है कि यह एक अल्फा कण है । तो, यह नकारात्मक द्विपद वितरणNB(r,α) हैαα+βNB(r,αα+β)

  2. समय पर विचार करें के आर वें बीटा कण। यह एक गामा वितरण इस प्रकार Γ ( आर , 1 / β ) यदि आप पर शर्त टी आर = λ / α , तो समय से पहले अल्फा कणों की संख्या टी आर एक प्वासों बंटन इस प्रकार POIs ( λ ) तो, आर वें बीटा कण से पहले अल्फा कणों की संख्या का वितरण एक गामा-मिश्रित पॉइसन वितरण है।trrΓ(r,1/β).tr=λ/αtrPois(λ).r

यह बताता है कि ये वितरण समान क्यों हैं।


2

मैं केवल अंतर्ज्ञान की पेशकश कर सकता हूं, लेकिन गामा वितरण खुद का वर्णन करता है (निरंतर) प्रतीक्षा समय (एक दुर्लभ घटना होने में कितना समय लगता है)। इसलिए यह तथ्य कि असत्य काव्य वितरण के एक गामा-वितरित मिश्रण के परिणामस्वरूप असतत प्रतीक्षा समय (परीक्षणों में तब तक परिणाम होगा जब तक कि एन विफलताओं) बहुत आश्चर्य की बात नहीं लगती। मुझे आशा है कि किसी के पास अधिक औपचारिक उत्तर होगा।

संपादित करें: मैंने हमेशा नकारात्मक द्विपद जिले को उचित ठहराया। अनुक्रमण के लिए निम्नानुसार है: वास्तविक अनुक्रमण चरण केवल अणुओं (पॉइज़न) के एक बड़े पुस्तकालय से नमूना पढ़ता है। हालाँकि वह पुस्तकालय पीसीआर द्वारा मूल नमूने से बनाया गया है। इसका मतलब है कि मूल अणुओं को तेजी से बढ़ाया जाता है। और गामा वितरण k का वर्णन करता है कि स्वतंत्र रूप से वितरित यादृच्छिक चर का योग, अर्थात पीसीआर चक्रों की समान संख्या के लिए k नमूना अणुओं को बढ़ाने के बाद पुस्तकालय में कितने अणु।

इसलिए अनुक्रमण द्वारा नकारात्मक द्विपद मॉडल पीसीआर।


यह समझ में आता है, लेकिन एक जीनोम में अनुक्रमण रीडिंग की संख्या को मापने के संदर्भ में एक सहज व्याख्या है कि नकारात्मक द्विपद वितरण में प्रतीक्षा अवधि क्या दर्शाती है? इस मामले में कोई प्रतीक्षा अवधि नहीं है - वह केवल अनुक्रमण रीडिंग की गिनती को माप रहा है।
राबर्टएफ

मेरा संपादन देखें। मैं यह नहीं देखता कि प्रतीक्षा समय के संदर्भ में इसके बारे में सोचना अनुक्रमण सेटिंग पर कैसे फिट बैठता है। गामा पॉइसन मिश्रण की व्याख्या करना आसान है। लेकिन अंत में वे एक ही चीज हैं।
फेलिक्स श्लेसिंगर

2
ठीक है - तो शायद असली सवाल यह है कि बर्नौली परीक्षणों में मॉडलिंग की सफलताओं + r विफलताओं को एक गामा पॉइसन मिश्रण का पालन करना क्या है? हो सकता है कि एक नकारात्मक द्विपद मॉडलिंग k सफलताओं + r विफलताओं को ओवरस्पीड के रूप में सोचा जा सकता है पोइसन डीबीएन सफलता और असफलता परीक्षणों के कई संभावित क्रमों के कारण होता है जिसके परिणामस्वरूप कश्मीर वास्तव में देखी गई सफलताएं और आर मनाया असफलताएं होती हैं, जिन्हें संग्रह के रूप में वर्णित किया जा सकता है। अलग dbns?
रॉबर्ट एसएपी

2

मैं एक सरल यांत्रिकी व्याख्या देने की कोशिश करूँगा जो मुझे इस बारे में सोचते समय उपयोगी लगी।

μpμ1ppNB(μ1pp,p)

इस वितरण के क्षणों की गणना करते हुए, हमें सफलताओं की अपेक्षित संख्या मिलती हैμ1ppp1p=μσ2=μ(1p)1

(1p)1

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.