कई परीक्षणों के लिए पी मानों को सही करना जहां परीक्षण सहसंबद्ध हैं (आनुवंशिकी)


24

मेरे पास बहुत सारे परीक्षणों से मूल्य हैं और यह जानना चाहेंगे कि क्या कई परीक्षण के लिए सही होने के बाद वास्तव में कुछ महत्वपूर्ण है। जटिलता: मेरे परीक्षण स्वतंत्र नहीं हैं। मैं जिस विधि के बारे में सोच रहा हूं (फिशर के उत्पाद विधि का एक प्रकार, ज़ेकिन एट अल।, जेनेट एपिडेमिओल , 2002) पी मूल्यों के बीच संबंध की आवश्यकता है।

इस सहसंबंध का अनुमान लगाने के लिए, मैं वर्तमान में बूटस्ट्रैपिंग मामलों के बारे में सोच रहा हूं, विश्लेषण चला रहा हूं और पी मानों के परिणामस्वरूप वैक्टरों को सहसंबंधित कर रहा हूं। क्या किसी के पास बेहतर विचार है? या मेरी मूल समस्या के लिए एक बेहतर विचार (सहसंबद्ध परीक्षणों में कई परीक्षणों के लिए सही)?

पृष्ठभूमि: मैं तार्किक रूप से यह जान रहा हूं कि मेरे विषय उनके जीनोटाइप (एए, एए या एए) और एक कोवरिएट के बीच बातचीत पर एक विशेष बीमारी से पीड़ित हैं या नहीं। हालांकि, जीनोटाइप वास्तव में सिंगल न्यूक्लियोटाइड पॉलीमॉर्फिम्स (एसएनपी) का एक बहुत (30-250) है, जो निश्चित रूप से स्वतंत्र नहीं हैं, लेकिन लिंकेज डिसीक्विलिब्रियम में हैं।

जवाबों:


29

यह वास्तव में जीनोमाइड विश्लेषण अध्ययन (GWAS) में एक गर्म विषय है! मुझे यकीन नहीं है कि आप जिस पद्धति के बारे में सोच रहे हैं वह इस संदर्भ में सबसे उपयुक्त है। पी-मानों की पूलिंग का वर्णन कुछ लेखकों द्वारा किया गया था, लेकिन एक अलग संदर्भ में (प्रतिकृति अध्ययन या मेटा-विश्लेषण, हाल की समीक्षा के लिए उदाहरण (1) देखें)। फिशर विधि द्वारा एसएनपी पी-वैल्यू का संयोजन आमतौर पर तब किया जाता है जब कोई दिए गए जीन के लिए एक अद्वितीय पी-मूल्य प्राप्त करना चाहता है; यह जीन स्तर पर काम करने की अनुमति देता है, और बाद के परीक्षण की गतिशीलता की मात्रा को कम करता है, लेकिन जैसा कि आपने कहा कि मार्करों के बीच गैर-स्वतंत्रता (स्थानिक कॉलोलेशन या लिंकेज डिस्सिलिबेरियम, एलडी से उत्पन्न) एक पूर्वाग्रह का परिचय देते हैं। अधिक शक्तिशाली विकल्प फिर से शुरू करने की प्रक्रियाओं पर भरोसा करते हैं,

बूटस्ट्रैपिंग (प्रतिस्थापन के साथ) के साथ मेरी मुख्य चिंता यह होगी कि आप संबंधित कृत्रिम रूप का परिचय दे रहे हैं, या दूसरे शब्दों में आप वर्चुअल जुड़वाँ पैदा करते हैं, इसलिए हार्डी-वेनबर्ग संतुलन (लेकिन यह भी न्यूनतम आवृति आवृत्ति और कॉल दर) को बदल रहा है। यह क्रमचय दृष्टिकोण के साथ ऐसा नहीं होगा जहां आप व्यक्तिगत लेबल की अनुमति देते हैं और जीनोटाइपिंग डेटा को वैसे ही रखते हैं। आमतौर पर, पलक सॉफ्टवेयर आपको कच्चे और अनुमत पी-मान दे सकता है, हालांकि यह (डिफ़ॉल्ट रूप से) एक स्लाइडिंग विंडो के साथ एक अनुकूली परीक्षण रणनीति का उपयोग करता है जो सभी क्रमपरिवर्तन को चलाने से रोकने की अनुमति देता है (यदि प्रति एसएनपी 1000 कहते हैं) यदि ऐसा लगता है कि एसएनपी के तहत विचार "दिलचस्प" नहीं है; यह भी कंप्यूटिंग के लिए विकल्प है maxT, ऑनलाइन मदद देखें ।

लेकिन आप जिस एसएनपी पर विचार कर रहे हैं, उसकी कम संख्या को देखते हुए, मैं एफडीआर-आधारित या मैक्सटी परीक्षणों पर भरोसा करने का सुझाव दूंगा, जैसा कि मल्टीटेस्ट आर पैकेज (देखें mt.maxT) में लागू किया गया है , लेकिन जीनोमिक अनुप्रयोग के लिए रणनीतियों को फिर से शुरू करने के लिए निश्चित गाइड कई परीक्षण प्रक्रियाएं हैं जो कि अनुप्रयोगों के साथ होती हैं। डूडिट और वैन डेर लान (स्प्रिंगर, 2008) से जीनोमिक्सआर के साथ आनुवांशिकी पर एंड्रिया फौलकेस की पुस्तक भी देखें , जिसकी समीक्षा जेएसएस में की गई है। वह कई परीक्षण प्रक्रियाओं पर महान सामग्री है।

आगे के नोट्स

कई लेखकों ने इस तथ्य की ओर संकेत किया है कि बोनफेरोनि या सिडक जैसे सरल कई परीक्षण सही तरीके व्यक्तिगत एसएनपी के लिए परिणामों को समायोजित करने के लिए बहुत कठोर हैं। इसके अलावा, इन विधियों में से कोई भी एलडी के कारण एसएनपी के बीच मौजूद सहसंबंध को ध्यान में नहीं रखता है जो जीन क्षेत्रों में आनुवंशिक भिन्नता को टैग करता है। अन्य विकल्प मधुमक्खी के लिए प्रस्तावित हैं, जैसे कि कई नाम (3), हिडन मार्कोव मॉडल (4), सशर्त या सकारात्मक एफडीआर (5) या व्युत्पन्न उसके (6) के लिए होल्म की विधि का व्युत्पन्न, कुछ नाम। तथाकथित अंतर आँकड़े या स्लाइडिंग विंडो कुछ मामलों में सफल साबित हुई है, लेकिन आपको (7) और (8) में एक अच्छी समीक्षा मिलेगी।

मैंने उन तरीकों के बारे में भी सुना है जो हैप्लोटाइप संरचना या एलडी, उदाहरण (9) का प्रभावी उपयोग करते हैं, लेकिन मैंने कभी उनका उपयोग नहीं किया। वे, हालांकि, मार्करों के बीच सहसंबंध का अनुमान लगाने से अधिक संबंधित हैं, न कि पी-वैल्यू जैसा कि आपका मतलब था। लेकिन वास्तव में, आप सहसंबद्ध पी-मूल्यों की तुलना में लगातार परीक्षण के आंकड़ों के बीच निर्भरता संरचना के संदर्भ में बेहतर सोच सकते हैं।

संदर्भ

  1. कैंटर, आरएम, लैंग, के और सिंसहाइमर, जेएस। GWAS परिणाम को प्राथमिकता देना: उनके आवेदन के लिए सांख्यिकीय विधियों और अनुशंसाओं की समीक्षा । एम जे हम जेनेट। 2010 86 (1): 6–22।
  2. कॉर्ली, आरपी, ज़ीगर, जेएस, क्रॉले, टी एट अल। किशोरों में असामाजिक दवा निर्भरता के साथ उम्मीदवार जीन का एसोसिएशन । ड्रग और अल्कोहल डिपेंडेंस 2008 96: 90–98।
  3. डलामसो, सी, गेनिन, ई और ट्रेगेट डीए। जेनोमाइड एसोसिएशन स्टडीज में एलेले फ्रीक्वेंसी के लिए एक भारित-होल्म प्रक्रिया लेखा । जेनेटिक्स 2008 180 (1): 697-702।
  4. वेई, जेड, सन, डब्ल्यू, वांग, के, और हैकोनार्सन, एच। कई परीक्षण जीनोम-वाइड एसोसिएशन स्टडीज़ में हिडन मार्कोव मॉडल के माध्यम से । जैव सूचना विज्ञान 2009 25 (21): 2802-2808।
  5. ब्रबर्ग, पी। अनुपात अपरिवर्तित जीन और गलत खोज दर के अनुमानों की तुलनात्मक समीक्षा करते हैं । बीएमसी जैव सूचना विज्ञान 2005 6: 199।
  6. जरूरत, एसी, जीई, डी, बुन, एमई, एट ए। स्किज़ोफ्रेनिया में एसएनपी और सीएनवी की एक जीनोम-वाइड जांच । PLSS जेनेट। 2009 5 (2): e1000373।
  7. हान, बी, कांग, एचएम, और एस्किन, ई। रैपिड एंड एक्यूरेट मल्टीपल टेस्टिंग करेक्शन एंड पावर एस्टीमेशन फॉर मिलियन्स ऑफ कोरिलेटेड मार्कर । पीएलओएस जेनेटिक्स 2009
  8. लिआंग, वाई और केलेमेन, ए। सांख्यिकीय प्रगति और जटिल रोगों के लिए जीनोमिक अध्ययन में सहसंबद्ध उच्च आयामी एसएनपी डेटा के विश्लेषण के लिए चुनौतियां । सांख्यिकी सर्वेक्षण २००ys २: ४३-६०। - अब तक की सबसे अच्छी समीक्षा
  9. न्योहोल्ट, डीआर। एक दूसरे के साथ लिंकेज डिसीक्विलिब्रियम में एकल-न्यूक्लियोटाइड पॉलीमॉर्फिम्स के लिए कई परीक्षणों के लिए एक सरल सुधार । एम जे हम जेनेट। 2004 74 (4): 765-769।
  10. निकोडेमस, केके, लियू, डब्ल्यू, चेस, जीए, त्साई, वाई, और फॉलिन, एमडी। बड़े एकल-न्यूक्लियोटाइड बहुरूपता अध्ययन में कई परीक्षण सुधारों के लिए टाइप I त्रुटि की तुलना प्रिंसिपल घटकों बनाम हैलोटाइप ब्लॉकिंग एल्गोरिदम का उपयोग करके । बीएमसी जेनेटिक्स 2005; 6 (पूरक 1): S78।
  11. पेंग, क्यू, झाओ, जे, और एक्सयू, एफ। पीसीए-आधारित बूटस्ट्रैप विश्वास अंतराल परीक्षण कई एसएनपी शामिल जीन-रोग संघ के लिए । बीएमसी जेनेटिक्स 2010, 11: 6
  12. ली, एम, रोमेरो, आर, फू, डब्ल्यूजे, और कुई, वाई (2010)। अनुकूली LASSO के साथ Haplotype-haplotype इंटरैक्शन को मैप करना । बीएमसी जेनेटिक्स 2010, 11:79 - हालांकि सीधे सवाल से संबंधित नहीं है, यह हैप्लोटाइप-आधारित विश्लेषण / एपिकैटिक प्रभाव को शामिल करता है

1
वाह, इस सारी परेशानी के लिए धन्यवाद! मैं बूटस्ट्रैपिंग के बारे में आपके गुण को समझता हूं, और मैं लगभग आश्वस्त हूं। मुझे लगता है कि मेरी मुख्य जटिलता संख्यात्मक सहसंयोजक है जो मेरे पास निश्चित रूप से आवश्यक होगी (या तो स्वयं या जीनोटाइप के साथ बातचीत में), और वह एमटीएमएक्सटी और पलक को बाहर निकालती है, हालांकि मुझे फिर से पलक देखने की आवश्यकता हो सकती है। लेकिन मैं आपके द्वारा दिए गए संदर्भों के माध्यम से निश्चित रूप से खुदाई करूंगा!
एस। कोलासा -

आप हमेशा अपने covariates की सवारी प्राप्त करने के लिए अपने GLM के अवशेषों के साथ काम कर सकते हैं, हालांकि आपने कुछ डीएफ खो दिया है जो बाद में खाता या पुन: प्रस्तुत करना मुश्किल होगा (जैसे कंप्यूटिंग पी-मूल्य के लिए)।
chl

एचएम, मेरे लॉजिस्टिक रिग्रेशन से अवशिष्ट? क्या यह वैध होगा?
एस। कोलासा - मोनिका से १10

हाँ क्यों नहीं? अन्य सहसंयोजकों के हिसाब से विचरण को दूर करना असामान्य नहीं है और फिर अपने अवशिष्ट डेटा के साथ 2-स्तरीय विश्लेषण पर आगे बढ़ें। यह अक्सर तेज़ होता है (उदाहरण के लिए, पलक, श्रेणीबद्ध कोवेरिएट के साथ बहुत धीमा है, जबकि यह निरंतर लोगों के साथ ठीक है; snpMatrixया बस glm()इस बिंदु पर काफी बेहतर प्रदर्शन करता है, लेकिन आप बहुत सारे एसएनपी को एम्बेड नहीं कर सकते glm()...); समस्या यह है कि आपके 2 वें विश्लेषण के अंत में सही पी-मूल्य प्राप्त करना मुश्किल है (क्योंकि आपको पहले से ही अनुमानित मापदंडों के लिए खाता है)।
chl

अवशिष्ट के साथ लोग कैसे काम कर रहे हैं, इसका एक उदाहरण के लिए, उदाहरण के लिए देखें पी। 466 हेक एट अल। व्यक्तित्व लक्षणों के लिए 17 उम्मीदवार जीन की जांच नवीनता की मांग पर HTR2A जीन के प्रभावों की पुष्टि करती है। जीन, मस्तिष्क और व्यवहार (2009) वॉल्यूम। 8 (4) पीपी। 464-72
chl

2

बोनफेरोनी जैसी विधि का उपयोग करना ठीक है, समस्या यह है कि यदि आपके पास कई परीक्षण हैं तो आपको कई "खोजों" की संभावना नहीं है।

आप आश्रित परीक्षणों के लिए एफडीआर दृष्टिकोण के साथ जा सकते हैं ( विवरण के लिए यहां देखें ) समस्या यह है कि मुझे यकीन नहीं है कि क्या आप आगे कह सकते हैं कि क्या आपके सहसंबंध सभी सकारात्मक हैं।

R में आप p.adjust के साथ सरल FDR कर सकते हैं। अधिक जटिल चीजों के लिए मैं मल्टीकम्प पर एक नज़र डालूंगा , लेकिन मैं निर्भरता के मामलों में समाधान के लिए इसे देखने नहीं गया।

सौभाग्य।


1
हाय ताल, धन्यवाद! बोन्फेरोनी मुझे उचित नहीं लगती है - यदि मेरी एसएनपी में से कोई एक कारण है और अन्य लोग इसके साथ जुड़े हैं, तो एक संकेत होना चाहिए, और बोन्फेरोनी ने हमेशा मेरे लिए बहुत अधिक रूढ़िवादी देखा है (मैं आमतौर पर होल्म के स्टेपवाइज करेक्शन को प्राथमिकता देता हूं)। जिस FDR से आप लिंक करते हैं और p.adjust संयुक्त साक्ष्य पर विचार नहीं करते हैं (और FDR को अभी भी मुझे मेरे परीक्षणों, मूल प्रश्न के सहसंबंध को समझने की आवश्यकता है)। मल्टीपैक मदद कर सकता है, हालांकि पहली नज़र में ऐसा लगता है जैसे यह एक मॉडल के भीतर कई परीक्षणों के साथ अधिक व्यवहार करता है , जबकि मेरे पास कई मॉडल हैं। मैं गहरी खुदाई करूँगा ...
एस। कोलासा - मोनिक

हैल्लो स्टीफन। मैं समझता हूं, अधिक मदद नहीं करने के लिए खेद है। सौभाग्य! ताल
ताल गैलिली

हैलो स्टीफ़न, मुझे अभी भी लगता है कि आप अभी भी आर द्वारा p.adjust में विधि = BY (Benjamini Hochberg Yekuteli प्रक्रिया के लिए) का उपयोग कर सकते हैं, जैसा कि ताल द्वारा इंगित किया गया है। निश्चित रूप से, बोनफेरोनी का उपयोग रूढ़िवादी हो सकता है।
सनकूलू

suncoolsu, मुझे लगता है कि यह विधि केवल तभी काम करती है जब चर के बीच सहसंबंध सकारात्मक (नकारात्मक नहीं) हो। चीयर्स।
ताल गलीली

2

मुझे लगता है कि बहुविकल्पीय सामान्य मॉडल सहसंबद्ध पी-मूल्यों को मॉडल करने और कई प्रकार के परीक्षण सुधारों को सही प्रकार से प्राप्त करने के लिए उपयोग किया जा रहा है। रैपिड और सटीक कई परीक्षण सुधार और सहसंबद्ध मार्करों के लाखों लोगों के लिए बिजली का अनुमान। PLoS Genet 2009 उनके बारे में बात करता है और अन्य संदर्भ भी देता है। ऐसा लगता है कि आप किस बारे में बात कर रहे थे, लेकिन मुझे लगता है कि एक अधिक सटीक वैश्विक पी-मूल्य सुधार प्राप्त करने के अलावा, एलडी संरचना ज्ञान का उपयोग कारण मार्करों के साथ सहसंबंधित मार्करों से उत्पन्न होने वाली सकारात्मक सकारात्मकता को हटाने के लिए भी किया जाना चाहिए।


2

मैं ठीक उसी समस्या के लिए एक काम कर रहे समाधान की तलाश में हूं। मुझे जो सबसे अच्छा मिला है, वह है फुल्केस एंड्रिया द्वारा अपनी पुस्तक एप्लाइड स्टैटिस्टिक जेनेटिक्स विद आर (2009) में शुरू किया गया अशक्त अप्रतिबंधित बूटस्ट्रैप । अन्य लेखों और पुस्तकों के सभी समूहों के विपरीत, वह विशेष रूप से प्रतिगमन को मानता है। अन्य तरीकों के अलावा, वह अशक्त अप्रतिबंधित बूटस्ट्रैप की सलाह देता है, जो उपयुक्त है जहां कोई आसानी से अवशिष्टों की गणना नहीं कर सकता है (जैसा कि मेरे मामले में, जहां मैं कई स्वतंत्र प्रतिगमन (मूल रूप से सरल सहसंबंध) मॉडल करता हूं , प्रत्येक एक ही प्रतिक्रिया चर और अलग-अलग स्निप के साथ)। मैंने पाया कि इस विधि को अधिकतम विधि भी कहा जाता है ।

> attach(fms)
> Actn3Bin <- > data.frame(actn3_r577x!="TT",actn3_rs540874!="AA",actn3_rs1815739!="TT",actn3_1671064!="GG")
> Mod <- summary(lm(NDRM.CH~.,data=Actn3Bin))
> CoefObs <- as.vector(Mod$coefficients[-1,1]) 
> B <-1000
> TestStatBoot <- matrix(nrow=B,ncol=NSnps)
> for (i in 1:B){
+    SampID <- sample(1:Nobs,size=Nobs, replace=T)
+    Ynew <- NDRM.CH[!MissDat][SampID]
+    Xnew <- Actn3BinC[SampID,]
+    CoefBoot <- summary(lm(Ynew~.,data=Xnew))$coefficients[-1,1]
+    SEBoot <- summary(lm(Ynew~.,data=Xnew))$coefficients[-1,2]
+    if (length(CoefBoot)==length(CoefObs)){
+       TestStatBoot[i,] <- (CoefBoot-CoefObs)/SEBoot
+    }
+ }

TestStatBootT^Tcrit.α=0.05T^Tcrit.

iTi^>Tcrit.

अंतिम चरण को इस कोड के साथ पूरा किया जा सकता है

p.value<-0.05 # The target alpha threshold
digits<-1000000
library(gtools) # for binsearch

pValueFun<-function(cj)
{
   mean(apply(abs(TestStatBoot)>cj/digits,1,sum)>=1,na.rm=T)
}
ans<-binsearch(pValueFun,c(0.5*digits,100*digits),target=p.value)
p.level<-(1-pnorm(q=ans$where[[1]]/digits))*2 #two-sided.
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.