सुविधा चयन के लिए माध्यिका पॉलिश का उपयोग


9

एक पेपर में, मैं हाल ही में पढ़ रहा था जब मैं उनके डेटा विश्लेषण अनुभाग में निम्न बिट पर आया था:

डेटा तालिका को तब ऊतकों और सेल लाइनों में विभाजित किया गया था, और दो उप-श्रेणियों को अलग-अलग माध्य पॉलिश किया गया था (पंक्तियों और स्तंभों को औसतन 0 में समायोजित किया गया था) एकल तालिका में फिर से जुड़ने से पहले। हमने अंत में उन जीनों के सबसेट के लिए चयन किया, जिनकी अभिव्यक्ति के नमूने में कम से कम तीन नमूनों में सेट किए गए इस नमूने में माध्यिका से कम से कम 4 गुना भिन्न होता है।

मुझे कहना है कि मैं वास्तव में यहाँ तर्क का पालन नहीं करता हूं। मैं सोच रहा था कि क्या आप मुझे निम्नलिखित दो प्रश्नों के उत्तर देने में मदद कर सकते हैं:

  1. डेटासेट में माध्यिका को समायोजित करने के लिए यह वांछनीय / सहायक क्यों है? इसे विभिन्न प्रकार के नमूनों के लिए अलग-अलग क्यों किया जाना चाहिए?

  2. यह प्रायोगिक डेटा को कैसे संशोधित नहीं कर रहा है? क्या यह डेटा के एक बड़े समूह से कई जीनों / चर को चुनने का एक ज्ञात तरीका है, या यह विशेष रूप से तदर्थ है?

धन्यवाद,


क्या आप विस्तृत कर सकते हैं कि आप किस तरह का डेटा देख रहे हैं? मुझे लगता है कि आपने जो उद्धृत किया है, उसे देखते हुए - विधि बहुत तदर्थ लगती है।
सनकूलू

@suncoolsu: यदि आप अवधारणा से परिचित हैं तो यह माइक्रोएरे डेटा है। यदि नहीं, तो मैं शायद इसे संक्षेप में बता सकता हूं; कौन से जीन व्यक्त किए जाते हैं, अध्ययन किए गए नमूनों में किस हद तक। यहाँ एक बेहतर व्याख्या है: en.wikipedia.org/wiki/Gene_expression_profiling
posdef

@suncoolsu लगभग निश्चित रूप से जीन अभिव्यक्ति विश्लेषण डेटा।
क्रैगर

ठीक है - मुझे यकीन नहीं था, अगली-जीन अनुक्रमण भी लोकप्रिय हो रही है।
सनकूलू

जवाबों:


10

Tukey Median Polish, एल्गोरिथम का उपयोग माइक्रोएरे के RMA सामान्यीकरण में किया जाता है । जैसा कि आप जानते हैं, माइक्रोएरे डेटा काफी शोर है, इसलिए उन्हें जांच की तीव्रता का अनुमान लगाने के लिए और अधिक मजबूत तरीके की आवश्यकता है, जो सभी जांच और माइक्रोएरे के लिए टिप्पणियों का ध्यान रखते हैं। यह एक विशिष्ट मॉडल है जिसका उपयोग सरणियों में जांच की तीव्रता को सामान्य करने के लिए किया जाता है।

Yij=μi+αj+ϵij
i=1,,Ij=1,,J

कहाँ पे Yij है log के लिए परिवर्तित पीएम तीव्रता ithपर जांच jth सरणी। ϵijपृष्ठभूमि शोर हैं और उन्हें सामान्य रैखिक प्रतिगमन में शोर के अनुरूप माना जा सकता है। हालांकि, एक वितरण धारणा परϵ प्रतिबंधात्मक हो सकता है, इसलिए हम अनुमान लगाने के लिए टकी मेडियन पोलिश का उपयोग करते हैं μi^ तथा αj^। यह सरणियों के पार सामान्य बनाने का एक मजबूत तरीका है, क्योंकि हम सरणी प्रभाव से अलग सिग्नल, जांच के कारण तीव्रता को अलग करना चाहते हैं।α। हम सरणी प्रभाव के लिए सामान्य करके संकेत प्राप्त कर सकते हैंαj^सभी सरणियों के लिए। इस प्रकार, हम केवल जांच प्रभाव और कुछ यादृच्छिक शोर के साथ बचे हैं।

जांच प्रभाव से रैंकिंग द्वारा अंतर व्यक्त जीन या "दिलचस्प" जीन का अनुमान लगाने के लिए मैंने जो लिंक टकी मेडियन पॉलिश का उपयोग किया है उससे पहले लिंक। हालांकि, कागज बहुत पुराना है, और शायद उस समय लोग अभी भी यह पता लगाने की कोशिश कर रहे थे कि माइक्रोएरे डेटा का विश्लेषण कैसे किया जाए। एफ्रॉन के गैर-पैरामीट्रिक अनुभवजन्य बायेसियन तरीकों का पेपर 2001 में आया था, लेकिन संभवतः व्यापक रूप से उपयोग नहीं किया गया होगा।

हालांकि, अब हम माइक्रोएरे (सांख्यिकीय) के बारे में बहुत कुछ समझते हैं और उनके सांख्यिकीय विश्लेषण के बारे में निश्चित हैं।

माइक्रोएरे डेटा बहुत शोर है और आरएमए (जो मेडियन पोलिश का उपयोग करता है) सबसे लोकप्रिय सामान्यीकरण विधियों में से एक है, इसकी सादगी के कारण हो सकता है। अन्य लोकप्रिय और परिष्कृत विधियाँ हैं: GCRMA, VSN। यह सामान्य है क्योंकि ब्याज जांच प्रभाव है और सरणी प्रभाव नहीं है।

जैसा कि आप उम्मीद करते हैं, विश्लेषण कुछ तरीकों से लाभान्वित हो सकता है जो जीन भर में जानकारी उधार का लाभ उठाते हैं। इनमें बायेसियन या अनुभवजन्य बायेसियन विधियां शामिल हो सकती हैं। हो सकता है कि जो पेपर आप पढ़ रहे हैं वह पुराना हो और ये तकनीकें तब तक बाहर न हों।

आपके दूसरे बिंदु के बारे में, हाँ वे संभवतः प्रयोगात्मक डेटा को संशोधित कर रहे हैं। लेकिन, मुझे लगता है, यह संशोधन एक बेहतर कारण के लिए है, इसलिए उचित है। कारण रहा है

क) माइक्रोएरे डेटा बहुत शोर कर रहे हैं। जब ब्याज जांच प्रभाव होता है, तो आरएमए, जीसीआरएमए, वीएसएन, आदि द्वारा डेटा को सामान्य करना आवश्यक होता है और हो सकता है कि डेटा में किसी विशेष संरचना का लाभ उठाया जाए। लेकिन मैं दूसरा भाग करने से बचता। यह मुख्य रूप से है क्योंकि अगर हम पहले से संरचना को नहीं जानते हैं, तो बेहतर है कि बहुत सारी धारणाएं न लादें।

b) अधिकांश माइक्रोएरे प्रयोग उनके स्वभाव में खोजपूर्ण हैं, अर्थात्, शोधकर्ता आगे के विश्लेषण या प्रयोगों के लिए "दिलचस्प" जीन के कुछ सेट को संकीर्ण करने की कोशिश कर रहे हैं। यदि इन जीनों में एक मजबूत संकेत है, तो सामान्यीकरण जैसे संशोधनों को अंतिम परिणामों को प्रभावित नहीं करना चाहिए।

इसलिए, संशोधनों को उचित ठहराया जा सकता है। लेकिन मुझे टिप्पणी करनी चाहिए, सामान्यीकरण की अधिकता से गलत परिणाम हो सकते हैं।


+1 यह मेरे प्रयास से कहीं बेहतर उत्तर है। धन्यवाद।
क्रैगर

@posdef। मैं सोच रहा था कि क्या कोई सांख्यिकीविद् पेपर के सांख्यिकीय विश्लेषण में शामिल था।
सनकूलसु

आपके संपूर्ण उत्तर के लिए धन्यवाद। मुझे लगता है कि यह तथ्य है कि यह एक पूर्व-प्रसंस्करण कदम है अच्छी तरह से समझाया नहीं गया है (या बस अच्छी तरह से ज्ञात होने के लिए माना जाता है)। जिसके बारे में बोलते हुए, पत्र 2000 (प्रकृति में) में प्रकाशित हुआ है, इसलिए मुझे लगता है कि उनके पास कम से कम कुछ सांख्यिकीविद् उनके तरीकों को देखते हैं, अगर लेखन में शामिल नहीं हैं। लेकिन निश्चित रूप से मैं केवल अटकलें लगा सकता हूं .. :)
पोस्डफ

@posdef। ओके- कूल बहुत सारे सवालों के जवाब देता है। 2000 वह समय था जब लोग अभी भी यह पता लगा रहे थे कि माइक्रोएरे डेटा का विश्लेषण कैसे किया जाए। FDR पर वापस फैंसी नहीं था :-)
suncoolsu

4

आप पृष्ठों 4 और 5 के में कुछ सुराग मिल सकता है इस

यह मॉडल के लिए अवशिष्टों की गणना करने की एक विधि है

yमैं,जे=+मैं+जे+मैं,जे
के लिए मूल्यों की गणना करके , मैं तथा जे ताकि अगर मैं,जे सारणीबद्ध हैं, प्रत्येक पंक्ति का माध्यिका और प्रत्येक स्तंभ का ० है।

के लिए मूल्यों की गणना करने के लिए अधिक पारंपरिक दृष्टिकोण मात्रा , मैं तथा जे ताकि प्रत्येक पंक्ति और अवशिष्ट के प्रत्येक स्तंभ का माध्य (या योग) 0 हो।

माध्यिका का उपयोग करने का लाभ छोटी संख्या में आउटलेरस को मजबूती है; नुकसान यह है कि आप संभावित उपयोगी जानकारी फेंक रहे हैं यदि कोई आउटलेयर नहीं हैं।


उत्तर के लिए धन्यवाद, और संदर्भ लिंक। हालाँकि मैं यह नहीं देख सकता कि यह मॉडल समस्या पर कैसे लागू होता है। यह देखते हुए कि डेटा तुलनात्मक अभिव्यक्ति मान है (पढ़ें: बहुतायत) कोई कैसे परिभाषित कर सकता हैमैं, जे तथा मैं,जे??
पॉसिफ

अगर इसके बजाय आप एक बहुतायत मॉडल लेते हैं nमैं,जे=nमैंक्षजे+मैं,जे या एक की तरह एलजी(nमैं,जे)=एलजी(n)+एलजी(पीमैं)+एलजी(क्षजे)+मैं,जेफिर आप अनिवार्य रूप से एक ही काम कर सकते हैं, जिससे प्रत्येक पंक्ति का माध्यिका और अवशिष्ट तालिका के प्रत्येक स्तंभ के बराबर 0.
हेनरी

@ हेनरी क्या जानकारी है जब "आउटलेयर" नहीं होते हैं और मध्ययुगीन पॉलिश के साथ "बाहर फेंक दिया जाता है" (और वैसे भी "आउटलाइल" से आपका क्या मतलब है)? आखिरकार, आप डेटा को फिर से बना सकते हैं में भव्य माध्यिका, पंक्ति और स्तंभ के मध्य और अवशेषों के माध्यम से हैं, जो सभी माध्यिका पॉलिश के आउटपुट का निर्माण करते हैं। यदि आपका मतलब है कि अवशेषों को छोड़ दिया गया है, तो इस अर्थ में "मीन पॉलिश" (ओएलएस के बराबर) किसी भी तरह से अलग है?
whuber

@ वाउचर: अवशिष्टों को दोनों मामलों में रखा जाता है। औसत पॉलिश इस बात का ध्यान रखता है कि केंद्र से कितनी दूर स्थितियां हैं (एक अर्थ में, यह अवशिष्टों के वजन को संतुलित करता है) जबकि मध्यिका पॉलिश केवल यह देखती है कि वे केंद्र से ऊपर या नीचे हैं (एक अर्थ में, यह संतुलन रखता है) अवशिष्टों की संख्या)। तो केंद्र के रूप में माध्यिका का उपयोग करते समय वजन की जानकारी अप्रयुक्त होती है; यह तब अच्छा हो सकता है जब कुछ पर्याप्त वजन / अवशिष्ट इतने संदिग्ध होते हैं कि केंद्र के लिए परिणाम पर भरोसा नहीं किया जा सकता है, लेकिन यदि नहीं तो जानकारी का उपयोग नहीं करना शामिल है।
हेनरी

@ हेनरी यदि आप पॉलिश से सभी मूल डेटा को पुनर्प्राप्त कर सकते हैं, तो "सूचना" का "उपयोग नहीं" कैसे किया जाता है? BTW, मध्ययुगीन पॉलिश व्यवहार नहीं करता है जैसा कि आप वर्णन करते हैं: इसके अवशेष मूल्यों में अंतर हैं डेटा के रैंक में नहीं, ।
whuber

3

लगता है कि आप एक पेपर पढ़ रहे हैं जिसमें कुछ जीन डिफरेंशियल एक्सप्रेशन विश्लेषण है। माइक्रोएरे चिप्स से जुड़े कुछ शोधों को करने के बाद, मैं औसत दर्जे की पॉलिश का उपयोग करने के बारे में बहुत कम ज्ञान (उम्मीद से सही) साझा कर सकता हूं।

माइक्रोएरे प्रीप्रोसेसिंग के सारांश चरण के दौरान माध्यिका पॉलिश का उपयोग करना एक मानक तरीका है जो पूर्ण मिलान जांच केवल चिप्स (कम से कम आरएमए) के साथ आउटलेर के डेटा से छुटकारा पाने के लिए है।

माइक्रोएरे डेटा के लिए मेडियन पॉलिश वह जगह है जहाँ आपके चिप और जांच प्रभाव आपकी पंक्तियों और स्तंभों के रूप में हैं:

प्रत्येक जांच सेट के लिए (एक ही जांच के n संख्या से बना) एक्स चिप्स पर:

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

जहाँ iv तीव्रता के मान हैं

जांच की तीव्रता की परिवर्तनशीलता के कारण, माइक्रोएरे डेटा के लगभग सभी विश्लेषण संक्षेपण से पहले पृष्ठभूमि सुधार और सामान्यीकरण के कुछ प्रकार का उपयोग करके प्रीप्रोसेस किया जाता है।

यहाँ बायोस मेलिंग लिस्ट थ्रेड्स के कुछ लिंक दिए गए हैं, जो मध्ययुगीन पॉलिश बनाम अन्य तरीकों का उपयोग करने की बात करते हैं:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

ऊतकों और सेल लाइनों के डेटा का आमतौर पर अलग से विश्लेषण किया जाता है क्योंकि जब कोशिकाओं को संस्कारित किया जाता है तो उनकी अभिव्यक्ति प्रोफाइल एकत्रित ऊतक नमूनों से नाटकीय रूप से बदल जाती है। कागज के अधिक होने के बिना यह कहना मुश्किल है कि नमूनों को अलग से संसाधित करना उचित था या नहीं।

सामान्यीकरण, पृष्ठभूमि सुधार, और विश्लेषण पाइपलाइन में संक्षेप चरणों में प्रयोगात्मक डेटा के सभी संशोधन हैं, लेकिन यह असंसाधित अवस्था में है, चिप प्रभाव, बैच प्रभाव, प्रसंस्करण प्रभाव विश्लेषण के लिए किसी भी संकेत को देखना होगा। ये माइक्रोएरे प्रयोग जीन की सूची उत्पन्न करते हैं जो परिणामों की पुष्टि करने के लिए अनुवर्ती प्रयोगों (qPCR, आदि) के लिए उम्मीदवार हैं।

जहाँ तक तदर्थ होने के नाते, 5 लोगों से पूछें कि एक जीन के लिए किस अंतर की आवश्यकता होती है, इस पर विचार किया जाना चाहिए और आप कम से कम 3 अलग-अलग उत्तरों के साथ आएंगे।


आपके उत्तर के अपडेट के लिए धन्यवाद, मुझे लगता है कि मैं अब एक विचार प्राप्त करना शुरू कर रहा हूं। इसलिए अगर मैं सही ढंग से समझूं, तो जांच और चिप के संबंध में तकनीकी परिवर्तनशीलता का आकलन करने के लिए माध्यिका चमकाने का उपयोग किया जाता है? ... प्रयोग से पहले विभिन्न स्थितियों के तहत जीनों के लिए 1 मैट्रिक्स धारण अभिव्यक्ति मूल्यों को अभिव्यक्त किया जाता है?
posdef

@posdef मेरी समझ से हाँ। एक चिप पर प्रत्येक जांच (समान अनुक्रम की जांच) के लिए पूरे भर में जांच की जाती है। चिप्स के कुछ छद्म चित्रों के लिए plmimagegallery.bmbolstad.com । एकल चिप के भीतर परिवर्तनशीलता के अलावा, चिप्स के बीच परिवर्तनशीलता है। तकनीकी परिवर्तनशीलता के कारण, प्रोबसेट के लिए एकल "अभिव्यक्ति मूल्य" प्राप्त करने के लिए एल्गोरिदम को कच्ची तीव्रता के मूल्यों पर चलाया जाता है। इन मूल्यों का मैट्रिक्स तब निर्धारित करने के लिए फिट है कि क्या जीन को अलग-अलग परिस्थितियों में अलग-अलग व्यक्त किया गया है।
क्राइगर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.