बहुसंकेतन डेटा के लिए सहसंयोजक मैट्रिक्स का निष्पक्ष अनुमान


22

पर्यावरण के नमूनों का रासायनिक विश्लेषण अक्सर रिपोर्टिंग सीमाओं या विभिन्न पहचान / मात्रात्मक सीमाओं पर नीचे सेंसर किया जाता है। उत्तरार्द्ध अलग-अलग हो सकता है, आमतौर पर अन्य चर के मूल्यों के अनुपात में। उदाहरण के लिए, एक यौगिक की उच्च सांद्रता वाले एक नमूने को विश्लेषण के लिए पतला करने की आवश्यकता हो सकती है, जिसके परिणामस्वरूप उस नमूने में एक ही समय में विश्लेषण किए गए अन्य सभी यौगिकों के लिए सेंसरिंग सीमा का आनुपातिक मुद्रास्फीति होता है। एक अन्य उदाहरण के रूप में, कभी-कभी एक यौगिक की उपस्थिति अन्य यौगिकों के लिए परीक्षण की प्रतिक्रिया को बदल सकती है (एक "मैट्रिक्स हस्तक्षेप"); जब यह प्रयोगशाला द्वारा पता लगाया जाता है, तो यह तदनुसार अपनी रिपोर्टिंग सीमा को बढ़ाएगा।

मैं इस तरह के डेटासेट के लिए संपूर्ण विचरण-सह-मैट्रिक्स मैट्रिक्स का अनुमान लगाने के लिए एक व्यावहारिक तरीका तलाश रहा हूं, खासकर जब यौगिकों में से कई 50% से अधिक सेंसरिंग का अनुभव करते हैं, जो अक्सर होता है। एक पारंपरिक वितरण मॉडल यह है कि (सत्य) सांद्रता के लघुगणक बहुराष्ट्रीय रूप से वितरित किए जाते हैं, और यह अभ्यास में अच्छी तरह से फिट होता है, इसलिए इस स्थिति के लिए एक समाधान उपयोगी होगा।

("व्यावहारिक" से मेरा अभिप्राय है कि एक ऐसी विधि जिसका उपयोग आर, पायथन, एसएएस इत्यादि जैसे कम से कम उपलब्ध सॉफ्टवेयर वातावरण में मज़बूती से किया जा सकता है, एक तरह से निष्पादित पुनरावृत्तियों का समर्थन करने के लिए पर्याप्त रूप से निष्पादित होता है, जैसे कि कई प्रतिरूपण में होते हैं) और जो यथोचित रूप से स्थिर है [यही कारण है कि मैं एक बीयूजीएस कार्यान्वयन का पता लगाने के लिए अनिच्छुक हूं, हालांकि सामान्य रूप से बायेसियन समाधान का स्वागत है]]

इस मामले पर आपके विचारों के लिए अग्रिम धन्यवाद।


बस इसलिए मैं सेंसरिंग के मुद्दे को सही ढंग से समझता हूं: जब आप एक नमूने को पतला करते हैं तो एक यौगिक की एकाग्रता इतनी कम हो जाती है कि परीक्षण उपकरण इसकी उपस्थिति का पता लगाने में विफल हो सकता है। क्या यह सेंसरिंग समस्या का एक सटीक पुन: निर्धारण है?

हां, यह सही है: डी के एक कारक द्वारा कमजोर पड़ने से डी के एक कारक द्वारा सभी पता लगाने की सीमा बढ़ जाती है। (मैट्रिक्स हस्तक्षेप का मुद्दा निर्धारित करना अधिक कठिन है और सामान्य स्थिति अत्यंत जटिल है। इसे सरल बनाने के लिए, पारंपरिक मॉडल यह है कि एक नमूने पर परीक्षण का एक सूट एक वेक्टर उपज देता है (x [1], ..., x [k) ]) जहां x [i] वास्तविक संख्याएं हैं या वास्तविक के अंतराल हैं, आमतौर पर -infinity में बाएं समापन बिंदु के साथ; एक अंतराल एक ऐसे सेट की पहचान करता है जिसमें सही मान को झूठ माना जाता है।)
whuber

पता लगाने की सीमा क्यों बढ़ेगी? क्या वे नमूने के परीक्षण के बजाय परीक्षण उपकरण की एक विशेषता नहीं हैं?

एक उदाहरण के रूप में, मान लीजिए कि एक उपकरण का पता लगाने की सीमा प्रति लीटर 1 माइक्रोग्राम प्रति (कुरूप / L) है। एक नमूना 10: 1 पतला है (महान परिशुद्धता के साथ, इसलिए हम यहां त्रुटि के बारे में चिंता नहीं करते हैं) और साधन "<1" पढ़ता है; पतला नमूना के लिए, यह nondetectable है। प्रयोगशाला का कहना है कि नमूने में सांद्रता 10 * 1 = 10 से कम / एल से कम है और इसे इस तरह से रिपोर्ट करता है; वह है, "<10" के रूप में।
whuber

1
@amoeba मैं देख रहा हूं मुझे उन चीजों को प्रश्न में ही स्पष्ट करना चाहिए था जवाब हैं: पीसीए; आयामीता 3 से कुछ सौ तक भिन्न होगी; नमूना आकार हमेशा बहुत अधिक होता है, लेकिन सेंसरिंग दरें बहुत अधिक हो सकती हैं (50% तक संभालने में सक्षम होने की आवश्यकता होती है और 95% तक वांछनीय है)।
whuber

जवाबों:


3

मैंने मैट्रिक्स हस्तक्षेप के मुद्दे को पूर्ण रूप से आंतरिक नहीं किया है लेकिन यहां एक दृष्टिकोण है। करते हैं:

एक वेक्टर है जो undiluted नमूने में सभी लक्ष्य यौगिकों की एकाग्रता का प्रतिनिधित्व करता है।Y

पतला नमूना में इसी वेक्टर हो।Z

कमजोर पड़ने का कारक हो सकता है, नमूना पतला है d : 1।dd

हमारा मॉडल है:

YN(μ,Σ)

Z=Yd+ϵ

जहां कमजोर पड़ने त्रुटियों के कारण त्रुटि प्रतिनिधित्व करता है।ϵN(0,σ2 I)

इसलिए, यह निम्न है कि:

ZN(μd,Σ+σ2 I)

ZfZ(.)

Oτith

Oi=ZiI(Zi>τ)+0I(Ziτ)

k

L(O1,...Ok,Ok+1,...On|)=[i=1i=kPr(Ziτ)][i=k+1i=nf(Oi|)]

कहा पे

f(Oi|)=jifZ(Oi|)I(Oi>τ)

अनुमान तब अधिकतम संभावना या द्विआधारी विचारों का उपयोग करने का मामला है। मुझे यकीन नहीं है कि उपरोक्त कितना ट्रैक्टेबल है, लेकिन मुझे उम्मीद है कि यह आपको कुछ विचार देगा।


इस विचार के लिए आपका बहुत-बहुत धन्यवाद। वास्तव में, यह कई सेंसरिंग के लिए एक मानक और अच्छी तरह से प्रलेखित दृष्टिकोण है। एक कठिनाई इसकी अंतरंगता में निहित है: उन अभिन्नों को गणना करने के लिए कुख्यात मुश्किल है। यहाँ एक मॉडलिंग समस्या है, यहाँ भी: मूल्य डी का आमतौर पर वाई के साथ सकारात्मक रूप से सहसंबद्ध है , जैसा कि मेरे विवरण के पहले पैराग्राफ द्वारा निहित है।
whuber

2

एक और अधिक कम्प्यूटेशनल रूप से कुशल विकल्प एक मॉडल का उपयोग करके पल-पल पर सहसंयोजक मैट्रिक्स को फिट करने के लिए होगा जिसे "डीसोमीज़ेड गौसियन" कहा गया है, वास्तव में केवल एक गाऊसी कोप्युला मॉडल।

मैकए एट अल 2010 के एक हालिया पेपर में इस मॉडल को फिट करने के लिए एक बंद फॉर्म प्रक्रिया का वर्णन किया गया है जिसमें केवल (सेंसर) अनुभवजन्य सहसंयोजक मैट्रिक्स और कुछ द्विभाजित सामान्य संभावनाओं की गणना शामिल है। इसी समूह (MPI Tuebingen में बेथज लैब) ने हाइब्रिड असतत / निरंतर गाऊसी मॉडल का भी वर्णन किया है जो कि शायद आप यहां चाहते हैं (यानी, क्योंकि गॉसियन RVs पूरी तरह से "डाइकोटोमाइज्ड" नहीं हैं - केवल उन दहलीज के नीचे हैं)।

गंभीर, यह है नहीं एक एमएल आकलनकर्ता, और मुझे डर है कि मैं नहीं जानता कि क्या अपने पूर्वाग्रह गुण हैं हूँ।


@jp धन्यवाद: मैं इस पर गौर करूंगा। (यह कुछ समय लग सकता ...)
whuber

1

आपके नमूने में कितने यौगिक हैं? (या, प्रश्न में सहसंयोजक मैट्रिक्स कितना बड़ा है?)।

विभिन्न प्रकार की भाषाओं (R, Matlab, Fortran; देखें यहां ) में एलन गेन्ज के पास कुछ बहुत अच्छा कोड है। हाइपर-आयतों पर बहुभिन्नरूपी सामान्य घनत्व के अभिकलन की गणना के लिए (अर्थात, अभिन्नता का मूल्यांकन करने के लिए आपको जिस तरह के अभिन्न अंग की आवश्यकता है, जैसा कि नोट किया गया है) user28)।

मैंने इन कार्यों ("ADAPT" और "QSIMVN") का उपयोग लगभग 10-12 आयामों के लिए अभिन्न अंग के लिए किया है, और उस पृष्ठ पर कई कार्य 100 आयामों तक की समस्याओं के लिए इंटीग्रल (और संबंधित डेरिवेटिव जो आपको चाहिए) का विज्ञापन करते हैं। मैं डॉन यदि आपके उद्देश्यों के लिए पर्याप्त आयाम हैं, तो यह पता नहीं है, लेकिन यदि यह संभव है तो आप ढाल द्वारा अधिकतम संभावना अनुमान लगाने की अनुमति दे सकते हैं।


ओह, क्षमा करें- मैं यहां नया हूं और ध्यान नहीं दिया कि यह कितनी देर पहले पोस्ट किया गया था - शायद बहुत देर हो चुकी है बहुत मदद करने के लिए!
jpillow

@jp यह एक सतत महत्वपूर्ण समस्या है, इसलिए प्रश्न और उत्तर के बीच का अल्प समय थोड़ा परिणाम है। जवाब देने के लिए धन्यवाद!
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.