छोटे नमूना नैदानिक ​​अध्ययन में मशीन सीखने की तकनीक का अनुप्रयोग


15

जब आप एक वर्गीकरण संदर्भ में दिलचस्प भविष्यवक्ताओं को अलग करना चाहते हैं, तो छोटे नमूना नैदानिक ​​अध्ययनों में रैंडम फ़ॉरेस्ट या दंडित प्रतिगमन (एल 1 या एल 2 दंड के साथ, या एक संयोजन) जैसी मशीन सीखने की तकनीक को लागू करने के बारे में आप क्या सोचते हैं? यह मॉडल चयन के बारे में सवाल नहीं है, और न ही मैं चर प्रभाव / महत्व के इष्टतम अनुमानों के बारे में पूछ रहा हूं। मैं मजबूत इंट्रेंस करने की योजना नहीं बनाता, लेकिन सिर्फ मल्टीवेरिएट मॉडलिंग का उपयोग करता हूं, इसलिए एक समय में ब्याज के परिणाम के खिलाफ प्रत्येक भविष्यवक्ता का परीक्षण करने से बचना चाहिए, और उनके अंतर्संबंधों को ध्यान में रखना चाहिए।

मैं बस सोच रहा था कि क्या इस तरह के दृष्टिकोण को इस विशेष चरम मामले में पहले से ही लागू किया गया था, 20-30 विषयों को 10-15 स्पष्ट या निरंतर चर पर डेटा के साथ कहें। ऐसा नहीं है कि वास्तव में np मामले और मैं इस समस्या यहां कक्षाएं हम समझाने की कोशिश (जो अक्सर अच्छी तरह से नहीं संतुलित कर रहे हैं) की संख्या से संबंधित है लगता है, और (बहुत) छोटे एन। मैं जैव सूचना विज्ञान के संदर्भ में इस विषय पर विशाल साहित्य से अवगत हूं, लेकिन मैंने बायोमेडिकल अध्ययन से संबंधित किसी भी संदर्भ को मनोचिकित्सीय रूप से मापा फेनोटाइप्स (जैसे कि न्यूरोपैकिकोलॉजिकल प्रश्नावली) में नहीं पाया।

प्रासंगिक कागजात के लिए कोई संकेत या संकेत?

अपडेट करें

मैं इस तरह के डेटा का विश्लेषण करने के लिए किसी भी अन्य समाधान के लिए खुला हूं, जैसे कि C4.5 एल्गोरिथ्म या इसके डेरिवेटिव, एसोसिएशन के नियम तरीके, और पर्यवेक्षित या अर्ध-पर्यवेक्षित वर्गीकरण के लिए कोई डेटा खनन तकनीक।


बस स्पष्ट होना चाहिए: आपका सवाल डेटा के आकार के बारे में है, न कि सेटिंग के बारे में, सही है?
शेन

वास्तव में, मुझे आश्चर्य है कि अगर "सबसे छोटी" n (wrt। की उच्च संख्या के लिए) के बारे में कोई संदर्भ हैं, या अधिक सटीक रूप से यदि कोई क्रॉस-वैधीकरण तकनीक (या RF में पुन: नमूनाकरण की रणनीति) ऐसे चरम मामले में वैध है। ।
chl

जवाबों:


7

मैंने इसे जैव सूचना विज्ञान / मशीन लर्निंग के बाहर इस्तेमाल नहीं किया है, लेकिन शायद आप पहले एक हो सकते हैं :)

जैव सूचना विज्ञान से छोटे नमूना विधि विधि के एक अच्छे प्रतिनिधि के रूप में, एल 1 नियमितीकरण के साथ लॉजिस्टिक प्रतिगमन एक अच्छा फिट दे सकता है जब मापदंडों की संख्या अवलोकनों की संख्या में घातीय होती है, गैर-स्पर्शोन्मुख विश्वास अंतराल को चेरनॉफ-प्रकार की असमानताओं (अर्थात) का उपयोग करके तैयार किया जा सकता है। डुडिक (2004) उदाहरण के लिए)। ट्रेवर हस्ती ने जीन इंटरैक्शन की पहचान करने के लिए इन तरीकों को लागू करने के लिए कुछ काम किए हैं। नीचे दिए गए कागज में, वह 2200 टिप्पणियों के नमूने के लिए 310,637 समायोज्य मापदंडों के साथ एक मॉडल से महत्वपूर्ण प्रभावों की पहचान करने के लिए इसका उपयोग करता है

"लसो द्वारा जीनोम-वाइड एसोसिएशन विश्लेषण ने लॉजिस्टिक प्रतिगमन को दंडित किया।" लेखक: हस्ती, टी; सोबेल, ई; वू, टी। टी।; चेन, वाई। एफ; Lange, K Bioinformatics Vol: 25 अंक: 6 ISSN: 1367-4803 दिनांक: 03-2009 पृष्ठ: 714: 721

विक्टोरिया स्टोडेन द्वारा संबंधित प्रस्तुति ( टिप्पणियों से कई अधिक चर के साथ मॉडल चयन )


हाँ, वू एट अल। 2009 एक अच्छा पेपर है। संयोग से, मैं पिछले दो वर्षों के दौरान जीडब्ल्यूएएस और एमएल पर काम कर रहा हूं; अब मैं नैदानिक ​​अध्ययनों में वापस जाने की कोशिश कर रहा हूं, जहां ज्यादातर समय हमें अपूर्ण माप, लापता डेटा और निश्चित रूप से व्यवहार करना पड़ता है ... भौतिक विज्ञानी के दृष्टिकोण से बहुत सारे दिलचस्प चर!
chl

BTW, मैं अभी एक पेपर भर में आया था जिसने मुझे इस प्रश्न के बारे में बताया ... आत्मविश्वास के अंतराल के बारे में बात करने के लिए मशीन लर्निंग पेपर के लिए यह बहुत दुर्लभ है, लेकिन यहाँ एक उल्लेखनीय अपवाद है ncbi.nlm.nih.gov/pubmed/198819325
यरोस्लाव बुलटोव

nnpnपी

यह एक बहुत ही दिलचस्प सवाल है। मैंने इनमें से कुछ और कुछ अन्य लेखों को एक ब्लॉग पोस्ट में एकत्र किया है (आशा है कि आप बुरा नहीं मानते)। मुझे यकीन है कि वहाँ कुछ अन्य लोग हैं।
एंड्रयू

5

मुझे 15 भविष्यवक्ताओं और 20 के नमूने के साथ एक खोजपूर्ण विश्लेषण के परिणामों की सामान्यता में बहुत कम विश्वास होगा।

  • पैरामीटर अनुमानों का विश्वास अंतराल बड़ा होगा। जैसे, r = .30 पर n = 20 के साथ 95% विश्वास अंतराल -0.17 से 0.66 है।
  • जब आप एक खोजपूर्ण और डेटा चालित तरीके से कई भविष्यवाणियों का उपयोग करते हैं, तो समस्याएँ जटिल हो जाती हैं।

ऐसी परिस्थितियों में, मेरी सलाह आम तौर पर रिश्तों के विश्लेषण को सीमित करने की होगी। यदि आप एक बायोसियन परिप्रेक्ष्य लेते हैं, तो मैं कहूंगा कि आपकी पूर्व की अपेक्षाएं समान हैं यदि डेटा से अधिक महत्वपूर्ण नहीं हैं।


4

अंगूठे का एक सामान्य नियम कम से कम 10 बार प्रशिक्षण डेटा इंस्टेंसेस (किसी भी परीक्षण / सत्यापन डेटा आदि की बात नहीं करना) के रूप में है, क्योंकि क्लासिफायरियर में समायोज्य पैरामीटर हैं। ध्यान रखें कि आपको एक समस्या है जिसमें आपको न केवल पर्याप्त डेटा, बल्कि प्रतिनिधि डेटा भी चाहिए । अंत में, कोई व्यवस्थित नियम नहीं है क्योंकि यह निर्णय लेते समय बहुत सारे चर हैं। जैसा कि हस्ती, टिबशिरानी, ​​और फ्रीडमैन द एलिमेंट्स ऑफ़ स्टैटिस्टिकल लर्निंग में कहते हैं (अध्याय 7 देखें):

कितना प्रशिक्षण डेटा पर्याप्त है, इस पर एक सामान्य नियम देना बहुत मुश्किल है; अन्य बातों के अलावा, यह अंतर्निहित फ़ंक्शन के सिग्नल-टू-शोर अनुपात और मॉडल की जटिलता डेटा पर फिट होने पर निर्भर करता है।

यदि आप इस क्षेत्र में नए हैं, तो मैं बायोमेडिकल इंजीनियरिंग के एनसाइक्लोपीडिया से इस छोटे "पैटर्न रिकॉग्निशन" पेपर को पढ़ने की सलाह देता हूं, जो कुछ डेटा मुद्दों का संक्षिप्त सारांश देता है।


धन्यवाद! मेरे पास हस्ती की किताब और वह सी। बिशप (पैटर्न रिकॉग्निशन एंड मशीन लर्निंग) है। मुझे पता है कि इस तरह के एक छोटे से एन को सहज या अविश्वसनीय (जेरोमी एंग्लिम की टिप्पणी देखें) संघ का नेतृत्व करना होगा। हालाँकि, ब्रेमेन द्वारा कार्यान्वित आरएफ एल्गोरिथ्म हर बार पेड़ के बढ़ने पर (मेरे मामले में, 3 या 4 में) सीमित सुविधाओं का सामना करने की अनुमति देता है और हालाँकि OOB त्रुटि दर बहुत अधिक है (लेकिन यह उम्मीद की जानी चाहिए), विश्लेषण चर महत्व मुझे यह निष्कर्ष निकालने के लिए प्रेरित करता है कि मैं बीवरिएट परीक्षणों (क्रमपरिवर्तन परीक्षण के साथ) का उपयोग करके इसी तरह के निष्कर्ष पर पहुंचूंगा।
chl

1
अंगूठे का नियम मुख्य रूप से एल 2 नियमित रूप से अधिकतम संभावना की तरह शास्त्रीय तरीकों पर लागू होता है, एल 1 नियमित तरीके प्रभावी ढंग से सीख सकते हैं जब समायोज्य मापदंडों की संख्या अवलोकनों की संख्या में घातीय होती है (यानी, मिरोस्लाव डुडिक, 2004 COLT पेपर
यारोस्लाव बुलटोव

3

मैं आपको आश्वस्त कर सकता हूं कि आरएफ उस मामले में काम करेगा और इसका महत्व माप बहुत ही सुखद होगा (क्योंकि मानक (n << p) s) की तरह भ्रामक महत्वहीन विशेषताओं की कोई बड़ी पूंछ नहीं होगी। मैं अब इसी तरह की समस्या से निपटने वाले किसी भी पेपर को याद नहीं कर सकता, लेकिन मैं इसके लिए देखूंगा।


1
धन्यवाद! मैं पिछले महीने चतुर्थ ईएएम-एसएमएबीएस सम्मेलन में भाग ले रहा था, और स्पीकर में से एक ने बायोमेडिकल अध्ययन में एमएल का एक आवेदन प्रस्तुत किया; दुर्भाग्य से, यह एन ~ 300 विषयों और पी = 10 भविष्यवक्ताओं के साथ कुछ हद तक "मानक" अध्ययन था। वह मेडिसिन में सांख्यिकी के लिए एक पेपर प्रस्तुत करने वाला है । मैं जो देख रहा हूं वह केवल लेख / संदर्भ लेख है। मानक नैदानिक ​​अध्ययन, जैसे आउट पेशेंट, जहां परिणामों की सामान्यता इतनी अधिक समस्या नहीं है।
chl

क्या आपको कोई पेपर आखिरकार मिला?
chl

@chl अभी तक नहीं; लेकिन अनुस्मारक के लिए धन्यवाद।

कोई जल्दी नहीं है :) कुछ भी दिलचस्प नहीं मिला; शायद Pubmed इस विशेष मामले के लिए सही खोज इंजन नहीं है ...
chl

@ यहां भी मेरी समस्या है। यह वास्तव में लगता है n << p बायोमेड डेटा का एक पर्याय बन गया है।

0

यदि आपके पास असतत इनपुट हैं, तो मैं एक इनपुट लिख रहा हूं, जो कि पिछले इनपुटों को देखते हुए एक बाइनरी इनपुट के लापता मूल्यों की भविष्यवाणी करने का कार्यक्रम है। किसी भी श्रेणी, जैसे "1 का 6", द्विआधारी बिट में परिवर्तित किया जा सकता है, और यह ठीक काम करेगा; इसका असर नहीं होगा।

मैं जिस एल्गोरिथम को लिख रहा हूं उसका उद्देश्य गणितीय रूप से जितनी जल्दी हो सके सीखना है। नतीजतन यह बहुत खराब समय और अंतरिक्ष जटिलता है (O (4 ^ N) के बारे में अंतरिक्ष जटिलता) !.

लेकिन इसके लिए आपको अनिवार्य रूप से 1-ऑफ लर्निंग मिलती है, किसी भी प्रणाली के लिए जिसका राज्य थोड़ा वेक्टर के रूप में व्यक्त किया जा सकता है। उदाहरण के लिए, एक पूर्ण योजक में 8 अलग इनपुट अवस्थाएँ होती हैं। एल्गोरिथ्म केवल 8 अलग-अलग प्रशिक्षण नमूनों के बाद एक पूर्ण योजक सीखेगा। इतना ही नहीं, लेकिन आप तब इसका उत्तर दे सकते हैं और क्या यह प्रश्न का अनुमान लगा सकता है, या इसे उत्तर का हिस्सा और प्रश्न का हिस्सा दे सकता है और इसे शेष में भर सकता है।

यदि इनपुट डेटा में बहुत अधिक बिट्स हैं, तो यह बहुत ही संगणना और स्मृति गहन होगा। लेकिन अगर आपको बहुत कम नमूने मिले हैं, - या इसलिए डिज़ाइन का लक्ष्य है - यह आपको सबसे अच्छी भविष्यवाणियों के पास देगा।

आप इसे बिट वैक्टर के साथ प्रशिक्षित करते हैं, जिसमें बिट वेक्टर अज्ञात है। एक भविष्यवाणी प्राप्त करने के लिए, आप उसी तरह इसे थोड़ा वेक्टर खिलाते हैं, जो बिट्स अज्ञात हैं, और आप किन बिट्स को भविष्यवाणी करना चाहते हैं।

स्रोत कोड यहां उपलब्ध है: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.