बहुत बड़ी समय-श्रृंखला डेटासेट से निपटना


10

मेरी पहुंच बहुत बड़े डेटासेट तक है। डेटा चार लोगों में से एक से संगीत अंश सुनने वाले एमईजी रिकॉर्डिंग से है। डेटा इस प्रकार है:

  • 6 विषय
  • 3 प्रायोगिक दोहराव (युग)
  • 120 परीक्षण प्रति युग
  • 275 MEG चैनलों से 500Hz (= 4000 नमूने) पर परीक्षण के अनुसार 8 सेकंड का डेटा

तो यहां प्रत्येक "उदाहरण" आकार का एक मैट्रिक्स है [4000x275], और इस तरह के उदाहरणों में से 2160 हैं, और यह आपके अतिरिक्त निष्कर्षण से पहले है। लक्ष्य मस्तिष्क संकेत (4-श्रेणी वर्गीकरण) के आधार पर शैली की भविष्यवाणी करना है।

स्पष्ट रूप से यहाँ कुछ चुनौतीपूर्ण मुद्दे हैं, अर्थात्:

  1. डेटासेट स्मृति में फिट नहीं होता है
  2. डेटा में मजबूत अस्थायी सहसंबंध होंगे, और अंतर-विषय भिन्नता बहुत बड़ी होगी। परिणामस्वरूप यह स्पष्ट नहीं है कि डेटा को कैसे विभाजित किया जाए
  3. सिग्नल-टू-शोर अनुपात बहुत कम है
  4. यह स्पष्ट नहीं है कि एक क्लासिफायर के लिए सही विशेषताएं क्या होंगी

बदले में इन्हें लेना:

  1. वहाँ विभिन्न चीजें हैं जो एक कर सकती हैं। सबसे पहले हम 500Hz से ~ 200Hz तक सुरक्षित रूप से डाउनसम्प्लन कर सकते हैं, यहाँ तक कि Nyquist की सीमा को ध्यान में रखते हुए, मस्तिष्क की गतिविधि वास्तव में 100Hz से अधिक नहीं होती है। हम यह भी चैनलों के सेट (श्रवण क्षेत्रों पर जैसे मध्य) से subsample सकता है, लेकिन हम नहीं बल्कि ऐसा नहीं था एक-प्रायोरी (ललाट आदि) है कि ब्याज की हो सकता है, के रूप में वहाँ अन्य क्षेत्रों में गतिविधि हो सकता है। हम शायद समय खिड़की के एक हिस्से को भी गिरा सकते हैं। शायद केवल पहले 2s कार्य के लिए महत्वपूर्ण है? यह वास्तव में ज्ञात नहीं है। बेशक हर कोई चिल्लाएगा " आयामीता में कमी! ", लेकिन यह या तो तुच्छ नहीं है। सबसे पहले, हमें अपनी ट्रेन / टेस्ट स्प्लिट्स (देखें 2.) के बारे में बहुत सावधान रहना होगा और यह भी स्पष्ट नहीं है कि यह सुविधा पीढ़ी से पहले या बाद में करना है। दूसरे, महंगे के अलावा। क्रॉस-मान्यता, या श्रमसाध्य दृश्य निरीक्षण, उचित विधि या आयामों की उचित संख्या का चयन करने का कोई स्पष्ट तरीका नहीं है। हम निश्चित रूप से उदाहरण के लिए पीसीए, आईसीए, या यादृच्छिक अनुमानों का उपयोग कर सकते हैं और सर्वश्रेष्ठ के लिए आशा कर सकते हैं ...।

  2. यह मुश्किल है। यदि हमारे पास प्रशिक्षण सेट में लगातार नमूने हैं, तो हम प्रशिक्षण सेट को ओवरफिट करने की संभावना रखते हैं, जबकि अगर हमारे पास लगातार नमूने ट्रेन और परीक्षण सेटों में विभाजित हैं, तो हम प्रशिक्षण सेट को कम करने की संभावना रखते हैं, लेकिन फिर भी परीक्षण सेट को ओवरफिट कर सकते हैं। यहाँ विभिन्न विकल्प प्रतीत होते हैं:

    • एकल विषय वर्गीकरण । प्रत्येक व्यक्तिगत विषय को अपने दम पर लें, और युगों के अनुसार विभाजित करें। यह सबसे आसान काम होना चाहिए , क्योंकि हम दिमाग में भविष्यवाणी करने की कोशिश नहीं कर रहे हैं। इसके भीतर एक व्यक्ति क्रॉस-वेलिडेशन के लिए दो शेष युगों का उपयोग कर सकता है। पूर्णता के लिए किसी को सभी संयोजनों को घुमाना चाहिए। हम बस सभी विषयों पर औसत सटीकता की रिपोर्ट करेंगे। निश्चित रूप से हम इन मॉडलों की उम्मीद बिल्कुल भी सामान्य नहीं करेंगे।
    • विषयों के वर्गीकरण के भीतर । सभी विषयों को एक साथ लें, और युगों के अनुसार विभाजित करें। यह हो सकता है वास्तव में, सबसे आसान काम हो जैसा कि हम सभी प्रशिक्षण में विषयों की देखा है होगा। हालांकि हम शायद नए विषयों के लिए मॉडल के सामान्यीकरण की उम्मीद नहीं करेंगे। इसके भीतर एक व्यक्ति क्रॉस-वेलिडेशन के लिए दो शेष युगों का उपयोग कर सकता है। पूर्णता के लिए किसी को सभी संयोजनों को घुमाना चाहिए।
    • विषयों के वर्गीकरण के बीच । "लीव-वन-आउट" के रूप में भी जाना जाता है, जहां एक ही विषय को परीक्षण डेटा के रूप में लिया जाता है, और बाकी का उपयोग प्रशिक्षण के लिए किया जाता है। फिर हम सभी विषयों के माध्यम से घूमेंगे। क्रॉस-मान्यता तब विषयों पर किया जाएगा। हम उम्मीद करेंगे कि यह अधिक कठिन कार्य होगा, क्योंकि हम हर बार "नए मस्तिष्क" पर भविष्यवाणी करने की कोशिश कर रहे हैं। यहां हम मॉडल से बड़ी आबादी के लिए अच्छी तरह से सामान्यीकरण करने की अपेक्षा करेंगे, हालांकि परीक्षण-पुन: विश्वसनीयता (यानी ओवरऑल टेंपरिंग के कारण अस्थायी संबंध) का मुद्दा है।
  3. यह एक शास्त्रीय "सुई में एक घास का मैदान" समस्या है - संगीत शैली, या किसी भी शैली-विशिष्ट प्रसंस्करण की मान्यता से संबंधित वास्तविक संकेत, मस्तिष्क में गतिविधि के "सूप" की तुलना में शून्य से कम होने की संभावना है। ऐसे उल्लेखनीय आर्टिफैक्ट भी हैं जो केवल आंशिक रूप से हटाए जा सकते हैं (मुख्य रूप से आंदोलन से संबंधित)। कोई भी विशेषताएं जो हम डेटा से प्राप्त करते हैं, और किसी भी तरीके से डेटा का इलाज किया जाता है, ब्याज की सिग्नल के हिस्से को नष्ट करने से बचना चाहिए।

  4. यहाँ कोई विभिन्न चीजों को करने की कल्पना कर सकता है। पहला यह होगा कि फीचर वेक्टर के रूप में केवल कच्चे डेटा (सदिश में सदिश) का उपयोग किया जाए। मुझे यकीन नहीं है कि हालांकि यह कितना उपयोगी है - मुझे लगता है कि ये वैक्टर संभवतः अनिवार्य रूप से यादृच्छिक होंगे। यह वास्तव में एक सिग्नल प्रोसेसिंग प्रश्न है, लेकिन कुछ सामान्य दिशानिर्देश हैं जिनका पालन कर सकते हैं। एक स्लाइडिंग विंडो पर मानक फूरियर विश्लेषण करना है, जहां से घटकों को अलग-अलग आवृत्ति बैंड (अल्फा / बीटा / गामा आदि) में विभाजित किया जा सकता है, और इन (मतलब, एसटीडी विचलन) के आंकड़ों को सुविधाओं के रूप में इस्तेमाल किया जा सकता है। या कोई वेवलेट्स, हिल्बर्ट ट्रांसफॉर्म्स का उपयोग कर सकता है, या अराजक आकर्षित करने वालों को देखने का भी प्रयास कर सकता है। बेशक तब हमारे पास गुठली (रैखिक, बहुपद, आरबीएफ आदि) का विकल्प होता है जो क्रमपरिवर्तन की संख्या को बढ़ाता है। शायद यहां करने के लिए सबसे अच्छी बात यह है कि संभव के रूप में कई अलग-अलग फीचर सेट उत्पन्न होते हैं, और फिर उन्हें एक साथ संयोजित करने के लिए एमकेएल या बूस्टिंग विधियों का उपयोग करें।

आप इस तरह के डेटासेट कैसे प्राप्त करेंगे (यदि यह विशेष रूप से नहीं है)? वहाँ कुछ भी मैं जिस तरह से साथ याद किया है? शोधकर्ता समय और कम्प्यूटेशनल संसाधनों की अंतहीन मात्रा खर्च किए बिना, सफल होने की सबसे अधिक संभावना वाली रणनीति क्या है?

जवाबों:


4

@tdc। सभी और कई और मुद्दे, जिनके बारे में आपने न्यूरोसाइंस डेटा के विश्लेषण के बारे में यहां बताया है: आयाम में कमी, विषयों के वर्गीकरण के बीच /, सिग्नल-टू-शोर अनुपात, आदि। ईईजीएलएबी टूलबॉक्स द्वारा संभाल रहे हैं , जो विशेष रूप से डिजाइन किए गए हैं। इस तरह के तंत्रिका विज्ञान डेटा को संभालने के लिए:

ईईजीएएलबी सतत और घटना से संबंधित ईईजी, एमईजी और अन्य इलेक्ट्रोफिजियोलॉजिकल डेटा के प्रसंस्करण के लिए एक इंटरैक्टिव मैटलैब टूलबॉक्स है जिसमें स्वतंत्र घटक विश्लेषण (आईसीए), समय / आवृत्ति विश्लेषण, विरूपण साक्ष्य अस्वीकृति, घटना से संबंधित आँकड़े, और औसतन विज़ुअलाइज़ेशन के कई उपयोगी तरीके शामिल हैं। और एकल-परीक्षण डेटा।

इस प्रकार, आपके प्रश्न के संबंध में "सफल होने के लिए सबसे अधिक संभावना रणनीति क्या है, शोधकर्ता समय की अंतहीन मात्रा खर्च किए बिना" मैं आपको लाइन वर्कशॉप पर ईईजीलैब देखने के लिए प्रोत्साहित करना चाहूंगा , और वहां से जारी रखने के लिए ...

अद्यतन: अधिक एमएल सामान के लिए (नए) BCILAB मॉडल पर एक नज़र डालें


1
मैंने वास्तव में अतीत में ईईजीएलएबी का उपयोग किया है, हालांकि मुख्य रूप से यह पूर्ण जीयूआई के बजाय अंतर्निहित कार्य है (जो थोड़ा धीमा और अस्थिर होने के लिए जाता है)। हालाँकि यह ज्यादातर बहुभिन्नरूपी विश्लेषण के बजाय बड़े पैमाने पर एकतरफा विश्लेषण के लिए तैयार है, हालांकि मैं मानता हूं कि मैंने थोड़ी देर में इसे नहीं देखा है। क्या आपको इसका अनुभव है?
tdc

मुझे लगता है कि उन्होंने पिछले दो वर्षों में बड़ी प्रगति की है ... और मैं GUI और matlab-function दोनों का उपयोग कर रहा हूं। 2010 से यह कार्यशाला बहुत उपयोगी है और कई कीड़े तय किए गए थे, कई मॉडल जैसे अध्ययन और अन्य जोड़े गए थे। मैं इससे बहुत खुश हूं, इससे मेरा समय और पैसा बचता है लेकिन कृपया ध्यान दें कि मैं मुख्य रूप से ईईजी डेटा के साथ काम कर रहा हूं न कि एमईजी के साथ।
11:17

1
दिलचस्प है। सिद्धांत रूप में, मुझे ईईजी और एमईजी के बीच कोई अंतर नहीं दिखता है, क्योंकि वे अनिवार्य रूप से विद्युत मस्तिष्क गतिविधि को मापने के अलावा, कलाकृतियों के प्रकार और सेंसर की संख्या से अलग हैं। क्या आपने EEGLAB को मशीन लर्निंग के साथ जोड़ा है?
tdc

ज़रूर। पुरे समय। यह सब matlab में है ... इसलिए एक बार जब आप अपना डेटा EEGLAB में लोड करते हैं। आप पीसीए / आईसीए (यह मैं क्या कर रहा हूँ) का उपयोग कर सकते हैं और फिर अपने पसंदीदा क्लासिफायर / क्लस्टरिंग एसवीएम, फिशर या के-मीन का प्रशिक्षण दे सकते हैं। इसे नाम दें।
11:17

1
यह इसके दायरे के लिए एक शानदार जवाब है, लेकिन यह देखना अच्छा होगा कि इनमें से प्रत्येक मुद्दे को एक मालिकाना प्रणाली पर निर्भर टूलबॉक्स से स्वतंत्र कैसे नियंत्रित किया जाता है।
उज्ज्वल-स्टार
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.