मेरी पहुंच बहुत बड़े डेटासेट तक है। डेटा चार लोगों में से एक से संगीत अंश सुनने वाले एमईजी रिकॉर्डिंग से है। डेटा इस प्रकार है:
- 6 विषय
- 3 प्रायोगिक दोहराव (युग)
- 120 परीक्षण प्रति युग
- 275 MEG चैनलों से 500Hz (= 4000 नमूने) पर परीक्षण के अनुसार 8 सेकंड का डेटा
तो यहां प्रत्येक "उदाहरण" आकार का एक मैट्रिक्स है [4000x275], और इस तरह के उदाहरणों में से 2160 हैं, और यह आपके अतिरिक्त निष्कर्षण से पहले है। लक्ष्य मस्तिष्क संकेत (4-श्रेणी वर्गीकरण) के आधार पर शैली की भविष्यवाणी करना है।
स्पष्ट रूप से यहाँ कुछ चुनौतीपूर्ण मुद्दे हैं, अर्थात्:
- डेटासेट स्मृति में फिट नहीं होता है
- डेटा में मजबूत अस्थायी सहसंबंध होंगे, और अंतर-विषय भिन्नता बहुत बड़ी होगी। परिणामस्वरूप यह स्पष्ट नहीं है कि डेटा को कैसे विभाजित किया जाए
- सिग्नल-टू-शोर अनुपात बहुत कम है
- यह स्पष्ट नहीं है कि एक क्लासिफायर के लिए सही विशेषताएं क्या होंगी
बदले में इन्हें लेना:
वहाँ विभिन्न चीजें हैं जो एक कर सकती हैं। सबसे पहले हम 500Hz से ~ 200Hz तक सुरक्षित रूप से डाउनसम्प्लन कर सकते हैं, यहाँ तक कि Nyquist की सीमा को ध्यान में रखते हुए, मस्तिष्क की गतिविधि वास्तव में 100Hz से अधिक नहीं होती है। हम यह भी चैनलों के सेट (श्रवण क्षेत्रों पर जैसे मध्य) से subsample सकता है, लेकिन हम नहीं बल्कि ऐसा नहीं था एक-प्रायोरी (ललाट आदि) है कि ब्याज की हो सकता है, के रूप में वहाँ अन्य क्षेत्रों में गतिविधि हो सकता है। हम शायद समय खिड़की के एक हिस्से को भी गिरा सकते हैं। शायद केवल पहले 2s कार्य के लिए महत्वपूर्ण है? यह वास्तव में ज्ञात नहीं है। बेशक हर कोई चिल्लाएगा " आयामीता में कमी! ", लेकिन यह या तो तुच्छ नहीं है। सबसे पहले, हमें अपनी ट्रेन / टेस्ट स्प्लिट्स (देखें 2.) के बारे में बहुत सावधान रहना होगा और यह भी स्पष्ट नहीं है कि यह सुविधा पीढ़ी से पहले या बाद में करना है। दूसरे, महंगे के अलावा। क्रॉस-मान्यता, या श्रमसाध्य दृश्य निरीक्षण, उचित विधि या आयामों की उचित संख्या का चयन करने का कोई स्पष्ट तरीका नहीं है। हम निश्चित रूप से उदाहरण के लिए पीसीए, आईसीए, या यादृच्छिक अनुमानों का उपयोग कर सकते हैं और सर्वश्रेष्ठ के लिए आशा कर सकते हैं ...।
यह मुश्किल है। यदि हमारे पास प्रशिक्षण सेट में लगातार नमूने हैं, तो हम प्रशिक्षण सेट को ओवरफिट करने की संभावना रखते हैं, जबकि अगर हमारे पास लगातार नमूने ट्रेन और परीक्षण सेटों में विभाजित हैं, तो हम प्रशिक्षण सेट को कम करने की संभावना रखते हैं, लेकिन फिर भी परीक्षण सेट को ओवरफिट कर सकते हैं। यहाँ विभिन्न विकल्प प्रतीत होते हैं:
- एकल विषय वर्गीकरण । प्रत्येक व्यक्तिगत विषय को अपने दम पर लें, और युगों के अनुसार विभाजित करें। यह सबसे आसान काम होना चाहिए , क्योंकि हम दिमाग में भविष्यवाणी करने की कोशिश नहीं कर रहे हैं। इसके भीतर एक व्यक्ति क्रॉस-वेलिडेशन के लिए दो शेष युगों का उपयोग कर सकता है। पूर्णता के लिए किसी को सभी संयोजनों को घुमाना चाहिए। हम बस सभी विषयों पर औसत सटीकता की रिपोर्ट करेंगे। निश्चित रूप से हम इन मॉडलों की उम्मीद बिल्कुल भी सामान्य नहीं करेंगे।
- विषयों के वर्गीकरण के भीतर । सभी विषयों को एक साथ लें, और युगों के अनुसार विभाजित करें। यह हो सकता है वास्तव में, सबसे आसान काम हो जैसा कि हम सभी प्रशिक्षण में विषयों की देखा है होगा। हालांकि हम शायद नए विषयों के लिए मॉडल के सामान्यीकरण की उम्मीद नहीं करेंगे। इसके भीतर एक व्यक्ति क्रॉस-वेलिडेशन के लिए दो शेष युगों का उपयोग कर सकता है। पूर्णता के लिए किसी को सभी संयोजनों को घुमाना चाहिए।
- विषयों के वर्गीकरण के बीच । "लीव-वन-आउट" के रूप में भी जाना जाता है, जहां एक ही विषय को परीक्षण डेटा के रूप में लिया जाता है, और बाकी का उपयोग प्रशिक्षण के लिए किया जाता है। फिर हम सभी विषयों के माध्यम से घूमेंगे। क्रॉस-मान्यता तब विषयों पर किया जाएगा। हम उम्मीद करेंगे कि यह अधिक कठिन कार्य होगा, क्योंकि हम हर बार "नए मस्तिष्क" पर भविष्यवाणी करने की कोशिश कर रहे हैं। यहां हम मॉडल से बड़ी आबादी के लिए अच्छी तरह से सामान्यीकरण करने की अपेक्षा करेंगे, हालांकि परीक्षण-पुन: विश्वसनीयता (यानी ओवरऑल टेंपरिंग के कारण अस्थायी संबंध) का मुद्दा है।
यह एक शास्त्रीय "सुई में एक घास का मैदान" समस्या है - संगीत शैली, या किसी भी शैली-विशिष्ट प्रसंस्करण की मान्यता से संबंधित वास्तविक संकेत, मस्तिष्क में गतिविधि के "सूप" की तुलना में शून्य से कम होने की संभावना है। ऐसे उल्लेखनीय आर्टिफैक्ट भी हैं जो केवल आंशिक रूप से हटाए जा सकते हैं (मुख्य रूप से आंदोलन से संबंधित)। कोई भी विशेषताएं जो हम डेटा से प्राप्त करते हैं, और किसी भी तरीके से डेटा का इलाज किया जाता है, ब्याज की सिग्नल के हिस्से को नष्ट करने से बचना चाहिए।
यहाँ कोई विभिन्न चीजों को करने की कल्पना कर सकता है। पहला यह होगा कि फीचर वेक्टर के रूप में केवल कच्चे डेटा (सदिश में सदिश) का उपयोग किया जाए। मुझे यकीन नहीं है कि हालांकि यह कितना उपयोगी है - मुझे लगता है कि ये वैक्टर संभवतः अनिवार्य रूप से यादृच्छिक होंगे। यह वास्तव में एक सिग्नल प्रोसेसिंग प्रश्न है, लेकिन कुछ सामान्य दिशानिर्देश हैं जिनका पालन कर सकते हैं। एक स्लाइडिंग विंडो पर मानक फूरियर विश्लेषण करना है, जहां से घटकों को अलग-अलग आवृत्ति बैंड (अल्फा / बीटा / गामा आदि) में विभाजित किया जा सकता है, और इन (मतलब, एसटीडी विचलन) के आंकड़ों को सुविधाओं के रूप में इस्तेमाल किया जा सकता है। या कोई वेवलेट्स, हिल्बर्ट ट्रांसफॉर्म्स का उपयोग कर सकता है, या अराजक आकर्षित करने वालों को देखने का भी प्रयास कर सकता है। बेशक तब हमारे पास गुठली (रैखिक, बहुपद, आरबीएफ आदि) का विकल्प होता है जो क्रमपरिवर्तन की संख्या को बढ़ाता है। शायद यहां करने के लिए सबसे अच्छी बात यह है कि संभव के रूप में कई अलग-अलग फीचर सेट उत्पन्न होते हैं, और फिर उन्हें एक साथ संयोजित करने के लिए एमकेएल या बूस्टिंग विधियों का उपयोग करें।
आप इस तरह के डेटासेट कैसे प्राप्त करेंगे (यदि यह विशेष रूप से नहीं है)? वहाँ कुछ भी मैं जिस तरह से साथ याद किया है? शोधकर्ता समय और कम्प्यूटेशनल संसाधनों की अंतहीन मात्रा खर्च किए बिना, सफल होने की सबसे अधिक संभावना वाली रणनीति क्या है?