सामान्य डेटासेट के लिए डेटा वृद्धि तकनीक?


21

कई मशीन सीखने के अनुप्रयोगों में, तथाकथित डेटा वृद्धि विधियों ने बेहतर मॉडल बनाने की अनुमति दी है। उदाहरण के लिए, बिल्लियों और कुत्तों की छवियों का एक प्रशिक्षण सेट मान लें । घूर्णन, मिररिंग, कंट्रास्ट को एडजस्ट करने आदि से मूल लोगों से अतिरिक्त चित्र उत्पन्न करना संभव है।100

छवियों के मामले में, डेटा वृद्धि अपेक्षाकृत सरल है। हालांकि, मान लीजिए (उदाहरण के लिए) कि एक में नमूनों का प्रशिक्षण सेट है और कुछ सौ निरंतर चर जो विभिन्न चीजों का प्रतिनिधित्व करते हैं। डेटा संवर्द्धन अब इतना सहज नहीं लगता है। ऐसे मामले में क्या किया जा सकता है?100


2
मुझे लगता है कि पीसीए या एई जैसे कुछ तरीके अभी भी डेटा वृद्धि के लिए सहज हैं। पहला तरीका PCA लागू है और पहले k eigenvalues ​​को रखें और एक विकृति, गॉसियन आदि से बेतरतीब ढंग से kn eigenvalues ​​सेट करें यदि अन्य विधियाँ स्वयं डेटा का निर्माण करने के लिए Auto-encoders का उपयोग करती हैं। यदि छिपी हुई इकाइयों की संख्या दृश्यमान इकाइयों के करीब है, तो यह अपने आप में बहुत अच्छा निर्माण कर सकती है। पुनर्निर्माण किए गए डेटा का उपयोग डेटा के संवर्धित भाग के रूप में किया जा सकता है।
yasin.yazici

@ हम्ह, क्या इसने आपके सवाल का जवाब दिया?
shf8888

@ यासीन.याजीकी हाय। क्या आप pca का उपयोग करके डेटा वृद्धि के बारे में थोड़ा समझा सकते हैं? मान लीजिए कि मेरे पास डेटा है जिसमें आयाम है। अब मैं पीसीए करता हूं और पाता हूं कि पहले शीर्ष आइजनवेक्टर पर्याप्त हैं। मुझे अगले आईगेनवेक्टर्स में क्या करना चाहिए और मुझे यादृच्छिकता का परिचय कैसे देना चाहिए? 100एक्स50503020
रोनी

छवियों के लिए डेटा संवर्द्धन techinques के अवलोकन के लिए मेरे स्वामी थीसिस, पृष्ठ 80 देखें ।
मार्टिन थोमा

डेटा वृद्धि छवियों के लिए बहुत मायने रखती है, जैसे। ऑब्जेक्ट की एक घुमाई गई छवि अभी भी ऑब्जेक्ट की एक छवि है, और आपको उस मॉडल को उजागर करने की आवश्यकता है, लेकिन संभवतः आपके डेटासेट में ऐसी छवि नहीं है। इस मामले में डेटा वृद्धि की / बिंदु की आवश्यकता क्या है? यह मेरे लिए स्पष्ट नहीं है कि आपको ऐसा करना चाहिए।
गंग - मोनिका

जवाबों:


17

मैं इस सवाल को फीचर कंस्ट्रक्शन दोनों से जोड़कर समझता हूं और आपके पास पहले से मौजूद सुविधाओं के धन से निपटना, आपकी टिप्पणियों के सापेक्ष ( N << P) होगा।

सुविधा निर्माण

@ Yasin.yazici की टिप्पणी पर विस्तार करते हुए, डेटा को बढ़ाने के कुछ संभावित तरीके होंगे:

  • पीसीए
  • ऑटो एन्कोडिंग
  • ट्रांसफ़ॉर्म जैसे लॉग, पॉवर आदि।
  • असतत श्रेणियों में निरंतर चर को कम करना (अर्थात, निरंतर चर 1 SD मतलब से ऊपर, 1 नीचे माध्य, आदि)
  • समग्र चर (उदाहरण के लिए, यहां देखें )

मुझे यकीन है कि कई और भी हैं जो मुझे याद आ रहे हैं।

सुविधा चयन / आयामीता में कमी

आप पीसीए जैसी तकनीकों के साथ आयामीता को कम कर सकते हैं (हालांकि शायद पीसीए चर के साथ अपने डेटा को बढ़ाने के बाद नहीं)। वैकल्पिक रूप से, आप एल्गोरिदम का उपयोग कर सकते हैं जो आपके लिए फीचर चयन करते हैं, जैसे कि लासो, यादृच्छिक वन, आदि।


2
क्या आप बता सकते हैं कि फीचर निर्माण के लिए ऑटो एन्कोडिंग का उपयोग कैसे किया जा सकता है?
रोनी

1
एक ऑटोएन्कोडर का @roni सफल प्रशिक्षण अमूर्तता के उच्च स्तर पर डेटा के कुछ प्रतिनिधित्व प्राप्त करता है। उम्मीद है कि अधिक उपयोगी प्रतिनिधित्व जो आप एक क्लासिफायरियर में उपयोग कर सकते हैं।
क्रिस एंडरसन

0

मुझे एक ऐसी ही समस्या का सामना करना पड़ा जहाँ मैं अनलेबल न्यूमेरिक डेटा को बढ़ाना चाहता था। मैंने निम्नलिखित तरीके से डेटा संवर्धित किया है: (मेरे पास 100 * 10 आकार का डेटा सेट है।)

  1. {0,1} से बेतरतीब ढंग से नमूनाकरण मूल्यों द्वारा एक सूची बनाएं, जैसे कि शून्य की संख्या 1 एस की संख्या से कम है, कहते हैं कि इस मामले में 0 का अनुपात 20% है। तो एक की लिस्ट होगी 0s और 1s की लंबाई 100।
  2. एक आश्रित चर के रूप में इस सूची का उपयोग करें और अधिक डेटा बिंदुओं को उत्पन्न करने के लिए इसे स्मॉट में पास करें। (यहाँ स्मोट डेटा बिंदुओं को जोड़ने वाले किनारों पर अंक उत्पन्न करेगा जो उत्पन्न सूची में 0s के अनुरूप है)।
  3. जब तक आवश्यक आकार का डेटा सेट प्राप्त नहीं हो जाता है तब तक इस प्रक्रिया को दोहराएं।

1
कृपया एकाधिक थ्रेड के समान उत्तर पोस्ट न करें। यदि आप वास्तव में मानते हैं कि जैसा आपने कहीं और पोस्ट किया है, वैसा ही उत्तर किसी अन्य प्रश्न का पूरी तरह से उत्तर देता है, तो उस प्रश्न को पहले के डुप्लिकेट के रूप में चिह्नित करें।
गूँज - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.