बहुत उच्च आयामी वर्गीकरण के लिए मुफ्त डेटा सेट [बंद]

35

1000 से अधिक सुविधाओं के साथ वर्गीकरण के लिए स्वतंत्र रूप से उपलब्ध डेटा सेट क्या हैं (या नमूना अंक यदि इसमें वक्र हैं)?

मुफ्त डेटा सेट के बारे में पहले से ही एक समुदाय विकि है: स्वतंत्र रूप से उपलब्ध डेटा नमूनों का पता लगाना

लेकिन यहाँ, एक और अधिक ध्यान केंद्रित करने वाली सूची का उपयोग करना अच्छा होगा जिसे मैं और अधिक आसानी से उपयोग कर सकता हूं, साथ ही मैं निम्नलिखित नियमों का प्रस्ताव करता हूं:

प्रति पोस्ट एक डेटासेट
डेटासेट के सेट का कोई लिंक नहीं
प्रत्येक डेटा सेट के साथ संबद्ध होना चाहिए
- एक नाम (यह पता लगाने के लिए कि यह क्या है) और डेटासेट के लिए एक लिंक (आर डेटासेट को पैकेज नाम के साथ नाम दिया जा सकता है)
- सुविधाओं की संख्या (मान लें कि यह p है ) डेटासेट का आकार (मान लें कि यह n है ) और लेबल / वर्ग की संख्या (कहने दें कि यह k है )
- आपके अनुभव से एक सामान्य त्रुटि दर (शब्दों के लिए प्रयुक्त एल्गोरिदम को राज्य) या लिटरेचर से (इस अंतिम मामले में पेपर लिंक करें)

— रॉबिन जिरार्ड
स्रोत

+1, लेकिन NIPS2003 के लोगों के पास train.labels ही है - NIPS2003 पेपर में स्पष्ट रूप से कहा गया है कि "सत्यापन और परीक्षण सेट लेबल रोक दिए गए हैं"।

— Denis

धन्यवाद। NIPS के बारे में टिप्पणी @mbq के उत्तर के लिए है।

— रॉबिन जिरार्ड

यहां किसी के पास दो से अधिक क्लास लेबल के साथ एक उच्च आयामी डेटासेट है?

— 2:11 बजे hlin117

3

डोरोथिया
एन = 1950
पी = 100000 (0.1M, आधा कृत्रिम रूप से शोर जोड़ा जाता है)
कश्मीर = 2 (~ 10x असंतुलित)
से NIPS2003 ।

— उपयोगकर्ता
स्रोत

क्या आप बता सकते हैं कि यह 100000 विशेषताएं कैसे हैं? मैं प्रशिक्षण डेटा को देखता हूं और प्रत्येक पंक्ति में शायद 2500 पूर्णांक प्रति पंक्ति है।

— जेरेमीकुन

यह एक विरल सरणी है, पूर्णांक N का अर्थ है विशेषता N मान 1. है

3

Gisette
एन = 13500
पी = 5000 (आधा कृत्रिम रूप से शोर जोड़ा जाता है)
k = 2 (संतुलित)
से NIPS2003 ।

— user88
स्रोत

3

डेक्सटर
एन = 2600
पी = 20000 (10k + 53 कृत्रिम शोर है)
k = 2 (संतुलित)
से NIPS2003 ।

— उपयोगकर्ता
स्रोत

मुझे समझ नहीं आता ... प्रति व्यक्ति एक सेट?

@robin और @mbq मैं इसे प्रति पोस्ट एक डेटासेट रखने का सुझाव दूंगा। ऐसा इसलिए है कि लोग वोटों के साथ संकेत दे सकते हैं कि उनमें से कौन सा सुझाव / समर्थन भी है

— पीटर स्मिट

@ पेटर, ठीक है, मैं आपके विचार का पालन करता हूं, मैंने तदनुसार प्रश्न को बदल दिया है।

— रोबिन जिरार्ड

3

Arcene
एन = 900
पी = 10000 (3k कृत्रिम रूप से शोर जोड़ा जाता है)
कश्मीर = 2 (~ संतुलित)
से NIPS2003 ।

— रेव्स , 2 उपयोगकर्ता 68% user88
स्रोत

2

प्रोस्टेट (जीन अभिव्यक्ति सरणी)

कश्मीर = 2
एन = 48 + 52
पी = 6033

(अन्य के बीच) R पैकेज स्प्लिट डेटासेट के नाम: प्रोस्टेट के माध्यम से उपलब्ध है

त्रुटि दर = 3/102 ( यहां देखें ) मुझे भी लगता है कि कागज हैं जो 1/102 त्रुटि दर दिखाते हैं। मैं कहूंगा कि यह एक आसान परीक्षण मामला है।

— रॉबिन जिरार्ड
स्रोत