बहुत उच्च आयामी वर्गीकरण के लिए मुफ्त डेटा सेट [बंद]


35

1000 से अधिक सुविधाओं के साथ वर्गीकरण के लिए स्वतंत्र रूप से उपलब्ध डेटा सेट क्या हैं (या नमूना अंक यदि इसमें वक्र हैं)?

मुफ्त डेटा सेट के बारे में पहले से ही एक समुदाय विकि है: स्वतंत्र रूप से उपलब्ध डेटा नमूनों का पता लगाना

लेकिन यहाँ, एक और अधिक ध्यान केंद्रित करने वाली सूची का उपयोग करना अच्छा होगा जिसे मैं और अधिक आसानी से उपयोग कर सकता हूं, साथ ही मैं निम्नलिखित नियमों का प्रस्ताव करता हूं:

  1. प्रति पोस्ट एक डेटासेट
  2. डेटासेट के सेट का कोई लिंक नहीं
  3. प्रत्येक डेटा सेट के साथ संबद्ध होना चाहिए

    • एक नाम (यह पता लगाने के लिए कि यह क्या है) और डेटासेट के लिए एक लिंक (आर डेटासेट को पैकेज नाम के साथ नाम दिया जा सकता है)

    • सुविधाओं की संख्या (मान लें कि यह p है ) डेटासेट का आकार (मान लें कि यह n है ) और लेबल / वर्ग की संख्या (कहने दें कि यह k है )

    • आपके अनुभव से एक सामान्य त्रुटि दर (शब्दों के लिए प्रयुक्त एल्गोरिदम को राज्य) या लिटरेचर से (इस अंतिम मामले में पेपर लिंक करें)


+1, लेकिन NIPS2003 के लोगों के पास train.labels ही है - NIPS2003 पेपर में स्पष्ट रूप से कहा गया है कि "सत्यापन और परीक्षण सेट लेबल रोक दिए गए हैं"।
Denis

धन्यवाद। NIPS के बारे में टिप्पणी @mbq के उत्तर के लिए है।
रॉबिन जिरार्ड

यहां किसी के पास दो से अधिक क्लास लेबल के साथ एक उच्च आयामी डेटासेट है?
2:11 बजे hlin117

जवाबों:


3

डोरोथिया
एन = 1950
पी = 100000 (0.1M, आधा कृत्रिम रूप से शोर जोड़ा जाता है)
कश्मीर = 2 (~ 10x असंतुलित)
से NIPS2003


क्या आप बता सकते हैं कि यह 100000 विशेषताएं कैसे हैं? मैं प्रशिक्षण डेटा को देखता हूं और प्रत्येक पंक्ति में शायद 2500 पूर्णांक प्रति पंक्ति है।
जेरेमीकुन

यह एक विरल सरणी है, पूर्णांक N का अर्थ है विशेषता N मान 1. है

3

Gisette
एन = 13500
पी = 5000 (आधा कृत्रिम रूप से शोर जोड़ा जाता है)
k = 2 (संतुलित)
से NIPS2003


3

डेक्सटर
एन = 2600
पी = 20000 (10k + 53 कृत्रिम शोर है)
k = 2 (संतुलित)
से NIPS2003


मुझे समझ नहीं आता ... प्रति व्यक्ति एक सेट?

@robin और @mbq मैं इसे प्रति पोस्ट एक डेटासेट रखने का सुझाव दूंगा। ऐसा इसलिए है कि लोग वोटों के साथ संकेत दे सकते हैं कि उनमें से कौन सा सुझाव / समर्थन भी है
पीटर स्मिट

@ पेटर, ठीक है, मैं आपके विचार का पालन करता हूं, मैंने तदनुसार प्रश्न को बदल दिया है।
रोबिन जिरार्ड


2

प्रोस्टेट (जीन अभिव्यक्ति सरणी)

  • कश्मीर = 2
  • एन = 48 + 52
  • पी = 6033

(अन्य के बीच) R पैकेज स्प्लिट डेटासेट के नाम: प्रोस्टेट के माध्यम से उपलब्ध है

त्रुटि दर = 3/102 ( यहां देखें ) मुझे भी लगता है कि कागज हैं जो 1/102 त्रुटि दर दिखाते हैं। मैं कहूंगा कि यह एक आसान परीक्षण मामला है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.