एल्गोरिदम / दिनचर्या के परीक्षण के लिए अच्छे डेटा सेट / परीक्षण समस्याएं कहां से प्राप्त की जा सकती हैं?


41

कम्प्यूटेशनल काम में आपके द्वारा उपयोग किए जा रहे सॉफ़्टवेयर के टुकड़े की गुणवत्ता का मूल्यांकन करने में (चाहे वह आपके द्वारा लिखी गई कोई चीज़ हो या डिब्बाबंद पैकेज), यह अक्सर यह देखना एक अच्छा विचार है कि यह मानक डेटा सेट या समस्याओं पर कितनी अच्छी तरह काम करता है। कम्प्यूटेशनल रूटीनों के सत्यापन के लिए कोई व्यक्ति ये परीक्षण कहां से प्राप्त कर सकता है?

(एक वेबसाइट / पुस्तक प्रति उत्तर, कृपया।)


मैंने इसे एक सामुदायिक विकी पोस्ट के रूप में बनाने का इरादा किया है, और इस प्रकार इसे रूपांतरण के लिए ध्वजांकित किया है।
जेएम

3
क्या यह प्रश्न बहुत व्यापक नहीं है, अर्थात यह एल्गोरिदम / समस्या की प्रकृति पर निर्भर करता है जिसे हल करने के लिए इस सॉफ़्टवेयर का उपयोग किया जाता है?
आंद्रे होल्जनर

मैं वास्तव में इस प्रश्न को सामुदायिक विकि , @Andre (संसाधनों की "बड़ी सूची" के रूप में) चाहता था; मैंने इसे रूपांतरण के लिए ध्वजांकित किया था, लेकिन मुझे नहीं पता कि इसे रूपांतरित क्यों नहीं किया गया।
JM

@JM मैंने इसे परिवर्तित कर दिया है।
डेविड केचेसन

जवाबों:


15

यदि आप विरल मैट्रिस पर विश्लेषण करने में रुचि रखते हैं, तो मैं डेविस यूनिवर्सिटी ऑफ फ्लोरिडा स्पार्स मैट्रिक्स कलेक्शन और मैट्रिक्स मार्केट पर भी विचार करूंगा ।


1
मैट्रिक्स मार्केट math.nist.gov/MatrixMarket
stali

13

निर्मित समाधानों की विधि पीडीई और अन्य सॉल्वरों के परीक्षण के लिए एक मानक है। अधिकांश प्रतीकात्मक बीजगणित प्रणालियों में कोड जनरेट करने की सुविधा है, यह निर्मित समाधान बनाने के लिए उपयोगी है। सिम्पी और मेपल के पास इस उद्देश्य के लिए फ़ंक्शन कोड है, दूसरों के बीच।


10

आईवीपी ( ओडीई सॉल्वर्स के लिए प्रारंभिक मूल्य समस्याएं) के लिए एक परीक्षण सेट वर्तमान में इटली के बारी विश्वविद्यालय के लोगों द्वारा बनाए रखा गया है, जिन्होंने इसे CWI एम्स्टर्डम से लिया था।


1
IVP के लिए कुछ अतिरिक्त परीक्षण सेट इस उत्तर में दिए गए हैं। JM से Math.StackExchange: math.stackexchange.com/a/59398
David Ketcheson


8

कम्प्यूटेशनल इलेक्ट्रोमैग्नेटिज़्म में, परीक्षण समस्याओं के सेट में एक प्रसिद्ध (या कुछ में कठिनाइयों के कारण बदनाम) है: परीक्षण विद्युत चुम्बकीय विश्लेषण विधि (TEAM)

उनमें से कुछ को वास्तव में प्रयोगात्मक डेटा के साथ गठबंधन किए गए सही सिमुलेशन परिणाम प्राप्त करने के लिए अत्याधुनिक संख्यात्मक तकनीकों की आवश्यकता है। उदाहरण के लिए, कंडक्टर-कॉइल समस्या

मैक्सवेल समीकरणों के लिए परीक्षण समस्याओं का एक और सेट डेज़ द्वारा संकलित किया गया है: अत्यधिक विलक्षण समाधानों के सन्निकटन के लिए मैक्सवेल समीकरणों के लिए बेंचमार्क गणनाएं । प्रसिद्ध (या बदनाम) फिचेरा क्यूब में से एक:

Fichera

ϕH1+ϵE=ϕ

Δu=0,where u=rαsin(αθ).

7

यदि आप आणविक संरचनाओं से संबंधित बेंचमार्किंग एल्गोरिदम में रुचि रखते हैं, तो पबकेम डेटाबेस में ज्यादातर कार्बनिक अणुओं का एक बड़ा संग्रह है। यह विभिन्न मॉडलों / कार्यक्रमों के साथ प्राप्त आणविक गुणों की भविष्यवाणियों की तुलना करने के लिए उपयोगी हो सकता है। साइट में अणुओं के बड़े बैचों को डाउनलोड करने के लिए कई विकल्प हैं जो कुछ पूर्वनिर्धारित मानदंडों (जैसे रासायनिक संरचना) को संतुष्ट करते हैं।


7

अर्नोल्ड न्यूमैयर असंबंधित और विवश अनुकूलन ( नेलिनियर प्रोग्रामिंग) के लिए परीक्षण समस्याओं का एक स्थिर रखता है । इस संग्रह में शामिल मोरे, गार्बो और हिलस्ट्रॉम के कारण असंवैधानिक अनुकूलन के लिए अब मानक परीक्षण समस्याएं हैं


7

अधिक आकर्षक वेब साइट प्यारा परीक्षण सेट अनुकूलन और रैखिक समाधानकर्ताओं के लिए कुछ अतिरिक्त समस्याओं के साथ अर्नोल्ड Neumaier की वेब साइट पर उल्लेख किया अद्यतन करता है। इसके अलावा, यह रैखिक बीजगणित और अनुकूलन सॉल्वर के परीक्षण और अद्यतन के लिए सॉफ्टवेयर उपकरण प्रदान करता है।



6

हम अपने भवन ऊर्जा सिमुलेशन सॉफ़्टवेयर में मौसम डेटा सेट का उपयोग करते हैं। अमेरिका के लिए, डेटा सेट में 20 वर्षों से अधिक समय तक हर घंटे (आमतौर पर हवाई अड्डों पर) मौसम अवलोकन होते हैं।

डेटा सेट डाउनलोड के लिए उपलब्ध है
फ़ाइल प्रारूप का वर्णन करने के लिए मैनुअल


6

सांख्यिकीय एल्गोरिदम के परीक्षण के लिए, डीजे हैंड, एफ। डैली, के। मैककॉनवे, डी। लून, और ई। ओस्ट्रोव्स्की द्वारा ए हैंडबुक ऑफ़ स्मॉल डेटा सेट्स है। इनमें से कुछ डेटा सेट यहां से डाउनलोड किए जा सकते हैं



4

हंस मित्तलमैन की वेबसाइट संख्यात्मक अनुकूलन में वर्तमान सॉफ़्टवेयर विकल्पों को नेविगेट करने के लिए एक उत्कृष्ट संसाधन है। वह अपने स्वयं के बेंचमार्क, साथ ही अनुकूलन में परीक्षण की समस्याओं के लिए अन्य बेंचमार्क के लिंक भी शामिल करता है


3

एलन गेन्ज ने कागज परीक्षण बहुआयामी एकीकरण दिनचर्या में कार्यों का एक परीक्षण सूट प्रस्तावित किया । मुझे इस पेपर का ऑनलाइन संस्करण नहीं मिल रहा है, लेकिन सीयूबीए पुस्तकालय के बारे में कागजात में इसके संदर्भ मिल सकते हैं ।



2

अच्छे सॉफ़्टवेयर का परीक्षण किया जाना चाहिए, और यह कहना चाहिए कि लेखकों ने कैसे परीक्षण किया है और या तो परीक्षण डेटा सेट स्वयं प्रदान करते हैं (उदाहरण के लिए प्रतिगमन परीक्षण के रूप में) या कम से कम उस डेटा के लिंक प्रदान करें जिसके साथ इसका परीक्षण किया गया था।


सुनो सुनो; reproducibility एफएफ देखें । और Reproducible- अनुसंधान और IPython- नोटबुक
Denis

2

यदि आप परीक्षण करने के लिए बड़े ग्राफ़ या नेटवर्क डेटा की तलाश कर रहे हैं। स्टैनफोर्ड नेटवर्क विश्लेषण परियोजना (SNAP) आम तौर पर एक अनाम रखी समीपता सूची के रूप में कई बड़े ग्राफ डेटासेट है। उनके कुछ विकल्पों में शामिल हैं:

डेटा

डेटा के गुण

  • किनारों की संख्या: ~ 10 से ~ 400 मिलियन तक कहीं भी
  • नोड्स की संख्या: ~ 10 से ~ 100 मिलियन तक कहीं भी
  • बढ़त के प्रकार: निर्देशित, अप्रत्यक्ष, भारित, भारहीन, हस्ताक्षरित और अहस्ताक्षरित।
  • नेटवर्क प्रकार: निर्देशित, अप्रत्यक्ष, द्विदलीय, मल्टीग्राफ, टेम्पोरल, लेबल।

जमीनी सच्चाई आँकड़े डेटासेट पर उपलब्ध हैं:

उपकरण


@ जेएम कोई समस्या नहीं! मैंने कुछ समय पहले एक प्रोजेक्ट के लिए उनके कुछ सामाजिक-नेट डेटासेट का उपयोग किया था और फिर इस स्टैकएक्सचेंज में ठोकर खाई और सोचा कि यह यहां सहायक हो सकता है।
रयान

-3

डेटा आसान है; इसे प्राप्त करने के लिए एपीआई कठिन हो सकता है। मैं Quandl सलाह देते हैं । इस साइट में एक, आसान, REST-ful एपीआई के माध्यम से 10 मिलियन से अधिक सार्वजनिक रूप से उपलब्ध डेटा सेट उपलब्ध हैं। सभी डेटा CSV या JSON में से किसी एक में दिए जाते हैं। या, यदि प्रोग्रामिंग आपका मजबूत सूट नहीं है, तो एक्सेल में डेटा प्राप्त करने के आसान तरीके हैं। देशी पुस्तकालयों के साथ घर पर आर, पायथन और रूबी प्रोग्रामर सही होंगे।


1
Scicomp में आपका स्वागत है! मुझे नहीं लगता कि यह उस प्रकार का डेटा है जिसके बारे में सवाल है; एल्गोरिदम का परीक्षण करने के लिए, आपको अपने परिणामों की तुलना करने के लिए न केवल एक डेटा सेट की आवश्यकता होती है, बल्कि एक संबंधित ज्ञात परिणाम (समस्या / एल्गोरिदम पर निर्भर करता है) भी होता है।
क्रिश्चियन क्लैसन

धन्यवाद, @ChristianClason मुझे पता है तुम्हारा क्या मतलब है। उदाहरण के लिए, यदि सॉफ्टवेयर रेखीय प्रतिगमन के लिए है, तो लेखक डेटा सेटों में रुचि रखता है और साथ ही यह जांचने के लिए कि क्या रेखीय प्रतिगमन पैकेज सही ढंग से कार्य कर रहा है, का विश्लेषण किया गया है।
ब्रायन रिस्क
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.