परिणामों के दो सेटों के बीच मानचित्रण की गणना करना आसान है, क्योंकि एक परीक्षण में प्राप्त जानकारी को तीन-टुपल्स के एक सेट के रूप में दर्शाया जा सकता है: पहला घटक एक (बहुआयामी) बिंदु है, दूसरा एक (मनमाना) क्लस्टर लेबल है आपके एल्गोरिथ्म द्वारा आपूर्ति की गई है, और तीसरा एक (मनमाना) क्लस्टर लेबल है जो एक संदर्भ एल्गोरिथ्म द्वारा आपूर्ति किया गया है। का निर्माण सेककलेबल जोड़े के लिए वर्गीकरण तालिका: यदि परिणाम सहमत हैं, तो यह एक क्रमपरिवर्तन मैट्रिक्स का एक बहु होगा। यही है, प्रत्येक पंक्ति और प्रत्येक कॉलम में बिल्कुल एक नॉनज़रो सेल होना चाहिए। यह एक साधारण कार्यक्रम की जाँच है। इस आदर्श को अलग-अलग डेटा बिंदुओं से छोटे विचलन को ट्रैक करना भी सरल है ताकि आप ठीक से देख सकें कि यदि वे बिल्कुल अलग हैं तो दोनों उत्तर कैसे भिन्न होंगे। मैं समझौते के सांख्यिकीय उपायों की गणना करने के लिए परेशान नहीं होता: या तो सही समझौता (क्रमपरिवर्तन तक) है या नहीं है, और बाद के मामले में आपको असहमति के सभी बिंदुओं को समझने की आवश्यकता है कि वे कैसे होते हैं। परिणाम या तो सहमत हैं या वे नहीं करते हैं; असहमति की किसी भी राशि, यहां तक कि सिर्फ एक बिंदु पर, जाँच की आवश्यकता है।
आप परीक्षण के लिए कई प्रकार के डेटासेट का उपयोग करना चाह सकते हैं: (1) प्रकाशित k- साधन परिणाम के साथ प्रकाशित डेटासेट; (2) स्पष्ट मजबूत समूहों के साथ सिंथेटिक डेटासेट; (3) कोई स्पष्ट क्लस्टरिंग के साथ सिंथेटिक डेटासेट। (1) किसी भी गणित या सांख्यिकी कार्यक्रम को लिखने के लिए उपयोग करने के लिए एक अच्छा अनुशासन है । (2) कई तरह से करना आसान है, जैसे कि कुछ बेतरतीब बिंदुओं को उत्पन्न करके समूहों के केंद्रों के रूप में सेवा करना और फिर क्लस्टर केंद्रों को अपेक्षाकृत कम मात्रा में बेतरतीब ढंग से विस्थापित करके बिंदु बादलों को उत्पन्न करना। (3) कुछ यादृच्छिक जाँच प्रदान करता है जो संभावित रूप से अप्रत्याशित व्यवहार को उजागर करता है; फिर, यह एक अच्छा सामान्य परीक्षण अनुशासन है।
इसके अलावा, डेटासेट्स बनाने पर विचार करें जो चरम समाधान के बीच की सीमाओं पर झूठ बोलकर एल्गोरिदम को तनाव देते हैं। इसके लिए रचनात्मकता और आपके एल्गोरिथ्म की गहरी समझ की आवश्यकता होगी (जो संभवतः आपके पास है!)। एक उदाहरण मैं किसी भी घटना में जांच करना चाहता हूं कि फॉर्म के वैक्टर जहां बिना शून्य घटकों वाला एक वेक्टर है और अनुक्रमिक अभिन्न मूल्यों पर लेता । मैं वैक्टर के सेट पर एल्गोरिथ्म की जांच करना चाहता हूं जो समभुज बहुभुज बनाते हैं। दोनों ही परिस्थितियों में, ऐसे मामलों में जहां है नहीं की एक बहु विशेष रूप से दिलचस्प हैं, जहां सहितमैं वीvमैं0 , 1 , 2 , … , n - 1nकnहै कम से । इन स्थितियों के लिए सामान्य बात यह है कि (ए) वे समस्या के सभी आयामों का उपयोग करते हैं, फिर भी (बी) सही समाधान ज्यामितीय रूप से स्पष्ट हैं, और (सी) कई सही समाधान हैं।क
(दो यादृच्छिक रूप से वैक्टर और को यादृच्छिक पर चुना गया है, शुरू करके आयामों में औपचारिक समबाहु बहुभुज (एक अच्छा तरीका यह है कि उनके घटकों को स्वतंत्र रूप से सामान्य रूप दिया जाए।) Rescale। उनके पास इकाई की लंबाई है; चलो इन x और z को कॉल करें । सूत्र से x घटक को z से निकालेंघ≥ २यूv2 डीएक्सzएक्सz
डब्ल्यू = z - ( z ⋅ एक्स ) एक्स ।
प्राप्त rescaling द्वारा डब्ल्यू इकाई लंबाई है। यदि आप चाहें, तो समान रूप से x और y दोनों को अनियमित रूप से पुनर्विक्रय करें । वैक्टर x और y , d आयामों में यादृच्छिक 2D उप-स्थान के लिए एक ऑर्थोगोनल आधार बनाते हैं । की एक समबाहु बहुभुज n कोने के सेट के रूप में प्राप्त किया जाता है क्योंकि ( 2 π कश्मीर / n ) एक्स + पाप ( 2 π कश्मीर / n ) y पूर्णांक के रूप में कश्मीर से लेकर 0 के माध्यम सेywएक्सyएक्सyघnक्योंकि( २ π)k / n ) x + पाप( २ π)के / एन ) वाईक0 )एन - 1