आपके द्वारा लिंक किए गए वोल्फ्राम स्रोत को छोड़कर किसी भी स्रोत या व्यक्ति के साथ बहुत अधिक बातचीत करने से उस प्रक्रिया का उल्लेख होता है जो डेटा को मॉडल बनाने के लिए उपयुक्त है । यह समझ में आता है, क्योंकि मॉडल गतिशील वस्तु है और डेटा स्थिर (उर्फ निश्चित और स्थिर) है।
इस पर एक बिंदु रखने के लिए, मुझे लैरी वासरमैन का दृष्टिकोण पसंद है। उनके कहने में, एक सांख्यिकीय मॉडल वितरण का एक संग्रह है। उदाहरण के लिए, सभी सामान्य वितरणों का संग्रह:
{Normal(μ,σ):μ,σ∈R,σ>0}
या सभी पॉइसन वितरण का सेट:
{Poisson(λ):λ∈R,λ>0}
डेटा के वितरण को फिट करना किसी भी एल्गोरिथ्म है जो डेटा के एक सेट के साथ एक सांख्यिकीय मॉडल को जोड़ता है (डेटा तय हो गया है), और मॉडल से वितरण का ठीक एक चुनता है जैसा कि "सर्वश्रेष्ठ" डेटा को दर्शाता है।
मॉडल वह चीज़ है जो बदलता है (सॉर्ट करता है): हम इसे संभावनाओं के एक पूरे संग्रह से एक सबसे अच्छे विकल्प में ढहा रहे हैं। डेटा सिर्फ डेटा है; इससे कुछ नहीं होता है।