सांख्यिकी की शाखाएँ क्या हैं?


30

गणित में, बीजगणित, विश्लेषण, टोपोलॉजी इत्यादि जैसी शाखाएँ हैं। मशीन लर्निंग में पर्यवेक्षित, अनुपयोगी और सुदृढीकरण अधिगम है। इन शाखाओं में से प्रत्येक के भीतर, महीन शाखाएँ हैं जो आगे विधियों को विभाजित करती हैं।

मुझे आँकड़ों के साथ समानांतर ड्राइंग करने में परेशानी हो रही है। आँकड़ों की मुख्य शाखाएँ (और उप-शाखाएँ) क्या होंगी? एक पूर्ण विभाजन संभव नहीं है, लेकिन एक बड़े रिक्त नक्शे की तुलना में कुछ भी बेहतर है।

दृश्य उदाहरण: यहाँ छवि विवरण दर्ज करें यहाँ छवि विवरण दर्ज करें


6
एक और कारण प्रस्तुत करने के लिए कि यह प्रश्न क्यों अकारण है (और क्यों, शायद आधार गलत है): यह खराब समझा जाता है कि कठिन, सैद्धांतिक विज्ञान (जैसे गणित) का उद्देश्य विशेषज्ञ के बजाय सामान्यीकरण करना है । इसलिए यदि हम क्षेत्र में एक सफल जांच के प्रक्षेपवक्र की कल्पना करने के लिए थे, तो हम इसे छोटे, अधिक परिष्कृत शाखाओं के लिए शाखाओं में बंटते हुए नहीं देखेंगे, बल्कि एक लेंस कभी अधिक अमूर्त अवधारणाओं और विचारों में चौड़ा करेंगे।
एडम 15

@ रोब हंडमैन का जवाब मुझे अभी भी लगता है। मैं यहाँ किसी भी वर्गीकरण से बहुत अधिक उलझन में हूँ। इसके अलावा, यह उतनी ही अच्छी जगह है जितना कि किसी भी झंडे के विषय में, जो किसी के लिए होने वाले विषयों की एक सूची है, जो कि वृक्ष-आधारित वर्गीकरण से बहुत कम है। और यद्यपि डेंड्रोग्राम या हेयरबॉल प्रतिनिधित्व हल्के रूप से पेचीदा होते हैं, वे क्षेत्र के कई गुना प्रकृति को प्रदर्शित करने से परे क्या वास्तविक उपयोग या रुचि रखते हैं?
निक कॉक्स

जवाबों:


52

मुझे ये वर्गीकरण प्रणालियां बेहद अदम्य और विरोधाभासी लगती हैं। उदाहरण के लिए:

  • तंत्रिका नेटवर्क पर्यवेक्षित शिक्षण का एक रूप है
  • कैलकुलस का उपयोग डिफरेंशियल ज्योमेट्री में किया जाता है
  • संभाव्यता सिद्धांत को निर्धारित सिद्धांत के एक भाग के रूप में औपचारिक रूप दिया जा सकता है

और इसी तरह। गणित की कोई भी अस्पष्ट "शाखाएं" नहीं हैं, और न ही आंकड़ों का होना चाहिए।


11
"तंत्रिका नेटवर्क पर्यवेक्षित शिक्षण का एक रूप है"। यह पूरी तरह से सच भी नहीं है, क्या यह है? मेरा मतलब है, एक पर्यवेक्षित शिक्षण, अप्रमाणित शिक्षा और यहां तक ​​कि सुदृढीकरण सीखने में एनएन का उपयोग (और उपयोग) कर सकता है! कम से कम तंत्रिका नेटवर्क की अवधारणा कम से कम (यह सिर्फ एक विशाल nonlinear फ़ंक्शन है जिसे विभिन्न अनुकूलन विधियों के माध्यम से SL, UL और RL के बीच अनुकूलित किया जा सकता है)। लेकिन हो सकता है कि शब्दावली का उपयोग केवल उस तरीके से किया जाता है जैसे आप इसका उपयोग कर रहे हैं, जिस स्थिति में .. कोई भी सही हो सकता है।
ब्लूरीन S

7
यकीन है, कोई सच्चाई नहीं है, लेकिन यह वास्तव में उपयोगी नहीं है। क्या कोई मॉडल है जो ओपी की जरूरतों को पूरा करता है?
जे शाइलर राडट

3
रोब सही है। निर्णय पेड़ों का उपयोग प्रतिगमन में किया जाता है और AdaBoost एक वर्गीकरण विधि है, लेकिन नक्शा यह नहीं दिखाता है।
ज़ेन

4
मैं स्वीकार करता हूं कि मैं वास्तव में इस परिप्रेक्ष्य को नहीं समझता हूं। एक सांख्यिकी पाठ्यपुस्तक में भी किसी तरह से इसके अध्यायों का क्रम होना चाहिए, और इसकी सामग्री पृष्ठ उस संगठन को दर्शाती है। सामग्री पृष्ठ की संरचना क्षेत्र की अवधारणाओं को कैसे व्यवस्थित किया जाता है, इसके बारे में कम से कम कुछ जानकारी बताती है , और यह एक दृश्य की तुलना में बहुत अधिक सीमित तरीके से ऐसा करता है। यदि किसी को पाठ्यपुस्तक सामग्री पृष्ठों के अस्तित्व में कोई समस्या नहीं है, भले ही वे क्षेत्र की जटिलता पर कब्जा न करें, तो मैं यह नहीं देखता कि ओपी के लिए जिस तरह की उम्मीद की जा रही है, वह एक कल्पना पर आपत्ति क्यों करेगा।
mkt -

4
पाठ्यपुस्तकों को पदानुक्रम से संरचित नहीं किया जाता है, वे रैखिक रूप से संरचित होते हैं। बाद में पुस्तक में, शुरुआती अध्यायों के बीच के लिंक अक्सर यह दिखाते हुए विकसित किए जाते हैं कि पहले अलग से पेश किए गए विषय वास्तव में जुड़े हुए हैं। एक उदाहरण लेने के लिए, पूर्वानुमान के बारे में मेरी अपनी पाठ्यपुस्तक जहां हम बाद के अध्याय में डायनेमिक रिग्रेशन मॉडल पेश करते हैं, रिग्रेशन और एआरआईएमए मॉडल को पहले से जोड़ते हैं।
रोब हंडमैन

29

यह रोब हंडमैन के जवाब का एक मामूली प्रतिवाद है। यह एक टिप्पणी के रूप में शुरू हुआ और फिर एक के लिए बहुत जटिल हो गया। यदि यह मुख्य प्रश्न को संबोधित करने से बहुत दूर है, तो मैं माफी मांगता हूं और इसे हटा दूंगा।


डार्विन के पहले डूडल से बहुत पहले से जीवविज्ञान पदानुक्रमित संबंधों का चित्रण करता रहा है (लिंक के लिए निक कॉक्स की टिप्पणी देखें)। अधिकांश विकासवादी संबंध अभी भी इस प्रकार के अच्छे, स्वच्छ, शाखाओं में बंटने वाले 'फेलोजेनैटिक ट्री' के साथ दिखाए जाते हैं:

यहाँ छवि विवरण दर्ज करें हालांकि, हमने अंततः महसूस किया कि जीव विज्ञान इससे अधिक गड़बड़ है। कभी-कभी पेड़ के एक हिस्से में gen छलांग ’के एक हिस्से में मौजूद विभिन्न प्रजातियों और जीनों के बीच आनुवंशिक आदान-प्रदान (इंटरब्रिडिंग और अन्य प्रक्रियाओं के माध्यम से) होता है। क्षैतिज जीन ट्रांसफर जीन को इस तरह से घुमाता है, जो सरल पेड़ के चित्रण को गलत बनाता है। हालाँकि, हमने पेड़ों का परित्याग नहीं किया, लेकिन इस प्रकार के दृश्य में केवल संशोधन किए:

पिछले आंकड़े के समान, लेकिन दिखाए गए शाखाओं में जीन स्थानांतरण के साथ

यह पालन करना कठिन है, लेकिन यह वास्तविकता का अधिक सटीक चित्र बताता है।

एक और उदाहरण:

यहाँ छवि विवरण दर्ज करें

हालाँकि, हम शुरू करने के लिए इन अधिक जटिल आंकड़ों का परिचय कभी नहीं देते, क्योंकि मूल अवधारणाओं को समझे बिना उन्हें समझ पाना कठिन है। इसके बजाय, हम मूल विचार को सरल आकृति के साथ सिखाते हैं, और फिर उन्हें अधिक जटिल आकृति और कहानी की नई जटिलताओं के साथ प्रस्तुत करते हैं।

आंकड़ों का कोई भी 'मानचित्र' समान रूप से गलत और मूल्यवान शिक्षण उपकरण दोनों होगा। ओपी द्वारा सुझाए गए फॉर्म के विज़ुअलाइज़ेशन छात्रों के लिए बहुत उपयोगी हैं और उन्हें सिर्फ इसलिए नज़रअंदाज़ नहीं किया जाना चाहिए क्योंकि वे वास्तविकता को पूरी तरह से पकड़ने में विफल हैं। हम तस्वीर को और अधिक जटिलता जोड़ सकते हैं, क्योंकि उनके पास एक बुनियादी ढांचा है।


4
एफडब्ल्यूआईडब्ल्यू, जीवों के बीच संबंधों के पेड़ का प्रतिनिधित्व लंबे समय तक डार्विन। मैं बाद में एक संदर्भ जोड़ूंगा।
निक कॉक्स

2
jhupbooks.press.jhu.edu/title/trees-life विद्वतापूर्ण अभी तक आकर्षक है।
निक कॉक्स

3
सहायक तर्क की तुलना में बहुत अधिक प्रतिवाद नहीं: पेड़ों की वैधता पर सवाल उठाना। कम से कम, phylogeny के साथ, हम इस तरह की संरचना बनाने के लिए डेटा का उपयोग करते हैं , यह जीवाश्म रिकॉर्ड, जीन अभिव्यक्ति, कुछ भी हो सकता है। डेटा के बिना, हम गंभीरता से पूछते हैं कि गलत सूचना फैलाने वाले ब्लॉक और तीर चुनने का अधिकार किसके पास है?
एडमो

2
@ अदमो मुझे एक भी सार्वभौमिक आँकड़े 'नक्शा' मौजूद होने की उम्मीद नहीं है। यह दो लोगों के लिए अलग-अलग संरचनाओं और लिंक के विभिन्न सेटों का उपयोग करने के लिए पूरी तरह से उचित है, हालांकि किसी को व्यापक संरचना से काफी मजबूत होने की उम्मीद होगी (एक ही डेटासेट से निर्मित फाइटोलेनेटिक पेड़ों के बीच निम्न-स्तरीय अंतर भी होते हैं, हालांकि हम इस बिंदु पर हैं रूपक को बहुत दूर तक खींचना)। मैं कहूंगा कि विशेषज्ञता (पल के लिए अधिकार की धारणाओं को अलग करना) कई लोगों के बीच मौजूद है जिन्होंने सामान्य सांख्यिकी पाठ्यपुस्तकें लिखी हैं, या यहां तक ​​कि सामान्य आंकड़े भी पढ़ाए हैं।
mkt -

2
मुझे यहाँ इस चित्र को उकेरने के लिए पर्याप्त पसंद आया, लेकिन यह वास्तव में इस सवाल का जवाब नहीं देता है।
निक कॉक्स

24

आप क्रॉस मान्य वेबसाइट के कीवर्ड / टैग देख सकते हैं ।


एक नेटवर्क के रूप में शाखाएँ

ऐसा करने का एक तरीका यह है कि इसे कीवर्ड के बीच संबंधों के आधार पर एक नेटवर्क के रूप में प्लॉट किया जाए (वे एक ही पोस्ट में कितनी बार मेल खाते हैं)।

जब आप साइट का डेटा (data.stackexchange.com/stats/query/edit/1122036) प्राप्त करने के लिए इस sql-script का उपयोग करते हैं

select Tags from Posts where PostTypeId = 1 and Score >2

फिर आप 2 या अधिक अंक वाले सभी प्रश्नों के लिए कीवर्ड की एक सूची प्राप्त करते हैं।

आप कुछ इस तरह की साजिश रचकर उस सूची का पता लगा सकते हैं:

टैग के बीच संबंध

अपडेट: रंग के साथ समान (संबंध मैट्रिक्स के eigenvectors के आधार पर) और स्व-अध्ययन टैग के बिना

टैग के बीच संबंध

आप इस ग्राफ को थोड़ा और साफ़ कर सकते हैं (उदाहरण के लिए वे टैग निकाल लें जो सॉफ्टवेयर टैग जैसी सांख्यिकीय अवधारणाओं से संबंधित नहीं हैं। ऊपर दिए गए ग्राफ़ में यह पहले से ही 'r' टैग के लिए किया गया है) और दृश्य प्रतिनिधित्व में सुधार करता है, लेकिन मुझे लगता है ऊपर की यह छवि पहले से ही एक अच्छा प्रारंभिक बिंदु दिखाती है।

आर-कोड:

#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
 [1] "<r><biostatistics><bioinformatics>"                                 
 [2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
 [3] "<aic>"                                                              
 [4] "<regression><nonparametric><kernel-smoothing>"                      
 [5] "<r><regression><experiment-design><simulation><random-generation>"  

l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)

for (j in 1:l) {                              # loop all lines in the text file
  s <- stringr::str_match_all(network[j,],"<.*?>")           # extract keywords
  m <- c(0)                                             
  for (is in s[[1]]) {
    if (sum(keywords == is) == 0) {           # check if there is a new keyword
      keywords <- c(keywords,is)              # add to the keywords table
      nk<-nk+1
      M <- cbind(M,rep(0,nk-1))               # expand the relation matrix with zero's
      M <- rbind(M,rep(0,nk))
    }
    m <- c(m, which(keywords == is))
    lm <- length(m)
    if (lm>2) {                               # for keywords >2 add +1 to the relations
      for (mi in m[-c(1,lm)]) {
        M[mi,m[lm]] <- M[mi,m[lm]]+1
        M[m[lm],mi] <- M[m[lm],mi]+1
      }
    }
  }
}


#getting rid of <  >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords) 


# plotting connections 

library(igraph)
library("visNetwork")

# reduces nodes and edges
Ms<-M[-1,-1]             # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)

# adjust some plotting parameters some 
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"

#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
           forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
                                   springLength = 50,
                                   avoidOverlap =1)
           )

पदानुक्रमित शाखाएँ

मेरा मानना ​​है कि ऊपर दिए गए इस प्रकार के नेटवर्क रेखांकन विशुद्ध रूप से शाखाओं वाली पदानुक्रमित संरचना से संबंधित कुछ आलोचनाओं से संबंधित हैं। यदि आप चाहें, तो मुझे लगता है कि आप एक पदानुक्रमित-क्लस्टरिंग कर सकते हैं ताकि इसे एक पदानुक्रमित संरचना में मजबूर किया जा सके।

नीचे ऐसे पदानुक्रमित मॉडल का एक उदाहरण है। एक को अभी भी विभिन्न समूहों के लिए उचित समूह नाम खोजने की आवश्यकता होगी (लेकिन, मुझे नहीं लगता कि यह श्रेणीबद्ध क्लस्टरिंग अच्छी दिशा है, इसलिए मैं इसे खुला छोड़ देता हूं)।

पदानुक्रमित क्लस्टरिंग

क्लस्टरिंग के लिए दूरी का माप परीक्षण और त्रुटि द्वारा किया गया है (तब तक समायोजन करना, जब तक कि क्लस्टर अच्छा न दिखाई दें।

#####
#####  cluster

library(cluster)

Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)

Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]

cmod <- agnes(-Mc, diss = TRUE)

plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")

StackExchangeStrike द्वारा लिखित


2
शायद मैं रेखांकन को अधिक साफ-सुथरा बनाने में कुछ काम करूँगा। इस वेबसाइट पर विषयों को मैप करने वाले कुछ स्पष्ट ग्राफ़ रखना अच्छा होगा।
सेक्स्टस एम्पिरिकस

1
यह एक महान दृष्टिकोण है! अच्छी तरह से किया।
एंड्रयू ब्रोजा

आपके रंगीन ग्राफ़ से, तीन बड़े क्षेत्र संभावना, प्रतिगमन और मशीन सीखने हैं।
मैट एफ।

@MattF। ग्राफ वास्तव में थोड़ा समस्याग्रस्त है और उपयोग की आवृत्ति से अधिक मेल खाता है। मैंने आवृत्ति द्वारा मैट्रिक्स को स्केल करने की कोशिश की (जैसे सहसंयोजक मैट्रिक्स से सहसंबंध मैट्रिक्स पर स्विच करना), लेकिन यह बहुत ज्यादा नहीं बदला। 2 डी ग्राफ संरचना को बहुत अच्छी तरह से नहीं दिखाता है और भौतिक मॉडल, जो पथ को तारों के रूप में मानता है, नोड्स को एक हेक्सागोनल / त्रिकोणीय आकार (जो सबसे कुशल है) में रखता है।
सेक्स्टस एम्पिरिकस

1
मैं कहता हूं कि स्टैकओवरफ्लो पर यह पांच मुख्य श्रेणियां हैं: संभावना, प्रतिगमन, मशीन सीखने, लेकिन यह भी परिकल्पना परीक्षण और समय-श्रृंखला।
सेक्सटस एम्पिरिकस

9

अपने प्रश्न का उत्तर देने के बारे में जाने का एक आसान तरीका है सामान्य वर्गीकरण तालिकाओं को देखना। उदाहरण के लिए, 2010 गणित विषय वर्गीकरण का उपयोग कुछ प्रकाशनों द्वारा पत्रों को वर्गीकृत करने के लिए किया जाता है। ये प्रासंगिक हैं क्योंकि यह है कि बहुत सारे लेखक अपने स्वयं के कागजात को कैसे वर्गीकृत करते हैं। यहाँ छवि विवरण दर्ज करें

समान वर्गीकरणों के कई उदाहरण हैं, उदाहरण के लिए arxiv का वर्गीकरण या रूसी शिक्षा मंत्रालय का UDK (सार्वभौमिक दशमलव वर्गीकरण) जो सभी प्रकाशनों और अनुसंधान के लिए व्यापक रूप से उपयोग किया जाता है।

यहाँ छवि विवरण दर्ज करें

एक अन्य उदाहरण अमेरिकी इकोनॉमिक एसोसिएशन का JEL Claasification System है। रोब हंडमैन का पेपर " स्वचालित समय श्रृंखला पूर्वानुमान: आर के लिए पूर्वानुमान पैकेज ।" इसे JEL के अनुसार C53, C22, C52 के रूप में वर्गीकृत किया गया है। हंडमैन के पास पेड़ के वर्गीकरण की आलोचना करने के लिए एक बिंदु है। एक बेहतर दृष्टिकोण टैगिंग हो सकता है, उदाहरण के लिए उसके पेपर में कीवर्ड हैं: "ARIMA मॉडल, स्वचालित पूर्वानुमान, घातीय चौरसाई, भविष्यवाणी अंतराल, राज्य अंतरिक्ष मॉडल, समय श्रृंखला, आर।" एक तर्क दे सकता है कि ये कागजात को वर्गीकृत करने का बेहतर तरीका है, क्योंकि वे पदानुक्रमित नहीं हैं और कई पदानुक्रम का निर्माण किया जा सकता है।

@ शुभकर्ता ने एक अच्छी बात कही कि कुछ नवीनतम प्रगतिएँ जैसे मशीन सीखना वर्तमान वर्गीकरणों में आँकड़ों के अंतर्गत नहीं होगा। उदाहरण के लिए, कैथरीन एफ। हिगम, डेसमंड जे। हिघम द्वारा पेपर " डीप लर्निंग: एन इंट्रोडक्शन फॉर एप्लाइड मैथमेटिशियंस " पर एक नज़र डालें । उन्होंने उक्त MSC के तहत अपने पेपर को 97R40, 68T01, 65K10, 62M45 के रूप में वर्गीकृत किया। ये आँकड़े के अलावा कंप्यूटर विज्ञान, गणित शिक्षा और संख्यात्मक विश्लेषण के अंतर्गत हैं


3
मुझे लगता है कि यह कहना अधिक सटीक होगा कि बहुत सारे लेखकों को अपने कागजात को वर्गीकृत करने के लिए कैसे कहा जाता है। मुझे पता है कि जब मैं अपने काम के लिए इस तरह की प्राथमिकता वाली श्रेणियां नियोजित करने के लिए कहता हूं तो मैं कभी संतुष्ट नहीं होता ।
एलेक्सिस

6
गणितीय आँकड़ों की शाखाओं की पहचान करने के लिए यह एक अच्छा आधार है यह जानना कि हमें यह जानने में मदद करता है कि क्या छोड़ दिया गया है, जिसमें मशीन सीखने के कई हिस्से शामिल हैं। दरअसल, 2010 के गणित विषय के वर्गीकरण को "1950 के आँकड़े" के रूप में वर्णित करना और फिर बाद में उभरी हर चीज़ में फेंकना उचित हो सकता है, जैसे कि भूस्थैतिकता, जीनोमिक्स, बूटस्ट्रैपिंग, और इतने पर (जिनमें से कुछ उन पुराने के तहत हो सकते हैं) श्रेणियां, शायद)।
whuber

4

समस्या को देखने का एक तरीका सांख्यिकी पत्रिकाओं, जैसे एनल्स ऑफ स्टेटिस्टिक्स, बायोमेट्रिक, जेएएसए, और जेआरएसएस-बी में उद्धरण और सह-लेखक नेटवर्क को देखता है। इसके द्वारा किया गया था:

जी, पी।, और जिन, जे (2016)। सांख्यिकीविदों के लिए Coauthorship और उद्धरण नेटवर्क। द एनल्स ऑफ एप्लाइड स्टैटिस्टिक्स, 10 (4), 1779-1812।

उन्होंने सांख्यिकीविदों के समुदायों की पहचान की और समुदायों को लेबल करने के लिए अपनी डोमेन समझ का इस्तेमाल किया:

  • उच्च-आयामी डेटा विश्लेषण (HDDA-Coau-A)
  • सैद्धांतिक मशीन लर्निंग
  • आयाम में कमी
  • जॉन्स हॉपकिन्स
  • शासक
  • स्टैनफोर्ड
  • मात्रात्मक प्रतिगमन
  • प्रयोगात्मक डिजाइन
  • उद्देश्य बे
  • जैव सांख्यिकी
  • उच्च-आयामी डेटा विश्लेषण (HDDA-Coau-B)
  • बड़े पैमाने पर कई परीक्षण
  • चर चयन
  • स्थानिक और अर्ध-पैरामीट्रिक / गैर पैरामीट्रिक सांख्यिकी

इस पत्र में समुदायों की विस्तृत चर्चा के साथ-साथ बड़े लोगों के विघटन के बारे में और अधिक उपसमुदाय शामिल हैं।

यह पूरी तरह से सवाल का जवाब नहीं दे सकता है, क्योंकि यह सभी क्षेत्रों के बजाय सांख्यिकीविदों के शोध के क्षेत्रों से संबंधित है, जिनमें वे भी शामिल हैं जो अब सक्रिय नहीं हैं। उम्मीद है कि फिर भी यह मददगार है। बेशक, अन्य कैविएट (जैसे केवल इन चार पत्रिकाओं पर विचार कर रहे हैं) पर चर्चा की गई है, जो आगे पेपर में हैं।


2
मैं इस वेबसाइट के लिए ऐसा करने के बारे में सोच रहा था। "सह-लेखकता" को परिभाषित करते हुए लोग उसी प्रश्नों के उत्तर / उत्तर देते हैं।
सेक्सटस एम्पिरिकस

@MartijnWeterings हाँ, आपका उत्तर इस दृष्टिकोण के समान ही दिशा में है!
user257566

2

मुझे कई आश्चर्यजनक उत्तर दिखाई देते हैं, और मुझे नहीं पता कि एक विनम्र स्व-निर्मित वर्गीकरण कैसे प्राप्त किया जा सकता है, लेकिन मुझे इसका सारांश दिखाने के लिए सभी आँकड़ों की कोई भी समावेशी पुस्तक नहीं पता है, और मुझे लगता है कि, @ के रूप में mkt ने शानदार टिप्पणी की, एक अध्ययन क्षेत्र का वर्गीकरण उपयोगी हो सकता है। तो, यहाँ मेरा शॉट है:

  • वर्णनात्मक आँकड़े
    • सरल आक्षेप
      • सरल परिकल्पना परीक्षण
    • प्लॉटिंग / डेटा विज़ुअलाइज़ेशन
  • नमूना डिजाइन
    • प्रयोगात्मक डिजाइन
    • सर्वेक्षण डिजाइन
  • बहुभिन्नरूपी आँकड़े (असूचीबद्ध)
    • क्लस्टरिंग
    • घटक विश्लेषण
    • अव्यक्त चर मॉडल
  • रैखिक मॉडल (जो वास्तव में बहुभिन्नरूपी हैं)
    • सामान्य कम चौकोर
    • सामान्यीकृत रैखिक मॉडल
      • लॉगिट मॉडल
    • अन्य रैखिक मॉडल
      • कॉक्स मॉडल
      • मात्रात्मक प्रतिगमन
    • बहुभिन्नरूपी आक्षेप
      • कई परिकल्पना परीक्षण
      • समायोजित परिकल्पना परीक्षण
    • संरचित डेटा के लिए मॉडल
      • मिश्रित प्रभाव मॉडल
      • स्थानिक मॉडल
      • समय श्रृंखला मॉडल
    • गैर रेखीय विस्तार
      • सामान्यीकृत योजक मॉडल
  • बाइसियन आँकड़े (वास्तव में बाइसियन तरीके कई चीजों के लिए मौजूद हैं जिन्हें मैंने पहले ही सूचीबद्ध किया था)
  • गैर पैरामीट्रिक प्रतिगमन और वर्गीकरण
    • कई मशीन सीखने के तरीके यहाँ फिट हैं

बेशक यह अति-सादगीपूर्ण है, इसका मतलब केवल किसी ऐसे व्यक्ति से सीधे विचार प्राप्त करना है जो इस क्षेत्र को बमुश्किल जानता है, हम में से प्रत्येक निश्चित रूप से जानता है कि यहां श्रेणियों के बीच बहुत सारी विधियां हैं, कई अन्य जो मैंने किए थे ' टी सूची क्योंकि वे कम प्रसिद्ध हैं या क्योंकि मैं बस भूल गया था। उम्मीद है आप इसे पसंद करते हैं।


1

इस जानकारी को व्यवस्थित करने का एक तरीका यह है कि आप एक अच्छी पुस्तक खोजें और सामग्री की तालिका देखें। यह एक विरोधाभास है क्योंकि आपने विशेष रूप से आंकड़ों के बारे में पूछा था , जबकि विषय पर अधिकांश परिचयात्मक स्नातक स्तर के ग्रंथ एक साथ सांख्यिकी और संभाव्यता सिद्धांत के लिए हैं। एक पुस्तक जो मैं अब प्रतिगमन पर पढ़ रहा हूं, उसमें निम्नलिखित TOC है:

  • बार-बार इंजेक्शन लगाना
  • बायेसियन इंट्रेंस
  • परिकल्पना परीक्षण और परिवर्तनीय चयन
  • रैखिक मॉडल
  • सामान्य प्रतिगमन मॉडल
  • बाइनरी डेटा मॉडल

  • सामान्य प्रतिगमन मॉडल

  • Nonparametric प्रतिगमन के लिए पहले से [[एक अग्रदूत ...]
  • तख़्ता और गिरी के तरीके
  • नॉनपामेट्रिक रिग्रेशन विद मल्टीपल प्रिडिक्टर्स

(शेष खंड गणित और संभाव्यता सिद्धांत का समर्थन कर रहे हैं)

  • मैट्रिक्स एक्सप्रेशंस का अंतर
  • मैट्रिक्स परिणाम
  • कुछ रैखिक बीजगणित
  • संभाव्यता वितरण और सृजन कार्य
  • सामान्य यादृच्छिक चर के कार्य
  • शास्त्रीय सांख्यिकी से कुछ परिणाम
  • बेसिक लार्ज सैंपल थ्योरी

2
एक अनुशासन की एक शाखा के एक हिस्से को संप्रेषित करने के लिए ऐसी पुस्तक पर विचार कर सकते हैं । जब तक कि यह सभी आँकड़ों का एक विश्वकोशीय सर्वेक्षण नहीं करता है, हालाँकि, इसके अध्याय शीर्षकों को शायद ही क्षेत्र की प्रमुख शाखाएँ माना जा सकता है!
whuber

3
@ लवर राजी हो गया। मैं यह उल्लेख करने के लिए सावधान था कि पुस्तक प्रतिगमन पर थी, और यह कि मैं किसी भी पुस्तक को "सांख्यिकी" के विषय पर सामान्य-पर्याप्त नहीं मानता हूं या किसी सांख्यिकीविद् के लिए उपयुक्त स्तर पर पर्याप्त विषयों के रूप में निर्धारित विषयों पर विचार करने के लिए। यह विशिष्ट उदाहरण वेकफील्ड के पाठ से है और एक उल्लेखनीय रूप से सामान्य उपचार है (असमान विचरण अनुमान के साथ टी-परीक्षण बाइनरी कोवरिएट और उदाहरण के लिए मजबूत त्रुटि अनुमान के साथ रैखिक प्रतिगमन के संदर्भ में चर्चा की गई है)।
एडमो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.