क्या संभावना है कि आयामों में


24

डेटा पॉइंट्स को देखते हुए , प्रत्येक में फीचर्स के साथ , को रूप में , अन्य को रूप में लेबल किया जाता है । प्रत्येक सुविधा यादृच्छिक रूप से (समान वितरण) से एक मान लेती है । क्या संभावना है कि एक हाइपरप्लेन मौजूद है जो दो वर्गों को विभाजित कर सकता है?d n / 2 0 n / 2 1 [ 0 , 1 ]ndn/20n/21[0,1]

आइए पहले सबसे आसान मामले पर विचार करें, अर्थात ।d=1


3
यह वास्तव में एक दिलचस्प सवाल है। मुझे लगता है कि यह अंक वर्ग के दो वर्गों के उत्तल hulls है या नहीं, के संदर्भ में सुधार किया जा सकता है - हालांकि मुझे नहीं पता कि यह समस्या को और अधिक सरल बनाता है या नहीं।
डॉन वालपोला

यह स्पष्ट रूप से & के सापेक्ष परिमाणों का एक कार्य होगा । सबसे आसान मामले पर विचार करें w / , यदि , तो w / वास्तव में निरंतर डेटा (यानी, किसी भी दशमलव स्थान पर गोलाई नहीं), संभावना है कि उन्हें रैखिक रूप से अलग किया जा सकता है । OTOH, । ndd=1n=21limn  Pr(linearly separable)0
गुंग - को पुनः स्थापित मोनिका

आपको यह भी स्पष्ट करना चाहिए कि क्या हाइपरप्लेन को 'सपाट' होने की जरूरत है (या यदि यह कहा जा सकता है, तो 2d -टाइप स्थिति में एक पैराबोला )। यह मुझे लगता है कि सवाल दृढ़ता से सपाटता का अर्थ है, लेकिन यह शायद स्पष्ट रूप से कहा जाना चाहिए।
गुंग - को पुनः स्थापित मोनिका

4
@ मुझे लगता है कि शब्द "हाइपरप्लेन" का अर्थ स्पष्ट रूप से "सपाटता" है, इसलिए मैंने "रैखिक रूप से अलग होने" के लिए शीर्षक संपादित किया। स्पष्ट रूप से डुप्लिकेट के बिना किसी भी डेटासेट सिद्धांत में nonlinearly वियोज्य है।
अमीबा का कहना है कि

1
@ गुंग आईएमएचओ "फ्लैट हाइपरप्लेन" एक प्लेनमैस है। यदि आप तर्क देते हैं कि "हाइपरप्लेन" घुमावदार हो सकता है, तो "फ्लैट" भी घुमावदार हो सकता है (एक उपयुक्त मीट्रिक में)।
अमीबा का कहना है कि

जवाबों:


4

मान लें कि डेटा में कोई डुप्लिकेट मौजूद नहीं है।

यदि , तो प्रायिकता ।n+1पीआर=1

के अन्य संयोजनों के लिए, निम्नलिखित कथानक देखें:(n,)

यहाँ छवि विवरण दर्ज करें

ओपी में निर्दिष्ट इनपुट और आउटपुट डेटा का अनुकरण करते हुए मैंने यह प्लॉट तैयार किया। रेखा -पृथक्करण को हॉक-डोनर प्रभाव के कारण लॉजिस्टिक रिग्रेशन मॉडल में अभिसरण की विफलता के रूप में परिभाषित किया गया था ।

हम देख सकते हैं कि बढ़ने की संभावना घट गई है । वास्तव में, हम एक मॉडल से संबंधित से फिट कर सकते हैं , और यह परिणाम था:nn,पी

पी(n,)=11+-(५.८२,९४४-४.५८,२६१×n+१.३७,२७१×-0.0235785×n×)

यहाँ छवि विवरण दर्ज करें


प्लॉट के लिए कोड (जूलिया में):

using GLM

ds = 10; #number of dimensions to be investigated
ns = 100 #number of examples to be investigated
niter = 1000; #number of iterations per d per n
P = niter * ones(Int64, ds, ns); #starting the number of successes

for d in 1:ds
    for n in (d+1):ns
        p = 0 #0 hits
        for i in 1:niter
            println("Dimensions: $d; Samples: $n; Iteration: $i;")
            try #we will try to catch errors in the logistic glm, these are due to perfect separability
                X = hcat(rand((n,d)), ones(n)); #sampling from uniform plus intercept
                Y = sample(0:1, n)  #sampling a binary outcome
                glm(X, Y, Binomial(), LogitLink())
            catch
                p = p+1 #if we catch an error, increase the count
            end
        end
        P[d,n] = p
    end
end

using Plots

gui(heatmap(P./niter, xlabel = "Number of Samples", ylabel = "Number of Dimensions", title = "Probability of linear separability"))

संबंधित मॉडल के लिए कोड (n,) से पी (जूलिया में):

probs = P./niter
N = transpose(repmat(1:ns, 1, ds))
D = repmat(1:ds, 1, ns)

fit = glm(hcat(log.(N[:]), D[:], N[:].*D[:], ones(ds*ns)), probs[:], Binomial(), LogitLink())
coef(fit)
#4-element Array{Float64,1}:
# -4.58261
#  1.37271
# -0.0235785
#  5.82944

gui(heatmap(reshape(predict(fit), ds, ns), xlabel = "Number of Samples", ylabel = "Number of Dimensions", title = "Fit of probability of linear separability"))

+1। लॉग (n) और n क्यों नहीं है? पीले-काले रंग की सीमा शीर्ष आकृति पर मेरे लिए एक सीधी रेखा की तरह दिखती है, लेकिन दूसरे आंकड़े पर मुड़ी हुई दिखाई देती है। क्या यह लॉग (n) के कारण हो सकता है? निश्चित नहीं।
अमीबा का कहना है कि मोनिका

पी=1पी=0
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.