के सबसेट पर वितरण


9

मुझे आश्चर्य हो रहा है कि पूर्णांकों के उपखंडों पर किसी भी प्रकार के मानक वितरण हैं । समान रूप से, हम इसे बाइनरी परिणामों के लंबाई वेक्टर पर एक वितरण के रूप में व्यक्त कर सकते हैं, उदाहरण के लिए यदि तो वेक्टर मेल खाती है ।{1,2,...,J}{1,2,...,J}JJJ=5J=5{1,3,5}{1,3,5}(1,0,1,0,1)(1,0,1,0,1)

आदर्श रूप से मैं जो कुछ देख रहा हूं, वह एक परिमित आयामी पैरामीटर द्वारा अनुक्रमित परिवार से आने वाले कुछ वितरण , जो इस तरह से दो बाइनरी वैक्टर और समान अपने द्रव्यमान को वितरित करेगा। संभाव्यता यदि वे एक साथ "पास" हैं, अर्थात और में समान संभावनाएँ हैं। वास्तव में, मैं उम्मीद है कि ऐसा करने के लिए उद्देश्य क्या, डाल दिया जाता है पर एक पूर्व ऐसी है कि अगर मैं जानता हूँ कि काफी बड़ी है तो शायद वैक्टर करने के लिए अपेक्षाकृत ज्यादा बड़ा दूर से दूर है ।νθ()νθ()θθr1r1r2r2r1=(0,0,1,0,1)r1=(0,0,1,0,1)r2=(0,0,1,1,1)r2=(0,0,1,1,1)θθνθ(r1)νθ(r1)νθ(r2)νθ(r2)r1r1

एक रणनीति जो दिमाग में आती है, वह पर पर एक मीट्रिक या कुछ अन्य फैलाव डालने के लिए होगी और फिर , या ऐसा ही कुछ। एक स्पष्ट उदाहरण होगा सामान्य वितरण के अनुरूप। यह ठीक है, लेकिन मैं उम्मीद कर रहा हूं कि बायेसियन विश्लेषण के लिए कुछ मानक और उत्तरदायी है; इसके साथ मैं सामान्य को स्थिर नहीं लिख सकता।dθdθ{0,1}J{0,1}Jνθ(r)exp(dθ(r,μ))νθ(r)exp(dθ(r,μ))exp{rμ2/(2σ2)}exp{rμ2/(2σ2)}


सर्वेक्षण पद्धति में एक सबसेट का नमूना एक बुनियादी समस्या है।
स्टीफन लॉरेंट

@ स्टेफ़ेन यकीन है, लेकिन मुझे लगता है कि मेरी समस्या अलग है कि मेरे पास कुछ अतिरिक्त वांछित संरचना है जिसे मैं अपने वितरण को प्रतिबिंबित करना चाहूंगा। शायद सबसेट के संदर्भ में प्रश्न को टालना एक बुरा विचार था क्योंकि मेरे पास काम करने की दूरी की अस्पष्ट धारणा है।
लड़का

क्या आपका मतलब लिखने का था "... तो शायद छोटा है ..."? जहाँ तक सामान्यीकृत स्थिरांक जाता है, मीट्रिक के लिए हैमिंग दूरी का उपयोग करने पर विचार करें : वितरण के स्थान-स्तरीय परिवारों के लिए, आप उस स्थिरांक को सिर्फ शब्दों के योग के रूप में गणना कर सकते हैं। इसके अलावा, ऐसे सभी परिवार जो आपके मानदंडों को पूरा करते हैं, उन्हें सिर्फ असतत मापदंडों (स्थान के लिए) और निरंतर मापदंडों द्वारा वर्णित किया जा सकता है । vθ(r2)vθ(r2)J+1J+1JJJJ
whuber

@ जब तक नहीं, मेरा मतलब बड़ा था। मैं को अपने द्रव्यमान को उन बिंदुओं के बीच वितरित करना चाहता हूं जो एक साथ करीब हैं। संभवत: इस सवाल का मुहावरा किसी अतिपिछड़े के बंटवारे पर लगाने के रूप में अधिक अप्रोच होगा। मैंने हेमिंग दूरी पर विचार किया था (जो मुझे लगता है कि मेरे मामले में के समान है ); मैं शायद इसे, और मुझे लगता है कि शायद इस तरह के वितरण से नमूना लेने के लिए कुछ एमसीएमसी करना होगा। νθ()νθ()L1L1|riμiσi|riμiσi
लड़का

ओह, मैं अब देख रहा हूं। लेकिन यह वही नहीं है जो आपने मूल रूप से कहा था। उदाहरण के लिए, आपके चरित्र-चित्रण में, यदि बड़ा है, और , से "दूर" vectors का सेट है , और में कोई वेक्टर नहीं है , तो को भी "शायद" होना चाहिए बड़ा हो। लेकिन "बहुत दूर नहीं" और "करीब" का मतलब बिल्कुल एक जैसी चीजों से नहीं है। यह सरल होगा - और अधिक आंतरिक रूप से सुसंगत - जैसा कि आपने अपनी टिप्पणी में किया था वैसी ही स्थिति फिर से लिखना। लेकिन नहीं, आपको हैमिंग दूरियों के आधार पर स्थान-पैमाने पर वितरण से नमूना लेने के लिए एमसीएमसी की आवश्यकता नहीं है: बहुत अधिक कुशल तरीके हैं। ν(r1)ν(r1)RRr1r1r2r2RRν(r2)ν(r2)
व्हिबर

जवाबों:


6

आप अपनी समृद्धता, लचीलेपन और कम्प्यूटेशनल ट्रैक्टिबिलिटी के कारण हेमिंग की दूरी के आधार पर लोकेशन परिवारों का पक्ष ले सकते हैं


संकेतन और परिभाषाएँ

याद रखें कि एक नि: शुल्क परिमित आयामी मॉड्यूल में आधार , दो वैक्टरों के बीच Hamming दूरी और है उन स्थानों की संख्या जहां ।VV(e1,e2,,eJ)(e1,e2,,eJ) δHδHv=v1e1++vJeJv=v1e1++vJeJw=w1e1++wJeJw=w1e1++wJeJiiviwiviwi

किसी भी उत्पत्ति को देखते हुए , हेमिंग दूरी विभाजन को गोले में , , । जब ग्राउंड रिंग में तत्व होते हैं, तो में तत्व और पास तत्व होते हैं। (यह तत्वों को देखने के तुरंत बाद से है , बिल्कुल स्थानों में से भिन्न हैं - जिनमें सेv0Vv0VVVSi(v0)Si(v0)i=0,1,,Ji=0,1,,JSi(v0)={wV | δH(w,v0)=i}Si(v0)={wV | δH(w,v0)=i}nnVVnJnJSi(v)Si(v)(Ji)(n1)i(Ji)(n1)iSi(v)Si(v)vvii(Ji)(Ji)संभावनाएं - और यह कि स्वतंत्र रूप से, प्रत्येक स्थान के लिए मानों के विकल्प हैं।)n1n1

में Affine अनुवाद स्थान वितरण परिवारों को देने के लिए अपने वितरण पर स्वाभाविक रूप से कार्य करता है। विशेष रूप से, जब पर कोई वितरण है (जिसका अर्थ , लिए सभी , और ) और का कोई तत्व है , तो भी एक वितरण है कहाँ पेVVffVVf:V[0,1]f:V[0,1]f(v)0f(v)0vVvVvVf(v)=1vVf(v)=1wwVVf(w)f(w)

f(w)(v)=f(vw)

f(w)(v)=f(vw)

सभी । वितरणों का एक स्थान परिवार इस कार्रवाई के तहत अपरिवर्तनीय है: तात्पर्य है लिए सभी ।vVvV ΩΩfΩfΩf(v)Ωf(v)ΩvVvV

निर्माण

यह हमें एक निश्चित वेक्टर पर अपने आकृतियों को निर्दिष्ट करके वितरण के संभावित दिलचस्प और उपयोगी परिवारों को परिभाषित करने में सक्षम बनाता है , जो सुविधा के लिए मैं , और पूरे परिवार के प्राप्त करने के लिए की कार्रवाई के तहत इन "जनरेटिंग डिस्ट्रिब्यूशन" का अनुवाद । वांछित संपत्ति को प्राप्त करने के लिए, में पास के बिंदुओं पर तुलनीय मूल्य होना चाहिए, बस आवश्यकता है कि सभी उत्पन्न वितरण की संपत्ति।vv0=(0,0,,0)0=(0,0,,0)VVΩΩff

यह देखने के लिए कि यह कैसे काम करता है, आइए सभी वितरण के स्थान परिवार का निर्माण करें जो बढ़ती दूरी के साथ घटते हैं। क्योंकि केवल हैमिंग की दूरी संभव है, गैर-नकारात्मक वास्तविक संख्या = किसी भी घटते क्रम पर विचार करें । सेटJ+1J+1aa0a0a1aJ00a0a1aJ0

A=Ji=0(n1)i(Ji)ai

A=i=0J(n1)i(Ji)ai

और फ़ंक्शन को परिभाषित करें तकfa:V[0,1]fa:V[0,1]

fa(v)=aδH(0,v)A.

fa(v)=aδH(0,v)A.

फिर, जैसा कि जांचना सीधा है, पर एक वितरण है । इसके अलावा, if और only if पॉजिटिव मल्टिपल ऑफ (as वैक्टर in )। इस प्रकार, यदि हम चाहें, तो हम को मानकीकृत कर सकते हैं ।fafaVVfa=fafa=faaaaaRJ+1RJ+1aaa0=1a0=1

तदनुसार, यह निर्माण ऐसे सभी स्थान-अपरिवर्तनीय वितरणों का एक सुस्पष्ट मानकीकरण देता है जो हैमिंग दूरी के साथ घट रहे हैं: ऐसा कोई भी वितरण कुछ अनुक्रम लिए के रूप में है। और कुछ वेक्टर ।f(v)af(v)aa=1a1a2aJ0a=1a1a2aJ0vVvV

यह मानदंड पुजारियों के सुविधाजनक विनिर्देश के लिए अनुमति दे सकता है: उन्हें स्थान पर एक पूर्व और आकृति पर पूर्व में दें । (बेशक कोई पंडितों के एक बड़े समूह पर विचार कर सकता है जहां स्थान और आकार और स्वतंत्र नहीं है, लेकिन यह अधिक जटिल उपक्रम होगा)।vvaa

यादृच्छिक मान उत्पन्न करना

से सैंपल करने का एक तरीका यह है कि इसे गोलाकार रेडियो पर एक वितरण और प्रत्येक क्षेत्र पर एक और वितरण सशर्त में फैक्टरिंग करके चरणों द्वारा किया जाता है:f(v)af(v)a

  1. एक सूचकांक ड्रा पर असतत वितरण से संभावनाओं द्वारा दिए गए , जहां से पहले के रूप में परिभाषित किया गया है ।ii{0,1,,J}{0,1,,J}(Ji)(n1)iai/A(Ji)(n1)iai/AAA

  2. सूचकांक वैक्टर के सेट से मेल खाता है जो बिल्कुल स्थानों पर से भिन्न होता है । इसलिए, प्रत्येक बराबरी की संभावना को देखते हुए, उन स्थानों का चयन करता , जो कि संभव बाहर हैं । (यह सिर्फ एक नमूना है से बाहर सबस्क्रिप्ट बिना प्रतिस्थापन।) के इस उपसमूह चलो स्थानों लिखा जा ।iivviiii(Ji)(Ji)iiJJ iiII

  3. स्वतंत्र रूप से एक मान चयन करके एक तत्व ड्रा करें, जो सभी लिए समान रूप से के सेट से समान रूप से नहीं है और अन्यथा सेट करें । समान रूप से, एक वेक्टर , जो कि गैर- स्केलर से यादृच्छिक रूप से चयन करते जब और अन्यथा सेट । सेट ।wwwjwjvjvjjIjIwj=vjwj=vjuuujujjIjIuj=0uj=0w=v+uw=v+u

बाइनरी मामले में चरण 3 अनावश्यक है।


उदाहरण

यहाँ Rउदाहरण के लिए एक कार्यान्वयन है।

rHamming <- function(N=1, a=c(1,1,1), n=2, origin) {
  # Draw N random values from the distribution f_a^v where the ground ring
  # is {0,1,...,n-1} mod n and the vector space has dimension j = length(a)-1.
  j <- length(a) - 1
  if(missing(origin)) origin <- rep(0, j)

  # Draw radii `i` from the marginal distribution of the spherical radii.
  f <- sapply(0:j, function(i) (n-1)^i * choose(j,i) * a[i+1])
  i <- sample(0:j, N, replace=TRUE, prob=f)

  # Helper function: select nonzero elements of 1:(n-1) in exactly i places.
  h <- function(i) {
    x <- c(sample(1:(n-1), i, replace=TRUE), rep(0, j-i))
    sample(x, j, replace=FALSE)
  }

  # Draw elements from the conditional distribution over the spheres
  # and translate them by the origin.
  (sapply(i, h) + origin) %% n
}

इसके उपयोग के एक उदाहरण के रूप में:

test <- rHamming(10^4, 2^(11:1), origin=rep(1,10))
hist(apply(test, 2, function(x) sum(x != 0)))

वितरण में से iid तत्वों को निकालने में सेकंड का समय लगा। जहां , (बाइनरी केस), , और तेजी से घट रहा है।0.20.2104104f(v)af(v)aJ=10J=10n=2n=2v=(1,1,,1)v=(1,1,,1)a=(211,210,,21)a=(211,210,,21)

(इस एल्गोरिथ्म के लिए उस आवश्यकता नहीं होती है ; इस प्रकार, यह किसी भी स्थान परिवार से यादृच्छिक परिवर्तन उत्पन्न करेगा , न कि केवल एकरूपता।)aa


इसके लिए धन्यवाद! इस मामले में हेमिंग की दूरी सिर्फ in है जो क्यूब तक सीमित है; उस संदर्भ में, हैमिंग दूरी आइसोट्रोपिक रूप से कार्य कर रही है। इससे दूर होने से मुझे लगता है कि मैं इन चीजों को जटिल बनाता हूं क्योंकि मेरे पास मेरी दूरी को मापने के लिए से अधिक भिन्न मूल्य हैं? इस पर कोई सामान्य टिप्पणी? L1L1RJRJJJ
लड़का

हां: दूरी के कार्यों का एक विकल्प इस बात पर निर्भर करेगा कि में कौन से मूल्य प्रतिनिधित्व करते हैं। क्योंकि इस प्रश्न को सार रूप में तैयार किया गया है, हमारे पास वास्तव में अच्छे विकल्प होने के बारे में राय बनाने के लिए कुछ भी नहीं है। हामिंग की दूरी नाममात्र मानों के लिए और शायद अन्य मामलों में भी उपयुक्त होगी, लेकिन अन्य दूरियां तब बेहतर हो सकती हैं जब सेट लिए दूरी की अंतर्निहित भावना हो । बाइनरी केस , हेमिंग की दूरी को सामान्य बनाना कठिन है: वे पहले से ही सामान्य हैं। {1,2,,n}{1,2,,n}{1,2,,n}{1,2,,n}n=2n=2
व्हिबर

1

K- निर्धारक बिंदु प्रक्रिया से एक नमूना उप-प्रकारों के वितरण को मॉडल करता है जो विविधता को प्रोत्साहित करता है, जैसे कि समान वस्तुओं के नमूने में एक साथ होने की संभावना कम होती है। एलेक्स कुल्सज़ा, बेन तस्कर द्वारा K-निर्धारक बिंदु प्रक्रिया नमूने का संदर्भ लें।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.