मेरे पास एक डेटासेट है जो एक वेब चर्चा मंच से आंकड़े हैं। मैं उन उत्तरों की संख्या के वितरण को देख रहा हूं जिनके विषय की अपेक्षा की जाती है। विशेष रूप से, मैंने एक डेटासेट बनाया है जिसमें विषय उत्तर की सूची गिना जाता है, और फिर उन विषयों की गिनती होती है जिनके पास उत्तरों की संख्या होती है।
"num_replies","count"
0,627568
1,156371
2,151670
3,79094
4,59473
5,39895
6,30947
7,23329
8,18726
यदि मैं एक लॉग-लॉग प्लॉट पर डेटासेट की साजिश रचता हूं, तो मुझे वह मिलता है जो मूल रूप से एक सीधी रेखा है:
(यह जिप्फ़ियन वितरण है )। विकिपीडिया मुझे बताता है कि लॉग-लॉग भूखंडों पर सीधी रेखाएं एक ऐसे फ़ंक्शन का संकेत देती हैं जिसे प्रपत्र एक मोनोमियल द्वारा मॉडलिंग की जा सकती है । और वास्तव में मैं इस तरह के एक समारोह नेत्रगोलक है:
lines(data$num_replies, 480000 * data$num_replies ^ -1.62, col="green")
मेरे नेत्रगोलक स्पष्ट रूप से आर के रूप में सटीक नहीं हैं। तो मुझे इस मॉडल के मापदंडों को अधिक सटीक रूप से फिट करने के लिए आर कैसे मिल सकता है? मैंने बहुपद प्रतिगमन की कोशिश की, लेकिन मुझे नहीं लगता कि आर एक्सपोनेंट को एक पैरामीटर के रूप में फिट करने की कोशिश करता है - मुझे जो मॉडल चाहिए, उसका उचित नाम क्या है?
संपादित करें: सभी के उत्तर के लिए धन्यवाद। जैसा कि सुझाव दिया गया है, मैं अब इस रेसिपी का उपयोग करके इनपुट डेटा के लॉग के खिलाफ एक रेखीय मॉडल फिट कर रहा हूँ:
data <- read.csv(file="result.txt")
# Avoid taking the log of zero:
data$num_replies = data$num_replies + 1
plot(data$num_replies, data$count, log="xy", cex=0.8)
# Fit just the first 100 points in the series:
model <- lm(log(data$count[1:100]) ~ log(data$num_replies[1:100]))
points(data$num_replies, round(exp(coef(model)[1] + coef(model)[2] * log(data$num_replies))),
col="red")
इसका परिणाम यह है, मॉडल को लाल रंग में दिखाना:
यह मेरे उद्देश्यों के लिए एक अच्छा सन्निकटन जैसा दिखता है।
यदि मैं इस ज़िपफ़ियन मॉडल (अल्फा = 1.703164) का उपयोग यादृच्छिक संख्या जनरेटर के साथ करता है, तो मूल मापा डेटासेट के रूप में कुल विषयों (1400930) को उत्पन्न करने के लिए इसमें मूल रूप से मापा गया डेटासेट ( इस सी कोड का उपयोग करके मुझे वेब पर मिला ), परिणाम दिखता है पसंद:
मापित बिंदु काले रंग में हैं, मॉडल के अनुसार अनियमित रूप से उत्पन्न लाल रंग में हैं।
मुझे लगता है कि यह दिखाता है कि इन 1400930 अंकों को बेतरतीब ढंग से पैदा करने वाला साधारण संस्करण मूल ग्राफ के आकार के लिए एक अच्छी व्याख्या है।
यदि आप स्वयं कच्चे डेटा के साथ खेलने में रुचि रखते हैं, तो मैंने इसे यहाँ पोस्ट किया है ।