कैसे ठीक से रुझान की साजिश है


45

मैं विभिन्न देशों में मृत्यु दर (प्रति 1000 पीपीएल) के रुझानों को दिखाने के लिए एक ग्राफ बना रहा हूं और कहानी जो कि कथानक से आनी चाहिए, वह यह है कि जर्मनी (हल्की नीली रेखा) एकमात्र है जिसका चलन 1932 के बाद बढ़ रहा है। मेरी पहली (मूल) कोशिश

यहाँ छवि विवरण दर्ज करें

मेरी राय में, यह ग्राफ़ पहले से ही दिखा रहा है कि हम इसे क्या बताना चाहते हैं लेकिन यह सुपर सहज नहीं है। क्या आपके पास यह स्पष्ट करने के लिए कोई सुझाव है कि प्रवृत्तियों के बीच अंतर? मैं विकास दर की साजिश रचने की सोच रहा था लेकिन मैंने कोशिश की और यह उतना बेहतर नहीं है।

डेटा निम्नलिखित हैं

year     de     fr      be       nl     den      ch     aut     cz       pl
1927    10.9    16.5    13      10.2    11.6    12.4    15      16      17.3
1928    11.2    16.4    12.8    9.6     11      12      14.5    15.1    16.4
1929    11.4    17.9    14.4    10.7    11.2    12.5    14.6    15.5    16.7
1930    10.4    15.6    12.8    9.1     10.8    11.6    13.5    14.2    15.6
1931    10.4    16.2    12.7    9.6     11.4    12.1    14      14.4    15.5
1932    10.2    15.8    12.7    9       11      12.2    13.9    14.1    15
1933    10.8    15.8    12.7    8.8     10.6    11.4    13.2    13.7    14.2
1934    10.6    15.1    11.7    8.4     10.4    11.3    12.7    13.2    14.4
1935    11.4    15.7    12.3    8.7     11.1    12.1    13.7    13.5    14
1936    11.7    15.3    12.2    8.7     11      11.4    13.2    13.3    14.2
1937    11.5    15      12.5    8.8     10.8    11.3    13.3    13.3    14

2
इटली और स्पेन से डेटा तुलना में दिलचस्प होगा। उनकी उस समय के आसपास भी फासिस्ट सरकारें थीं।
15

1
उत्तरों में दिए गए अच्छे विचारों के साथ, कृपया अपना प्लॉट 0 (y अक्ष) पर शुरू करना सुनिश्चित करें, ताकि सापेक्ष परिवर्तन परिमाण अधिक दिखाई दे।
WoJ

2
@WoJ मैं आपकी बात देख रहा हूं, लेकिन व्यवहार में यह सीमा लगभग 9 से लगभग 18 प्रति 1000 है, इसलिए आधे ग्राफ़ स्थान को यह दिखाते हुए खर्च किया जाएगा कि मृत्यु दर शून्य नहीं है। मुझे लगता है कि इसीलिए ज्यादातर लोग (खुद शामिल) अपने जवाब में अब तक ऐसा नहीं करना चाहते थे। गौर कीजिए कि आपकी कसौटी कहाँ ठहरती है, उदाहरण के लिए, क्या आप इस बात पर जोर देंगे कि वयस्क ऊँचाई में ऐतिहासिक बदलावों के भूखंड सभी शून्य पर शुरू होते हैं? Eg
निक कॉक्स

1
ग्राफ़ के बारे में सोचने के बजाय, मैं सबसे पहले आश्चर्यचकित रहूंगा कि डेटा और विश्लेषण अंतर्निहित है। मृत्यु दर में कौन से कारक शामिल हैं? क्या मृत्यु दर तेजी से घटती है अगर यह पहले से ही उच्च है (जैसे पोलैंड)? क्या मृत्यु दर किसी स्तर पर पठार है? क्या यह पठार प्रभाव (जो जर्मनी के लिए मजबूत है) शायद ऑस्ट्रिया के लिए वृद्धि (पिछले कुछ वर्षों में) एक मजबूत प्रभाव है? ग्राफ कच्चे डेटा की तरह है (इसे अभी भी विश्लेषण करने की आवश्यकता है) और एक ही समय में यह व्युत्पन्न है (संख्याएं सरल माप नहीं हैं लेकिन व्युत्पन्न हैं) यह 1 प्रभाव को उजागर करना मुश्किल बनाता है।
सेक्सस एम्पिरिकस

1
इसके अलावा, आप केवल 10 वर्षों की तुलना में बेहतर अवधि दिखाते हैं। जब आप परिवेश दिखाते हैं तो इन दस वर्षों पर ध्यान देना उचित होता है। यह क्लोज़ अप देखना बहुत आम है जो व्यापक परिप्रेक्ष्य में बहुत कम समझ में आता है। जब ये वक्र एक तूफान में लहरों की तरह ऊपर और नीचे जाते हैं, तो आपको पूरे समुद्र को दिखाना होगा और न केवल एक लहर जो एक अच्छी कहानी के साथ सहसंबंधित होती है। (मुझे यकीन है कि
टुट्टे

जवाबों:


53

कभी - कभी थोड़ा ही बहुत होता है। वर्ष-दर-वर्ष भिन्नताओं और देश के भेदों के बारे में कम विवरण के साथ आप रुझानों के बारे में अधिक जानकारी प्रदान कर सकते हैं । चूंकि अन्य देश ज्यादातर एक साथ बढ़ रहे हैं, आप अलग-अलग रंगों के बिना प्राप्त कर सकते हैं।

एक स्मूथी का उपयोग करने के लिए आपको पाठक को यह विश्वास दिलाने की आवश्यकता है कि आपने किसी दिलचस्प भिन्नता को खत्म नहीं किया है।

यहाँ छवि विवरण दर्ज करें

कोड के लिए कुछ अनुरोध प्राप्त करने के बाद अपडेट करें :

मैंने इसे JMP के इंटरेक्टिव ग्राफ बिल्डर में बनाया। JMP स्क्रिप्ट है:

Graph Builder(
Size( 528, 456 ), Show Control Panel( 0 ), Show Legend( 0 ),
// variable role assignments:
Variables( X( :year ), Y( :Deaths ), Overlay( :Country ) ),
// spline smoother:
Elements( Smoother( X, Y, Legend( 3 ) ) ),
// customizations:
SendToReport(
    // x scale, leaving room for annotations
    Dispatch( {},"year",ScaleBox,
        {Min( 1926.5 ), Max( 1937.9 ), Inc( 2 ), Minor Ticks( 1 )}
    ),
    // customize colors and DE line width
    Dispatch( {}, "400", ScaleBox, {Legend Model( 3,
        Properties( 0, {Line Color( "gray" )}, Item ID( "aut", 1 ) ),
        Properties( 1, {Line Color( "gray" )}, Item ID( "be", 1 ) ),
        Properties( 2, {Line Color( "gray" )}, Item ID( "ch", 1 ) ),
        Properties( 3, {Line Color( "gray" )}, Item ID( "cz", 1 ) ),
        Properties( 4, {Line Color( "gray" )}, Item ID( "den", 1 ) ),
        Properties( 5, {Line Color( "gray" )}, Item ID( "fr", 1 ) ),
        Properties( 6, {Line Color( "gray" )}, Item ID( "nl", 1 ) ),
        Properties( 7, {Line Color( "gray" )}, Item ID( "pl", 1 ) ),
        Properties( 8, {Line Color("dark red"), Line Width( 3 )}, Item ID( "de", 1 ))
    )}),
    // add line annotations (omitted)

));


4
मेरे अनुभव में, समाज विज्ञान में स्मूथिंग श्रृंखला एक बहुत ही दुर्लभ प्रथा है।
ल्यूकोनाचो

6
हो सकता है कि उन्हें कुछ नया और उपयोगी दिखाने का एक कारण हो?
kjetil b halvorsen

9
सामाजिक विज्ञान में मानदंडों के बावजूद, मुझे लगता है कि 1930 में घटने वाली स्मूदिंग को छुपाया जाता है और 1935 में उठता है। 1929 में होने वाले कई देशों में स्पाइक भी अस्पष्ट है। अन्यथा, मुझे यह सरल दृष्टिकोण बहुत पसंद है।
अंडरमॉर्नर

7
+1 केवल दो रंगों का उपयोग करने के लिए (शायद ग्रे को भी हल्का बनाते हैं?) और दाईं ओर देश के नाम रखकर किंवदंती से बचें। -1 चौरसाई के लिए, जो बिना किसी अच्छे कारण के जानकारी देता है। इसलिए मुझे वास्तव में वोट करने की आवश्यकता नहीं है ;-)
एस। कोलासा -

10
@StephanKolassa मुझे लगता है कि xan की बात है जानकारी को छोड़ने का एक अच्छा कारण है: साल-दर-साल परिवर्तनशीलता "शोर" के बजाय समग्र रुझानों पर ध्यान केंद्रित करना। कुछ हद तक, आप पहले से ही "जानकारी छोड़ रहे हैं" - आप वार्षिक संख्या देख रहे हैं। मुझे लगता है कि ग्राफ को दैनिक दरों की साजिश में सुधार किया जाएगा, जो कि "जानकारी नहीं छोड़ना" है, आपको विज्ञापन नहीं लेता है । - यह सच है कि कुछ प्रवृत्तियों को चौरसाई द्वारा अस्पष्ट किया जाता है, लेकिन अन्य (जैसे मौसमी बदलाव) वार्षिक दरों की पसंद से अस्पष्ट होते हैं। इसमें कुछ भरोसा शामिल है कि प्रासंगिक भिन्नता अभी भी प्रदर्शित की जा रही है।
आरएम

39

1100100

d = read.table(text="
year     de     fr      be       nl     den      ch     aut     cz       pl
1927    10.9    16.5    13      10.2    11.6    12.4    15      16      17.3
...
1937    11.5    15      12.5    8.8     10.8    11.3    13.3    13.3    14",
header=T)

d2          = d  # we'll end up needing both
d2[6,2:10]  = 1  # set 1932 as 1
for(j in 2:10){   
  for(i in 7:11){
      # changes moving forward from 1932:
    d2[i,j] = log( d[i,j]/d[i-1,j] )
      # running sum moving forward from 1932:
    d2[i,j] = d2[i,j]+d2[i-1,j]
  }
  for(i in 5:1){
      # changes moving backward from 1932:
    d2[i,j] = log( d[i,j]/d[i+1,j] )
      # running sum moving forward from 1932:
    d2[i,j] = d2[i+1,j]+d2[i,j]
  }
}
d2[,2:10]   = d2[,2:10]*100  # multiply all values by 100

windows()  # plot of changes
  plot(1,1, xlim=c(1927,1937), ylim=c(82,118), xlab="Year", 
       ylab="Change from 1932", main="European death rates")
  abline(h=100, col="lightgray")
  for(j in 2:10){
    lines(1927:1937, d2[,j], col=rainbow(9)[j-1], lwd=ifelse(j==2,2,1))
  }
  legend("bottomleft", legend=colnames(d2)[2:10], lwd=c(2,rep(1,8)), lty=1, 
         col=rainbow(9), ncol=2)

windows()  # plot of levels
  plot(1,1, xlim=c(1927,1937), ylim=c(8,18.4), xlab="Year", 
       ylab="Deaths per thousand", main="European death rates")
  abline(h=d[6,2:10], col="gray90")
  points(rep(1932,9), d[6,2:10], col=rainbow(9), pch=16)
  for(j in 2:10){
    lines(1927:1937, d[,j], col=rainbow(9)[j-1], lwd=ifelse(j==2,2,1))
  }
  legend("topright", legend=colnames(d)[2:10], lwd=c(2,rep(1,8)), lty=1, 
         col=rainbow(9), ncol=2)

यहाँ छवि विवरण दर्ज करें

इसके विपरीत, नीचे स्तरों में डेटा का एक संगत भूखंड है। फिर भी मैंने यह देखने की कोशिश की कि जर्मनी अकेले 1932 के बाद दो तरीकों से आगे बढ़ेगा: मैंने प्रत्येक श्रृंखला पर 1932 में एक प्रमुख बिंदु रखा, और उन स्तरों पर पृष्ठभूमि में भूखंड पर एक बेहोश ग्रे रेखा खींची।

यहाँ छवि विवरण दर्ज करें


+1 वास्तव में महान समाधान
रेमत

2
किंवदंती को खोने के लिए पर्याप्त स्थान है (कुंजी को मार डालो) और ग्राफ के शरीर के भीतर प्रत्येक वक्र को सीधे लेबल करें।
निक कॉक्स

3
कोड और प्लॉट को अच्छे बनाने के बहुत सारे तरीके हैं। यहाँ मेरा मुख्य बिंदु स्तरों और परिवर्तनों के विचारों को b / t को अलग करना, और परिवर्तनों के बारे में एक बुनियादी प्रदर्शन प्रदान करना है।
गंग - मोनिका

17

अन्य उत्तरों में यहां कई अच्छे विचार हैं, लेकिन वे उन अच्छे समाधानों को समाप्त नहीं करते हैं जो संभव हैं। इस उत्तर में पहला ग्राफ यह लेता है कि मृत्यु दर के विभिन्न स्तरों पर अलग से चर्चा और व्याख्या की जा सकती है। उपलब्ध प्रत्येक श्रृंखला को अधिक स्थान भरने की अनुमति देने में, यह पाठकों के सापेक्ष परिवर्तन के पैटर्न पर ध्यान केंद्रित करता है।

देश द्वारा वर्णमाला क्रम आमतौर पर एक डोप डिफ़ॉल्ट है, और यहां पर जोर नहीं दिया गया है। सौभाग्य से, और सौभाग्य से, डे के रूप में जर्मनी इस 3 x 3 डिस्प्ले के केंद्र में है। एक साधारण कथा - देखो! जर्मनी का पैटर्न 1932 से एक तेजी के साथ असाधारण है - संभव और प्रशंसनीय बनाया गया है।

यहाँ छवि विवरण दर्ज करें

सौभाग्य से, लेकिन सौभाग्य से, 9 देश अलग-अलग पैनलों की कोशिश करने को सही ठहराने के लिए पर्याप्त हैं, लेकिन उस डिजाइन को अव्यवहारिक बनाने के लिए बहुत सारे नहीं हैं (30 और निश्चित रूप से 300 पैनलों के साथ, वहाँ कहने के लिए बहुत सारे पैनल होंगे), प्रत्येक के साथ बहुत छोटा जांच)।

जाहिर है, फुलर देश के नामों के लिए यहां बहुत जगह है। (कुछ अन्य उत्तरों में, किंवदंतियों में उपलब्ध स्थान का एक बड़ा अंश लिया जाता है, जबकि थोड़ा गूढ़ है। व्यवहार में, ऐसे डेटा में रुचि रखने वाले लोगों को देश के संक्षिप्तीकरण को समझने में आसानी होगी, लेकिन किंवदंती की आवश्यकता कितनी बार होती है ग्राफिकल डिजाइन में घबराहट का मुद्दा।)

रिकॉर्ड के लिए स्टैटा कोड:

clear
input int year double(de fr be nl den ch aut cz pl)
1927 10.9 16.5   13 10.2 11.6 12.4   15   16 17.3
1928 11.2 16.4 12.8  9.6   11   12 14.5 15.1 16.4
1929 11.4 17.9 14.4 10.7 11.2 12.5 14.6 15.5 16.7
1930 10.4 15.6 12.8  9.1 10.8 11.6 13.5 14.2 15.6
1931 10.4 16.2 12.7  9.6 11.4 12.1   14 14.4 15.5
1932 10.2 15.8 12.7    9   11 12.2 13.9 14.1   15
1933 10.8 15.8 12.7  8.8 10.6 11.4 13.2 13.7 14.2
1934 10.6 15.1 11.7  8.4 10.4 11.3 12.7 13.2 14.4
1935 11.4 15.7 12.3  8.7 11.1 12.1 13.7 13.5   14
1936 11.7 15.3 12.2  8.7   11 11.4 13.2 13.3 14.2
1937 11.5   15 12.5  8.8 10.8 11.3 13.3 13.3   14
end

rename (de-pl) (death=)
reshape long death, i(year) j(country) string
set scheme s1color 
line death year, by(country, yrescale note("")) xtitle("") xla(1927(5)1937)

संपादित करें:

टिम मॉरिस द्वारा सुझाए गए इस ग्राफ की एक सरल वृद्धि उस वर्ष को उजागर करना है जिसमें अधिकतम हुआ:

यहाँ छवि विवरण दर्ज करें

egen max = max(death) , by(country)
replace max = max == death
twoway line death year || scatter death year if max, ms(O)  ///
by(country, yrescale note("") legend(off)) xtitle("") xla(1927(5)1937)  

EDIT 2 (सरल कोड दिखाने के लिए संशोधित):

वैकल्पिक रूप से, यह अगला डिज़ाइन प्रत्येक श्रृंखला को अलग-अलग दिखाता है, लेकिन हर बार पृष्ठभूमि के रूप में अन्य श्रृंखला के साथ। इस संबंधित थ्रेड के भीतर सामान्य विचार पर चर्चा की जाती है ।

यहाँ छवि विवरण दर्ज करें

यहां नुकसान होने के साथ-साथ फायदा भी है। जबकि प्रत्येक श्रृंखला दूसरों के संदर्भ में अधिक आसानी से देखी जा सकती है, दोहराव से अंतरिक्ष खो जाता है।

रिकॉर्ड के लिए स्टैटा कोड:

(कोड को input, reshape, renameइस जवाब में ऊपर के रूप में)

* type "ssc inst fabplot" to install
fabplot line death year, by(country, compact note("countries highlighted in turn")) ///
ytitle("death rate, yearly deaths per 1000") yla(8(2)18, ang(h)) ///
xla(1927(5)1937, format(%tyY)) xtitle("") front(connected) 

fabplot1960 के दशक की कुछ प्रतिध्वनि "शानदार" के रूप में नहीं गूँजती है , न कि fरॉट या fओवेरीग्राउंड aएन डी bएक्केड्रॉप या एकडग्राउंड bप्लॉट के रूप में समझा जाता है ।


3
+1, मुझे कहना होगा कि इस तरह एक अच्छा प्लॉट तैयार करने के लिए कोड संक्षिप्त है।
गुंग - को पुनः स्थापित मोनिका

@ शुंग धन्यवाद। यहाँ कोई भी प्रशंसा StataCorp द्वारा योग्य है क्योंकि ये इनबिल्ट कमांड हैं। मैं मूल yearरूप से एक्स अक्ष शीर्षक (जो की जरूरत है?) के रूप में कुछ डिफ़ॉल्ट पाठ, ज़िप कर रहा हूँ । मुझे लगता है कि एक Stata उपयोगकर्ता के लिए जोड़ देंगे प्राकृतिक डेटा संरचना एक है कि एक renameऔर उपकृत नहीं किया जाएगा reshape। लेकिन प्रेक्षणों के अलग-अलग ब्लॉक के रूप में अलग-अलग पैनल (यहाँ देश) हैं।
निक कॉक्स

+1 हालाँकि, इस समाधान की एक समस्याग्रस्त विशेषता यह है कि यह संदर्भ खो देता है: हम आसानी से यह नहीं देख सकते हैं कि हालांकि जर्मनी की मृत्यु दर में वृद्धि हुई है, यह निम्न स्तर पर शुरू हुआ और अभी भी अंत में बहुत अधिक (अपेक्षाकृत) नहीं था।
whuber

1
EDIT 2 में वैकल्पिक डिजाइन संदर्भ के बारे में @whuber द्वारा किए गए प्रमुख बिंदु को संबोधित करने का एक तरीका है।
निक कॉक्स

15

आपका ग्राफ़ उचित है, लेकिन इसके लिए कुछ परिशोधन की आवश्यकता होगी, जिसमें शीर्षक, अक्ष लेबल और संपूर्ण देश लेबल शामिल हैं। यदि आपका लक्ष्य इस तथ्य पर बल देना है कि अवलोकन अवधि में मृत्यु दर में वृद्धि के साथ जर्मनी एकमात्र देश था, तो ऐसा करने का एक सरल तरीका यह होगा कि इस रेखा को साजिश में उजागर किया जाए, या तो एक मोटी रेखा का उपयोग करके, एक अलग लाइन-प्रकार, या अल्फा पारदर्शिता। आप अपनी समय-श्रृंखला की साजिश को बार-प्लॉट के साथ भी बढ़ा सकते हैं, जो समय के साथ मृत्यु दर में बदलाव दिखाते हैं, ताकि समय-श्रृंखला की रेखाओं की जटिलता परिवर्तन के एक ही उपाय में कम हो जाए।

यहाँ कैसे आप उपयोग कर इन भूखंडों उत्पादन कर सकता है ggplotमें R:

library(tidyr);
library(dplyr);
library(ggplot2);

#Create data frame in wide format
DATA_WIDE <- data.frame(Year = 1927L:1937L,
                        DE   = c(10.9, 11.2, 11.4, 10.4, 10.4, 10.2, 10.8, 10.6, 11.4, 11.7, 11.5),
                        FR   = c(16.5, 16.4, 17.9, 15.6, 16.2, 15.8, 15.8, 15.1, 15.7, 15.3, 15.0),
                        BE   = c(13.0, 12.8, 14.4, 12.8, 12.7, 12.7, 12.7, 11.7, 12.3, 12.2, 12.5),
                        NL   = c(10.2,  9.6, 10.7,  9.1,  9.6,  9.0,  8.8,  8.4,  8.7,  8.7,  8.8),
                        DEN  = c(11.6, 11.0, 11.2, 10.8, 11.4, 11.0, 10.6, 10.4, 11.1, 11.0, 10.8),
                        CH   = c(12.4, 12.0, 12.5, 11.6, 12.1, 12.2, 11.4, 11.3, 12.1, 11.4, 11.3),
                        AUT  = c(15.0, 14.5, 14.6, 13.5, 14.0, 13.9, 13.2, 12.7, 13.7, 13.2, 13.3),
                        CZ   = c(16.0, 15.1, 15.5, 14.2, 14.4, 14.1, 13.7, 13.3, 13.5, 13.3, 13.3),
                        PL   = c(17.3, 16.4, 16.7, 15.6, 15.5, 15.0, 14.2, 14.4, 14.0, 14.2, 14.0));

#Convert data to long format
DATA_LONG <- DATA_WIDE %>% gather(Country, Measurement, DE:PL);

#Set line-types and sizes for plot
#Germany (DE) is the fifth country in the plot
LINETYPE <- c("dashed", "dashed", "dashed", "dashed", "solid", "dashed", "dashed", "dashed", "dashed");
SIZE     <- c(1, 1, 1, 1, 2, 1, 1, 1, 1);

#Create time-series plot
theme_set(theme_bw());
PLOT1 <- ggplot(DATA_LONG, aes(x = Year, y = Measurement, colour = Country)) + 
         geom_line(aes(size = Country, linetype = Country)) +
         scale_size_manual(values = SIZE) +
         scale_linetype_manual(values = LINETYPE) +
         scale_x_continuous(breaks = 1927:1937) +
         scale_y_continuous(limits = c(0, 20)) +
         labs(title = "Annual Time Series Plot: Death Rates over Time", 
              subtitle = "Only Germany (DE) trends upward from 1927-37") +
         xlab("Year") + ylab("Crude Death Rate\n(per 1,000 population)");


#Create new data frame for differences
DATA_DIFF <- data.frame(Country = c("DE", "FR", "BE", "NL", "DEN", "CH", "AUT", "CZ", "PL"),
                        Change  = as.numeric(DATA_WIDE[11, 2:10] - DATA_WIDE[1, 2:10]));

#Create bar plot
PLOT2 <- ggplot(DATA_DIFF, aes(x = reorder(Country, - Change), y = Change, colour = Country, fill = Country)) + 
         geom_bar(stat = "identity") +
         labs(title = "Bar  Plot: Change in Death Rates from 1927-37", 
              subtitle = "Only Germany (DE) shows an increase in death rate") +
         xlab(NULL) + ylab("Change in crude Death Rate\n(per 1,000 population)");

यह निम्नलिखित भूखंडों की ओर जाता है:

यहाँ छवि विवरण दर्ज करें यहाँ छवि विवरण दर्ज करें

नोट: मुझे पता है कि ओपी ने 1932 से मृत्यु दर में परिवर्तन को उजागर करने का इरादा किया था, जब जर्मनी में प्रवृत्ति शुरू हुई थी। यह मुझे चेरी-पिकिंग जैसा लगता है, और मुझे यह संदिग्ध लगता है जब किसी विशेष प्रवृत्ति को प्राप्त करने के लिए समय अंतराल चुना जाता है। इस कारण मैंने पूरे डेटा रेंज पर अंतराल को देखा है, जो ओपी की तुलना में एक अलग है।


आपके सुझाव के लिए धन्यवाद। प्रारूप प्रगति में एक काम है, यह केवल एक मोटा उदाहरण था जिसे मैं प्राप्त करना चाहता था;)
PhDing

1
@ ग्रिड: अच्छी तरह से देखा (+1) - जब मेरे पास थोड़ा और समय होगा तो मैं संपादित करूँगा।
मोनिका

1
मुझे बार प्लॉट पसंद है, लेकिन वर्णानुक्रमिक एक्स-अक्ष के बजाय, मैं बदलाव के आधार पर छांटना चाहता हूं।
ग्रेगर

14

यद्यपि घोषित उद्देश्य परिवर्तनों को प्रदर्शित करना है , जाहिर है कि आप देश द्वारा वार्षिक समय श्रृंखला भी दिखाना चाहते हैं। यह पूरी तरह से ग्राफिक को फिर से परिभाषित करने का सुझाव नहीं देता, बल्कि इसे संशोधित करता है।

चूंकि एक परिवर्तन चिंता करता है कि एक वर्ष से दूसरे वर्ष तक क्या होता है, आप ग्राफिकल प्रतीकों द्वारा परिवर्तनों का प्रतिनिधित्व कर सकते हैं जो क्रमिक वर्षों में होते हैं: अर्थात्, लाइन खंड भूखंड में डेटा बिंदुओं को जोड़ने वाले ।

चूंकि रंग प्रतिष्ठित देशों के लिए बहुत उपयोगी है, और अन्यथा मात्रात्मक चर को इंगित करने में इतना अच्छा नहीं है, जो हमें अनिवार्य रूप से सिर्फ दो अन्य विशेषताओं के साथ छोड़ देता है जो परिवर्तन को इंगित करने के लिए विविध हो सकते हैं: खंडों की शैली और मोटाई। क्योंकि आपकी थीसिस सकारात्मक परिवर्तन की चिंता करती है, आप अधिक से अधिक वृद्धि के लिए लाइन सेगमेंट बनाना चाहेंगे: उनकी शैलियों को अधिक निरंतर होना चाहिए और उन्हें मोटा होना चाहिए।

अंत में, आपकी थीसिस 1932 के बाद के आंकड़ों की चिंता करती है। हम दूसरों के सापेक्ष ग्राफिक के उन तत्वों पर जोर देना चाहेंगे। जो कि रंग को संतृप्त करके किया जा सकता है।

भूखंड

यह समाधान तुरंत उन अंतर्दृष्टि प्रदान करता है जो मूल में स्पष्ट नहीं थे:

  • किसी भी देश ने 1932 के बाद सभी वर्षों के लिए मृत्यु दर में वार्षिक वृद्धि का अनुभव नहीं किया। ऐसा कोई भी देश निरंतर ठोस रेखा के रूप में दिखाई देगा, लेकिन कोई भी लाइन मौजूद नहीं है।

  • सभी देशों के लिए कारकों में से बहुत से बदलावों को जिम्मेदार ठहराया जाना चाहिए। यह ऊर्ध्वाधर स्तंभों के भीतर रेखा शैली और मोटाई की समानता में स्पष्ट है। उदाहरण के लिए, 1934-35 की अवधि के दौरान लगभग सभी देशों में मृत्यु दर में वृद्धि हुई, जहां 1933-34 में वे लगभग सभी देशों में घट गए।

  • 1932-33 में मृत्यु दर में बड़ी वृद्धि का अनुभव करने के लिए जर्मनी असामान्य था और 1935-36 में मामूली वृद्धि भी।

ये इस अवधि के दौरान यूरोपीय देशों के सापेक्ष प्रदर्शन में और अधिक गहराई से प्रवेश करने के लिए, संभवतः मध्ययुगीन पॉलिश द्वारा, मृत्यु दर बनाम देश में बदलाव का एक मजबूत दो-तरफा अन्वेषण करने का सुझाव देते हैं ।

यदि आप केवल 1937 और 1932 के बीच के अंतर पर जोर देना चाहते हैं, तो एक समान तकनीक का उपयोग उन तिथियों के बीच रास्तों के अंशों को दर्शाने के लिए किया जा सकता है। जर्मनी बाहर खड़ा होगा:

प्लॉट २


10

Slopegraphs

एक तरह से आप अपने डेटा को पेश हो सकता है कि एक slopegraph जो की तुलना में परिवर्तन या ढ़ाल के लिए विशेष रूप से अच्छा (: कुछ लिंक है उपयोग कर रहा है 1 2 )

नीचे है

  • बाईं ओर एक ढलान का एक उदाहरण है जो दिखाता है कि यह आपके मामले के लिए कैसा दिखता है।

  • केंद्र में एक अधिक जटिल ढलान है जो वर्ष 1932 को भी दर्शाता है

  • स्लोपग्राफ की सही विविधता पर, एक प्रकार की स्पार्कलाइन, जहां सभी डेटा दिखाए जाते हैं (जिसका अर्थ है कोई सीधी रेखाएं नहीं)।

मुझे यकीन नहीं है कि कौन सा सबसे अच्छा है। तीसरा / सही विकल्प साल-दर-साल विविधताओं के बारे में एक मजबूत विचार प्रदान करता है (और उदाहरण के लिए यह अधिक दृश्यमान हो जाता है कि डेनमार्क बनाम जर्मनी इतना अलग नहीं दिखता है और यह साल-दर-साल बहुत ऊपर और नीचे जा रहा है) लेकिन यह कर सकता है विचलित होना (विशेषकर 1929 शिखर)। तो जो एक बेहतर है वह इस बात पर निर्भर करता है कि आप ग्राफ के साथ क्या बताना चाहते हैं और आपकी कहानी को कितना विस्तार देना है (उदाहरण के लिए 1932 के आस-पास की सरकार जो दूसरे / मध्य विकल्प में अधिक स्पष्ट है)।

दायीं ओर ढलान के बदलाव Xan द्वारा ग्राफ की तरह दिखता है। हालांकि, शैलीगत मतभेदों के अलावा एक और महत्वपूर्ण अंतर है। आकृति की चौड़ाई और ऊंचाई ऐसी चुनी जाती है कि घटता का कोण 45 डिग्री के करीब हो। इस तरह से अंतर अधिक साल्ट हैं (मेरा मानना ​​है कि सबसे अच्छा उदाहरण एडवर्ड टफटे द्वारा सनस्पॉट उदाहरण है )

ढलान ग्राफ और एक भिन्नता

अधिक संदर्भ

यदि आप सरल स्लोपग्राफ की तुलना में अधिक जटिलता जोड़ना चाहते हैं, तो मेरा मानना ​​है कि रेंज के अंदर 1927-1937 के बाहर अधिक डेटा दिखाना वास्तव में बेहतर है । (फिर विज़ुअल डिस्प्ले ऑफ़ क्वांटिटिव इंफॉर्मेशन के पेज 74-75 के टफेट का एक उदाहरण आप इस पेज के माध्यम से अपनी वेबसाइट पर बुलेटिन बोर्ड पर प्राप्त कर सकते हैं )

वर्ष 1900-2000 के लिए डेटा दिखाता है नीचे दिए गए उदाहरण (पोलैंड जिसका डेटा है छोड़कर थोड़ा मुश्किल) विकिपीडिया से निकाला (जैसे चेक गणराज्य के लिए इस पेज ) और स्विट्जरलैंड और नीदरलैंड के लिए आंकड़े (के अपने राष्ट्रीय ब्यूरो BFS और Statline )।

(डेटा आप से थोड़ा अलग है, लेकिन उदाहरण के लिए "जोर्ज बैटन और एंड्रिया वैगनर द्वारा नाज़ी जर्मनी, 1933-1937 में मृत्यु दर और पोषण संबंधी संकट:" ऑटार्सी, बाज़ार विघटन और स्वास्थ्य: "यह लेख दिलचस्प है। पढ़ने के लिए चूंकि वे सिर्फ कच्चे मृत्यु दर की तुलना में कई अधिक डेटा प्रदान करते हैं, हालांकि वे खुद को एक छोटी अवधि तक सीमित रखते हैं। विशेष रूप से दिलचस्प यह है कि मृत्यु दर में वृद्धि, 1932 से 1937 तक, फ्रैंकफर्ट से ब्रेमेन तक एक पट्टी में शहरों के बीच मुख्य रूप से मौजूद थी। और हैम्बर्ग)

अधिक संदर्भ

मेरा मानना ​​है कि यह ग्राफ महत्वपूर्ण है क्योंकि यह दर्शाता है कि जर्मनी ने 1932 के बाद वृद्धि से पहले बहुत मजबूत गिरावट दर्ज की। अन्य देशों की तुलना में मजबूत। तो आप नकारात्मक और सकारात्मक व्याख्या कर सकते हैं। जर्मनी की मृत्यु दर 1932-1937 के बीच अन्य देशों की तुलना में अधिक हो रही थी, लेकिन क्या यह (1) कम शिखर से दूर था, या (2) उच्च शिखर की ओर बढ़ रहा था? इस संबंध में एक दिलचस्प पहलू यह है कि १०. a level का १ ९ ३२ का स्तर जर्मनी के लिए बहुत निम्न स्तर है (इस बिंदु पर केवल नीदरलैंड में मृत्यु दर कम थी)। यह न केवल 1937 तक के वर्षों के लिए सबसे निचला स्तर है, बल्कि यह 10.8 के इस स्तर तक पहुंचने से पहले 1995 तक भी है।

एक अन्य बिंदु, स्वास्थ्य से संबंधित (यदि यह आपका संदर्भ है) जीवन प्रत्याशा की तुलना करना बेहतर हो सकता है, जनसंख्या की जनसांख्यिकीय संरचना का मृत्यु दर पर प्रभाव पड़ता है, जो स्वास्थ्य की स्थिति में बदलाव से स्वतंत्र है।

थोड़ा कम अतिरिक्त संदर्भ

उपरोक्त ग्राफ समग्रता को दर्शाता है लेकिन अधिकांश उद्देश्यों के लिए एक ओवरकिल हो सकता है (इस पोस्ट को छोड़कर जहां मैं पूरे इतिहास को दिखाना चाहता था और यह एक खोजपूर्ण उद्देश्य के लिए अधिक है)। नीचे दिया गया ग्राफ़ एक विकल्प है, जो मेरा मानना ​​है कि अभी भी सभ्य है।

छोटे संदर्भ ग्राफ


आपके सभी सुझावों के लिए धन्यवाद। मुझे लगता है कि आपके द्वारा प्रदान की गई ढलान बहुत सहज हैं। मुझे यकीन है कि एक लंबी समयावधि सहित यह उपयोगी होगा लेकिन हम इस विशिष्ट अवधि पर ध्यान केंद्रित करना चाहते हैं और इसे स्पष्ट करना चाहते हैं। मुझे लगता है कि 1900-2000 की साजिश थोड़ी गड़बड़ होगी। आपके अंतिम बिंदु के बारे में, हमने मृत्यु दर का उपयोग करने के लिए क्रूड दरों को समायोजित किया।
PhDing

1
@Alessandro मैंने एक विकल्प जोड़ा है जो अधिक व्यावहारिक है। फिर से संख्या अलग-अलग है क्योंकि मैंने विभिन्न स्रोतों (उम्र समायोजित नहीं) का उपयोग किया है, लेकिन मुझे लगता है कि जर्मनी की मजबूत गिरावट के बाद मजबूत वृद्धि समान हो सकती है।
सेक्स्टस एम्पिरिकस

4

दर्शकों पर निर्भर करता है, लेकिन मैं चीजों को सरल बनाऊंगा:

यहाँ छवि विवरण दर्ज करें

फिर कैप्शन में इसे बाहर वर्तनी जैसे

1932-37 से, जर्मनी में वार्षिक मृत्यु दर में वृद्धि हुई, जबकि यह पूरे मध्य यूरोप (फ्रांस, बेल्जियम, नीदरलैंड, डेनमार्क, ऑस्ट्रिया, चेक गणराज्य, पोलैंड) में गिर गया।

(बीटीडब्ल्यू क्या है बनाम बनाम सीजे यानी कि मैं किस देश से ऊपर गायब हूं?)

पूरी तरह से होने के लिए, आपको निश्चित रूप से वजन करना होगा death rate से जनसंख्या का अनुमान लगाकर जब 'अन्य' के लिए 'पूलिंग' होगी, लेकिन मुझे यकीन है कि यह जानकारी आपके लिए आसानी से उपलब्ध है।

अद्यतन 6/9/18: यह निश्चित रूप से एक 'खिलौना' स्केच है और डेटा से प्राप्त नहीं किया गया था; विचार यह है कि ग्राफ को जिस रूप में लेना चाहिए, उसका एक मोटा ड्राफ्ट प्रदान करना है।

हेyहेमैं=1 ... 88×

हेyमैं=Σमैं=8मैं=1डीआरyमैंपीपीयूएलटीमैंnमैंटीटीएलपीपीयूएलटीमैंn

या बेहतर, अगर आपके पास जनसंख्या की जानकारी है। प्रत्येक वर्ष के लिए:

हेyमैं=Σमैं=8मैं=1डीआरyमैंपीपीयूएलटीमैंnyमैंटीटीएलपीपीयूएलटीमैंny

पाठकों के आधार पर (उदाहरण के लिए महामारी विज्ञानियों बनाम इतिहासकारों) एक मानक विचलन या मानक त्रुटि को उत्तरार्द्ध में जोड़ा जा सकता है, हालांकि मुझे लगता है कि यह कथानक के सरल स्वरूप को खराब करेगा।


5
chस्विट्जरलैंड है। (और BTW, यह 30 के दशक में अभी तक चेक गणराज्य नहीं था।) - मुझे आपके दृष्टिकोण के बारे में पसंद नहीं है कि यह स्पष्ट नहीं है कि नीचे की ओर की प्रवृत्ति अन्य देशों के माध्यम से सुसंगत है। ऐसा प्रतीत हो सकता है जैसे कि कुछ यादृच्छिक-ईश उतार-चढ़ाव हैं जो औसतन दूसरे देशों में कुछ नकारात्मक करने के लिए होते हैं, लेकिन जर्मनी में सकारात्मक रूप से सामने आते हैं।
लेफ्टरनैबाउट

मुझे यह उत्तर पसंद है, लेकिन मैं 'अन्य' लाइन के चारों ओर सीमा या मानक विचलन का एक दृश्य जोड़ सकता हूं, अन्यथा इसका मतलब धोखा हो सकता है।
19os में टैसोस पापस्टीलियनौ

2
मुझे यह विचार बहुत पसंद है - लेकिन क्या आप यह समझा सकते हैं कि आपने "दूसरों" की मृत्यु दर कैसे निर्धारित की? उनकी दरों के अंकगणितीय साधन व्यापक रूप से बदलती आबादी के कारण उपयुक्त नहीं होंगे, जो वे प्रतिनिधित्व करते हैं।
whuber

3

यदि आप बदलाव को उजागर करना चाहते हैं, तो शायद इस बात की गणना करें और उसे प्रदर्शित करें। परिवर्तनों को प्रदर्शित करने के लिए एक हीटमैप का उपयोग करना उपयोगी हो सकता है क्योंकि यह तुलनाओं को ओवरप्लेटिंग मुद्दों के बिना किए जाने की अनुमति देता है और लाइन ग्राफ़ से आ सकने वाले प्रक्षेप मुद्दों से बचा जाता है।

dआर में अपने डेटा का उपयोग करना :

library(tidyverse)
d2 <- data.frame(apply(d[-1],2,diff))
d2$year <- d$year[-1]
d2 %>% gather(key="country",value=deathrate,-year) %>% 
   ggplot(aes(x=factor(year),y=country,fill=deathrate)) + 
   geom_tile() + 
   scale_fill_gradient2("\u0394 deathrate")

हीटमैप

ध्यान दें कि डेटा पिछले वर्ष से बदल रहा है। आप देख सकते हैं कि जर्मनी के पास 1932 के बाद ब्लूज़ (मृत्यु दर में वृद्धि) का एक समूह है जो अन्य देशों के पास नहीं है। आप यह भी देख सकते हैं कि 1934 और 1935 के बीच पोलैंड को छोड़कर सभी देशों में मृत्यु दर में वृद्धि देखी गई, लेकिन जर्मनी का रुझान 1932-1933 और 1935-1936 (साथ ही साथ 1927-1928) तक दिख रहा है।

एक दिलचस्प विशेषता यह तथ्य है कि रंग दाएं की तुलना में बाईं ओर अधिक तीव्र हैं। इसका अर्थ है कि परिवर्तनों की भयावहता अवधि की शुरुआत में अधिक थी, और अंत की ओर अधिक मौन थी।

मैं एक रेखा ग्राफ के साथ इसे बाँधने की सलाह दूंगा जो स्तरों को भी दिखा रहा है।


2

यहां मैं आपको पिछले वर्ष के संबंध में प्रति 1000 निवासियों पर मृत्यु के अनुपात के लघुगणक का अंतर दिखाता हूं (इसलिए 1927 नहीं दिखाया गया है)। जर्मनी को लाल रंग में दिखाया गया है जबकि अन्य देशों के औसत को मोटी काली रेखा में दिखाया गया है।

यहाँ छवि विवरण दर्ज करें

जर्मनी में 10 में से 5 वर्षों में अनुपात में वृद्धि हुई थी। 1932 के बाद यह 1937 तक अन्य देशों (और ज्यादातर सकारात्मक) के औसत से ऊपर था।

यद्यपि लघुगणक क्यों? कारण सरल है: 1000 से 999 तक परिवर्तन की तुलना में 2 से 1 तक का परिवर्तन अधिक कठोर है :)


कोड:

x = read.table("clipboard", header = TRUE, dec = ".")
xl = log(x[-1])
xd = apply(xl, 2L, diff)

png("CVquestion.png")
plot(0,0, xlim = range(x[-1,1]), ylim = range(xd), type = "n", ylab = "", main = "Difference of the log(death rate per 1000 inhab.)", xlab = "year")
grid()
for (i in rev(seq(ncol(xl)))) lines(x[-1,1], xd[,i], type = "o", col = adjustcolor(ifelse(i == 1, 2, 1), 0.7), lwd = ifelse(i == 1, 2, 1), lty = ifelse(i == 1, 1, 2), pch = ifelse(i == 1,16,NA))
lines(x[-1,1], rowMeans(xd[,-1]), type = "o", col = adjustcolor(1, 0.7), lwd = 2, lty = 1, pch = 16)

text(x = 1937, y = rev(xd[10,]), label = rev(colnames(xd)), col = rev(c(2, rep(1,8))))
dev.off()

2
ओपी मृत्यु दर के बारे में बात करता है न कि हत्या की दर
kjetil b halvorsen

@kjetilbhalvorsen Ooops, ऐसा तब होता है जब आप दिन में 9 बजे डेटा विज़ुअलाइज़ेशन ater में कोशिश करते हैं जो आप सुबह 8 बजे से काम कर रहे हैं। ASAP को ठीक करेगा, सिर ऊपर करने के लिए धन्यवाद :)
Firebug

1

एक और संस्करण: अनुपात (1927 से वर्तमान वर्ष की मृत्यु दर) (/ मृत्यु दर 1927)

यहाँ छवि विवरण दर्ज करें

Mathematica कोड के साथ किया

data = {
 {year,   de,   fr,   be,   nl,  den,   ch,  aut,   cz,   pl},
 {1927, 10.9, 16.5, 13.0, 10.2, 11.6, 12.4, 15.0, 16.0, 17.3},
 {1928, 11.2, 16.4, 12.8,  9.6, 11.0, 12.0, 14.5, 15.1, 16.4},
 {1929, 11.4, 17.9, 14.4, 10.7, 11.2, 12.5, 14.6, 15.5, 16.7},
 {1930, 10.4, 15.6, 12.8,  9.1, 10.8, 11.6, 13.5, 14.2, 15.6},
 {1931, 10.4, 16.2, 12.7,  9.6, 11.4, 12.1, 14.0, 14.4, 15.5},
 {1932, 10.2, 15.8, 12.7,  9.0, 11.0, 12.2, 13.9, 14.1, 15.0},
 {1933, 10.8, 15.8, 12.7,  8.8, 10.6, 11.4, 13.2, 13.7, 14.2},
 {1934, 10.6, 15.1, 11.7,  8.4, 10.4, 11.3, 12.7, 13.2, 14.4},
 {1935, 11.4, 15.7, 12.3,  8.7, 11.1, 12.1, 13.7, 13.5, 14.0},
 {1936, 11.7, 15.3, 12.2,  8.7, 11.0, 11.4, 13.2, 13.3, 14.2},
 {1937, 11.5, 15.0, 12.5,  8.8, 10.8, 11.3, 13.3, 13.3, 14.0}
}

ListPlot[
 Map[
  Table[{First[data[[k + 1]]], Mean[Take[#, k]]/First[#]}, {k, Length[#]}] &,
  Map[Rest, Rest[Transpose[data]]]
 ],
 Joined -> True,
 PlotRange -> All,
 Frame -> True,
 FrameTicks -> {Map[First, Rest[data]], Automatic},
 PlotLabels -> Rest[First[data]],
 AxesOrigin -> {First[First[Rest[data]]], 1} 
]

(1929 में चोटियां एक फ्लू महामारी से संबंधित लगती हैं जो उस समय के आसपास हुई थीं)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.