पंडों का विलय 101


362
  • पंडों के साथ एक ( LEFT| | RIGHT| FULL) ( INNER| OUTER) कैसे करें ?
  • मर्ज के बाद लापता पंक्तियों के लिए मैं NaN कैसे जोड़ूं?
  • विलय के बाद मुझे NaN से कैसे छुटकारा मिलेगा?
  • क्या मैं सूचकांक में विलय कर सकता हूं?
  • पंडों के साथ क्रॉस ज्वाइन?
  • मैं एकाधिक डेटाफ़्रेम को कैसे मर्ज करूं?
  • merge? join? concat? update? Who? क्या? क्यों?!

... और अधिक। मैंने इन आवर्ती प्रश्नों को पांडा के मर्ज कार्यक्षमता के विभिन्न पहलुओं के बारे में पूछते हुए देखा है। मर्ज और इसके विभिन्न उपयोग के मामलों के बारे में अधिकांश जानकारी आज दर्जनों बुरी तरह से शब्द-विहीन, अनुपयोगी पोस्टों में खंडित है। यहाँ उद्देश्य के लिए कुछ और महत्वपूर्ण बिंदुओं को टालना है।

यह QnA सामान्य पांडा पांडा मुहावरों पर सहायक उपयोगकर्ता-मार्गदर्शकों की एक श्रृंखला में अगली किस्त के रूप में माना जाता है ( इस पोस्ट को पिवट पर देखें , और इस पोस्ट को कॉनटेनटेशन पर , जिसे मैं बाद में स्पर्श करूंगा)।

कृपया ध्यान दें कि यह पोस्ट प्रलेखन के लिए एक प्रतिस्थापन नहीं है , इसलिए कृपया इसे भी पढ़ें! कुछ उदाहरण वहां से लिए गए हैं।

जवाबों:


517

इस पोस्ट का उद्देश्य पाठकों को SQL- फ्लेवर्ड मर्जिंग के साथ पंडों के साथ एक प्राइमर देना है कि इसका उपयोग कैसे करना है, और जब इसका उपयोग नहीं करना है।

विशेष रूप से, यहाँ इस पोस्ट के माध्यम से जाना जाएगा:

  • मूल बातें - जुड़ने के प्रकार (LEFT, RIGHT, OUTER, INNER)

    • विभिन्न कॉलम नामों के साथ विलय
    • आउटपुट में डुप्लिकेट मर्ज कुंजी कॉलम से बचना
  • विभिन्न परिस्थितियों में सूचकांक के साथ विलय
    • प्रभावी रूप से अपने नामित सूचकांक का उपयोग कर
    • एक के सूचकांक और दूसरे के कॉलम के रूप में मर्ज करें
  • कॉलम और इंडेक्स पर मल्टीवे मर्ज (अद्वितीय और गैर-अद्वितीय)
  • के उल्लेखनीय विकल्प mergeऔरjoin

इस पोस्ट के माध्यम से नहीं जाना होगा:

  • प्रदर्शन-संबंधित चर्चा और समय (अब के लिए)। जहाँ भी उपयुक्त हो, बेहतर विकल्पों के ज्यादातर उल्लेखनीय उल्लेख।
  • प्रत्यय संभालना, अतिरिक्त कॉलम हटाना, आउटपुट का नाम बदलना, और अन्य विशिष्ट उपयोग के मामले। अन्य (पढ़ें: बेहतर) पोस्ट हैं जो इससे निपटते हैं, इसलिए इसे समझें!

नोट:
जब तक अन्यथा निर्दिष्ट न हो, तब तक विभिन्न विशेषताओं को प्रदर्शित करते हुए INNER JOIN संचालन के लिए डिफ़ॉल्ट अधिकांश उदाहरण।

इसके अलावा, यहां सभी डेटाफ़्रेमों को कॉपी और दोहराया जा सकता है ताकि आप उनके साथ खेल सकें। इसके अलावा, इस पोस्ट को अपने क्लिपबोर्ड से डेटाफ़्रेम को पढ़ने के तरीके के बारे में देखें।

अंत में, Google ड्रॉइंग का उपयोग करते हुए JOIN संचालन के सभी दृश्य प्रतिनिधित्व को हाथ से तैयार किया गया है। यहां से प्रेरणा मिली ।

बस बात करो, मुझे दिखाओ कि कैसे उपयोग करना है merge!

सेट अप

np.random.seed(0)
left = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': np.random.randn(4)})    
right = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': np.random.randn(4)})

left

  key     value
0   A  1.764052
1   B  0.400157
2   C  0.978738
3   D  2.240893

right

  key     value
0   B  1.867558
1   D -0.977278
2   E  0.950088
3   F -0.151357

सरलता के लिए, कुंजी कॉलम का एक ही नाम है (अभी के लिए)।

एक INNER JOIN द्वारा दर्शाया गया है

ध्यान दें
, आगामी आंकड़ों के साथ सभी इस सम्मेलन का अनुसरण करते हैं:

  • नीला, उन पंक्तियों को इंगित करता है जो मर्ज परिणाम में मौजूद होती हैं
  • लाल उन पंक्तियों को इंगित करता है जिन्हें परिणाम से बाहर रखा गया है (यानी, हटाया गया)
  • ग्रीन लापता मानों को इंगित करता है जिन्हें परिणाम में NaNs के साथ बदल दिया जाता है

INNER JOIN करने के लिए, mergeबाएं DataFrame पर कॉल करें , सही DataFrame और तर्क कुंजी में (बहुत कम से कम) तर्कों के रूप में निर्दिष्ट करें।

left.merge(right, on='key')
# Or, if you want to be explicit
# left.merge(right, on='key', how='inner')

  key   value_x   value_y
0   B  0.400157  1.867558
1   D  2.240893 -0.977278

इससे केवल पंक्तियाँ लौटती हैं leftऔर rightजो एक सामान्य कुंजी साझा करती हैं (इस उदाहरण में, "बी" और "डी)।"

एक LEFT OUTER JOIN , या LEFT JOIN द्वारा दर्शाया गया है

यह निर्दिष्ट करके प्रदर्शन किया जा सकता है how='left'

left.merge(right, on='key', how='left')

  key   value_x   value_y
0   A  1.764052       NaN
1   B  0.400157  1.867558
2   C  0.978738       NaN
3   D  2.240893 -0.977278

यहां NaNs के प्लेसमेंट पर ध्यान दें। यदि आप निर्दिष्ट करते हैं how='left', तो केवल कुंजी leftका उपयोग किया जाता है, और लापता डेटा को rightNaN से बदल दिया जाता है।

और इसी तरह, राइट ऑउट जॉइन के लिए , या राइट जॉइन जो है ...

... निर्दिष्ट करें how='right':

left.merge(right, on='key', how='right')

  key   value_x   value_y
0   B  0.400157  1.867558
1   D  2.240893 -0.977278
2   E       NaN  0.950088
3   F       NaN -0.151357

यहां, कुंजियों rightका उपयोग किया जाता है, और अनुपलब्ध डेटा को leftNaN से बदल दिया जाता है।

अंत में, फुल ऑर्ट जॉइन के लिए , द्वारा दिया गया

निर्दिष्ट करें how='outer'

left.merge(right, on='key', how='outer')

  key   value_x   value_y
0   A  1.764052       NaN
1   B  0.400157  1.867558
2   C  0.978738       NaN
3   D  2.240893 -0.977278
4   E       NaN  0.950088
5   F       NaN -0.151357

यह दोनों फ़्रेमों से कुंजियों का उपयोग करता है, और NaN दोनों में लापता पंक्तियों के लिए डाला जाता है।

प्रलेखन इन विभिन्न मर्जों को संक्षेप में प्रस्तुत करता है:

यहां छवि विवरण दर्ज करें

अन्य जॉइन - LEFT- एक्सक्लूसिविंग, राइट-एक्सक्लूसिविंग, और फुल-एक्सक्लूडिंग / ANTI जॉइस

अगर आपको दो चरणों में LEFT-Excluding JOINs और RIGHT-Excluding JOINs की आवश्यकता है।

LEFT- बहिष्कृत JOIN के लिए, के रूप में प्रतिनिधित्व किया

leftकेवल एक से आने वाली पंक्तियों को छोड़ कर और फिर फ़िल्टर करके ( केवल !) पंक्तियों को फ़िल्टर करके प्रारंभ करें

(left.merge(right, on='key', how='left', indicator=True)
     .query('_merge == "left_only"')
     .drop('_merge', 1))

  key   value_x  value_y
0   A  1.764052      NaN
2   C  0.978738      NaN

कहाँ पे,

left.merge(right, on='key', how='left', indicator=True)

  key   value_x   value_y     _merge
0   A  1.764052       NaN  left_only
1   B  0.400157  1.867558       both
2   C  0.978738       NaN  left_only
3   D  2.240893 -0.977278       both

और इसी तरह, एक सही-बहिष्कृत जॉय के लिए,

(left.merge(right, on='key', how='right', indicator=True)
     .query('_merge == "right_only"')
     .drop('_merge', 1))

  key  value_x   value_y
2   E      NaN  0.950088
3   F      NaN -0.151357

अंत में, यदि आपको एक मर्ज करने की आवश्यकता होती है जो केवल बाईं या दाईं ओर से चाबियाँ रखता है, लेकिन दोनों नहीं (IOW, एक ANTI-JOIN का प्रदर्शन करते हुए )

आप इसे इसी तरह से कर सकते हैं-

(left.merge(right, on='key', how='outer', indicator=True)
     .query('_merge != "both"')
     .drop('_merge', 1))

  key   value_x   value_y
0   A  1.764052       NaN
2   C  0.978738       NaN
4   E       NaN  0.950088
5   F       NaN -0.151357

कुंजी कॉलम के लिए अलग-अलग नाम

प्रमुख कॉलम नामित रहे हैं, तो अलग ढंग से-उदाहरण के लिए, leftहै keyLeft, और rightहै keyRightके बजाय keyआपके द्वारा निर्दिष्ट करना होगा -तो left_onऔर right_onबजाय तर्क के रूप में on:

left2 = left.rename({'key':'keyLeft'}, axis=1)
right2 = right.rename({'key':'keyRight'}, axis=1)

left2

  keyLeft     value
0       A  1.764052
1       B  0.400157
2       C  0.978738
3       D  2.240893

right2

  keyRight     value
0        B  1.867558
1        D -0.977278
2        E  0.950088
3        F -0.151357

left2.merge(right2, left_on='keyLeft', right_on='keyRight', how='inner')

  keyLeft   value_x keyRight   value_y
0       B  0.400157        B  1.867558
1       D  2.240893        D -0.977278

आउटपुट में डुप्लिकेट कुंजी कॉलम से बचना

जब पर विलय keyLeftसे leftऔर keyRightसे right, यदि आप केवल या तो की चाहते हैं keyLeftया keyRightउत्पादन में (लेकिन दोनों नहीं), तो आपको एक प्रारंभिक चरण के रूप में सूचकांक की स्थापना द्वारा शुरू कर सकते हैं।

left3 = left2.set_index('keyLeft')
left3.merge(right2, left_index=True, right_on='keyRight')

    value_x keyRight   value_y
0  0.400157        B  1.867558
1  2.240893        D -0.977278

इसके विपरीत कमांड के आउटपुट से ठीक पहले (thst is, output left2.merge(right2, left_on='keyLeft', right_on='keyRight', how='inner')) है, आप देखेंगे keyLeftकि गायब है। आप यह पता लगा सकते हैं कि किस फ्रेम के इंडेक्स को कुंजी के रूप में सेट किया गया है, इसके आधार पर क्या कॉलम रखें। यह बात तब हो सकती है, जब कुछ OUTER JOIN ऑपरेशन करते हुए कहें।

किसी एक में से केवल एक कॉलम जोड़ना DataFrames

उदाहरण के लिए, विचार करें

right3 = right.assign(newcol=np.arange(len(right)))
right3
  key     value  newcol
0   B  1.867558       0
1   D -0.977278       1
2   E  0.950088       2
3   F -0.151357       3

यदि आपको केवल "new_val" (किसी भी अन्य कॉलम के बिना) को मर्ज करने की आवश्यकता है, तो आप आमतौर पर विलय के लिए केवल सब्मिट कर सकते हैं:

left.merge(right3[['key', 'newcol']], on='key')

  key     value  newcol
0   B  0.400157       0
1   D  2.240893       1

यदि आप एक LEUT OUTER JOIN कर रहे हैं, तो एक अधिक प्रभावी समाधान शामिल होगा map:

# left['newcol'] = left['key'].map(right3.set_index('key')['newcol']))
left.assign(newcol=left['key'].map(right3.set_index('key')['newcol']))

  key     value  newcol
0   A  1.764052     NaN
1   B  0.400157     0.0
2   C  0.978738     NaN
3   D  2.240893     1.0

जैसा कि उल्लेख किया गया है, यह समान है, लेकिन इससे भी तेज है

left.merge(right3[['key', 'newcol']], on='key', how='left')

  key     value  newcol
0   A  1.764052     NaN
1   B  0.400157     0.0
2   C  0.978738     NaN
3   D  2.240893     1.0

कई कॉलम पर विलय

एक से अधिक स्तंभ पर शामिल होने के लिए, के लिए एक सूची निर्दिष्ट on(या left_onऔर right_on, उचित रूप में)।

left.merge(right, on=['key1', 'key2'] ...)

या, घटना में नाम अलग हैं,

left.merge(right, left_on=['lkey1', 'lkey2'], right_on=['rkey1', 'rkey2'])

अन्य उपयोगी merge*संचालन और कार्य

  • अनुक्रमणिका पर श्रृंखला के साथ डेटाफ़्रेम मर्ज करना : यह उत्तर देखें ।
  • इसके अलावा merge, DataFrame.updateऔर DataFrame.combine_firstभी दूसरे के साथ एक DataFrame अद्यतन करने के लिए कुछ मामलों में किया जाता है।

  • pd.merge_ordered आदेशित JOIN के लिए एक उपयोगी कार्य है।

  • pd.merge_asof(read: merge_asOf) अनुमानित जोड़ के लिए उपयोगी है ।

यह खंड केवल बहुत मूल बातें शामिल करता है, और केवल आपकी भूख को बढ़ाने के लिए डिज़ाइन किया गया है। अधिक उदाहरण और मामलों के लिए, देखें पर प्रलेखन merge, joinऔरconcat साथ ही समारोह चश्मा लिंक के रूप में।


सूचकांक आधारित * -JOIN (+ सूचकांक-स्तंभ merges)

सेट अप

np.random.seed([3, 14])
left = pd.DataFrame({'value': np.random.randn(4)}, index=['A', 'B', 'C', 'D'])    
right = pd.DataFrame({'value': np.random.randn(4)}, index=['B', 'D', 'E', 'F'])
left.index.name = right.index.name = 'idxkey'

left
           value
idxkey          
A      -0.602923
B      -0.402655
C       0.302329
D      -0.524349

right

           value
idxkey          
B       0.543843
D       0.013135
E      -0.326498
F       1.385076

आमतौर पर, सूचकांक पर एक मर्ज इस तरह दिखेगा:

left.merge(right, left_index=True, right_index=True)


         value_x   value_y
idxkey                    
B      -0.402655  0.543843
D      -0.524349  0.013135

सूचकांक नामों के लिए समर्थन

अपने सूचकांक के नाम पर है, तो v0.23 उपयोगकर्ताओं की भी स्तर नाम निर्दिष्ट कर सकते हैं on(या left_onऔर right_onआवश्यक के रूप में)।

left.merge(right, on='idxkey')

         value_x   value_y
idxkey                    
B      -0.402655  0.543843
D      -0.524349  0.013135

एक के सूचकांक पर विलय, दूसरे के कॉलम (एस)

मर्ज करने के लिए एक के सूचकांक और दूसरे के कॉलम का उपयोग करना (और काफी सरल) संभव है। उदाहरण के लिए,

left.merge(right, left_on='key1', right_index=True)

या इसके विपरीत ( right_on=...और left_index=True)।

right2 = right.reset_index().rename({'idxkey' : 'colkey'}, axis=1)
right2

  colkey     value
0      B  0.543843
1      D  0.013135
2      E -0.326498
3      F  1.385076

left.merge(right2, left_index=True, right_on='colkey')

    value_x colkey   value_y
0 -0.402655      B  0.543843
1 -0.524349      D  0.013135

इस विशेष मामले में, के लिए इंडेक्स leftका नाम दिया गया है, इसलिए आप इंडेक्स नाम का उपयोग left_onइस तरह भी कर सकते हैं :

left.merge(right2, left_on='idxkey', right_on='colkey')

    value_x colkey   value_y
0 -0.402655      B  0.543843
1 -0.524349      D  0.013135

DataFrame.join
इनके अलावा, एक और रसीला विकल्प है। आप DataFrame.joinसूचकांक में शामिल होने के लिए कौन सी चूक का उपयोग कर सकते हैं । DataFrame.joinडिफ़ॉल्ट रूप से एक बाईं ओर शामिल है, तो how='inner'यहाँ आवश्यक है।

left.join(right, how='inner', lsuffix='_x', rsuffix='_y')

         value_x   value_y
idxkey                    
B      -0.402655  0.543843
D      -0.524349  0.013135

ध्यान दें कि मुझे यह निर्दिष्ट करने के लिए तर्क lsuffixऔर rsuffixतर्क देने की आवश्यकता है कि joinअन्यथा त्रुटि होगी:

left.join(right)
ValueError: columns overlap but no suffix specified: Index(['value'], dtype='object')

चूंकि कॉलम के नाम समान हैं। यह एक समस्या नहीं होगी अगर उन्हें अलग नाम दिया गया।

left.rename(columns={'value':'leftvalue'}).join(right, how='inner')

        leftvalue     value
idxkey                     
B       -0.402655  0.543843
D       -0.524349  0.013135

pd.concat
अंत में, इंडेक्स-आधारित जॉइन के विकल्प के रूप में, आप इसका उपयोग कर सकते हैं pd.concat:

pd.concat([left, right], axis=1, sort=False, join='inner')

           value     value
idxkey                    
B      -0.402655  0.543843
D      -0.524349  0.013135

join='inner'यदि आपको पूर्ण OOO JOIN (डिफ़ॉल्ट) चाहिए तो Omit :

pd.concat([left, right], axis=1, sort=False)

      value     value
A -0.602923       NaN
B -0.402655  0.543843
C  0.302329       NaN
D -0.524349  0.013135
E       NaN -0.326498
F       NaN  1.385076

अधिक जानकारी के लिए, इस कैनोनिकल पोस्ट को pd.concat@piRSquared द्वारा देखें


सामान्यीकरण: mergeकई डेटाफ़्रेम का अंतर्ग्रहण करें

अक्सर, स्थिति तब पैदा होती है जब कई डेटाफ़्रेम को एक साथ मर्ज किया जाना होता है। Naively, यह mergeकॉल को चैन करके किया जा सकता है :

df1.merge(df2, ...).merge(df3, ...)

हालाँकि, यह कई डेटाफ़्रेम के लिए जल्दी से हाथ से निकल जाता है। इसके अलावा, डेटाफ्रैम की एक अज्ञात संख्या के लिए सामान्यीकरण करना आवश्यक हो सकता है।

यहां मैं अनूठी कुंजियों pd.concatपर मल्टी-वे जॉइन के लिए परिचय देता हूं , और गैर-यूनीक कुंजी पर मल्टी-वे जॉइन के लिए । सबसे पहले, सेटअप।DataFrame.join

# Setup.
np.random.seed(0)
A = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'valueA': np.random.randn(4)})    
B = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'valueB': np.random.randn(4)})
C = pd.DataFrame({'key': ['D', 'E', 'J', 'C'], 'valueC': np.ones(4)})
dfs = [A, B, C] 

# Note, the "key" column values are unique, so the index is unique.
A2 = A.set_index('key')
B2 = B.set_index('key')
C2 = C.set_index('key')

dfs2 = [A2, B2, C2]

अद्वितीय कुंजियों (या अनुक्रमणिका) पर मल्टीवे मर्ज

यदि आपकी चाबियाँ (यहां, कुंजी या तो एक कॉलम या इंडेक्स हो सकती है) अद्वितीय हैं, तो आप उपयोग कर सकते हैं pd.concat। ध्यान दें कि pd.concatइंडेक्स पर DataFrames जुड़ता है

# merge on `key` column, you'll need to set the index before concatenating
pd.concat([
    df.set_index('key') for df in dfs], axis=1, join='inner'
).reset_index()

  key    valueA    valueB  valueC
0   D  2.240893 -0.977278     1.0

# merge on `key` index
pd.concat(dfs2, axis=1, sort=False, join='inner')

       valueA    valueB  valueC
key                            
D    2.240893 -0.977278     1.0

न आना join='inner'एक पूर्ण बाहरी के लिए शामिल हों। ध्यान दें कि आप LEFT या RIGHT OUTER को शामिल नहीं कर सकते हैं (यदि आपको इनका उपयोग करने की आवश्यकता है, तो joinनीचे वर्णित है)।

डुप्लिकेट के साथ कुंजियों पर मल्टीवे मर्ज

concatतेज है, लेकिन इसकी कमियां हैं। यह डुप्लिकेट को संभाल नहीं सकता है।

A3 = pd.DataFrame({'key': ['A', 'B', 'C', 'D', 'D'], 'valueA': np.random.randn(5)})

pd.concat([df.set_index('key') for df in [A3, B, C]], axis=1, join='inner')
ValueError: Shape of passed values is (3, 4), indices imply (3, 2)

इस स्थिति में, हम इसका उपयोग कर सकते हैं joinक्योंकि यह गैर-अद्वितीय कुंजियों को संभाल सकता है (ध्यान दें कि joinडेटा इंडेक्स को उनके सूचकांक में शामिल करता है; यह mergeहुड के नीचे कॉल करता है और जब तक अन्यथा निर्दिष्ट नहीं किया जाता है तब तक एक LEFT OUTER JOIN करता है)।

# join on `key` column, set as the index first
# For inner join. For left join, omit the "how" argument.
A.set_index('key').join(
    [df.set_index('key') for df in (B, C)], how='inner').reset_index()

  key    valueA    valueB  valueC
0   D  2.240893 -0.977278     1.0

# join on `key` index
A3.set_index('key').join([B2, C2], how='inner')

       valueA    valueB  valueC
key                            
D    1.454274 -0.977278     1.0
D    0.761038 -0.977278     1.0

49

का एक पूरक दृश्य दृश्य pd.concat([df0, df1], kwargs)। ध्यान दें कि, kwarg axis=0या axis=1का अर्थ उतना सहज नहीं है जितना df.mean()याdf.apply(func)


pd.concat पर ([df0, df1])


9
यह एक अच्छा डायग्राम है। क्या मैं पूछ सकता हूं कि आपने इसे कैसे बनाया?
CS95

6
Google डॉक का अंतर्निहित "इंसर्ट ==> ड्राइंग ... ==> नया" (2019-मई के अनुसार)। लेकिन, स्पष्ट होना: मैंने इस चित्र के लिए Google डॉक का उपयोग करने का एकमात्र कारण यह है कि मेरे नोट्स Google डॉक्स में संग्रहीत हैं, और मैं एक ऐसी तस्वीर चाहूंगा जिसे Google डॉक में ही संशोधित किया जा सके। वास्तव में अब आप यह उल्लेख किया है, गूगल डॉक्टर के ड्राइंग उपकरण बहुत साफ है।
एलियू

वाह, यह बहुत अच्छा है। SQL दुनिया से आ रहा है, "वर्टिकल" जॉइन मेरे सिर में शामिल नहीं है, क्योंकि टेबल की संरचना हमेशा तय होती है। अब भी लगता है कि पंडों को समेकित करना चाहिए concatऔर mergeएक दिशा पैरामीटर के साथ horizontalया होना चाहिए vertical
उफोस

2
@ यूफोस बिल्कुल ऐसा नहीं है axis=1और क्या axis=0है?
cs95

2
हाँ, अभी mergeऔर हैं concatऔर अक्ष और जो कुछ भी है। हालाँकि, जैसा कि @eliu दिखाता है, यह "लेफ्ट" और "राइट" और " हॉरिज़ॉन्टल " या "वर्टिकल" के साथ मर्ज की एक ही अवधारणा है । मुझे, व्यक्तिगत रूप से, हर बार मुझे यह देखना होगा कि मुझे कौन सा "अक्ष" है 0और कौन सा है 1
उफोस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.