इस पोस्ट का उद्देश्य पाठकों को SQL- फ्लेवर्ड मर्जिंग के साथ पंडों के साथ एक प्राइमर देना है कि इसका उपयोग कैसे करना है, और जब इसका उपयोग नहीं करना है।
विशेष रूप से, यहाँ इस पोस्ट के माध्यम से जाना जाएगा:
इस पोस्ट के माध्यम से नहीं जाना होगा:
- प्रदर्शन-संबंधित चर्चा और समय (अब के लिए)। जहाँ भी उपयुक्त हो, बेहतर विकल्पों के ज्यादातर उल्लेखनीय उल्लेख।
- प्रत्यय संभालना, अतिरिक्त कॉलम हटाना, आउटपुट का नाम बदलना, और अन्य विशिष्ट उपयोग के मामले। अन्य (पढ़ें: बेहतर) पोस्ट हैं जो इससे निपटते हैं, इसलिए इसे समझें!
नोट:
जब तक अन्यथा निर्दिष्ट न हो, तब तक विभिन्न विशेषताओं को प्रदर्शित करते हुए INNER JOIN संचालन के लिए डिफ़ॉल्ट अधिकांश उदाहरण।
इसके अलावा, यहां सभी डेटाफ़्रेमों को कॉपी और दोहराया जा सकता है ताकि आप उनके साथ खेल सकें। इसके अलावा, इस पोस्ट
को अपने क्लिपबोर्ड से डेटाफ़्रेम को पढ़ने के तरीके के बारे में देखें।
अंत में, Google ड्रॉइंग का उपयोग करते हुए JOIN संचालन के सभी दृश्य प्रतिनिधित्व को हाथ से तैयार किया गया है। यहां से प्रेरणा मिली ।
बस बात करो, मुझे दिखाओ कि कैसे उपयोग करना है merge
!
सेट अप
np.random.seed(0)
left = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': np.random.randn(4)})
right = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': np.random.randn(4)})
left
key value
0 A 1.764052
1 B 0.400157
2 C 0.978738
3 D 2.240893
right
key value
0 B 1.867558
1 D -0.977278
2 E 0.950088
3 F -0.151357
सरलता के लिए, कुंजी कॉलम का एक ही नाम है (अभी के लिए)।
एक INNER JOIN द्वारा दर्शाया गया है
ध्यान दें
, आगामी आंकड़ों के साथ सभी इस सम्मेलन का अनुसरण करते हैं:
- नीला, उन पंक्तियों को इंगित करता है जो मर्ज परिणाम में मौजूद होती हैं
- लाल उन पंक्तियों को इंगित करता है जिन्हें परिणाम से बाहर रखा गया है (यानी, हटाया गया)
- ग्रीन लापता मानों को इंगित करता है जिन्हें परिणाम में NaNs के साथ बदल दिया जाता है
INNER JOIN करने के लिए, merge
बाएं DataFrame पर कॉल करें , सही DataFrame और तर्क कुंजी में (बहुत कम से कम) तर्कों के रूप में निर्दिष्ट करें।
left.merge(right, on='key')
# Or, if you want to be explicit
# left.merge(right, on='key', how='inner')
key value_x value_y
0 B 0.400157 1.867558
1 D 2.240893 -0.977278
इससे केवल पंक्तियाँ लौटती हैं left
और right
जो एक सामान्य कुंजी साझा करती हैं (इस उदाहरण में, "बी" और "डी)।"
एक LEFT OUTER JOIN , या LEFT JOIN द्वारा दर्शाया गया है
यह निर्दिष्ट करके प्रदर्शन किया जा सकता है how='left'
।
left.merge(right, on='key', how='left')
key value_x value_y
0 A 1.764052 NaN
1 B 0.400157 1.867558
2 C 0.978738 NaN
3 D 2.240893 -0.977278
यहां NaNs के प्लेसमेंट पर ध्यान दें। यदि आप निर्दिष्ट करते हैं how='left'
, तो केवल कुंजी left
का उपयोग किया जाता है, और लापता डेटा को right
NaN से बदल दिया जाता है।
और इसी तरह, राइट ऑउट जॉइन के लिए , या राइट जॉइन जो है ...
... निर्दिष्ट करें how='right'
:
left.merge(right, on='key', how='right')
key value_x value_y
0 B 0.400157 1.867558
1 D 2.240893 -0.977278
2 E NaN 0.950088
3 F NaN -0.151357
यहां, कुंजियों right
का उपयोग किया जाता है, और अनुपलब्ध डेटा को left
NaN से बदल दिया जाता है।
अंत में, फुल ऑर्ट जॉइन के लिए , द्वारा दिया गया
निर्दिष्ट करें how='outer'
।
left.merge(right, on='key', how='outer')
key value_x value_y
0 A 1.764052 NaN
1 B 0.400157 1.867558
2 C 0.978738 NaN
3 D 2.240893 -0.977278
4 E NaN 0.950088
5 F NaN -0.151357
यह दोनों फ़्रेमों से कुंजियों का उपयोग करता है, और NaN दोनों में लापता पंक्तियों के लिए डाला जाता है।
प्रलेखन इन विभिन्न मर्जों को संक्षेप में प्रस्तुत करता है:
अन्य जॉइन - LEFT- एक्सक्लूसिविंग, राइट-एक्सक्लूसिविंग, और फुल-एक्सक्लूडिंग / ANTI जॉइस
अगर आपको दो चरणों में LEFT-Excluding JOINs और RIGHT-Excluding JOINs की आवश्यकता है।
LEFT- बहिष्कृत JOIN के लिए, के रूप में प्रतिनिधित्व किया
left
केवल एक से आने वाली पंक्तियों को छोड़ कर और फिर फ़िल्टर करके ( केवल !) पंक्तियों को फ़िल्टर करके प्रारंभ करें
(left.merge(right, on='key', how='left', indicator=True)
.query('_merge == "left_only"')
.drop('_merge', 1))
key value_x value_y
0 A 1.764052 NaN
2 C 0.978738 NaN
कहाँ पे,
left.merge(right, on='key', how='left', indicator=True)
key value_x value_y _merge
0 A 1.764052 NaN left_only
1 B 0.400157 1.867558 both
2 C 0.978738 NaN left_only
3 D 2.240893 -0.977278 both
और इसी तरह, एक सही-बहिष्कृत जॉय के लिए,
(left.merge(right, on='key', how='right', indicator=True)
.query('_merge == "right_only"')
.drop('_merge', 1))
key value_x value_y
2 E NaN 0.950088
3 F NaN -0.151357
अंत में, यदि आपको एक मर्ज करने की आवश्यकता होती है जो केवल बाईं या दाईं ओर से चाबियाँ रखता है, लेकिन दोनों नहीं (IOW, एक ANTI-JOIN का प्रदर्शन करते हुए )
आप इसे इसी तरह से कर सकते हैं-
(left.merge(right, on='key', how='outer', indicator=True)
.query('_merge != "both"')
.drop('_merge', 1))
key value_x value_y
0 A 1.764052 NaN
2 C 0.978738 NaN
4 E NaN 0.950088
5 F NaN -0.151357
कुंजी कॉलम के लिए अलग-अलग नाम
प्रमुख कॉलम नामित रहे हैं, तो अलग ढंग से-उदाहरण के लिए, left
है keyLeft
, और right
है keyRight
के बजाय key
आपके द्वारा निर्दिष्ट करना होगा -तो left_on
और right_on
बजाय तर्क के रूप में on
:
left2 = left.rename({'key':'keyLeft'}, axis=1)
right2 = right.rename({'key':'keyRight'}, axis=1)
left2
keyLeft value
0 A 1.764052
1 B 0.400157
2 C 0.978738
3 D 2.240893
right2
keyRight value
0 B 1.867558
1 D -0.977278
2 E 0.950088
3 F -0.151357
left2.merge(right2, left_on='keyLeft', right_on='keyRight', how='inner')
keyLeft value_x keyRight value_y
0 B 0.400157 B 1.867558
1 D 2.240893 D -0.977278
आउटपुट में डुप्लिकेट कुंजी कॉलम से बचना
जब पर विलय keyLeft
से left
और keyRight
से right
, यदि आप केवल या तो की चाहते हैं keyLeft
या keyRight
उत्पादन में (लेकिन दोनों नहीं), तो आपको एक प्रारंभिक चरण के रूप में सूचकांक की स्थापना द्वारा शुरू कर सकते हैं।
left3 = left2.set_index('keyLeft')
left3.merge(right2, left_index=True, right_on='keyRight')
value_x keyRight value_y
0 0.400157 B 1.867558
1 2.240893 D -0.977278
इसके विपरीत कमांड के आउटपुट से ठीक पहले (thst is, output left2.merge(right2, left_on='keyLeft', right_on='keyRight', how='inner')
) है, आप देखेंगे keyLeft
कि गायब है। आप यह पता लगा सकते हैं कि किस फ्रेम के इंडेक्स को कुंजी के रूप में सेट किया गया है, इसके आधार पर क्या कॉलम रखें। यह बात तब हो सकती है, जब कुछ OUTER JOIN ऑपरेशन करते हुए कहें।
किसी एक में से केवल एक कॉलम जोड़ना DataFrames
उदाहरण के लिए, विचार करें
right3 = right.assign(newcol=np.arange(len(right)))
right3
key value newcol
0 B 1.867558 0
1 D -0.977278 1
2 E 0.950088 2
3 F -0.151357 3
यदि आपको केवल "new_val" (किसी भी अन्य कॉलम के बिना) को मर्ज करने की आवश्यकता है, तो आप आमतौर पर विलय के लिए केवल सब्मिट कर सकते हैं:
left.merge(right3[['key', 'newcol']], on='key')
key value newcol
0 B 0.400157 0
1 D 2.240893 1
यदि आप एक LEUT OUTER JOIN कर रहे हैं, तो एक अधिक प्रभावी समाधान शामिल होगा map
:
# left['newcol'] = left['key'].map(right3.set_index('key')['newcol']))
left.assign(newcol=left['key'].map(right3.set_index('key')['newcol']))
key value newcol
0 A 1.764052 NaN
1 B 0.400157 0.0
2 C 0.978738 NaN
3 D 2.240893 1.0
जैसा कि उल्लेख किया गया है, यह समान है, लेकिन इससे भी तेज है
left.merge(right3[['key', 'newcol']], on='key', how='left')
key value newcol
0 A 1.764052 NaN
1 B 0.400157 0.0
2 C 0.978738 NaN
3 D 2.240893 1.0
कई कॉलम पर विलय
एक से अधिक स्तंभ पर शामिल होने के लिए, के लिए एक सूची निर्दिष्ट on
(या left_on
और right_on
, उचित रूप में)।
left.merge(right, on=['key1', 'key2'] ...)
या, घटना में नाम अलग हैं,
left.merge(right, left_on=['lkey1', 'lkey2'], right_on=['rkey1', 'rkey2'])
अन्य उपयोगी merge*
संचालन और कार्य
यह खंड केवल बहुत मूल बातें शामिल करता है, और केवल आपकी भूख को बढ़ाने के लिए डिज़ाइन किया गया है। अधिक उदाहरण और मामलों के लिए, देखें पर प्रलेखन merge
, join
औरconcat
साथ ही समारोह चश्मा लिंक के रूप में।
सूचकांक आधारित * -JOIN (+ सूचकांक-स्तंभ merge
s)
सेट अप
np.random.seed([3, 14])
left = pd.DataFrame({'value': np.random.randn(4)}, index=['A', 'B', 'C', 'D'])
right = pd.DataFrame({'value': np.random.randn(4)}, index=['B', 'D', 'E', 'F'])
left.index.name = right.index.name = 'idxkey'
left
value
idxkey
A -0.602923
B -0.402655
C 0.302329
D -0.524349
right
value
idxkey
B 0.543843
D 0.013135
E -0.326498
F 1.385076
आमतौर पर, सूचकांक पर एक मर्ज इस तरह दिखेगा:
left.merge(right, left_index=True, right_index=True)
value_x value_y
idxkey
B -0.402655 0.543843
D -0.524349 0.013135
सूचकांक नामों के लिए समर्थन
अपने सूचकांक के नाम पर है, तो v0.23 उपयोगकर्ताओं की भी स्तर नाम निर्दिष्ट कर सकते हैं on
(या left_on
और right_on
आवश्यक के रूप में)।
left.merge(right, on='idxkey')
value_x value_y
idxkey
B -0.402655 0.543843
D -0.524349 0.013135
एक के सूचकांक पर विलय, दूसरे के कॉलम (एस)
मर्ज करने के लिए एक के सूचकांक और दूसरे के कॉलम का उपयोग करना (और काफी सरल) संभव है। उदाहरण के लिए,
left.merge(right, left_on='key1', right_index=True)
या इसके विपरीत ( right_on=...
और left_index=True
)।
right2 = right.reset_index().rename({'idxkey' : 'colkey'}, axis=1)
right2
colkey value
0 B 0.543843
1 D 0.013135
2 E -0.326498
3 F 1.385076
left.merge(right2, left_index=True, right_on='colkey')
value_x colkey value_y
0 -0.402655 B 0.543843
1 -0.524349 D 0.013135
इस विशेष मामले में, के लिए इंडेक्स left
का नाम दिया गया है, इसलिए आप इंडेक्स नाम का उपयोग left_on
इस तरह भी कर सकते हैं :
left.merge(right2, left_on='idxkey', right_on='colkey')
value_x colkey value_y
0 -0.402655 B 0.543843
1 -0.524349 D 0.013135
DataFrame.join
इनके अलावा, एक और रसीला विकल्प है। आप DataFrame.join
सूचकांक में शामिल होने के लिए कौन सी चूक का उपयोग कर सकते हैं । DataFrame.join
डिफ़ॉल्ट रूप से एक बाईं ओर शामिल है, तो how='inner'
यहाँ आवश्यक है।
left.join(right, how='inner', lsuffix='_x', rsuffix='_y')
value_x value_y
idxkey
B -0.402655 0.543843
D -0.524349 0.013135
ध्यान दें कि मुझे यह निर्दिष्ट करने के लिए तर्क lsuffix
और rsuffix
तर्क देने की आवश्यकता है कि join
अन्यथा त्रुटि होगी:
left.join(right)
ValueError: columns overlap but no suffix specified: Index(['value'], dtype='object')
चूंकि कॉलम के नाम समान हैं। यह एक समस्या नहीं होगी अगर उन्हें अलग नाम दिया गया।
left.rename(columns={'value':'leftvalue'}).join(right, how='inner')
leftvalue value
idxkey
B -0.402655 0.543843
D -0.524349 0.013135
pd.concat
अंत में, इंडेक्स-आधारित जॉइन के विकल्प के रूप में, आप इसका उपयोग कर सकते हैं pd.concat
:
pd.concat([left, right], axis=1, sort=False, join='inner')
value value
idxkey
B -0.402655 0.543843
D -0.524349 0.013135
join='inner'
यदि आपको पूर्ण OOO JOIN (डिफ़ॉल्ट) चाहिए तो Omit :
pd.concat([left, right], axis=1, sort=False)
value value
A -0.602923 NaN
B -0.402655 0.543843
C 0.302329 NaN
D -0.524349 0.013135
E NaN -0.326498
F NaN 1.385076
अधिक जानकारी के लिए, इस कैनोनिकल पोस्ट को pd.concat
@piRSquared द्वारा देखें ।
सामान्यीकरण: merge
कई डेटाफ़्रेम का अंतर्ग्रहण करें
अक्सर, स्थिति तब पैदा होती है जब कई डेटाफ़्रेम को एक साथ मर्ज किया जाना होता है। Naively, यह merge
कॉल को चैन करके किया जा सकता है :
df1.merge(df2, ...).merge(df3, ...)
हालाँकि, यह कई डेटाफ़्रेम के लिए जल्दी से हाथ से निकल जाता है। इसके अलावा, डेटाफ्रैम की एक अज्ञात संख्या के लिए सामान्यीकरण करना आवश्यक हो सकता है।
यहां मैं अनूठी कुंजियों pd.concat
पर मल्टी-वे जॉइन के लिए परिचय देता हूं , और गैर-यूनीक कुंजी पर मल्टी-वे जॉइन के लिए । सबसे पहले, सेटअप।DataFrame.join
# Setup.
np.random.seed(0)
A = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'valueA': np.random.randn(4)})
B = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'valueB': np.random.randn(4)})
C = pd.DataFrame({'key': ['D', 'E', 'J', 'C'], 'valueC': np.ones(4)})
dfs = [A, B, C]
# Note, the "key" column values are unique, so the index is unique.
A2 = A.set_index('key')
B2 = B.set_index('key')
C2 = C.set_index('key')
dfs2 = [A2, B2, C2]
अद्वितीय कुंजियों (या अनुक्रमणिका) पर मल्टीवे मर्ज
यदि आपकी चाबियाँ (यहां, कुंजी या तो एक कॉलम या इंडेक्स हो सकती है) अद्वितीय हैं, तो आप उपयोग कर सकते हैं pd.concat
। ध्यान दें कि pd.concat
इंडेक्स पर DataFrames जुड़ता है ।
# merge on `key` column, you'll need to set the index before concatenating
pd.concat([
df.set_index('key') for df in dfs], axis=1, join='inner'
).reset_index()
key valueA valueB valueC
0 D 2.240893 -0.977278 1.0
# merge on `key` index
pd.concat(dfs2, axis=1, sort=False, join='inner')
valueA valueB valueC
key
D 2.240893 -0.977278 1.0
न आना join='inner'
एक पूर्ण बाहरी के लिए शामिल हों। ध्यान दें कि आप LEFT या RIGHT OUTER को शामिल नहीं कर सकते हैं (यदि आपको इनका उपयोग करने की आवश्यकता है, तो join
नीचे वर्णित है)।
डुप्लिकेट के साथ कुंजियों पर मल्टीवे मर्ज
concat
तेज है, लेकिन इसकी कमियां हैं। यह डुप्लिकेट को संभाल नहीं सकता है।
A3 = pd.DataFrame({'key': ['A', 'B', 'C', 'D', 'D'], 'valueA': np.random.randn(5)})
pd.concat([df.set_index('key') for df in [A3, B, C]], axis=1, join='inner')
ValueError: Shape of passed values is (3, 4), indices imply (3, 2)
इस स्थिति में, हम इसका उपयोग कर सकते हैं join
क्योंकि यह गैर-अद्वितीय कुंजियों को संभाल सकता है (ध्यान दें कि join
डेटा इंडेक्स को उनके सूचकांक में शामिल करता है; यह merge
हुड के नीचे कॉल करता है और जब तक अन्यथा निर्दिष्ट नहीं किया जाता है तब तक एक LEFT OUTER JOIN करता है)।
# join on `key` column, set as the index first
# For inner join. For left join, omit the "how" argument.
A.set_index('key').join(
[df.set_index('key') for df in (B, C)], how='inner').reset_index()
key valueA valueB valueC
0 D 2.240893 -0.977278 1.0
# join on `key` index
A3.set_index('key').join([B2, C2], how='inner')
valueA valueB valueC
key
D 1.454274 -0.977278 1.0
D 0.761038 -0.977278 1.0