क्या मुझे SQL JOIN या IN Clause का उपयोग करना चाहिए?

13

मेरे पास सबसे अच्छा तरीका है। मुझे यकीन नहीं है कि जब डेटा को आकार में परिवर्तनशील माना जाता है तो कौन सा दृष्टिकोण सबसे अच्छा है।

निम्नलिखित 3 TABLES पर विचार करें:

कर्मचारी

EMPLOYEE_ID, EMP_NAME

परियोजना

PROJECT_ID, PROJ_NAME

EMP_PROJ (उपरोक्त दो तालिकाओं में से कई)

EMPLOYEE_ID, PROJECT_ID

समस्या : एक कर्मचारी को देखते हुए, सभी कर्मचारियों के सभी कर्मचारियों को खोजें, जिनसे यह कर्मचारी जुड़ा हुआ है।

मैंने इसे दो तरह से आज़माया है .. दोनों दृष्टिकोण केवल कुछ मिलीसेकंड से भिन्न होते हैं, इससे कोई फर्क नहीं पड़ता कि डेटा का आकार क्या है।

SELECT EMP_NAME FROM EMPLOYEE
WHERE EMPLOYEE_ID IN (
    SELECT EMPLOYEE_ID FROM EMP_PROJ    
    WHERE PROJECT_ID IN (
        SELECT PROJECT_ID FROM EMP_PROJ p, EMPLOYEE e
        WHERE p.EMPLOYEE_ID = E.EMPLOYEE_ID 
        AND  E.EMPLOYEE_ID = 123)

जाओ

select c.EMP_NAME FROM
(SELECT PROJECT_ID FROM EMP_PROJ
WHERE EMPLOYEE_ID = 123) a
JOIN 
EMP_PROJ b
ON a.PROJECT_ID = b.PROJECT_ID
JOIN 
EMPLOYEE c
ON b.EMPLOYEE_ID = c.EMPLOYEE_ID

अब तक, मैं लगभग 5000 एंप्लॉयीज और प्रॉजेक्ट्स की उम्मीद करता हूं। लेकिन मुझे इस बारे में कोई जानकारी नहीं है कि थोड़े-बहुत रिश्ते मौजूद हैं। आप किस दृष्टिकोण की सिफारिश करेंगे? धन्यवाद!

EDIT: दृष्टिकोण 1 की निष्पादन योजना

"Hash Join  (cost=86.55..106.11 rows=200 width=98)"
"  Hash Cond: (employee.employee_id = emp_proj.employee_id)"
"  ->  Seq Scan on employee  (cost=0.00..16.10 rows=610 width=102)"
"  ->  Hash  (cost=85.07..85.07 rows=118 width=4)"
"        ->  HashAggregate  (cost=83.89..85.07 rows=118 width=4)"
"              ->  Hash Semi Join  (cost=45.27..83.60 rows=118 width=4)"
"                    Hash Cond: (emp_proj.project_id = p.project_id)"
"                    ->  Seq Scan on emp_proj  (cost=0.00..31.40 rows=2140 width=8)"
"                    ->  Hash  (cost=45.13..45.13 rows=11 width=4)"
"                          ->  Nested Loop  (cost=0.00..45.13 rows=11 width=4)"
"                                ->  Index Scan using employee_pkey on employee e  (cost=0.00..8.27 rows=1 width=4)"
"                                      Index Cond: (employee_id = 123)"
"                                ->  Seq Scan on emp_proj p  (cost=0.00..36.75 rows=11 width=8)"
"                                      Filter: (p.employee_id = 123)"

दृष्टिकोण 2 की निष्पादन योजना:

"Nested Loop  (cost=60.61..112.29 rows=118 width=98)"
"  ->  Index Scan using employee_pkey on employee e  (cost=0.00..8.27 rows=1 width=4)"
"        Index Cond: (employee_id = 123)"
"  ->  Hash Join  (cost=60.61..102.84 rows=118 width=102)"
"        Hash Cond: (b.employee_id = c.employee_id)"
"        ->  Hash Join  (cost=36.89..77.49 rows=118 width=8)"
"              Hash Cond: (b.project_id = p.project_id)"
"              ->  Seq Scan on emp_proj b  (cost=0.00..31.40 rows=2140 width=8)"
"              ->  Hash  (cost=36.75..36.75 rows=11 width=8)"
"                    ->  Seq Scan on emp_proj p  (cost=0.00..36.75 rows=11 width=8)"
"                          Filter: (employee_id = 123)"
"        ->  Hash  (cost=16.10..16.10 rows=610 width=102)"
"              ->  Seq Scan on employee c  (cost=0.00..16.10 rows=610 width=102)"

तो ऐसा लगता है कि दृष्टिकोण 2 की निष्पादन योजना थोड़ी बेहतर है, क्योंकि 'लागत' 60 दृष्टिकोण के 85 के विपरीत है। 1. क्या इसका विश्लेषण करने का सही तरीका है?

यह कैसे पता चलेगा कि यह सभी प्रकार के कई-कई संयोजनों के लिए भी सही है?

postgresql join

— rk2010
स्रोत

3

लगता है जैसे पोस्टग्रैजस प्लान मुझे समझाता है। व्यक्तिगत रूप से मैं जॉइन आधारित दृष्टिकोण के साथ जाऊंगा, लेकिन क्वेरी को फिर से लिखने के बारे में नीचे दिए गए कुछ उत्तरों को पढ़ूंगा। ओह, और मैं सुझाव दूंगा कि ओपी उपयोग की व्याख्या केवल विश्लेषण के बजाय करें।

— xzilla

मैं xzilla से सहमत हूं: explain analyzeयोजनाओं के बीच अधिक अंतर प्रकट कर सकता है

— a_horse_with_no_name

14

SQL सर्वर में, "उन क्षेत्रों में NULLs नहीं हो सकते" जैसी कुछ मान्यताओं के साथ, उन प्रश्नों को लगभग एक ही योजना देनी चाहिए।

लेकिन यह भी विचार करें कि आप किस प्रकार के जुड़ रहे हैं। इस तरह का एक खंड एक अर्ध सम्मिलित है, एक आंतरिक सम्मिलित नहीं है। एक इनर जॉइन कई पंक्तियों पर प्रोजेक्ट कर सकता है, जिससे डुप्लिकेट दिए जा सकते हैं (IN या EXISTS का उपयोग करने की तुलना में)। इसलिए आप इस प्रश्न पर विचार करना चाहते हैं कि आप अपनी क्वेरी कैसे लिखते हैं।

— रॉब फ़र्ले
स्रोत

2

जब मैं एवॉयड डुप्लिकेट की कोशिश कर रहा हूं, तो मैं जुड़ने के बजाय मौजूद के उपयोग से सहमत हूं। SQL सर्वर के साथ अपने स्वयं के अनुभव से मौजूद था और आंतरिक जुड़ाव वैसे भी एक ही क्वेरी योजना का उत्पादन किया। मुझे 'इन' स्टेटमेंट्स के बारे में कुछ प्रदर्शन की चिंता थी, लेकिन वे केवल तब सामने आए जब स्टेटमेंट में चयन ने कई हजार पंक्तियों को वापस करना शुरू कर दिया।

— ग्राम्पमीकी

6

@GrumpyMonkey - SQL Server 2005+ में INऔर EXISTSहमेशा अपने अनुभव में एक ही योजना देते हैं। NOT INऔर NOT EXISTSहालांकि NOT EXISTSपसंदीदा के साथ अलग हैं - कुछ प्रदर्शन तुलना यहाँ

— मार्टिन स्मिथ

8

आपकी क्वेरी जो खोज रही है वह बस है

SELECT EMP_NAME 
FROM EMPLOYEE e
WHERE E.EMPLOYEE_ID = 123
and exists (select * from EMP_PROJ  where  EMPLOYEE_ID = 123);

या

SELECT EMP_NAME 
FROM EMPLOYEE e
WHERE E.EMPLOYEE_ID = 123
and exists (select * from EMP_PROJ ep where  ep.EMPLOYEE_ID = E.EMPLOYEE_ID );

— bernd_k
स्रोत

यदि इसके SELECT 1बजाय उप-क्वेरी तेज नहीं होती SELECT *?

— डैनियल सेरोडियो

DBMS पर निर्भर हो सकता है। मुझे पता है कि एसक्यूएल-सर्वर सेलेक्ट * का अनुकूलन कर रहा है। (cf. इट्ज़िक बेन-गन इन माइक्रोसॉफ्ट® एसक्यूएल

— सर्वर®

0

आप इस प्रश्न को आज़मा सकते हैं:


select distinct e2.employee_id, ep.project_id 
from employee e, employee e2, emp_proj ep
where
e.employee_id = 123
and e.employee_id = ep.employee_id
and e2.project_id = ep.project_id;

— techexplorer
स्रोत