SQL तालिका में डुप्लिकेट मान ढूँढना


1931

एक क्षेत्र के साथ डुप्लिकेट ढूंढना आसान है:

SELECT name, COUNT(email) 
FROM users
GROUP BY email
HAVING COUNT(email) > 1

तो अगर हमारे पास एक टेबल है

ID   NAME   EMAIL
1    John   asd@asd.com
2    Sam    asd@asd.com
3    Tom    asd@asd.com
4    Bob    bob@asd.com
5    Tom    asd@asd.com

यह प्रश्न हमें जॉन, सैम, टॉम, टॉम देगा क्योंकि वे सभी समान हैं email

हालांकि, मैं जो चाहता हूं, उसी के साथ डुप्लिकेट प्राप्त करना है email और name

यही है, मैं "टॉम", "टॉम" प्राप्त करना चाहता हूं।

मुझे इसके कारण की आवश्यकता है: मैंने एक गलती की, और डुप्लिकेट nameऔर emailमान डालने की अनुमति दी । अब मुझे डुप्लिकेट को हटाने / बदलने की आवश्यकता है, इसलिए मुझे पहले उन्हें खोजने की आवश्यकता है ।


28
मुझे नहीं लगता कि यह आपके पहले नमूने में नाम का चयन करने देगा क्योंकि यह एक समग्र कार्य में नहीं है। "मेल के पतों और उनके नाम के मिलान की क्या गिनती है" कुछ मुश्किल तर्क हैं ...
sXe

3
पाया गया कि यह nameचयन में फ़ील्ड के कारण MSSQL सर्वर के साथ काम नहीं करता है ।
ई। वैन पुटेन

मुझे नकल ईमेल के साथ रिकॉर्ड की क्या आवश्यकता है
मार्कोस डी पाओलो

जवाबों:


3034
SELECT
    name, email, COUNT(*)
FROM
    users
GROUP BY
    name, email
HAVING 
    COUNT(*) > 1

बस दोनों कॉलम पर समूह।

नोट: पुराने ANSI मानक के पास GROUP BY में सभी गैर-एकत्रित कॉलम हैं, लेकिन यह "कार्यात्मक निर्भरता" के विचार से बदल गया है :

रिलेशनल डेटाबेस सिद्धांत में, एक कार्यात्मक निर्भरता एक डेटाबेस से एक संबंध में दो सेट विशेषताओं के बीच एक बाधा है। दूसरे शब्दों में, कार्यात्मक निर्भरता एक बाधा है जो एक संबंध में विशेषताओं के बीच संबंध का वर्णन करती है।

समर्थन सुसंगत नहीं है:


92
@webXL जहां एक ही रिकॉर्ड के साथ काम करता है
HAVING

8
क्या परिणाम में आईडी शामिल करना संभव है? फिर बाद में उन डुप्लिकेट्स को हटाना आसान होगा।
user797717

13
@ user797717: आपको MIN (ID) की आवश्यकता होगी और तब ID मानों को डिलीट करें यदि लास्ट में MIN (ID) मान नहीं है
gbn

1
उन मामलों के बारे में जहां किसी भी कॉलम में शून्य मान हैं?
अंकित ढींगरा

1
इसके लिए बहुत बहुत धन्यवाद, और हाँ यह ओरेकल में काम करता है, हालांकि मुझे हालत की विशिष्टता की आवश्यकता थी, इसलिए इसके बजाय>1 =1
बिल नॉयलर

370

इसे इस्तेमाल करे:

declare @YourTable table (id int, name varchar(10), email varchar(50))

INSERT @YourTable VALUES (1,'John','John-email')
INSERT @YourTable VALUES (2,'John','John-email')
INSERT @YourTable VALUES (3,'fred','John-email')
INSERT @YourTable VALUES (4,'fred','fred-email')
INSERT @YourTable VALUES (5,'sam','sam-email')
INSERT @YourTable VALUES (6,'sam','sam-email')

SELECT
    name,email, COUNT(*) AS CountOf
    FROM @YourTable
    GROUP BY name,email
    HAVING COUNT(*)>1

उत्पादन:

name       email       CountOf
---------- ----------- -----------
John       John-email  2
sam        sam-email   2

(2 row(s) affected)

यदि आप चाहते हैं कि आईडी की आईडी इसका उपयोग करें:

SELECT
    y.id,y.name,y.email
    FROM @YourTable y
        INNER JOIN (SELECT
                        name,email, COUNT(*) AS CountOf
                        FROM @YourTable
                        GROUP BY name,email
                        HAVING COUNT(*)>1
                    ) dt ON y.name=dt.name AND y.email=dt.email

उत्पादन:

id          name       email
----------- ---------- ------------
1           John       John-email
2           John       John-email
5           sam        sam-email
6           sam        sam-email

(4 row(s) affected)

डुप्लिकेट को हटाने का प्रयास करें:

DELETE d
    FROM @YourTable d
        INNER JOIN (SELECT
                        y.id,y.name,y.email,ROW_NUMBER() OVER(PARTITION BY y.name,y.email ORDER BY y.name,y.email,y.id) AS RowRank
                        FROM @YourTable y
                            INNER JOIN (SELECT
                                            name,email, COUNT(*) AS CountOf
                                            FROM @YourTable
                                            GROUP BY name,email
                                            HAVING COUNT(*)>1
                                        ) dt ON y.name=dt.name AND y.email=dt.email
                   ) dt2 ON d.id=dt2.id
        WHERE dt2.RowRank!=1
SELECT * FROM @YourTable

उत्पादन:

id          name       email
----------- ---------- --------------
1           John       John-email
3           fred       John-email
4           fred       fred-email
5           sam        sam-email

(4 row(s) affected)


72

यदि आप डुप्लिकेट को हटाना चाहते हैं, तो यहां बहुत आसान तरीका है कि इसे ट्रिपल उप-चयन में सम / विषम पंक्तियों को खोजने की तुलना में करें:

SELECT id, name, email 
FROM users u, users u2
WHERE u.name = u2.name AND u.email = u2.email AND u.id > u2.id

और इसलिए हटाना:

DELETE FROM users
WHERE id IN (
    SELECT id/*, name, email*/
    FROM users u, users u2
    WHERE u.name = u2.name AND u.email = u2.email AND u.id > u2.id
)

IMHO को पढ़ना और समझना बहुत आसान है

नोट: एकमात्र मुद्दा यह है कि आपको अनुरोध को तब तक निष्पादित करना होगा जब तक कि कोई पंक्तियाँ हट न जाएं, क्योंकि आप प्रत्येक बार प्रत्येक डुप्लिकेट के केवल 1 को हटाते हैं


2
अच्छा और पढ़ने में आसान; मैं एक ऐसा तरीका खोजना चाहता हूँ जिसने एक बार में कई डुप्लिकेट पंक्तियों को हटा दिया हो।
डिकॉन रीड

1
जैसा कि मुझे मिलता है, यह मेरे लिए काम नहीं करता हैYou can't specify target table 'users' for update in FROM clause
व्हाइटेकाट

1
@Hitecat एक साधारण MySQL समस्या की तरह लगता है: stackoverflow.com/questions/4429319/…
AncAinu

1
मेरे लिए असफल है। मुझे मिलता है: "DBD :: CSV :: st execute विफल: ininitialized value $ _ [1] का उपयोग हैश तत्व में /Users/hornenj/perl5/perlbrew/perls/perl-5/6.0/lib/site_perl/5.26 पर करें। 0 / SQL / Eval.pm लाइन 43 "
निगेल

1
मुझे लगता है कि जहां क्लॉज "u.name = u2.name और u.email = u2.email और (u.id> u2.id या u2.id> u.id) है" नहीं है?
GiveEmTheBoot

48

निम्नलिखित आज़माएँ:

SELECT * FROM
(
    SELECT Id, Name, Age, Comments, Row_Number() OVER(PARTITION BY Name, Age ORDER By Name)
        AS Rank 
        FROM Customers
) AS B WHERE Rank>1

3
SELECT * में थोड़े से बदलाव ने मुझे एक घंटे की खोज को हल करने में मदद की। मैंने पहले कभी OVER (PARTITION) का उपयोग नहीं किया है। मैं चकित होना कभी नहीं छोड़ता कि SQL में एक ही काम करने के कितने तरीके हैं!
Joe Ruder


28

पार्टी में थोड़ी देर हो गई लेकिन मुझे सभी डुप्लिकेट आईडी ढूंढने में बहुत अच्छा मिला

SELECT GROUP_CONCAT( id )
FROM users
GROUP BY email
HAVING ( COUNT(email) > 1 )

2
चारों ओर एक वाक्यात्मक चीनी का काम करता है। अच्छा लगा।
शेफ_कोड

3
ध्यान रखें कि GROUP_CONCATकुछ पूर्व निर्धारित लंबाई के बाद बंद हो जाएगा, इसलिए आपको सभी idएस नहीं मिल सकते हैं ।
v010dya

24

इस कोड को आज़माएं

WITH CTE AS

( SELECT Id, Name, Age, Comments, RN = ROW_NUMBER()OVER(PARTITION BY Name,Age ORDER BY ccn)
FROM ccnmaster )
select * from CTE 

23

यह डुप्लिकेट के प्रत्येक समूह से एक रिकॉर्ड को छोड़कर सभी डुप्लिकेट रिकॉर्ड का चयन / हटाता है। तो, हटाएं डुप्लिकेट के प्रत्येक समूह से सभी अद्वितीय रिकॉर्ड + एक रिकॉर्ड छोड़ देता है।

डुप्लिकेट चुनें:

SELECT *
FROM table
WHERE
    id NOT IN (
        SELECT MIN(id)
        FROM table
        GROUP BY column1, column2
);

डुप्लिकेट हटाएं:

DELETE FROM table
WHERE
    id NOT IN (
        SELECT MIN(id)
        FROM table
        GROUP BY column1, column2
);

बड़ी मात्रा में रिकॉर्ड से अवगत रहें, यह प्रदर्शन समस्याओं का कारण बन सकता है।


2
क्वेरी हटाने में त्रुटि - FROM क्लॉज में अपडेट के लिए आप लक्ष्य तालिका 'शहरों' को निर्दिष्ट नहीं कर सकते
अली अजहर

2
यहां न तो टेबल 'शहर' हैं और न ही अपडेट क्लॉज। क्या मतलब? डिलीट क्वेरी में कोई त्रुटि कहां है?
मार्टिन सिलोव्स्की

2
ओपी के डेटा के साथ यह कैसे काम करता है?
थोरो

3
"ओपी" का क्या अर्थ है?
मार्टिन सिलोव्स्की

19

यदि आप ओरेकल के साथ काम करते हैं, तो यह तरीका बेहतर होगा:

create table my_users(id number, name varchar2(100), email varchar2(100));

insert into my_users values (1, 'John', 'asd@asd.com');
insert into my_users values (2, 'Sam', 'asd@asd.com');
insert into my_users values (3, 'Tom', 'asd@asd.com');
insert into my_users values (4, 'Bob', 'bob@asd.com');
insert into my_users values (5, 'Tom', 'asd@asd.com');

commit;

select *
  from my_users
 where rowid not in (select min(rowid) from my_users group by name, email);

15
select name, email
, case 
when ROW_NUMBER () over (partition by name, email order by name) > 1 then 'Yes'
else 'No'
end "duplicated ?"
from users

2
कोड केवल जवाब ढेर अतिप्रवाह पर फेंक रहे हैं, क्या आप बता सकते हैं कि यह सवाल का जवाब क्यों देता है?
रिच बेनर

2
@ रीचेनर: मुझे रिस्पॉन्स नहीं मिला जैसे कि, परिणाम में प्रत्येक पंक्ति और जो हमें बताता है कि सभी डुप्लिकेट पंक्तियाँ हैं और जो एक नज़र में नहीं हैं और इसके लिए समूह नहीं बनाना चाहिए, क्योंकि यदि हम इसे संयोजित करना चाहते हैं किसी भी अन्य क्वेरी समूह के साथ क्वेरी एक अच्छा विकल्प नहीं है।
नरेन्द्र

2
Id को चुनिंदा स्टेटमेंट में जोड़ें और डुप्लिकेट पर फ़िल्टर करें, यह आपको डुप्लिकेट आईडी को हटाने और प्रत्येक पर रखने की संभावना देता है।
एंटोनी रेनहोल्ड बर्ट्रेंड

12

यदि आप यह देखना चाहते हैं कि क्या आपकी तालिका में कोई डुप्लिकेट पंक्तियाँ हैं, तो मैंने क्वेरी का उपयोग किया है:

create table my_table(id int, name varchar(100), email varchar(100));

insert into my_table values (1, 'shekh', 'shekh@rms.com');
insert into my_table values (1, 'shekh', 'shekh@rms.com');
insert into my_table values (2, 'Aman', 'aman@rms.com');
insert into my_table values (3, 'Tom', 'tom@rms.com');
insert into my_table values (4, 'Raj', 'raj@rms.com');


Select COUNT(1) As Total_Rows from my_table 
Select Count(1) As Distinct_Rows from ( Select Distinct * from my_table) abc 

11

यह आसान चीज है जो मैं लेकर आया हूं। यह एक सामान्य तालिका अभिव्यक्ति (CTE) और एक विभाजन विंडो का उपयोग करता है (मुझे लगता है कि ये सुविधाएँ SQL 2008 और बाद में हैं)।

यह उदाहरण सभी छात्रों को डुप्लिकेट नाम और डब के साथ मिलता है। जिन क्षेत्रों को आप डुप्लीकेशन के लिए जाँचना चाहते हैं, वे OVER क्लॉज़ में जाते हैं। आप किसी भी अन्य क्षेत्रों को शामिल कर सकते हैं जिन्हें आप प्रक्षेपण में चाहते हैं।

with cte (StudentId, Fname, LName, DOB, RowCnt)
as (
SELECT StudentId, FirstName, LastName, DateOfBirth as DOB, SUM(1) OVER (Partition By FirstName, LastName, DateOfBirth) as RowCnt
FROM tblStudent
)
SELECT * from CTE where RowCnt > 1
ORDER BY DOB, LName


10

हम डुप्लिकेटेड मूल्यों को कैसे गिन सकते हैं ?? या तो इसे 2 बार दोहराया जाता है या 2 से अधिक है। बस उन्हें गिनें, समूहवार नहीं।

की तरह सरल

select COUNT(distinct col_01) from Table_01

2
इस सवाल के लिए यह कैसे काम करेगा? यह उन पंक्तियों को अलग-अलग पंक्तियों में कई कॉलम (जैसे "ईमेल" और "नाम") में डुप्लिकेट जानकारी नहीं देता है।
जीरोन

10

CTE का उपयोग करके भी हम इस तरह डुप्लिकेट मान पा सकते हैं

with MyCTE
as
(
select Name,EmailId,ROW_NUMBER() over(PARTITION BY EmailId order by id) as Duplicate from [Employees]

)
select * from MyCTE where Duplicate>1

9
 select emp.ename, emp.empno, dept.loc 
          from emp
 inner join dept 
          on dept.deptno=emp.deptno
 inner join
    (select ename, count(*) from
    emp
    group by ename, deptno
    having count(*) > 1)
 t on emp.ename=t.ename order by emp.ename
/

7

SELECT id, COUNT(id) FROM table1 GROUP BY id HAVING COUNT(id)>1;

मुझे लगता है कि यह एक विशेष कॉलम में दोहराया मूल्यों को खोजने के लिए ठीक से काम करेगा।


6
यह शीर्ष उत्तर के लिए कुछ भी नहीं जोड़ता है , और तकनीकी रूप से वास्तव में प्रश्न में ओपी के कोड से भिन्न नहीं होता है।
जेरोइन

7
SELECT * FROM users u where rowid = (select max(rowid) from users u1 where
u.email=u1.email);

6

यह भी काम करना चाहिए, शायद यह कोशिश दे।

  Select * from Users a
            where EXISTS (Select * from Users b 
                where (     a.name = b.name 
                        OR  a.email = b.email)
                     and a.ID != b.id)

आपके मामले में विशेष रूप से अच्छा है यदि आप ऐसे डुप्लिकेट खोजते हैं जिनके पास किसी प्रकार का उपसर्ग या सामान्य परिवर्तन है जैसे मेल में नया डोमेन। फिर आप इन स्तंभों पर प्रतिस्थापित () का उपयोग कर सकते हैं


5

यदि आप डुप्लिकेट डेटा (एक या कई मानदंड से) खोजना चाहते हैं और वास्तविक पंक्तियों का चयन करें।

with MYCTE as (
    SELECT DuplicateKey1
        ,DuplicateKey2 --optional
        ,count(*) X
    FROM MyTable
    group by DuplicateKey1, DuplicateKey2
    having count(*) > 1
) 
SELECT E.*
FROM MyTable E
JOIN MYCTE cte
ON E.DuplicateKey1=cte.DuplicateKey1
    AND E.DuplicateKey2=cte.DuplicateKey2
ORDER BY E.DuplicateKey1, E.DuplicateKey2, CreatedAt

http://developer.azurewebsites.net/2014/09/better-sql-group-by-find-duplicate-data/


4
SELECT name, email,COUNT(email) 
FROM users 
WHERE email IN (
    SELECT email 
    FROM users 
    GROUP BY email 
    HAVING COUNT(email) > 1)

आप COUNTबिना उपयोग नहीं कर सकते GROUP BY, जब तक कि यह पूरी तालिका को संदर्भित न करे।
राल्फफ्राइडल

बिना ग्रुप के आपने COUNT का उपयोग किया है लेकिन यहाँ मुझे COUNT
मोहम्मद नेमुल इस्लाम

3

उन रिकॉर्ड को हटाने के लिए जिनके नाम डुप्लिकेट हैं

;WITH CTE AS    
(

    SELECT ROW_NUMBER() OVER (PARTITION BY name ORDER BY name) AS T FROM     @YourTable    
)

DELETE FROM CTE WHERE T > 1

3

तालिका में डुप्लिकेट रिकॉर्ड से जाँच करने के लिए।

select * from users s 
where rowid < any 
(select rowid from users k where s.name = k.name and s.email = k.email);

या

select * from users s 
where rowid not in 
(select max(rowid) from users k where s.name = k.name and s.email = k.email);

तालिका में डुप्लिकेट रिकॉर्ड को हटाने के लिए।

delete from users s 
where rowid < any 
(select rowid from users k where s.name = k.name and s.email = k.email);

या

delete from users s 
where rowid not in 
(select max(rowid) from users k where s.name = k.name and s.email = k.email);


1

हम यहाँ पर प्रयोग कर सकते हैं जो नीचे दिखाए गए अनुसार कुल कार्यों पर काम करते हैं

create table #TableB (id_account int, data int, [date] date)
insert into #TableB values (1 ,-50, '10/20/2018'),
(1, 20, '10/09/2018'),
(2 ,-900, '10/01/2018'),
(1 ,20, '09/25/2018'),
(1 ,-100, '08/01/2018')  

SELECT id_account , data, COUNT(*)
FROM #TableB
GROUP BY id_account , data
HAVING COUNT(id_account) > 1

drop table #TableB

यहाँ दो फ़ील्ड id_account और डेटा का उपयोग Count (*) के साथ किया जाता है। तो, यह सभी रिकॉर्ड देगा जो दोनों कॉलम में एक से अधिक बार एक ही मान रखता है।

हम कुछ कारण गलती से हम SQL सर्वर तालिका में किसी भी बाधा को जोड़ने के लिए याद किया था और रिकॉर्ड सामने के अंत आवेदन के साथ सभी स्तंभों में डुप्लिकेट डाला गया है। तब हम तालिका से डुप्लिकेट क्वेरी को हटाने के लिए क्वेरी के नीचे उपयोग कर सकते हैं।

SELECT DISTINCT * INTO #TemNewTable FROM #OriginalTable
TRUNCATE TABLE #OriginalTable
INSERT INTO #OriginalTable SELECT * FROM #TemNewTable
DROP TABLE #TemNewTable

यहां हमने ओरिजिनल टेबल के सभी अलग-अलग रिकॉर्ड्स ले लिए हैं और ओरिजिनल टेबल के रिकॉर्ड्स को डिलीट कर दिया है। फिर से हमने नई तालिका से मूल तालिका में सभी अलग-अलग मान डाले और फिर नई तालिका को हटा दिया।


1

आप यह कोशिश करना चाह सकते हैं

SELECT NAME, EMAIL, COUNT(*)
FROM USERS
GROUP BY 1,2
HAVING COUNT(*) > 1

1

यहां सबसे महत्वपूर्ण कार्य सबसे तेज़ कार्य करना है। इसके अलावा डुप्लिकेट के सूचकांकों की पहचान की जानी चाहिए। सेल्फ जॉइन एक अच्छा विकल्प है लेकिन तेज़ कार्य करने के लिए बेहतर है कि पहले उन पंक्तियों को खोजें जिसमें डुप्लिकेट हों और फिर डुप्लिकेट की गई पंक्तियों की आईडी खोजने के लिए मूल तालिका के साथ जुड़ें। अंत में आईडी को छोड़कर किसी भी कॉलम द्वारा एक-दूसरे के पास डुप्लिकेट पंक्तियों को ऑर्डर करें।

SELECT u.*
FROM users AS u
JOIN (SELECT username, email
      FROM users
      GROUP BY username, email
      HAVING COUNT(*)>1) AS w
ON u.username=w.username AND u.email=w.email
ORDER BY u.email;

0

आप डुप्लिकेट से छुटकारा पाने के लिए SELECT DISTINCT कीवर्ड का उपयोग कर सकते हैं। आप नाम से फ़िल्टर भी कर सकते हैं और सभी को उस नाम के साथ एक टेबल पर ला सकते हैं।


0

सटीक कोड इस बात पर निर्भर करता है कि आप डुप्लिकेट पंक्तियों को ढूंढना चाहते हैं या एक ही ईमेल और नाम के साथ केवल अलग आईडी। यदि आईडी एक प्राथमिक कुंजी है या अन्यथा एक अद्वितीय बाधा है, तो यह अंतर मौजूद नहीं है, लेकिन प्रश्न यह निर्दिष्ट नहीं करता है। पूर्व मामले में आप कई अन्य उत्तरों में दिए गए कोड का उपयोग कर सकते हैं:

SELECT name, email, COUNT(*)
FROM users
GROUP BY name, email
HAVING COUNT(*) > 1

बाद के मामले में आप उपयोग करेंगे:

SELECT name, email, COUNT(DISTINCT id)
FROM users
GROUP BY name, email
HAVING COUNT(DISTINCT id) > 1
ORDER BY COUNT(DISTINCT id) DESC
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.