Dublettsjekk, duplikatsjekk, deduplisering

Det er ikke alltid en enkel måte å fjerne dubletter i en treffliste. Men det finnes effektive metoder.

Her presenteres metoder for å bruke EndNote effektivt for å slette dubletter. EndNote er mye brukt i norske UH-bibliotek, og jeg vet ikke om dette er overførbart til andre referansehåndteringsprogram, hvilke andre program som kanskje er mer effektive enn EndNote. Det er interessant å høre om dersom noen vet, så gi gjerne en tilbakemelding om det.

Ved søk i flere databaser hvor resultatet fra alle søkene samles i et EndNote-bibliotek så får en ofte mange dubletter av samme referanse. Årsaken er så enkel som at flere av databasene inneholder de samme referansene. Og noen ganger ligger samme referanse flere ganger i en database. Mange databaser håndterer metadata noe ulikt og det fører til at det å sjekke dubletter, ikke nødvendigvis er gjort med et tastetrykk.

Om man bruker federert søk i Ovid-databaser, det vil si søker i flere databaser samtidig, så finnes det en dedupliseringsknapp. Den kun fungerer når man har færre enn 6000 referanser – og noen ganger har man flere. Og søker man i databaser utenfor Ovid-systemet så er det behov for ytterligere dublettsjekk.

EndNote har en funksjon for automatisk dublettsjekk. Denne fungerer ved at informasjonen i de ulike feltene sammenlignes.

Med standardinnstillingen for dublettsjekk i EndNote så sammenlignes Author, Year, Title, Secondary Title og Reference Type. Det går an å endre innstillingene og hvilke felt som skal sammenlignes. Det man har å velge mellom er:

  • Author
  • Year
  • Title
  • Secondary Title (Journal)
  • Volume
  • Issue
  • Pages
  • Section
  • Publisher
  • Place Published
  • Tertiary title
  • Short title
  • Subsidiary Author
  • Reference Type
  • Label

DOI som er et unikt identifikasjonsnummer er ikke en del av de feltene som sammenlignes i en dublettsjekk. Om DOI hadde vært et sammenligningskriterie kunne en dublettsjekk gått enda raskere enn det gjør i dag. 

 

Det er flere årsaker til at EndNotes standard dublettsjekk noen ganger kommer til kort:

 

Ulik oversettelse av ikke-engelske titler

Det er tilfeller der ikke-engelskspråklige titler har ulike oversettelser fra ulike databaser. De ligner, men for å være helt sikker så kan en måtte klikke seg frem til fulltekst for å få bekreftet at det er snakk om en og samme artikkel.

Eksempel:

Ulik markering av ikke-engelske titler

Ikke-engelske titler merkes ulikt i Medline og Embase. I Medline angis språk i tittelfeltet, mens Embase setter engelsk tittel i skarpe klammer […]

Eksempel:

Forkortet og full paginering

Embase og Medline håndterer sidetall ulikt. Medline bruker forkortet paginering, mens Embase skriver fulle sidetall.

Skjermbilde fra Ovid Medline med forkortet paginering:

Skjermbilde fra Ovid Embase med full paginering:

I disse tilfellene frostår ikke EndNote at det er snakk om den samme referansen.

Like, men enda så ulike sidetall:

Supplerende informasjon i tittelfeltet

Supplerende (og for så vidt viktig) informasjon legges i noen tilfeller til i tittelfelt. I eksempelet her er informasjon om at artikkelen er trukket tilbake, og referanse til tilbaketrekkingen. Informasjon om korrigeringer er også ofte å finne i tittelfeltet.

Cochrane Reviews som har ulike årstall (og noen ganger ulik tittel) og like CD-nummer (i stedet for sidetall) må sjekkes spesielt, sånn at man sletter den eldste, med mindre begge skal inkluderes i trefflisten.

Det å ha så lik informasjon som mulig i de ulike feltene er det ideelle.

 

Bramers algoritme for de-duplisering

Ofte brukes standardinnstillingen i EndNote for dublettsjekk. Men ofte opplever man at  standardinnstillingen plukker opp falske duplikater, altså at EndNote ville fjerne en referanse som ikke var en ordentlig dublett. En måte å jobbe på er å bruke standardinnstillingen først og deretter endre på de ulike parameterne noen ganger og sammenligne ulike felter på et veldig usystematisk vis.

På EAHIL i 2014 ble det demonstrert at det går an å gjøre dublettsjekken i EndNote på en systematisk og mer effektiv måte ved bruk av EndNote, og den er publisert som artikkel:

  • Bramer WM, Giustini D, de Jonge GB, Holland L, Bekhuis T. De-duplication of database search results for systematic reviews in EndNote. J Med Libr Assoc. 2016;104(3):240-3.

Metoden går ut på å alternere mellom hvilke felter som sammenlignes. Wichor Bramer, ved Erasmus MC i Rotterdam, har utviklet en algoritme for å sette dette i system. Algoritmen er beskrevet i en artikkel publisert i Journal of the Medical Library Association (1), så jeg repeterer den ikke her, men i korte trekk: 

Algoritmen er avhengig at en endrer på sidetallene i referansene i EndNote slik at de blir skrevet på lik form (se pkt om Forkortet og full paginering). også følges et oppsett med hvilke felt som sammenlignes og hva man gjør om EndNote oppdager dubletter.

Det å endre på sidetallene kommer i konflikt med Vancouver- reglene for referering, som sier at sidetall skal forkortes (1):

Location (Pagination) for Journal Articles (required)
General Rules for Location (Pagination)
Do not repeat page numbers unless they are followed by a letter. For example: 123-125 becomes 123-5, but 124A-126A is correct.

Men om en må gå gjennom flere tusen referanser på jakt etter dubletter, så kan det allikevel være verdt det, også får en heller endre sidetallene tilbake på de studiene som skal inkluderes i den ferdige teksten.

Deduplisering ved oppdatering av søk

Algoritmen kommer også godt med når et litteratursøk skal oppdateres. Jeg blir ofte usikker om jeg gjør rett når et søk skal avgrenses på år i når det skal oppdateres, særlig i Ovid som har flere felt for dato. Noen ganger blir studier indeksert retrospektivt og disse er nyttige å få med i en oppdatering av søk, selv om de er utenfor oppdateringsdatoen.

Så hvordan oppdatere et søk sånn at den som skal gå gjennom resultatet skal slippe å gå gjennom det som er gjennomgått tidligere?

  • Ha resultatet fra det første søket i et EndNote-bibliotek. Dette bør være sjekket for dubletter.
  • Gjør oppdateringsssøket og sjekk det for dubletter.
  • Samle referanser fra nytt og gammelt søk i samme EndNote-bibliotek.
  • Sjekk deretter for dubletter. Dersom du får en dublett, så er det en referanse som var med i det første søket og som dermed har vært sett på tidligere. I en vanlig dublettsjekk slettes den ene av to dubletter, men nå skal begge slettes - fordi de er gått gjennom tidligere.

Metoden er beskrevet i denne artikkelen:

Algoritmen i bruk

På medisinsk bibliotek har vi testet algoritmen og prøver å finne ut av når det er hensiktsmessig å bruke den. Den er nok ikke hensiktsmessig å bruke ved alle typer søk, behovet melder seg når trefflisten når et ganske stort antall. I tillegg er det heller ikke sikkert at alle trenger å lære seg den, det holder kanskje at noen få får mengdetrening til å bli sikker på å bruke den og kan sjekke dubletter i søk gjort av andre. For å senke terskelen for bruk på UMED har vi oversatt algoritmen til norsk og inkludert noen av erfaringen fra RBUP.

 

Vi har også spurt Wichor Bramer om vår oversettelse av algoritmen kan legges ut her, og det fikk vi lov til.

Takk til Brynhildur Axelsdottir og Sølvi Biedilæ på RBUP for at de har delt deres erfaringer med dublettsjekken med oss. De har innarbeidet algoritmen i sitt arbeid og deres erfaringer er nyttige når vi skulle teste.

Referanser

  1. Bramer WM, Giustini D, de Jonge GB, Holland L, Bekhuis T. De-duplication of database search results for systematic reviews in EndNote. J Med Libr Assoc. 2016;104(3):240-3.
  2. Bramer W, Bain P. Updating search strategies for systematic reviews using EndNote. Journal of the Medical Library Association : JMLA. 2017;105(3):285-289.
  3. Kwon Y, Lemieux M, McTavish J, Wathen N. Identifying and removing duplicate records from systematic review searches. J Med Libr Assoc. 2015;103(4):184-8.
  4. Qi X, Yang M, Ren W, Jia J, Wang J, Han G, et al. Find Duplicates among the PubMed, EMBASE, and Cochrane Library Databases in Systematic Review. PLoS One. 2013;8(8):e71838.
Publisert 8. okt. 2018 13:22 - Sist endret 19. juni 2020 13:39