SwePub
Sök i LIBRIS databas

  Utökad sökning

id:"swepub:oai:lup.lub.lu.se:3aeb382c-fa6d-4304-b442-679808487ac4"
 

Sökning: id:"swepub:oai:lup.lub.lu.se:3aeb382c-fa6d-4304-b442-679808487ac4" > Turning vice into v...

Turning vice into virtue : Using Batch-Effects to Detect Errors in Large Genomic Datasets

Mafessoni, Fabrizio (författare)
Max Planck Institute for Evolutionary Anthropology
Prasad, Rashmi B (författare)
Lund University,Lunds universitet,Genomik, diabetes och endokrinologi,Forskargrupper vid Lunds universitet,Genomics, Diabetes and Endocrinology,Lund University Research Groups
Groop, Leif (författare)
Lund University,Lunds universitet,Genomik, diabetes och endokrinologi,Forskargrupper vid Lunds universitet,Genomics, Diabetes and Endocrinology,Lund University Research Groups,Institute for Molecular Medicine Finland (FIMM)
visa fler...
Hansson, Ola (författare)
Lund University,Lunds universitet,Genomik, diabetes och endokrinologi,Forskargrupper vid Lunds universitet,Genomics, Diabetes and Endocrinology,Lund University Research Groups
Prüfer, Kay (författare)
Max Planck Institute for Evolutionary Anthropology
visa färre...
 (creator_code:org_t)
2018-09-10
2018
Engelska.
Ingår i: Genome Biology and Evolution. - : Oxford University Press (OUP). - 1759-6653. ; 10:10, s. 2697-2708
  • Tidskriftsartikel (refereegranskat)
Abstract Ämnesord
Stäng  
  • It is often unavoidable to combine data from different sequencing centers or sequencing platforms when compiling datasets with a large number of individuals. However, the different data are likely to contain specific systematic errors that will appear as SNPs. Here, we devise a method to detect systematic errors in combined datasetIs. To measure quality differences between individual genomes, we study pairs of variants that reside on different chromosomes and co-occur in individuals. The abundance of these pairs of variants in different genomes is then used to detect systematic errors due to batch effects. Applying our method to the 1000 Genomes dataset, we find that coding regions are enriched for errors, where about 1% of the higher-frequency variants are predicted to be erroneous, whereas errors outside of coding regions are much rarer (<0.001%).As expected, predicted errors are found less often than other variants in a dataset that was generated with a different sequencing technology, indicating that many of the candidates are indeed errors. However, predicted 1000 Genomes errors are also found in other large datasets; our observation is thus not specific to the 1000 Genomes dataset. Our results show that batch effects can be turned into a virtue by using the resulting variation in large scale datasets to detect systematic errors.

Ämnesord

NATURVETENSKAP  -- Biologi -- Genetik (hsv//swe)
NATURAL SCIENCES  -- Biological Sciences -- Genetics (hsv//eng)
NATURVETENSKAP  -- Biologi -- Bioinformatik och systembiologi (hsv//swe)
NATURAL SCIENCES  -- Biological Sciences -- Bioinformatics and Systems Biology (hsv//eng)

Publikations- och innehållstyp

art (ämneskategori)
ref (ämneskategori)

Hitta via bibliotek

Till lärosätets databas

Hitta mer i SwePub

Av författaren/redakt...
Mafessoni, Fabri ...
Prasad, Rashmi B
Groop, Leif
Hansson, Ola
Prüfer, Kay
Om ämnet
NATURVETENSKAP
NATURVETENSKAP
och Biologi
och Genetik
NATURVETENSKAP
NATURVETENSKAP
och Biologi
och Bioinformatik oc ...
Artiklar i publikationen
Genome Biology a ...
Av lärosätet
Lunds universitet

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy