SwePub
Tyck till om SwePub Sök här!
Sök i LIBRIS databas

  Utökad sökning

L773:1367 4803
 

Sökning: L773:1367 4803 > Forslund Kristoffer > Benchmarking the ne...

Benchmarking the next generation of homology inference tools

Saripella, Ganapathi Varma (författare)
Stockholms universitet,Institutionen för biokemi och biofysik,Science for Life Laboratory (SciLifeLab)
Sonnhammer, Erik L. L. (författare)
Stockholms universitet,Institutionen för biokemi och biofysik,Science for Life Laboratory (SciLifeLab)
Forslund, Kristoffer (författare)
 (creator_code:org_t)
2016-06-01
2016
Engelska.
Ingår i: Bioinformatics. - : Oxford University Press (OUP). - 1367-4803 .- 1367-4811. ; 32:17, s. 2636-2641
  • Tidskriftsartikel (refereegranskat)
Abstract Ämnesord
Stäng  
  • Motivation: Over the last decades, vast numbers of sequences were deposited in public databases. Bioinformatics tools allow homology and consequently functional inference for these sequences. New profile-based homology search tools have been introduced, allowing reliable detection of remote homologs, but have not been systematically benchmarked. To provide such a comparison, which can guide bioinformatics workflows, we extend and apply our previously developed benchmark approach to evaluate the 'next generation' of profile-based approaches, including CS-BLAST, HHSEARCH and PHMMER, in comparison with the non-profile based search tools NCBI-BLAST, USEARCH, UBLAST and FASTA. Method: We generated challenging benchmark datasets based on protein domain architectures within either the PFAM+Clan, SCOP/Superfamily or CATH/Gene3D domain definition schemes. From each dataset, homologous and non-homologous protein pairs were aligned using each tool, and standard performance metrics calculated. We further measured congruence of domain architecture assignments in the three domain databases. Results: CSBLAST and PHMMER had overall highest accuracy. FASTA, UBLAST and USEARCH showed large trade-offs of accuracy for speed optimization. Conclusion: Profile methods are superior at inferring remote homologs but the difference in accuracy between methods is relatively small. PHMMER and CSBLAST stand out with the highest accuracy, yet still at a reasonable computational cost. Additionally, we show that less than 0.1% of Swiss-Prot protein pairs considered homologous by one database are considered non-homologous by another, implying that these classifications represent equivalent underlying biological phenomena, differing mostly in coverage and granularity.

Ämnesord

NATURVETENSKAP  -- Biologi (hsv//swe)
NATURAL SCIENCES  -- Biological Sciences (hsv//eng)
TEKNIK OCH TEKNOLOGIER  -- Miljöbioteknik (hsv//swe)
ENGINEERING AND TECHNOLOGY  -- Environmental Biotechnology (hsv//eng)
NATURVETENSKAP  -- Data- och informationsvetenskap (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences (hsv//eng)
NATURVETENSKAP  -- Matematik (hsv//swe)
NATURAL SCIENCES  -- Mathematics (hsv//eng)

Publikations- och innehållstyp

ref (ämneskategori)
art (ämneskategori)

Hitta via bibliotek

Till lärosätets databas

Hitta mer i SwePub

Av författaren/redakt...
Saripella, Ganap ...
Sonnhammer, Erik ...
Forslund, Kristo ...
Om ämnet
NATURVETENSKAP
NATURVETENSKAP
och Biologi
TEKNIK OCH TEKNOLOGIER
TEKNIK OCH TEKNO ...
och Miljöbioteknik
NATURVETENSKAP
NATURVETENSKAP
och Data och informa ...
NATURVETENSKAP
NATURVETENSKAP
och Matematik
Artiklar i publikationen
Bioinformatics
Av lärosätet
Stockholms universitet

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy