SwePub
Sök i LIBRIS databas

  Utökad sökning

WFRF:(Bäcklin Christofer)
 

Sökning: WFRF:(Bäcklin Christofer) > Developer-Friendly ...

Developer-Friendly and Computationally Efficient Predictive Modeling without Information Leakage : The emil Package for R

Bäcklin, Christofer L., 1983- (författare)
Uppsala universitet,Cancerfarmakologi och beräkningsmedicin
Gustafsson, Mats G. (författare)
Uppsala universitet,Cancerfarmakologi och beräkningsmedicin
 (creator_code:org_t)
2018
2018
Engelska.
Ingår i: Journal of Statistical Software. - : JOURNAL STATISTICAL SOFTWARE. - 1548-7660. ; 85:13, s. 1-30
  • Tidskriftsartikel (refereegranskat)
Abstract Ämnesord
Stäng  
  • Data driven machine learning for predictive modeling problems (classification, regression, or survival analysis) typically involves a number of steps beginning with data preprocessing and ending with performance evaluation. A large number of packages providing tools for the individual steps are available for R, but there is a lack of tools for facilitating rigorous performance evaluation of the complete procedures assembled from them by means of cross-validation, bootstrap, or similar methods. Such a tool should strictly prevent test set observations from influencing model training and meta- parameter tuning, so- called information leakage, in order to not produce overly optimistic performance estimates. Here we present a new package for R denoted emil (evaluation of modeling without information leakage) that offers this form of performance evaluation. It provides a transparent and highly customizable framework for facilitating the assembly, execution, performance evaluation, and interpretation of complete procedures for classification, regression, and survival analysis. The components of package emil have been designed to be as modular and general as possible to allow users to combine, replace, and extend them if needed. Package emil was also developed with scalability in mind and has a small computational overhead, which is a key requirement for analyzing the very big data sets now available in fields like medicine, physics, and finance. First package emil's functionality and usage is explained. Then three specific application examples are presented to show its potential in terms of parallelization, customization for survival analysis, and development of ensemble models. Finally a brief comparison to similar software is provided.

Ämnesord

NATURVETENSKAP  -- Data- och informationsvetenskap -- Datavetenskap (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences -- Computer Sciences (hsv//eng)
NATURVETENSKAP  -- Matematik -- Beräkningsmatematik (hsv//swe)
NATURAL SCIENCES  -- Mathematics -- Computational Mathematics (hsv//eng)

Nyckelord

predictive modeling
machine learning
performance evaluation
resampling
high performance computing

Publikations- och innehållstyp

ref (ämneskategori)
art (ämneskategori)

Hitta via bibliotek

Till lärosätets databas

Hitta mer i SwePub

Av författaren/redakt...
Bäcklin, Christo ...
Gustafsson, Mats ...
Om ämnet
NATURVETENSKAP
NATURVETENSKAP
och Data och informa ...
och Datavetenskap
NATURVETENSKAP
NATURVETENSKAP
och Matematik
och Beräkningsmatema ...
Artiklar i publikationen
Journal of Stati ...
Av lärosätet
Uppsala universitet

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy