SwePub
Sök i LIBRIS databas

  Utökad sökning

WFRF:(Johansson Inger 1962)
 

Sökning: WFRF:(Johansson Inger 1962) > Masked Autoencoder ...

Masked Autoencoder for Self-Supervised Pre-Training on Lidar Point Clouds

Hess, Georg, 1996 (författare)
Chalmers tekniska högskola,Chalmers University of Technology
Jaxing, Johan (författare)
Chalmers tekniska högskola,Chalmers University of Technology
Svensson, Elias (författare)
Chalmers tekniska högskola,Chalmers University of Technology
visa fler...
Hagerman Olzon, David, 1987 (författare)
Chalmers tekniska högskola,Chalmers University of Technology
Petersson, Christoffer, 1979 (författare)
Chalmers tekniska högskola,Chalmers University of Technology
Svensson, Lennart, 1976 (författare)
Chalmers tekniska högskola,Chalmers University of Technology
visa färre...
 (creator_code:org_t)
2023
2023
Engelska.
Ingår i: Proceedings - 2023 IEEE/CVF Winter Conference on Applications of Computer Vision Workshops, WACVW 2023. ; , s. 350-359
  • Konferensbidrag (refereegranskat)
Abstract Ämnesord
Stäng  
  • Masked autoencoding has become a successful pretraining paradigm for Transformer models for text, images, and, recently, point clouds. Raw automotive datasets are suitable candidates for self-supervised pre-training as they generally are cheap to collect compared to annotations for tasks like 3D object detection (OD). However, the development of masked autoencoders for point clouds has focused solely on synthetic and indoor data. Consequently, existing methods have tailored their representations and models toward small and dense point clouds with homogeneous point densities. In this work, we study masked autoencoding for point clouds in an automotive setting, which are sparse and for which the point density can vary drastically among objects in the same scene. To this end, we propose Voxel-MAE, a simple masked autoencoding pre-training scheme designed for voxel representations. We pre-train the backbone of a Transformer-based 3D object detector to reconstruct masked voxels and to distinguish between empty and non-empty voxels. Our method improves the 3D OD performance by 1.75 mAP points and 1.05 NDS on the challenging nuScenes dataset. Further, we show that by pre-training with Voxel-MAE, we require only 40 of the annotated data to outperform a randomly initialized equivalent. Code is available at https://github.com/georghess/voxel-mae.

Ämnesord

NATURVETENSKAP  -- Data- och informationsvetenskap -- Datorseende och robotik (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences -- Computer Vision and Robotics (hsv//eng)

Nyckelord

3d object detection
Self-supervised
Object detection
Voxel-MAE
Deep learning
Masked autoencoding

Publikations- och innehållstyp

kon (ämneskategori)
ref (ämneskategori)

Till lärosätets databas

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy