SwePub
Sök i LIBRIS databas

  Utökad sökning

L773:0893 6080
 

Sökning: L773:0893 6080 > Leveraging hierarch...

  • Vasco, M. (författare)

Leveraging hierarchy in multimodal generative models for effective cross-modality inference

  • Artikel/kapitelEngelska2022

Förlag, utgivningsår, omfång ...

  • Elsevier BV,2022
  • printrdacarrier

Nummerbeteckningar

  • LIBRIS-ID:oai:DiVA.org:kth-313622
  • https://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-313622URI
  • https://doi.org/10.1016/j.neunet.2021.11.019DOI

Kompletterande språkuppgifter

  • Språk:engelska
  • Sammanfattning på:engelska

Ingår i deldatabas

Klassifikation

  • Ämneskategori:ref swepub-contenttype
  • Ämneskategori:art swepub-publicationtype

Anmärkningar

  • QC 20220609
  • This work addresses the problem of cross-modality inference (CMI), i.e., inferring missing data of unavailable perceptual modalities (e.g., sound) using data from available perceptual modalities (e.g., image). We overview single-modality variational autoencoder methods and discuss three problems of computational cross-modality inference, arising from recent developments in multimodal generative models. Inspired by neural mechanisms of human recognition, we contribute the NEXUS model, a novel hierarchical generative model that can learn a multimodal representation of an arbitrary number of modalities in an unsupervised way. By exploiting hierarchical representation levels, NEXUS is able to generate high-quality, coherent data of missing modalities given any subset of available modalities. To evaluate CMI in a natural scenario with a high number of modalities, we contribute the “Multimodal Handwritten Digit” (MHD) dataset, a novel benchmark dataset that combines image, motion, sound and label information from digit handwriting. We access the key role of hierarchy in enabling high-quality samples during cross-modality inference and discuss how a novel training scheme enables NEXUS to learn a multimodal representation robust to missing modalities at test time. Our results show that NEXUS outperforms current state-of-the-art multimodal generative models in regards to their cross-modality inference capabilities. 

Ämnesord och genrebeteckningar

Biuppslag (personer, institutioner, konferenser, titlar ...)

  • Yin, HangKTH,Robotik, perception och lärande, RPL(Swepub:kth)u1q02pve (författare)
  • Melo, F. S. (författare)
  • Paiva, A. (författare)
  • KTHRobotik, perception och lärande, RPL (creator_code:org_t)

Sammanhörande titlar

  • Ingår i:Neural Networks: Elsevier BV146, s. 238-2550893-60801879-2782

Internetlänk

Hitta via bibliotek

Till lärosätets databas

Hitta mer i SwePub

Av författaren/redakt...
Vasco, M.
Yin, Hang
Melo, F. S.
Paiva, A.
Om ämnet
TEKNIK OCH TEKNOLOGIER
TEKNIK OCH TEKNO ...
och Elektroteknik oc ...
och Datorsystem
NATURVETENSKAP
NATURVETENSKAP
och Data och informa ...
och Datorseende och ...
NATURVETENSKAP
NATURVETENSKAP
och Data och informa ...
och Datavetenskap
Artiklar i publikationen
Neural Networks
Av lärosätet
Kungliga Tekniska Högskolan

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy