SwePub
Sök i LIBRIS databas

  Utökad sökning

WFRF:(Torra Vicenç Professor)
 

Sökning: WFRF:(Torra Vicenç Professor) > (2023) > Towards Privacy Pre...

Towards Privacy Preserving Intelligent Systems

Khan, Md Sakib Nizam, 1990- (författare)
KTH,Teoretisk datalogi, TCS
Buchegger, Sonja, Professor (preses)
KTH,Teoretisk datalogi, TCS
Torra, Vicenc, Professor (opponent)
Umeå University
 (creator_code:org_t)
ISBN 9789180405829
Stockholm : KTH Royal Institute of Technology, 2023
Engelska xii, 41 s.
  • Doktorsavhandling (övrigt vetenskapligt/konstnärligt)
Abstract Ämnesord
Stäng  
  • Intelligent systems, i.e., digital systems containing smart devices that can gather, analyze, and act in response to the data they collect from their surrounding environment, have progressed from theory to application especially in the last decade, thanks to the recent technological advances in sensors and machine learning. These systems can take decisions on users' behalf dynamically by learning their behavior over time. The number of such smart devices in our surroundings is increasing rapidly. Since these devices in most cases handle privacy-sensitive data, privacy concerns are also increasing at a similar rate. However, privacy research has not been in sync with these developments. Moreover, the systems are heterogeneous in nature (e.g., in terms of form factor, energy, processing power, use case scenarios, etc.) and continuously evolving which makes the privacy problem even more challenging.In this thesis, we identify open privacy problems of intelligent systems and later propose solutions to some of the most prominent ones. We first investigate privacy concerns in the context of data stored on a single smart device. We identify that ownership change of a smart device can leak privacy-sensitive information stored on the device. To solve this, we propose a framework to enhance the privacy of owners during ownership change of smart devices based on context detection and data encryption. Moving from the single-device setting to more complex systems involving multiple devices, we conduct a systematic literature review and a review of commercial systems to identify the unique privacy concerns of home-based health monitoring systems. From the review, we distill a common architecture covering most commercial and academic systems, including an inventory of what concerns they address, their privacy considerations, and how they handle the data. Based on this, we then identify potential privacy intervention points of such systems.For the publication of collected data or a machine-learning model trained on such data, we explore the potential of synthetic data as a tool for achieving a better trade-off between privacy and utility compared to traditional privacy-enhancing approaches. We perform a thorough assessment of the utility of synthetic tabular data. Our investigation reveals that none of the commonly used utility metrics for assessing how well synthetic data corresponds to the original data can predict whether for any given univariate or multivariate statistical analysis (when the analysis is not known beforehand) synthetic data achieves utility similar to the original data. For machine learning-based classification tasks, however, the metric Confidence Interval Overlap shows a strong correlation with how similarly the machine learning models (i.e., trained on synthetic vs. original) perform. Concerning privacy, we explore membership inference attacks against machine learning models which aim at finding out whether some (or someone's) particular data was used to train the model. We find from our exploration that training on synthetic data instead of original data can significantly reduce the effectiveness of membership inference attacks. For image data, we propose a novel methodology to quantify, improve, and tune the privacy utility trade-off of the synthetic image data generation process compared to the traditional approaches.Overall, our exploration in this thesis reveals that there are several open research questions regarding privacy at different phases of the data lifespan of intelligent systems such as privacy-preserving data storage, possible inferences due to data aggregation, and the quantification and improvement of privacy utility trade-off for achieving better utility at an acceptable level of privacy in a data release. The identified privacy concerns and their corresponding solutions presented in this thesis will help the research community to recognize and address remaining privacy concerns in the domain. Solving the concerns will encourage the end-users to adopt the systems and enjoy the benefits without having to worry about privacy.
  • Intelligenta system, d.v.s. digitala system som innehåller smarta enheter som kan samla in, analysera och agera beroende på den data de samlar in från sin omgivning, har gått från teori till tillämpning, särskilt under det senaste decenniet, tack vare tekniska framsteg inom sensorer och maskininlärning. Dessa system kan fatta beslut åt användarna på ett dynamiskt sätt genom att lära sig deras beteende över tid. Antalet sådana smarta enheter i vår omgivning  ökar snabbt. Eftersom dessa enheter i de flesta fall hanterar integritetskänsliga data, ökar integritetsproblemen också i samma takt. Dock har forskningen kring skydd av personlig information och integritet inte varit i synk med denna utveckling. Dessutom är systemenheterogena (t.ex. när det gäller formfaktor, energi, beräkningskapacitet, användningsområden, etc.) och de utvecklas ständigt vilket gör att integritetsproblem blir ännu mer utmanande.I denna avhandling identifierar vi integritetsproblem för intelligenta system och föreslår lösningar på några av de mest framstående problemen. Vi undersöker först integritetsproblem i samband med data som lagras på en enda smart enhet. Vi noterar att när en smart enhete byter ägare kan integritetskänslig information lagrad på enheten komma i orätta händer. För att lösa detta föreslår vi ett ramverk för att förbättra integriteten för ägarna under sådana ägarbyten. Ramverket använder sig av tekniker för att detektera miljöombyte och kryptering av data. Sedan går vi från scenariot med en enda enhet till mer komplexa system som involverar flera enheter. Vi genomför en systematisk litteraturstudie och en genomgång av kommersiella system för att identifiera de unika integritetsproblemen som uppstår hos hembaserade hälsoövervakningssystem. Från studien destillerar vi en gemensam arkitektur som täcker de flesta kommersiella och akademiskt producerade system, samt en inventering av vilka problem de tar upp, deras integritetshänsyn och hur de hanterar ägarens data. Utifrån detta har vi då identifierat potentiella ställen för integritetsskydd för sådana system.För att dela insamlad data eller en maskininlärningsmodell tränad på sådana data med andra utforksar vi huruvida syntetiskt data kan användas som ett verktyg för att uppnå en bättre avvägning mellan integritet och nytta jämfört med traditionella integritetshöjande tillvägagångssätt. Vi gör en grundlig bedömning av användbarheten av syntetiska tabelldata vad gäller korrekthet. Vår undersökning visar att ingen av de vanliga måtten för hur väl syntetisk data motsvarar originaldata kan förutsäga om, för en given univariat eller multivariat statistisk analys (när analysen inte är känd i förväg), syntetiska data uppnår nytta liknande originaldata. För maskininlärningsbaserade klassificeringsuppgifter visar dock metriken överlapp av konfidensintervaller en stark korrelation mellan hur lika maskininlärningsmodellerna (d.v.s. tränade på syntetiska vs. originaldata) presterar. När det gäller integritet utforskar vi attacker mot maskininlärningsmodeller som syftar till ta reda på om vissa (eller någons) särskilda data användes för att träna modellen. Vår forskning visar att träning på syntetisk data istället av originaldata kan avsevärt minska effektiviteten av sådana attacker. För bilddata föreslår vi en ny metod för att kvantifiera, förbättra och justera avvägningen mellan integritet och nytta jämfört med de traditionella metoderna.Sammantaget visar vår utforskning i denna avhandling att det finns flera öppna forskningsfrågor angående integritet vid olika faser av databehandling inom intelligenta system, så som integritetsbevarande datalagring, möjliga oönskade slutsatser på grund av dataaggregering, och kvantifiering och förbätt-ring av avvägningen mellan integritet och nytta av data, för att uppnå bättre nytta på en acceptabel nivå av integritet när man delar data med andra. De identifierade integritetsproblemen och deras motsvarande lösningar som presenteras i denna avhandling kommer att hjälpa forskarsamhället att känna igen och åtgärda återstående integritetsproblem i domänen. Om problemen lösas kommer det att uppmuntra slutanvändarna att använda nya system och dra nytta av fördelarna utan att behöva oroa sig för integritet. 

Ämnesord

NATURVETENSKAP  -- Data- och informationsvetenskap -- Datavetenskap (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences -- Computer Sciences (hsv//eng)

Nyckelord

Privacy
Intelligent Systems
Synthetic data
Machine Learning
Datalogi
Computer Science

Publikations- och innehållstyp

vet (ämneskategori)
dok (ämneskategori)

Hitta via bibliotek

Till lärosätets databas

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy