SwePub
Sök i LIBRIS databas

  Utökad sökning

WFRF:(Tysklind Mats Professor)
 

Sökning: WFRF:(Tysklind Mats Professor) > How can data scienc...

How can data science contribute to a greener world? : an exploration featuring machine learning and data mining for environmental facilities and energy end users

Wang, Dong, 1987- (författare)
Umeå universitet,Kemiska institutionen,Green Technology and Environmental Economics
Tysklind, Mats, Professor (preses)
Umeå universitet,Kemiska institutionen
Trygg, Johan, Professor (preses)
Umeå universitet,Kemiska institutionen
visa fler...
Jiang, Lili, Associate professor (preses)
Umeå universitet,Institutionen för datavetenskap
Venkatasubramanian, Venkat, Professor (opponent)
Columbia University, New York, USA
visa färre...
 (creator_code:org_t)
ISBN 9789178557196
Umeå : Umeå University, 2021
Engelska 49 s.
  • Doktorsavhandling (övrigt vetenskapligt/konstnärligt)
Abstract Ämnesord
Stäng  
  • Human society has taken many measures to address environmental issues. For example, deploying wastewater treatment plants (WWTPs) to alleviate water pollution and the shortage of usable water; using waste-to-energy (WtE) plants to recover energy from the waste and reduce its environmental impact. However, managing these facilities is taxing because the processes and operations are always complex and dynamic. These characteristics hinder the comprehensive and precise understanding of the processes through the conventional mechanistic models. On the other hand, with the development of the Fourth Industrial Revolution, large-volume and high-resolution data from automatic online monitoring have become increasingly obtainable. These data usually reflect abundant detailed information of process activities that can be utilized for optimizing process control. Similarly, data monitoring is also adopted by the resource end users. For example, energy consumption is usually recorded by commercial buildings for optimizing energy consumption behavior, eventually saving running costs and reducing carbon footprint. With the data recorded and retrieved, appropriate data science methods need to be employed to extract the desired information. Data science is a field incorporating formulating data-driven solutions, data preprocessing, analyzing data with particular algorithms, and employing results to support high-level decisions in various application scenarios.The aim of this PhD project is to explore how data science can contribute to a more sustainable world from the perspectives of both improving the operation of environmental engineering processes and optimizing the activities of energy end users. The major work and corresponding results are as follows:(1) (Paper I) An ML workflow consisting of Random Forest (RF) models, Deep Neural Network (DNN) models, Variable Importance Measure (VIM) analyses, and Partial Dependence Plot (PDP) analyses was developed and utilized to model WWTP processes and reveal how operational features impact on effluent quality. The case study was conducted on a full-scale WWTP in Sweden with large data (105,763 samples). This paper was the first ML application study investigating cause-and-effect relationships for full-scale WWTPs. Also, for the first time, time lags between process parameters were treated rigorously for accurate information uncovering. The cause-and-effect findings in this paper can contribute to more sophisticated process control that is more precise and cost-effective. (2) (Paper II) An upgraded workflow was designed to enhance the WWTP cause-and-effect investigation to be more precise, reliable, and comprehensive. Besides RF, two more typical tree-based models, XGBoost and LightGBM, were introduced. Also, two more metrics were adopted for a more comprehensive performance evaluation. A unified and more advanced interpretation method, SHapley Additive exPlanations (SHAP), was employed to aid model comparison and interpret the optimal models more profoundly. Along with the new local findings, this study delivered two significant general findings for cause-and-effect ML implementations in process industries. First, multi-perspective model comparison is vital for selecting a truly reliable model for interpretation. Second, adopting an accurate and granular interpretation method can profit both model comparison and interpretation.(3) (Paper III) A novel workflow was proposed to identify the accountable operational factors for boiler failures at WtE plants. In addition to data preprocessing and domain knowledge integration, it mainly comprised feature space embedding and unsupervised clustering. Two methods, PCA + K-means and Deep Embedding Clustering (DEC), were carried out and compared. The workflow succeeded in fulfilling the objective of a case study on three datasets from a WtE plant in Sweden, and DEC outperformed PCA + K-means for all the three datasets. DEC was superior due to its unique mechanism in which the embedding module and K-means are trained simultaneously and iteratively with the bidirectional information pass.(4) (Paper IV) A two-level (data structure level and algorithm mechanism level) workflow was put forward to detect imperceptible anomalies in energy consumption profiles of commercial buildings. The workflow achieved two objectives – it precisely detected the contextual energy anomalies hidden behind the time variation in the case study; it investigated the combined influence of data structures and algorithm mechanisms on unsupervised anomaly detection for building energy consumption. The overall conclusion was that the contextualization resulted in a less skewed estimation of correlations between instances, and the algorithms with more local perspectives benefited more from the contextualization.
  • Dagens samhälle har vidtagit många åtgärder för att lösa miljöproblem. Exempel är reningsverk för avloppsvatten för att minska efffekter av vattenföroreningar och öka mängden av användbart vatten och använda avfall-till-energi (WtE) anläggningar för att återvinna energi från avfallet och minska dess miljöpåverkan. Det kan dock vara krävande att hantera dessa anläggningar eftersom processerna oftast är komplexa och dynamiska. Komplexiteten i processerna kan hindra en heltäckande och exakta förståelsen av processerna genom konventionella mekanistiska modellerna. Å andra sidan, med utvecklingen av s k Industri 4.0 har stora volymer och högupplösta data från automatisk onlineövervakning blivit alltmer tillgängliga. Dessa data återspeglar vanligtvis detaljerad information om processaktiviteter som kan användas för att optimera processkontroll. På samma sätt antas dataövervakning också ha ett stort värde för slutanvändare. Till exempel registreras energiförbrukningen av kommersiella byggnader vanligtvis för att optimera energiförbrukning, för att i förlängningen spara driftskostnader och minska koldioxidavtryck. För att uppnå maximal kunskap från inhämtade data måste dessa bearbetas med lämpliga datavetenskapliga metoder för att extrahera ut den önskade informationen. Datavetenskap är ett område som innefattar formulering av datadrivna lösningar, dataförbehandling, analys av data med speciella algoritmer och användning av resultat för att stödja beslut på i olika tillämpningsscenarier.Syftet med detta doktorandprojekt har varit att utforska hur datavetenskap kan bidra till en mer hållbar värld utifrån perspektiven att både förbättra driften av miljötekniska processer och optimera energianvändning i byggnader. Sammanfattning av resultaten är följande:Paper I - Ett Machine Learning (ML)-arbetsflöde bestående av Random Forest (RF)-modeller, Deep Neural Network (DNN)-modeller, Variable Importance Measure (VIM)-analyser och PDP-analyser (Partial Dependence Plot) utvecklades och användes för att modellera avloppsvattenreningsprocess och identifiera operativa funktioner påverkar avloppskvaliteten. Fallstudien genomfördes på ett fullskaligt reningsverk i Umeå, Sverige med stora data (105 763 prover). Detta arbete är en av de första ML-tillämpningarna som undersökt orsak-verkan-samband för fullskaliga reningsverk. För första gången behandlades också tidsfördröjningar mellan processparametrar för att ge optimal och korrekt information. Resultaten  i detta arbete kan bidrar till en mer exakt och kostnadseffektiv processkontroll.Paper II - Ett uppgraderat arbetsflöde utformades för att förbättra undersökningen av reningsverkets orsak-verkansamband. Förutom RF introducerades ytterligare två typer av  beslutträdsmodeller, XGBoost och LightGBM. Dessutom antogs ytterligare två mätvärden för en mer omfattande av utvärdering av prestanda. En enhetlig och mer avancerad tolkningsmetod, SHapley Additive exPlanations (SHAP), användes för modelljämförelser och tolkning av de optimala modellerna. Arbetet resulterade i  två allmänna observationer kring orsak-och-verkan genom ML-implementationer i processindustrier. För det första är jämförelse av multiperspektivmodeller avgörande för att välja en  tillförlitlig modell för tolkning. För det andra kan implementering av en  granulär tolkningsmetod tjäna både modelljämförelse och tolkning.Paper III - Ett nytt arbetsflöde föreslogs för att identifiera de driftsfaktorerna kopplade till oplanerade stopp hos pannor vid avfallsförbränningsanläggningar. Förutom dataförbearbetning och domänkunskapsintegration omfattade det  sammfattning av data till underliggande strukturer  och  olika klustringsmodeller. Två metoder, PCA + K-means och Deep Embedding Clustering (DEC), genomfördes och jämfördes. Metoderna applicerades på i en fallstudie på tre datamängder kopplade till oplanerade stopp vid en fullskalig WtE-anläggning i Umeå, Sverige.  DEC visade sig överträffa PCA + K-means för alla tre datamängderna. Paper IV - Ett arbetsflöde på två nivåer (datastrukturnivå och algoritmmekanismnivå) presenterades för att upptäcka anomalier i energiförbrukningsprofiler för kommersiella byggnader. Arbetsflödet uppnådde två mål, dels identifierade de kontextuella energianomalier som gömdes bakom tidsvariationen i fallstudien och dels undersöktes den kombinerade inverkan av datastrukturer och algoritmmekanismer på oövervakad anomalidetektering för byggnaders energiförbrukning. Den övergripande slutsatsen var att kontextualiseringen resulterade i en mindre skev uppskattning av korrelationer mellan instanser, och algoritmerna med mer lokala perspektiv gynnades mer av kontextualiseringen.

Ämnesord

NATURVETENSKAP  -- Matematik -- Beräkningsmatematik (hsv//swe)
NATURAL SCIENCES  -- Mathematics -- Computational Mathematics (hsv//eng)
NATURVETENSKAP  -- Data- och informationsvetenskap (hsv//swe)
NATURAL SCIENCES  -- Computer and Information Sciences (hsv//eng)
TEKNIK OCH TEKNOLOGIER  -- Samhällsbyggnadsteknik (hsv//swe)
ENGINEERING AND TECHNOLOGY  -- Civil Engineering (hsv//eng)

Nyckelord

Wastewater treatment
Process analytics
Big data
Machine learning
Interpretable AI
Power plants
Failure analysis
Data mining
Buildings
Energy consumption
Anomaly detection

Publikations- och innehållstyp

vet (ämneskategori)
dok (ämneskategori)

Hitta via bibliotek

Till lärosätets databas

Sök utanför SwePub

Kungliga biblioteket hanterar dina personuppgifter i enlighet med EU:s dataskyddsförordning (2018), GDPR. Läs mer om hur det funkar här.
Så här hanterar KB dina uppgifter vid användning av denna tjänst.

 
pil uppåt Stäng

Kopiera och spara länken för att återkomma till aktuell vy