Using machine learning in the medical field : speaker signal processing and distributed learning systems

Barhoush, Mahdi; Leonhardt, Steffen; Schmeink, Anke

doi:42823

Using machine learning in the medical field : speaker signal processing and distributed learning systems

Barhoush, Mahdi^RWTH*

2023 & 2024

Verantwortlichkeitsangabevorgelegt von Mahdi Barhoush, M.Sc.

ImpressumAachen : RWTH Aachen University 2023

Umfang1 Online-Ressource : Illustrationen

Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2023

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2024

Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
Schmeink, Anke (Thesis advisor)^RWTH* ; Leonhardt, Steffen (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2023-11-02

Online
DOI: 10.18154/RWTH-2023-11131
URL: https://publications.rwth-aachen.de/record/973982/files/973982.pdf

Einrichtungen

Lehrstuhl für Informationstheorie und Datenanalytik (617110)

Thematische Einordnung (Klassifikation)
DDC: 621.3

Kurzfassung
In dieser Arbeit wird die Schnittstelle zwischen Technologie und Gesundheitswesen durch maschinelles Lernen erforscht, wobei der Schwerpunkt auf der Verbesserung der Ergebnisse im Gesundheitswesen und der Erkundung möglicher Anwendungen im medizinischen Bereich liegt. Konkret zielt die Arbeit darauf ab, die Genauigkeit und Effizienz der Kommunikation im Gesundheitswesen und die Ergebnisse für die Patienten zu verbessern und gleichzeitig wichtige Themen wie Datenschutz, Datenknappheit, Ressourcenbeschränkungen und Rauschunterdrückung zu behandeln. Die vorgeschlagenen Methoden umfassen die Verarbeitung von Lautsprechersignalen, Deep Learning, Meta-Learning, halb-überwachte Algorithmen und verteilte Lernsysteme. In dieser Arbeit wird ein neues Modell zur durchgängigen Sprecheridentifizierung und -lokalisierung vorgeschlagen, das ein einfaches, vollständig verbundenes tiefes neuronales Netzwerk und neuartige MFCC-basierte Merkmale verwendet. Es ist in der Lage, einen aktiven Sprecher sowohl in Einzel- als auch in Mehrsprecherszenarien genau zu lokalisieren und zu identifizieren, wobei es auch bei kleinen Mengen von Trainingsdaten robust ist. Darüber hinaus befasst sich die Arbeit mit dem Problem der 3D-Lokalisierung und Verbesserung von Sprache in verrauschten Krankenhausumgebungen mit mehreren Sprechern unter Verwendung eines mehrkanaligen Mikrofonarrays und eines maschinellen Lernmodells. Darüber hinaus vergleicht die Arbeit die Leistung moderner semi-supervised Lernalgorithmen auf Edge-Geräten mit eingeschränkten Ressourcen, wobei die Vorliebe für einfache Algorithmen hervorgehoben wird, die eine angemessene Leistung bei geringerer Rechenleistung und geringerem Speicherverbrauch bieten. Schließlich wird in dieser Arbeit ein verteiltes Lernsystem vorgeschlagen, das die hybride Edge-Cloud-Split-Learning-Architektur mit dem halbüberwachten Lernschema kombiniert. Das System wurde sowohl an medizinischen als auch an nicht-medizinischen Datensätzen getestet und nutzt effizient lokale, unbeschriftete Stichproben auf der Client-Seite, wobei es eine hohe Leistung erzielt, den Datenschutz wahrt und weniger Verarbeitungsleistung und Konvergenzzeit benötigt.

This thesis explores the intersection of technology and healthcare through machine learning, with a focus on improving healthcare outcomes and exploring potential applications in the medical field. Specifically, the thesis aims to improve the accuracy and efficiency of communication in healthcare settings and patient outcomes while addressing important issues such as data privacy, data scarcity, resource constraints, and noise reduction. The proposed methods include speaker signal processing, deep learning, meta-learning, semi-supervised algorithms, and distributed learning systems. The thesis proposes a new end-to-end speaker identification and localization model using a simple, fully connected deep neural network and novel MFCC-based features. It can accurately locate and identify an active speaker in single- and multi-speaker scenarios, achieving robustness even with small amounts of training data. Additionally, the thesis addresses the problem of 3D-localizing and enhancing speech in noisy multi-speaker hospital environments using a multi-channel microphone array beamforming and a machine learning model. Moreover, the thesis compares the performance of modern semi-supervised learning algorithms on edge devices with constrained resources, highlighting the preference for simple algorithms that provide adequate performance with less computation power and memory usage. Finally, the thesis proposes a distributed learning system that merges the hybrid edge-cloud split-learning architecture with the semi-supervised learning scheme. The system was tested on both medical and non-medical datasets and efficiently utilizes local unlabeled samples on the client side, achieving high performance, preserving data privacy, and requiring less processing power and convergence time.

OpenAccess:
Download fulltext PDF
(additional files)