05/20/2025 | Press release | Archived content
Wie lassen sich technische Systeme so entwickeln, dass sie menschliche Bewegungen erfassen und dabei Rücksicht auf Privatsphäre nehmen? Daran arbeitet Professor Dr. Helge Rhodin von der Technischen Fakultät der Universität Bielefeld. Der Informatiker leitet die Forschungsgruppe Visual AI for Extended Reality (Visuelle KI für Ausgeweitete Realität) und entwickelt mit seinem Team Algorithmen, die das Zusammenspiel von Mensch und Technik zuverlässiger und sicherer machen.
Wo stehen wir bei der Entwicklung von generativer visueller Künstlicher Intelligenz?
Helge Rhodin: Wir sind beeindruckend weit - zumindest was die Ergebnisse betrifft. Tagesaktuell sehen wir zum Beispiel, dass KI-Bilder im Stil berühmter Künstler*innen generieren kann. Aber dabei wird oft übersehen: Die Kreativität kommt noch stark vom Menschen, der Stil wird nur übertragen nicht kreiert. Im Kontext der Sorge, dass KI Menschen ersetzt ist dies ein sehr beruhigender Gedanke.
© Universität Bielefeld
Sie forschen an der Schnittstelle von Computer Vision und Grafik - woran genau arbeiten Sie?
Helge Rhodin: Für mich ist Extended Reality, XR, der große Rahmen. Maschinen sollen die reale Welt "verstehen" lernen - vor allem den Menschen und seine Bewegungen. Dazu kombinieren wir bildgebende Verfahren und Computer Vision: also zum einen, wie man Informationen naturgetreu darstellen kann, und zum anderen, wie Maschinen aus Kameraaufnahmen rekonstruieren, was gerade passiert. Unser Ziel sind einfache, alltagstaugliche Lösungen. Das sind zum Beispiel Algorithmen, die allein mit einer kleinen Kamera funktionieren und Bewegungen in Echtzeit erkennen. Gerade für Anwendungen für virtuelle oder erweiterte Realität, also VR oder AR, ist das entscheidend, weil dort keine aufwendige Sensorik eingesetzt werden kann. Wir wollen natürliche Interaktion in XR-Anwendungen ermöglichen - ganz ohne Controller oder komplexe Technik. Die Technik soll sich dem Menschen anpassen - nicht umgekehrt.
Welchen Beitrag leistet Ihre Arbeit am CITEC dazu?
Helge Rhodin: In meiner Gruppe Visual AI for Extended Reality kombinieren wir Computer Vision, Machine Learning, Computer Graphics und Augmented Reality. Wir betreiben Grundlagenforschung, aber immer mit Blick auf konkrete zukünftige Anwendungen. Die neuesten Entwicklungen im maschinellen Lernen und bei XR-Geräten eröffnen nämlich ganz neue Möglichkeiten: Videoanalysen werden immer präziser, und digitale Darstellungen immer realistischer. Und wir bringen beides zusammen.
© Universität Bielefeld
Wie könnte so eine Anwendung aussehen?
Helge Rhodin: Das können ganz alltägliche Interaktionen sein. Zum Beispiel ein Computer, der versteht, was ich in bestimmten Situationen brauche. Morgens beim Anziehen erkennt das System etwa, dass ich vor dem Schrank stehe und etwas zögere, und zeigt automatisch die Wettervorhersage an, ohne dass ich danach fragen muss. Das könnte eine Brille sein oder ein anderes intelligentes Assistenzsystem. Aber dafür muss es verstehen, in welcher Umgebung ich mich befinde - und was ich gerade tue.
Damit befinden wir uns in einem sehr privaten Bereich des Lebens. Sie arbeiten auch daran, visuelle KI sicherer zu machen.
Helge Rhodin: Gerade wenn es um die Rekonstruktion von Menschen geht, gibt es Missbrauchspotenzial. In autoritären Regimen wie China oder Russland sehen wir bereits, wie Gesichtserkennung eingesetzt wird, um Menschen zu überwachen. Deshalb ist es wichtig, Alternativen zu schaffen: Systeme, die nur erfassen, was passiert, ohne Personen zu identifizieren. Wir nutzen alternative Erfassungsmethoden wie codierte Optiken oder Ultraschall, um etwa in Smart-Home-Anwendungen die Privatsphäre besser zu schützen. In einem Projekt arbeiten wir mit Ultraschallsensoren, die erkennen, ob jemand gestürzt ist - ohne ein detailliertes Bild oder eine Identifikation der Person zu ermöglichen. Wir wollen Alternativen zu problematischen Anwendungen schaffen, damit es auch rechtlich möglich wird zu sagen: In solchen Fällen braucht es keine klassische Kamera, sondern es reichen datenschutzfreundlichere Alternativen.
Extended Reality (Ausgeweitete Realität, XR) umfasst alle Technologien, die reale und virtuelle Welten miteinander verbinden. Dazu zählt die Virtual Reality (Virtuelle Realität, VR), bei der Nutzer*innen vollständig in eine computergenerierte Umgebung eintauchen. In der Augmented Reality (Erweiterte Realität, AR) werden digitale Inhalte in die reale Welt eingeblendet - etwa über eine Brille oder das Smartphone. Mixed Reality (Gemischte Realität, MR) geht noch einen Schritt weiter und lässt virtuelle Objekte nahtlos mit der physischen Umgebung interagieren.
Wo sehen Sie die wichtigsten Anwendungsfelder Ihrer Forschung?
Helge Rhodin: Sehr vielversprechend sind die Bereiche Medizin und Sport. Wir haben zum Beispiel mit Ski-Profis gearbeitet, um ihre Bewegungsabläufe besser zu analysieren und so Verletzungen vorzubeugen. Da dürfen keine störenden Sensoren verwendet werden, weil sie das Verhalten verändern würden. Unsere videobasierten Methoden können hier helfen, Kräfte auf Gelenke zu simulieren und Bewegungen zu optimieren. Im Feld der Gesundheit haben wir ein Projekt, mit Kanadischen Forscher*innen an der University of British Columbia, um medizinische Diagnostik auch in sehr abgelegenen Regionen zu ermöglichen. Per Augmented Reality können Lai*innen Ultraschalluntersuchungen mit Anleitung durch medizinischem Fachpersonal aus der Ferne durchführen. Dasselbe im industriellen Bereich: Handwerker*innen könnten beim Auseinanderbauen einer Maschine genau angezeigt bekommen, was zu tun ist. Die Technik liefert also Schritt-für-Schritt-Anleitungen direkt ins Sichtfeld, ohne dass man in einem Handbuch nachschauen muss.
Sie haben in der Schweiz und Kanada geforscht und engagieren sich nun im Fokusbereich FAITH - "Foundations and Implications of Human-AI Teamwork" - der Universität. FAITH untersucht, wie Menschen und KI in hybriden Teams effektiv zusammenarbeiten können. Wie knüpft das an Ihre bisherige Arbeit an?
Helge Rhodin: Das bringt mich zurück zu meiner Motivation: Maschinen brauchen ein besseres visuelles Verständnis. Für hybride Teams mit Menschen, Robotern und KI-Assistenten ist die visuelle Kommunikation essenziell. In Bielefeld ist die Forschung sehr interdisziplinär, und meine Forschung mit Visual AI hat viele weitere Anknüpfungspunkte. Ich habe auch im Bereich der Neurowissenschaften gearbeitet, der in Bielefeld ebenfalls stark vertreten ist. Dort geht es nicht um die Rekonstruktion von Menschen, sondern um Tiere - ihre Bewegungen werden analysiert und quantifiziert, um zu verstehen, was genau das Tier in einem bestimmten Experiment macht. Viele meiner bisherigen Arbeiten lassen sich hervorragend mit den Themen in Bielefeld verknüpfen. Unsere Computer-Vision-Lösungen werden so zum Tool, um neue Erkenntnisse in anderen Forschungsfeldern zu finden.
© Seventyfour/stock.adobe.com