Forschung
Statistik trifft Linguistik
Derzeit arbeitet Claus Weihs an statistischen Methoden zur Analyse linguistischer Daten. Die Methoden sind in PrInDT zusammengefasst, einem R-Paket zur Optimierung von bedingten Inferenzbäumen (ctrees) für Klassifikation und Regression. Zur Optimierung wird der Modellraum mittels wiederholter Unterstichproben nach dem besten Baum für die gesamte Stichprobe durchsucht. Es sind Einschränkungen zulässig, sodass nur Bäume akzeptiert werden, die keine vorab festgelegten, nicht interpretierbaren Teilungsergebnisse enthalten. Mit dem PrInDT-Paket werden sowohl die Vorhersagekraft als auch die Interpretierbarkeit von ctrees erhöht. Die Leistung von Ensembles und einzelnen Bäumen wird verglichen.
Das Paket umfasst die Optimierung von ctrees für 2-stufige, mehrstufige und multilabel-Klassifikationen sowie für Regressionen. Für die Unterstichproben können Prozentsätze für die Klassen in der Klassifikation und für Beobachtungen und Prädiktoren in der Regression variiert werden.
NEU in Version 2 vom August 2025:
Eine zweite Art der Unterstichprobenahme, das sogenannte „strukturierte Sampling”, ist ebenfalls für Klassifizikation und Regression implementiert. Mit diesen Funktionen können auch Daten aus wiederholten Messungen analysiert werden.
Darüber hinaus sind nun auch Multilabel-2-Stufen-Versionen von Klassifikations- und Regressionsbäumen sowie interdependente Multilabel-Modelle implementiert.
Schließlich können auch Mischungen aus Klassifikations- und Regressionsmodellen behandelt werden.
Die meisten Erweiterungen von PrInDT in Version 2 befinden sich in
Buschfeld, S., Weihs, C. (2025Fc) "Optimizing decision trees for the analysis of World Englishes and sociolinguistic data", Cambridge Elements, doi:10.48550/arXiv.2103.02336
Wie man das Paket zitiert:
Weihs, C., Buschfeld, S. (2025): PrInDT: Prediction and Interpretation in Decision Trees for Classification and Regression, R package version 2.0.1., url = {https://CRAN.R-project.org/package=PrInDT}
Klassifikation
ist eine allgegenwärtige Herausforderung. So nimmt es auch nicht Wunder, dass Klassifikationsverfahren in vielen Wissenschaften entwickelt werden. In letzter Zeit ist die Anzahl der verfügbaren Verfahren allerdings geradezu explodiert. Damit stellt es jetzt eine Herausforderung dar, das richtige Verfahren für ein Anwendungsproblem zu finden bzw. bestehende Verfahren an ein solches Problem optimal anzupassen. Außerdem erscheint die Literatur über die Interpretation der Ergebnisse von Klassifkationsverfahren eher dünn im Vergleich zu den immer neuen Vorschlägen von neuen Verfahren, und die einfache Interpretierbarkeit wird immer selbstverständlicher von den Anwendern der Verfahren gefordert.
Musik und Statistik
Ziel dieses Projekts ist die automatische Klassifizierung von Gesangsinterpretationen bezüglich Tonreinheit und verschiedener Klangeigenschaften. Daher sind auch die physiologischen Eigenschaften des Ohres zur Wahrnehmung von Schall von Interesse. Die automatische Transkription, d.h. die Umsetzung von Klang in Notenschrift, ist ein weiterer Forschungsschwerpunkt. Erste Ergebnisse wurden in einem Praktikum im WS 1999/2000 erzielt. Weitere Ergebnisse sind als Veröffentlichungen in den Technical Reports des SFB475, sowie den Arbeits- und Forschungsberichten des Fachbereichs Statistik zu finden.
Statistische Methoden zur Qualitätssicherung und -optimierung
Qualitätsüberwachung und -optimierung werden in der chemischen Industrie im Hinblick auf Kostenreduktion, Zertifizierung und Kundenanforderungen immer wichtiger. Dabei sind statistische Verfahren, insbesondere auch Wünschbarkeitsindizes, wesentliche Hilfsmittel.
(Statistische) Versuchsplanung
versucht den Zusammenhang zwischen Zielgrößen und sie möglicherweise beeinflussenden Faktoren mit möglichst wenigen Experimenten möglichst vollständig zu untersuchen. Ziel ist die Identifikation derjenigen Faktoren, die wirklich einen Einfluß auf die Zielgrößen haben, und die Bestimmung derjenigen Werte dieser Faktoren, die eine Zielgröße optimieren (maximieren / minimieren). Ein neues Forschungsgebiet ist die Versuchsplanung auf vorhandenen Beobachtungsdaten zur Variablenselektion.
Für das EMILeA-stat Projekt, eine interaktive Lehr- und Lernumgebung (E-learning), wurde das Szenario EMILeA Chemicals AG zur statistischen Versuchsplanung entwickelt.
Lebenswissenschaften
- Diagnostische Verfahren werden z.B. bei der Entwicklung, Optimierung und Validierung von Testsystemen und Analyseautomaten benötigt. In diesem Bereich werden neue statistische Verfahren und Ansätze gebraucht, um bestehende Prozesse zu optimieren und um neue Problemstellungen angemessen zu bearbeiten. Z.B. kann die dauerhafte Richtigkeit diagnostischer Tests in der Routinediagnostik nur durch optimale Kalibrationsverfahren garantiert werden. Im Umfeld von Genomics, Proteomics, Peptidomics, etc., werden neue diagnostischen Verfahren gesucht, und die Statistik ist wesentlich an Studienplanung, Durchführung und Auswertung zur Zulassung von diagnostischen Verfahren beteiligt. Der Fachbereich Statistik und die Roche Diagnostik GmbH in Penzberg/Bayern kooperieren in der Forschung auf diesen Gebieten.
- Sprachliche Information in neuronalen Antworten: In Kooperation mit dem Fraunhofer Institut für Digitale Medientechnologie (IDMT) in Ilmenau/Thüringen wird nach Information in der neuronalen Antwort am menschlichen Hörnerven gesucht. Auf Basis eines Simulationsmodells des Innenohrs wird Sprachinput automatisch erkannt.
Explorative Datenanalyse
beinhaltet Werkzeuge zur Darstellung von Daten und von Abhängigkeiten zwischen verschiedenen Datenreihen. Die Idee ist, die Daten für sich selbst sprechen zu lassen. Auf diese Weise sollen Auffälligkeiten in den einzelnen Datenreihen deutlich gemacht werden (Gruppen, Ausreißer) und Hinweise auf Zusammenhänge zwischen verschiedenen Größen gefunden werden, die im voraus nicht erwartet wurden. Mit Hilfe solcher Zusammenhänge wird dann untersucht, inwieweit sich gewisse Größen aus anderen vorhersagen lassen.
Expertensysteme
sind Computersysteme, die versuchen, die Vorgehensweise eines Fachexperten bei der Lösung eines Problems zu kopieren. Bei Statistischen Expertensystemen handelt es um die Umsetzung des Wissens eines Statistikers auf dem Computer, mit dem Ziel einer Konkretisierung des Wissensstandes (was ist wirklich bekannt, was (noch) nicht ?) und der Weitergabe des Wissens.
Fehler-in-den-Variablen Modelle
sind mathematisch/statistische Näherungen für reale Zusammenhänge zwischen Zielgrößen und die sie beeinflussenden Faktoren, bei denen Meßfehler in den Faktoren mit modelliert werden. Standardmodelle gehen dagegen davon aus, daß Meßfehler lediglich in den Zielgrößen auftreten, Faktoren also vollständig 'unter Kontrolle' sind.
Numerische Verfahren
sind Berechnungsvorschriften (Algorithmen) für die Lösung mathematisch/statistischer Probleme bei gegebenen Werten der Ausgangsgrößen. Die Entwicklung solcher Verfahren erhielt durch die zunehmende Computerisierung neuen Auftrieb. Ziel ist es, das korrekte Ergebnis mit möglichst hoher Genauigkeit in möglichst kurzer Zeit unter Berücksichtigung aller Sonderfälle zu berechnen.