Forschung
Statistik trifft Linguistik
Derzeit arbeitet Claus Weihs an statistischen Methoden für die Analyse von linguistischen Daten. Die Methoden sind in PrInDT zusammengefasst, einem R-Paket zur Optimierung von bedingten Inferenzbäumen (ctrees) für Klassifikation und Regression. Bei der Optimierung wird der Modellraum mittels wiederholter Teilstichproben nach dem besten Baum für die gesamte Stichprobe durchsucht. Dabei sind Einschränkungen zulässig, so dass nur Bäume akzeptiert werden, die keine vordefinierten, nicht interpretierbaren Teilergebnisse enthalten. Mit dem PrInDT-Paket werden sowohl die Vorhersagekraft als auch die Interpretierbarkeit von ctrees erhöht. Die Leistung von Ensembles und Einzelbäumen wird verglichen.
Das Paket deckt die Optimierung von ctrees für 2-Level-, Multilevel- und Multilabel-Klassifikationen sowie für Regression ab. Der Prozentsatz der Unterauswahl kann für die Klassen in der Klassifikation und für die Beobachtungen und Prädiktoren in der Regression variiert werden. Außerdem kann die posteriore Verteilung einer bestimmten Variablen in den Endknoten eines gegebenen Baums analysiert werden.
Wie man zitiert
Weihs, C., Buschfeld, S. (2023): PrInDT: Prediction and Interpretation in Decision Trees for Classification and Regression, R package version 1.0, url = {https://CRAN.R-project.org/package=PrInDT} .
Verwandte Publikationen
Weihs, C., Buschfeld, S. (2021a). "Combining Prediction and Interpretation in Decision Trees (PrInDT) - a Linguistic Example", Online: arXiv:2103.02336
Weihs, C., Buschfeld, S. (2021b). "NesPrInDT: Nested undersampling in PrInDT", Online: arXiv:2103.14931
Weihs, C., Buschfeld, S. (2021c). "Repeated undersampling in PrInDT (RePrInDT): Variation in undersampling and prediction, and ranking of predictors in ensembles", Online: arXiv:2108.05129
Klassifikation
ist eine allgegenwärtige Herausforderung. So nimmt es auch nicht Wunder, dass Klassifikationsverfahren in vielen Wissenschaften entwickelt werden. In letzter Zeit ist die Anzahl der verfügbaren Verfahren allerdings geradezu explodiert. Damit stellt es jetzt eine Herausforderung dar, das richtige Verfahren für ein Anwendungsproblem zu finden bzw. bestehende Verfahren an ein solches Problem optimal anzupassen. Außerdem erscheint die Literatur über die Interpretation der Ergebnisse von Klassifkationsverfahren eher dünn im Vergleich zu den immer neuen Vorschlägen von neuen Verfahren, und die einfache Interpretierbarkeit wird immer selbstverständlicher von den Anwendern der Verfahren gefordert.
Musik und Statistik
Ziel dieses Projekts ist die automatische Klassifizierung von Gesangsinterpretationen bezüglich Tonreinheit und verschiedener Klangeigenschaften. Daher sind auch die physiologischen Eigenschaften des Ohres zur Wahrnehmung von Schall von Interesse. Die automatische Transkription, d.h. die Umsetzung von Klang in Notenschrift, ist ein weiterer Forschungsschwerpunkt. Erste Ergebnisse wurden in einem Praktikum im WS 1999/2000 erzielt. Weitere Ergebnisse sind als Veröffentlichungen in den Technical Reports des SFB475, sowie den Arbeits- und Forschungsberichten des Fachbereichs Statistik zu finden.
Statistische Methoden zur Qualitätssicherung und -optimierung
Qualitätsüberwachung und -optimierung werden in der chemischen Industrie im Hinblick auf Kostenreduktion, Zertifizierung und Kundenanforderungen immer wichtiger. Dabei sind statistische Verfahren, insbesondere auch Wünschbarkeitsindizes, wesentliche Hilfsmittel.
(Statistische) Versuchsplanung
versucht den Zusammenhang zwischen Zielgrößen und sie möglicherweise beeinflussenden Faktoren mit möglichst wenigen Experimenten möglichst vollständig zu untersuchen. Ziel ist die Identifikation derjenigen Faktoren, die wirklich einen Einfluß auf die Zielgrößen haben, und die Bestimmung derjenigen Werte dieser Faktoren, die eine Zielgröße optimieren (maximieren / minimieren). Ein neues Forschungsgebiet ist die Versuchsplanung auf vorhandenen Beobachtungsdaten zur Variablenselektion.
Für das EMILeA-stat Projekt, eine interaktive Lehr- und Lernumgebung (E-learning), wurde das Szenario EMILeA Chemicals AG zur statistischen Versuchsplanung entwickelt.
Lebenswissenschaften
- Diagnostische Verfahren werden z.B. bei der Entwicklung, Optimierung und Validierung von Testsystemen und Analyseautomaten benötigt. In diesem Bereich werden neue statistische Verfahren und Ansätze gebraucht, um bestehende Prozesse zu optimieren und um neue Problemstellungen angemessen zu bearbeiten. Z.B. kann die dauerhafte Richtigkeit diagnostischer Tests in der Routinediagnostik nur durch optimale Kalibrationsverfahren garantiert werden. Im Umfeld von Genomics, Proteomics, Peptidomics, etc., werden neue diagnostischen Verfahren gesucht, und die Statistik ist wesentlich an Studienplanung, Durchführung und Auswertung zur Zulassung von diagnostischen Verfahren beteiligt. Der Fachbereich Statistik und die Roche Diagnostik GmbH in Penzberg/Bayern kooperieren in der Forschung auf diesen Gebieten.
- Sprachliche Information in neuronalen Antworten: In Kooperation mit dem Fraunhofer Institut für Digitale Medientechnologie (IDMT) in Ilmenau/Thüringen wird nach Information in der neuronalen Antwort am menschlichen Hörnerven gesucht. Auf Basis eines Simulationsmodells des Innenohrs wird Sprachinput automatisch erkannt.
Explorative Datenanalyse
beinhaltet Werkzeuge zur Darstellung von Daten und von Abhängigkeiten zwischen verschiedenen Datenreihen. Die Idee ist, die Daten für sich selbst sprechen zu lassen. Auf diese Weise sollen Auffälligkeiten in den einzelnen Datenreihen deutlich gemacht werden (Gruppen, Ausreißer) und Hinweise auf Zusammenhänge zwischen verschiedenen Größen gefunden werden, die im voraus nicht erwartet wurden. Mit Hilfe solcher Zusammenhänge wird dann untersucht, inwieweit sich gewisse Größen aus anderen vorhersagen lassen.
Expertensysteme
sind Computersysteme, die versuchen, die Vorgehensweise eines Fachexperten bei der Lösung eines Problems zu kopieren. Bei Statistischen Expertensystemen handelt es um die Umsetzung des Wissens eines Statistikers auf dem Computer, mit dem Ziel einer Konkretisierung des Wissensstandes (was ist wirklich bekannt, was (noch) nicht ?) und der Weitergabe des Wissens.
Fehler-in-den-Variablen Modelle
sind mathematisch/statistische Näherungen für reale Zusammenhänge zwischen Zielgrößen und die sie beeinflussenden Faktoren, bei denen Meßfehler in den Faktoren mit modelliert werden. Standardmodelle gehen dagegen davon aus, daß Meßfehler lediglich in den Zielgrößen auftreten, Faktoren also vollständig 'unter Kontrolle' sind.
Numerische Verfahren
sind Berechnungsvorschriften (Algorithmen) für die Lösung mathematisch/statistischer Probleme bei gegebenen Werten der Ausgangsgrößen. Die Entwicklung solcher Verfahren erhielt durch die zunehmende Computerisierung neuen Auftrieb. Ziel ist es, das korrekte Ergebnis mit möglichst hoher Genauigkeit in möglichst kurzer Zeit unter Berücksichtigung aller Sonderfälle zu berechnen.