Projektbeschreibungen
Projekt A1: Flexible Designs in der Datenerhebung
Prof. Dr. Joachim Hartung
Bei der Planung klinischer Studien muss zur Kontrolle des Fehlers erster Art im Voraus der vollständige Ablauf der Studie festgelegt werden, das heißt vor Beginn werden die Gesamtzahl der zu beobachtenden Patienten, die Zielvariablen sowie der statistische Test, auf dessen Basis entschieden wird, bestimmt. Sowohl aus ethischen als auch ökonomischen Gründen empfiehlt es sich, Zwischenauswertungen durchzuführen. Mit der zusätzlichen Möglichkeit zur Designänderung bei Zwischenauswertungen aufgrund des bisherigen Erkenntnisgewinns können falsche Annahmen bei der Fallzahlplanung korrigiert oder auch aufgrund neuer Erkenntnisse andere Response-Variablen gewählt werden. Von diesen statistischen Entscheidungen bzw. Eingriffen in den Verlauf der Studie, die jeweils von den bis dahin erhobenen Daten abhängen, wird jedoch verlangt, dass sie die Wahrscheinlichkeiten für die Fehler erster und zweiter Art erhalten, die zu Beginn der Studie festgelegt wurden.
Gruppensequentielle Pläne ermöglichen Zwischenanalysen zu meist vorher festgelegten Zeitpunkten unter Einhaltung des Fehlers erster Art, an denen eine Ablehnung der Nullhypothese erfolgen kann. Eine Änderung des Studiendesigns während des Studienablaufs basierend auf den Ergebnissen von Zwischenauswertungen erlauben jedoch erst die so genannten adaptiven Designs nach Bauer und Köhne (1994), Lehmacher und Wassmer (1999) oder Müller und Schäfer (2001) sowie das Self-Designing nach Fisher (1998), Shen und Fisher (1999), Hartung (2001) sowie Hartung und Knapp (2003)
Im Self-Designing wird durch die adaptive Gewichtung der einzelnen Studienabschnitte die zu Beginn offene Anzahl an Studienteilen und damit das Studienende gesteuert. Zur adaptiven Fallzahlplanung wird weiterhin eine bedingte Power für die einzelnen Studienabschnitte benötigt, die sich nach den Wünschen der Studienplaner richten kann. Offene Arbeitsbereiche bestehen unter anderem im Vergleich der verschiedenen Verfahren sowie in der Entwicklung von Strategien zur vollständigen Planung einer Studie.
Literatur
- Bauer, P., und Köhne, K. (1994), "Evaluation of experiments with adaptive interim analyses", Biometrics, 50, 1029-1041.
- Fisher, L. (1998), "Self-designing clinical trials", Statistics in Medicine, 17, 1551-1562.
- Hartung, J. (2001), "A self-designing rule for clinical trials with arbitrary response variables", Controlled Clinical Trials, 22, 111-116.
- Hartung, J., und Knapp, G. (2003), "A new class of completely self-designing clinical trials", Biometrical Journal, 45, 3-19.
- Lehmacher, W., und Wassmer, G. (1999), "Adaptive sample size calculations in group sequential trials", Biometrics, 55, 1286-1290.
- Müller, H.-H., und Schäfer, H. (2001), "Adaptive group sequential designs for clinical trials: Combining the advantages of adaptive and of classical group sequential approaches", Biometrics, 57, 886-891.
- Shen, Y., und Fisher, L. (1999), "Statistical inference for self-designing clinical trials with a one-sided hypothesis", Biometrics, 55, 190-197.
Projekt A2: Versuchspläne bei Nachbarwirkungen
Prof. Dr. Joachim Kunert
I Optimale Versuchspläne für Feldversuche mit Nachbarwirkungen
Der Aufsatz von Kushner (1997) bietet neue Ansätze zur Bestimmung optimaler Versuchspläne in Modellen mit Nachbarwirkungen, welche durch Kunert und Martin (2000) verallgemeinert wurden. Kunert und Martin betrachten dabei ein Modell, bei dem Nachbarwirkungen von zwei Seiten auftreten. Allerdings gibt es in dem Aufsatz von Kunert und Martin (2000) nur Einzelergebnisse, bei denen die optimalen Pläne mit Computeralgebra bestimmt wurden. Hier sind einige offene Fragen:
- Gibt es allgemeine Aussagen für die optimalen Versuchspläne in diesem Modell bei beliebiger Blocklänge?
- Wie sehen effiziente Versuchspläne aus, wenn die Teilbarkeitsbedingungen nicht erfüllt sind, die zum Nachweis der Optimalität mit den Methoden von Kunert und Martin (2000) benötigt werden?
- Welche Methoden zum Nachweis der Optimalität kann man anwenden, wenn das Modell noch komplexer wird, etwa wenn es, ähnlich wie bei Kunert und Stufken (2002), unterschiedliche Nachbarwirkungen einer Sorte gibt, je nach dem ob in der nächsten Parzelle die gleiche oder eine unterschiedliche Sorte angebaut wird?
II Eigenschaften von Tests in Modellen mit Nachwirkungseffekten
Nehmen wir an, dass bei Crossover Studien eine Auswertung geplant ist, welche Nach-wirkungseffekte vernachlässigt. Wenn wir dennoch befürchten, dass Nachwirkungen vor-kommen könnten, so wird häufig ein nachbarbalancierter Versuchsplan durchgeführt. Bailey (1985) gibt eine Randomisation an, die die Nachbarstruktur intakt lässt und das Zeilen-Spalten Modell rechtfertigt. Allerdings gilt dies nur unter der Voraussetzung, dass keine Nachbarwirkungen auftreten und ein Lateinisches Quadrat verwendet wurde. Lässt sich das Ergebnis von Bailey (1985) auf allgemeinere Pläne verallgemeinern?
Azais (1987) gibt eine andere Randomisation an, die ebenso die Nachbarstruktur intakt lässt, durch die aber die übliche Auswertung im einfachen Blockmodell gerechtfertigt wird. Voraus-setzung ist allerdings auch hier, dass keine Nachwirkungen auftreten.
Der Aufsatz von Kunert (1998b) zeigt, dass für Azais' Randomisation bei Verwendung nachbarbalancierter Versuchspläne der t-Test aus dem einfachen Blockmodell konservativ ist, selbst wenn bestimmte Nachwirkungen auftreten. Die Simulationsergebnisse von Kunert (2000) deuten an, dass diese Aussage auch für teilweise balancierte Versuchspläne gilt. Kann dies auch theoretisch gezeigt werden?
Werden die Nachwirkungen im Modell berücksichtigt, so zeigt Kunert (1998a, b), dass die Randomisation von Azais (1987) keine erwartungstreue Schätzung der Varianz mehr rechtfertigt. Er zeigt jedoch, dass man durch Multiplikation des herkömmlichen Schätzers mit einer Konstante eine konservative Schätzung der Varianz erhalten kann. Bellavance, Tardif und Stephens (1996) vergleichen mehrere Testmethoden für den Vergleich von Behandlungen bei Nachwirkungen und korrelierten Fehlern. Allerdings tun sie das nur unter der Nullhypothese und nur durch Simulationen. Es wäre interessant zu untersuchen, welche Power diese Tests haben, und wie sich der einfache konservative Test von Kunert (1998a) im Vergleich dazu verhält.
Literatur
- Azais, J. M. (1987), "Design of experiments for studying intergenotypic competition", Journal of the Royal Statistical Society B, 49, 334-345.
- Bailey, R.A. (1985), "Restricted Randomization for Neighbour-Balanced Designs", Statistics and Decisions Supplement, 2, 237-248.
- Kunert, J. (1998a), "On the analysis of circular balanced crossover designs", Journal of Statistical Planning and Inference, 69, 359-370.
- Kunert, J. (1998b), "Sensory experiments as crossover studies", Food Quality and Preference, 9, 243-253.
- Kunert, J. (2000), "Randomization of neighbour balanced designs", Biometrical Journal, 42, 111-118.
- Kunert, J., und Martin, R.J. (2000), "On the determination of optimal designs for an interference model", Annals of Statistics, 28, 1728-1742.
- Kunert, J., und Stufken, J. (2002), "Optimal crossover designs in a model with self and mixed carry-over effects", Journal of the American Statistical Association, 97, 898-906.
- Kushner, H.B. (1997), "Optimal Repeated Measurements Designs: The Linear Optimality Equations", Annals of Statistics, 25, 2328-2344.
- Bellavance, F., Tardif, S., und Stephens, M.A. (1996), "Tests for the Analysis of Variance of Crossover Designs with Correlated Errors", Biometrics, 52, 607-612.
Projekt A3: Versuchsplanung bei der Klassifikation
Prof. Dr. Claus Weihs
Klassifikationsverfahren werden in vielfältiger Hinsicht angewandt: Kreditwürdigkeit, Postleit-zahlerkennung oder Herzinfarktrisiko. Zur Klassifikation gibt es viele moderne Verfahren neben der klassischen linearen Diskriminanzanalyse wie z.B. Support Vector Machines, Neuronale Netze oder Entscheidungsbäume (Hastie et al., 2002).
Versuchsplanung wird in der Literatur zu Klassifikationsverfahren bisher kaum angewendet, abgesehen von z.B. Manolov (1992), wo sequentielle Versuchsplanung dazu verwendet wird, optimale Versuchspunkte zur approximativen Bestimmung von Entscheidungsfunktionen zwischen mehreren Klassen zu finden. In den folgenden zwei Problemstellungen soll der Einsatz von Versuchsplanung in der Klassifikation ausgeweitet werden, zum einen bei der Identifikation von performanzrelevanten Datencharakteristika, zum anderen bei der optimalen Wahl freier Verfahrensparameter.
I Untersuchung von perfomanzrelevanten Datencharakteristika in Klassifikationsproblemen zum Methodenvergleich für verschiedene Klassifikationsverfahren
Um die Performanz von Klassifikationsverfahren zu vergleichen, werden Charakteristika der gemeinsamen Verteilung von Klassen und Variablen benötigt. Diese sollten idealerweise in einem allgemeinen Versuchsplan variiert werden. Zum Beispiel untersucht Friedman (1989) das Verhalten von RDA, LDA und QDA bei verschiedenen Kovarianzmatrizen und unterschiedlichem Verhältnis der Anzahl Variablen zur Anzahl der Beobachtungen.
Innerhalb der Vorarbeiten verglichen Sondhauß und Weihs (2002) in ihrem Versuchsplan neben dem Effekt der Abweichung von der Normalverteilung und dem Einfluss von Verschiebungen innerhalb der Klassen auch den Einfluss von Korrelationen innerhalb der Variablen, während sich die Simulationen von Pouwels et al. (2003) an denen von Friedman (1989) anlehnen.
Im Rahmen dieses Projektes sollen optimale Versuchpläne für den Methodenvergleich gefunden werden. Dabei sollen die Effekte der einzelnen Faktoren unabhängig voneinander identifizierbar sein zusammen mit eventuellen Interaktionen, auch höherer Ordnung.
II Parameterwahl bei Klassifikationsverfahren mit Hilfe von Versuchsplanung
Viele Klassifikationsverfahren haben frei wählbare Einstellparameter. So zum Beispiel die Regularized Discriminant Analysis (Friedman, 1989) oder das k-Nächste Nachbarn Ver-fahren. Ein wichtiger Vertreter dieser Klasse sind die Support Vector Machines (SVM). SVMs werden mit großem Erfolg zur Klassifikation und Regression sowie weiteren Lernproblemen eingesetzt (Hastie et al., 2002, Seite 389).
Bei der SVM wird mit Hilfe von Kernfunktionen auf den Trainingsdaten eine optimal trennen-de Hyperebene in einem hochdimensionalen imaginären "Feature Space" gesucht (Vapnik, 1995). Welche Hyperebene optimal ist, hängt von mehreren Modellentscheidungen ab: der Größe des Strafterms für Fehlklassifikationen, dem Typ der Kernfunktion (z.B. Polynomialer Kern oder Radiale Basis Funktionen (RBFs)) und von typabhängigen Parametern der Kernfunktionen (z.B. Grad des Polynoms bzw. Kernelweite). Diese Parameter werden bislang typischerweise per Hand oder über die Minimierung eines mittels Kreuzvalidierung geschätzen Generalisierungsfehlers eingestellt. Das ist unbefriedigend und zeitaufwändig. Für nur zwei einzustellende Parameter (dem Strafterm und einer globalen Kernelweite für RBFs) wurde in Garczarek et al. (2003) das den Testfehler minimierende Optimum über einen Versuchsplan bestimmt. Auch schon für diesen einfachen Fall ist eine Systematisierung wegen des Potenzials an Laufzeit- und Ergebnisverbesserung für Anwender der SVM von hohem Interesse.
In diesem Projekt soll aber vor allem die Verallgemeinerung dieses Vorgehens für Klassifikationsverfahren mit vielen einzustellenden Parametern erarbeitet werden. So werden z.B. bei den SVM auch Kernfunktionen mit individuellen Kernelweiten für jeden Stützvektor benutzt. Chapelle et al. (2002) schlagen für diesen Fall Gradientensuchverfahren vor, die mit verschiedenen Kreuzvalidierungsmethoden und Schätzern kombiniert werden. Versuchsplanung könnte auch hier zu Laufzeit- und zu Ergebnisverbesserungen führen. Der Einsatz der Versuchsplanung zur Parameteroptimierung soll im Projekt nicht auf die SVM beschränkt sein. Ein spezielles Augenmerk soll auch auf der Wahl der Kreuzvalidierungsmethode zur Schätzung des Generalisierungsfehlers liegen, deren Einfluss auf die Laufzeit offensichtlich ist, und deren Einfluss auf das Ergebnis z.B. in Weihs (1993) untersucht wird.
Literatur
- Chapelle, O., Vapnik, V., Bousquet, O., und Mukherjee, S. (2002), "Choosing Multiple Parameters for Support Vector Machines", Machine Learning, 46, 131-159.
- Friedman, J.H. (1989), "Regularized Discriminant Analysis", Journal of the American Statistical Association, 84, 165-175.
- Garczarek, U., Weihs, C., und Ligges, U. (2003), "Prediction of Notes from Vocal Time Series", Technical Report, 01/03, SFB 475, Universität Dortmund.
- Hastie, T., Tibshirani, R., Friedman, J.H. (2002), The Elements of Statistical Learning, Springer, New York.
- Manolov, N.E. (1992), "Design of Experiment supplying training sample for pattern recognition," in: V. Fedorov, W.G. Müller und I.N. Vuchkov (eds.), Model Oriented Data Analysis, Physika, Heidelberg, 113-120.
- Pouwels, B., Theis, W. und Röver, C. (2003), "Implementing a new method for Discriminant Analysis when Group Covariance Matrices are nearly singular", in: M. Schader, W. Gaul, M. Vichi (eds.): Proceedings of GfKl 2002, "Between Data Science And Applied Data Analysis", Springer, New York.
- Sondhauß, U., und Weihs, C. (2002), "Standardized Partition Spaces", in: W. Härdle, B. Rönz (eds.): "COMPSTAT 2002 - Proceedings in Computational Statistics", Physika, Heidelberg, 539-544.
- Vapnik, V. (1996), The Nature of Statistical Learning Theory, Springer, New York
- Weihs, C. (1993), "Canonical Discriminant Analysis: Comparison of resampling methods and convex-hull approximation", in: O. Opitz, B. Lausen, R. Klar (eds.): "Information and Classification" Springer, Heidelberg, 225-238.
Projekt B1: Robuste Modellbildung
Prof. Dr. Ursula Gather, Dr. Sonja Kuhnt
Aktuelle Forschungsgebiete des Lehrstuhls umfassen die Analyse und Modellierung komplexer, hochdimensionaler Datenstrukturen, Verfahren zur Dimensionsreduktion, Robustheit und Ausreißererkennung sowie Verfahren zur multivariaten Prozesskontrolle samt der Umsetzung der entwickelten Methoden. Hierbei werden insbesondere technische und industriebezogene Anwendungen untersucht, aber auch datenverwandte Problemstellungen. Die Fragestellungen, die im Graduiertenkolleg bearbeitet werden sollen, stammen aus dem Bereich der Modellbildung für höherdimensionale, teils auch zeitabhängige, mit Ausreißern oder anderen Strukturbrüchen verunreinigte Daten, für die unterschiedliches Vorwissen über Verteilung, Regressionszusammenhänge bzw. Parameterräume vorliegt.
I Entwicklung statistischer Verfahren zur Informationsgewinnung
In der modernen Informationsgesellschaft stammen die zu verarbeitenden Daten oft aus heterogenen Quellen, sind zeitabhängig, hochdimensional und komplex. Die Wahl geeigneter statistischer Modelle bzw. ingenieurtechnischer Simulationsmodelle und die erzielbare Ergebnisqualität hängen von der Auswahl der relevanten Informationen ab. Typische Beispiele sind etwa die Optimierung logistischer Netzwerke oder die Verarbeitung von Online-Monitoring-Daten, wie sie am Lehrstuhl bereits untersucht werden. Die Notwendigkeit einer intelligenten Informationsbeschaffung und Datenerfassung inklusive Plausibilitätsprüfung rückt den Gesamtprozess der systematischen Informationsgewinnung ins Blickfeld. In einem iterativen Prozess muss die Extraktion und / oder die Generierung nutzbarer bzw. notwendiger Information unter Berücksichtigung der vorgegebenen Problem- und Zielstellung geleistet werden. Erste Erfahrungen mit dieser Problematik im speziellen Kontext großer Netze in der Logistik liegen bereits vor (Wenzel et al., 2001). Der Prozess der Informationsgewinnung umfasst die Informationsidentifikation und -erhebung, die darauf aufbauende Datenerhebung, die statistische Analyse etwa mittels komplexitätsreduzierender (Gather et al., 2001, 2002a) und datenverdichtender Methoden (Becker und Fried, 2002, Becker et al., 2001), sowie die Bereitstellung dazu notwendiger effizienter Algorithmen (Bernholt und Fried, 2002, Bernholt et al., 2002). Aus dieser Problemstellung ergeben sich als Forschungsziele die Identifikation und die Klassifizierung von typischen Problem- bzw. Aufgabenstellungen, die mit statistischen Verfahren aus einer Methodenklasse lösbar sind, sowie die adäquate Adaption oder Neuentwicklung statistischer Verfahren unter Berücksichtigung der Anwendbarkeit für die Informationsgewinnung und ihrer effizienten algorithmischen Realisierbarkeit.
II Robuste Modellierung von komplexen Abhängigkeitsstrukturen
In vielen Anwendungsgebieten der Statistik ist es heutzutage notwendig, komplexe Abhängigkeitsstrukturen durch statistische Modelle zu beschreiben. Zum Beispiel ist es bei schriftlichen Befragungen in den Sozialwissenschaften wünschenswert, über die Überprüfung von paarweisen Zusammenhängen zwischen Antwortvariablen hinaus zu gehen. Beziehungen zwischen mehreren Einstellungs- und Meinungsvariablen sollen einschließlich ihrer Abhängigkeiten von demographischen Variablen dargestellt werden. Auch bei Daten aus verfahrens- und fertigungstechnischen Prozessen ist es für eine optimale Prozessplanung und Prozesskontrolle notwendig, für Zielvariablen die Art und Größe der Abhängigkeit von zufälligen und wählbaren Einstellgrößen zu kennen. Das Prozessergebnis ist zudem oft nur durch mehrere Kenngrößen charakterisierbar, so dass Kenntnisse über die Abhängigkeitsstruktur innerhalb der Zielgrößen Informationen über die gleichzeitige Erreichbarkeit von Zielwerten liefern können. In derartigen Datensituationen liegen oft sowohl stetige als auch diskrete Einfluss- und Zielgrößen vor. Bisherige Ansätze modellieren in der Regel nur Teilaspekte des komplexen Abhängigkeitssystems. Alternativen bieten neuere Modellansätze, wie multivariate generalisierte lineare Modelle (Fahrmeir und Tutz, 2001) oder graphische Kettenmodelle (Edwards, 2000, Caputo et al., 1999). Für die datenbasierte Wahl solcher Modelle, einschließlich der dabei notwendigen Parameterschätzung, existieren bisher kaum robuste Verfahren. Erste Sensitivitätsanalysen bei graphischen Modellen für gemischte Variablen (Kuhnt und Becker, 2002) zeigen die Anfälligkeit nicht-robuster Methoden gegen einzelne, extreme Beobachtungen. Im Bereich der Erkennung von Ausreißern und der Entwicklung von robusten Methoden kann auf am Lehrstuhl bestehende Erfahrungen zurückgegriffen werden (Gather und Becker, 1997, Gather et al., 2000, Gather et al., 2001, Gather et al., 2002c). Die betreuten Dissertationen sollen sich schwerpunktmäßig mit der Entwicklung von robusten Schätzern in den genannten Modellklassen beschäftigen.
III Modellierung von Assoziationen in multivariaten Zeitreihen
Zwischen den Komponenten multivariater Zeitreihen können vielfältige Beziehungen (Assoziationen) bestehen. Am Lehrstuhl werden insbesondere Controllingdaten und intensivmedizinische Zeitreihen in Zusammenarbeit mit Prof. Dr. U. Kleinbeck bzw. Dr. M. Imhoff untersucht. Weitere Anwendungen sind Aktienrenditen oder räumlich-zeitlicher Natur. Bei stationären Zeitreihen werden Assoziationen vorwiegend über (partielle) Korrelationen modelliert (Dahlhaus, 2000, Gather et al., 2002b, Fried und Didelez, 2003). Bei nicht-stationären Zeitreihen können beispielsweise Trends oder Leveländerungen in einigen Komponenten ähnliche Effekte in anderen Komponenten nach sich ziehen. Solche Strukturbrüche können durch besondere Ereignisse wie etwa medikamentöse Interventionen bei medizinischen Daten, politische Entscheidungen bei Finanzzeitreihen, oder Störfälle bei Fertigungsprozessen verursacht sein, ohne dass die Ereignisse als bekannt vorausgesetzt werden können. Die Erkennung, Analyse und Modellierung der Effekte in den einzelnen Prozesskomponenten kann mittels statistischer Interventionsmodelle erfolgen. Hierbei gilt es auch Zeitversätze zwischen dem Auftreten der Effekte in verschiedenen Komponenten zu bestimmen, die Auftretenswahrscheinlichkeiten der Effekte in Abhängigkeit von der Historie des Prozesses zu schätzen und Kausalitäten zu erforschen. Eine wichtige Grundlage liefern Methoden zur Erkennung von Strukturbrüchen in Zeitreihen (Fried et al., 2002, Gather et al., 2003). Weiterhin sind Ansätze aus der Ereignisanalyse für zeitstetige Prozesse (Didelez, 2000) auf Prozesse in diskreter Zeit zu übertragen. Hierauf basierend sind adäquate multivariate Interventionsmodelle zur Erkennung bestimmter Ereignistypen zu entwickeln.
IV Verteilungsfreie multivariate Kontrollkarten in der Qualitätskontrolle
Ein Großteil der in der Literatur vorgeschlagenen multivariaten Kontrollkarten beruht auf der Annahme, dass die Qualitätsmerkmale multivariat normalverteilt sind. Auf diese strikte Annahme kann bei der Anwendung verteilungsfreier Kontrollkarten verzichtet werden, da die Verteilung ihrer Lauflänge unter statistischer Kontrolle unabhängig von der Verteilung der Qualitätsmerkmale ist. Erste multivariate Methoden dieser Art für die mittlere Lage eines Prozesses werden von Liu (1995) basierend auf Rangstatistiken vorgeschlagen. Diese Karten reagieren allerdings empfindlich auf Ausreißer in der Referenzstichprobe, wie sie bei schwer kontrollierbaren, beispielsweise intensivmedizinischen Prozessen auftreten. Dies führt unter anderem zu einer Verfälschung der mittleren Lauflänge (ARL). Da für Kontrollkarten bislang angemessene Kriterien zur Messung solcher Effekte fehlen, sind solche Konzepte aus der robusten Statistik zu übertragen, um letztlich robuste Überwachungsmethoden zu entwickeln.
Des Weiteren wird bei der Konstruktion von Kontrollkarten meist unterstellt, dass die zu überwachenden Qualitätsmerkmale einer zeitinvarianten Verteilung folgen. Bei anderen Anwendungen als industriellen Fertigungsprozessen erweist sich diese Annahme häufig als nicht realistisch. Dementsprechend sind verteilungsfreie Kontrollkarten für die mittlere Lage und die Streuung zu konstruieren, die eine zeitabhängige Verteilung der Qualitätsmerkmale zulassen und auch robust gegenüber Ausreißern sind.
Literatur
- Becker, C., und Fried, R. (2002), "Sliced Inverse Regression for High-Dimensional Time Series", in: O. Opitz, M. Schwaiger (eds.): "Exploratory Data Analysis in Empirical Research", Springer, <st1:state><st1:place>Berlin</st1:place></st1:state>, 3-11.
- Becker, C., Fried, R., und Gather, U. (2001), "Applying Sliced Inverse Regression to Dynamical Data", in: J. Kunert, G. Trenkler (eds.): "Mathematical Statistics with Applications in Biometry", Josef Eul, Lohmar, 201-214.
- Bernholt, T., und Fried, R. (2002), "Computing the Update of the Repeated Median Regression Line in Linear Time", Technical Report, 43/2002, SFB 475, Fachbereich Statistik, Universität Dortmund.
- Bernholt, T., Nunkesser, M., Fischer, P., Becker, C., und Fender, T. (2002), "Experimental Evaluation of a New Exact Algorithm for the MCD Problem", Preprint, Fachbereich Statistik, Universität Dortmund.
- Caputo, A., Heinicke, A., und Pigeot, <st1:place>I.</st1:place> (1999), "A Graphical Chain Model Derived from a Model Selection Strategy for the Sociologists Graduates Study", Biometrical Journal, 41, 217-234.
- Dahlhaus, R. (2000), "Graphical Interaction Models for Multivariate Time Series", Metrika, 51, 157-172.
- Didelez, V. (2000), Graphical Models for Event History Data Based on Local <st1:city><st1:place>Independence</st1:place></st1:city>, <st1:place><st1:city>Logos-Verlag</st1:city>, <st1:state>Berlin</st1:state></st1:place>.
- Edwards, D. (2000), Introduction to graphical modelling, 2nd ed., Springer, <st1:state><st1:place>New York</st1:place></st1:state>.
- Fahrmeir, L., und Tutz, G. (2001), Multivariate Statistical Modelling Based on Generalized Linear Models, 2nd ed., Springer, New York.
- Fried, R., und Didelez, V. (2003), "Decomposition and Selection of Graphical Models for Multivariate Time Series", Biometrika, 90, 251-267.
- Fried, R., Gather, U., und Imhoff, M. (2002), "Pattern Recognition in Intensive Care Online Monitoring", in: M. Schmitt et al. (eds.): "Computational Intelligence Processing in Medical Diagnosis", Physica Verlag, <st1:city><st1:place>Heidelberg</st1:place></st1:city>, 129-172.
- Gather, U., Bauer, M., und Fried, R. (2003), "The Identification of Multiple Outliers in Online Monitoring Data", Estadistica, erscheint.
- Gather, U., und Becker, C. (1997), "Outlier Identification and Robust Methods", in: G.S. Maddala, C.R. Rao (eds.): Handbook of Statistics 15: Robust Inference, Elsevier, <st1:city><st1:place>Amsterdam</st1:place></st1:city>, 123-143.
- Gather, U., Becker, C., und Kuhnt, S. (2000), "Robust Methods for Complex Data Structures", in: H.A.L Kiers, J.-P. Rasson, P.J.F. Groenen, M. Schader (eds.): "Data Analysis, Classification and Related Methods", Springer, <st1:state><st1:place>Berlin</st1:place></st1:state>, 315-320.
- Gather, U., Hilker, T., und Becker, C. (2001), "A Robustified Version of Sliced Inverse Regression", in: L.T. Fernholz, <st1:place>S. Morgenthaler</st1:place>, W. Stahel (eds.): "Statistics in Genetics and in the Environmental Sciences", Birkhäuser, <st1:city><st1:place>Basel</st1:place></st1:city>, 147-157.
- Gather, U., Hilker, T., und Becker, C. (2002a), "A Note on Outlier Sensitivity of Sliced Inverse Regression", Statistics, 13, 271-281.
- Gather, U., Imhoff, M., und Fried, R. (2002b), "Graphical Models for Multivariate Time Series from Intensive Care Monitoring", Statistics in Medicine, 21, 2685-2702.
- Gather, U., Kuhnt, S., und Pawlitschko, J. (2002c), "Concepts of Outlyingness for Various Data Structures", Invited chapter in: Emerging areas in probability, statistics and operations research, Mathematical Sciences Series, erscheint.
- Kuhnt, S., und Becker, C. (2002), "Sensitivity of Graphical Modeling Against Contamination", Technical Report, 35/2002, SFB 475, Fachbereich Statistik, Universität Dortmund.
- Liu, R.Y. (1995), "Control Charts for Multivariate Processes", Journal of the American Statistical Association, 90, 1380-1387.
- Wenzel, S., Becker, C., und Jodin, D. (2001), "Methoden der Informationsgewinnung zur Bestimmung des Eingangsdatenraums für Simulationsmodelle in der Logistik", in: K. Panreck, F. Dörrscheidt (eds.): "Simulationstechnik, 15. Symposium der Arbeitsgemeinschaft Simulation, ASIM 2001", SCS-Europe BVBA, 417-422.
Projekt B2: Statistische Messmodelle bei deterministischen und stochastischen Einflussgrößen
Prof. Dr. Joachim Hartung, Dr. Guido Knapp
In nahezu allen empirisch arbeitenden Wissenschaften werden Erkenntnisse über Daten in geeigneten Messmodellen gewonnen, die dann über ein meist kompliziertes mathematisch-statistisches Analyse-Instrumentarium zu "statistisch abgesicherten" Ergebnissen führen sollen. Ziel desForschungsvorhabens ist die Weiterentwicklung dieses Analyse-Instrumentariums für eine weite Klasse relevanter offener Probleme, wie sie insbesondere etwa in den Bereichen Technik und Industrie bei der Qualitätsbeurteilung und -sicherung, im Bereich Medizin bei klinischen Versuchen und epidemiologischen Studien oder im Bereich Wirtschaft bei ökonometrischen Untersuchungen auftreten.
Bei sequentiellen Extraktionsversuchen, wie sie z.B. in der Umweltanalytik durchgeführt werden, vgl. Eichfeld et al. (2002), wird in vielen Fällen noch eine geeignete Modellbildung benötigt. Die Schätzung der Variabilitäten in den einzelnen Sequenzen vor allem unter einer a priori gegebenen Ordnung ist nicht zufriedenstellend gelöst. Ansätze von Hartung (1999) könnten hier ihre Anwendung finden. Darüber hinaus ist die Konstruktion von Konfidenzintervallen für Linearkombinationen der Variabilitäten ein ungelöstes Problem.
Bei Regressionsmodellen mit ANOVA-Fehlerstruktur ist die adäquate Schätzung der Ko-varianzparameter ohne Verteilungsannahme über die abhängige Variable bzw. die zufälligen Effekte nur für balancierte Stichprobenumfänge und homoskedastische Varianzen, vgl. u. a. Knapp (2002), gelöst. Geeignete Lösungen für unbalancierte Stichprobenumfänge und / oder heteroskedastische Fehlervarianzen stehen noch aus. Tests über die Kovarianzparameter sowie der Einfluss der Kovarianzparameterschätzer auf die Tests über die Regressionsparameter sind nicht ausreichend erforscht. Dabei können auch Methoden basierend auf verallgemeinerten P-Werten, wie sie allgemein von Tsui und Weerahandi (1989) und Weerahandi (1993) vorgeschlagen wurden, zum Einsatz kommen.
Literatur
- Eichfeld, S., Einax, J.W., und Knapp, G. (2002), "Resolution of uncertainty of a four-stage sequential extraction procedure using analysis of variance", Analytical and Bioanalytical Chemistry, 372, 801-807.
- Hartung, J. (1999), "Ordnungserhaltende positive Varianzschätzer bei gepaarten Messungen ohne Wiederholungen", Allgemeines Statistisches Archiv, 83, 230-247.
- Knapp, G. (2002), "Variance estimation in the error components regression model", Communications in Statistics - Theory and Methods, 31, 1499-1514.
- Tsui, K.-W., und Weerahandi, S. (1989), "Generalized p-values in significance testing of hypotheses in the presence of nuisance parameter", Journal of the American Statistical Association, 84, 602-607.
- Weerahandi, S. (1993), "Generalized confidence intervals", Journal of the American Statistical Association, 88, 899-905.
Projekt B3: Schätzung bei bekannten Variationskoeffizienten
Prof. Dr. Götz Trenkler
Der Variationskoeffizient (VK) spielt bei der Schätzung von Lokalisationsparametern eine große Rolle. Ist der VK bekannt oder lassen sich für ihn endliche Grenzen angeben, ist für die optimale Schätzung im Sinne des mittleren quadratischen Fehlers ein großer Spielraum gegeben. Für univariate Verteilungen liegen einige Ergebnisse vor. Für multivariate Verteilungen hingegen wäre für Doktoranden ein größeres Forschungsgebiet zu erschließen, in dem man sich insbesondere mit mehrdimensionalen Exponentialfamilien bei restringiertem VK auseinander zu setzen hätte. Neben der Bestimmung konkreter Verbesserungsbereiche wird die Identifikation optimaler vektorwertiger Statistiken im Zentrum stehen. Als Gütekriterium kommen sowohl der matrix- als auch der skalarwertige mittlere quadratische Fehler in Betracht. Eine Ausweitung der Theorie auf die Konstruktion verbesserter Konfidenzbereiche soll angestrebt werden.
Innerhalb dieses Projekts ist die Einbindung eines Postdoktoranden in die Forschungsarbeit vorgesehen.
Literatur
- Bibby, J., und Toutenburg, H. (1977), Prediction and improved estimation in linear models, John Wiley, <st1:state><st1:place>New York</st1:place></st1:state>.
- Gruber, M.H.J. (1998), Improving efficiency by shrinkage, <st1:place><st1:city>Dekker</st1:city>, <st1:state>New York</st1:state></st1:place>.
- Ki, F., und Tsui, K.-W. (1990), "Multiple-Shrinkage estimators of means in exponential families", The Canadian Journal of Statistics, 18(1), 31-46.
- Ki, F. (1992), "Multiple shrinkage estimators in multiple linear regression", Communications in Statistics - Theory and Methods, 21(1), 111-136.
- Kleffe, J. (1985), "Some remarks on improving unbiased estimators by multiplication with a constant", in: T. Calinski, W. Konecki (eds.): "Linear Statistical Inference", 150-161.
- Sclove, S.L. (1971), "Improved estimation of parameters in multivariate regression", Sankhya A, 33, 61-66.
- Toutenburg, H. (1982), Prior information in linear models, John Wiley, <st1:state><st1:place>New York</st1:place></st1:state>.
- Vinod, H.D., und Ullah, A. (1981), Recent advances in regression methods, <st1:place><st1:city>Dekker</st1:city>, <st1:state>New York</st1:state></st1:place>.
Projekt B4: Multivariate Erweiterung von univariaten Skalierungsverfahren für Zugehörigkeitswerte
Prof. Dr. Claus Weihs
Die meisten Klassifikationsverfahren nutzen eine argmax Regel für die Zuweisung von Objekten in Klassen. Die Zugehörigkeit des Objekts in jeder Klasse wird quantifiziert und das Objekt der Klasse zugeordnet, in der es den höchsten Zugehörigkeitswert hat. Bei Bayesregeln sind diese Zugehörigkeitswerte geschätzte bedingte Klassenwahrscheinlichkeiten. Viele Verfahren des maschinellen Lernens nutzen jedoch andere Ansätze zur Beurteilung von Klassenzugehörigkeit, so dass ihre Zugehörigkeitswerte nicht den Anspruch erheben, Schätzungen irgendwelcher Wahrscheinlichkeiten zu sein. Oft stellen sie auch formal keine Wahrscheinlichkeiten dar. Eine Skalierung in den Wahrscheinlichkeitsraum ist aus vielerlei Gründen wünschenswert, und so existieren einige Verfahren, die man dafür einsetzen kann. Eine Übersicht gibt Platt (1999), die durch Zadrozny und Elkan (2002) hinsichtlich der neuesten Entwicklungen ergänzt wird. Allgemein gilt, dass für die Berechenbarkeit der Skalierung Restriktionen aufgestellt werden müssen und dass eine nichtparametrische Rechtfertigung als Schätzer von Wahrscheinlichkeiten bestimmter Ereignisse üblicherweise fehlt. Für das Verfahren von Zadorzny und Elkan (2002) muss diese Aussage im Rahmen des Projektes noch überprüft werden. Garczarek (2002) stellt ein Verfahren vor, das darauf abzielt, dass die skalierten Zugehörigkeitswerte die Sicherheit der individuellen Zuweisungen widerspiegeln. Wesentlicher Bestandteil des Vorgehens ist die Transformation mit einer inversen Betaverteilungsfunktion. Die Verwendung der Betaverteilung bei der P-Skalierung ist in zweierlei Hinsicht nützlich: Zum einen ist die Betaverteilung formflexibel und führt typischerweise zu guten Anpassungen. Zum anderen ist die einzige Annahme, auf der ihre Rechtfertigung beruht, die der unabhängig identisch verteilten Beispiele, die Grundlage der meisten Klassifikationsverfahren ist (s. Garczarek 2002).
Die P-Skalierung ist univariat in dem Sinne, dass nur die Zugehörigkeit in einer Klasse für die Skalierung betrachtet wird. Im Mehrklassenfall wird die "Restwahrscheinlichkeit" auf die anderen Klassen unter Beibehaltung ihrer ursprünglichen Proportionalität aufgeteilt. In diesem Projekt wird eine multivariate Erweiterung unter Beibehaltung ihrer inhaltlichen Rechtfertigung gesucht. Eine Möglichkeit ist die Übertragung der Betatransformationen zur Erzeugung skalierter Zugehörigkeitswerte auf Dirichlet-Transformationen. Dies erfordert Überlegungen, wie die multivariate Dirichletverteilung "geeignet" invertiert werden kann. Man muss sich für genau einen Vektor aus der Menge aller Zugehörigkeitsvektoren mit gleichem Wahrscheinlichkeitswert entscheiden. Die Wahl sollte inhaltlich begründbar sein, und die Rechenzeit zum Auffinden des Punktes gering. Zum Vergleich sollte die Mehrklassenvariante von Zadorzny und Elkan (2002) herangezogen werden.
Literatur
- Garczarek, U. (2002), "Classification Rules in Standardized Partition Spaces", Dissertation, eldorado.uni-dortmund.de/FB5/ls7/forschung/2002/Garczarek, Universität Dortmund.
- Platt, J. (1999), "Probabilistic outputs for support vector machines and comparison to regularized likelihood methods", in: A.J. Smola, P. Bartlett, B. Schoelkopf, D. Schuurmans (eds.): "Advances in Large Margin Classiers", MIT Press.
- Zadrozny B., und Elkan C. (2002), "Transforming classifier scores into accurate multiclass probability estimates", in Proceedings of the Eighth International Conference on Knowledge Discovery and Data Mining, KDD'02
Projekt C1: Punktprozessmodelle in Biologie und Epidemiologie
Prof. Dr. Katja Ickstadt
Die folgenden Dissertationsprojekte basieren auf Weiterentwicklungen der hierarchischen Poisson/Gamma Modelle aus Wolpert und Ickstadt (1998). Diese Punktprozessmodelle eignen sich zur Untersuchung räumlicher Intensitäten für Zähldaten.
Ein Projekt soll sich mit der Schätzung der räumlichen Verteilung von Walpopulationen beschäftigen. Grundlage hierfür bilden Sichtungsdaten über Minke-Wale, die durch Linientranssektionssampling in der Antarktis erhoben wurden. Zur Schätzung der Anzahl der Wale werden die Poisson/Gamma Modelle hier mit der sogenannten Entdeckungsfunktion (detection function) (vgl. Buckland et al., 2001) modifiziert, die die Datenerhebung beschreibt. Der Ansatz erlaubt die Modellierung von räumlicher Autokorrelation sowie die punktgenaue Schätzung der Walpopulationen.
In Best et al. (2000) werden die Poisson/Gamma Prozessmodelle zur Untersuchung des Krankheitsrisikos in Abhängigkeit von räumlichen Kovariablen und zufälligen räumlichen Effekten eingesetzt. Im Rahmen eines Projekts sollen diese Modelle mit Modellklassen verglichen werden, die zu solchen Untersuchungen häufig eingesetzt werden, wie z.B. mit Markov-Random-Field Modellen (Besag et al., 1991).
Die Modelle aus Best et al. (2000) können z.B. zur Analyse von Atemwegserkrankungen in Abhängigkeit von verkehrsbedingter Umweltverschmutzung verwendet werden. In diesem Fall liegt ein Hauptaugenmerk auf einer möglichst guten Modellierung der Schadstoffverteilung. Hierzu sollen im Rahmen eines Projektes Modelle entwickelt werden, die Daten aus verschiedenen Datenquellen und mit unterschiedlicher räumlicher Auflösung berücksichtigen (z.B. Verkehrsdichtemessungen entlang einzelner Straßen, Schadstoffkonzentrationsmessungen an ausgewählten Punkten und personenbezogene Belastungsmessungen). Diese Modelle sollen anschließend mit denen für die Krankheitseffekte kombiniert werden.
Literatur
- Besag, J., York, J., und Mollié, A. (1991), ?Bayesian image restoration, with two applications in spatial statistics? (mit Diskussion), Annals of the <st1:place><st1:placetype>Institute</st1:placetype> of <st1:placename>Statistical Mathematics</st1:placename></st1:place>, 43, 1-59.
- Best, N.G., Ickstadt, K., und Wolpert, R.L. (2000), "Spatial Poisson regression for health and exposure data measured at disparate resolutions", Journal of the American Statistical Association, 95, 1076-1088.
- Buckland, S.T., Anderson, D.R., Burnham, K.P., Laake, J.L., Borchers, D.L., und Thomas, L. (2001), Introduction to Distance Sampling, Oxford University Press, Oxford.
- Wolpert, R.L., und Ickstadt, K. (1998), "Poisson/gamma random field models for spatial statistics", Biometrika, 85, 251-267.
Projekt C2: Modellierung von Risiko und Preis
Prof. Dr. Walter Krämer
I Die Bewertung und der Vergleich von Kreditausfallprognosen
In der Bundesrepublik Deutschland gibt es über 10.000 Unternehmen mit mehr als 100 Beschäftigten, die in der Regel alle mehr als eine Bankverbindung haben. Im Kielwasser von Basel II werden alle diese Bankverbindungen mit Ausfallwahrscheinlichkeiten belegt werden müssen, und es stellt sich dann die Frage, wie unterschiedliche Bewertungen zu kombinieren sind (nach einer unveröffentlichten Untersuchung von Carey (2001) stimmen in über der Hälfte aller Fälle die Ratings unterschiedlicher Ratinggeber für den gleichen Kreditnehmer nicht überein). Wie lassen sich konkurrierende Wahrscheinlichkeitsprognosen für Kreditausfälle vergleichen und zu besseren Prognosen kombinieren? Kann man bekannte Qualitätsmaße wie den Brier-Score als Basis für Signifikanztests nutzen usw.?
II Risikofaktoren am deutschen Aktienmarkt
Der Projektgegenstand ist die Informationseffizienz des deutschen Aktienmarktes und das CAPM. Lassen sich vermeintliche Anomalien bei Aktienrenditen im Querschnitt zur Zeit als Kompensierung für bislang vernachlässigte Risiken erklären? Oder liegen hier wirklich Anomalitäten vor, die mit effizienten Märkten nicht vereinbar sind? Besonderes Augenmerk soll dabei auf das Buchwert-Marktwert-Verhältnis und die Unternehmensgröße gelegt werden, die in zahlreichen Untersuchungen als positive und durch das CAPM nicht gedeckte Einflussgrößen für erwartete Renditen nachgewiesen worden sind. Auch steht eine Übertragung von bislang vor allem auf dem amerikanischen Kapitalmarkt beobachteten Gesetzmäßigkeiten auf andere Märkte und eine Berücksichtigung von länderspezifischen Phänomenen wie etwa einer vor allem in Deutschland zu beobachtenden großen Wechselkursabhängigkeit noch aus.
Zur Klärung dieser Fragen ist das Schätzen von Faktormodellen geplant, in deren Rahmen diese vermeintlichen Anomalien als Preise für nicht durch das CAPM abgedeckte Risiken zu interpretieren sind, flankiert von Modellspezifikationstests der dabei unterstellten Regressionsgleichungen. Parallel zu nationalen Portfolios sind dabei auch internationale Renditevergleiche durch die Spezifizierung eines bedingten CAPM mit dem MSCI-Index als Marktbarometer und ausgewählten nationalen Indizes mit einem multivariaten Garch-Modell zur Abbildung der bedingten Volatilitäten vorgesehen.
Literatur
- Carey, M. (2001), "Some evidence on the consistency of banks' internal credit ratings", Federal Reserve Board Discussion Paper.
- Crouhy, M., Galai, D., und Mark, R. (2001), "Prototype risk rating systems", Journal of Banking and Finance, 25, 47-95.
- Daniel, K., und Titman, S. (1997), "Evidence on the Characteristics of Cross Sectional Variation in Stock Returns", Journal of Finance, 52, 1-33.
- Davis, J.L., Fama, E.F., und French, K.R. (2000), "Characteristics, Covariances, and Average Returns: 1929 to 1997", Journal of Finance, 55, 389-406.
- Diether, K.B., Malloy, C.J., und Scherbina, A. (2002), "Differences of Opinion and the Cross-Section of Stock Returns", Journal of Finance, 57, 2075-2112.
- Fama, E.F., und French, K.R. (1995), "Size and book-to-market factors in earnings and returns", Journal of Finance, 50, 131-155.
- Fama, E.F., und French, K.R. (1996), "Multifactor explanations of asset pricing anomalies", Journal of Finance, 51, 55-84.
- Fama, E.F., und French, K.R. (1998), "Value versus growth: The international evidence", Journal of Finance, 53, 1975-1999.
- Hamerle, A., und Rösch D. (2003), "Risikofaktoren und Korrelationen für Bonitätsveränderungen", Zeitschrift für betriebswirtschaftliche Forschung, 55, 199-223.
- Krämer, W. (2002), "Die Bewertung und der Vergleich von Kreditausfall-Prognosen", Technical Report, 30/2001, SFB 475, Universität Dortmund.
- Krahnen, J.P., und Weber, M. (2001), "Generally accepted rating principles: A primer", Journal of Banking and Finance, 25, 3-23.
- Wahrenburg, M., und Niethen, S. (2000), "Vergleichende Analyse alternativer Kreditrisikomodelle", Kredit und Kapital, 49, 235-257.
- Wallmeier, M. (2000), "Determinanten erwarteter Renditen am deutschen Aktienmarkt - Eine empirische Untersuchung anhand ausgewählter Kennzahlen", Zeitschrift für betriebswirtschaftliche Forschung, 52, 27-57.
Projekt C3: Hedonische Preisindizes
Prof. Dr. Walter Krämer
Seit dem bekannten Boskin-Report steht das Problem der Qualitätsbereinigung von Preisindices im Zentrum des wirtschaftsstatistischen Interesses. Das aktuelle Projekt soll die Ableitung hedonischer Preisindizes aus individuellen Nutzen-Maximierungskalkülen vorantreiben und die Abhängigkeit hedonischer Preisindizes von der jeweiligen funktionalen Form der Preisgleichungen untersuchen. Fernziel ist die historische Rückberechnung des Preisindex für die Lebenshaltung bei korrekter Qualitätsbereinigung und eine Implementierung der Projektergebnisse in die offizielle Preisstatistik der Bundesrepublik. Erste Vorarbeiten in Form von Diplomarbeiten zur Qualitätsbereingung bei Funktelefonen und Bundesbahntarifen sind am Lehrstuhl Krämer schon im Gange.
Literatur
- Berndt, E.R., Griliches, Z., und Rappaport, N.J. (1995), "Econometric estimates of price indices for personal computers in the 1990's", Journal of Econometrics, 68, 243-268.
- Boskin, M. (ed.) (1996), Towards a more accurate measure of the cost of living (der Boskin-Report), Bericht für das Finanzkomittee des amerikanischen Senats.
- Brachinger, H.W. (2001), "Boskin und die Folgen: Basisaggregation beim schweizerischen Landesindex der Konsumentenpreise", Messen der Teuerung, Thüringer Landesamt für Statistik (ed.), 19-39.
- Brachinger, H.W., und Diewert, E. (2002), Hedonic Methods in Price Statistics: Theory and Practice, Springer, <st1:city><st1:place>Heidelberg</st1:place></st1:city>.
Projekt C4: Feste oder zufällige Effekte von Prüfpersonen bei sensorischen Studien
Prof. Dr. Joachim Kunert
Bei sensorischen Tests besteht häufig Unklarheit darüber, ob die Prüfpersonen als fix oder zufällig angesehen werden dürfen. Auch ist umstritten, wie Wechselwirkungen zwischen Prüfpersonen und Produkten zu bewerten sind, siehe etwa Naes und Langsrud (1998) oder Steinsholt (1998) und die Diskussion dazu. Hier wäre die Diskussion, insbesondere der provozierende Beitrag von Nelder (1998), vom Standpunkt der Randomisationstheorie zu bewerten, und zu untersuchen, ob dieser Standpunkt zu einer Modellentscheidung beitragen kann.
Literatur
- Kunert, J., Meyners, M., und Erdbrügge, M. (2002), "On the applicability of ANOVA for the analysis of sensory data", 7èmes Journées européennes agro-industrie et méthodes statistiques, Société Française de Statistique (ed.), 129-134.
- Naes, T., und Langsrud, O. (1998), "Fixed or Random Assessors in Sensory Profiling?", Food Quality and Preference, 9, 145-152.
- Nelder, J.A. (1998), "The great mixed-model muddle is alive and flourishing, Alas!", Food Quality and Preference, 9, 157-159.
- Steinsholt, K. (1998), "Are assessors levels of a split-plot factor in the analysis of variance of sensory profile experiments?", Food Quality and Preference, 9, 153-156.
Projekt C6: Entwicklung von Modellen zur Untersuchung der Genexpression und Auswertestrategien für Microarray-Daten
Prof. Dr. Wolfgang Urfer
Genexpressionsdaten von Microarrays bieten die Möglichkeit, Phänomene der Heterosis in der Pflanzenzüchtung zu erklären, die Wirkung von toxischen Substanzen auf Zellsysteme zu untersuchen und die an der Entstehung von Tumoren beteiligten Gene zu identifizieren. Die mit Microarrays erzeugten Daten stellen eine besondere Herausforderung an die Statistik, weil sie besonders störanfällig bezüglich der komplexen experimentellen Besonderheiten sind. Bisher wurden hauptsächlich klassische Verfahren der linearen Modelle und multivariate Methoden zur Auswertung von Microarray-Daten angewandt. Da meist nur wenige Wiederholungen pro Gruppe, aber viele tausend Hybridisierungsmessungen an den zu untersuchenden Genen gleichzeitig vorliegen, muss man neue Methoden entwickeln, die dieser Datenstruktur gerecht werden.
Von Tschiersch und Zerbst (2002) wurde ein neuer Cluster-Algorithmus entwickelt, der auf die spezielle Situation der Pixeldaten von Microarrays erweitert werden soll. Guimaraes und Urfer (2002) sowie Gannoun et al. (2002a, b) machen Vorschläge zur verbesserten Auswertung von DNA-Chip-Daten. Ferner enthalten Hartung et al. (1997) sowie Büning und Trenkler (1994) klassische statistische Methoden, die an die Datenstruktur der Microarrays angepasst werden können.
Aus diesen Vorarbeiten ergeben sich die folgenden Dissertationsthemen:
1.Entwicklung neuer Clustermethoden zur Pixelanalyse von Microarray-Bilddaten und anschließende Identifikation von Tumor-Gewebetypen.
2. Schätzung von Gen x Gruppen-Interaktionen und ihrer Standardfehler mittels neu zu entwickelnder Methoden der gemischten linearen Modelle.
3. Schätzung der Anzahl von Arrays pro Behandlungs- bzw. Gewebegruppe in Abhängigkeit der Anzahl falsch positiv und falsch negativ deregulierter Gene.
Literatur
- Büning, H., und Trenkler, G. (1994), Nichtparametrische statistische Methoden, De Gruyter, Berlin/New York.
- Gannoun, A., Saracco, J., Urfer, W., und Bonney, G.E. (2002a), "Nonparametric modelling approach for discovering differentially expressed genes in replicated microarray experiments", Technical Report, 41/2002, SFB 475, Fachbereich Statistik, Universität Dortmund.
- Gannoun, A., Saracco, J., Urfer, W., und Bonney, G.E. (2002b), "Nonparametric analysis of replicated microarray experiments", Technical Report, 70/2002, SFB 475, Fachbereich Statistik, Universität Dortmund.
- Guimaraes, G., und Urfer, W. (2002), "Self-organizing maps and its applications in sleep apnea research and molecular genetics", in: O. Opitz, M. Schwaiger (eds.): "Exploratory data analysis in empirical research. Studies in classification, data analysis and knowledge organisation", Springer-Verlag, Heidelberg, 332-345.
- Hartung, J., Elpelt, B., und Voet, B. (1997), Modellkatalog Varianzanalyse, Buch mit CD-ROM, R. Oldenbourg Verlag, München.
- Tschiersch, L., und Zerbst, M. (2002), "The advanced Maximum-Linkage Clustering-Algorithm", Technical Report, 10/2002, SFB 475, Fachbereich Statistik, Universität Dortmund.
Projekt C7: Entwicklung eines Verfahrens zur Klangtrennung
Prof. Dr. Claus Weihs
Die Identifikation eines Instruments in einem polyphonen Klang bzw. die Übertragung von Gesamtklängen in eine Partitur ist bisher nicht zufrieden stellend. Beispiele für erste Ansätze finden sich in der folgenden Literatur. Dixon (1996) entwirft z.B. ein Modell für Saiteninstrumente wie Gitarreund Klavier und erreicht eine zu 95% korrekte Übertragung in Noten. In Walmsley et al. (1999) und Klapuri (2001) ist es das Ziel, aus Audio-Zeitreihen von linearen Tonmischungen die verschiedenen Einzeltöne zu identifizieren. Goto (2001) schlägt einen Algorithmus vor, der sowohl die Melodiestimme als auch die Basslinie identifizieren kann. Als geeignetes Mittel zur Identifikation einzelner Stimmen in einem polyphonen Klang wird auch die Independent Component Analysis (ICA) vorgeschlagen (Hyvärinen et al., 2001). Erste eigene Versuche in dieser Richtung haben aber noch kein befriedigendes Ergebnis bei realen Aufnahmen geliefert (von Ameln, 2001). Ligges et al. (2002) haben als Vorarbeit für die automatische Vernotung Methoden der automatischen Segmentierung von Gesangszeitreihen sowohl bei simulierten als auch bei von wirklichen Sängern erzeugten Waves verglichen. Durch Verwendung von Vorinformation über Stimmlage und Tonumfang des analysierten Lieds und durch Einführung einer getrennten Klasse für Stille, Geräusche usw. konnte eine akzeptable Fehlerrate der Algorithmen erreicht werden.
Im Rahmen dieses Projekts soll ein Verfahren entwickelt werden, mit dessen Hilfe mehrere Musikstimmen voneinander getrennt, das heißt in Einzelstimmen zerlegt werden können. Dies soll zunächst bei Orchesterinstrumenten versucht werden, die wegen ihrer Klangspezifika einfach trennbar sind.
Literatur
- Dixon, S. (1996), "Multiphonic Note Identification", Proceedings of the 19th Australasian Computer Science Conference, February 1996, and Australian Computer Science Communications, 17(1).
- Goto, M. (2001), "A Prediminant-F0 Estimation Method for Real World Musical Audio Signals: MAP Estimation for Incorporating Prior Knowledge about F0s and Tone Models", Proceedings of CRAC-2001 (Workshop on Consistent & Reliable Acoustic Cues for Sound Analysis), September 2001.
- Hyvärinen, A., Karhunen, J., und Oja, E. (2001), Independent Component Analysis, John Wiley & Sons, New York.
- Klapuri, A.P. (2001), "Multipitch estimation and Sound Separation by a Spectral Smoothness Principle", IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 200.
- Ligges, U., Weihs, C., und Hasse-Becker, P. (2002), "Detection of Locally Stationary Segments in Time Series", in: W. Härdle, B. Rönz (eds.): "COMPSTAT 2002 - Proceedings in Computational Statistics -15th Symposium, Berlin, Germany", Physika, Heidelberg, 285-290.
- Von Ameln, F. (2001), "Trennung von Gesang und Begleitung bei Gesangsdarbietungen", Diplomarbeit am Fachbereich Statistik der Universität Dortmund, Februar 2001.
- Walmsley, P.J., Godsill, D.J., und Rayner, P.J.W. (1999), "Polyphonic Pitch Tracking using Joint Bayesian Estimation of Multiple Frame Parameters", Proceedings of the 1999 Workshop on Applications of Signal Processing to Audio and Acoustic.
Projekt D2: Simulation von Lévy-Prozessen
Prof. Dr. Katja Ickstadt
Eine flexible Klasse von stochastischen Prozessen bilden die sogenannten Lévy-Prozesse, die Gaußsche Prozesse ebenso umfassen wie reine Sprungprozesse. Aufgrund ihrer Flexibilität erleben solche Prozesse bei der Modellierung von Problemen in der Ökonomie, aber auch in der Physik und in den Umweltwissenschaften momentan einen starken Aufschwung (vgl. Barndorff-Nielsen, Mikosch, Resnick, 2001). In vielen Anwendungen erfordert eine Analyse in solchen Modellen die Simulation von Lévy-Prozessen.
Für die Generierung von Sprungprozessen haben Wolpert und Ickstadt (1998) den "Inverse Lévy Measure Algorithm" vorgeschlagen. Im Rahmen dieses Projektes soll dieser Algorithmus auf Lévy-Prozesse mit Gaußscher Komponente erweitert werden. Außerdem sollen Modifikationen des Algorithmus entwickelt werden, die einen Einsatz innerhalb von Markov Chain Monte Carlo Methoden zur Analyse komplexer hierarchischer Modelle ermöglichen. Für reine Sprungprozesse findet man eine solche Anpassung in Best, Ickstadt und Wolpert (2000) für ein Beispiel aus der Epidemiologie und in Wolpert und Ickstadt (2002) für die Untersuchung inverser Probleme
Literatur
- Barndorff-Nielsen, O.E., Mikosch, T., und Resnick, S.I., eds. (2001), Lévy Processes: Theory and Applications, Birkhäuser, Basel.
- Best, N.G., Ickstadt, K., und Wolpert, R.L. (2000), "Spatial Poisson regression for health and exposure data measured at disparate resolutions", Journal of the American Statistical Association, 95, 1076-1088.
- Wolpert, R.L., und Ickstadt, K. (1998), "Simulation of Lévy random fields", in: D. Dey, P. Müller, D. Sinha (eds.): "Practical Nonparametric and Semiparametric Bayesian Statistics", Band 133 der Lecture Notes in Statistics, Springer, <st1:state><st1:place>New York</st1:place></st1:state>, 227-242.
- Wolpert, R.L., Ickstadt, K., und Hansen, M.B. (im Druck), "A Nonparametric Bayesian Approach to Inverse Problems" (mit Diskussion), in: J.M. Bernardo, et al. (eds.): "Bayesian Statistics 7", Oxford University Press, <st1:city><st1:place>Oxford</st1:place></st1:city>.