Projektbeschreibungen
Projekt A1: Versuchspläne zur Modellidentifikation bei Crossover-Studien
Prof. Dr. Joachim Kunert
Optimale Versuchspläne bei Crossover-Studien konzentrieren sich in der Regel darauf, die Hauptwirkungen der Behandlungen möglichst gut zu schätzen. Im Modell mit Carryover Effekten führt das manchmal dazu, dass in den optimalen Designs manche Effekte gar nicht auftreten. Dies ist beispielsweise in dem Modell mit Mixed- und Self-Carryover Effekten der Fall, siehe Kunert und Stufken (2007). Der Aufsatz von Druilhet und Tinsson (2007) bestimmt daher Versuchspläne, die in dem gleichen Modell die "permanenten Effekte", d.h. die Summe aus direkten Effekten und Self-Carryover Effekten, möglichst gut schätzen. Dies hat aber nur Sinn, wenn das Modell tatsächlich "richtig" ist. Falls das traditionelle Modell gilt, bei dem immer der gleiche Carryover Effekt auftritt, ergeben sich andere "permanente Effekte". Aus diesem Grund ist es interessant, Versuchspläne zu bestimmen, die zwischen beiden Modellen unterscheiden können. Ein möglicher Ansatz versucht, Versuchspläne zu identifizieren, die möglichst gute Schätzer für die Differenzen zwischen den Mixed und den Self-Carryover Effekten erhalten.
Dabei ist aber die zusätzliche Bedingung zu beachten, dass nach Entscheidung über das Modell auch noch eine möglichst effiziente Schätzung der permanenten Effekte nötig ist. Damit sind Versuchspläne zu bestimmen, die gleichzeitig nach unterschiedlichen Kriterien effizient sind.
Literatur
- Druilhet, P., und Tinsson, W. (2007): Optimal Repeated Measurements Designs in a Model with Partial Interactions. Preprint.
- Kunert, J., und Stufken, J. (2002): Optimal Crossover Designs in a Model with Self and Mixed Carryover Effects. Journal of the American Statistical Association 97, 898–906.
- Kunert, J., und Stufken, J. (2007): Optimal Crossover Designs for Two Treatments in the Presence of Mixed and Self Carryover Effects. Preprint.
Verknüpfungen bestehen zu den Projekten A2 (Crossover-Design), B2 (Varianzanalytische Modelle), B6 (Verletzung der Unabhängigkeitsannahme) und C6 (Versuchspläne).
Projekt A2: Optimale Crossover-Designs zum Vergleich von Behandlungen mit einer Kontrolle
Prof. Dr. Joachim Kunert
Der überwiegende Teil der veröffentlichten Literatur zur Optimalität von Crossover Designs behandelt die Situation, in der alle Kontraste gleich interessant sind. Bei der Bestimmung optimaler Crossover Designs tritt die technische Schwierigkeit auf, dass für die Spur der Informationsmatrix keine geschlossene Form angegeben werden kann. Bei dieser technischen Schwierigkeit hat die Methode von Kushner (1997) zu großen Fortschritten geführt. A-optimale Versuchspläne zum Vergleich von Behandlungen mit einer Kontrolle haben in der Regel eine andere Struktur als die Versuchspläne, bei denen alle Kontraste von gleichem Interesse sind. Nur wenige Aufsätze versuchen die Bestimmung von Crossover Plänen zum Vergleich mit einer Kontrolle, siehe Hedayat and Yang (2005, 2006), können aber die Kushner-Methode nicht anwenden. Sucht man A-optimale Versuchspläne zum Vergleich von Behandlungen mit einer Kontrolle, so genügt die Bestimmung der Spur der Informationsmatrix alleine nicht. Man benötigt zusätzlich noch die Summe aller Elemente der Informationsmatrix.
In dem Aufsatz Bailey und Kunert (2006) ist es gelungen, die Kushner-Methode auf die A-Optimalität zu übertragen. Es ist zu vermuten, dass diese Anpassung der Kushner-Methode auf analoge Art auch eine Anpassung auf die A-Optimalität zum Vergleich mit einer Kontrolle erlaubt. Ziel dieses Projektes ist also die Übertragung der Kushner-Methode auf die A-Optimalität für den Vergleich von Behandlungen mit einer Kontrolle in einem Modell mit Carryover Effekten und die Bestimmung optimaler Versuchspläne mit dieser Methode. Dabei sind Ergebnisse für unterschiedliche Modelle zu erzielen und die Robustheit der Versuchspläne auf Änderungen des Modells zu untersuchen. Beispielsweise interessiert die Effizienz der optimalen Versuchspläne aus einem gegebenen Modell in anderen, möglichen Modellen.
Literatur
- Bailey, R.A., und Kunert, J. (2006): On Optimal Crossover Designs When Carryover Effects are Proportional to Direct Effects. Biometrika 93, 613-625.
- Hedayat, A.S., und Yang, M. (2005): Optimal and Efficient Crossover Designs for Comparing Test Treatments with a Control Treatment. Annals of Statistics 33, 915-943.
- Hedayat, A.S., und Yang, M. (2006): Efficient Crossover Designs for Comparing Test Treatments with a Control Treatment. Discrete Mathematics 306, 3112-3124.
- Kushner, H.B. (1997): Optimal Repeated Measurements Designs: the Linear Optimality Equations. Annals of Statistics 25, 2328-2344.
Verknüpfungen bestehen zu den Projekten A1 (Crossover-Design) und C11 (Modellrobustheit).
Projekt B1: Nichtparametrische Bayes-Regression bei qualitativen Strukturannahmen
Prof. Dr. Katja Ickstadt
Die Entwicklung computerintensiver Monte Carlo Verfahren in den letzten Jahrzehnten hat die Analyse völlig neuer Modellklassen ermöglicht. In den letzten Jahren sind insbesondere nichtparametrische Bayes-Modelle in den Blickpunkt gerückt, die einerseits unnötige parametrische Annahmen vermeiden, andererseits aber vorhandenes Vorwissen integrieren können. Grundbausteine nichtparametrischer Bayes-Modelle sind in der Regel stochastische Prozesse, z.B. Gauß-, Dirichlet- oder Lévy-Prozesse. Für einen Überblick über die wachsende Literatur zu nichtparametrischen Bayes-Verfahren siehe Müller und Quintana (2004).
Im Rahmen dieses Projektes sollen nichtparametrische Bayessche Regressionsmodelle entwickelt werden, die qualitatives Vorwissen über das zugrunde liegende Anwendungsproblem berücksichtigen. Eine solche Anwendung liegt zum Beispiel im Bereich der klinischen Studien in der pharmazeutischen Medikamentenentwicklung. Hier besteht das Vorwissen häufig darin, dass der Zusammenhang zwischen zwei Variablen (z.B. Dosis und Wirkung, Zeit und Konzentration) monoton oder unimodal ist. Vorwissen über eine konkrete Parametrisierung der zugrunde liegenden Kurven ist typischerweise nicht vorhanden, so dass die Entwicklung nichtparametrischer Verfahren unter Vorinformation über die Kurvenform notwendig ist.
Ein allgemeiner Ansatz zur nichtparametrischen Bayes-Regression besteht darin, die zu modellierende Funktion als eine Linearkombination (oder Mischung) von parametrischen Kernfunktionen darzustellen, wobei das zugrunde liegende Mischungsmaß a-priori auf einem Lévy-Prozess basiert. Dieser Ansatz wurde zuerst von Wolpert und Ickstadt (1998) für Zähldaten und eine Anwendung in der räumlichen Statistik realisiert. Clyde und Wolpert (2007) liefern einen Überblick über weitere Anwendungen des Modells und betten es in den formalen Rahmen der so genannten "overcomplete dictionaries" ein, einer flexiblen Klasse von Kernfunktionen.
Im Rahmen dieses Projektes soll das Modell unter Berücksichtigung von qualitativen Strukturannahmen wie Unimodalität oder Monotonie erweitert werden. Zur effizienten Analyse der erweiterten Modellklasse ist ein geeignetes Markov Chain Monte Carlo Verfahren zu entwickeln. Die Performanz des entwickelten Modells soll schließlich an Daten aus einer klinischen Studie und auch in einer Simulationsstudie evaluiert werden.
Literatur
- Clyde, M.A., und Wolpert, R.L. (2007): Nonparametric Function Estimation Using Overcomplete Dictionaries. In: Bernardo, J.M., et al. (Hrsg.): Bayesian Statistics 8. Oxford University Press, 91 114.
- Müller, P., und Quintana, F.A. (2004): Nonparametric Bayesian Data Analysis. Statistical Science 19, 95-110.
- Wolpert, R.L., und Ickstadt, K. (1998): Poisson / Gamma Random Field Models for Spatial Statistics. Biometrika 85, 251-267.
Verknüpfungen bestehen zu den Projekten B4 (Regularisierung in der Regression), C4 (qualitative Annahmen, räumliche Statistik), C5 (Lévy-Prozesse als Modellierungsbaustein), C6 (Prozessmodellierung und Analyse mittels MCMC Verfahren) und D4 (Implementierung der Algorithmen).
Projekt B2: Statistische Messmodelle und Verallgemeinerte Statistische Inferenz
Prof. Dr. Joachim Hartung, Dr. Guido Knapp
In nahezu allen empirisch arbeitenden Wissenschaften werden Erkenntnisse über Daten in geeigneten Messmodellen gewonnen, die dann über ein meist kompliziertes mathematisch-statistisches Analyse-Instrumentarium zu "statistisch abgesicherten" Ergebnissen führen sollen. Ziel des Forschungsvorhabens ist die Weiterentwicklung dieses Analyse-Instrumentariums für eine weite Klasse relevanter offener Probleme, wie sie insbesondere etwa in den Bereichen Technik und Industrie bei der Qualitätsbeurteilung und –sicherung, im Bereich Medizin bei klinischen Versuchen und epidemiologischen Studien oder im Bereich Wirtschaft bei ökonometrischen Untersuchungen auftreten.
In einer Reihe von Messmodellen werden Annahmen derart getroffen, dass eine exakte (und optimale) statistische Analyse in Bezug auf das Testen von Hypothesen oder die Konstruktion von Konfidenzintervallen möglich ist. Falls Modellannahmen jedoch verletzt sind, können in der Regel nur approximative Lösungen angegeben werden. Tsui und Weerahandi (1989) haben das Konzept der verallgemeinerten P-Werte für das Testen von Hypothesen vorgeschlagen, wenn z. B. Störparameter die Konstruktion von exakten Tests nicht zulassen. Weerahandi (1993) hat darauf aufbauend die allgemeine Konstruktion von verallgemeinerten Konfidenzintervallen vorgestellt.
Diese beiden Konzepte sind in einigen Messmodellen schon erfolgreich angewendet worden. So haben u. a. Hamada und Weerahandi (2000) diese Konzepte genutzt, um die Wiederhol- und die Vergleichspräzision in Mess-Systemen geeignet zu analysieren. Im Falle von Modellen mit Wiederholungsmessungen und ungleichen Varianzen haben Ho und Weerahandi (2007) gezeigt, wie die beiden Konzepte eingesetzt werden können und welche Vorteile diese Methoden im Vergleich zu klassischen Methoden haben, die auf restriktiveren Modellannahmen basieren. Diese beiden neueren Konzepte der verallgemeinerten statistischen Inferenz geben nun Raum für weitere Anwendungen in Messmodellen, in denen z. B. Störparameter eine exakte klassische statistische Analyse erschweren.
In Regressionsmodellen mit ANOVA-Fehlerstruktur beispielsweise, wie sie u. a. bei Paneldaten vorkommen können, vgl. u. a. Knapp (2002), stehen geeignete Schätz- und Testmethoden bei unbalancierten Stichprobenumfängen und/oder heteroskedastischen Fehlervarianzen noch aus. Tests über die Kovarianzparameter sowie der Einfluss der Kovarianzparameterschätzer auf die Tests über die Regressionsparameter sind noch nicht ausreichend erforscht.
Literatur
- Hamada, M., und Weerahandi, S. (2000): Measurement System Assessment via Generalized inference. Journal of Quality Technology 32, 241-253.
- Ho, Y.Y., und Weerahandi, S. (2007): Analysis of Repeated Measures under Unequal Variances. Journal of Multivariate Analysis 98, 493-504.
- Knapp, G. (2002): Variance Estimation in the Error Components Regression Model. Communications in Statistics – Theory and Methods 31, 1499-1514.
- Tsui, K.-W., und Weerahandi, S. (1989): Generalized P-Values in Significance Testing of Hypotheses in the Presence of Nuisance Parameter. Journal of the American Statistical Association 84, 602-607.
- Weerahandi, S. (1993): Generalized Confidence Intervals. Journal of the American Statistical Association 88, 899-905.
Verknüpfungen bestehen zu den Projekten A1 (Messmodelle) und C4 (Abweichungen von Messmodellen).
Projekt B3: Mehrkriterielle Optimierung korrelierter Qualitätsmerkmale mit Hilfe des Wünschbarkeitsindexes
Prof. Dr. Claus Weihs
Der von Harrington (1965) eingeführte Wünschbarkeitsindex ist eine Methode aus dem Bereich der mehrkriteriellen Qualitätsoptimierung von (Produktions-)Prozessen. Er hat in der Praxis, vor allem seit den 1990er Jahren, eine hohe Akzeptanz gefunden (vgl. z.B. Carro und Lorrenzo, 2001; Basu et al., 2002; Shyy et al., 2001; Parker und DeLoach, 2002).
Bei gegebenen Einflussgrößen und Qualitätsmerkmalen des betrachteten Prozesses wird durch den Wünschbarkeitsindex das mehrkriterielle Problem in mehreren Schritten in ein univariates transformiert. Nachdem die Beziehung zwischen den Qualitätsmerkmalen und Einflussgrößen, zumeist mittels statistischer Versuchsplanungsmethoden, über mathematische Modelle abgebildet worden ist, werden durch Experten für jedes Merkmal Spezifikationsgrenzen und eine sogenannte Wünschbarkeitsfunktion bestimmt. Diese bewirkt eine Skalentransformation der Merkmale in das Intervall [0, 1]. Dabei gilt: Je höher die Wünschbarkeit, desto besser ist die Prozessqualität bezogen auf das betrachtete Qualitätsmerkmal. So wird die Qualität der einzelnen Merkmale direkt vergleichbar, unterschiedliche Maßeinheiten sind nicht mehr relevant.
Im Anschluss erfolgt mittels des Wünschbarkeitsindexes eine Zusammenfassung der Wünschbarkeiten in ein globales univariates Qualitätsmaß. Dieses variiert wiederum im Intervall [0, 1] und wird zumeist als geometrischer Mittelwert der Wünschbarkeitsfunktionen definiert. Alternativ wird ein Maximin-Ansatz (vgl. Kim und Lin, 2000) verwendet, d.h. Ziel ist die Maximierung der minimalen Prozessqualität hinsichtlich der einzelnen Qualitätsmerkmale. Die Interpretation ist intuitiv: Je größer der Wünschbarkeitsindex, je gewünschter, d.h. je besser ist die Gesamt-Prozessqualität. Die Optimierung des Wünschbarkeitsindexes und damit der globalen Prozessqualität kann dann mittels nichtlinearer Optimierungsmethoden über den Zusammenhang mit den Einflussgrößen erfolgen.
Die theoretische Forschung auf diesem Gebiet wurde lange vernachlässigt. Von zentraler Bedeutung ist in dieser Hinsicht die Kenntnis der statistischen Verteilung des optimierten Wünschbarkeitsindexes, um vor allem die Unsicherheit des Optimierungsresultates beurteilen zu können. Verzerrungen der Optimierungsresultate entstehen vor allem, wenn der betrachtete Prozess durch mathematische Modelle nicht hinreichend genau beschrieben worden ist und/oder eine hohe Variabilität besitzt. Die funktionalen Zusammenhänge zwischen Einflussfaktoren und Qualitätsmerkmalen ergeben sich im Allgemeinen aus einer Versuchsplanungsphase und werden mittels Modellschätzungen gewonnen. Die so resultierenden Modelle enthalten allerdings immer einen Fehler, der bei der Optimierung zumeist nicht beachtet wird. So kann der durch die Optimierung erwartete Qualitätsgewinn im laufenden Prozess nicht garantiert werden. Dies kann zu gravierenden Prozess-Schwankungen und auch Verschlechterungen der Prozessqualität führen.
Mit Hilfe der Verteilung des Wünschbarkeitsindexes (vgl. Steuer, 2005; Trautmann und Weihs, 2006) konnten hingegen Optimierungsalgorithmen entwickelt werden, die diese Unsicherheit durch Optimierung des Erwartungswertes des Wünschbarkeitsindexes miteinbeziehen (vgl. Steuer, 2005), und Prognoseintervalle für den optimierten Wert des Wünschbarkeitsindexes aufgestellt werden (vgl. Trautmann, 2004). Auch konnte gezeigt werden, dass mit Hilfe von Wünschbarkeiten Expertenmeinungen zur Einschränkung der Menge der Pareto-Optima verwendet werden können (vgl. Mehnen und Trautmann, 2006); Mehnen et al., 2007; Weihs und Trautmann, 2007; Trautmann und Mehnen, 2008).
Im Zuge des beschriebenen Optimierungsansatzes werden im Allgemeinen Korrelationen zwischen den einzelnen Qualitätsmerkmalen nicht beachtet. Diese sind jedoch in der Praxis normalerweise zu erwarten und können, gerade durch die multiplikative Struktur des geometrischen Mittelwertes, zu Verzerrungen der Optimierungsresultate führen. Um den gegenüber Modellfehlern robusteren Ansatz der Optimierung des Erwartungswertes des Wünschbarkeitsindexes auch für korrelierte Qualitätsmerkmale anwenden zu können, besteht das Ziel des Dissertationssprojektes darin, die Verteilung von Wünschbarkeitsindizes für korrelierte Qualitätsmerkmale herzuleiten oder zu approximieren. Erste Ansätze sind bei Trautmann (2004) und Henkenjohann (2006) zu finden. Um eine analytische Bestimmung der Dichte- und Verteilungsfunktion und insbesondere des Erwartungswertes des Wünschbarkeitsindexes zu ermöglichen, könnte es sinnvoll sein, die ursprünglich von Harrington (1965) und Derringer und Suich (1980) eingeführten Wünschbarkeitsfunktionen zu modifizieren. Alternativ könnten Korrelationen über eine alternative Definition des Wünschbarkeitsindexes miteinbezogen werden.
Literatur
- Basu, S., Gaur, R., Gomes, J., et al. (2002): Effect of Seed Culture of Solid-State Bioconversion of Wheat Straw by Phanerochaete chrysosporium for Animal Feed Production. Journal of Bioscience and Bioengineering 93(1), 25-30.
- Carro, A.M., und Lorenzo, R.A. (2001): Simultaneous Optimization of the Solid-Phase Extraction of Organochlorine and Organophosphorus Pesticides Using the Desirability Function. Analyst 126, 1005-1010.
- Derringer, G.C., und Suich, D. (1980): Simultaneuous Optimization of Several Response Variables. Journal of Quality Technology 12(4), 214-219.
- Harrington, J. (1965): The Desirability Function. Industrial Quality Control 21(10); 494-498.
- Henkenjohann, N. (2006): Eine adaptive sequentielle Prozedur zur effizienten Optimierung des CNC-gesteuerten Drückprozesses. Dissertation, Technische Universität Dortmund, Fakultät Statistik. http://hdl.handle.net/2003/23260.
- Kim, K.-J., und Lin, D.K.J. (2000): Simultaneous Optimization of Mechanical Properties of Steel by Maximizing Desirability Functions. Applied Statistics 49(3), 311-326.
- Mehnen, J., und Trautmann, H. (2006): Integration of Expert's Preferences in Pareto Optimization by Desirability Function Techniques. In: Teti, R. (Hrsg.): Proceedings of the 5th CIRP International Seminar on Intelligent Computation in Manufacturing Engineering (CIRP ICME '06), Ischia, Italy, 293-298, ISBN: 88-95028-01-5 978-88-95028-01-9, 25-28 July 2006.
- Mehnen, J., Trautmann, H., und Tiwari, A. (2007): Introducing User Preference using Desirability Functions in Multi-objective Evolutionary Optimisation of Noisy Processes. In: Proceedings of the IEEE Congress on Evolutionary Computation (CEC), Singapore, 24-28 September 2007 (erscheint).
- Parker, P.A., und DeLoach, R. (2002): Structural Optimization of a Force Balance Using a Computational Experiment Design. (Invited), 40th AIAA Aerospace Sciences Meeting and Exhibit, American Institute of Aeronautics and Astronautics, Nevada, AIAA-2002-0540, http://techreports.larc.nasa.gov/ltrs//PDF/2002/aiaa/NASA-aiaa-2002-0540.pdf.
- Shyy, W., Paila, N., Vaidyanathan, R., et al. (2001): Global Design Optimization for Aerodynamics and Rocket Propulsion Components. Progress in Aerospace Sciences 37, 59-118.
- Steuer, D. (2005): Statistische Eigenschaften der Multikriteriellen Optimierung mittels Wünschbarkeiten. Dissertation, Technische Universität Dortmund, Fakultät Statistik. http://hdl.handle.net/2003/20171.
- Trautmann, H. (2004): Qualitätskontrolle in der Industrie anhand von Kontrollkarten für Wünschbarkeitsindizes – Anwendungsfeld Lagerverwaltung. Dissertation, Technische Universität Dortmund, Fakultät Statistik. http://hdl.handle.net/2003/2794.
- Trautmann, H., und Weihs, C. (2004): Uncertainty of the Optimum Influence Factor Levels in Multicriteria Optimization Using the Concept of Desirability. Technical Reprt 23/04, SFB 475, Universität Dortmund.
- Trautmann, H., und Mehnen, J. (2008): Preference-Based Pareto-Optimization in Certain and Noisy Environments. Engineering Optimization (eingereicht).
- Trautmann, H., und Weihs, C. (2006): On the Distribution of the Desirability Index Using Harrington's Desirablity Function. Metrika 63(2), 207-213.
- Weihs, C., und Trautmann, H. (2007): Parallel Universes: Multi-Criteria Optimization. In: Berthold, M.R., Morik, K., und Siebes, A. (Hrsg.): Parallel Universes and Local Patterns. http://drops.dagstuhl.de/opus/volltexte/2007/1255/.
Verknüpfungen bestehen zu den Projekten B6 (Verteilung von Wünschbarkeitsindizes bei korrelierten Qualitätsmerkmalen), C1 (Teststatistiken, die Korrelationen mit einbeziehen), C4 (mehrkriterielles Problem) und C8 (Abhängigkeitsmaße).
Projekt B4: Regularisierungsverfahren zur robusten Variablenselektion im linearen Modell
Prof. Dr. Ursula Gather, PD Dr. Sonja Kuhnt
Zur Beantwortung von Fragestellungen aus verschiedenen Sachwissenschaften stehen heute oft hochdimensionale Daten zur Verfügung. Die Anzahl der zur Erklärung, Steuerung oder Prognose einer abhängigen Variablen in Frage kommenden Einflussgrößen kann dabei sehr groß sein. Unter Umständen ist sie – wie häufig in den Lebenswissenschaften – sogar wesentlich größer als die Anzahl vorliegender Beobachtungen. In der multiplen linearen Regression wird aufgrund stark korrelierter oder überflüssiger Einflussvariablen die klassische KQ-Schätzung dann schnell unbrauchbar. Es müssen also unnötige Einflussvariablen entfernt oder ihr Einfluss beschränkt werden. Als Alternative zur Variablenselektion mittels t-Tests oder AIC wurden Regularisierungsverfahren vorgeschlagen, die die Schätzung stabilisieren, indem die Größe des Parametervektors in einer geeigneten Norm bestraft wird. Die bekannteste Variante, die Ridge-Regression, bestraft dabei die euklidische Norm des Parametervektors (Gruber, 1998). Aktuelle Verfahren wie LASSO (Tibshirani, 1996) oder der kürzlich vorgeschlagene "Dantzig-Selector" (Candes und Tao, 2007) benutzen die L1-Norm, um eine sparsame Besetzung des Parametervektors zu erzwingen. Mögliche Dissertationsthemen bestehen in der Untersuchung des Einflusses von Ausreißern und Verletzungen der Modellannahmen auf das Ergebnis solcher Regularisierungsverfahren sowie in der Erarbeitung robuster Alternativen.
Literatur
- Candes, E., und Tao, T. (2007): The Dantzig Selector: Statistical Estimation when p is Much Larger than n. With Discussion. Erscheint in: Annals of Statistics.
- Gruber, M.H.J. (1998): Improving Effiency by Shrinkage. Dekker, New York.
- Tibshirani, R. (1996): Regression Shrinkage via the Lasso. Journal of the Royal Statistical Society, Series B, 58, 267-288.
Verknüpfungen bestehen zu den Projekten B1 (Regularisierung in der Regression), B5 (Robuste Modellbildung), B6 (Robuste Modellbildung), C1 (Dimensionsreduktion), C2 (LASSO-Regression), C5 (Modellwahl) und D1 (Robuste Modellwahl für lineare Zeitreihenmodelle).
Projekt B5: Robuste Klassifikation
Prof. Dr. Ursula Gather, PD Dr. Sonja Kuhnt
Parametrische Klassifikationsverfahren kommen zum Einsatz, wenn Annahmen über die Klassendichten bzw. ihren Likelihoodquotienten getroffen werden können. Klassische Beispiele für solche Verfahren sind die lineare Diskriminanzanalyse, die quadratische Diskriminanzanalyse und die logistische Regression. Eine Verletzung der den Verfahren zu Grunde liegenden Annahmen kann die Klassifikationsgüte erheblich beeinträchtigen. Daher sind bei Vorliegen von Ausreißern oder anderen Modellabweichungen robuste Klassifikationsverfahren notwendig. In der Literatur existieren bereits einige Vorschläge zur Robustifizierung von Klassifikationsverfahren (Croux und Dehon, 2001; He und Fung, 2000; Joossens, 2006). Es sollen Promotionsthemen zur Untersuchung der Sensitivität bestehender Verfahren sowie zur Entwicklung neuer, robuster Klassifikationsverfahren und der Bestimmung ihrer statistischen Eigenschaften auch im Fall von mehr als zwei Klassen und zur Klassifikation von zeitabhängigen Daten vergeben werden. Dies soll teilweise in Kooperation mit Hannu Oja (University of Tampere, Finnland) geschehen.
Literatur
- Croux, C., und Dehon, C. (2001): Robust Linear Discriminant Analysis Using S-Estimators. The Canadian Journal of Statistics 29, 473-492.
- He, X.M., und Fung, W.K. (2000): High Breakdown Estimation for Multiple Populations with Applications to Discriminant Analysis. Journal of Multivariate Analysis 72, 151-162.
- Joossens, K. (2006): Robust Discriminant Analysis. PhD Thesis, Faculty of Economics and Applied Economics, Katholieke Universiteit Leuven.
Verknüpfungen bestehen zu den Projekten B4 (Robuste Modellbildung), B6 (Robuste Modellbildung), C4 (robuste Klassifikation), D2 und D3 (Klassifikationsverfahren) und D4 (Numerische Probleme der robusten Klassifikation).
Projekt B6: Robustheit statistischer Verfahren gegenüber Störung von Unabhängigkeit
Prof. Dr. Ursula Gather, PD Dr. Sonja Kuhnt
Bei der Verwendung vieler statistischer Verfahren werden Annahmen bzgl. der zugrunde liegenden Zufallsvariablen getroffen, die gewünschte Eigenschaften wie Optimalität, Unverzerrtheit etc. garantieren. Eine der häufigsten Annahmen an eine Sequenz von Zufallsvariablen ist, dass diese Zufallsvariablen unabhängig identisch verteilt sind, wie z.B. beim Einstichproben t-Test oder dem Einstichproben Kolmogorov-Smirnov-Test. Bei Verletzung der stochastischen Unabhängigkeit der Zufallsvariablen ist die Zweckmäßigkeit vieler statistischer Verfahren jedoch fraglich. Die Auswirkungen der Verletzung der Unabhängigkeit auf eine Auswahl häufig verwendeter statistischer Methoden sollen im Rahmen einer Dissertation untersucht werden. Aufbauend auf diesen Erkenntnissen können zudem zu statistischen Verfahren, welche sich in diesem Sinne als unrobust erwiesen, alternative Methoden entwickelt werden. Die Beschränkung der Verletzung stochastischer Unabhängigkeit mittels Mischungskoeffizienten bietet eine Möglichkeit zur Modellierung von Abhängigkeitsstrukturen, für welche bereits asymptotische Resultate aus der Literatur bekannt sind. In Dedecker und Prieur (2007) wird das asymptotische Verhalten empirischer Prozesse bei Abhängigkeit charakterisiert. In Baklanov (2006) finden sich Resultate zum asymptotischen Verhalten von L-Statistiken bei strikt stationären und ergodischen Sequenzen. Neben analytischen Untersuchungen erfordert dieser Themenbereich auch experimentelle Untersuchungen, die einen praxisnahen Zugang zur Aufgabenstellung bei endlichen und kleinen Stichproben erlauben. Die Wahl geeigneter Abhängigkeitsstrukturen, und die Entwicklung von Methoden zur Generierung von Zufallssequenzen, welche diese Abhängigkeitsstrukturen aufweisen, stellen dabei eine weitere Herausforderung dar.
Literatur
- Baklanov, E.A. (2006): The Strong Law of Large Numbers for L-Statistics with Dependent Data. Siberian Mathematical Journal 47, 975-979.
- Dedecker, J., und Prieur, C. (2007): An Empirical Central Limit Theorem for Dependent Sequences. Stochastic Processes and their Applications 117, 121-142.
Verknüpfungen bestehen zu den Projekten A1 (Verletzung der Unabhängigkeitsannahme), B3 (Verteilung von Wünschbarkeitsindizes bei korrelierten Qualitätsmerkmalen), B4 (Robuste Modellbildung), B5 (Robuste Modellbildung), C1 (gegenüber Korrelationen robuste Verfahren), C10 (Auswirkungen von Abhängigkeiten auf statistische Verfahren) und D1 (robuste Modellierung von Abhängigkeiten).
Projekt C1: Dimensionsreduktion bei hochdimensionalen genetischen Messungen mittels Gengruppentests
Prof. Dr. Jörg Rahnenführer
Mit Microarray-Experimenten wird die Genexpression Tausender von Genen gleichzeitig gemessen. Die Messungen beschreiben die Genaktivität zu bestimmten Zeitpunkten oder unter bestimmten experimentellen Bedingungen. Sie dienen meist als Startpunkt zur Untersuchung der zu Grunde liegenden Biologie. Üblicherweise werden lange Listen von differentiell exprimierten Genen analysiert. Die Integration von strukturellen, regulatorischen oder enzymatischen Eigenschaften der zugehörigen Proteine führt zu einer signifikanten Verbesserung der funktionellen Interpretation der Ergebnisse.
In Biologie und Medizin ist es mittlerweile gängige Praxis, zusätzlich zu den interessantesten Genen auch statistisch auffällige Gengruppen zu analysieren, die in einem vorgegebenen, meist funktionalen, Kontext stehen. Sind viele Gene einer biologisch definierten Gruppe, z.B. alle Gene, die eine Rolle bei der Immunabwehr spielen, zwischen einer Patienten- und einer Kontrollgruppe signifikant unterschiedlich exprimiert, so legt dies nahe, dass die entsprechende Funktion, hier die Immunabwehr, eine wichtige Rolle bei der Krankheit spielt (Goeman et al., 2007). In einem zweiten Schritt untersucht man dann die entsprechenden Mitglieder dieser Gengruppe genauer. Die Berechnung statistischer Signifikanzen für Gengruppen liefert zudem globale funktionelle Profile mit hoher biologischer Interpretierbarkeit.
Ein wichtiges Problem in der Berechnung der Signifikanz von Gengruppen ist die hohe Redundanz, da viele Gengruppen stark überlappend sind. Dies führt zu hoch korrelierten Teststatistiken und somit bei der typischerweise großen Anzahl an getesteten Gruppen zum Verlust von signifikanten Ergebnissen, wenn für das Multiple Testen adjustiert wird. In den letzten Jahren wurden verschiedene Algorithmen entwickelt, mit denen die Relevanz von Gengruppen in Microarray-Experimenten bestimmt werden kann (Alexa et al., 2005; Mansmann et al., 2005). Die untersuchten Gruppen waren dabei 'Gene Ontology' (GO)-Klassen. Die GO liefert eine Zuordnung von Genen zu biologischen Prozessen und molekularen Funktionen, die hierarchisch angeordnet sind. Unsere eigenen Methoden haben die spezielle komplexe Struktur der Gene Ontology genutzt, um die Teststatistiken heuristisch zu dekorrelieren. Es wurde gezeigt, dass diese Algorithmen nachweisbar mehr biologisch relevante Prozesse identifizieren als klassische etablierte Verfahren (Alexa et al., 2005). Die Methoden wurden ferner erfolgreich auf Prostatakrebsdaten angewendet.
In der Literatur gibt es inzwischen mehr als 30 Publikationen, die Methoden zum Testen von Gengruppen beschreiben. Die Dekorrelation von Teststatistiken aufgrund von überlappenden Gengruppen wurde jedoch nur für die spezielle Anwendung auf GO-Klassen behandelt. In diesem Projekt sollen zwei Schwerpunkte gesetzt werden. Zum einen sollen Methoden entwickelt werden, die auch auf andere Gengruppen angewendet werden können, wie z.B. Gene, die zu einem gemeinsamen metabolischen Pfad oder zu definierten Teilen genetischer Netzwerke gehören. Da die Teilmengenbeziehungen aus der hierarchischen Struktur der GO verloren gehen, müssen neue Konzepte erarbeitet werden. Ein erster Ansatz könnte ein sequentielles Verfahren sein, das iterativ die signifikanteste Gengruppe aus der Gesamtliste findet, gegeben die Teilliste der bereits zuvor identifizierten Gengruppen. Hier müssen Methoden des sequentiellen Testens untersucht werden. Zum anderen sollen verschiedene Teststatistiken zur Berechnung der Signifikanz von Gengruppen verglichen werden. Die populärsten Verfahren verwenden nur die Reihenfolge der Signifikanz einzelner Gene, Abhängigkeiten zwischen Genen können aber beispielsweise durch Teststatistiken erfasst werden, die die Korrelation zwischen Genen mit einbeziehen (Rahnenführer et al., 2004).
Das Projekt wird in enger Zusammenarbeit mit dem Max-Planck-Institut für Informatik in Saarbrücken durchgeführt. Die bestehende Kooperation mit Prof. Mansmann von der LMU München soll ausgebaut werden.
Literatur
- Newton, M.A., Quintana, F.A., Den Boon, J.A., Sengupta, S., und Ahlquist, P. (2007): Random-Set Methods Identify Distinct Aspects of the Enrichment Signal in Gene-Set Analysis. The Annals of Applied Statistics 1(1), 85–106.
- Schulz, W.A., Alexa, A., Jung, V., Hader, C., Hoffmann, M.J., Yamanaka, M., Fritzsche, S., Wlazlinski, A., Müller, M., Lengauer, T., Engers, R., Florl, A.R., Wullich, B., und Rahnenführer, J. (2007): Factor Interaction Analysis for Chromosome 8 and DNA Methylation Alterations Highlights Innate Immune Response Suppression and Cytoskeletal Changes in Prostate Cancer. Molecular Cancer 6, Artikel 14.
- Goeman J.J., und Bühlmann, P. (2007): Analyzing Gene Expression Data in Terms of Gene Sets: Methodological Issues. Bioinformatics 23(8), 980-987.
- Alexa, A., Rahnenführer, J., und Lengauer, T. (2006): Improved Scoring of Functional Groups from Gene Expression Data by Decorrelating GO Graph Structure. Bioinformatics 22(13), 1600 1607.
- Mansmann, U, und Meister R. (2005): Testing Differential Gene Expression in Functional Groups. Goeman’s Global Test versus an ANCOVA Approach. Methods of Information in Medicine 44(3), 449-453.
- Rahnenführer, J., Domingues, F.S., Maydt, J., und Lengauer, T. (2004): Calculating the Statistical Significance of Changes in Pathway Activity from Gene Expression Data. Statistical Applications in Genetics and Molecular Biology 3(1), Artikel 16.
Verknüpfungen bestehen zu den Projekten B3 (jeweils konkurrierende Ziele), B4 (Dimensionsreduktion), B6 (gegenüber Korrelationen robuste Verfahren), C2 (bioinformatische Daten), C10 (Dimensionsreduktion), D3 (Cluster- und Klassifikationsverfahren zur Dimensionsreduktion) und D4 (Numerische Probleme bei hoher Dimension).
Projekt C2: Statistische Modelle für die Abhängigkeit von Überlebenszeiten von komplexen genetischen Markern
Prof. Dr. Jörg Rahnenführer
Neue experimentelle Techniken in der Molekularbiologie haben in den letzten Jahren zu einer Flut von neuen genetischen Daten geführt. Diese oft hochdimensionalen Daten ermöglichen ein besseres Verständnis der biologischen Prozesse, welche Krankheiten auslösen und steuern. Insbesondere in der Krebsforschung besteht die Hoffnung, dass als Folge von besseren Modellen für die Entstehung und Progression von Tumoren zuverlässigere Diagnose- und bessere Therapieentscheidungen getroffen werden können. Ein Beispiel sind bessere Klassifikationen von verschiedenen Ausprägungen einer Krebserkrankung mit Hilfe von Microarray-Daten.
In den letzten Jahren haben wir ein biostatistisches Modell für die genetische Progression in humanen Tumoren entwickelt (Beerenwinkel et al., 2005) und in vielfältiger Weise statistisch und klinisch evaluiert (Rahnenführer et al., 2005; Toloşi, 2006; Bogojeska, 2007). In diesem Modell wird Progression durch die irreversible, meist sequentielle Anhäufung somatischer Änderungen in Krebszellen beschrieben. Unser Mischungsmodell von onkogenetischen Bäumen zeichnet sich durch hohe Interpretierbarkeit aus und ermöglicht die Einführung eines genetischen Progressionsscores, der den genetischen Fortschritt der Krankheit eines Patienten univariat quantifiziert. Es konnte mit Cox-Modellen aus der Überlebenszeitanalyse nachgewiesen werden, dass für Patienten mit Prostatakrebs oder mit verschiedenen Arten von Hirntumoren ein höherer genetischer Score mit verkürzter Zeit bis zum Rückfall oder Tod korreliert (Rahnenführer et al., 2005; Ketter et al, 2007).
Die klinische Aussagekraft eines solchen Tumorprogressionsmodells hängt einerseits von der Stabilität des statistischen Modells und andererseits von der Vorhersagequalität der abgeleiteten Scores für die interessierenden Überlebenszeiten ab. In Simulationsstudien zeigte sich bereits, dass die Topologie unseres Progressionsmodells und damit auch die abgeleiteten Scores nicht immer zuverlässig geschätzt werden können (Bogojeska, 2007). Die Vorhersagequalität muss noch mit Methoden der Schätzung des Optimismus in den Modellen beurteilt werden (Schumacher et al., 2007).
Ziel dieses Projektes ist es, aus genetischen Daten von Tumorproben Marker zu entwickeln, die eine Klassifikation der zugehörigen Patienten mit signifikant unterschiedlicher Überlebenszeitprognose ermöglichen. Dabei soll ein angemessener Kompromiss zwischen Modell-Interpretierbarkeit, Modell-Stabilität und Vorhersagequalität gefunden werden. Die Daten können Expressionsmessungen, CGH-Daten oder epigenetische Messungen sein. Spezielle Fragestellungen werden die geeignete Merkmalsauswahl aus den genetischen Messungen, die Kombination der Merkmale zu interpretierbaren Scores und die Anpassung von Methoden zur Evaluation der Korrelation mit Überlebenszeiten sein.
Während unsere Modelle aufgrund der Komplexität instabil sein können, führt das in der Medizin populäre einfache Zählen von genetischen Veränderungen auf zu einfache Scores mit niedriger Klassifikationsgüte. In diesem Projekt sollen Kompromisse gefunden werden. Ein Ausgangspunkt werden gewichtete Summen von genetischen Veränderungen sein, bei denen die Anzahl der relevanten Veränderungen durch Regularisierungsansätze klein gehalten wird, ähnlich wie bei Anwendung einer LASSO-Regression. Eine Alternative ist die Adaption unserer Progressionsmodelle, die die strikte Annahme der sequentiellen Anhäufung von genetischen Veränderungen relaxiert. Dies kann entweder durch Addition eines Rauschterms in den Modellen geschehen oder durch die Anwendung anderer Modell-Schätzverfahren.
Eine weitere wünschenswerte Eigenschaft der neuen Modelle ist Robustheit gegenüber Ausreißern sowohl in den genetischen Daten als auch in den Überlebenszeiten.
Literatur
- Ketter, R., Urbschat, S., Henn, W., Kim, Y.-J., Feiden, W., Beerenwinkel, N., Lengauer, T., Steudel, W.-I., Zang, K.D., und Rahnenführer, J. (2007): Application of Oncogenetic Trees Mixtures as a Biostatistical Model of the Clonal Cytogenetic Evolution of Meningiomas. International Journal of Cancer 121(7), 1473-1480.
- Bogojeska, J. (2007): Stability Analysis for Oncogenetic Trees. Master-Arbeit, Universität des Saarlandes.
- Schumacher M., Binder H., und Gerds T. (2007): Assessment of Survival Prediction Models Based on Microarray Data. Bioinformatics 23, 1768-1774.
- Toloşi, L. (2006): Analysis of ArrayCGH Data for the Estimation of Genetic Tumor Progression. Master-Arbeit, Universität des Saarlandes.
- Rahnenführer, J., Beerenwinkel, N., Schulz, W.A., Hartmann, C, von Deimling, A., Wullich, B., und Lengauer, T. (2005): Estimating Cancer Survival and Clinical Outcome Based on Genetic Tumor Progression Scores. Bioinformatics 21(10), 2438-2446.
- Beerenwinkel, N., Rahnenführer, J., Däumer, M., Hoffmann, D., Kaiser, R., Selbig, J., und Lengauer, T. (2005): Learning Multiple Evolutionary Pathways from Cross-Sectional Data. Journal of Computational Biology 12(6), 584-598.
Verknüpfungen bestehen zu den Projekten B4 (Robustheit, LASSO-Regression), C1 (bioinformatische Daten), C9 (zensierte Verweildauern, Cox-Regression), C11 (Überlebenszeiten), D1 (Ausreißer), D2 (Klassifikation mit mehr als zwei Klassen) und D4 (Numerische Probleme bei hoher Dimension).
Projekt C4: Statistische Modellierung von Musik: Von Ihrer Erzeugung bis zu ihrer Wahrnehmung
Prof. Dr. Claus Weihs
Musik kann als Zeitreihe von Vibrationen aufgefasst werden, die sich nicht nur zeitlich, sondern auch räumlich verändert. Modelle für musikalische Klänge beziehen sich typischerweise auf einen kleinen Zeitraum und einen Punkt im Raum, z.B. an dem sich das menschliche Ohr befindet. Tatsächlich werden solche Klänge von ihrer Erzeugung bis zur Wahrnehmung vielfältigen Veränderungen unterzogen, die zu Modelländerungen führen, die bisher noch nicht als Gesamtprozess untersucht wurden.
In diesem Projekt soll der gesamte Prozess der Erzeugung, Resonanz, räumlichen Übertragung und Wahrnehmung von musikalischen Klängen modelliert werden. Basierend auf naturwissenschaftlichen Modellen (vgl. z.B. Roederer, 2000), sollen dabei zunächst die statistischen Schwankungen der musikalischen Signale modelliert werden. Als Beispiel für eine typische Schwankung soll das Vibrato bei verschiedenen Musikinstrumenten untersucht werden. Modelle für musikalische Klänge, die Vibrato enthalten (vgl. z.B. Rossignol et al., 1999; Weihs et al., 2006) sollen vor und nach Transformationen durch Resonanz, Raumklang und Wahrnehmung verglichen werden, d.h. es soll die Transformation der spektralen Verteilungen, der deterministischen Modellteile und der Fehlerverteilungen untersucht werden.
Ziel dieses Projekts ist die Untersuchung der Wahrnehmung der gespielten monophonen und polyphonen Musik bei verschiedenen Instrument-Raum-Hörsituationen. Dabei spielt, neben dem Verständnis der Transformation statistischer Verteilungen, auch das Verständnis der Physik von Klangerzeugung, Resonanz und Raumakustik (vgl. z.B. Roederer, 2000) sowie der physiologischen Vorgänge beim Hören (vgl. z.B. Szepannek et al., 2006) und der neurologischen Verarbeitung des Gehörten (vgl. z.B. Petkov et al., 2006) eine wesentliche Rolle. Die Hörvorgänge sollen in Klassifikationsmodelle zur Identifikation der Ausgangssignalklassen (z.B. Notenhöhen und –längen) umgesetzt werden.
Literatur
- Petkov, C., Kayser, C., Augath, M., und Logothetis, N. (2006): Functional Imaging Reveals Numerous Fields in the Monkey Auditory Cortex. PLoS Biology 4, 1213-1226.
- Roederer, J.G. (2000): Physikalische und psychoakustische Grundlagen der Musik. 3. Ed., Springer, Berlin.
- Rossignol, S., Depalle, P., Soumagne, J., Rodet, X., und Colette, J.-L. (1999): Vibrato: Detection, Estimation, Extraction, Modification. In: Proceedings of the COST-G6 Workshop on Digital Audio Effects (DAFx-99).
- Szepannek, G., Harczos, T., Klefenz, F, Katai, A., Schikowski, P., und Weihs, C. (2006): Vowel Classification by a Perceptually Motivated Neurophysiologically Parameterized Auditory Model. In: Decker, R., und Lenz, H. (Eds.): Advances in Data Analysis. Springer, Heidelberg, 653-660.
- Weihs, C., Ligges, U., und Sommer, K. (2006): Analysis of Music Time Series. In: Rizzi, A., und Vichi, M. (Eds.): COMPSTAT-2006 – Proceedings in Computational Statistics. Physica, Heidelberg, 147-159.
Verknüpfungen bestehen zu den Projekten B1 (qualitative Annahmen, räumliche Statistik), B2 (Abweichungen von Messmodellen), B3 (mehrkriterielles Problem), B5 (robuste Klassifikation), C5 (Signalübertragungsnetzwerke), C6 (räumliche Signalmodellierung), D1 (robuste Zeitreihenanalyse), D2 (mehrklassiges Problem) und D3 (Spektren).
Projekt C5: Modellierung von Signalübertragungsnetzwerken
Prof. Dr. Roland Fried, Prof. Dr. Katja Ickstadt
Unter Signaltransduktion versteht man den Prozess der Konvertierung von außer-zellulären Signalen in inner-zelluläre Signale, welche funktionale Antworten der Zelle stimulieren. Grundlegende Fragen hierbei sind, wie eine spezielle Reaktion durch eine gegebene Stimulanz ausgelöst wird, und wie diese Antwort reguliert wird.
Die mathematische Modellierung mittels Systemen gewöhnlicher Differentialgleichungen hat wichtige Beiträge zum besseren Verständnis zellulärer Signalübertragungsnetzwerke geleistet. Allerdings kann die Bestimmung und Interpretation der Modellparameter (z.B. Assoziations- und Dissoziationsraten, Proteinkonzentrationen, etc.) bei einer großen Anzahl zu berücksichtigender Moleküle sehr schwer werden. Der neuere Ansatz der Modularen Response Analyse (MRA) unterteilt das Netzwerk in funktionale Module und leitet die Interaktionsstärken zwischen den Modulen aus experimentellen Daten ab. Der erfolgreiche Einsatz dieser Methodik auf einem kleinen Signalübertragungsnetzwerk erlaubte vor kurzem die Identifikation einer positiven Rückkopplung, welche die Entwicklung von adrenal pheochromocytoma (PC12) Zellen in Ratten steuert (Santos, Verveer und Bastiaens, 2007). Dieser Ansatz, der als inverses Problem klassifiziert werden kann, erweist sich auf kleinen Skalen als erfolgreich, ist aber schwer auf große Systeme übertragbar und außerdem deterministisch.
In Wirklichkeit sind die funktionalen Module und ihre Verbindungen als stochastisch zu betrachten. Proteinmengen variieren von Zelle zu Zelle. Folglich werden sowohl die funktionalen Module, welche die Proteinkonzentrationen repräsentieren, als auch die Verbindungen zwischen den Modulen, welche die Verbundwirkungen von Proteinmengen und Netzwerkparametern beschreiben, eine Wahrscheinlichkeitsverteilung besitzen. Somit erscheint das in diesem Projekt angestrebte alternative Vorgehen, interzelluläre Variabilität mittels statistischer Methoden zur Bestimmung der Modellparameter zu berücksichtigen, erfolgversprechend.
Als eine stochastische Alternative zum MRA-Ansatz wurden in der Literatur bereits Bayes-Netze zur Bestimmung kausaler Protein-Signalübertragungsnetzwerke aus Zelldaten benutzt (Sachs et al., 2005). In diesem Modellierungsansatz können Rückkopplungen, die wesentliche Eigenschaften zellulärer Signalübertragungsnetzwerke sind, jedoch nicht berücksichtigt werden.
In diesem Projekt sollen daher solche graphen-basierten Methoden um Rückkopplungen erweitert werden. Selbige sollen dabei in den funktionalen Modulen als inverses Problem unter Unsicherheit modelliert werden, wobei eine Adaption des auf Lévy-Prozessen basierenden Bayesianischen Ansatzes von Wolpert und Ickstadt (2004) geplant ist (siehe auch Wolpert, Ickstadt und Hansen, 2003). Die funktionalen Module sollen dann mittels graphischer Modellierung verbunden werden (siehe Fried und Didelez, 2003, 2005).
Literatur
- Fried, R., und Didelez, V. (2003): Decomposability and Selection of Graphical Models for Multivariate Time Series. Biometrika 90, 251–267.
- Fried, R., und Didelez, V. (2005): Latent Variable Analysis and Partial Correlation Graphs for Multivariate Time Series. Statistics & Probability Letters 73, 287–296.
- Sachs, K., Perez, O., Pe’er, D., Lauffenburger, D.A., und Nolan, G.P. (2005): Causal Protein-Signaling Networks Derived from Multiparameter Single-Cell Data. Science 308, 523–529.
- Santos, S.D.M., Verveer, P.J., und Bastiaens, P.I.H. (2007): Growth Factor-Induced MAPK Network Topology Shapes Erk Response Determining PC-12 Cell Fate. Nature Cell Biology 9, 324–330.
- Wolpert, R.L., und Ickstadt, K. (2004): Reflecting Uncertainty in Inverse Problems: A Bayesian Solution Using Lévy Processes. Inverse Problems 20, 1759–1771.
- Wolpert, R.L., Ickstadt, K., und Hansen, M.B. (2003): A Nonparametric Bayesian Approach to Inverse Problems (mit Diskussion). In: Bernardo, J.M., Bayarri, M.J., Berger, J.O., Dawid, A.P., Heckerman, D., Smith, A.F.M., und West, M. (Hrsg.): Bayesian Statistics 7, Oxford University Press, Oxford, 403 –417.
Verknüpfungen bestehen zu den Projekten B1 (Lévy-Prozesse als Modellierungsbaustein), B4 (Modellwahl), C4 (Signalübertragungsnetzwerke), C6 (gemeinsames Anwendungsgebiet Signale) und D1 (robuste Modellierung von Abhängigkeiten).
Projekt C6: Räumliche Modellierung zellulärer Signale
Prof. Dr. Katja Ickstadt
Bei der Signalübertragung von Zellen wird davon ausgegangen, dass räumliche Effekte wie Gradienten, räumliche Trends oder Clusterbildung eine entscheidende Rolle spielen. Ein Beispiel bilden Molekülcluster in der Plasmamembran. Regulatorisches GTPase Ras, ein kleines, Plasmamembran-residentes Protein, das bei der Signalübertragung und bei der Tumorentstehung eine wichtige Rolle spielt, bildet Cluster von 4 bis 10 Ras-Proteinen in kleinen (10-20 nm) Gebieten, abhängig von Aktivierungsstatus und von Interaktionen mit anderen Proteinen. Die Clustergrößen wiederum beeinflussen die Signalübertragung mittels dieser Proteine und sind deshalb für die biomedizinische Forschung von großem Interesse.
Ferner wird davon ausgegangen, dass bei der zellulären Signalübertragung stochastische Effekte eine Rolle spielen, z.B. bei der Beschreibung der Dynamik kleiner Proteincluster in der Größenordnung von 4 bis 10 Molekülen.
Bisher wurden zelluläre Übertragungsnetzwerke mit Hilfe von gewöhnlichen Differentialgleichungen modelliert. Zum Verständnis der räumlichen und stochastischen Effekte können diese Modelle entsprechend um eine räumliche Komponente (partielle Differentialgleichungen) bzw. um eine stochastische Komponente (stochastische Differentialgleichungen) erweitert werden (van Zon und ten Wolde, 2005, Ander et al., 2004).
In diesem Projekt wird ein anderer Ansatz gewählt, bei dem die räumlichen Effekte sowie die stochastischen Phänomene direkt modelliert werden. Hierzu werden Modelle aus der räumlichen Statistik, z.B. hierarchische Poisson/Gamma Modelle (Wolpert und Ickstadt, 1998) und Clustermodelle (siehe z.B. Knorr-Held und Raßer, 2000) für das Anwendungsfeld der zellulären Signalübertragung adaptiert. Die verschiedenen Proteine können dabei über einen markierten Punktprozess beschrieben werden (Ickstadt und Wolpert, 1999). In einem weiterführenden Schritt kann die Dynamik der Signalübertragung durch eine Verallgemeinerung der räumlichen Modelle zu räumlich-zeitlichen Modellen erfasst werden.
Ein weiterer Aspekt der zellulären Signalübertragung sind Messschwierigkeiten, die für eine gelungene Modellierung zu berücksichtigen sind. Proteincluster sind unter Umständen zu klein, um mit dem Fluoreszenzmikroskop beobachtet zu werden und außer den oben erwähnten stochastischen Effekten spielt Rauschen eine entscheidende Rolle. Im Verlauf dieses Projektes werden sich idealerweise Experimente und statistische Auswertungen wechselseitig verbessern, d.h. Resultate der statistischen Analyse steuern zukünftige Experimente, die wiederum die Datenqualität für neue Analysen steigern.
Literatur
- Ander, M., Beltrao, P., Di Ventura, B., Ferkinghoff-Borg, J., Foglierini, M., Kaplan, A., Lemerle, C., Tomás-Oliveira, I., und Serrano, L. (2004): SmartCell, a Framework to Simulate Cellular Processes that Combines Stochastic Approximation with Diffusion and Localisation: Analysis of Simple Networks. Systems Biology 1, 129-138.
- Ickstadt, K., und Wolpert, R.L. (1999): Spatial Regression for Marked Point Processes. In: Bernardo, J.M., Berger, J.O., Dawid, A.P. und Smith, A.F.M. (Eds.): Bayesian Statistics 6, Oxford University Press, Oxford, 323-341.
- Knorr-Held, L., und Raßer, G. (2000): Bayesian Detection of Clusters and Discontinuities in Disease Maps. Biometrics 56, 13-21.
- van Zon, J.S., und ten Wolde, P.R. (2005): Green’s-Function Reaction Dynamics: A Particle-Based Approach for Simulating Biochemical Networks in Time and Space. Journal of Chemical Physics 123, 234910-1 – 234910-16.
- Wolpert, R.L., und Ickstadt, K. (1998): Poisson/Gamma Random Field Models for Spatial Statistics. Biometrika 85, 251-267.
Verknüpfungen bestehen zu den Projekten A1 (Versuchspläne), B1 (Modellierung mittels stochastischer Prozesse und MCMC Methoden), C4 (räumliche Signalmodellierung), C5 (gemeinsames Anwendungsgebiet Signale) und D3 (Clustern).
Projekt C7: Die Ausbreitung von Finanzkrisen auf internationalen Kapitalmärkten
Prof. Dr. Walter Krämer
Wie die neuere Wirtschaftsgeschichte zeigt, scheinen sich Finanzkrisen, die in irgendeinem Land entstehen, sozusagen "per Ansteckung" auf andere Volkswirtschaften auszudehnen. Beispiele sind die Ostasienkrise der späten Neunzigerjahre, die mexikanische Pesokrise von 1992 oder die Russlandkrise von 1998. Ist das nun ein "normaler" Vorgang oder ist das die Konsequenz eines Strukturbruchs in ansonsten stabilen wirtschaftlichen Gleichungssystemen? Oder aus technischer Sicht der Ökonometrie: Lassen sich dergleichen Phänomene durch ein strukturkonstantes Modell erklären oder braucht man zur Erklärung die Annahme eines Strukturbruchs in den Koeffizienten eines einschlägigen Modells?
Zur Klärung dieser Frage werden zunächst verschiedene Modelle für multivariate Renditeverteilungen geschätzt (Vektorautoregressive Prozesse, Faktormodelle). In der Literatur hat sich gezeigt, dass viele dieser Modelle wegen der großen Zahl der Koeffizienten nicht exakt identifizierbar sind. Hier soll nach zusätzlichen identifizierenden Restriktionen gesucht werden. Sodann sind existierende Strukturbruchtests auf diese Modelle anzuwenden und neue zu entwickeln.
Eine weitere Forschungsfrage in diesem Kontext betrifft den Zusammenhang zwischen Strukturbruch und langem Gedächtnis. Als spezielle methodische Innovation ist auch die Ableitung der Nullverteilung ausgewählter Prüfgrößen für Fälle vorgesehen, in denen Renditen keine endlichen höheren Momente besitzen.
Literatur
- Arestis, P., Caporale, G., Cipolini, A., und Spagnolo, N. (2005): Testing for Financial Contagion between Developed and Emerging Markets during the 1997 East Asian Crisis. International Journal of Finance and Economics, 10, 359-367.
- Dungrey, Y., und Tambakis, D. (2005): Identifying International Financial Contagion. Oxford University Press.
- Forbes, K., und Rigobon, R. (2002): No Contagion, only Interdependence: Measuring Stock Market Comovements. Journal of Finance, 57, 2223-2261.
- Zeileis, A., Kleiber, C., Krämer, W., und Hornik, K. (2003): Testing and Dating of Structural Changes in Practice. Computational Statistics & Data Analysis, 44, 109-123.
Verknüpfungen bestehen zu den Projekten C8 (Abhängigkeitsmaße für Kapitalmarktrenditen), C9 (homogene Markoff-Prozesse mit Strukturbrüchen zwischen einzelnen Prozesspha
Projekt C8: Zeitvariable Abhängigkeiten in den Renditen risikobehafteter Wertpapiere
Prof. Dr. Walter Krämer
In schlechten wirtschaftlichen Zeiten scheint die Abhängigkeit von Kapitalmarktrenditen, verglichen mit Aufschwungphasen, zuzunehmen. Das ist in vielfacher Hinsicht beunruhigend. Insbesondere geht genau dann der Diversifikationseffekt großer Portfolios verloren, wenn man ihn am dringendsten bräuchte.
Das Projekt soll dieses Phänomen ökonomisch erklären und statistisch modellieren. Dazu sind in einem ersten Schritt geeignete Abhängigkeitsmaße zu finden. Bekanntlich ist der Bravais-Pearson-Korrelationskoeffizient, der in den Anwendungen unhinterfragt fast immer als Abhängigkeitsmaß verwendet wird, bei nicht gemeinsam normalverteilten Renditen mit diversen Nachteilen behaftet. Insbesondere enthält er kaum Informationen über Randabhängigkeiten ("tail dependence"), auf die es in Krisenzeiten besonders ankommt. Hier sind zunächst auf Copulas basierende Abhängigkeitsmaße zu finden, die gegenüber monotonen Transformationen der Renditen unabhängig und je nach Ausgestaltung sensitiver für Randabhängigkeiten sind.
Gegeben ein konkretes Abhängigkeitsmaß, ist danach zu überprüfen, ob die empirisch beobachteten höheren Werte in Krisenzeiten nicht vielleicht ein Artefakt einer statistischen Bedingung sind: So ist seit langem wohlbekannt, dass die bedingte Korrelation, gegeben absolut hohe Werte der einen Variable, die unbedingte Korrelation unter Umständen dramatisch überschätzt. Gleiche Effekte sind auch für konkurrierende Abhängigkeitsmaße zu prüfen und gegebenenfalls auszuschalten.
Literatur
- Campbell, R., Forbes, C., Koedjk, K., und P. Kofman (2008): Diversification Meltdown or just Fat Tails. Erscheint in Empirical Finance.
- Falk, M., und Michel, R. (2006): Testing for Tail Dependence in Extreme Value Models. Annals of the Insitute of Statistical Mathematics (AISM), 58, 261-290.
- Härdle, W. (2007): Copulae in Tempore Varientes. Vortrag auf DAG-Stat-Tagung "Statistik unter einem Dach", Bielefeld, 27.-30.03.2007.
- King, M., Sentana, E., und Wadhwani, S. (1994): Volatility and Links between National Stock Markets. Econometrica, 62, 901-933.
- Longin, F., und Solnik, B. (1995): Is the Correlation in International Equity Returns Constant: 1960-1990?. Journal of International Money and Finance, 14, 3-26.
- Schmid, F., und Schmidt, R. (2007): Multivariate Conditional Versions of Spearman Rho and Related Measures of Tail Dependence. Erscheint in: Journal of Multivariate Analysis.
- Siburg, K.F., und Stoimenov, P. (2007): A Measure of Mutual Complete Dependence. Working Paper, Technische Universität Dortmund.
- Siburg, K.F., und Stoimenov, P. (2007): A Scalar Product for Copulas. Working Paper, Technische Universität Dortmund.
Verknüpfungen bestehen zu den Projekten B3 (Abhängigkeitsmaße), C7 (Modelle für multivariate Renditeverteilungen) und C10 (zeitvariable Abhängigkeiten bei Portfoliorisiken).
Projekt C9: Die Bildung von Ratingmodellen mittels empirischer Prozesse
(Projekt derzeit nicht zu bearbeiten)
Auf dem Kapitalmarkt wird das Kreditrisiko anhand von Ratings gemessen. Das vorliegende Projekt sucht Modelle, die auf der einen Seite statistisch valide und auf der anderen Seite ökonomisch plausibel sind. So ist der homogene Markoff-Prozess mit konstanten Migrationsintensitäten eine akzeptierte Beschreibung (Krämer et al. (2007)). Arbeiten wie Kiefer und Larson (2007), Weißbach und Dette (2007) sowie Weißbach et al. (2007) deuten allerdings auf Inhomogenitäten hin. Bevor nun von einer Inhomogenität auszugehen ist, muss zunächst geklärt werden, ob diese auch ökonomisch relevant ist. Zu diesem Zwecke sollen die bestehenden Tests auf relevanten Unterschied bzw. Äquivalenz, siehe Munk und Weißbach (1999) oder Weißbach und Hothorn (2002), adaptiert werden. Relevant inhomogene Migrationsintensitäten können nichtparametrisch mit empirischen Prozessen geschätzt werden. Für den einfachsten Fall von Ratingsystemen mit nur einer solventen Ratingklasse ist dies für die kumulativen Intensitäten mittels des Nelson-Aalen-Schätzers möglich. Kann Glattheit der Intensitäten angenommen werden, entwickelt Weißbach (2006) recht allgemeine Konsistenzaussagen zur Schätzung durch Kernglättung dieser Intensität. Für die nötige Bandbreitenwahl in diesem Fall schlagen Weißbach et al. (2007) eine Daten-adaptive Methode vor. Es fehlen aber Aussagen zu Konsistenz und Bandbreitenwahl falls das Ratingsystem, wie üblich, mehrere Zustände hat. Sich anschließende Fragen, wie z. B. ob sich parametrische Alternativen identifizieren, bzw. ob in einer Cox-Regression semi-parametrisch Kovariablen bei der Erklärung helfen, übersteigen voraussichtlich den Umfang des Projekts, sollten aber darin vorbereitend angedacht werden.
Die Kooperation mit der Mathematik muss in diesem Projekt ausgebaut werden, da insbesondere bei Prof. Dette Expertise zu empirischen Prozessen schon lange dokumentiert ist. In der gut etablierten Kooperation mit Banken soll die Datenverfügbarkeit und die Diskussion über betriebswirtschaftliche Implikationen vorangetrieben werden, um letztendlich einen Beitrag zur Finanzmarktstabilität zu leisten.
Literatur
- Kiefer, N.M., und Larson, C.E. (2007): A Simulation Estimator for Testing the Time Homogeneity of Credit Rating Transitions. Journal of Empirical Finance 14, 818-835.
- Krämer, W., Caasjens, S., Kramer, F., Mollenhauer, R., und Walter, R. (2007): Die optimale Kombination interner und externer Ratings. In: Schimmelmann, W., und Franke, G. (Hrsg.): Interne und Externe Ratings. FAZ, Frankfurt a. M., 123-162.
- Munk, A., und Weißbach, R. (1999): 1-α Equivariant Confidence Rules for Convex Alternatives are α/2-Level Tests – with Applications to the Multivariate Assessement of Bioequivalence. Journal of the American Statistical Association 94, 1311-1319.
- Weißbach, R. (2006): A General Kernel Functional Estimator with General Bandwidth – Strong Consistency and Applications. Journal of Nonparametric Statistics 18, 1-12.
- Weißbach, R., und Dette (2007): Kolmogorov-Smirov-type Testing for Partial Homogeneity of Markov Processes – with Application to Credit Risk. Applied Stochastic Models in Business and Industry 23, 223-234.
- Weißbach, R., und Hothorn, T. (2002): Assessing Equivalence Tests with Respect to their Expected p Value. Biometrical Journal 44, 1015-1027.
- Weißbach, R., Pfahlberg, A., und Gefeller, O. (2007): Double Smoothing in Kernel Hazard Rate Estimation. Methods of Information in Medicine, erscheint.
- Weißbach, R., Tschiersch, P., und Lawrenz, C. (2007): Testing Homogeneity of Time-Continuous Rating Transitions after Origination if Debt. Empirical Economics. In Überarbeitung.
Verknüpfungen bestehen zu den Projekten C2 (zensierte Verwweildauern, Cox-Regression), C7 (Strukturbruch), C10 (Kreditportfoliorisiko) und C11 (Cox-Regression).
Projekt C10: Die Auswirkung von Schätzfehlern auf das Portfoliokreditrisiko
(Projekt derzeit nicht zu bearbeiten)
Dass die Schätzunsicherheit eine merkliche Auswirkung auf die Rendite von Portfolien hat, ist spätestens sein Klein und Bawa (1976) dokumentiert. Die Auswirkung auf das Risiko von Portfolien ist somit ein natürlicher Forschungsgegenstand. Ausgelöst durch die einschneidenden Ereignisse der letzten Jahre hat sich das Kreditrisiko als Forschungsschwerpunkt etabliert. Unser Anliegen ist eine Untersuchung der Schätzunsicherheit bei Parametern des Portfoliokreditrisikos. Da Gordy (2000) gezeigt hat, dass gängige Portfolioansätze ineinander überführbar sind, hängen diese Ergebnisse damit nicht vom verwendeten Ansatz ab. Der wichtigste Parameter des Kreditrisikos ist das Rating (Krämer, 2005), bei der Kreditportfoliorendite begrenzt das Modell der Abhängigkeiten, üblicherweise eine Korrelationsmatrix, als Parameter die Diversifikation (Bürgisser, 1999).
Zur Schätzung von Ratingmodellen gibt es zahlreiche Arbeiten (siehe Weißbach et al., 2007, und Referenzen), eine Analyse der Auswirkungen von Schätzunsicherheiten auf Kreditportfoliomaße ist mir nicht bekannt. Bei der Schätzung der Abhängigkeitsstruktur ist vor allem die Definition der Zielvariablen strittig; Bürgisser et al. (1999) verwenden bedingte Ausfallswahrscheinlichkeiten, Rosenow und Weißbach (2005) sowie Weißbach und Rosenow (2007) betrachten Ausfallraten.
Erste Ergebnisse zur Auswirkung des Korrelationsmodells auf das Portfoliorisiko liegen vor (Rosenow et al. (2004, 2007)).
Ein Ziel im Projekt ist der Übergang von den vornehmlich Computer-gestützten Ansätzen der Abschätzung zu analytischen Erkenntnissen wie sie schon in Heuer (2007) angedeutet werden. Es sollen jüngste analytische Ergebnisse zur simultanen Schätzung von Abhängigkeitsstruktur und Ausfallwahrscheinlichkeit von Höse (2007) verwendet werden.
Eine mögliche Vereinfachung kann es sein, sich im Fall der Korrelationsschätzung wie Weißbach und von Lieres und Wilkau (2005, 2006) zunächst auf Portfolien notleidender Kredite zu beschränken.
In Kooperation mit dem internationalen Kreditrisikomanagement und durch interdisziplinäre akademische Kooperation soll damit ein Beitrag zur Finanzökonometrie entstehen.
Literatur
- Bürgisser, P., Kurth, A., Wagner, A., und Wolf, M, (1999): Integration Correlations. Risk Magazine 12, 57-60.
- Gordy, M. (2000): A Comparative Anatomy of Credit Risk Models. Journal of Banking and Finance 24, 119-149.
- Heuer, C. (2007): Auswirkung des Korrelationskoeffizienten und dessen Schätzung auf das ökonomische Kapital. Diplomarbeit, Technische Universität Dortmund, Fakultät Statistik.
- Höse, S. (2007). Statistische Genauigkeit bei der simultanen Schätzung von Abhängigkeitsstrukturen und Ausfallwahrscheinlichkeiten in Kreditportfolios. Dissertation an der Fakultät für Wirtschaftswissenschaften der Universität Dresden.
- Klein, R., und Bawa V. (1976): The Effect of estimation Risk on Optimal Portfolio Choice. Journal of Finance Economics 3, 215-231.
- Krämer (2005): On the Ordering of Probability Forecasts. Sankhyā 67, 662-669.
- Rosenow, B., und Weißbach (2005): Conservative Estimation of Default Rate Correlations. In: Takayasu, H. (Hrsg.): Practical Fruits of Econophysics. Heidelberg, Springer, 272-276.
- Rosenow, B., Weißbach, R., und Altrock, F. (2004): Modelling PD Correlation – with Application to CreditRisk+. SFB475-Diskussionspapier, 5, Technische Universität Dortmund.
- Rosenow, B., Weißbach, R., und Altrock, F. (2007): Modelling Correlation in Portfolio Credit Risk II. SFB475-Diskussionspapier, 6, Technische Universität Dortmund.
- Weißbach, R., und Rosenow, B. (2007): Smooth Correlation Estimation – with Application to Portfolio Credit Risk. In: Weihs, C., und Gaul, W. (Hrsg.): Classifcation: The Ubiquitous Challenge. Heidelberg, Springer, 474-481.
- Weißbach, R., und von Lieres und Wilkau, C. (2005): On Partial Defaults in Portfolio Credit Risk – A Poisson Mixture Approach. SFB475-Diskussionspapier, 6, Technische Universität Dortmund.
- Weißbach, R., und von Lieres und Wilkau, C. (2006): On Partial Defaults in Portfolio Credit Risk: Comparing Economic and Regulatory View. SFB475-Diskussionspapier, 2, Technische Universität Dortmund.
Verknüpfungen bestehen zu den Projekten B6 (Verletzung der Unabhängigkeit), C1 (Dimensionsreduktion), C8 (Diversifikation in großen Portfolien) und C9 (Parameter Rating).
Projekt C11: Modellierung der Mesotheliomentstehung durch Faserexposition
Prof. Dr. Joachim Kunert
Die nachgewiesene Schädlichkeit von Asbest auf den Menschen hat dazu geführt, dass mineralische Dämmstoffe auf ihre Wirkungen untersucht werden müssen. Diese Untersuchung erfolgt im Tierversuch bei Ratten.
Der Aufsatz von Rödelsperger (2004) hat eine Diskussion darüber ausgelöst, ob die Ergebnisse von Tierversuchen an Ratten über die Toxizität von Mineralfasern überhaupt auf den Menschen übertragen werden können. Rödelsperger (2004) bezieht sich auf einen Aufsatz von Berry (1999), welcher versucht ein Modell für die Überlebenszeit bis zu einer Mesotheliombildung aus den Eigenschaften der Stoffe zu modellieren, und dabei insbesondere die biologische Zersetzung der eingeatmeten Fasern in der Lunge zu berücksichtigen. Da die biologische Zersetzung in der Lunge bei Ratten gleich schnell verläuft wie beim Menschen, die Lebenszeit des Menschen aber ungleich größer ist, würde die Anwendung des Berry-Modells zur Vorhersage auf den Menschen zur Konsequenz haben, dass kein Stoff mit endlicher Zersetzungszeit beim Menschen noch zu Mesotheliomen führt, auch wenn für ihn im Tierversuch bei Ratten schädliche Wirkung nachgewiesen ist.
Bei Asbest-Fasern ist die Zersetzungszeit unendlich. Daher kann die nachgewiesene Wirkung des Asbests auf den Menschen nicht als Argument herangezogen werden. Das Projekt soll sich an dieser Diskussion beteiligen, indem zunächst untersucht werden soll, ob das Berry-Modell überhaupt die Daten von Tierversuchen sinnvoll beschreiben kann. Wenn durch dieses Modell schon die Tierversuche nicht gut modelliert werden können, so lässt es sich sicherlich nicht für die Vorhersage beim Menschen nutzen. Weiter sollen alternative Modelle für Überlebenszeiten untersucht und an die Tierdaten angepasst werden. Welche Konsequenzen hätten diese Modelle bei ihrer Extrapolation auf den Menschen? Gibt es Prognosen der Tierversuche auf den Menschen, welche robust gegen Modellvariationen sind?
Literatur
- Bernstein, D.M., Riego Sintes, J.M., Ersboell, B.K., und Kunert, J. (2001): Biopersistence of Synthetic Mineral Fibers as a Predictor of Chronic Inhalation Toxicity in Rats. Inhalation Toxicology 13, 823-849.
- Bernstein, D.M., Riego Sintes, J.M., Ersboell, B.K., Kunert, J. (2001): Biopersistence of Synthetic Mineral Fibers as a Predictor of Chronic Intraperitoneal Injection Tumour Response in Rats. Inhalation Toxicology 13, 851–875.
- Berry, G. (1999): Models for Mesothelioma Incidence Following Exposure to Fibers in Terms of Timing and Duration of Exposure and the Biopersistence of the Fibers. Inhalation Toxicology 11, 111-130.
- Rödelsperger, K.(2004): Extrapolation of the Carcinogenic Potency of Fibers from Rats to Humans. Inhalation Toxicology 16, 801-807.
Verknüpfungen bestehen zu den Projekten A2 (Modellrobustheit), C2 (Überlebenszeiten) und C9 (Cox-Regression).
Projekt D1: Robuste Zeitreihenanalyse
Prof. Dr. Roland Fried
Die statistische Analyse von Zeitreihen stetiger Variablen basiert meist auf starken Modellannahmen, etwa dem Vorliegen eines Gaußprozesses (multivariat) normalverteilter Variablen. Da reale Daten häufig Abweichungen von solchen vereinfachenden Standardannahmen aufweisen, insbesondere Verteilungen mit schweren Rändern oder Ausreißer, wurden in der Vergangenheit zum einen Konsistenzuntersuchungen für traditionelle Ansätze basierend auf quadratischen oder absoluten Abweichungen, Likelihood, oder Momenten angestrengt (Mikosch et al., 1995, Pan, Wang und Yao, 2007). Zum anderen wurden verschiedene robuste Analyseansätze wie etwa robuste Trend- (Davies, Fried und Gather, 2004; Fried, Einbeck und Gather, 2007) und Autokorrelationsschätzer (Masarotto, 1987; Ma und Genton, 2000), (generalisierte) M-Schätzer für ARMA-Modelle (Bustos und Yohai, 1986), sowie iterative Prozeduren zur Ausreißeridentifikation und beseitigung entwickelt (Chen und Liu, 1993; Gather, Bauer und Fried, 2002). Letztere unterstellen allerdings wiederum das Zugrundeliegen eines Gaußprozesses mit nur wenigen Ausreißern. Robuste Ansätze zur Identifikation eines geeigneten Modells und robuste Parameterschätzer stehen meist lose nebeneinander. Wünschenswert sind hingegen aufeinander abgestimmte robuste Methoden, welche die integrierte Analyse kontaminierter Daten bestehend aus Schritten wie Modellwahl, Parameterschätzung und Modelldiagnose samt der Berechnung von zuverlässigen Vorhersageintervallen ermöglichen.
Ziel dieses Projektes wird die Erarbeitung eines Baukastens kompatibler Werkzeuge zur robusten Zeitreihenanalyse sein. Zu diesem Zwecke sind vorhandene Verfahren aus der Literatur zu sichten und zu vergleichen, sowie Instrumente für verschiedene Analyseschritte aufeinander abzustimmen. Hierbei werden analytische Eigenschaften wie Konsistenz unter allgemeinen Annahmen, Influenzfunktionen und Maxbiaskurven sowie umfangreiche Simulationsstudien herangezogen werden. Letztendlich wird die Implementierung der besten gefundenen und neu entwickelten Verfahren in allgemein verfügbarer statistischer Software angestrebt.
Literatur
- Bustos, O.H., und Yohai, V.J. (1986): Robust Estimation for ARMA Models. Journal of the American Statistical Association 81, 155-168.
- Chen, C., und Liu, L.M. (1993): Joint Estimation of Model Parameters and Outlier Effects in Time Series. Journal of the American Statistical Association 88, 284-297.
- Davies, P.L., Fried, R., und Gather, U. (2004): Robust Signal Extraction for On-line Monitoring Data. Journal of Statistical Planning and Inference 122, 65-78
- Fried, R., Einbeck, J., und Gather, U. (2007): Weighted Repeated Median Smoothing and Filtering. Journal of the American Statistical Association 480, 1300-1308.
- Gather, U., Bauer, M., und Fried, R. (2002): The Identification of Multiple Outliers in Online Monitoring Data. Estadística 54, 289-338.
- Ma, Y., und Genton, M.G. (2000): Highly Robust Estimation of the Autocovariance Function. Journal of Time Series Analysis 21, 663-684.
- Masarotto, G. (1987): Robust Identification of Autoregressive Moving Average Models. Applied Statistics 36, 214-220.
- Mikosch, T., Gadrich, T., Klüppelberg, C., und Adler, R.J. (1995): Parameter Estimation for ARMA Models with Infinite Variance Innovations. Annals of Statistics 23, 305-326.
- Pan, J.Z., Wang, H., und Yao, Q.W. (2007): Weighted Least Absolute Deviations Estimation for ARMA Models with Infinite Variance. Econometric Theory 23, 852-879.
Verknüpfungen bestehen zu den Projekten B4 (Robuste Modellwahl für lineare Zeitreihenmodelle), B6 (Abhängigkeitsstrukturen), C2 (Ausreißer), C4 (robuste Zeitreihenanalyse), C5 (robuste Modellierung von Abhängigkeiten), C7 (Zeitreihen) und D3 (Spektralanalyse).
Projekt D2: Problemspezifische Optimierung einer ECOC Klassenbinärisierung für Multiklassen-Klassifizierungsprobleme
Prof. Dr. Claus Weihs
Bei der Verallgemeinerung von binären Klassifikationsmethoden auf Multiklassenprobleme (vgl. z.B. Szepannek et al., 2007, ein populäres Beispiel stellt die Verallgemeinerung von Support Vector Machines auf Multiklassenprobleme dar) gibt es häufig die Ansätze "one-against-all" (oaa) sowie "one-against-one" (oao) (für SVMs vgl. z.B. Vapnik, 1995, Vogtländer und Weihs, 2000).
Eine Verallgemeinerung stellt der ECOC–Ansatz dar (Dietterich und Baikiri, 1995): Das ursprüngliche k-Klassen-Problem wird in n binäre Probleme (durch Zusammenfassen von Klassen) umgewandelt (vgl. Gebel und Weihs, 2007). Jede Klasse erhält dadurch einen ‚Codebucheintrag’ der n binären Klassenlabel. Klassifikation einer neuen Beobachtung erfolgt in die Klasse mit dem ähnlichsten Codebucheintrag. Kong und Dietterich zeigen eine Biasreduktion durch Anwendung der Methode. Allwein et al. (2000) zeigen, dass sich sowohl der oaa als auch der oao Ansatz durch error correcting output codes ausdrücken lassen.
Die Algorithmen zur Erzeugung der Codebuchvektoren (d.h. die Auswahl der binären Klassifikationsprobleme) der Klassen sind bislang daran ausgerichtet, eine möglichst hohe Hamming-Distanz zwischen den Klassen zu erzielen, d.h. eine möglichst große Unterscheidbarkeit der verschiedenen Klassen aufgrund einer Vorhersage der n binären Klassifikatoren zu gewährleisten (siehe Kuncheva, 2005). Wenig Augenmerk liegt hierbei auf dem Einbezug des spezifischen Klassifikationsproblems. Es stellt sich die Frage, welche der Klassen sich zusammenfassen lassen um eine gute binäre Klassifikation zu ermöglichen. Eine erste Heuristik stellen Pujol und Vitria (2006) vor. Einen potentiellen weiteren Lösungsansatz stellt das Kriterium "ability to separate" von Garczarek (2004) dar, das die Trennbarkeit der Klassen durch eine Klassifikationsregel charakterisiert. Ziel und Inhalt des Forschungsthemas ist die Entwicklung eines effizienten Algorithmus zur Erzeugung von Codebuchvektoren der Klassen hinsichtlich Laufzeit (vgl. hierzu z.B. Pumplün et al., 2005) und Klassifikationsergebnis.
Literatur
- Allwein, E., Schapire R., und Singer, Y. (2000): Reducing Multiclass to Binary: a Unifying Approach for Margin Classifiers. Proceedings of the 17th International Conference on Machine Learning, 9 16.
- Dietterich, T., und Baikiri, G. (1995): Solving Multi-class Learning Problems via Errorcorrecting Output Codes. Journal of Artificial Intelligence Research 2, 263-286.
- Garczarek, U. (2004): Classification Rules in Standardized Partition Spaces. Dissertation, Fakultät Statistik, Technische Universität Dortmund.
- Gebel, M., und Weihs, C. (2007): Calibrating Margin–Based Classifier Scores into Polychotomous Assessment Probabilities. Proceedings of the GfKl meeting 2007 in Freiburg; erscheint.
- Kong, E., und Dietterich, T. (1995): Error-Correcting Output Coding Corrects Bias and Variance. Proceedings of the International Conference on Machine Learning, 313-321.
- Kuncheva, L. (2005): Using Diversity Measures for Generating Error-Correcting Output Codes in Classifier Ensembles. Pattern Recognition Letters 26, 83-90.
- Pujol, O., und Vitria, J. (2006): Discriminant ECOC: A Heuristic Method for Application Dependent Design of Error Correcting Output Codes. IEEE Transactions on Pattern Analysis and Machine Intelligence 28(6), 1007-1012.
- Pumplün, C., Weihs, C. und Preußer, A. (2005): Experimental Design for Variable Selection in Data Bases. In: Weihs C., und Gaul, W. (Eds.): Classification – the Ubiquitous Challenge, Springer, Heidelberg, 192-199.
- Szepannek, G., Bischl, B., und Weihs, C. (2007): On the Combination of Pairwise Locally Optimal Classifiers, In: Perner, P. (Ed.): Machine Learning and Data Mining in Pattern Recognition, Springer LNAI 4571, Heidelberg, 104-116.
- Vapnik, V. (1995): The Nature of Statistical Learning Theory. Springer-Verlag, London.
- Vogtländer, K., und Weihs, C. (2000): Business Cycle Prediction Using Support Vector Methods. Technical report 21/2000, SFB 475, Fakultät Statistik, Technische Universität Dortmund.
Verknüpfungen bestehen zu den Projekten B5 (Klassifikationsverfahren), C2 (Klassifikation mit mehr als zwei Klassen), C4 (mehrklassiges Problem), D3 (Klassifikation mit mehr als zwei Klassen) und D4 (Güte von Klassifikationsalgorithmen).
Projekt D3: Cluster- und Klassifikationsverfahren in der Spektralanalyse
JProf. Dr. Uwe Ligges
Der Einsatz der statistischen Spektralanalyse (Walker, 1996; Bloomfield, 2000) wird in vielen Anwendungsgebieten immer häufiger notwendig. Analyse von Bilddaten, statistische Verfahren in der Massenspektrometrie (Massart et al., 1997), Anwendungen in der Ökonometrie und in der Musikanalyse (Weihs et al., 2007) setzen die statistische Spektralanalyse voraus.
Gegenstand des Projekts ist es Cluster- und Klassifikationsverfahren (Hastie et al., 2001) für den Einsatz in der Spektralanalyse anzupassen und zu optimieren. Für den Einsatz von Clusterverfahren sollen geeignete Abstandsmaße und Verfahren gefunden werden, die es möglich machen, Spektren besser als bisher zu gruppieren. Im Bereich der Musikanalyse sollen beispielsweise Cluster ähnlich klingender Töne gefunden werden (Weihs et al., 2005a, 2006). Mit herkömmlichen Abständen (etwa dem euklidischen Abstand) ist das nicht möglich.
Für Klassifikationsverfahren ist es wichtig, vorhandene Verfahren für die große Menge an Daten typischer Anwendungen der Spektralanalyse zu optimieren und wegen des häufig sehr starken Grundrauschens zu robustifizieren. Eines der offensichtlichen Anwendungsgebiete die die Klassifikation mehrerer Töne in polyphonen Musikzeitreihen für die Transkription (Ligges, 2006; Weihs und Ligges, 2005).
Neben Entwicklung geeigneter Methodik sind dabei die Umsetzung in Algorithmen und die nachhaltige Implementierung in Softwarepaketen, beispielsweise als Bestandteile von R (R Development Core Team, 2007; Ligges, 2007), Paketen wie klaR (Weihs et al., 2005b) oder tuneR (Ligges, 2006), wesentliche Aspekte.
Literatur
- Bloomfield, P. (2000): Fourier Analysis of Time Series: An Introduction. 2. Auflage; Wiley, New York.
- Hastie, T.J., Tibshirani, R.J., und Friedman, J. (2001): The Elements of Statistical Learning. Data Mining Inference and Prediction. Springer-Verlag, New York.
- Ligges, U. (2006): Transkription monophoner Gesangszeitreihen. Dissertation, Fakultät Statistik, Technische Universität Dortmund, http://hdl.handle.net/2003/22521.
- Ligges, U. (2007): Programmieren mit R. 2., überarbeitete und aktualisierte Auflage; Springer-Verlag, Heidelberg, ISBN 3-540-36332-7.
- Massart, D.L., Vandeginste, B.G.M., Buydens, L.M.C., De Jong, S., Lewi, P.J., und Smeyers-Verbeke, J. (1997): Handbook of Chemometrics and Qualimetrics. Parts A+B; Elsevier, Amsterdam.
- R Development Core Team (2007): R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, http://www.R project.org.
- Walker, J.S. (1996): Fast Fourier Transforms. 2. Auflage; CRC Press, Boca Raton.
- Weihs, C., und Ligges, U. (2005): From Local to Global Analysis of Music Time Series. In: Morik, K., Boulicaut, J.-F., und Siebes, A. (Eds.). Local Pattern Detection, Lecture Notes in Artificial Intelligence 3539, Springer-Verlag, Berlin, 217-231.
- Weihs, C., Reuter, C., und Ligges, U. (2005a): Register Classification by Timbre. In: Weihs, C., und Gaul, W. (Eds.). Classification: The Ubiquitous Challenge. Springer-Verlag, Berlin, 624-631.
- Weihs, C., Ligges, U., Lübke, K., und Raabe, N. (2005b): klaR Analyzing German Business Cycles. In: Baier, D., Decker, R., und Schmidt-Thieme, L. (Eds.). Data Analysis and Decision Support. Springer-Verlag, Berlin, 335-343.
- Weihs, C., Szepannek, G., Ligges, U., Lübke, K., und Raabe, N. (2006): Local Models in Register Classification by Timbre. In: Batagelj, V., Bock, H.-H., Ferligoj, A., und Ziberna, A. (eds.): Data Science and Classification, 315-322, Springer-Verlag, Berlin.
- Weihs, C., Ligges, U., Mörchen, D., und Müllensiefen, D. (2007): Classification in Music Research. Advances in Data Analysis and Classification; Springer, Berlin (submitted).
Verknüpfungen bestehen zu den Projekten B5 (robuste Klassifikationsverfahren), C1 (Cluster- und Klassifikationsverfahren zur Dimensionsreduktion), C4 (Musik als Anwendungsgebiet für Klassifikation von Spektren), C6 (Clustern), D1 (Spektralanalyse), D2 (Klassifikation mit mehr als 2 Klassen) und D4 (numerische Eigenschaften der Lernverfahren auf Spektren).
Projekt D4: Numerische Eigenschaften von Algorithmen statistischer Lernverfahren
JProf. Dr. Uwe Ligges
Auf dem Weg von statistischen Modellen zu statistischen Algorithmen gilt es die numerischen Eigenschaften (Lange, 1999) von Algorithmen zu berücksichtigen, wenn diese in Programmiersprachen für Digitalrechner (Knuth, 1998) umgesetzt werden sollen. Dabei sind zwei Gesichtspunkte zu beachten: Genauigkeit und Geschwindigkeit. Ziel ist es, eine hohe Geschwindigkeit bei höchstmöglicher Präzision zu erreichen, oder für sehr rechenintensive Verfahren einen Kompromiss zu finden.
Im Bereich der klassischen linearen Modelle wurden zur Schätzung mit KQ Verfahren umfangreiche Analysen durchgeführt und verschiedene Algorithmen vorgeschlagen, z.B. wird mit Hilfe der QR Zerlegung das Problem der ungenauen Invertierung der Designmatrix bei schlecht konditionierten Problemen umgangen. Auch wurden Updating-Algorithmen eingeführt, falls große Datenmengen nicht am Stück verarbeitet werden können.
Im Bereich der statistischen Lernverfahren (Hastie et al., 2001) gibt es nur zu einigen gängigen Algorithmen entsprechende numerische Untersuchungen. In vielen Fällen wird eine In¬vertierung von Designmatrizen und insbesondere von Kovarianzmatrizen durchgeführt, die numerische Probleme mit sich bringen kann. Beispielsweise wurde im Fall der quadratischen Diskriminanzanalyse zur Umgehung solcher Probleme eine Regularisierung vorgeschlagen (Friedman, 1989).
Ziel des Projekts ist es, numerische Eigenschaften von gängigen Algorithmen zur Lösung statistischer Lernverfahren zu untersuchen und gegebenenfalls Verbesserungen vorzuschlagen. Als Grundlage sollen insbesondere die zahlreichen Implementierungen statistischer Lernverfahren in der Statistiksoftware R (R Development Core Team, 2007; Ligges, 2007) dienen, beispielsweise in den Paketen e1071 (Dimitriadou et al., 2006), klaR (Weihs et al, 2005), MASS (Venables und Ripley, 2002), rda (Guo et al., 2005) und einigen anderen. Besonders auffällig ist oft die numerische Instabilität und Langsamkeit der Algorithmen zur Berechnung von Naiven Bayes Klassifikatoren. Insbesondere ist bei der Analyse der Algorithmen eine Einbindung in aktuelle Forschung zu Klassifikationsverfahren bei lokalen Modellen vorgesehen (Weihs und Ligges, 2005; Weihs et al, 2006).
Literatur
- Dimitriadou, E., Hornik, K., Leisch, F., Meyer, D., und Weingessel, A. (2006): e1071: Misc Functions of the Department of Statistics (e1071). TU Wien. R package version 1.5-16.
- Friedman, J.H. (1989): Regularized Discriminant Analysis. Journal of the American Statistical Association 84(405), 165-175.
- Guo, Y., Hastie, T., und Tibshirani, R. (2005): rda: Shrunken Centroids Regularized Discriminant Analysis. R package version 1.0.
- Hastie, T.J., Tibshirani, R.J., und Friedman, J. (2001): The Elements of Statistical Learning. Data Mining Inference and Prediction. Springer-Verlag, New York.
- Knuth, D.E. (1998): The Art of Computer Programming. Addison-Wesley.
- Lange, K. (1999): Numerical Analysis for Statisticians. Springer-Verlag, New York.
- Ligges, U. (2007): Programmieren mit R. 2., überarbeitete und aktualisierte Auflage; Springer-Verlag, Heidelberg, ISBN 3-540-36332-7.
- R Development Core Team (2007): R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, http://www.R project.org.
- Venables, W.N., und Ripley, B.D. (2002): Modern Applied Statistics with S. 4. Auflage; Springer, New York.
- Weihs, C., und Ligges, U. (2005): From Local to Global Analysis of Music Time Series. In: Morik, K., Boulicaut, J.-F., und Siebes, A. (Eds.): Local Pattern Detection, Lecture Notes in Artificial Intelligence 3539, Springer-Verlag, Berlin, 217-231.
- Weihs, C., Ligges, U., Lübke, K., und Raabe, N. (2005): klaR Analyzing German Business Cycles. In: Baier, D., Decker, R., und Schmidt-Thieme, L. (Eds.): Data Analysis and Decision Support, Springer-Verlag, Berlin, 335-343.
- Weihs, C., Szepannek, G., Ligges, U., Lübke, K., und Raabe, N. (2006): Local Models in Register Classification by Timbre. In: Batagelj, V., Bock, H.-H., Ferligoj, A., und Ziberna, A. (Eds.): Data Science and Classification, Springer-Verlag, Berlin, 315-322.
Verknüpfungen bestehen zu den Projekten B1 (Implementierung von Algorithmen), B5 (Numerische Probleme der robusten Klassifikation), C1 (Numerische Probleme bei hoher Di¬mension), C2 (Numerische Probleme bei hoher Dimension), D2 (Güte von Klassifikationsverfahren) und D3 (numerische Eigenschaften bei Short Time Fourier Transformation mit Fensterfunktionen).