Zum Inhalt

Projektbereiche A: Anwendungsübergreifende Methoden

Teilprojekte der letzten Förderphase

A1 : Robuste Modellbildung und Dimensionsreduktion

Projektleitung: Prof. Dr. Ursula Gather, Prof. Dr. P. Laurie Davies

Kurzbeschreibung

Das Teilprojekt A1 beschäftigt sich mit Fragen der statistischen Modellbildung. Klassische Modellwahlverfahren beruhen häufig auf so genannten universellen Prinzipien, d.h. Prinzipien, die unabhängig sind von der Sachdisziplin, aus der die Daten stammen. Dies macht den Modellwahlprozess meist derart starr, dass er von der wissenschaftlichen Fragestellung, die mit Hilfe der Datenanalyse beantwortet werden soll, gar nicht beeinflusst werden kann. Der neue Ansatz der Datenapproximation stellt eine vielversprechende Alternative der Modellwahl dar. Hierbei bestimmen so genannte "Data features", d.h. charakteristische Eigenschaften der vorliegenden Daten, den Modellwahlprozess. Diese Eigenschaften können beispielsweise Auto­korrelations­strukturen, Variabilitätswechsel oder Muster sein. Ein gefundenes Modell ist dann von hoher Güte, wenn es Daten erzeugen kann, die dieselben charakteristischen Eigenschaften besitzen, wie die vorliegenden Daten. In diesem Kontext spielt auch die Robustheit eine große Rolle: Ausreißer oder kleine Fehler in den Daten sollen auf keiner Stufe des Modellwahlprozesses einen prägenden Einfluss auf das Ergebnis besitzen.
Die verschiedenen Problemaspekte werden in zwei miteinander verknüpften Arbeitspaketen behandelt.

Das erste Arbeitspaket bearbeitet die Nichtparametrische Regression und Dichteschätzung. Hier werden Methoden, die auf dem neuen Konzept der Datenapproximation basieren, mit klassischen Modellwahlmethoden verglichen und im Detail untersucht. Erste Ergebnisse aus Simulationsstudien zeigen den Erfolg der neuen Herangehensweise. Daneben werden die Methoden auch für den mehrdimensionalen Fall weiterentwickelt, vor allem für Fragestellungen aus der Bildverarbeitung. Außerdem werden Regularisierungsverfahren für Inverse Probleme erarbeitet. Dabei wird untersucht, wie sich die Konzepte der Datenapproximation übertragen lassen, wenn die interessierenden Merkmale nicht mit den Daten direkt beobachtet werden können.
Das zweite Arbeitspaket umfasst die Entwicklung geeigneter Robustheitskonzepte für komplexe Modellstrukturen. Statistische Verfahren für solche Strukturen sind oft selbst zusammengesetzt und kompliziert, so dass gängige Kriterien keine Aussagen zur Robustheit von Verfahren erlauben. Zudem wird das Problem der robusten Modellwahl neu behandelt. Es besteht ein großer Bedarf an solchen Modellwahlkriterien, die auch bei fehlendem Vorwissen über den datengenerierenden Prozess und bei kontaminierten Beobachtungen zu einer guten Datenapproximation führen. Außerdem sollen Robustheitsuntersuchungen für weitere statistische Eigenschaften durchgeführt werden, insbesondere bei Verletzung von Unabhängigkeitsannahmen.

Arbeitspakete

  • Modellwahl, Nichtparametrische Regression und Inverse Probleme
  • Robustheit komplexer Modelle und statistischer Eigenschaften

Software

Veröffentlichungen

  • Becker, C., and Gather, U. (2008), "A Note on the Choice of the Number of Slices in Sliced Inverse Regression", submitted.
  • Davies, P. L. (2008), "Approximating Data (with discussion)", Journal of the Korean Statistical Society, to appear. 
  • Davies, P. L., Gather, U., Meise, M., Mergel, D. and Mildenberger, T. (2008), "Residual Based Localisation and Quantification of Peaks in X-Ray Diffractograms", Annals of Statistics, to appear.
  • Davies, P. L., Gather, U., Nordmann, D. J. and Weinert, H. (2008), "A comparison of automatic histogram constructions", ESAIM: Probability and Statistics, to appear.
  • Davies, P. L., Gather, U. and Weinert, H. (2008), "Nonparametric Regression as an Example of Model Choice", Communications in Statistics - Simulation and Computation, 37, pp.274-289.
  • Davies, P. L., Kovac, A. and Meise, M. (2008), "Nonparametric Regression, Confidence Regions and Regularization", Annals of Statistic, to appear. 
  • Davies, P. L. and Meise, M. (2008), "Approximating Data with Weighted Smooting Splines", Journal of Nonparametric Statistics, to appear. 
  • Gather, U., and Guddat, C. (2008), Comment on "Sure Independence Screening for Ultra-high Dimensional Feature Space" by J. Fan and J. Lv, to appear in Journal of the Royal Statistical Society B.
  • Mildenberger, T. (2008), "A geometric interpretation of the multiresolution criterion in nonparametric regression", Nonparametric Statistics, to appear.
  • Barme-Delcroix, M. F., and Gather, U. (2007), "Limit Laws for Multidimensional Extremes", Statistics & Probability Letters, 77, 1750-1755.
  • Davies, P. L. and Gather, U. (2007) Discussion of "A Survey of Robust Statistics" by S. Morgenthaler, Statistical Methods and Applications, 15, pp.282-285.
  • Davies, P. L. and Gather, U. (2007) The Breakdown Point - Examples and Counterexamples, Revstat Statistical Journal, 5, pp. 1-17.
  • Gather, U. (2007), "Komplexität", in Perspektiven der Forschung und ihrer Förderung, ed. DFG, Weinheim: Wiley VCH, 201-207. 
  • Fried, R., Bernholt, T. und Gather, U. (2006), "Repeated median and hybrid filters", Computational Statistics and Data Analysis, Special Issue: Statistical Signal Extraction and Filtering, erscheint.
  • Davies, P. L. und Gather, U. (2005), "Breakdown and Groups" (with discussion and rejoinder), Annals of Statistics, 33, 977-1035. (download article here)
  • Davies, P. L. und Gather, U. (2005), "Addendum to Breakdown and Groups", Annals of Statistics, erscheint.
  • Fried, R., Einbeck, J. und Gather, U. (2005), "Weighted Repeated Median Smoothing and Filtering", eingereicht bei: Journal of the American Statistical Association.
  • Genschel, U. (2005), "Robustness Concepts for Sliced Inverse Regression", Dissertation, Fachbereich Statistik, Universität Dortmund.
  • Davies, P. L. (2004), "The One-way-table", Journal of Statistical Planning and Inference, Special Issue: Contemporary Data Analysis: Theory and Methods in Honor of John W. Tukey (1915-2000), Turrin, L., Tyler D. E., Yohai, V. (Hrsg.), 122, 3-13.
  • Davies, P. L., Fried, R. und Gather, U. (2004), "Robust Signal Extraction for On-line Monitoring Data", Journal of Statistical Planning and Inference, Special Issue: Contemporary Data Analysis: Theory and Methods in Honor of John W. Tukey (1915-2000), Turrin, L., Tyler D. E., Yohai, V. (Hrsg.), 122, 3-13.
  • Davies, P. L. und Gather, U. (2004), "Robust Statistics", Chapter 3.9, in: Handbook of Computational Statistics, Gentle, J., Härdle, W., Mori, Y. (Hrsg.), Springer, New York, 655-695.
  • Davies, P. L. und Kovac, A. (2004), "Densities, Spectral Densities and Modality", Annals of Statistics, 32, 1093-1136.
  • Gather, U. und Pawlitschko, J. (2004), "Outlier Detection", SE Section 11 (Statistics), in: The Encyclopedia of Acturial Science (EoAS), Vol. 3, Sundt, B. und ,Teugels, J. (Hrsg.), Wiley, Chicester, 1230-1237.
  • Gather, U. und Székely, G. (2004), "Characterizations of Distributions by linear Forms of Order Statistics", Communications in Statistics, 33, 2913 - 2919.
  • Kuhnt, S. (2004), "Outlier Identification Procedures for Contingency Tables Using Maximum Likelihood and L1 Estimates", Scandinavian Journal of Statistics, 31, 431-442.
  • Kuhnt, S., Schürmann, C. und Griefahn, B. (2004), "Annoyance from Multiple Transportation Noise: Statistical Models and Outlier Detection", Methods of Information in Medicine, 5, 510-515.
  • Meise, M. (2004), "Residual Based Selection of Smoothing Parameters", Dissertation, Fachbereich Mathematik, Universität Duisburg-Essen.
  • Nordman, D. J. und Lahiri, S. N. (2004), "On Optimal Spatial Subsample Size for Variance Estimation", Annals of Statistics, 32, 1981-2027.
  • Bernholt, T. und Fried, R. (2003), "Computing the Update of the Repeated Median Regression Line in Linear Time", Information Processing Letters 88 (1), 111-117.
  • Davies, P. L., "Approximating Data and Statistical Procedures – I. Approximating Data", Technical Report 07/2003, SFB 475, Universität Dortmund.
  • Davies, P. L. (2003), "Statistical Procedures and Robust Statistics", Estadistica, No. 162-163, 54, 1-27.
  • Davies, P. L., Fried, R. und Gather, U. (2003), "Robust Signal Extraction for On-line Monitoring Data", Journal of Statistical Planning and Inference, erscheint.
  • Dutter, R., Filzmoser, P., Gather, U. und Rousseeuw, P. J. (Hrsg.) (2003), Developments in Robust Statistics: International Conference on Robust Statistics 2001, Physica-Verlag, Heidelberg.
  • Gather, U. und Fried, R. (2003), "Robust Estimation of Scale for Local Linear Temporal Trends", Tatra Mountains Mathematical Publications, 26, 87-101.
  • Gather, U., Kuhnt, S. und Pawlitschko, J. (2003), "Concepts of Outlyingness for Various Data Structures", in: Industrial Mathematics and Statistics, Misra, J. C. (Hrsg.), Narosa Publishing House, New Delhi, India, 545-585.
  • Majidi, A. (2003), "Glatte nichtparametrische Regression unter formerhaltenden Bedingungen", Dissertation, Fachbereich Mathematik und Informatik, Universität Duisburg-Essen.
  • Wellmann, J. und Gather, U. (2003), "Identification of Outliers in a One-way Random Effects Model", Statistical Papers, 44, 335-348.
  • Becker, C. (2002), "Robustness Concepts for Analyzing Structured and Complex Data Sets", Habilitationsschrift, Fachbereich Statistik, Universität Dortmund.
  • Gather, U., Hilker, T. und Becker, C. (2002), "A Note on Outlier Sensitivity of Sliced Inverse Regression", Statistics, 13, 271-281.
  • Gather, U., Imhoff, M. und Fried, R. (2002), "Graphical Models for Multivariate Time Series from Intensive Care Monitoring", Statistics in Medicine, 21, 2685-2702.
  • Hausmann, M., Becker, C., Gather, U. und Güntürkün, O. (2002), "Functional Cerebral Asymmetries During the Menstrual Cycle: A Cross Sectional and Longitudinal Analysis", Neuropsychologia, 40, 808-816.
  • Paris Scholz, S. (2002), "Robustheitskonzepte und -untersuchungen für Schätzer konvexer Körper", Dissertation, Fachbereich Statistik, Universität Dortmund.
  • Schultze, V. und Pawlitschko, J. (2002), "The Identification of Outliers in Exponential Samples”. Statistica Neerlandica, 2002; 56, 1, 41-57.
  • Becker, C., Fried, R. und Gather, U., "Applying Sliced Inverse Regression to Dynamical Data", in: J. Kunert, G. Trenkler (eds.) Mathematical Statistics with Applications in Biometry, Josef Eul, Lohmar (2001), 201-204
  • Becker, C. und Gather, U. (2001), "The Largest Nonidentifiable Outlier: A Comparison of Multivariate Simultaneous Outlier Identification Rules", Computational Statistics & Data Analysis, 36, 119-127.
  • Christmann, A., "Robust Estimation in Generalized Linear Models", in: J. Kunert, G. Trenkler (eds.) Mathematical Statistics with Applications in Biometry, Josef Eul, Lohmar (2001), 215-230
  • Christmann, A. und Rousseeuw, P. J. (2001), "Measuring Overlap in Logistic Regression" Computational Statistics & Data Analysis 37, 65-75.
  • Davies, P. L. und Kovac, A. (2001), "Local Extremes, Runs, Strings and Multiresolution" (with discussion and rejoinder), Annals of Statistics 29, 1-65.
  • Gather, U., und Becker, C. (2001), "The Curse of Dimensionality - A Challenge for Mathematical Statistics", Jahresberichte der deutschen Mathematiker Vereinigung, 103, 19-36.
  • Gather, U., Hilker, T. und Becker, C. (2001), "A Robustified Version of Sliced Inverse Regression", in: Statistics in Genetics and in the Environmental Sciences, L. T. Fernholz, S. Morgenthaler und W. Stahel (Hrsg.), Birkhäuser, Basel, 147-157.
  • Lanius, V. und Pawlitschko, J., "Infuence Functions in the Koziol-Green Model", in: J. Kunert, G. Trenkler (eds.) Mathematical Statisics with Applications in Biometry, Josef Eul, Lohmar (2001), 239-252.
  • Kovac, A., und Silverman, B. W. (2000), "Extending the Scope of Wavelet Regression Methods by Coefficient-dependent Thresholding", Journal of the American Statistical Association, 95, 172-183.
  • Kuhnt, S. (2000), "Ausreißeridentifikation im Loglinearen Poissonmodell für Kontingenztafeln unter Einbeziehung robuster Schätzer", Dissertation, Fachbereich Statistik, Universität Dortmund.
  • Becker, C. und Gather, U. (1999), "The Masking Breakdown Point of Multivariate Outlier Identification Rules", Journal of the American Statistical Association, 94, 947-955.
  • Christmann, A. (1999), "On Group Sequential Tests Based on Robust Location and Scale Estimators in the Two-Sample Problem", Computational Statistics, 14, 339-353.
  • Davies, P. L. und Kovac, A. (1999) "Modality, Runs, Strings and Multiresolution".
  • Gather, U. und Schultze, V. (1999), "Robust Estimation of Scale of an Exponential Distribution", Statistica Neerlandica, 53, 327-341.
  • Kovac, A. (1999), "Wavelet Thresholding for Unequally Spaced Data", Ph.D. Thesis, University of Bristol.
  • Löwendick, M. (1999), "On Smoothing under Bounds and Geometric Constraints," Dissertation, Fachbereich Mathematik & Informatik, Universität GH Essen.
  • Pawlitschko, J. (1999), "A Comparison of Survival Function Estimators in the Koziol-Green Model", Statistics, 32, 277 - 291.
  • Pawlitschko, J. (1999), "Estimation in the Koziol-Green model with Left Truncated Observations”, Sankhya A, 62, 67-79.
  • Wellmann, J. und Gather, U. (1999), "A Note on Contamination Models and Outliers", Communications in Statistics - Theory and Methods, 28, 1793-1802.
  • Christmann, A. (1998), "On Positive Breakdown Point Estimators in Regression Models with Discrete Response Variables," Habilitiationsschrift, Fachbereich Statistik, Universität Dortmund.
  • Davies, P. L. (1998), "On Locally Uniformly Linearizable High Breakdown Location and Scale Functionals", Annals of Statistics, 26, 1103-1125.
  • Gather, U. und Becker, C. (1998), "Convergence Rates in Robust Multivariate Outlier Identification", Results in Mathematics, 34, 101-107.
  • Gather, U., Kamps, U. und Schweitzer, N. (1998), "Characterizations of Distributions via Identically Distributed Functions of Order Statistics," in: Handbook of Statistics 16: Order Statistics and Their Applications, N. Balakrishnan, C. R. Rao (Hrsg.), Elsevier, Amsterdam, 257-290.
  • Gather, U. und Pawlitschko, J. (1998), "Estimating the Survival Function under a Generalized Koziol-Green Model with Partially Informative Censoring", Metrika, 48, 189-207.
  • Gather, U. und Pawlitschko, J. (1998), "On Efron's and Gill's Version of the Kaplan-Meier Integral", Communications in Statistics - Theory and Methods, 27, 181-192.
  • Terbeck, W. und Davies, P. L. (1998), "Interactions and Outliers in the Two-way Analysis of Variance", Annals of Statistics, 26, 1279-1305.
  • Gather, U. und Becker, C. (1997), "Outlier Identification and Robust Methods," in: Maddala, G. S. und Rao, C. R. (eds.), Handbook of Statistics 15: Robust Inference, Elsevier, Amsterdam, 123-143.
  • Gather, U. und Hilker, T. (1997), "A Note on Tyler's Modification of the MAD for the Stahel-Donoho Estimator", Annals of Statistics, 25, 2024-2026.
  • Gather, U. und Kamps, U. (1997), "Characteristic Properties of Generalized Order Statistics from Exponential Distributions", Applicationes Mathematicae, 24, 383-391.
  • Hilker, T. (1997), "Robuste Verfahren zur Dimensionsreduktion in Regressionsmodellen mit unbekannter Linkfunktion", Dissertation, Fachbereich Statistik, Universität Dortmund.
  • Metzner, L. (1997), "Facettierte nichtparametrische Regression," Dissertation, Fachbereich Mathematik & Informatik, Universität GH Essen.
  • Schultze, V. (1997), "Robuste Schätzung und Ausreißeridentifikation in exponentialverteilten Zufallsstichproben," Dissertation, Fachbereich Statistik, Universität Dortmund.
  • Becker, C. (1996), "Bruchpunkt und Bias zur Beurteilung multivariater Ausreißeridentifizierung," Dissertation, Fachbereich Statistik, Universität Dortmund.
  • Christmann, A. (1996), "High breakdown point estimators in logistic regression", in: Robust Statistics, Data Analysis, and Computer Intensive Methods, Rieder, H. (ed.), Springer, New York, 79-89.
  • Pawlitschko, J. (1996), "Die Schätzung einer Überlebensfunktion in Verallgemeinerungen des Koziol-Green-Modells," Dissertation, Fachbereich Statistik, Universität Dortmund.
  • Davies, P. L. (1995), "Data Features", Statistica Neerlandica, 49,185-245.
  • Gather, U. (1995), "Outlier Models and Some Related Inferential Issues", in: The Exponential Distribution: Theory, Methods & Applications, Balakrishnan, N. und Basu, A. P. (eds.), 221-239.
  • Christmann, A. (1994), "Ausreißeridentifikation im logistischen Regressionsmodell", in: Medizinische Informatik. Ein integrierender Teil arztunterstützender Technologien, Pöppl, S. J., Lipinski, H.-G. und Mansky, T. (eds.), MMV Medizin Verlag, München, 478-481.
  • Christmann, A. (1994), "Least median of weighted squares in logistic regression with large strata", Biometrika, 81, 413-417.
  • Christmann, A., Gather, U. und Scholz, G. (1994), "Some Properties of the Length of the Shortest Half", Statistica Neerlandica, 48, 209-213.
  • Wellmann, J. (1994), "Robuste Verfahren und Ausreißeridentifikation beim Modell der Einfachklassifikation mit zufälligen Effekten,” Dissertation, Fachbereich Statistik, Universität Dortmund.
  • Davies, P. L. und Gather, U. (1993), "The Identification of Multiple Outliers (invited paper with discussion and rejoinder)", Journal of the American Statistical Association, 88, 782-801.
  • Christmann, A. (1992), "Ausreißeridentifikation und robuste Schätzer im logistischen Regressionsmodell," Dissertation, Fachbereich Statistik, Universität Dortmund.
  • Boscher, H. (1991), "Behandlung von Ausreißern in linearen Regressionsmodellen,” Dissertation, Fachbereich Statistik, Universität Dortmund.
  • Gajek, L. und Gather, U. (1991), "Estimating a Scale Parameter under Censorship", Statistics, 22, 529-549.
  • Gather, U. (1990), "Modelling the Occurence of Multiple Outliers", Allgemeines Statistisches Archiv, 74, 413-428.

 

A2 : Effiziente Modellbildung durch optimale Versuchsplanung

Projektleitung: Prof. Dr. Holger Dette, Prof. Dr. Joachim Kunert

Kurzbeschreibung

In dem Projekt sollen die in den voran gegangenen Phasen des SFB begonnenen Arbeiten über optimale Versuchsplanung zur Komplexitätsreduktion fortgeführt werden. Primäres Ziel der Untersuchungen bleibt es, durch die Versuchsplanung sowohl die statistische Auswertung komplexer Datenstrukturen entscheidend zu vereinfachen als auch die Effizienz der verwendeten Verfahren für die statistische Auswertung zu erhöhen.

In den bisherigen Förderungsphasen wurden Forschungsarbeiten über robuste Versuchsplanung zur Modell­identifikation und -reduktion durchgeführt. Außerdem wurden wichtige Ergebnisse zur optimalen Versuchsplanung in linearen und nicht­linearen Regressionsmodellen, zur optimalen Versuchsplanung bei Varianzanalyse­modellen und zur Randomisationstheorie erzielt. In der vierten Förderungsperiode ist eine Fortsetzung der Arbeit an diesen Themenkomplexen geplant. Insbesondere ist beabsichtigt, optimale Versuchspläne für Modelle mit Nachbarstrukturen, für sphä­rische Regressionsmodelle, wie sie bei der Formanalyse (z.B. Tumorerkennung, Objektklassifikation, ...) verwendet werden, und für nichtlineare Regressionsmodelle in der Pharmakologie und Mikrobiologie zu ent­wickeln.

Ein weiterer Schwerpunkt der Arbeiten wird im Ausnutzen der Versuchs­planung zur Bestimmung von geeigneten Auswertungsverfahren bestehen, was insbesondere bei der Analyse von subjektiven Daten von Bedeutung ist, da der Mensch als Messinstrument nur sehr eingeschränkt validierbar ist. Dies führt dazu, dass die Diskussion adäquater Modelle zur Auswertung solcher Daten sehr intensiv geführt wird. Der Zusammenhang zwischen Versuchsplanung und Auswertung, der insbesondere in der Randomisationstheorie festgestellt wird, kann hier einen Beitrag für die Modellauswahl liefern.

In das Projekt werden außerdem Arbeiten zur Versuchsplanung für Dosis–Findungs Experimente neu aufgenommen, wie sie in der Phase III von klinischen Studien durchgeführt werden. Für die Bestimmung effizienter Versuchspläne werden wir dazu Bayes- und Minimax-Verfahren verwenden, die für die Versuchsplanung in nichtlinearen Regressionsmodellen in der dritten Projektphase entwickelt wurden. In diesem Bereich ist eine Zusammenarbeit mit der Statistik-Gruppe von Novartis in Basel geplant. Langfristiges Ziel dieser Untersuchungen ist der Einsatz der in diesem Projektteil gefundenen Versuchspläne bei Dosis-Findungs Experimenten in der Praxis.

Ein weiterer neuer Schwerpunkt des Teilprojekts wird in der Versuchsplanung für GMANOVA-Modelle bestehen, die zur Beschreibung verschiedener Wachstumsprozesse verwendet werden. Für diese Untersuchungen ist geplant, die Methodik zur Bestimmung optimaler Versuchspläne für Varianzanalysemodelle mit korrelierten Fehlern auf Regressionsmodelle zu verallgemeinern, bei denen die Korrelation von der Einstellung der Regressorvariablen abhängt. Dazu sollen auch numerische Verfahren und Computer-Algebra eingesetzt und die Ergebnisse über Versuchsplanung in nichtlinearen Modellen in die Arbeiten einbezogen werden.

Es wird darüber hinaus angestrebt, die Effizienz der im Projekt entwickelten Versuchspläne in umfangreichen Simulationsstudien zu untersuchen, um so verschiedene in der Literatur vorgeschlagene Versuchspläne bzw. Konzepte zur robusten Versuchsplanung zu vergleichen. Hierbei ist insbesondere ein Vergleich von sequentiellen und nichtsequentiellen Verfahren zur Versuchsplanung von Interesse.

Arbeitspakete

  • Versuchsplanung in Regressionsmodellen mit korrelierten Fehlern
  • Versuchsplanung unter Modellunsicherheit
  • Spezielle Anwendungen
  • Versuchsplanung und Modelldiskussion bei Experimenten mit subjektiven Daten
  • Numerische Aspekte in der Versuchsplanung

Veröffentlichungen

  • Antille, G., Dette, H. und Weinberg, A. (2003), “A note on optimal designs in weighted polynomial regression for the classical efficiency functions”, Journal of Statistical Planning and Inference, 113(1), 285-292.
  • Bailey, R.A. und Kunert, J. (2005), "On optimal cross-over designs when carry-over effects are proportional to direct effects", erscheint in: Biometrika.
  • Biedermann, S. und Dette, H. (2005), “Numerical construction of parameter maximin D-optimal designs for binary response models”, South African Statistical Journal, 39, 221-255.
  • Biedermann, S., Dette, H. und Zhu, W. (2005a), “Optimal designs for dose-response models with restricted design spaces”, erscheint in: Journal of the American Statistical Association.
  • Biedermann, S., Dette, H. und Zhu, W. (2005b), “Compound Optimal Designs for Percentile Estimation in Dose-Response Models with Restricted Design Intervals”, eingereicht (Journal of Statistical Planning and Inference).
  • Biedermann, S., Dette, H., Zhu, W. (2005c), “Compound Optimal Designs for Percentile Estimation in Dose-Response Models with Restricted Design Intervals”, in: Proceedings of the 5th St. Petersburg Workshop on Simulation. Eds.: S.M. Ermakov, V.B. Melas und A.N. Pepelyshev), 143-148.
  • Biedermann, S., Dette, H. und Pepelyshev, A. (2005a), “Optimal Discrimination Designs for Exponential Regression Models”, eingereicht (Journal of Statistical Planning and Inference).
  • Biedermann, S., Dette, H. und Pepelyshev, A. (2005b), “Some robust design strategies for percentile estimation in binary response models”, in Revision (Canadian Journal of Statistics).
  • Biedermann, S., Dette, H. und Pepelyshev, A. (2004), “Maximin optimal designs for a compartmental model”, Recent Advances in Model Orientated Data Analysis, Physica Verlag, 41-49.
  • Biedermann, S. und Dette, H. (2003a), “Robust and efficient design for the Michaelis-Menten model“, Journal of the American Statistical Association, 98, 679-686.
  • Biedermann, S. und Dette, H. (2003b), “A note on Bayesian and Maximin D-optimal designs in weighted polynomial regression”, Mathematical methods of Statistics, 12(3), 358-370.
  • Braess, D. und Dette, H. (2005), “On the number of support points of maximin and Bayesian D-optimal designs in nonlinear regression models”, in Revision (Annals of Statistics).
  • Dette, H., Haines, L. und Imhof, L. (2005a), “Bayesian and maximin optimal designs for Heteroscedastic regression models”, erscheint in: Canadian Journal of Statistics.
  • Dette, H., Haines, L. und Imhof, L. (2005b), “Maximin and Bayesian optimal designs for linear and non-linear regression models”, eingereicht (Statistica Sinica).
  • Dette, H., Kunert, J. und Pepelyshev, A. (2005), “On optimal designs for linear regression with correlated errors and analysis by weighted least squares”, eingereicht.
  • Dette, H. und Melas, V.B. (2005), “A note on some extremal problems for trigonometric polynomials”, eingereicht (Journal of Approximation Theory).
  • Dette, H., Melas, V.B. und Schpilev, P. (2005), “Optimal designs for estimating the coefficients of the lower frequencies in trigonometric regression models”, eingereicht (Annals of Statistics).
  • Dette, H. und Pepelyshev, A. (2005), “Efficient experimental designs for sigmoidal growth models”, eingereicht (Journal of Statistical Planning and Inference).
  • Dette, H. und Kwiecien, R. (2005), “Finite sample performance of sequential designs for model identification”, Journal of Statistical Computation and Simulation, 75, 477-495.
  • Dette, H., Wong, W.K. und Zhu, W. (2005), “On the equivalence of optimality criteria for the Placebo-Treatment problem”, “Statistics & Probability Letters”, 74, 337-346.
  • Dette, H., Martinez Lopez, I. , Ortiz Rodriguez, I. und Pepelyshev, A. (2005), “Efficient design of experiment for exponential regression models”, erscheint in: Journal of Statistical Planning and Inference.
  • Dette, H., Melas, V.B. und Pepelyshev, A. (2005a), “Locally E-optimal designs for exponential regression models”, erscheint in: Annals of the Institute of Statistical Mathematics .
  • Dette, H., Melas, V.B. und Pepelyshev, A. (2005b), “Optimal designs for 3D shape analysis with spherical harmonic descriptors”, erscheint in: Annals of Statistics.
  • Dette, H., Melas, V.B., Pepelyshev, A. und Strigul, N. (2005), “Design of experiments for Monod model – robust and efficient designs”, Journal of Theoretical Biology, 234, 537-550.
  • Dette, H., Melas, V.B. und Wong, W.K. (2005a), “Locally D-optimal designs for exponential regression”, erscheint in: Statistica Sinica.
  • Dette, H., Melas, V.B. und Wong, W.K. (2005b), “Optimal designs for goodness-of-fit of the Michaelis-Menten enzyme kinetic function”, erscheint in: Journal of the American Statistical Association.
  • Dette, H. und Studden, W.J. (2005), “A note on the maximization of matrix valued Hankel determinants with applications”, erscheint in: Journal of Computational and Applied Mathematics.
  • Dette, H. (2004), “On robust and efficient designs for risk estimation in epidemiologic studies”, Scandinavian Journal of Statistics, 31(3), 319-331.
  • Dette, H., Melas, V. und Pepelyshev, A. (2004a), “Optimal designs for estimating individual coefficients in polynomial regression – a functional approach”, Journal of Statistical Planning and Inference, 118(1-2), 201-219.
  • Dette, H., Melas, V. und Pepelyshev, A. (2004b), “Optimal designs for a class of nonlinear regression models”, Annals of Statistics, 32(5), 2142-2167.
  • Dette, H. und Melas, V. (2003), “Optimal designs for estimating individual coefficients in Fourier regression models”, Annals of Statistics, 31(5), 1669-1692.
  • Dette, H., V. Melas und A. Pepelyshev (2003), “Standardized maximin E-optimal designs for the Michaelis-Menten model”, Statistica Sinica, 13(4), 1147-1163.
  • Dette, H., Melas, V., Pepelyshev, A. und Strigul, N. (2003), “Efficient design of experiment in the Monod model”, Journal of the Royal Statistical Society, Series B, 65(3), 725-742.
  • Dette, H., Melas, V. und Biedermann, S. (2002), “A functional-algebraic determination of D-optimal designs for trigonometric regression models on a partial circle”, Statistics & Probability Letters, 58(4), 389-397.
  • Dette, H., Melas, V. und Pepelyshev, A. (2002), “ D-optimal designs for trigonometric regression models on a partial circle”, Annals of the Institute of Statistical Mathematics , 54(4), 945-959.
  • Dette, H. und Biedermann, S. (2001a), "Optimal Designs for Testing the Functional Form of a Regression via Nonparametric Estimation Techniques", Statistics & probability Letters, 52, 215-224
  • Dette, H. und Biedermann, S. (2001b), "Minimax Optical Designs for Nonparametric Regression - Two Further Optimality Properties of the Uniform Distribution", Recent Advances in Model Orientated Data Analysis, 13-20
  • Dette, H. und Franke, T. (2001), “Robust designs for polynomial regression by maximizing a minimum of D- and D 1-efficiencies”, Annals of Statistics, 29(4), 1024-1049.
  • Dette, H., Song, D. und Wong, W.K. (2001), “Robustness properties of minimally-supported Bayesian D-optimal designs for heteroscedastic models”, Canadian Journal of Statistics, 29(4), 633 –647.
  • Dette, H. und Franke, T. (2000), "Constrained D- and D1 Optimal Design for Polynomial Regression, Annals of Statistics, 28, 1702-1727
  • Dette, H. und Wong, W.K. (1999a), "Optimal designs for modeling response's variance as a function of the mean", erscheint in: Biometrics.
  • Dette, H. und Wong, W.K. (1999b), "E-optimal designs for the Michaelis-Menten model", Statistics & Probability Letters, 44, 405-408.
  • Dette, H. und Huang M.-N. (1999), "Convex optimal designs for compound polynomial extrapolation", erscheint in: Annals of the Institute of Statistical Mathematics .
  • Dette, H. (1998), "Some applications of canonical moments", in: Fourier regression models, New Developments and Applications in Experimental Design, N. Flournoy, W.F. Rosenberger und W.K. Wong, (eds.), Inst. of Math. Statistics, Hayward , 175-185.
  • Dette, H. und Haller, G. (1998), "Optimal discriminating designs for Fourier regression", Annals of Statistics, 26, 1496-1521.
  • Dette, H. und Sahm, M. (1998a), "E-Optimal designs for the double exponential model":, in: Recent Advances in Model Orientated Data Analysis and experimental Design, A.C. Atkinson, L. Pronzato und H.P. Wynn (eds.), Physica Verlag, Heidelberg, 11-20.
  • Dette, H. und Sahm, M. (1998b), "Minimax designs in nonlinear regression models", Statistica Sinica, 8, 1249-1264.
  • Dette, H. und Wong, W.K. (1998), "Bayesian D-optimal designs on a fixed number of design points for heteroscedastic polynomial models", Biometrika, 85, 869-882.
  • Dette, H. (1997a), "Designing of experiments with respect to "standardized" optimality criteria", Journal of the Royal Statistical Society B, 59, 97-110.
  • Dette, H. (1997b), "A note on the uniform distribution on the arcsin points", Metrika, 46, 71-82.
  • Dette, H. (1997c), "E-optimal designs for regression models with quantitative factors - a reasonable choice?", Canadian Journal of Statistics, 25, 531-543.
  • Dette, H. und Munk, A. (1997), "Allocation of treatments for Welch's Test in bioequivalence assessment", Biometrics, 53, 1143-1150.
  • Dette, H. und Neugebauer, H.M. (1997), "Bayesian D-optimal designs for exponential regression models", Journal of Statistical Planning and Inference, 60, 331-345.
  • Dette, H. und Röder, I. (1997), "Optimal discrimination designs for multi-factor experiments", Annals of Statistics, 25, 1161-1175.
  • Dette, H. und Sahm, M. (1997), "Standardized optimal designs for Binary response experiments", South African Statistical Journal, 31, 271-298.
  • Dette, H. und Studden, W.J. (1997), The Theory of Canonical Moments with Applications in Statistics, Probability and Analysis, Wiley, N.Y.
  • Kunert, J. und Sailer, O. (2006), “On Nearly Balanced Designs for Sensory Trials“, Food Quality and Preference, 17, 219-227.
  • Kunert, J. und Sailer, O. (2005), “Randomization of neighbour balanced generalized Youden designs", erscheint in: Journal of Statistical Planning and Inference.
  • Kunert, J. und Stufken, J. (2005), "Optimal crossover designs for two treatments in the presence of mixed and self carryover effects", eingereicht (Journal of the American Statistical Association).
  • Kunert, J., Martin, R.J. und Pooladsaz, S. (2003), “Optimal designs under two related models for interference“, Metrika, 57, 137-143.
  • Kunert, J. (2002), “Statistical Methods to Examine Differences in the Rating of Soft-Drinks Among Different Groups of Consumers”, Food Quality and Preference, 13, 555-559.
  • Kunert, J. und Stufken, J. (2002), “Optimal crossover designs in a model with self and mixed carryover effects”, Journal of the American Statistical Association, 97, 898-906.
  • Kunert, J. (2001a), " Interference designs with circular structure", in: J. Kunert, G. Trenkler (eds.) Mathematical Statistics with Applications in Biometry, Josef Eul, Lohmar (2001), 355-368.
  • Kunert, J. (2001b), "On Repeated Difference Testing", Food Quality and Preference, 12, 358 - 391.
  • Kunert, J., Montag, A. und Pöhlmann, S. (2001), "The Quincunx: History and Mathematics", Statistical Papers, 42, 143 - 169.
  • Kunert, J. und Trenkler, G. (2001), "Mathematical Statistics with Applications in Biometry. Festschrift in Honour of Siegfried Schach", Josef Eul, Lohmar
  • Kunert, J. (2000a), "Randomisation for neighbour-balanced designs", Biometrical Journal, 42, 263-278.
  • Kunert, J. (2000b), "Workshop on the statistical analysis of sensory profiling data: Randomization / permutation / ANOVA", Food Quality and Preference, 11, 141 - 143.
  • Kunert, J. und Martin, R.J. (2000a), "Optimality of type I orthogonal arrays for cross-over models", Journal of Statistical Planning and Inference, 87, 119-124.
  • Kunert, J. und Martin, R. J. (2000b), "On the Determination of Optimal Designs for an Interference Model", Annals of Statistics, 28, 1728 - 1742.
  • Kunert, J. und Meyners, M. (1999), "On the Triangle Test with Replications", Food Quality and Preference, 10, 477-482.
  • Kunert, J. (1998a), "On the analysis of circular balanced crossover designs", Journal of Statistical Planning and Inference, 69, 359-370.
  • Kunert, J. (1998b), "Sensory Experiments as Crossover Studies", Food Quality and Preference, 9, 243-253.
  • Marin-Galiano, M. und Kunert, J. (2006): "Comparison of ANOVA with the Tobit-model for analysing sensory data", Food Quality and Preference, 17, 209-218.
  • Meyners, M. (2001), "Permutation test: Are there Differences in Product Liking?", Food Quality and Preference, 12, 345 - 351.
  • Meyners, M., Kunert, J. und Qannari, E. M. (2000), "Comparing generalized procrustes analysis and STATIS", Food Quality and Preference, 11, 77 - 83.
  • O’Brien, T.E. und Dette, H. (2004), “Efficient experimental design for the Behrens-Fisher problem with application to bioassay”, The American Statistician, 58(2), 138-143.
  • Sailer, O. (2005), "crossdes- A package for Design and Randomization in Crossover Studies", R News, 5, 24-27.
  • Voss, B., Kunert, J., Dahms, S. und Weiss, H. (2000), "A Multinomial Model for the Quality Control of Colony Counting Procedures", Biometrical Journal, 42, 263 - 278.
  • Wameling, A., Kunert, J., Siethmann, B., Blaszkiewicz, M., Van Thriel, C., Zupanic, M. und Seeber, A. (2000), "Individual Toluene Exposure in Rotogravure Printing: Increasing Accuracy of Estimation by Linear Models Based on Protocols of Daily Activities and Other Measures", Biometrics, 56, 1218 - 1221.

 

A4 : Statistische Methoden und Maschinelle Lernverfahren

Projektleitung: Prof. Dr. Katharina Morik, Prof. Dr. Claus Weihs

Kurzbeschreibung

Ziel dieses Teilprojekts ist weiterhin die Kombination von Verfahren aus der Statistik und dem maschinellen Lernen zur Wissensentdeckung in realen Datenbanken (Knowledge Discovery in Databases, KDD). Nachdem in der letzten Antragsphase der Wissensentdeckungsprozess insgesamt betrachtet wurde, soll in der neuen Antragsphase der Schwerpunkt auf zwei wichtige Problemstellungen gelegt werden, die in der Praxis der Wissensentdeckung häufig auftauchen und deren Behandlung einen besonderen Synergieeffekt durch die Kombination von Verfahren aus Statistik und maschinellem Lernen verspricht. Diese Teilaspekte sind die Behandlung von zeitlichen Phänomenen in der Form von Ereignissen und der Einsatz von Versuchsplanung. Zusätzlich besteht wie in den bisherigen Antragsphasen ein Schwerpunkt des Teilprojekts in der praktischen Analyse realer Datenbanken.
In der vergangenen Forschungsperiode waren wir mit einem Datensatz konfrontiert, bei dem der Zeitaspekt berücksichtigt werden sollte, aber die zeitlichen Phänomene nicht in Form zeitlich äquidistanter numerischer Werte vorlagen. Es ging um Vertragsänderungen von Versicherungen. Jede Änderung ist mit einem Datum annotiert. Sie kann als Ereignis aufgefasst werden. Die Analyseaufgabe bestand darin, diejenigen Sequenzen von Ereignissen zu ermitteln, die zum Rückkauf der Versicherung führen. Gesucht waren also Regeln über zeitlich geordnete Ereignisse, die ein bestimmtes Ereignis vorhersagen. Dieses Fallbeispiel konnte in der letzten Projektphase nicht ausreichend behandelt werden, hat uns aber gezeigt, dass Verfahren zur Entdeckung von Regeln viel versprechend sind, wenn die Ereignisse und ihre (zeitliche) Nachfolgerelation angemessen repräsentiert sind. Drei weitere Fallstudien der letzten Phase trugen zum Interesse an Ereignissequenzen bei. Einerseits wurde der B3-Datensatz zu Konjunkturzyklen im Zuge der komparativen Studien auch in nichtnumerische Werte abstrahiert, die für Zeitintervalle gelten. Diese logischen Fakten können als Ereignisse betrachtet werden, deren Sequenz für die Klassifikation der Konjunkturphase genutzt wird. Weiterhin wurden die Zeitreihen von Intensivpatienten in Ereignisfolgen transformiert, indem level changes und Trends der numerischen Zeitreihen ermittelt wurden. Außerdem wurden bei der Untersuchung von Gesangszeitreihen die Ereignisse der Notenwechsel bestimmt, indem zunächst für Abschnitte gleicher Länge die vorherrschende Note geschätzt wurde und dann mit Hilfe von Hintergrundinformation und Glättungsverfahren auf Notenwechsel geschlossen wurde.
Daraus ergab sich eine Aufgabenstellung, die den Stärken der Statistik bei der Behandlung von Zeitreihen und den Stärken der Informatik bei der Regelentdeckung Raum gibt. Die statistische Zeitreihenanalyse wird in der aktuellen Forschungsperiode zur Aggregation von Zeitreihenabschnitten zu Ereignissen eingesetzt. Dabei wird der neuartige Ansatz verfolgt, parallel mehrere Zeitreihenmodelle zu untersuchen. Durch geschickte Wahl der Modelle können spezielle Ereignisse (wie z. B. Trends, Strukturbrüche, ...) untersucht werden. Aus den so gewonnen Ereignissequenzen konnten dann Regeln gelernt werden, die ein Ereignis - mit oder ohne Zeitangabe für sein Eintreffen - vorhersagen. Die Abtastung der Zeitreihe hängt dabei insbesondere von der Art der interessierenden Ereignisse ab. Da die Analyse von Zeitreihen aufwändig ist, sollten außerdem nicht alle Reihen, die in einer Datenbank abgelegt wurden, dafür benutzt werden, Ereignisse zu aggregieren. Die Ereignisaggregation wurde vielmehr an sinnvoll ausgewählten Zeitreihen durchgeführt und dann auf alle anderen angewendet. Interessant ist dabei nicht zuletzt die Anwendbarkeit auf sehr große Datenbestände.
Der zweite Teilaspekt, der in der aktuellen Antragsperiode intensiv untersucht wird, ist die Einsatzmöglichkeit von statistischer Versuchsplanung in den verschiedenen Stufen der Wissensentdeckung in Datenbanken. Dabei geht es nicht nur um Versuchsplanung bei der Datenvorauswahl sondern auch um den Einsatz von Versuchsplanung bei der Optimierung der freien Parameter von KDD-Verfahren und um den Vergleich der Ergebnisgüte von Verfahren zur Lösung eines KDD-Problems in Abhängigkeit von verschiedensten Einflüssen mit Hilfe von Versuchsplanung. Insgesamt musste bisher eine starke Vernachlässigung von statistischer Versuchsplanung in der KDD festgestellt werden.
Die in diesem Projekt zu entwickelnden Verfahren sollen auf reale Datensätzen angewandt und auf diesen erprobt werden. Hierzu werden Datensätze ausgewählt, die ein breites Spektrum zeitlicher Daten und Problemstellungen abdecken, so dass möglichst allgemeine Aussagen über zeitliche Probleme möglich sind. Insbesondere sollen hier auch Datensätze anderer Teilprojekte bearbeitet werden. Die Erfahrungen mit diesen Datensätzen dienen als Basis für die Entwicklung einer generellen Vorgehensweise zur Lösung der erwähnten methodischen Fragestellungen.

Arbeitspakete

  • Untersuchung von Zeitreihen für KDD
  • Lernen von Regeln für Ereignisse
  • Kombination von Verfahren aus Statistik und maschinellem Lernen für zeitliche Daten
  • Versuchsplanung zur Datenvorverarbeitung
  • Optimierung von Verfahren mittels der Versuchsplanung
  • Vergleich von Verfahren mittels Versuchsplanung
     

Neue Ziele

Lokale Modelle können im Vergleich zu globalen Modellen eine bessere Performanz durch gezielte Betrachtung unterschiedlich zu modellierender Teilmengen erreichen. Zusätzlich ist eine Steigerung der Effizienz und der Interpretierbarkeit durch die geringere Datenmenge bei den einzelnen lokalen Modellen möglich. Daher möchten wir in der nächsten Förderphase verschiedene Definitionen von lokalen Modellen bzgl. ihrer statistischen Eigenschaften und die Globalisierung lokaler Modelle, d.h. die Kombinationen von lokalen Modellen zu globalen Lösungen, untersuchen. Neben lokalen Modellen sollen Prototypen in einem Datensatz untersucht werden, die mit Hilfe von statistischen Versuchsplänen bestimmt werden. Solche Prototypen stellen interessante Lokalitäten im Datensatz dar, wenn sie neben der Erhöhung der Interpretierbarkeit auch Modelle mit adäquater Performanz liefern. Ziel der Untersuchungen sind fehlerratenminimale Pläne. Ausgehend von Ansätzen zum Vergleich von Verfahren, zur Klassifikation von Textdaten durch die Support Vector Machine und von Modellen zur Klassifikation von Musikdaten sollen jetzt Definition und Analyse von lokalen Klassifikationsmodellen im Mittelpunkt der Untersuchung stehen. Das erst ermöglicht weitergehende Analysen von Texten und Musik, z.B. bei der Informationsextraktion aus Texten und der lokalen Tempovariation in der Musik.

Veröffentlichungen

  • Kopiez, R., Weihs, C., Ligges, U. und Lee, J.I. (2006), "Classification of high and low achievers in a music sight-reading task", Psychology of Music, 34(1), 5-26.
  • Szepannek, G. und Weihs, C. (2006), "Variable Selection for Discrimination of More Than Two Classes Where Data are Sparse", in: From Data and Information Analysis to Knowledge Engineering, M. Spiliopoulou, R. Kruse, A. Nürnberger, C. Borgelt, W. Gaul (Hrsg.), Springer-Verlag, Berlin, 700-707.
  • Weihs, C. und Ligges, U. (2006), "Parameter Optimization in Automatic Transcription of Music", in: From Data and Information Analysis to Knowledge Engineering, M. Spiliopoulou, R. Kruse, A. Nürnberger, C. Borgelt, W. Gaul (Hrsg.), Springer-Verlag, Berlin, 741-747.
  • Homburg, H., Mierswa, I., Möller, B., Morik, K., Wurst, M., (2005), "A Benchmark Dataset for Audio Classification and Clustering", in: Proceedings of the 6th International Conference on Music Information Retrieval (ISMIR), 528-531.
  • Kopiez, R., Weihs, C., Ligges, U. und Lee, J. I. (2005), "In Search of Variables Distinguishing Low and High Achievers in a Music Sight Reading Task", in: Classification: The Ubiquitous Challenge, C. Weihs, W. Gaul (Hrsg.), Springer-Verlag, Berlin, 593-599.
  • Luebke, K. und Weihs, C. (2005a), "Improving Feature Extraction by Replacing the Fisher Criterion by an Upper Error Bound", Pattern Recognition, 38 (11), 2220-2223.
  • Mierswa, I. (2005), "Automatic Feature Extraction from Large Time Series", in: Classification: The Ubiquitous Challenge, C. Weihs, W. Gaul (Hrsg.), Springer-Verlag, Berlin, 600-607.
  • Mierswa, I. und Morik, K. (2005a), "Automatic Feature Extraction for Classifying Audio Data", Machine Learning Journal, 58, 127-149.
  • Mierswa, I. und Morik, K. (2005b), "Method Trees: Building Blocks for Self-Organizable Representations of Value Series", in: Proceedings of the Genetic and Evolutionary Computation Conference (GECCO), Workshop on Self-Organization In Representations For Evolutionary Algorithms: Building complexity from simplicity.
  • Mierswa, I. und Morik, K. (2005c), "Evolutionäre Aufzucht von Methodenbäumen zur Merkmalsextraktion aus Audiodaten ", Informatik Spektrum, Themenheft Musik, 381-388.
  • Mierswa, I. und Wurst, M. (2005a), "Efficient Case Based Feature Construction for Heterogeneous Learning Tasks ", in: Proceedings of the European Conference on Machine Learning (ECML), Springer-Verlag, Berlin, 641-648.
  • Mierswa, I. und Wurst, M. (2005b), "Efficient Feature Construction by Meta-Learning - Guiding the Search in Meta Hypothesis Space", in: Proceedings of the International Conference on Machine Learning, Workshop on Meta Learning.
  • Morik, K. und Köpcke, H. (2005), "Features for learning local patterns in time-stamped data", in: Local Pattern Detection, Springer Lecture Notes in Artificial Intelligence, Volume 3539, K. Morik, A. Siebes, J.-F. Boulicault (Hrsg.), Springer-Verlag, Berlin, 109-121.
  • Morik, K., Siebes, A. und Boulicault, J.-F. (Hrsg.) (2005), Detecting Local Patterns, Springer Lecture Notes in Artificial Intelligence, Volume 3539, Springer-Verlag, Berlin.
  • Pumplün, C., Weihs, C. und Preusser, A. (2005a), "Experimental Design for Variable Selection in data bases", in: Classification - The Ubiquitous Challenge, C. Weihs, W. Gaul (Hrsg.), Springer-Verlag, Heidelberg, 192-199.
  • Rössler, M. und Morik, K. (2005), "Using Unlabeled Texts for Named-Entity Recognition", in: Proceedings of the ICML 2005 Workshop on Learning with Multiple Views, S. Rüping, T. Scheffer (Hrsg.), www-ai.cs.uni-dortmund.de/MULTIVIEW2005/.
  • Röver, C., Klefenz, F. und Weihs, C. (2005), "Identification of Musical Instruments by Means of the Hough-Transformation", in: Classification - The Ubiquitous Challenge, C. Weihs, W. Gaul (Hrsg.), Springer-Verlag, Heidelberg, 608-615.
  • Rüping, S. (2005a), "Learning with local models", in: Local Pattern Detection, Springer Lecture Notes in Artificial Intelligence, Volume 3539, K. Morik, A. Siebes, J.-F. Boulicault (Hrsg.), Springer-Verlag, Berlin, 169-182.
  • Rüping, S. (2005b), "Interpreting Classifiers by Multiple Views", in: Proceedings of the ICML 2005 Workshop on Learning With Multiple Views, S. Rüping, T. Scheffer (Hrsg.), 65-72.
  • Rüping, S. und Scheffer, T. (Hrsg.) (2005), Proceedings of the ICML 2005 Workshop on Learning with Multiple Views.
  • Scholz, M. (2005a), "Knowledge-based sampling for subgroup discovery"; in: Local Pattern Detection, Springer Lecture Notes in Artificial Intelligence, Volume 3539, K. Morik, A. Siebes, J.-F. Boulicault (Hrsg.), Springer-Verlag, Berlin, 187-200.
  • Scholz, M. (2005b), "Sampling-Based Sequential Subgroup Mining"; in: Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery in Databases (KDD), R. L. Grossman, R. Bayardo, K. Bennet, J. Vaidya (Hrsg.), ACM-Press, 265-274.
  • Scholz, M. (2005d), "On the Tractability of Rule Discovery from Distributed Data", in: Proceedings of the 5th IEEE International Conference on Data Mining ICDM.
  • Scholz, M. und Klinkenberg, R. (2005), "An Ensemble Classifier for Drifting Concepts", in: Proceedings of the 2nd International Workshop on Knowledge Discovery from Data Streams, in conjunction with ECML/PKDD, J. Aguilar, J. Gama (Hrsg.). (erscheint)
  • Szepannek, G., Klefenz, F. und Weihs, C. (2005b), "Neuronale Repräsentation des Hörvorgangs als Basis zur Schallanalyse", Informatik Spektrum, Themenheft Musik, 389-395.
  • Szepannek, G. und Luebke, K. (2005), "Different Subspace Classification", in: Classification - The Ubiquitous Challange, C. Weihs, W. Gaul (Hrsg.), Springer-Verlag, Heidelberg, 224-231.
  • Szepannek, G., Luebke, K. und Weihs, C. (2005a), "Understanding Patterns with Different Subspace Classification", in: Machine Learning and Data Mining (MLDM 2005), Springer Lecture Notes in Artificial Intelligence, 3587, P. Perner, A. Imiya (Hrsg.), 110-119.
  • Thomé, P. und Lüttgens, M. (2005), "Nemoz Network Media Organizer", Informatik Spektrum, Themenheft Musik, 396-398.
  • Weihs, C. und Gaul, W. (Hrsg.) (2005), Classification: The Ubiquitous Challenge, Springer-Verlag, Berlin.
  • Weihs, C. und Ligges, U. (2005a), "From Local to Global Analysis of Music Time Series", in: Local Pattern Detection, Springer Lecture Notes in Artificial Intelligence, Volume 3539, K. Morik, A. Siebes, J.-F. Boulicault (Hrsg.), Springer-Verlag, Berlin, 217-231.
  • Weihs, C., Ligges, U. und Garczarek, U. (2005a), "Prediction of Notes from Vocal Time Series: An Overview", in: Innovations in Classification, Data Science, and Information Systems, D. Baier, K.-D. Wernecke (Hrsg.), Springer-Verlag, Berlin, 283-294.
  • Weihs, C., Reuter, C. und Ligges, U. (2005b), "Register Classification by Timbre", in: Classification: The Ubiquitous Challenge, C. Weihs, W. Gaul (Hrsg.), Springer-Verlag, Berlin, 624-631
  • Garczarek, U. und Weihs, C. (2004), "Incorporating Background Knowledge for Better Prediction of Cycle Phases", Knowledge and Information Systems, 6 (5), 544-569.
  • Luebke, K. und Weihs, C. (2004a), "Generation of prediction optimal projection on latent factors by a stochastic search algorithm", Computational Statistics and Data Analysis, 47 (2), 297-310.
  • Luebke, K. und Weihs, C. (2004b), "Optimal Separation Projection", in: COMPSTAT 2004 - Proceedings in Computational Statistics, J. Antoch (Hrsg.), Physica, Heidelberg, 1429-1437.
  • Mierswa, I. (2004b), "Automatic Feature Extraction from Large Time Series"; in: Classification -- the Ubiquitous Challenge, C. Weihs, W. Gaul (Hrsg.), Springer-Verlag, Berlin, 600-607.
  • Morik, K. und Köpcke, H. (2004), "Analysing Customer Churn in Insurance data - A Case Study", in: Proceedings of the 8th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD), Springer-Verlag, Berlin, 325-336.
  • Garczarek, U. und Weihs, C. (2003), "Standardizing the Comparison of Partitions", Computational Statistics, 18, 143-162.
  • Klinkenberg, R. und Rüping, S. (2003), "Concept Drift and the Importance of Examples", in: Text Mining - Theoretical Aspects and Applications, J. Franke, G. Nakhaeizadeh, I. Renz (Hrsg.), Physica-Verlag, Berlin, 55-77.
  • Luebke, K. und Weihs, C. (2003), "Testing a Simulated Annealing Algorithm in a Classification Problem", in: Stochastic Algorithms: Foundations and Applications, A. Albrecht, K. Steinhoefel (Hrsg.), Springer Lecture Notes in Computer Science, Volume 2827, 61-70.
  • Mierswa, I. (2003), "Beatles vs. Bach: Merkmalsextraktion im Phasenraum von Audiodaten", in: LLWA 03 - Tagungsband der Lernen - Lehren - Wissen - Adaptivität, 113-118.
  • Rüping, S. und Morik, K. (2003), "Support Vector Machines and Learning about Time", in: IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '03).
  • Weihs, C. und Ligges, U. (2003a), "Automatic Transcription of Singing Performances", in: Bulletin of the International Statistical Institute, 54th Session, Proceedings, Volume LX, Book 2, 507-510.
  • Weihs, C., Ligges, U., Güttner, J., Hasse-Becker, P. und Berghoff, S. (2003), "Classification and Clustering of Vocal Performances", in: Between Data Science and Applied Data Analysis, M. Schader, W. Gaul, M. Vichi (Hrsg.), Springer-Verlag, Berlin, 118-126.

 

A5 : Komplexität und Algorithmen in der Statistik

Projektleitung: Prof. Dr. Roland Fried

Kurzbeschreibung

Das Teilprojekt A5 "Komplexität und Algorithmen in der Statistik" untersucht statistische Methoden unter algorithmischen Gesichtspunkten. Zum Einen werden Methoden aus den Gebieten "Komplexitätstheorie" und "Entwurf und Analyse effizienter Algorithmen" für Problemstellungen aus der Statistik weiterentwickelt, um möglichst effiziente Algorithmen für statistische Verfahren zu finden bzw. die Effizienzgrenzen der Verfahren aufzuzeigen. Zum Anderen werden neue statistische Verfahren entworfen, die einerseits zuverlässig und andererseits effizient umsetzbar sind.

Ein wesentliches inhaltliches Thema dieses Teilprojekts sind robuste Schätzmethoden. Neben den bisher betrachteten exakten Lösungsalgorithmen werden dabei künftig zum Erzielen praktikabler Rechenzeiten auch evolutionäre Algorithmen eingesetzt. Auch sollen zum Vergleich Average-Case-Analysen angestrengt werden. Die hohe Komplexität der bestehenden robusten Schätzansätze macht oft die Konzeption grundlegend neuer Schätzansätze nötig.

Weitere Themengebiete sind die "Logische Regression", die "Robuste Modellwahl bei graphischen Modellen" und "Nichtparametrische Regression und Dichteschätzer". Bei den verschiedenen Arbeitspaketen findet eine rege Zusammenarbeit insbesondere mit den Teilprojekten A1, C4 und C7 statt.

Arbeitspakete

  • Algorithmische Komplexität robuster statistischer Verfahren
  • Entwicklung algorithmischer Alternativen für (multivariate) Zeitreihen
  • Modellwahlprozeduren
  • Herausarbeitung algorithmischer Prinzipien
  • Kompetenzzentrum Effiziente Algorithmen und Komplexitätstheorie 

Veröffentlichungen

  • Bernholt, T., Fried, R., Gather, U., Wegener, I. (2006), "Modified Repeated Median Filters", Statistics and Computing 16, 177-192.
  • Bernholt, T. and Hofmeister, T. (2006), "An algorithm for a generalized maximum subsequence problem" Proceedings of LATIN 2006, LNCS 3887, 178-189
  • Fried, R., Bernholt, T., Gather, U. (2006), "Repeated Median and Hybrid Filters", to appear in Computational Statistics and Data Analysis.
  • Gather, U., Schettlinger, K., Fried, R. (2006), "Online Signal Extraction by Robust Linear Regression", to appear in Computational Statistics.
  • Bernholt, T., Nunkesser, R., Schettlinger, K. (2005), "Computing the Least Quartile Difference Estimator in the Plane", Technical Report, 51/2005, SFB 475, Universität Dortmund.
  • Bernholt, T. (2005), "Computing the Least Median of Squares Estimator in Time O(nd)", in: Proceedings of the International Conference on Computational Science and Its Applications (ICCSA 2005, Singapur), O. Gervasi et al. (Hrsg.), to appear in Vol. 3480, Lecture Notes in Computer Science, Springer Verlag, Berlin, Heidelberg, 697-706.
  • Fried, R., Didelez, V. (2005), "Latent Variable Analysis and Partial Correlation Graphs for Multivariate Time Series", Statistics & Probability Letters, 73, 287–296.
  • Fried, R., Gather, U. (2005), "Robust Trend Estimation for AR(1) Disturbances", in: Austrian Journal of Statistics, 34 (2), Special Issue on the Seventh International Conference on Computer Data Analysis and Modeling (CDAM), H. Friedl (Hrsg.), R. Dutter, P. Filzmoser, Y. Kharin (Gast-Hrsg.), Österreichische statistische Gesellschaft, Graz, Österreich, 139-151.
  • Gather, U., Schettlinger, K., Fried, R. (2005), "Online Signal Extraction by Robust Linear Regression", to appear in Computational Statistics.
  • Jansen, T., Wegener,  I. (2005), ''Real Royal Road Functions - Where Crossover Provably is Essential'', Discrete Applied Mathematics 149, 111-125 (also in Proceedings of the Genetic and Evolutionary Computation Conference (GECCO 2001), 375-382, 2001).
  • Wegener,  I. , Witt, C. (2005), "On the Analysis of a Simple Evolutionary Algorithm on Quadratic Pseudo-Boolean Functions", Journal of Discrete Algorithms, 3, 61-78.
  • Wegener, I., Witt, C. (2005), "On the Optimization of Monotone Polynomials by Simple Randomized Search Heuristics", Combinatorics, Probability and Computing, 14, 225-247 (also titled by "On the Optimization of Monotone Polynomials by the (1+1)EA and Randomized Local Search" in: Proceedings of the Genetic and Evolutionary Computation Conference (GECCO 2003), Vol. 2723, Lecture Notes in Computer Science, Springer Verlag, Berlin, Heidelberg, 622-633, 2003, Best Paper Award).
  • Wegener,  I. (2005), "Simulated Annealing Beats Metropolis in Combinatorial Optimization", ICALP 2005, Vol. 3580, Lecture Notes in Computer Science, Springer Verlag, Berlin , Heidelberg , 589-601.
  • Bernholt, T., Fischer, P. (2004), "The Complexity of Computing the MCD-Estimator", Theoretical Computer Science, 326, 383-398.
  • Davies, P. L., Fried, R., Gather, U. (2004), "Robust Signal Extraction for On-line Monitoring Data", in: Journal of Statistical Planning and Inference, 122, Special Issue on Contemporary Data Analysis: Theory and Methods in Honor of John W. Tukey (1915-2000), L. Turrin Fernholz, D. E. Tyler, V. Yohai (Hrsg.), 65-78.
  • Fried, R. (2004), "Robust Filtering of Time Series with Trends", Journal of Nonparametric Statistics, 16 (3), 313-328.
  • Gather, U., Fried, R. (2004), "Methods and Algorithms for Robust Filtering", eingeladener Artikel in: COMPSTAT 2004: Proceedings in Computational Statistics, J. Antoch (Hrsg.), Physika-Verlag, Heidelberg, 159-170.
  • Bernholt, T., Fried, R. (2003), "Computing the Update of the Repeated Median Regression Line in Linear Time", Information Processing Letters, 88, 3, 111-117.
  • Fried, R., Didelez, V. (2003), "Decomposability and Selection of Graphical Models for Multivariate Time Series", Biometrika, 90, 251–267.
  • Wegener, I. (2003), "Towards a Theory of Randomized Search Heuristics" (invited paper), MFCS 2003, Band 2747 von Lecture Notes in Computer Science, Springer Verlag, Berlin, Heidelberg, 125-141.
  • Christmann, A., Fischer, P, Joachims, T. (2002), "Comparison between the regression depth method and the support vector machine to approximate the minimum number of misclassifications", Journal of Computational Statistics, 17, 273-287.
  • Fender, T. (2003), "Empirische Risikominimierung für dynamische Datenstrukturen", Dissertation, Fachbereich Statistik, Universität Dortmund.
  • Christmann, A., Fischer, P., Joachims, T. (2002), "Classification based on the support vector machine, regression depth, and discriminant analysis", Proceedings 14th Conference on Computational Statistics (Compstat 2002), Berlin , 24.-28. August 2002.
  • Droste S., Jansen T., and Wegener I. (2002), "On the Analysis of the (1+1) Evolutionary Algorithm" Theoretical Computer Science 276, 51-81.
  • Jansen, T., Wegener, I. (2002), ''The Analysis of Evolutionary Algorithms - A Proof that Crossover Really Can Help'', Algorithmica, 34, 47-66 (also in: Proceedings of the 7th Annual European Symposium on Algorithms (ESA 1999), Vol. 1643, Lecture Notes in Computer Science, Springer Verlag, Berlin, Heidelberg, 184-193, 1999).
  • Bernholt, T., Fischer, P. (2001), "The complexity of the MCD-problem", The 33rd Symposium on the Interface of Computing Science and Statistics, Costa Mesa , California , 13.-16. Juni 2001.
  • Jansen, T., Wegener,  I. (2001), ''Evolutionary Algorithms - How to Cope with Plateaus of Constant Fitness and when to Reject Strings of the Same Fitness'', IEEE Transactions on Evolutionary Computation, 5, 589-599.
  • Wegener, I. (2001), "Theoretical Aspects of Evolutionary Algorithms" (invited paper), ICALP 2001, Vol. 2076, Lecture Notes in Computer Science, Springer Verlag, Berlin, Heidelberg, 64-78.
  • Cesa-Bianchi, N., Dichterman, E., Fischer, P., Shamir, E. and Simon, H.U. (1999), "Sample-efficient strategies for learning in the presence of noise", J. ACM 46(5): 684-719 (1999)
  • Gather, U., Köhne, S. and Pigeot, I. (1999), "Jacknife estimators of a relative risk in 2x2 and 2x2xK contingency tables", Statistica Neerlandica, 53,178-196.
  • Gather, U. and Pawlitschko, J. (1999), "Estimating the survival function under a generalized Koziol-Green model with partially informative censoring", Metrika, 48, 189-207.
  • Gather, U. and Schultze, V. (1999), "Robust estimation of scale of an exponential distribution", Statistica Neerlandica, 53, 327-341.
  • Gather, U. and Wellmann, J. (1999), "A note on contamination models and outliers", Comm. Stat. - Theory and Methods, 28, 1793-1802.
  • Bauer, M., Gather, U. and Imhoff, M. (1998), "Analysis of high dimensional data from intensive care medicine", in: Proceedings in Computational Statistics, R. Payne and P. Green (Hrsg.), Physica Verlag, Heidelberg, 185-190.
  • Bauer, M., Gather, U., Imhoff, M. and Löhlein, D. (1998), "Statistical pattern detection in univariate time series of intensive care on-line monitoring data", Intensive Care Medicine, 24, 1305-1314.
  • Gather, U., Kamps, U. and Schweitzer, N. (1998), "Characterizations of distributions via identically distributed functions of order statistics", in: Handbook of Statistics - 16, Order Statistics And Their Applications, N. Balakrishnan and C.R. Rao (Hrsg.), North-Holland, Amsterdam , 257-290.
  • Gather, U. and Pawlitschko, J. (1998), "On Efron's and Gill's version of the Kaplan-Meier integral", Comm. Stat. - Theory and Methods, 27, 181-192.
  • Fischer, P. (1997), "Sequential and parallel algorithms for finding a maximum convex polygon", Computational Geometry, Theory and Applications, 7, 187-200.
  • Gather, U. and Kamps, U. (1997), "Characteristics of generalized order statistics from exponential distributions", Applicationes Mathematicae, 24, 383-391.
  • Gather, U., Köhne, S. and Pigeot, I. (1996), "Asymptoticallly efficient noniterative estimators of a common parameter from independent samples", Statistics, 28, 187-200.
  • Anoulova, S., Fischer, P., Pölt S. and Simon, H.U. (1995), "PAB-decisions for Boolean and real-valued features", Information and Computation, 129, 63-71.
  • Gather, U. (1995), "Outlier models and some related inferential issues", in: The Exponential Distribution: Theory, Methods & Applications, N. Balakrishnan and A.P. Basu (Hrsg.), Gordon & Breach, Amsterdam, 221-239.
  • Gather, U. (1995), "Characterizing distributions by order statistics properties - A partial review", in: Festschrift in honor to Herbert A. David's 70th birthday, H.N. Nagaraja (Hrsg.), Ohio State University , Department of Statistics, USA, 89-103.
  • Christmann, A., Gather, U. and Scholz, G. (1994), "Some properties of the length of the shortest half", Statistica Neerlandica, 48, 209-213.
  • Wegener, I. (1994), "Efficient data structures for Boolean functions", Discrete Mathematics, 136, 347-372.
  • Fischer, P. and Simon, H.U (1992), "On learning ring-sum-expansions", SIAM Journal on Computing, 21, 181-192.
  • Gather, U. and Kale, B.K. (1992), "Outlier generating models - A review", in: Contributions to Stochastics, N. Venugopal (Hrsg.), Wiley (Eastern), New Dehli, 57-85.
  • Christmann, A. and Gather, U. (1991), "Significance levels of linear rank tests using Edgeworth-expansions", Statistica Neerlandica, 45, 379-389.
  • Gather, U. and Gajek, L. (1991), "Moment inequalities for order statistics with applications to characterizations of distributions", Metrika, 38, 357-367.
  • Gather, U., and Gajek, L. (1991), "Estimating the scale parameter under random censorship", Statistics, 22, 529-549.
  • Gather, U. (1990), "Modelling the occurence of multiple outliers", Allg. Stat. Archiv, 74, 413-428.
  • Gather, U. and Rauhut, B.O. (1990), "The outlier behaviour of probability distributions", Journal of Statistical Planning and Inference, 26, 237-252.
  • Gather, U. (1989), "On a characterization of the exponential distribution by properties of order statistics", Statistics and Probability Letters, 7, 93-96.
  • Gather, U. and Gajek, L. (1989), "Characterizations of the exponential distribution by failure rate- and moment properties of order statistics", in: Springer Lecture Notes in Statistics 51, J. Hüsler and R.-D. Reiss (Hrsg.), Springer, New York , 114-124.
  • Gather, U. and Kale, B.K. (1988), "Maximum Likelihood estimation in the presence of outliers", Comm. Stat. A, 17, 3767-3784.
  • Ahlswede, R. and Wegener, I. (1987), Search Problems, Wiley, Chichester.
  • Gather, U. and Pfeifer, D. (1987), "A note on the stability of maxima and records of an i.i.d. sequence", Publ. Inst. Stat., Paris, 23, 71-79.
  • Wegener, I. (1987), The Complexity of Boolean Functions, Wiley-Teubner, Stuttgart .
  • Gather, U. (1986), "Estimation of the mean of the exponential distribution under the labelled outlier-model", Meth. of Operations Research, 53, 535-546.
  • Gather, U. (1986), "Robust estimation of the mean of the exponential distribution in outlier situations", Comm. Stat. A, 15, 2323-2345.
  • Gather, U. (1986), "The influence of outlier-proneness on the tail-behaviour of some location estimators", Statistics and Decisions, 2, 165-171.
  • Gather, U. and Mathar, R. (1983), "Analysing the outlier-behaviour of non-continuous distribution functions", Jour. Ind. Stat. Ass., 21, 9-18.
  • Lössner, U. and Wegener, I. (1982), "Discrete sequential search with positive switch cost", Mathematics of Operations Research, 7, 426-440.
  • Wegener, I. (1980), "The discrete sequential search problem with nonrandom cost and overlook probabilities", Mathematics of Operations Research, 5, 373-380.