COVID-19 Data Analysis Update - Statistische Analyse

Für jedes von uns untersuchte Land unterscheiden wir verschiedene Perioden der Entwicklung der Pandemie anhand der jeweiligen Wachstumsraten für die Anzahl der erfassten Infektionen. Wir glauben, dabei allgemeine statistische Gesetzmäßigkeiten feststellen zu können. Zu Beginn ist die Wachstumsrate typischerweise außerordentlich hoch (dunkelrot), schwächt sich dann aber ab. In der finalen Sättigungsphase ist die Wachstumsrate so niedrig geworden (türkis), dass die Entwicklung der Epidemie im Wesentlichen unter Kontrolle ist. Die verschiedenen Länder befinden sich derzeit in unterschiedlichen Entwicklungsphasen. In Ländern, in denen die Wachstumsrate noch sehr hoch ist, wie derzeit in Deutschland, muss damit gerechnet werden, dass eine Sättigungsphase erst nach wesentlich höheren Fallzahlen eintritt.

Erläuterungen zu den Grafiken

In diesem Kapitel stellen wir die Grafiken vor, welche beim Aufrufen der einzelnen Länder über die Prognose Tabelle verfügbar sind.

Fallentwicklung + Fallentwicklung (logarithmisch)

Die ersten beiden Grafiken stellen die Zahlen der infizierten, verstorbenen und genesenen Personen über die Zeit jeweils linear und logarithmisch (zur Basis 2) dar und errechnet daraus auch die Anzahl der jeweils aktiven Fälle als Differenz zwischen den infizierten und den genesenen oder verstorbenen Fällen. Auf einer logarithmischen Skala erscheint exponentielles Wachstum linear, was momentan noch der Fall für die meisten Länder ist, welche noch nicht die Sättigungsphase erreicht haben. Wenn die Sättigung erreicht wird flacht die Anzahl der infizierten Fälle ab (wie im Graphen von Südkorea zu sehen ist).

Zu den deutschen Daten: Bei den logarithmisch dargestellten Fallzahlen sehen wir zwei größere Sprünge, die vermutlich durch eine Veränderung der Testmethodik- oder systematik verursacht sind und daher nicht unbedingt einem entsprechenden Sprung in den tatsächlichen Fallzahlen entsprechen.

Tägliche Neuinfektionen + Tägliche Todesfälle

Die nächsten beiden Graphiken zeigen die Anzahl der neuen Infektionen und Todesfälle auf einer linearen Skala. Es ist zu beachten, dass die Infektionen nur die tatsächlich getesteten und damit aufgedeckten Fälle widerspiegeln. Dies ist natürlich sehr abhängig von der Verfügbarkeit von Tests und der Teststrategie der jeweiligen Länder (breitflächiges Testen auch von mild/asymptomatischen Fällen reduziert die Dunkelziffer). Aufgrund der exponentiellen Entwicklung von epidemischer Ausbreitung ist selbst eine konstante oder leicht ansteigende Anzahl von Neuinfektionen ein gutes Zeichen, da die Basis der Anzahl von Infizierten stetig steigt bis ein saturiertes Wachstum erreicht ist.

Logarithmischer Wachstumstrend + Arithmetischer Wachstumsratentrend + Doppelt logarithmischer Wachstumsratentrend

Die nächsten drei Kurven basieren auf der theoretischen Grundlage von SIR (das einfachste Modell mit folgenden dynamischen Gruppen welchen Individuen angehören können: noch Gesunde/nicht-immune (susceptible), infizierte, oder geheilte/immune oder verstorbene (recovered)) oder SIS (in welchem sich keine lang-anhaltende Immunität entwickelt und es daher nur infizierte und noch gesunde gibt) Modellen zu Krankheitsausbreitungen.Für eine detaillierte Beschreibung der mathematischen Grundlagen verweisen wir auf den Abschnitt Mathematical Background (nur in Englisch verfügbar). Diese Modelle implizieren, dass die Veränderung des Logarithmus der Wachstumsrate der Infektionen linear von der Anzahl dieser Infektionen abhängt.Eine lineare Regression (in blau, mit Standardabweichung dargestellt durch rot-gestrichelte parallele Geraden) vergleicht die logarithmische und arithmetische Wachstumsrate der Neuinfektionen über die Anzahl der Gesamtinfektionen. Um den unterschiedlichen Wachstumsraten in den verschiedenen Ländern Rechnung zu tragen, haben wir verschiedenfarbige horizontale Geraden eingefügt, aus denen man den jeweiligen Wachstumsbereich entnehmen kann. Große Abweichungen von dieser Regressionsgeraden können Probleme oder systematische Veränderungen bei der Datenerfassung anzeigen. Je flacher die blaue Gerade ist, umso langsamer schwächt sich die Epidemie ab. Eine lineare Extrapolation sucht die Schnittstelle dieser Geraden mit der horizontalen Achse, um zu bestimmen, wie viele Infektionen insgesamt zu erwarten sind. Diese Extrapolation wird als Basis für die Infektionsprognose genutzt.

llerdings erkennt man auch, dass eine lineare Regression oftmals nicht gut geeignet, um die Daten zusammenzufassen, Ein offensichtlicher Grund kann in der Tatsache liegen, dass sich eine epidemische Ausbreitung typischerweise mit einer Zeitverzögerung von 6-7 Tagen stattfindet. Dies führt zu einer exponentiellen Streckung der entsprechenden Koordinatenachse. Daher benutzt die siebte Graphik auch eine logarithmische Skala für die Infektionszahlen. Wir sehen dann besser, für welche Länder eine lineare Regression sinnvoll ist.

Jedenfalls scheint es für Vorhersagen wichtig zu sein, den Zeitpunkt zu bestimmen, ab dem die Wachstumsrate unter die gelbe Grade (r<0.1) fällt. Wenn man die Zahlen aus China (wobei diese Daten wohl systematisch verfälscht sind) und Südkorea übertragen darf, wird die endgültige Fallzahl etwa zweieinhalbmal höher liegen als zu diesem Zeitpunkt. Vor diesem Zeitpunkt kann man wohl derzeit überhaupt keine einigermaßen verlässlichen Prognosen abgeben. Des Weiteren ist es bis jetzt noch unklar ob sich die Erkenntnisse der Ost-Asiatischen Länder auch auf andere übertragen lassen. Natürlich handelt es sich hierbei nur um sehr grobe Schätzung, die mit vielen Unsicherheiten behaftet ist, und nicht um eine zuverlässige Prognose. Insbesondere wird die tatsächliche Entwicklung auch von den getroffenen oder noch zu treffenden Maßnahmen zur Eindämmung der Epidemie und deren Durchsetzung und Einhaltung in der Bevölkerung abhängen.

Wir extrapolieren also nicht einfach die jeweilige Wachstumsrate, um beispielsweise zu prognostizieren, wie schnell sich die Anzahl der Infektionen verdoppelt. Wenn die derzeitigen Wachstumsraten konstant blieben, würde in den meisten Ländern in kurzer Zeit praktisch die gesamte Bevölkerung infiziert. Wir versuchen vielmehr, Regelmäßigkeiten in der Veränderung der Wachstumsrate zu erfassen. Es scheint allgemein der Fall zu sein, dass sich die Wachstumsrate nach einer starken Anfangsphase abschwächt und die Epidemie schließlich in eine Sättigungsphase übergeht, wo es nur noch zu relativ wenigen Neuinfektionen kommt. Unser statistisches Ziel ist es, bei der gegebenen Datenlage abzuschätzen, wann dies etwa der Fall sein wird und wie hoch bis dahin die Gesamtzahl der Infektionen sein wird.

Zu den deutschen Daten: Bei den doppeltlogarithmisch dargestellten Wachstumsraten (wo jeder Punkt einem Tag entspricht, aber auf der waagerechten Achse nicht die Tage, sondern die Logarithmen der Fallzahlen angegeben sind) sehen wir in den letzten Wochen zwei deutliche Sprünge nach unten. Wir vermuten, dass sich hier mit der erwarteten Zeitverzögerung von 7-10 Tagen jeweils die Wirksamkeit der deutschlandweit implementieren Schutzmaßnahmen und Regulierungen zeigt. Allerdings verharrt die Wachstumsrate dann jeweils etwa auf dem erreichten Niveau, anstatt von selbst weiter abzufallen. Dies muss als ungünstig bewertet werden.

Zeitliche Entwicklung der Todesrate

Der letzte Graph zeigt die Todesrate über die Zeit. Es sei nochmal darauf hingewiesen, dass Meldungen zwischen Ländern sich stark unterscheiden können. Einige Länder unterscheiden eventuell nicht zwischen Patienten die durch Corona oder nur mit einem positiven Testergebnis gestorben sind. Weiterhin ist es durchaus möglich, dass Todesraten zum Zwecke von politischer Propaganda systematisch lückenhaft dokumentiert werden.

Hinweis zur Datenqualität

Wir möchten auf einige Aspekte der Datenlage hinweisen, die sich bei unseren Analysen ergeben haben. Am Anfang der Epidemie sieht man in jedem Land starke Schwankungen und Abweichungen von der Regressionsgeraden. Dies liegt einfach an den kleinen Fallzahlen. Bei den chinesischen Daten sieht man in der Mitte plötzlich einen starken Sprung nach oben. Dieser scheint aber nicht durch einen derart großen plötzlichen Anstieg der tatsächlichen Fallzahlen, sondern durch eine veränderte Datenerfassung begründet zu sein. Überhaupt fallen die chinesischen Daten durch einen statistischen Normalitätstest und sind daher wohl nicht vertrauenswürdig. Wir gehen davon aus, dass die tatsächlichen Infektions- und Todeszahlen dort erheblich, möglicherweise sogar um mindestens eine Größenordnung höher sind als offiziell angegeben.

Die Testdichte und die Zuordnung der Testergebnisse ist in den einzelnen Ländern sehr unterschiedlich, so dass die Anzahlen der jeweils infizierten Personen nicht ohne Weiteres miteinander verglichen werden können. Viele Infizierte werden also nicht erfasst, und der Anteil variiert von Land zu Land. Es kann auch sein, dass in bestimmten Ländern die offiziellen Daten durch politische Manipulationen verfälscht sind. Selbst bei der Anzahl der berichteten Todesfälle gibt es wohl Unterschiede zwischen den Ländern, denn bei Patienten mit Vorerkrankungen kann die Todesursache unterschiedlich diagnostiziert und diese somit nicht als COVID-19 Opfer gezählt werden. Vielleicht werden in manchen Ländern auch nur die in Krankenhäusern Verstorbenen erfasst. Außerdem ist bei der Interpretation der statistischen Daten zu beachten, dass typischerweise ein längerer Zeitraum zwischen einer Infektion und dem Tod eines Patienten vergeht. Aktuelle Zahlen zu Todesfällen sind daher mit früheren und weniger mit derzeitigen Infektionszahlen korreliert. In manchen Ländern sehen wir einen plötzlichen Sprung in den Todeszahlen, vielleicht weil das jeweilige medizinische System an seine Grenzen gestoßen ist.

Erklärungsbedürftig sind vor allem die unterschiedlichen Todesraten in den verschiedenen Ländern. In einigen Ländern, beispielsweise in Deutschland oder den skandinavischen Ländern, sind diese recht niedrig, während sie insbesondere in Italien sehr hoch ausfallen. Die Gründe für diese Unterschiede sind vermutlich vielfältig. Erstens kann es sein, dass jeweils verschiedene Bevölkerungsgruppen hauptsächlich von Infektionen erfasst werden, überwiegend ältere in Italien, während es sich in Mittel- und Nordeuropa hauptsächlich um aus dem Skiurlaub heimkehrende Touristen handelt. Des Weiteren haben vermutlich größere Sportveranstaltungen und Festlichkeiten dazu beigetragen Infektionswellen in einigen Ländern auszulösen. Zweitens kann es sein, dass in manchen Ländern die Infektionszahlen deutlich unterschätzt werden. Drittens kann es sein, dass, wie schon angesprochen, nicht in allen Ländern alle Todesfälle erfasst werden, aus welchen Gründen auch immer. Wie gesondert dargestellt, sehen wir den beunruhigenden allgemeinen Trend, dass die Mortalitätsrate im Laufe der Epidemie ansteigt.

Auch die Zahlen der Genesenen sind vermutlich nicht akkurat, denn Krankenhäuser melden oft keine Entlassungen an die Behörden und die zuhause gesund Gewordenen werden sich meist auch nicht melden. Daher ist es möglich, dass die Epidemie schon unter Kontrolle ist, bevor die offizielle Zahl der aktiven Fälle Null erreicht.

Aus diesen und weiteren Gründen sind die aus China, wo die Epidemie angeblich unter Kontrolle ist, offiziell gemeldeten Zahlen für die Prognose für andere Länder nur bedingt geeignet.

Auch die Ausbreitung kann sich sehr unterschiedlich vollziehen, weil die sozialen Kontaktnetzwerke, über die Ansteckungen laufen, sehr heterogen sein können. In Südkorea hat sich der Virus anscheinend hauptsächlich in einer religiösen Sekte ausgebreitet, innerhalb derer die Kontakte sehr hoch waren, so dass es dort zu einer schnellen Ausbreitung kam, während die Kontakte nach außen viel geringer waren, so dass die Infektion auf diese Gruppe beschränkt werden konnte. In China konnte die Epidemie, durch strikte Unterbindung aller Kontakte nach außen, im Wesentlichen auf die Provinz Hubei beschränkt werden. In den skandinavischen Ländern sieht man zwei Spitzen bei den Infektionszahlen, was darauf hindeutet, dass es dort zwei verschiedene Ausbreitungswellen gegeben hat. Entweder hat sich ähnlich wie in Südkorea die Infektion zunächst nur innerhalb einer bestimmten Gruppe vermehrt und ist dann erst später in andere Bevölkerungssegmente eingedrungen, oder es hat eine, von der ersten unabhängige, zweite Infektionswelle gegeben. In anderen Ländern haben vielleicht auch Festivals, Fußballspiele oder anderer Großereignisse eine plötzliche Verschärfung der Epidemie bewirkt. Netzwerkausbreitungsmodelle müssen also insbesondere Netzwerkheterogenitäten Rechnung tragen.


Bei Problemen oder Fehlern wenden Sie sich bitte an:
Heiko Schinke (Telefon: +49 - 341 - 9959 692, email)