Statistik in der Krebsepidemiologie
In diesem Artikel werden die epidemiologischen Maßzahlen und die statistischen Verfahren erläutert. Die epidemiologischen Maßzahlen ermöglichen Berechnungen auf den über die anwendungsspezifische Datenbankschnittstelle von der Datenbank gelieferten Bevölkerungs- und Fallzahlen. Im Bereich der deskriptiven Statistik umfaßt dies im wesentlichen die Ermittlung von — ggf. alters- und geschlechtsstandardisierten — Raten und Risiken. Nachfolgend werden alle realisierten Maße und Verfahren vorgestellt.
Für Auswertungen über der Falldatenbasis stehen verschiedene epidemiologische Maßzahlen zur Verfügung, die aus Bevölkerungs- und Fallzahlen abgeleitet sind. Diese werden über die anwendungsspezifische Datenbankschnittstelle aus der Datenbank abgefragt. Mit Fallzahlen sind im Folgenden beliebige Daten gemeint, über die epidemiologische Auswertungen durchgeführt werden sollen, zum Beispiel Fälle aus der Mortalitätsstatistik, Neuerkrankungsfälle eines epidemiologischen Registers oder im Rahmen der Schuleingangsuntersuchungen untersuchte Schüler (also durchaus auch gesunde Kinder) die räumlich statistisch untersucht werden sollen.
Zusätzlich zu den von der Datenbank zur Verfügung gestellten Maßen Bevölkerungszahl und Fallzahl werden rohe Raten und relative Risiken, direkt standardisierte und kumulative Raten, CMF bzw. CIF, SMR bzw. SIR und indirekt standardisierte Raten berechnet. Standardisierungen können auf den internen Standard (auf die im Untersuchungsgebiet ausgewählte Studienpopulation,zum Beispiel ein Bundesland) oder auf einen externen Standard (die Bevölkerung der Welt, Europas oder Deutschlands von 1987 sowie eine gestutzte Weltbevölkerung) erfolgen.1 Der externe Standard steht aufgrund fehlender Fallzahlen allerdings nur für eine direkte Standardisierung zur Verfügung. Im Gegensatz zur Standardpopulation wird im folgenden die für eine Auswertung ausgewählte Teilregion des gesamten Untersuchungsgebietes als Studienpopulation bezeichnet.
Im Abschnitt Elementare statistische Begriffe werden zunächst einige elementare statistische Begriffe eingeführt. Die oben aufgezählten Maßzahlen werden in Abschnitt Maßzahlen exakt definiert und anschaulich beschrieben. Außerdem werden für die berechneten Maßzahlen die Formeln für die Grenzen der beidseitigen Konfidenzintervalle angegeben. Für die angegebenen Formeln werden die in der unteren Tabelle aufgeführten Bezeichnungen gewählt. Es ist zu beachten, dass die Berechnung stets auf der Dimensionsauswahl der zugrunde liegenden Untersuchung und auf der in der Auswertung vorgenommenen Klassifizierung beruht. Die Aggregierung über die Altersgruppen und Geschlechter (bei optional ausgewählter Geschlechtsstandardisierung) erfolgt stets über alle in der Dimensionsauswahl ausgewählten Alters-(und ggf. Geschlechts-)Knoten. Insbesondere ist bei Verwendung von Adhoc-Knoten in Alters-(und ggf. Geschlechts-)Dimensionen Vorsicht ist geboten, wenn altersstandardisierende Verfahren verwendet werden. Die Alters- (und ggf. Geschlechtsknoten) sollten sich in diesem Fall nicht überlappen. Außerdem sollte die Altersdimension nicht als Klassifizierungsmerkmal (zum Beispiel als Zeilenüberschrift einer Tabelle) in eine Auswertung mit altersstandardisierten Raten aufgenommen werden, eine solche Darstellung kann zu Missverständnissen führen (jede Altersgruppe enthält dann dasselbe Ergebnis) – gleiches gilt ggf. für die Geschlechtsdimension.
Variable | Beschreibung |
---|---|
\(A\) | Betrachtete Teilmenge der Menge \(A^{*}\) aller Altersgruppen (undefiniertes Alter, 0 bis 4 Jahre, 5 bis 9 Jahre, …). |
\(A'\) | Die Menge \(A\) ohne Altersgruppe mit offener Obergrenze und ohne Altersgruppe mit undefiniertem Alter. |
\(a\) | Menge mit einer Altersgruppe; jeweils der aktuelle Index bei Summen, die über \(A\) bzw. \(A'\) laufen. |
\(t_a\) | Größe der Altersgruppe \(a\) in Jahren (z. B. \(a = { 0 - 4 } \Rightarrow t_a = 5\)). |
\(R\) | Betrachtete Teilmenge der Menge \(R^{*}\) aller Regionen im untersuchten Gebiet, also die Studienregion. |
\(G\) | Betrachtete Teilmenge der Menge \(G^{*}\) aller Geschlechter (männlich, weiblich, undefiniert). |
\(g\) | Menge mit einem Geschlecht; jeweils aktueller Index bei Summen über \(G\). |
\(Z\) | Betrachtetes Zeitintervall. |
\(l_Z\) | Länge des Zeitintervalls \(Z\) in Jahren. |
\(Q_{\alpha}\) | Das \(( 1 - \alpha / 2 )\)–Quantil der Standard–Normalverteilung; \(\alpha \in \left[ 0, 1 \right]\). |
\(n\) | Rohe Bevölkerungszahl der Studienpopulation. |
\(N\) | Rohe Bevölkerungszahl der Standardpopulation. |
\(d\) | Rohe Fallzahl der Studienpopulation. |
\(D\) | Rohe Fallzahl der Standardpopulation. |
\(r\) | Rohe Rate der Studienpopulation, angegeben in Fällen auf 100000 Personen in einem Jahr. |
\(R\) | Rohe Rate der Standardpopulation, angegeben in Fällen auf 100000 Personen in einem Jahr. |
\(e\) | Für die Studienpopulation aufgrund der Daten der Standardpopulation erwartete Rate . |
\(KI(x)\) | Zweiseitiges Konfidenzintervall der Maßzahl \(x\) zum Konfidenzniveau \(1 - \alpha\). |
\(f\) | Die für die Studienpopulation aufgrund der Daten der Standardpopulation erwartete Fallzahl. |
Elementare statistische Begriffe
Das die Begriffe p–Quantil und p–Wert sowie Konfidenzintervalle im folgenden noch häufiger verwendet werden, sollen sie in diesem Abschnitt formal definiert werden.
Das p–Quantil
Das \(p\)–Quantil bildet quasi — exakt nur im stetigen Fall — die Umkehrfunktion zur Verteilungsfunktion. Es ist nach [LW92] wie folgt definiert:
Seien \(x_{(1)}, \ldots, x_{(n)}\) eine geordnete Meßreihe und \(p\) eine reelle Zahl mit \(0 < p < 1\), so bezeichnet das p–Quantil den Meßwert \(x_p\) in der Meßreihe, für den mindestens \(p \cdot 100\%\) der Meßwerte nicht größer und mindestens \((1-p) \cdot 100\%\) nicht kleiner sind. D.h., falls np ganzzahlig ist:
und falls np nicht ganzzahlig ist:
wobei \(\lfloor a \rfloor\) die größte ganze Zahl bezeichnet, die nicht größer als \(a\) ist.
Analog wird das p–Quantil einer Zufallsvariablen $X$definiert: Sei \(F\) die Verteilungsfunktion von \(X\). Dann heißt die Zahl
p–Quantil von \(X\). Falls \(F\) streng monoton wachsend und stetig ist, ist \(x_p\) eindeutig bestimmt durch \(F(x_p) = p\).
Die p–Quantile \(x_p\) der Standardnormalverteilung \(N(0,1)\) wie sie als konstante Werte implementiert sind, können der folgenden Tabelle entnommen werden.
Variable | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|
\(p\) | 0,500 | 0,505 | 0,510 | 0,515 | 0,520 | 0,525 | 0,530 | 0,535 | 0,540 | 0,545 |
\(x_p\) | 0,000 | 0,013 | 0,025 | 0,038 | 0,050 | 0,063 | 0,076 | 0,088 | 0,100 | 0,113 |
\(p\) | 0,550 | 0,555 | 0,560 | 0,565 | 0,570 | 0,575 | 0,580 | 0,585 | 0,590 | 0,595 |
\(x_p\) | 0,126 | 0,139 | 0,151 | 0,164 | 0,176 | 0,189 | 0,202 | 0,215 | 0,228 | 0,241 |
\(p\) | 0,600 | 0,605 | 0,610 | 0,615 | 0,620 | 0,625 | 0,630 | 0,635 | 0,640 | 0,645 |
\(x_p\) | 0,253 | 0,267 | 0,280 | 0,293 | 0,306 | 0,319 | 0,332 | 0,345 | 0,358 | 0,372 |
\(p\) | 0,650 | 0,655 | 0,660 | 0,665 | 0,670 | 0,675 | 0,680 | 0,685 | 0,690 | 0,695 |
\(x_p\) | 0,385 | 0,399 | 0,413 | 0,417 | 0,440 | 0,454 | 0,468 | 0,482 | 0,496 | 0,510 |
\(p\) | 0,700 | 0,705 | 0,710 | 0,715 | 0,720 | 0,725 | 0,730 | 0,735 | 0,740 | 0,745 |
\(x_p\) | 0,524 | 0,539 | 0,554 | 0,568 | 0,583 | 0,598 | 0,613 | 0,628 | 0,643 | 0,659 |
\(p\) | 0,750 | 0,755 | 0,760 | 0,765 | 0,770 | 0,775 | 0,780 | 0,785 | 0,790 | 0,795 |
\(x_p\) | 0,674 | 0,690 | 0,706 | 0,723 | 0,739 | 0,756 | 0,772 | 0,789 | 0,807 | 0,824 |
\(p\) | 0,800 | 0,805 | 0,810 | 0,815 | 0,820 | 0,825 | 0,830 | 0,835 | 0,840 | 0,845 |
\(x_p\) | 0,842 | 0,860 | 0,878 | 0,897 | 0,916 | 0,935 | 0,954 | 0,974 | 0,995 | 1.015 |
\(p\) | 0,850 | 0,855 | 0,860 | 0,865 | 0,870 | 0,875 | 0,880 | 0,885 | 0,890 | 0,895 |
\(x_p\) | 1,036 | 1,058 | 1,080 | 1,103 | 1,127 | 1,151 | 1,175 | 1,200 | 1,226 | 1,254 |
\(p\) | 0,900 | 0,905 | 0,910 | 0,915 | 0,920 | 0,925 | 0,930 | 0,935 | 0,940 | 0,945 |
\(x_p\) | 1,282 | 1,311 | 1,341 | 1,372 | 1,405 | 1,440 | 1,476 | 1,514 | 1,555 | 1,598 |
\(p\) | 0,950 | 0,955 | 0,960 | 0,965 | 0,970 | 0,975 | 0,980 | 0,985 | 0,990 | 0,995 |
\(x_p\) | 1,645 | 1,695 | 1,750 | 1,812 | 1,881 | 1,960 | 2,054 | 2,170 | 2,327 | 2,576 |
\(p\) | 0.9990 | 0.9995 | 0.9999 | 1.0000 | ||||||
\(x_p\) | 3,090 | 3,291 | 3,719 | ∞ |
Für Werte für \(p\), die in der Tabelle nicht aufgeführt sind, wird gerundet in der Weise, dass das ermittelte Quantil größer als das wirkliche Quantil ist. So gilt beispielsweise \(x_{0,901} = 1,311 = x_{0,905}\).
Weitere Quantile erhält man durch die Beziehung \(x_p = - x_{1-p}\) für \(0 \le p \le 0,5\). In diesen Fällen bewirkt die Rundung, dass die ermittelten p–Quantile kleiner oder gleich dem wirklichen p–Quantil sind.
Offensichtlich gilt \(Q_{\alpha} = x_{1 - \alpha /2}\). Somit ist \(Q_{\alpha}\) der Wert, für den die Wahrscheinlichkeit, dass der Betrag einer standardnormalverteilten Zufallsvariablen einen Wert \(K > Q_{\alpha}\) annimmt, \({\alpha}\) beträgt.
Aus den Quantilen der Standardnormalverteilung lassen sich auch allgemein die Quantile $x_p(\mu, \sigma^2)$der Normalverteilung mit dem Erwartungswert \(\mu\) und der Varianz \(\sigma^2\) bestimmen. Es gilt nach [HEK91,S.147]:
Die Werte \(\Phi(x)\) der Verteilungsfunktion der Standardnormalverteilung sind ebenfalls unter Verwendung dieser Tabelle realisiert, so dass sie ebenfalls nur näherungsweise zur Verfügung stehen. Dabei erfolgt das Ablesen in der Weise, dass \(\Phi(x_p) = p\) gilt, wenn \(x_p\) das p–Quantil ist, also beispielsweise \(\Phi(1,127) = 0,87\). Die Näherung bewirkt bei Werten \(x\ge 0\), dass der ermittelte Wert \(\Phi(x)\) für die Verteilungsfunktion kleiner oder gleich dem wirklichen Wert ist. So gilt zum Beispiel \(\Phi(1,900) = 0,970 = \Phi(1,881)\). Für Werte \(x \le 0\) gilt die Beziehung \(\Phi(-x) = 1 - \Phi(x)\), so dass dann der ermittelte Wert größer oder gleich dem wirklichen Wert ist.
Die Verteilungsfunktion der Normalverteilung \(N(\mu, \sigma^2)\) läßt sich auf die Verteilungsfunktion der Standardnormalverteilung zurückführen (nach [HEK91,S.145]):
Die Dichte einer Normalverteilung \(N(\mu, \sigma^2)\) ist nach [HEK91,S.143] gegeben durch die Funktion
Die Quantile der \(\chi^2\)–Verteilung werden entsprechend der Approximation nach Wison und Hilferty [HEK91,S.894] auf die Quantile der Standardnormalverteilung zurückgeführt. Für die Quantile \(\chi^2_{n,p}\) der \(\chi^2_n\)-Verteilung (also mit \(n\) Freiheitsgraden) gilt:
Im Fall \(n = 1\) entspricht eine \(\chi^2\)–verteilte Zufallsvariable einer quadrierten Normalverteilten Zufallsvariablen, sodass (nach [LW92 S.157]) gilt:
Die Verteilungsfunktion der \(\chi^2\)-Verteilung wird approximiert durch Zurückführung auf die Verteilungsfunktion der Standardnormalverteilung:
Bei nur einem Freiheitsgrad gilt:
Die Dichte der \(\chi^2\)-Verteilung ist nach [HEK91,S.152] gegeben durch
Die Gammafunktion \(\Gamma\) ist dabei wie folgt definiert:
Die benötigten Werte der Gammafunktion lassen sich iterativ bestimmen, denn es gilt
und außerdem \(\Gamma(1) = 1\) und \(\Gamma(\frac{1}{2}) = \sqrt{\pi}\).
Die Verteilungsfunktion einer Binomialverterteilung mit der Anzahl der Versuchen n und der Trefferwahrscheinlichkeit p ist als Summe der Einzelwahrscheinlichkeiten nach [HEK91,S.110]
Für ausreichend großes n \(\left(\text{Faustregel }np(1-p)\ge p \right)\) lässt sich die Binomialverteilung durch eine Normalverteilung \(N(np,np(1-p))\) approximieren [HEK91,S.201]:
Die Verteilungsfunktion der Poisson-Verteilung mit dem Parameter \(\lambda\) ist nach [HEK91,S.213] für \(k\in\N_0\) durch
gegeben. Für hinreichend grosses n lässt sich die Binomialverteilung nach [HEK91,S.122] gut durch eine Poissonverteilung mit Parameter \(\lambda=n*p\) approximieren.
Zwischen der Poissonverteilung und der \(\chi^2\)–Verteilung besteht folgender Zusammenhang (siehe [HEK91,S.214]):
Für hinreichend große \(\lambda\) (etwa \(\lambda \ge 9\)) lässt sich die Poisson-Verteilung nach [HEK91,S.213] auch durch die Normalverteilung \(N(\lambda, \lambda)\) approximieren:
Konfidenzintervalle
Für alle beobachteten Maßzahlen außer der rohen Bevölkerungszahl wird ein zweiseitiges Konfidenzintervall um den beobachteten Wert betrachtet. Konfidenzintervalle zu einem Konfidenzniveau \(1 - \alpha\) (z. B. mit \(\alpha = 5\%\)) geben immer einen Bereich von Werten an, der mit der Wahrscheinlichkeit von \((1 - \alpha)\) den wahren Wert2 der jeweiligen Maßzahl überdeckt.3 Liegt der aufgrund der Betrachtung der Standardbevölkerung erwartete Wert nicht im Konfidenzintervall des beobachteten Wertes, so liegt eine Auffälligkeit vor. Generell gilt, dass mit \([0, 0]\) das Konfidenzintervall eines Wertes \(0\) angegeben wird.4
Überlebenszeitanalyse
Für die Schätzung von Langzeitüberleben von Krebspatienten wird der Ansatz der Periodenanalyse benutzt, der im R-Paket periodR implementiert ist. Die Methode ermöglicht ebenfalls Berechnungen nach dem Kohortenansatz.
Das Verfahren basiert auf denselben Berechnungen, die auch für die Berechnungen der Sterbetafeln herangezogen werden. Dazu werden die in 1-Jahres-Abständen nach der Diagnose ermittelten bedingten Überlebensraten verrechnet, um die kumulativen absoluten und relativen Überlebenswahrscheinlichkeiten zu erhalten, die ausschließlich Überlebensverhältnisse der Patienten der jüngsten Kalenderperioden reflektieren, für die fortgeschriebene Inzidenz- und Mortalitätzahlen zur Verfügung stehen.
Maßzahlen
Im folgenden werden nun die bereits erwähnten Maßzahlen definiert und kurz erläutert. Zudem werden die Formeln angegeben, mit denen die zugehörigen Konfidenzintervalle bestimmt werden, falls diese für eine Maßzahl definiert sind.
Fällt bei einer Summierung über alle Altersgruppen eine Altersgruppe aus (bei Berechnung der kumulativen Rate oder der direkt standardisierten Rate sowie deren Konfidenzintervalle; außerdem bei Berechnung der erwarteten Rate in Formel (25), so wird diese ausgelassen (der jeweilige Summand wird also als 0 angesehen). Gleiches gilt für die Summierung über das Geschlecht (ebenfalls bei der Berechnung der direkt standardisierten Rate und der erwarteten Rate).
Bei der Berechnung von roher Rate, DCO-Rate und M/I sind diese Maßzahlen bei einer Division 0/0 als 0 definiert, SMR, CMF und relatives Risiko sind in dem Fall als 1 definiert. Konfidenzintervalle sind dann jedoch nicht definiert.
Für verschiedene Maßzahlen lassen sich Referenz–Maßzahlen (die zum Vergleich mit der Masszahl herangezogen wird) und Risiko–Maßzahlen (die durch den Vergleich von Maßzahl und Referenz-Maßzahl ein Fallrisiko quantifiziert, i.d.R. Quotient aus Maßzahl und Referenz-Maßzahl) bestimmen. Ob und wie diese für die einzelnen Maßzahlen definiert sind, ist den beiden folgenden Tabellen zu entnehmen. Dabei kennzeichnet (S), dass die Maßzahl für das Studiengebiet oder eine Teilregion zu berechnen ist, während (U) — je nachdem, worauf standardisiert wird — das gesamte aktuelle Untersuchungsgebiet oder die gesamte Studienregion bezeichnet. Die obere Tabelle bezieht sich dabei auf interne Maße, d.h. als Standardpopulation wird das gesamte Untersuchungsgebiet verwendet (z.B. die Einwohner/Fall-Daten von Niedersachsen, wenn (Teil-)Gemeinden/Landkreise als Studienregion betrachtet werden). Die untere Tabelle bezieht sich auf externe Maße, d.h. als Standardpopulation wird eine externe Population verwendet (z.B. Einwohner/Fall-Daten von Deutschland/der Welt/Prädiktionen basierend auf älteren Daten aus Niedersachsen). Auf die Zuordnung dieser Maße wird in verschiedenen Auswertungen, insbesondere auch zur Beurteilung von Signifikanzen mit Hilfe von Konfidenzintervallen und den jeweiligen Referenz–Maßen, zurückgegriffen.
Maßzahl (S) | Referenz–Maß | Risiko–Maß |
---|---|---|
Population | Population (U) | – |
Personenjahre | Personenjahre (U) | – |
Rohe Fallzahl | Erwartete Fallzahl (S) | SMR |
Rohe Rate | Erwartete Rate (S) | SMR |
Relatives Risiko | – | – |
DMDR (direkt stand. Mort.rate) | Rohe Rate (U) | CMF |
Kumulative Rate | Kumulative Rate (U) | Relatives Kumulatives Risiko |
CMF (kumul. Mort.verhältnis) | – | – |
SMR (stand. Mort.verhältnis) | – | – |
IMDR (indirekt stand. Rate) | Rohe Rate (U) | SMR |
M/I (Mort./Inz.) | M/I (U) | – |
Fälle o.n.A. | – | – |
Maßzahl (S) | Referenz–Maß | Risiko–Maß |
---|---|---|
Population | – | – |
Personenjahre | – | – |
Rohe Fallzahl | Rohe Fallzahl (U) | Relatives Risiko |
Rohe Rate | Rohe Rate (U) | Relatives Risiko |
DMDR | DMDR (U) | - |
Kumulative Rate | kumulative Rate (U) | Relatives Kumulatives Risiko |
Bevölkerungszahl
Die rohe Bevölkerungszahl \(n\) gibt die Anzahl der Einwohner an. Somit ist diese Maßzahl unabhängig von der Zahl der aufgetretenen Fälle. Aus der Datenbank können für einzelne Jahre Bevölkerungszahlen direkt abgefragt werden. Bei einem Zeitintervall über mehrere Jahre wird als Bevölkerungszahl der Mittelwert der Bevölkerungszahlen der überdeckten Jahre angegeben. Wird ein Zeitintervall wie z. B. 4. Quartal 1990 bis einschließlich 2. Quartal 1992 verlangt, so werden die Bevölkerungszahlen der drei Jahre von 1990 bis 1992 aufsummiert, und anschließend wird durch drei, die Anzahl der Jahre, dividiert.
Entsprechend gibt \(N\) die rohe Bevölkerungszahl für die gewählte Standardbevölkerung an. Für den externen Standard ist diese Maßzahl in der Regel unabhängig von der Zeit \(Z\).
Personenjahre
Die Personenjahre \(pj\) werden durch Multiplikation der rohen Bevölkerungszahl mit der Länge des Zeitintervalls Z in Jahren bestimmt:
Somit ist diese Maßzahl ebenfalls unabhängig von den Fallzahlen. Mit
werden die Personenjahre für die gewählte Standardbevölkerung bezeichnet.
Anteile
Mit Anteil Alter Personenjahre, Anteil Geschlecht Personenjahre und Anteil Gebiete werden die
Anteile von Altersgruppen, Geschlechtern oder Regionen an den Personenjahren angegeben. Die Anteile sind folgendermaßen definiert:
Anteil Alter Personenjahre:
Anteil Geschlecht Personenjahre:
Anteil Gebiete Personenjahre:
Dabei sind \({pj}_A,{pj}_G\) und \({pj}_R\) jeweils die Personenjahre eingeschränkt auf das jeweilige Alter,Geschlecht oder die jeweilige Region.
Fallzahl
Die rohe Fallzahl \(d\) gibt die Anzahl der Fälle an. Diese Maßzahl wird, ebenso wie die rohe Bevölkerungszahl, von der Datenbank zur Verfügung gestellt.
Gehen wir davon aus, dass in jeder einzelnen Personengruppe (nach Alter und ggf. nach Geschlecht getrennt) pro Personenjahr die gleiche (unbekannte) Fallwahrscheinlichkeit herrscht, liegt eine Binomialverteilung vor. Approximieren wir diese nach (17) mit einer Poissonverteilung, können wir die Fallzahlen über mehrere Altersgruppen und Geschlechtsgruppen (in diesem Fall alle Altersgruppen in A) hinweg als Summe poissonverteilter Zufallsvariablen ebenfalls als poissonverteilt annehmen. Mit dieser Annahme und der Beziehung zwischen \(\chi^2\)–Verteilung und Poissonverteilung (18) bekommt man für das Konfidenzintervall $ KI \left( d \right) = [L,U] $ die Grenzen
und
Durch die Approximation der Quantile nach (6) ergeben sich folgende Formeln für das Konfidenzintervall:
sowie
Die rohe Fallzahl der gewählten Standardbevölkerung wird mit \(D\) bezeichnet. Dieser Wert ist für den externen Standard nicht definiert.
Patienten
Patienten \(\delta\) gibt die Anzahl der Patienten an. Zu jeder Inzidenz existiert genau ein Patient, bei einem Patienten können aber mehrere Inzidenzen auftreten. Auch diese Zahl wird von der Datenbank zur Verfügung gestellt.
HV-Anteil
Der HV-Anteil ist der Anteil der Fälle mit histologisch gesicherter Diagnose:
wobei \(h\) die Anzahl der Fälle mit histologisch gesicherter Diagnose beschreibt.
Mittleres Alter Inzidenz/Mortalität
Es soll das arithmetische Mittel des Alters berechnet werden, das den jeweiligen Fällen zugeordnet ist.. Wird das Alter in Gruppen zu je 5 Jahren angegeben (Mortalität EKN), wird das Alter für den einzelnen Fall jeweils durch den Mittelwert der jeweiligen Gruppe geschätzt:
wobei
den Mittelwert der Gruppe a beschreibt. Dabei ist \(x_a^{o}\) die obere Grenze der Altersgruppe und \(x_a^{u}\) die untere Grenze der Altersgruppe. Zum Beispiel ist \(x_a^{u}=30\) und \(x_a^{o}=35\) für die Altersgruppe \(a=\)"30-34". In der Altersgruppe \(a=\)"85+" zählt der Mittelwert als \(\bar{x}_a=92\) und in der Gruppe \(a=\)"unbekannt" als \(\bar{x}_a=65,5\).
Wird das Alter in Gruppen zu je einem Jahr angegeben (Mortalität NLS,Inzidenz), also \(A^\prime=\{0,\dots,130\}\), wird jeweils direkt die Altersangabe verwendet :
Altersmedian Inzidenz/Mortalität
Der Median soll das Alter angeben, sodass der Hälfte aller Fälle ein höheres Alter zugeordnet ist, sowie der anderen Hälfte der Fälle ein niedrigeres. Ordnet man also alle \(d\) Fälle ihrem Alter entsprechend wäre der Median idealerweise das Alter des Falls, der genau in der Mitte liegt. Wird das Alter in Gruppen zu je 5 Jahren angegeben (Mortalität EKN), kann lediglich die Gruppe angegeben werden, in der das Alter liegt. Um trotzdem eine möglichst genaue Schätzung zu erhalten, verwenden wir folgende Formel (nach [HK08,S.113]):
wobei \(m\) die Altersgruppe ist, ab der die Hälfte der Fallzahlen überschritten wird, also die Altersgruppe, die den Median enthält:
mit \(d_a\) der Fallzahl innerhalb von Gruppe a. Der Vergleich \(a\le\tilde{a}\) bezieht sich dabei auf die Anordnung der Altersgruppen, z.B. gilt "30-34"\(<\)"55-59". Durch diese Anordnung ist ebenfalls das Minimum eindeutig bestimmt.
Desweiteren bezeichnet \(H_{m-1}\) die kumulierten Fallzahlen bis (ausschließend) Gruppe \(m\):
Bei \(x_m^{o}\) und \(x_m^{u}\) handelt es sich um die untere und obere Grenze der Altersgruppe \(m\) (z.B. \(x_m^{u}=30\) und \(x_m^{o}=35\), falls \(m=\)"30-34").
Wird das Alter in Gruppen zu je einem Jahr angegeben (Mortalität NLS,Inzidenz), also \(A^*=\{0,\dots,130\}\), wird jeweils direkt die Altersangabe verwendet. Falls die Anzahl der Gesamtfälle \(d\) ungerade ist, wird der Wert in der Mitte verwendet:
Ist \(d\) gerade, wird eventuell ein Mittelwert gebildet. Dies hängt davon ab, ob die Grenze zwischen der Fallzahlhälften mit dem höheren und dem niedrigeren Alter zwischen zwei Altersgruppen oder innerhalb einer Altersgruppe liegt. Liegt sie innerhalb einer Altersgruppe, ist das Alter dieser Gruppe der Median, welcher nach (30) berechnet wird. Liegt die Grenze zwischen zwei Gruppen, wird der Mittelwert zwischen den Alter der mittleren Altersgrupen (welche Fallzahlen aufweisen) gebildet: Mit
und
ist der Median:
Prävalenz
Mit der Prävalenz \(v\) wird die Anzahl der aktuellen Krebsfälle angegeben. Sie berechnet sich aus der Inzidenz-Fallzahl und den jeweiligen zugeordneten Sterbedaten.
Es bezeichne \(d_{J,S}\) die Fallzahl für die Inzidenz im Jahr J mit zugehörigem Sterbejahr S. Die 1-Jahres Prävalenz (im Jahr J) ist
also die Anzahl der Neuerkrankungen im Jahr \(J\), in denen die zugehörigen Patienten nicht innerhalb des selben Jahres verstorben sind. Dabei wird für
\(S=Unbekannt\) in jedem Fall \(S> J\) angenommen.
Die k-Jahres Prävalenz ist definiert durch
also die Anzahl der Neuerkrankungen in den \(k\) Jahren bis (einschliesslich) Jahr \(J\), die nicht bis (einschliesslich) zum Jahr \(J\) gestorben sind. In "Prävalenz Patienten" wird statt der Fallzahl die Patientenzahl verwendet, sodass hier die Anzahl der aktuell erkrankten Patienten an der Bevölkerung angegeben wird.
Rohe Rate
Die rohe Rate \(r\) bezeichnet die Anzahl der Fälle bezogen auf die betrachtete Bevölkerung. Die Rate wird in Fällen auf 100.000 Personen in einem Jahr angegeben:
Das zugehörige Konfidenzintervall wird analog zur Vorgehensweise bei der rohen Fallzahl wie folgt ermittelt:
Analog wird die rohe Rate der Standardbevölkerung berechnet:
Prävalenz Rate
Die Prävalenz Rate \(rv\) bezieht die Anzahl der aktuellen Krebsfälle auf die betrachtete Bevölkerung. Die Rate wird umgerechnet auf 100000 Personen angegeben:
In "Prävalenz Patienten Rate" wird statt der Fallzahl die Patientenzahl verwendet, sodass hier der Anteil der aktuell erkrankten Patienten angegeben wird.
Erwartete Fallzahl
Die für die Studienpopulation aufgrund der Daten der Standardpopulation erwartete Fallzahl wird durch Umrechnung der rohen Raten der Standardpopulation auf die Alterstruktur der Studienpopulation bestimmt:
In "Erwartete Fallzahl geschlechtsstandartisiert" wird zusätzlich das Geschlecht berücksichtigt:
Die erwartete Fallzahl kann über die erwartete Rate berechnet werden:
Erwartete Rate
Für die Studienpopulation aufgrund der Daten der Standardpopulation erwartete Rate. Die Raten der Standardpoulation werden auf die Altersstruktur der Studienpopulation umgerechnet und ist in Fällen pro 100000 Einwohner in einem Jahr angegeben:
In "Erwartete Rate geschlechtsstandartisiert" wird zusätzlich das Geschlecht berücksichtigt:
Die erwartete Rate kann über die erwartete Fallzahl berechnet werden
Rohes relatives Risiko
Das relative Risiko bezeichnet das Verhältnis der Raten in Studien- und Standardpopulation, wobei unterschiedliche Altersverteilungen nicht berücksichtigt werden:
Das zugehörige Konfidenzintervall ermittelt man anhand der nachfolgenden Formel, wobei die Vorgehensweise analog ist zu der Vorgehensweise beim SMR (40):
Direkt standardisierte Rate
Durch Alters- und Geschlechtsstandardisierung der rohen Rate wird die direkt standardisierte Rate ermittelt, die auch als DMDR (direct method death rate) oder SDR (standard death rate) bezeichnet wird. Die direkte Standardisierung stellt hierbei ein Verfahren dar, das die altersspezifischen Raten der Studienpopulation gemäß der Alters- und Geschlechtsstruktur der Standardpopulation in einer gewichteten Summe zusammenfaßt. Die Rate der Studienpopulation wird also auf die Alters- und Geschlechtsverteilung der Standardpopulation umgerechnet:
Die Berechnung des Konfidenzintervalls der direkt standardisierten Rate basiert auf der Verwendung einer Normal–Approximation zur Berechnung der Standardabweichung, wie in [MJPM+91, S.135] dargelegt. Es gilt nach (24):
wobei \(d_{(g),a}\) binomialverteilt mit Trefferwahrscheinlichkeit \(p_{(g),a}\) und Anzahl der Versuche \(n_{(g),a}*l_Z\) ist, insofern man innerhalb jeder Alters/Geschlechts-Gruppe eine gleiche Fallwahrscheinlichkeit voraussetzt. Für \(n_{(g),a}\) ausreichend groß lässt sich \(d_{(g),a}\) nach (14) durch eine Normalverteilung approximieren:
Tut man dies für alle Alters/Geschlechts-Gruppen, ergibt sich
Wir schätzen die Einzelwahrscheinlichkeit in der Varianz mit
und erhalten:
wobei man den Mittelwert $\frac {\sum\limits_{(G),A} {p_{(g),a}\cdot 100000 \cdot N_{(g),a}} } {\sum\limits_{(G),A} {N_{(g),a}} }$ als den wahren DMDR sehen kann. Dadurch ergibt sich nach [MJPM+91, S.135] für das Konfidenzintervall \(K\!I\left( {D\!M\!D\!R} \right)=[L,U]:\)
Kumulative Rate
Die kumulative Rate summiert die altersspezifischen Raten, gewichtet mit den Größen der jeweiligen Altersgruppen, über dem betroffenen Altersbereich auf. Somit entspricht sie der direkt altersstandardisierten5 Rate, wenn in der Standardpopulation eine völlig gleichmäßige Altersverteilung besteht. Altersgruppen mit offener Obergrenze sowie solche mit undefiniertem Alter werden dabei ausgelassen. Diese Rate ist eine Annäherung für das prozentuale Risiko, im betrachteten Altersbereich zu erkranken bzw. zu versterben. Ermittelt wird die kumulative Rate mit der folgenden Formel:
Warum die Kumulative Rate eine gute Annäherung für die Inzidenz/Mortalitäts-Wahrscheinlichkeit im betrachteten Altersbereich ist, ergibt sich folgendermaßen: Wir schätzen zunächst die Wahrscheinlichkeit für einen Fall in einer Altersgruppe während der Zeit \(t_a\). Eine gute Approximation dafür haben wir bereits mit der rohen Rate der Altersgruppe. Wir setzen:
Wir teilen das Altersintervall, welches zur Altersgruppe \(a\) gehört in \(n\) kleine Stücke der Länge \(\Delta t=\frac{1}{n} t_a\) Jahre auf. Da \(\tilde{r}_a\) die Fallwahrscheinlichkeit für eine Person innerhalb eines Jahres approximiert, nähern wir an:
Damit ist
Wir gehen über auf die Fallwahrscheinlichkeit in Gruppe \(a\) in der Zeit \(t_a\):
Dabei gilt für \(n\to\infty\):
Wir berechnen nun die Fallwahrscheinlichkeit für den kompletten Zeitraum:
Der Ausdruck \(1-\exp\left(-\frac{KR}{100}\right)\) wird auch als cumulative risk (Kumulative Risiko, siehe [SSKV94 S.596]) bezeichnet.
Mit einer Taylorentwicklung von \(f(x)=1-\exp(-x)\) um \(x_0=0\) kann man das Kumulative Risiko
weiter approximieren:
womit
Bei der Interpretation der KR gilt allerdings zu beachten, dass hier anderweitige Sterbefaktoren ausser Acht gelassen werden. Die KR approximiert lediglich die Wahrscheinlichkeit einer Inzidenz/Mortalität im betrachteten Altersbereich unter der Bedingung, dass es in diesem Zeitraum nicht durch andere Ursachen zum Tode kommt [SSKV94 S.596].
Die Berechnung des Konfidenzintervalls der direkt kumulativen Rate ist analog zur Berechnung des Konfidenzintervalls der direkt standartisierten Rate basiert auf der Verwendung einer Normal–Approximation zur Berechnung der Standardabweichung, wie in [MJPM+91, S.135] dargelegt. Es gilt nach (24):
da wir hier im im Gegensatz zur direkt standartisierten Rate nicht nach Geschlecht trennen, ist es sinnvoller, die Fallzahl statt mit einer Binomialverteilung mit einer Poissonverteilung zu modellieren. Summen binomialverteilter Zufallsvariablen sind nicht binomialverteilt, Summen Poissonverteilter Zufallsvariablen sind dagegen poissonverteilt, wodurch sich auch heterogene Gruppen mit verschiedenen fallwahrscheinlichkeiten sinnvoll modellieren lassen, zudem sind binomialverteilte Zufallsvariablen ohnehin approximativ poissonverteilt, siehe (16).
Für \(n_{a}\) (und damit \(\lambda_a\)) ausreichend groß lässt sich \(d_{a}\) nach (18) durch eine Normalverteilung approximieren:
Führt man dies für alle Alters-Gruppen durch, ergibt sich
Wir schätzen den Parameter \(\lambda\) (Erwartungswert einer Poisson-verteilung) in der Varianz mit
und erhalten:
Dadurch ergibt sich nach [MJPM+91, S.135] für das Konfidenzintervall \(K\!I\left( {D\!M\!D\!R} \right)=[L,U]\):
Die kumulative Rate läßt sich auch für die Standardbevölkerung bestimmen, indem man in Formel (60) jeweils die rohen Raten für die Standardbevölkerung anstelle der rohen Raten für die Studienbevölkerung bestimmt.
CMF (CIF)
Die CMF/CIF (cumulative mortality/incidence figure) vergleicht die (auf die Standardpopulation) direkt standardisierte Rate mit der rohen Rate der Standardpopulation. Sie gibt also das Verhältnis von beobachteten zu erwarteten Fällen an, wenn die Alters- und Geschlechtsverteilung in der Studienpopulation gleich der in der Standardpopulation wäre (im Gegensatz zur SMR, die sich auf die Alters- und Geschlechtsstruktur der Studienbevölkerung bezieht):
Das zugehörige Konfidenzintervall ermittelt sich — analog zur Vorgehensweise bei der SMR (62) und basierend auf der Berechnung des Konfidenzintervalls zur direkt standardisierten Rate in Formel (51) — aus der folgenden Formel:
SMR (SIR)
Die SMR/SIR (standardized mortality/incidence ratio) gibt das Verhältnis von der beobachteten zu der — aufgrund der alterspezifischen Raten der Standardbevölkerung für die Altersstruktur der Studienbevölkerung — erwarteten Fallzahl bzw. Rate (vgl. Formel (41)) an:
Das Konfidenzintervall der SMR berechnet sich nach — analog zur Fallzahl — anhand der folgenden Formel:
Indirekt standardisierte Rate
Die indirekt standardisierte Rate (IMDR — indirect method death rate) ist nach als Produkt aus SMR und der rohen Rate der Standardpopulation definiert:
Die Bestimmung des zugehörigen Konfidenzintervalls basiert derzeit auf dem Konfidenzintervall der SMR:
M/I
Mit M/I wird das Verhältnis von Mortalität zu Inzidenz bezeichnet:
Diese Maßzahl ist analog auch für die Standardbevölkerung definiert.
Literaturverzeichnis
[HEK91] J. Hartung, B. Elpelt, and K.-H. Klösener. Statistik - Lehr- und Handbuch der angewandten Statistik. Oldenbourg Verlag, München, Wien, 8 edition, 1991.
[HK08] B.Eisinger, A.Funk, U.Gerdemann, K.Giersiepen, S. Hentschel, M.Holzmann, P.Kaatsch, A. Katalinic, J.Kieschke, C.Lehmann, M.Lehnert, V.Mattauch, M.Meyer, A.Nennecke, R.Pritzkuleit, M.Radespiel-Tröger, A.Richter, M.Rohde, S.Schmid-Höpfner, I.Schmidtmann, M.Schwarzer, C.Stegmaier, W.Wächter. Das Manual der epidemiologischen Krebsregistrierung. W.Zuckschwerdt Verlag, Müchen, Wien, New York, 2008.
[LW92] J. Lehn and H. Wegmann. Einführung in die Statistik. Teubner Studienbücher
[MJPM+91] O. Moeller Jensen, D. M. Parkin, R. MacLennan, C. S. Muir, and R. G. Skeet. Cancer registration: Principles and methods. IARC Scientific Publications 95, International Agency for Research on Cancer (IARC), Lyon, 1991.
[MSE94] M. Möhner, R. Stabenow, and B. Eisinger. Atlas der Krebsinzidenz in der DDR 1961 – 1989. Gemeinsames Krebsregister der Länder Berlin, Brandenburg, Mecklenburg-Vorpommern, Sachsen-Anhalt und der Freistaaten Sachsen und Thüringen. Ullstein Mosby, 1994.
[SSKV94] Leo J Schouten, Huub Straatman, Lambertus A L M Kiemeney, Andre L M Verbeek Cancer incidence: life table risk versus cumulative risk Journal of Epidemiology and Community Health 1994
-
Generell ist für kleinräumige Vergleiche (z. B. Clusteranalysen) der interne Standard, für Darstellungen auf hoher Aggregationsebene ein externer Standard vorzuziehen.↩
-
Hierunter soll der Wert verstanden werden, der — bereinigt von zufälligen Schwankungen — das tatsächliche Erkrankungs- bzw. Sterberisiko in der Studienpopulation beschreibt.↩
-
Mathematisch ist diese Darstellung nicht ganz korrekt. Die genaue Definition besagt: Die Wahrscheinlichkeit, dass ich zu einem wahren Wert x einen Wert y beobachte, dessen Konfidenzintervall x überdeckt, beträgt \(1 − \alpha\).↩
-
Diesbezüglich sind in Zukunft noch differenziertere Überlegungen anzustellen.↩
-
über das Geschlecht wird hier nicht standardisiert.↩