ESTADISTICA ESPAÑO^A Vol. 33, Núm. 127, 1991, págs. 325 a 362 Inferencia no paramétrica con datos censurados WENCESLAO GONZALEZ MANTEIGA Y CARMEN CADARSO SUAREZ (*) Departamento de Estadística e Investigación Operativa Facultad de Matemáticas Universidad de Santiago de Compostela RESUMEN En este trabajo se revisa la metodología de la inferencia no paramétrica, con muestras en las que existen datos censurados, desarrollada fundamentalmente en los últimos quince años. La censura considerada es la aleatoria por la derecha. Los tópicos aquí revisados son los relativos al estudio del estimador de Kaplan-Meier, asi como sus aplicaciones a la estirnación funcional, los contrastes de hipótesis, intervalos y bandas de confianza, regresión lineal, estimación de curvas y aplicaciones. A su vez, recientes técnicas de estimación no paramétrica y paramétrica son también revisadas y aplicadas a datos de interés suministrados por el Hospital General de Galicia relativos a tiempos de vida en procesos tumarales. Palabras clave.^ Censura aleatoria por la derecha, estimador de Kaplan-Meier. Clasificación A MS .^ 6 2 C; 0 5. (') Trabajo subvencionado por el proyecto de la Xunta de Galicia XUGA80505588. f ^r ^^tai^;n^ ^ t ^E^^^ti^^i ^^ 1. UNA VISION GENERAL DE LOS PROBLEMAS DE INFEREI'VCIA SIN CENSURA Una situación general en la estimacicin funcional no paramétrica es la descrita por los siguientes puntos: a) Se tiene una farnilia de distribuciones ^•^, ={ F,,, ^l E O}. b) Se dispone de una muestra { X,,...,X„ } de la distribución poblacional F- Y c) Se desea estimar el parámetro ^lo del espacio Cl, para el que F„o es la distribución más cercana a F en algún sentido. Diferentes puntos de vista de como F puede ser aproximada por F„o resultan de la formulación general introducida por Stute (1 986): '" l)o es el valor para el que se satisface la ecuación: (1 .1 ) f T(x,tl^,F) dF(x) = 0 donde T es un funcional definido sobre Rx(^xl^; siendo f^ un espacio general de distribuciones conteniendo a la poblacional ". Si se pretende estirnar llo, la sustitucián de F por la distribución empírica F,,, construída con la muestra inicial, da lugar a la familia general de estimadores, resultante de la estima.cián de la ecuacián (1 .1 ) y solución de: n ^ (1. 2 ) (1 /n ) ^ T ( X,, í1,,, F,^) = 0 ,- ^ ,. La práctica totalidad de los estimadores f^„ (camo se puede ver para más detalles en el libro de Serfling ( 1980) ) existentes en la literatura relativa a la inferencia no pararnétrica sin censura, pueden ser obtenidos a partir de 1a formulación ( 1 .2). Basta con ver la siguiente relación amplia de ejemplos: i) T(x,l), F) = 1(^^/^>^l) f„(x))/f„(x), donde f„ es la densidad asociada a F,,, da lugar^ a la estimación de máxima verosimilitud. iii T(x,(l,F) _`i'(x-ll), siendo `^' una función de R en R, representa la M estimación. r iii) T(x,(I,F) = J(F(x) ), can f o J(t)dt= 1, representa la L estirnación. iv) T(x,(I,F) = J( F(x) ) ^^(x-(1), la M-L estimación. v) T(x, U, F) ^ J(( F(x)+ 1- F(2 O-x) )/ 2), con estimación. r (t)dt=0, representa la R JoJ ^^7 I\F^f^Rf-^(^I^^ tiO P^^R^^ti1t ^TRI(^^^^ (^Ot O11Oti (^t ^^,t F21[^^(^ti vi^ T(x,(^,F) _(F(x)-F„(x) )(^^/t>fl)F„(x}, de Cramer- Von M ises, ... etc. la estimación de mínima distancia Bajo condiciones de suavidad sobre el funcional T, del tipa: " T(x, l^, F+th) = T(x, f1, F}+DT (x, fl, F) ( th) + O(t2), cuanda t tiende a 0, uniformemente en h, siendo h cualquier función uniformemente a^otada y donde DT es la derivada de R iesz: (1 . 3} DT (x, D, F)(h} = J h ry) ,c^ (x, CI, F, dy) con ^c la medida asociada resultante del teorema de representación de Riesz", se obtiene el resultado general ( Stute ( 1 986) }: ^n H' (f1O ) (lln - fl 0) d > N (O,c^) (1.4) con H( fl )= JT (x, f1, F} dF (x) , ^ = 1 (Q(y)- 1QdF)2dF(y) Y Q(y} = T(y,f^o,F) - f1y^ ^^(x,flo,F,dz) dF(x) A bajo el supuesto de consistencia en probabilidad de f^,,. Este resultado viene a representar una unificación de todos los métodos desarrollados en años anteriores. Obsérvese que la particularización ^^=0 da lugar a la varianza asintótica de los estimadores de máxima verosimiiitud a más generalmente la de los M estirnadores generalizando a Huber (1 964). Otras particularizaciones de interés son las siyuientes: i1 ^c(x,f1,F) _ (1 /2)J' ( (F(x)+1 -F(2U-x) )/2) (c)X-c)r2„_x^) varianza asintótica de los R estimadores. da lugar a la ii) ^^(x,(I,F) = J'(F(x) )t)x representa 1a varianza asintótica de los L estimadores, ... etc., resultando en cierta med^da que todos (os métodos descritos en el libro de Serfling (1 980) tienen una varianza asintótica que puede ser expresada de una forma unificada vía la derivada de Riesz. Una visión todavía más general fué la introducida por Gon^ález Manteiga (1990), sin más que tener en cuenta que el parámetro fl descanocido pudiera ser realmente una curva ^l(x), asociada a una medición de depen- f ^ 1^ I)Iti I I( ^ f^I' ^\t 11 i dencia entre un vector de covariables X y una variable respuesta Y, definida por la siguiente generalización de la ecuación (1 .1 ): (1.5} f T(y,^1(x), F(-/X-x) ) dF(y/X-x}=0 en ia que F(./X=x) representa la distribución condicionada. Si de forma alternativa a{ 1.2) se sustituye ahora la distribución condicionada teórica por una estimación no paramétrica de la misma se obtiene de forr^na unificada la varianza asintótica de todos los estimadores no paramétricos de la regresión existentes hasta la actualidad. En particular si se utiliza un estimador no paramétrico tipo núcleo, por ejemplo el introducido por Yang (1 981 )(con X unidimensional}: ^ ^ F„(y/x) _ { 1 /nh„) ^^ ! y,- Y K ( (F„(x)-F„(X,) ) / h„) a partir de una rnuestra inicial {(X,,Y, ^ ,...,(X,,,Y„) }, se verifica que el resultado análogo a! visto en ( 1 .3)-(1.4) con la terminología de { 1.5) es el siguiente: w n h„ (r*1„(x) - (I (x) ) H' {l^(x} ) -----^ N (o,Var(Q{Y}lX=x) cK} ^ donde O„ es el estimador no paramétrico resultante de (1 .5), h„ es el valor del parámetro ventana utilizado y eK=ÍK2{u)du, siendo K la función núcleo. ^ La varianza asintótica de todos los estimadores no paramétricos de curvas midiendo fas dependencias entre un vector de covariables y una variabie respuesta unidimensional puede también ser vista de forma unificada. En base a esta visión genera! de la estimación no paramétrica funcional uno puede deducir un cierto grado de teoría consolidada. Nuestro objetivo en lo que sigue de trabajo va a ser la extensión de la estimación funcional bajo la existencia de censura unidimensional considerando sus posibles aplicaciones. Así como bajo una situación tradicional los estimadores fundamentales eran la función de distribución empírica o un estimador no paramétrico de la distribución condicional, en un contexto de datos censurados, éstos serán el estimador de Kaplan-Meier o una versión generalizada de éste, para una situación de existencia de covariables. I^f f Itf `( I\ tc) I^\Ft ^ti1f T Rlc \((}^ I) \ Tc ^ ti c f^^1 K\(x)^ 2. ^^y INTRODUCCION A LOS MODELOS CON CENSURA Los modelos estadísticos con muestras censuradas son de especial interés en ciencias experimentales como la medicina, la ingeniería,... etc. y han tenido un desarrollo muy intenso en los últimos años, siendo la censura aleatoria por la derecha la desarrollada por nosotros a lo largo de todo el traba jo. La situación estándar para estos mecanismos de censura es la siguiente: i^ La muestra aleatoria de interés es { T,,...,T„ }. T es la variable poblacio- nal, representando muy frecuentemente el tiempo de vida de un enfermo, la duración de una pieza electrónica, el tiempo de reparación de un sistema,... etc. ii^ En ocasiones la variable T; no se observa debido a que se verifica la realización de otra variable C;, que denominaremos de censura, antecediendo a la primera. A^ sí, por ejemplo, el tiempo de vida de un enferrno por una determinada enfermedad, puede no ser observado debido a que éste muere en un accidente de carretera. Por tanto surge una nueva muestra aleatoria { C,, ..., C„ }, que supondremos independiente de la primera, y que recibe el nombre de muestra de censura. iii) Finalmente la muestra observada viene dada por: { (Z, rV, )....i (^ni ^n^ ^ en donde Z,= rnin { T;,C; } y ó,- ^{ r< , c} ^ , ^- i ,..., n' La consideración de esta muestra representa una alternativa a la forma más simple de proceder, que resultaría si se eliminasen los datos censurados. Dicho de otra forma, con esta muestra, uno está considerando la información que proporciona el tiempo de vida Z, que al menos vivió el individuo iésimo respecto de la causa de interés cuando este dato es un dato censurado. Este mecanismo probabilístico que trae consigo la censura aleatoria por la derecha viene descrito en gran medida por las siguientes curvas: i) La función de supervivencia de la váriable de interés T: 1 -F(t) = P(T > t) ii) La función de supervivencia de la variable que censura C: 1 -G (t) = P(G > t) E ti r ^^ [^^^ i ic ^> f ^t^ ^ ^c ^^ .t ^ ^() iii) La función de supervivencia de la variable observada Z: 1-H(t} = P(Z > t) en donde 1-H=(1 -F ^ (1-Gi, debido a la suposición de independencia entre T y C. F, G y H son por tanto las correspondientes funciones de distribución iv) La subdistribución de la variable observada Z cuando ésta es una observación no censurada: H, (t) = P(Z < t, ^S -- 1) -. P(Z < t,T < C) _ .^^ { 1-G (s) ) dF (s) v) La subdistribución de la variable Z cuando ésta es una observación censurada: t H2(t) = P(Z < t, ^S = 0) = P(Z ^ t,T > C) = Jo (1-F(s) ) dG Is} con H(t) = H, (t) + H2(t). vi) La función de razón de fallo: r(t^ = I i m (1 /^S) P (t<T < t+^S / T> t ^ = f(t) /( 1-F (t^ ) ^ --^ o ^ en donde f es la función de densidad asociada a la variabie T. La función de razón de fallo nos viene a indicar como es la probabilidad de supervivencia en los momentos inmediatamente posteriores. Si esta probabilidad nos interesa de forma acumulada resulta la razón de fallo acumulada: .n ( t) _ .^a r( s } ds = -/n (1 - F ( t 1 ) _ .^o (1 - F ( s 1 ) ^' dF {s ) _ r _ ^o {1-H(s) )-' dH,(si A diferencia del contexto en el que no hay censura, no se puede estimar la función de distribución F poblacional mediante la distribución empírica en aquellas situaciones en las que por lo menos existe un dato censurado. Alternativamente, uno puede, mediante las correspondientes empíricas, estimar H, H, y ^1 respectivamente por: H„(t) _ (^ i // Z; < t } ),ln H ,,,(t) = (^ { i% Z; ^ t , T, < C; } } /n v ItiF^^E^KE ti(^I^^ tit) f^'^^K.-^ti1f I^KI(^^^^ (^Oti I}^11O^ ( t^^l Ft^1[X)^ r A „ ( t ) _ ^o dH ^„ ( s ) ^ ^`^ ( t) 1- H„(s) ^-' n-Rango(Z^) ^i ^ donde ^3;(t) = 1{z;s t. r;S c; ^Teniendo en cuenta el problema que encierra la posible presencia de la observación Z^,,, no censurada, donde Z^,,, es el estadístico ordenado máximo, es aconsejable la sustitución en los denorninadores de la expresión n„(t) por !as cantidades n- Rango (Z;) + 1. Con esta versión corregida y en base a que 1-F(t) = exp {-A(t) }, resulta de forma natural un estimador para la distribución F en el context0 de datos censurados a través de 1 - F„(t) = exp { -n„(t) } (2.1 ) Por otro lado, utilizando el desarrollo de Taylor de primer orden de la función exp{ x} en torno punto al cero y aplicándolo a exp{ -^;(t)/(n-Rango(Z^)+1 )}; j=1,...,n en (2.1 ), resulta el conocido estimador de Kaplan-Meier (1 958) ( ^ 1-F„(t) 0 n - Rango (Z^) ^ is,{^^ si t < Z^,,, n - Rango (Z;) + 1 (2.2 ) en el resto EI estimador de Kaplan-Meier (2.2) es el estimador básico en el contexto de datos censurados lo mismo que el empírico en el marco sin censura. Presenta la propiedad de ser el estimador máximo verosírnil no pararnétrico, siendo éste el mecanismo a través del cual se ilega a fa expresión (2.2) en el artículo de Kaplan-Meier (1 958). Ante la ausencia de censura este estimador es la supervivencia empírica, es decir, 1-F„(t), con F„ la distribu, ,. c^on ernp^r^ca. 3. PROPIEDADES DEL ESTIMADOR DE KAPLAN-MEIER ^os años setenta y ochenta fueron pródigos en obtención de resultados relativos a distintas propiedades del estimador de Kaplan-Meier. En cierta medida se obtuvieron propiedades paralelas a las de la distribución empírica, que ya estaban perfectamente desarrolladas en el libro de Billingsley { 1 968). Una constante común a todas estas propiedades es su generaliza- ^ ^^^r^^^r>i^r^ic^.^ r tiF^^^^^^^ ^^ cián relativa a!as de la distribución empírica. En efecto, como veremos a!o largo de este epígrafe, en el caso particular de ausencia de censura resultarán las propiedades conocidas de la distribución empírica. Los resultados más notables obtenidos en !os últimos veinte años son a nuestro juicio los siguientes: i) (Breslow-Crowley (1 974) ). " Bajo la suposición de que las distribuciones F y G sean continuas, se verifica puntualmente en cada x E R, con x< To y H(To} < 1, lo siguiente: ^ ^ n ( F„(x) - F(x} ) d -^ N (o,cr^(x) ) X con cr^ (x) _ (1- F(x) ) 2 Jo (1 /(1- H (x) )^) dH , (x) ". ii) (Breslow-Crowley (1 974) ). '" Bajo las suposiciones anteriores se verifica globalmente en el intervalo [O,To] : d---^. Z(.1 ^ñ t F„ - F) siendo Z un proceso Gaussiano de rnedia cero y función de covarianza: Cov(Z(s), Z(t) } _ (1-F(s) ) (1-F(t) } Jp 1 /(1-H)2 dH, cuando s < t ". iii) (Fáldes-Rejto (1981) ). " En las condiciones de i) o ii) se cumple el siguiente orden de convergencia uniforme: s u p ( FnÍx) - F lx) ^= O^ o`- x` To log n^. n de forrna casi segura ". iv1 (Chang-Rao (1989) ). " Puntualmente, igual que en i), se verifica una cota de tipo Berry-Esseen para el estimador de Kaplan-Meier, es decir s up ^ P ^ rr(x) ^' f n^, F„(x) - F(x) ^ < y) - ^(y) I < Y < K(1 +V(x}')(1 - H(x))^2 si donde x V(x)=f o i/(1 -H(y) )2dH, (y} y ^ es la función de distribución de una IV (0,1 }". I?^t t Rk_ti(^I^^ tiO N^1K^1!^9ET^K!( ^1 t'Oti [)-^^f(15< f^^l ft^^[7K)^ ^i^ Todas las propiedades anteriores resuttan las conocidas para {a distribución empírica en ausencia de censura. Esto es consecuencia de que, en dicho caso, H es F, H, es también F y por tanto V(x)=F(x)/(1 -F(x) ). A su vez, la distribución asintótica global puede extenderse a todo R, dando {ugar a{ proceso Gaussiano, cuyo supremo en valor abso{uto tiene la distribución de Kolmogorov-Srnirnov, corno ya es conocido. ^ Otras propiedades de interés del estimador de Kaplan-Meier de notable importancia son {as relativas a su eficiencia, cuando se trata de estimar ia distribución F desconocida en cada punto x. Desde ese punto de vista Fernández Sotelo-González Manteiga ( 1 986), prueban que el estimador de Kaplan-Meier puede ser mejorado bajo el criterio del error cuadrático medio. En efecto, considerando la versión suavizada del mismo. F„s(x) = J (1 /hn} K ( (x-u) /h„) d F„ ( u) ( 3.1 ) donde I K(z) = f_^ K(u) du es la función núcleo acumulada, se verifica v) ^(n) - n (f(x}/(1-G(x} ) } J 2zK(z}K(z) dz nhn (1 -F(x) )2 V(x) li m n -^ ^ siendo f la densidad asociada a F, K una función núcleo positiva de segundo orden, es decir, JK=1, f zK(z)dz-o, JK(z)z2dz> O y K positiva y h„ el parámetro ventana de la suavización. Por otro lado i(n) es el va{or entero para el que i(n) = m i n{ 1 E N/ M S E( F, (x) )< M S E( F„S (x) )} con MSE representando el error cuadrático medio. Esta última propiedad nos viene a garantizar que si suavizamos el esti> ^ cuando mador de Kap{an Meier, con una ventana que verifique nh„ h„ > 0, es posible obtener un estimador infinitamente más eficiente desde el punto de vista del índice r(n). Es decir bajo las condiciones anteriores sobre la ventana, la diferencia entre i(n) y n tiende a^, necesitándose tamaños muestrales infinitamente mayores que n, cuando se quiere que el error cuadrático medio de1 estimador de Kaplan-Meier sea tan pequeño como ei del estimador suavizado. Esta idea de suavización del estimador de Kaplan-Meier generaliza a la desarro{lada para la distribución empirica por Azzalini (1 981 ), Faraldo Roca-Gonzá{ez Manteiga (1984) y Falk (1983, 1 984, 1 985}. Por otro lado Z i^ F^ t^ i>i^, t ^r ^^^^^ t^^ ^^ ^ es especialmente interesante la suavización propuesta por Ghoray (1 989) en un modelo de censura proporcional. En un modefo de este tipo. (1-G (x) ) _ (1- F(x) )^s con %^ > 0 resultando de forma sencilla que la proporción de censura viene dada por P(c^=1)=f(1-G)dF=(1/(1+/3))=a y por tanto (1 -F(x) } _ (1 -H (x} 1z Un estimador naturai para este tipo de censura es el definido a través de A Fn(x) - 1 -(^- H n(a(j } xn con n a„ _ ^ ^S; /n ,_ ^ 1a proporción de censura empírica. Suavizando este estimador mediante el mismo mecanismo que el desarrollado con el estimador de Kaplan-Meier en (3.1 ) se obtienen análogas propiedades de eficiencia. 4. A^ PLICAC!©NES A LA INFERENCIA ESTADlSTICA DEL ESTI VIADOR DE KAPLAN-MEIER Varias aplicaciones en la inferencia estadística surgen de manera natural como consecuencia de la herramienta probabilístíca desarrollada relativa al estimador de Kaplan-Meier. Nos centraremos fundamentalmente en los intervalos de confianza puntuales, !as bandas de confianza y los contrastes de hipótesis del tipo Kolmogorov-Smirnov o^. IRITERVAL^S DE CONFIANZA. Teniendo en cuenta la normalidad asintótica del estimador de KaplanMeier descrita en el apartado anterior es natural definir un intervalo de canfianza de nivel aproximadamente a a través de: r ^ F,^ (x) ^ zz^2 ^ 1 / n ) ^,^(x) l I^.f 1 ftf ti( I^\(1 f' ^ft ^^1f l ftl( ^t (^(),. f)^^ I c)ti E f^ti1 Ft ^11x)ti donde z,,2 es el cuantil correspondiente de la normal y c^„(x) la estimación empírica de la desviación típica asintótica. Es decir ^rñ (x) _ (1 - F„(x) )2 ` n , ^ ^ t ^/Z^ `^. (n - Rango (Z,) )^ . A su vez el denominador de esta última expresión puede ser corregido para evitar el problema del cero en el denominador. BANDAS DE CONFIANZA. Considerando [O,T°), con T° en las candiciones del apartado anterior, y en base a la distribución asintótica global del proceso asociado a la distribución de Kaplan-Meier, descrito en el apartado anterior, Hall-Wellner (1980) dan la siguiente versión reescalada del mismo ^ l ^ F„(x} - F (x) (1 -F(x} ) / K(x) d ^ > W (o K (xi ) donde K(x) = 1-v(x) /(1 +v(x) ), con la función v previamente definida en el apartado anterior y W° el puente browniano en el intervala (0,1 ). Para más detalles relativos a este proceso consultar el libro de Billingsley (1 968), donde se puede ver que dicho proceso está definido como Wt-tW,, con W^ un proceso Gaussiano de media cero y función de covarianza Cov(s, t)= s si S< t. Los procesos W y W° son conocidos también como movimiento browniano y puente browniano respectivamente. Tomando `-N una función continua y positiva en (0,1 ) se verifica sup o= X= To ^ F„(x1 - F(x) ^ `^ (K(x) ) _ ^n ^ (1 -F(x) ) / K(x) d sup ^ W°(K(x) ) ^`^(Klx) Í= O' x^ T 0 sup u T KIT^ ^ > Iw°(u)I ^(u) ^ Zh f ^T 11)I^T I( -^ E ^N ^\OL ^> De este modo poseyendo la tabulación correspondiente a la distribución límite, es decir P { s ^. ^ ^ a. ^< b ^ W°(u) ( ^ (u) < e^ } = 1 -a es posible dar distintas bandas de confianza para distintas elecciones de ^. Siendo de especial interés ^ a) 4'(u) = 1/ u(1 -u). La Ilamada banda de igual precisión de Nair 119 $4). b1 4'(u) = 1/(1-u). Conocida como la banda de Renyi. c) 4'(u) = 1. La banda de Hall-Wellner (1 980). Así por ejemplo, considerando las correspondientes estimaciones empíricas y el eX adecuado, la banda de igual precisión viene dada por [ F„(x) -±- (1 /^) er ^r„(x) ] con x tal que a ^ K„(x) ^ b donde K^ (t) es la correspondiente estimación empírica de K. EI nombre de igual precisión es obviamente atribuible a que la banda posee en cada punto x una anchura directamente proporcional a la varianza empíricamente estimada del estimador de Kaplan-Meier. Iguales razonamientos se podrian aplicar a las otras bandas, observándose en general que la anchura de la banda resultante va a estar íntimamente ligada a la función ^ utilizada. En esa línea de resultados se encuentran los profundos estudios de simulación realizados por Nair(1984). Las conclusiones por é! obtenidas podrian resumirse de la siguiente manera: i) EI funcionamiento de la banda de Renyi es ineficiente, siendo más estrecha que las bandas de igual precisión y de Hali-Wellner únicamente en la cola superior. Esto es obviamente consecuencia de la penalización que imprime la función `l' en esos puntos, ya que para ellos u tiende a 1 y por tanto 4' tiende a^, obligando a que la diferencia entre el estimador de Kaplan-Meier y la función teórica desconocida sea cada vez más pe^ quena. ii) Las bandas de Hall-Wellner y de igual precisión son muy competitivas. La primera es rnás estrecha en los puntos medios mientras que la úitima lo es más en las colas. De análoga forma la explicación de este hecho radica en la naturaleza de `^. A su vez el mejor funcionamiento de la banda de igual precisión se incrementa a rnedida que aumenta la propor- ción de censura. iii) Los valores críticos asintóticos proveen aproximaciones razonables para muestras finitas. ftif F F^tf \( I^t 1(^ F'^^Ft ^!^1F i Rl('^^ C()^. [)-^ T<)ti ( f ♦ ^l Ft ^fX)^ ^37 Por otro lado obsérvese que de las tres bandas citadas solo la de Hall-Wellner es extensiá^ n de la clásica de Kolmogorov -Smirnov. En efecto esta sale como consecuencia de particularizar a=0 y b=1. Es decir soporte sin restricciones. Además a diferencia de ésta las bandas construidas con censura son de anchura aleatoria, siendo necesario un mecanismo de muestreo secuencial cuando se quiera construir una banda de anchura acotada por un cierto valor d. En esta línea de actuación es interesante el trabajo de Dikta-Kurtz-Stute (1 989) quienes consideran la banda de Hall-Wellner secuencial. CONTRASTE D E H I P©TES I S. Las dos vías estudiadas para contrastar si la distribución poblacional desconocida F es Fo, bajo el modelo de censura aquí tratado, son la correspondiente extensión del contraste de Kolmogorov-Smirnov y del contraste ,^. Respecto al primer mecanismo se actuaría en función de la banda utilizada rechazando la hipótesis en el caso de que en algún tramo la distribución Fo esté fuera de la banda. EI mecanismo alternativo es el descrito por el test ^ para este contexto. EI estudio del mismo fué desarrollado muy recientemente por Akritas ( 1988). EI procedirniento en esencia es como sigue. Si estamos interesados en contrastar la hipótesis F=Fo, que supondremos continua, estableciéndose una partición en R+ a través de A^- [a; ,, a^), con ,j =1 ,..., k y ao < a, <... < ak= ^ se tienen las sigu ientes probabilidades po;= P(Z E A;,d=O) =JA (1-Fo)dG ^ p,^= P(Z E A;,^)= 1) = J,^; (1-G)DF^, con j=1,...,k. Como G es desconocida y teniendo en cuenta la independencia, (1 -G) (1 -Fo) _ (1 -H), G es estimada por .. G„= 1 - (1-H„)/(1-Fo) y de esa manera resultan de forma natural las estimaciones ^pv, Akritas ( 1988) prueba la siguiente propiedad asintótica ^2. ( N,; - np,;} L ;= T ^ nP,; d ^ Y P, I^I \I>lti11^ Z^?^ ^ t1!'^tl)l ^ donde N,c es la frecuencia absoluta de individuos que están en el j-ésimo elemento de la partición con ^)^ 1. La conclusión más sorprendente de este resultado es el hecho de que este estadístico no generaliza al clásico ^ en ausencia de censura, dando más bien un test alternativo. En efecto el número de grados de libertad es aquí k en contraposición a k-1 del método clásico. Akritas extiende este mecanismo a la hipótesis compuesta en el mismo artículo. A su vez en estudios de simulación comprueba el buen funcionamiento del nuevo método en ct^mparación al clásico en ausencia de censura. LA ESTIMACION FUNCIONAL. Como hemos visto en el apa^tado uno la estimación funcional en ausencia de censura está perfectamente desarrollada. Desde nuestro punto de vista, y aunque existen algunos artículos de estimación funcional con censura, ver por ejemplo Schick-Susarla-Koul (1 ^881, una forma de extender la metodología desarrollada en el apartado uno aplicando el estimador de Kaplan-Meier consistiría en definir como estimador de U la solución de la ecuación (1.1 ^ cuando se sustituye F por el estimador de Kaplan-Meier. En cuyo caso la ecuación resultante sería ^ n ^ T (Z;, i^ n , F ^ ^ (S^ (1 in) ^ -0 (1 - G„ (Z,) ) .. donde G„ es el estimador de Kaplan-Meier de la variabie que censura. Indudablemente este método ha de ser objeto de futuros trabajos. REGRESioN PARAMETRICA CON DATOS CENSURADOS En el estudio con datos censurados es frecuente la consideración de covariables sobre la variable de interés T. Así por ejemplo cuando se observa el tiempo de vida de un enferrno desde que se le diagnostica de una determinada enfermedad puede ser de interés la edad en dicho momento. En una situación de existencia de covariables la muestra observada viene dada por (Z^)xy}" i- 1 i^ 1^ i donde camo antes z, = m in { T;, C; } y^S, = 1 t T;,, c^ ?, siendo x; _(x,,, ..., iésimo vector de las covariables de interés. I^+f f kf ti( I^ ^( ^ I'^^K ^ti1f I kl( ^^ c(1^, O^\ 1Oti ([ ttil K^(M ^ ^ ^or otro lado las funciones de interés ya comentadas en ausencia de censura pasan ahora a depender del valor de la covariable, es decir, F(./x,), G{./x,) y H(./x,). Las interpretaciones de dichas funciones son también análogas a la situación de ausencia de covariables. De los modelos y métodos de estimación desarrollados en este contexto destacaremos como más importantes los introducidos en los articulos de Cox (1 972,1 975), Koul-Susaria y Van Ryzin (1981 a, 1981 b, 1 982), Miller { 1976) y Buckley-James (1979). EI factor común en todos los modelos introducidos es ia dependencia lineal sobre las covariables, bien sea respecto del logaritmo de la razón de fallo condicional ( Método de Cax) o bien respecto del logaritmo de la propia variable tiempo de vida (los métodos restantes). METODO DE COX. , Basado en la idea de modelos de fallo proporcionales supone que la razón de fallo condicional de la variable de interés T viene dada por ^.(t/x) _ ^^o(t)exp{xtj^ ^ donde x es el vector p-dimensional de covariables, ^3 el vector p-dimensional de coeficientes a estimar y^o la razón de fallo de la variable T para cuando x=0. La estructura del modelo anterior permite construir de la siguiente forma ^ una función de verosimilitud parcial en ^^. Si R(t) son los individuos aun vivos en el instante t- y si un paciente muere en el instante t, entonces la probabilidad de que ese paciente sea el iésirr^o de entre los que están en riesgo en R (t) es e x p { ^ ^j } exp { ^^ } ^ -_ R (tl De esta manera si consideramos la muestra ordenada de las variables observables Zr,^< ... c Z,,,^, resulta de forma natural la verosimilitud exp ( xl /^ ) R L=I1 ,_^ ^. / ^ R (Z^^)^ exp ( x` l^^ ) ^^r;^ ^ donde ^)^,^ es el correspondiente a la iésima Z ordenada. FSTA[)I^TI( ^1 f S[,^^`t)[ A Finalmente el valor de la estimación de ^3 resulta de la solución de la ecuación de verosimilitud c) log L/^)^ = 0 Posteriormente ^.o es estimada no paramétricamente o semiparamétricamente, Una visión más profunda sobre este tipo de estimaciones es desarrollada en el apartado posterior relativo a estimación de curvas. METODO DE MILLER. Bajo la suposición Fít/x) = F(t-^-x`^^) con F una distribución de media 0 y por tanto verificándose la consiguiente dependencia lineal entre T y el vector de covariables x, E(T/x) _^+xr/^, Miller (1 976) sugirió una extensión del método de mínimos cuadrados a datos con respuesta censurada. EI método desarrollado por Miller (1976i consiste en definir como estimadores para (:^,/^) aquellos que minimizen el funcional n J t,'2 clF(^ ; a, b i donde F(.;a,b) es el estimador de Kaplan-Meier basado en la muestra {(^^,^^) }^^ ^ con é; = Z;-a-x; b, i=1,...,n 1os residuos estimados a través de una estimación piloto inicial de (a,^^). Miller sugiere tomar como dicha estimación la de mínimos cuadrados con los datos no censurados. EI mecanismo es por tanto iterativo resultando la siguiente relación recursiva en las estimaciones .. ^k+1- r ILX X ^^^ ^ t W (^jk) ^ X - X^., l J -1 L X- X^^ ] W(^^k) L ( 6.1 ) donde X=((x,^^ ) es la matriz de variables predictoras, n ,. X`'' r(^ c^^;(^^k) x,^) es la matriz de promedios ponderada según los pesos ;-^ ^ de los saltos del estimador de Kaplan-Meier cl^,{ f3k), i=1,..., n, representantes ^ en (os puntos é, = Z,-x; ^jk correspondientes a la fase k-ésima de la recursívidad en la estimacíón y . { ^v,(^jk) } ; Z (Z,,..., Z„)`. diagonal W (f^k) r Finalmente J3 es el estimador que se obtiene en una etapa k suficientemente grande estimándose posteriormente a como á = ^ cv,(^^) (Z;-x; j^) ,^r ^tif t k^ ^^ i^^ ti^^ F^^^k^t^^t r ki^ -^ ^^^^^ r^^^^^^<^^ ^ F^^^ ^-^rx^ti Uno de los problemas importantes que presenta este método en la posibilidad de entrar en un bucle en el proceso recursivo. METOD O D E B UCKL EY Y JA MES EI método de Buckley-James ( 1979) está basado en la relación E [ ^,Z; + (1 -cS,) E ( T; /T; > Z, ) / x; ] = a + ac; j3 Es decir, uno puede suplir la variable T; por r^,Z, + (1 - ^^;) E ( T,/T; > Z,), ya que ambas siguen el mismo modelo respuesta. Como la última variable no es observable, Buckley-James ( 1 979) proponen, bajo un modelo de censura fija dado por los valores c,,...,c,,, la siguiente estimación de E(T;/T; > Z,) que hace que la nueva variable respuesta sea obtenible en la práctica: ^(T;/T; > Z,) = x; j3k + E(T,-x; ^/ T;-x` j3 > c; - X` j3) ^ x; j^k + ^ ^_e^^e; -} 1- F ( é,; o, j^k ) ^i ( ^jk ^ ^i A ^ donde con la misma not^.ción del método anterior F es el estimador de Kaplan-Meier basado en 1os residuos {(Z; - x; j3k, ^S,) }, siendo j3k la estimación de ^3 en la etapa k-ésima. Por tanto el método de Buckley-James es también recursivo. Considerando {as nuevas variables respuesta en una etapa k-ésima, el estirnador en la etapa {k+1 ) viene dado, aplicando el criterio de minirnos cuadrados, por ^(k+ 11 = r ( X - i^ ^ t 1 %^ - /^ ) ] -1 L [ i^ _ ^^ , t Z ( ^k ) ( fj . 2 ) donde Z(j3k) es el vector de las nuevas variables respuesta, es decir ^ ^, ) Z( j _ ^; Z; +(1 - ^ E{ T; / T, > Z, ) s i ó; - 0 ,^ky T, si ^=1 ^ i=1,...,n y X es !a matrir de medias muestrales de Ia variable regresora. Finalrnente la estimación de j^ se haría eligiendo un k suficientemente grande, estimándose a de forma análoga al método anterior. BuckleyJames proponen como estimador pifoto en la etapa primera e1 de minimos cuadrados con toda la muestra. r w r ^r^r^ ric 1 r^F^ ^^<^^ ^t M^ETDDDS DE KDUL -SUSA RLA Y V.4 N R Y^IN. Basándose en la suposición restrictiva de que la función de supervivencía de (a variable que censura G(./x,) es independiente de la covariable, es decir, G, Koul-Susarla y Van Ryzin elaboran en los años 1981-1 982 ires nuevos métodos de estimación en modelos de regresión con respuesta censurada. EI primero de ellos, Koul-Susarla y Van Ryzin (1981 a), siguiendo la metodología de Buckley y James, consiste en sustituir la variable respuesta Z, por una nueva variable que siga el modelo de regresión lineal adecuado. Teniendo en cuenta que ^>, Z, E^ / x, ^ ^;z + x; ^^ 1 - G (Z,/x,) y bajo la suposición antes mencionada, se propone como variable respuesta c^,Z,1 z ,.^ Z, i=1, .., n. 1 - ^ (Z,) ^ donde G es el estimador de Kaplan-Meier de la varíable que censura basado en ia muestra {(Z,,1 -^),) },n,, _y M„ es una constante dependiente de n y de la muestra, que establece un truncamiento para evitar la inestabilidad del estimador de Kaplan-Meier en las colas. Con fa correspondiente nueva variable respuesta, se aplicaría el método de mínimos cuadrados para la obtención del nuevo estimador. A pesar de no ser recursivo, este método tiene un gran problema ante la elección dei valor M„ en la práctica. EI segundo de ellos, Koul-Susarla-Van Ryzin (1 981 b), consiste en definir como. nuevos estimadores aquellos que resulten de (a optimización de! funciónal , .`^,. ^ ^^ x 3 ` = L, t^.^^ ;_^ 1 - G (z;) 1, z.i_ M;^ (Z, - a- X;1^)2 n con la misma notación considerada en el método anterior. INF=f^RF^t^1•1 `í) P1K^^41^ TKt(^1 (^O^ [)^^TOtit f^Sl R>Ik^ti Finalmente el tercer método, Koul-Susarla-Van Ry2in (1 982 ^ , está basado en una extensión del método de óuckley-James al contexto de censura aleatoria bajo la hipótesis común a todos los métodos de Koul-Susarla-Van Ryzin. Ya que bajo esta hipótesis la nueva variable respuesta satisface Z*= ^^Z; + (1 -rS;) E (T,/T, > Z,}=rS,Z, + (1-h,} E(T,/ó,=O) _ =s,Z,+c1-a,) . j s11 - G(s ^ 1 dFls-^-^^1 1 c ^-^ cS)} ^ c S-^-^ a^ , estimando G de forma análoga a los métodos anteriores se posee la variable respuesta estimada. Como también se necesita la estimación de Kaplan-Meier de los residuos, una estimación inicial de x y^^ es necesaria. Koul-Susarla-11an Ryzin proponen que se utilize su estimador introducido en 1981 a) como piloto iniciai, siguiéndose un mecanismo recursivo análogo al desarrollo por Buckley-James. Los cinco métodos introducidos tienen la interesante propiedad común de ser los estimadores mínimo cuadráticos en ausencia de censura. Sin embargo están elaborados en general bajo fuertes restricciones, como Ps el caso de los métodos de Koul-Susarla--Van Ryzin, o padecen ciertas dificultades computacionales producidas por la recursividad de sus cálculos, como es el caso de los métodos d e Miller y de Buckley-James. En la siguiente sección, dedicada a la estimación de curvas con datos censurados, se describe un nuevo método de estimación de 1os parámetros de un modelo de regresión lineal obtenido a partir de estimaciones de curvas para esté contexto. 6. ESTIMACION DE CURVAS COIV DATOS CENSURADOS Y APLICACIO RI ES Un campo de estudio de gran expansión en !a actualidad en Estadística es el de la estimación de curvas. Los resultados obtenidos en dicho estudio, para datos censurados, son reiativarnente recientes habiendose ctesarrollado fundamentalmente en los últimos diez años. Las curvas que más han merecido atención en este contexto, y que comentaremos en lo que sigue, son la función de densidad, la función de razón de fallo, la función de distribución condicional y la función de re+gresión. f ^ i^ f>I^ 1 Ic ^ t^,I' 1 Z(^l ^ EST1MACiON DE LA FUNCiCiN DE DENSiDAD. E! método preferentemente desarrollado en este contexto, es el que se obtiene como una extensi+ón dei clásico Rosenblatt (1 95^6) - Parzen { 1 962). f^(X} ; (1 /nh„) ^ K 1 x - T, =1 K( i` 1 hn X'u )(1/h„)dF„fu) ^n ^ también conocido como método núcieo, donde f„ es la estimación de ia densidad f desconocida de 1a variable T, K la función núcleo, en genera! una densidad, h„ el Ilamado parámetro ventana y F„ la función de distribución empírica de la muestra de partida. Para una exhaustiva revisión sobre los métodos de estimación de densidad sin censura ver ei excelente artículo de Cuevas {1989). La obtención natural de un método de estimación de la densidad en este contexto es Ilevada a cabo sin más que carr^biar la distribución empirica F^ por el estimador de Kapian-Meier Fn, resultando f„(x) ^ j K( x u 1/1 fh„) dF„(u) _ h„ i { 1 f nh^ ) ^ '-' K { (x-Z,) /h„) ó; .. ( 1 - ^„(Z,) ) ^ donde G„ es el estimador de Kaplan-Meier de la variable que censura. Yandell (1 9$1 } obtiene el error cuadrático medio de dicho estimador aportando fa correspondiente ventana óptima teórica. Marron y Padgett { 1 986) proponen el método de validación cruzada para este contexto {cross validation), aportando propiedades de optimalidad asintótica de la ventana "cross validation" respecto de ia óptima teórica. Finalmente Diehl y Stute { 1 985) prueban propiedades de consistencia, dando errores de convergencia del tipo logaritmo iterado. Asimismo prueban resultados relativos a la convergencia débil tanto puntuaimente como globaimente. ESTIMACI^N DE LA FUNCICJN DE RAZON DE FALLO Varios procedimientos fueron elaborad©s para !a estimación de fa función de razón de failo r(t)=f(t)/(1 -F(t) ). La razón de ésto quizá sea atribuible a la gran importancia que tiene la razón de fallo en el cantexto de la fiabiiidad, camp© de naturai aparición de los datos censurados. I\F^F^^Kf \(^I ^\C1 1'^1Fi^^^1t T Rlt ^ (^O^ [)^T^Oti ( f^^l K^^f^x)S ^45 La primera idea también desarrollada por Yandell, siguiendo caminos paralelos al de !a estimación de la densidad, consiste en suavizar la razón de fallo acumulativa A(t) = f o ^(s) ds A a través de la estimación empírica A previamente intraducida en el epígrafe segundo, resultando ^„(t) _ .(^ ( 1 /h„) K ( t ,^ = l 1 /h„) ^ K ( ;_^ t - Zr;^ S ^ dñ (s) _ h„ ) (ar;^/ (n-í+ 1) ^ h„ EI propio Yandell (1981, 1983) propone camo estimador natural, teniendo en cuenta la forma de la expresión de la razón de fallo, a ^ ^ rntt) = f^(t)/(1 - F„(tl ) donde el numerador es la estimación de la densidad y en el denominador aparece el estimador de Kaplan-Meier. Teniendo en cuenta las propiedades de eficiencia del estimadar de Kaplan-Meier suavizado, Fernández Sotelo y González Manteiga (1 986) proponen sustituir la estimación de Kaplan Meier por la suavizada en el estimador anterior. Finalmente Tanner (1 983) y Cheng (1 987) proponen considerar en estimadores como las anteriores ventanas h„ que en vez de ser fijas dependan de la distancia al k-ésima dato más cercano, probando la eficiencia de estas estimaciones respecto de las anteriores en puntos de baja probabilidad. ES TIMA CION D E LA FUNCION D E D lS TRIB UCION COND lCIONA L Siguiendo la misma notación que en ^I epígrafe relativo a la regresión paramétrica con datos censurados, uno puede disponer además de la información que proporciona un cierto vector de cavariables X que puede ser determinístico, cuando se trata de un diseño fijo, o aleatorio cuando se trata de este otro tipo de diseño. De esta forma la muestra de partida viene dada por: F^T -1[)ItiT I( ^^ f til'•^tit1^ 1 { (^r^,.X,j },n, donde como siempre Z, = min {T,,C,}. Las distribuciones de interés son ahora las correspondientes condicionadas F(./X=x), G(./X=x) y H(./X=x), suponiéndose como siempre la independencia, en este caso condicional, entre T y C. EI ob^ etivo fundamental es la estimacián de F(./X=x), funcián de distribución condicional de la variable T al valor particular x del vector de covariables. Ba ^ o el contexto de censura son escasos los trabajos realizados en esta linea, destacanda Beran (1 981 ), Hórvath (1 981 ) y Dabrowska (1 987, 1989). En todos ellos se sigue un camino paralelo al contexto de ausencia de covariables, descrito previamente en este trabajo, estimándose inicialmente la razón de fallo acumulativa y posteriormente la función de distribución. EI problema más importante que resulta de dichas estimaciones es la no aplicabilidad a la estimación de la funcián de regresión m (x) = E tT/X^x) por la dificultad que entraña el desconocimiento de los saltos de la funcián de distribución condicional estimada usada en los articulos de Dabrovvska (1987, 1 989). Por esta razón recientemente hemos aportado (González Manteiga y Cadarso Suárez (1 989) ) un nuevo método de estimación del tipo Kaplan-Meier generalizado con covariables para la supervivencia condicianal 1-F(./X=x) dado por n 1 - ^ 1 {zr^ zJ} Bn,(X) ^ ^- r S n ( tlX=x}= 1 ^^.,1^^ , S1 t^ Z ln1 ^ 1 {zr y zJ^ f^^,(X) + B„^,(X) r-1 ,en el resto dande J^^(t) = 1{z1,, ^.^,^__, } e^ emplo del tipo Bn^(x} una sucesión generai de pesos, por y n Bnr(X) = K/^(x-Z^) / t ^ K,,ix-Z^) ) 1=1 con Kh(u) ={ 1/h) K{u/h), siendo K una fun-ción núcleo y h= h„ el parámetro ventana (Nadaraya (1964}-Watson (1964) i, o bien del tipo ItiF F.Kf.^( 1-1 tiO P-1K^1ti11 TFtI( ^(()ti l)•^lOti (. (`til K^^(X)ti Cin,(X) = I 1 /n) K,,(x'Z,) (Priestley-Chao (1972) ), ... etc. La formulación de este nuevo estimador es consecuencia natural de seguir los mismos pasos constructivos, pero en la versión condicional, Ilevados a cabo para obtener el estimador de Kaplan-Meier sin covariables a partir del estimador (2.1 ^. En efecto, dicho método de estimación generaliza a los existentes, así: i) Si no hay covariables B,,,(x) = 1/n, Kaplan-Meier previamente introducido. resultando el estimador de ii^ Si hay covariables pero no censura resulta la clásica estimación no paramétrica de la función de distribución condicional, y finalmente iii) Si no hay censura ni covariables resulta el estimador ernpírico. Por otro lado, de este estimador es fácil conocer los saltos dando lugar de forma natural a un estimador no paramétrico de la función de regresión con datos censurados (el primero a nuestro juicio en la literatura existentel, resultando m„(x) = J t d(1 - ^ „(t/X=x) )= E r= ( Z; ó; B,,; (x) 1 - G„ (Z;^X=X) ] r donde G„ es el estimador de Kaplan-Meier generalizado con covariables de la distribución de la variable que censura. Este estirnador generaliza a los existentes para el contexto de ausencia de censura, ya que en ese caso ^ „=0 y ^,=1 para todo i, resultando la formulación general de los estimadores no paramétricos de la función de regresión ( H^rdle ( 1 990) ). A PL lCA CIONES. Una de las aplicaciones más importante, consecuencia de la elaboración de un estimador no paramétrico de la función de regresión con datos censurados, es la consiguiente estimación de los parámetros de un modelo de regresión lineal con datos censurados. En efecto siguiendo la línea de González Manteiga (1 988 ^ , suponiendo el modelo T = A`(X) f^ + F t ti 1^[)tti T I( ^[^T'^1tO[ ^^ en él que ^.^ es un parámetro ,p-dimensional, objetivo de nuestra estimación, y A un funcional de RQ en R^', y considerando e! estimador no paramétrico de la función de regresión previamente introducido, bajo la suposición de que ^ sea un error aleatorio de media cero se define una nueva clase de estimadores de %3 como aquélla que minimiza el funcional `^ (j^) = .^ (m„(x1 - A`(x)Í^)^ d^„(x) donde S2„ es una función de ponderación. En base a la muestra inicial con datos censurados y tomando como S^„ la distribución empíríca sobre las cavariables { X,,...,X„ }, el nuevo estimador viene dado por ^ [ G. i-1 A(x;) A`(x;? ] -^ r ^ ^(x;),nn(x;) ] (, i-1 donde obviamente m„ es cuálquier estimador no paramétrico piloto inicial. Este método no adolece de ias dificultades computacionales de los métodos de Miller (1 976} y Buckley-James (1979), ya que no es recursivo. Por otro lado esta elaborado sin hípótesis restrictivas, propias de las métodos de Koui-Susarla-Van Ryzin { 1981 a, i 981 b, 1 982). A su vez es una generalización del método de mínimos cuadrados para situaciones de ausencia de censura, sin mas que tomar como estimador no paramétrico el degenerado n ll^n{Xj = ^ ^ ^ T; ^ r-1 Una buena propiedad que presenta esta clase de estimadores, cuando no existen datos censurados, es la eficiencia en muestras pequeñas con respecto al estimador de mínimos cuadrados. Dado que nuestro contexto es el de datos censurados, realizamos en lo que sigue un estudio de simulación comparando !a nueva clase con todos los métodos introducidos en e! epígrafe anterior. Para ello se simula el modelo Z; = m i n { T;, C; } donde T;=2+0.01Z,;+0.5Z2; C; = 2+ 0.01 Z,, + 0.5Z2i +^; con i= 1,...,n, siendo ^; una normai de media cero y desviación típica ^r y^, una normal independiente de la anterior de media tl y desviación típica rr, garantizándose de esta forma la independencia condicional entre T y C. I^IF^E RF.tiI('1-1 ti() P-^R7!^1E TR1('A ('<)ti DA-T-()S ('f tiSl R^1[X1S ^^y EI número de réplicas con que se simula el modelo anterior es N para distintos valores de n,^ y 0. Por otro lado se considera en la simulación que las covariables Z del modelo siguen una distribución uniforme en el cuadrado unidad ^0,1 J x[0,1 ]. A su vez el criterio con él que se comparan los distintos métodos es el error cuadrático medio multidimensional, es decir ,. ,. ? M.S.E.(^)= ^ ;=o [1 N ;_^ ^i^,-^^1^ / +(1^N)^ 1 aproximación, en base a las distintas réplicas, del error cuadrático medio ^. multidimensional teórico, en donde, ^; , representa la estirnación de la i-ésima ^ componente de ^^ construída a partir de la j-ésima muestra simulada y^; es el promedio de dichas estimaciones. Finalmente el porcentaje de censura puede ser bien cantrolado en función de las distribuciones de los errores simulados resultando % Censura = ^ 1 - ^ ^ -^ Q^ ^ ^ 100% donde ^ es la función de distribución de la normal estándar. Considerando simulaciones previas hemos seleccionado como métodos competitivos los de Miller (1976), (6.1), Buckley-James (1979), (6.2) y el de Buckley-James modificado introducido por Koul-Susarla-Van Ryzin (1982). A su vez para la nueva clase de estimadores se toma como estimador no paramétrico de la función de regresión el método núcleo de Nadaraya-Watson con núcleo uniforme y con las distintas ventanas 0.6, 0.6 5, 0.7 5 y 0.8, obten iéndose los resu Itados descritos en las tablas 1-12. De dichos resultados se puede deducir el buen funcionamiento de los nuevos estimadores que presentan un error cuadrático medio enormemente más pequeño respecto a los otros métodos a medida que aumenta la varianza del error o el porcentaje de censura. Cuando la desviación típica es muy pequeña el efecto de la suavización inicial se hace despreciable presentando un funcionamiento similar a los métodos del tipo Buckley-James pero peor que el método de Miller (1 976). f^ tii 11)Iti l l( ^^ t til'ttit)I ^1 Por otro iado la elección de los cuatro valores distintos para la ventana está únicamente encaminada a analizar la posible forma de U del error cuadrático medio y es obviamente independiente del tamaño muestral. Dicha farma para la función error cuadrático medio es apreciada en porcentajes bajos de censura. En efecto cuando el porcentaje aumenta la ventana óptima se encuentra para valores superiores a ios elegidos para el estudio de simulación. A su vez en estudios elaborados por nosotros recientemente parece apreciarse un buen funcionamíento del método de validación cruzada para una eiección automática inicial de la ventana tGanzález Manteiga-Cadarso Suárez (1 990) ). TABLA 1: n-25, 16°I° de ce^sura y N= 1000 rr 0. 1 MlLLER 0 . 02581 BUCKLEY JAMES 0 . 1 7008 BUCKLEY JAMES MOD. 0,27376 ESTIIVIACION SUAViZADA 0.28293 0.26103 0.261 97 0.27054 0.4231 7 0.5 0.40053 0.65244 0.69927 0.33482 0.29297 o.287sa 0.68680 . 1 1 . 57567 2 . 01 6+D2 1.95569 0.5091 7 0.37390 0.341 87 1 .62361 2 6 . 24627 7 . 23230 7.16742 1.12500 0.671 84 0.5571 6 I^I 1 Ftf ^+( I^ ti(1 f' ^ft ^tit{ I kl( \(()\ f) 1 T(1^, ^ F\^,I K^Ix^ti TABLA 2: n=25, 33% de censura y N= 1000 ^ MILLER BUCKLEY BUCKLEY ESTIMACION JAMES JAMES MOD. SUAVIZADA , 0.1 0.5 1 2 0.03944 0.52823 2.04109 8.08201 0.36190 0.54301 0.95236 2.631 16 9,01742 0.65451 0.48877 0.33499 0.31058 1.01301 0.84245 0.61971 0.38599 0.342 74 2.56330 1.28759 0.90604 0.50726 0.42751 8.69837 2.68961 1 .83080 0.93486 0.73327 TABIA 3: n=2 5, 50% de censura y N= 10t^0 c^ MILLER gUCKLEY JAM ES BUCKLEY JAM ES MOD. ESTIMACION 5UAVIZADA 1 .401 52 0.1 0.5 0.06487 0.74603 0.97369 0.97065 1.71338 1.69312 0.98577 0.57198 0.47448 1 .681 13 1.1 1 139 0.60014 Q.50220 2.43340 1 2 2.87294 1 1.31367 4.39953 13.91292 , 4.25516 13.70472 1 .60733 0 82730 0.65721 4.64209 3.05158 1 .50346 1.13734 ^5? FS T-1 [)I^T I(^ ^ f tiF' ^ tiC3t A TABLA 4: n=25, 67% de censura y N= 1000 a 0,1 MILLER 0.12893 BUCKLEY JAMES 1.18697 BUCKLEY JAMES MOD. 1.7 4233 ESTIMACION SUAVIZADA 3.{J5742 2" 13021 1 .1 2051 0.84533 3.14021 0.5 2.39126 4.1 1 C^26 3.75469 2.21491 1 .1 6584 0.89282 3.?9464 1 2 9.36609 37.25566 7.98803 22.12668 6.$7453 17.34526 2.73035 1.46332 1.14852 5.93612 4.33053 2.39933 1.91 902 TA B LA 5: n- 50, i 6 % de censura y N= 1000 a MILLER BUCKLEY BUCKLEY ESTIMACION JAMES JAMES MOD. SUAVIZADA 0.18272 0.1 0.5 1 0.01067 0.16842 0 . 65419 O.C^3233 0.22156 0 . 78910 0.0245E 0.23412 0.7031 1 0.19396 0.23425 0.2551 1 0.24499 0 . 22950 0.24434 0.25976 0.38438 0.32189 0.28527 0.28706 2 2.61338 2.99318 2.86345 0.83(J48 0.63027 0.43297 0.39397 i`^F f KF ^<'I^1 tit) I'-^R ^titf ^T RI( 1 (`()\ [)^^^ 1(1^ ( E\^1 Ft ^fX)1 TABLA fi: n=50, 33°^6 de censura y N= 1000 a 0.1 MILLER 0.02078 BUCKLEY JAMES 0.05981 BUCKLEY JAMES MOD. ESTI MACION SUAVIZADA 0.04869 0.32 504 0.28378 0.26496 0.26988 0.47949 0.5 1 0.25393 0.97448 0.30879 1.00613 0.32876 0.97656 0.37498 a.28828 a.28o62 0.73232 0.54765 0.35556 0.32 542 1.55648 2 3.82797 3.69026 3.58654 1.1 1016 0.60719 0.50133 TABLA 7: n=50, 50% de censura y N= 1000 Q MILLER BUCKLEY JAMES BUCK^LEY JAMES MOD. ESTIMACION SUAVIZADA 0.77755 0.1 0.03738 0.11376 0.09563 a.60720 0.402 8 8 0.35054 0.5 1 0.35452 1.33385 0.40308 1.24980 0.47632 0.92302 0.6581 1 0.40012 0.35596 1.16655 1.33125 0.9342 5 0.52142 0.4442 7 2.5421 4 2 15.24449 4.46359 4.25786 1.75938 0.90663 0.72650 Ftit ^()Itiflt ^ F^F'^\t)t > TABLA 8: n-SU, 67% de censura y N= 1000 ^ MILLER BUCKLEY JAMES BUCKLEY JAMES MOD. ESTIMACION SUAVIZADA 1 .84808 0.1 0.05460 0.3001 5 0.1 9840 1.34107 0.7 3 503 0.59590 1 .89907 0.5 0.5á125 0.71262 O.fi4367 1.32506 0.7241 7 0.59014 1 2.14146 1.97736 1.54685 2.49239 1.73859 0.94183 0.76129 4.28461 2 8 . 43407 6 . 62410 6 . 43898 3^Q1 508 1 .61045 1.29007 TABLA 9: n=100, 1 6% de censura y N= 1000 ^ MILLER gUCKLEY JAMES BUCKLEY JAMES MOD. ESTIMACICJN SUAViZADA 0.1 81 24 0.1 0.00579 ^J.O1023 0.00854 0•23830 0.29083 0.32407 0.5 0.09998 0.10441 0 . 10035 0.2U1 72 0.24343 0.28703 0.31 635 0.2491 1 1 2 0.39452 1.55499 0.38478 1.49812 0.3654$ 1.35$02 0.26370 0.29567 0.31 957 0.41 544 0.34460 0.33547 0.34529 Itil f Kt ti( I ^ ti(^ f'^K ^titf I KI( ^ c(^^ O^ Ic^ti ^ I"I K 1fN>ti TABLA 10: n=100, 33% de cens^^ra y N= 1000 rr 0. 1 MILLER 0 . 01 15$ BUCKLEY JAMES 0 . 01439 BUCKLEY JAMES MOD. 0 . 01245 ESTIMACION SUAVIZADA 0.22320 0 . 2 5002 0.28823 0.31937 0. 5 1 2 0 . 14760 0.57399 2.26951 0 . 12180 0.43960 1.69044 0.11658 0.26592 0.25650 0.2 8100 0.304 7 5 0.44389 0.35466 0.28791 0.2 912 0 0.308 7 6 1.63987 0.65663 0.4191 5 0.35080 0.34746 TABLA 1 1: n=100, 50% de censura y N= 1000 ^r MILLER BUCKLEY JAMES BUCKLEY JAMES MOD. ESTIMACION SUAVIZADA 0.3472 7 0.1 0.5 1 0.02088 0.21681 0.82 2 59 0.02161 0.14973 0.52 610 0 . 02087 0.13677 0.50643 0.29532 0.29974 0.31832 0.39002 0.29868 0.29216 0.30676 0.53666 0.36080 0.31936 0.32262 1 .^1^201 2 3.22168 2.00237 2 . 00221 0.57^50 0.4^-^ 12 0.4037 5 t^^r ^^^ c^i ^; r ic .^ t ti r-^ `c^ t^^ TABLA 12: n=100, 67% de censura y N= 1000 ^ MILLER BUCKLEY JAMES BUCKLEY JAMES MOD. ESTIMACION SUAVIZADA 1.40991 0.1 0.03815 0.04052 0.04115 0.77695 0.47323 0.3 5108 1.73601 0.5 0.3381 1 0.21507 0.23417 0.86299 0.49810 0.36806 1 .1 5791 1 2 1.26498 4.95585 0.73553 2.76028 0.71231 2.11345 0.63314 0.45074 0.42327 2.092 51 1.08331 0.71462 0.64022 A pesar del buen funeionamiento ^que presenta !a nueva clase de estimadores en !a práctica uno ha de ser prudente en ia elección del estimador piloto no paramétrico inicial. En efecto exponemos en lo que sigue un ejemplo ilustrativo relativo a la importancia de esta elección. Se considera una muestra de tamaño n=70 correspondiente al logaritmo en base 10 de !os tiempos de seguimiento correspondientes a enfermos de adenocarcinoma renal desde el día en que se les somete a tratamiento quirúrgico, siendo la entrada de pacientes serial desde Enero de 1970 hasta enero de 1990. EI conjunto de estas datos ha sido aportado por el Servicio y Cátedra de Urología del Hospital General de Galicia. De entre las covariabies de interés tratadas en ei estudio de estos datos (Cadarso Suárez 11 990) ) nos centraremos aquí para nuestro propósito en la covariable velocidad de sed^mentación globular (VSG ). Representando por + el dato censurado y por x el no censurado, la figura 1 3 muestra un plot de los datos con un 38,6°I° de censura. A su vez muestra la estimación no paramétrica de la función de regresión en trazo continuo y la correspondiente estimación paramétrica lineal con la nueva metodología, utilizándose una ventana de validación cruzada con el método núcieo en el estimador piloto no paramétrico. I`f f Ftf `(^I ^ tic^ f^1Ft^ltitf Tltlc ^ (()^ f)^T^^ti( E^tit El ^()c^ti ^57 ^a tendencia de crecimiento proporcionada por !a recta es contraria a la opinión a priori proporcionada por los urólogos, Por otro lado la estimación no paramétrica y por tanto la paramétrica presenta unos valores bajos de carácter pesimista en función del VSG también en contra de la opinión generalizada de los médicos. Un análisis más profundo de los datos nos indicó el carácter asimétrico de la censura, observándose que en general los datos censurados eran los más grandes produciendo estimaciones, no paramétricas basadas en promedios de los valores más bajos. Una estrategia adecuada para la corrección de este defecto en este conjunto de datos fué la consideración de otro estimador no paramétrico que tuviese más en cuenta los datos censurados. De esta forma teniendo en cuenta la misma idea de Buckley-James (1 979) de sustituir la variable T no observable en general por otra que siga el mismo modelo dada por ,. Z^ = rS Z+(1 -^) E(Z/T > Z) cón n ^ Zj^1 -C^^jÍ B„^ ^X^ É(Z/T > Z)= É(Z/^S=o)= j=1 n ^ í1-ój^ g„jÍx) J=1 es posible definir un nuevo estimador no paramétrico de la función de regresión a través de n m„ (x) _ ^ Z * B,,; (x) ,^ ^ Tomando este estimador como piloto no paramétrico y aplicándolo en la estimación de los parámetros del modelo de regresión lineal con la nueva metodología resultan las gráficas reflejadas en la figura 1 4. En dicha gráfica se puede observar el pesimismo corregido de la otra estimación no paramétrica y la tendencia lineal esperada por los urólagos. AGRADECIMIENTOS Nuestros agradecimientos a los dos referees por su lectura crítica y constructiva que sin duda mejoró notablemente la presentación de este trabajo. ^St^ Fsr^tt^itir^t :^ E ^F^^^^c^t a _..____^...^ ^ LOGC T) _C DI^S) 4. G^ I 3. 2 + + Y ^ 2. 4 _^ .. v T ^' ^C,+ x x ^-+ ^c-.^.-^` ,^, _^ ^- ^ ,^. x ^ ~ x x ^^.- ^r _ _^ X ^ X X ^ x + 1. 6 ^ X X ^ ^--r X X X X X X X m^^^^^ ^ ,^^^^TTÍ^^^^^Í^Í^^ I I ! Í ^2. ^7 ', ^ ^ 64 .^ ^ ^6. a 128. C^_ 6^. P^ ^V S G ^^ Figura: 13 LOG( T) _ C DI^S) ^ --+------- 40 3. 2 F 3 + + ^x ^ ^ ,* x + x x + + + x x x + x ^oc ^ ^ x x x xx x -^- x x x i. 6 x x 8 x x --^c r @ Figura: 14 ^2. @ 64, @ 9^. @ 128. ^16@. 0 11iF F RF \( 1^ tiO F'^1Ft-1!^1f F RI( •^ (()\ [)^11 l)ti ( I\til k^IX)ti 7. 359 BI BLIOGRAFIA AKRITAS, M. G. { 1988), " Pearson-type goodness of fit tests: The univariate case", J.A.S.A., Vol. 3, 401, 222-230. AZZALINI, A. (1981), "A note on the estirnation of a distribution function and quantiles by a kernel method". Biometrika, 68, 326-328. BERAN, R. 11 981 ), "Nonparametric regression with randomly censored survival data". Technical report, Univ. California, Berkeley. P. (1968), "Weak convergence of probability measures'". Wiley, New York. BILLINGSLEY , BRES^ow, N. y CROWLEY, J. (1974), "A large sample study of the lífe tabfe and product-limit estimates under random censorship". Ann. of Stat., 2, 437-453. BUCKLEY, J. y JAMES , I. (1979), "Linear- regression with censored data'", Biometrika, 66, 429-436. CADARSO, SUÁREZ, (1 990), "'Nuevos aportes a la regresián paramétrica y no paramétrica con datos censurados`". Tesis Doctoral. Universidad de Santiago de Compostela. Cox, D. R. t 1972), "Regression models and life tables'" (with discussion), J. R. Stat. Soc. B, 34, 1 87-202. Cox, D. R. { 1975), " Partial likelihood'", Biometrika, 62, 269-276. CuEVAS, A. { 1989), '" Una revisián de resultados recientes en estirnación de densidades"'. Estadística Española, 31, 120, 7-62. CHANG, M. y RAO, P. (1989), "Berry-Esseen bound for the Kaplan-Meier estimator". Commun. Stat. Theory Meth. 18, 12, 4647-4664. CHENG, P. (1 987), " A nearest neighbor hazard rate estimator for randomly censored data". Commun, Stat. Theory Meth., 1 6, 3, 61 3-625. DABROWSKA, D. { 1 987), " Nonparametric regression with randomly censo- red survival data". Scand. J. Stat. 14, 1 81-197. DABROWSKA, D. (1989), " Uniform consistency of the kernel conditional Kapian-Meier estirndte'^. AF-^^-^. uf S^d^. í 7, 3, i 1 57- i 1 6 i. DIEHL, S. y STUTE, W. (1985), " Kernel density estimation in the presence of censoring". Technical report, Univ. G iessen. DIKTA, G., KuRTZ, B. y STUTE , W. (1 989), "Sequential fixed-width confidence bands for distribution functions under random censoring"". Metrika, 36, 167-176. ^ ^ l) ! til ^(}Itil l( 1 f ^.I'^`( ^ ^ ^ FALK, M. (1 983), "Relative efficiency and deficiency of kernel type estimators of smooth distribution functions". Stat. Neerlandica. 37, 2, 78-$3. FALK, M. { 1 984), "Relative deficiency of kernel type estimators of quantiles" Ann. Stat., 12, 261-268. FALK, M. (1 985), "Asymptotic normality of the kernel quantile estimator". Ann. Stat., 13, 428-433. FARALDO ROCA, P. y GONZÁLEZ MANTEIGA, W. ( 1 984), "Obtención del SesgO, varianza y error cuadrático medio de una familia axiomática de estimadores no paramétricos para funciones de distribución. Actas del XIV congreso naciona I de la S E I O. G ranada. 180-1 91. M. A . y GONZÁLEZ MANTEIGA, W. (1986), "Suavización no paramétrica en fiabilidad"'. Trabajos de Estadística. 1, 2, 1 3-36. FERNÁNDEZ SOTELO , A. y REJTO , L. (1 981 ^, "A L1L type result for the product limit estirnator". Z. Wahrscheinlichkeitstheorieverw. Gebiete. 56, 75-86. FbLDES , GONZÁLEZ MANTEIGA, W. (1988), "Una perspectiva general con nuevos resultados de !a aplicación de la estimación no paramétrica a la regresión lineal". Estadística Española. 30, 1 18. 141-1 79. GONZÁLEZ MANTEIGA, W. (19901 , "ASymptotiC normality Of generalized functional estimators dependent on covariables". Journal or Stat. Planning and Inference. 24, 377-390. Inference'using parametric and nonparametric estimation. The censored data case". 47. GONZÁLEZ MANTEIGA, W. y CADARSO SUÁREZ, C. ( 1 989), " Session of the ISI. Paris. 387-388. GONZÁLEZ MANTEIGA, W. y CADARSO SUÁREZ, C. ( 1 990), "Linear regression with randomly right-censored data using prior nonparametric estimation". NATO. Advanced Study Institute on Nonparametric Functional Estimation and Related Topics. Kluwer. (en prensa). GHORAY, J. (1989), "Deficiency of the MLE of a smooth survival function under the proportional hazard mOdel". Commun. Stat.- Theory Meth. 1 8, 8, 3047-3056. HALL , W. J . y WELLIVER , J. A. (1980), "Confidence bands for a survival curve from censored data". Biametrika. 67, 133-143. HÁRDLE, W. (1 990), "Applied nonparametric regression". Cambridge Press. HORVÁTH, L. 11 982), "On nonparametric regression with randomly censored data'". Proc. of the third Pannonian Symp. 105-1 1 3. HuBER, P. J. { 1964), "Robust estimation of a location parameter". Ann. Math. Stat. 35, 73-101. Itif f RI ^( 1 1 ^tt F'^R ^\11 I R1( 1<^c^ ♦ O^ f^^ti t t^til R^^(X)^ KAPLAN, E. L. y MEIER, P. (1958), "Nonparametric estimation from incomplete observations"'. J.A.S.A. 53, 457-481. Kou^, H. L., SUSARLA, V. y VAN RYZiN, J. (1 981 a), '"Regression analysis with randomly right censored data". Ann. Stat, 9, 6, 12 7 6-1288. . (19$1 b}, "Least squares regression analysis with censored survival data"'. Technical Report. (recibido por cOmunicación personal). KOuL, H. L., SUSARLA, V y VAN RYZIN, .J Kou^, H. L., SusAR^A, V y VAN RYZiN, J. (1982), "Multi-step estimation of regression coefficients in a linear model with censored survival data". I.M.S. Lecture Notes, Val. 2, 86-100. Asymptoticatly optimal bandwidth selection for kernel density estimators from randomly right-censored samples". Ann. of Stat. 1 5, 4, 1 520-1 535. MARRON, J. S. y PADGETT, W. J. (1 987), " MILLER, R. G. (1976), "Least squares regression with censored data". Biometrika, 63, 449-464. NADARAYA, E. (1964), " On estimating regression". Theory Prob. Appl., 9, 141-142. NAIR, V. ( 1984}, "Confidence bands for survival function with censored data: A comparative study". Technometrics, 26, 3, 265-275. PARZEN, E. ( 1962 ), " On estimation of a probability density and mode"". Ann. M ath. Stat., 3 3, 106 5-107 6. PRIESTLEY, M. B. y CHAO, M. T. (1 972), "' Nonparametric function fitting"`. Journal of the Royal Stat. Soc., serB, 34, 385-392. ROSENBLATT, M. (1 956), "Remarks on some nonparametric estimators of a density function". Ann. Math. Stat., 27, 642-669, SCHICK, A., SUSARLA, V. y Kou^, H. (1988), "'Efficient estimation of functionals with censored data". Stat and Decisions, 6, 349-360. SERFLING, R. J. (1 980), "Approximation Theorerns of Mathematical Statistics". Wiley, New York. STUTE, W. (1 986), "Parameter estimation in smooth empirical processes". Stochastic Process. Appl., 22, 223-244. TANNER, M. (1 983), " A note on the variable kernel estimator of the function from randomly censored data". Ann. Stat. 1 1, 3, 994-998. WATSON, G, S. (1 964), " Smooth regression analysis", Sankhya SerA, 26, 359-372. ^6_' t-^; r Ar^is r ic -^ t^^ t>^^c^t ^ YANDELL, B. S. (19$1 ), " Nonparametric inference for rates and densities with censored serial data"'. Tesis Doctoral. Universidad de California, Berkeley. YANDELL, B. S. (1983^, " NOnparametric inference for rates with censored su rvival data". Ann. of Stat. 1 1, 4, 1 1 19-1 13 5. YANG, S. ^ 1981), " Linear functians of concomitants of order statistics with application to nonparametric estimation of a regression function". J.A.S.A., 76, 658-662. NONPARAMETRIC INFERENCE WHIT CENSORED DATA SUMMARY In this paper the nonparametric inference with censored data, developed in the last fifteen years is reviewed. The topics here considered are relative to the random right censoring including the Daplan-Meier estimator with its applications to functional estimation, testing hypothesis, confidence intervals, linear regression and c:^rve estimation. Some application are also included and compared with the reviewed methods using simulations and rea^ data. Key wo^ds.^ Kaplan-Meier estimator, random right censoring. ^4 MS Classifíeation: 6 2 G 0 5.