Paquete de Programas para el Análisis y Manejo de Datos

Anuncio
IDAMS
Paquete de Programas
para el Análisis y Manejo de Datos
Desarrollado Internacionalmente
Manual de Referencia de WinIDAMS
(versión 1.3)
Abril de 2008
c UNESCO 2001-2008
Copyright Publicado por
UNESCO, Organización de las Naciones Unidas
para la Educación, la Ciencia y la Cultura
7, Place de Fontenoy
75352 Paris 07 SP, Francia
Tı́tulo de la obra original:
WinIDAMS Reference Manual (release 1.3)
c 2001-2008 by UNESCO
Primera edición en inglés por la UNESCO en 1988
Traducción en español:
Prof. Bernardo LIEVANO
Profesor de Fisica y Matemáticas
Escuela Colombiana de Ingenierı́a, Bogota, Colombia
ISBN 92-3-102577-5 (UNESCO - versión en inglés)
Prefacio
Objetivos de IDAMS
La idea en IDAMS, es poner a disposición de los Estados Miembros de UNESCO, exento de costo, un
paquete de programas para el manejo y el análisis estadı́stico de datos. IDAMS utilizado en combinación con
CDS/ISIS (programas de UNESCO para la administración y recuperación de datos de texto), entrega a los
Estados Miembros de un paquete de programas integrado que permite el procesamiento de datos de texto
y numéricos de una manera unificada para propósito cientı́fico y administrativo en universidades, institutos
de investigación, administraciones nacionales, etc. El objetivo final es ayudar a los Estados Miembros a
progresar en la racionalización del manejo de sus diversos sectores de actividad, objetivo crucial para el
establecimiento de planes de desarrollo adecuados y las correspondientes monitorı́as de su ejecución.
Origen y breve historia de IDAMS
IDAMS proviene originalmente del paquete estadı́stico OSIRIS III.2 desarrollado al comienzo de la década
de los años 70 en el Instituto para la Investigación Social de la Universidad de Michigan en los Estados
Unidos de América. Ha sido y continua siendo enriquecido, modificado y puesto al dia por el Secretariado
de la UNESCO con la cooperación de expertos de diferentes paises, a saber: especialistas Bélgas, Británicos,
Colombianos, Eslovacos, Estadounidenses, Franceses, Húngaros, Poloneses, Rusos y Ucranianos; de ahı́ el
nombre “Internationally Developed Data Analysis and Management Software Package”, en castellano “Paquete de software para el análisis y manejo de datos desarrollado internacionalmente”.
Inicialmente, IDAMS se diseñó para computadores grandes de tipo IBM
La primera versión (1.2) salió en 1988; tenı́a la mayorı́a de las facilidades de manaejo y análisis de datos. A
pesar de que se tomó un número básico de rutinas y programas de OSIRIS III.2 éstos fueron substancialmente
modificados y se adicionaron nuevos programas consistentes en ordenamiento de puntajes, análisis factorial,
ordenamiento de alternativas y tipologı́a con clasificación ascendente. Se incorporaron recursos para manejo
de nombres de códigos y de documentación de programas. Los programas estaban acompañados del Manual
del Usuario, Listados de muestra y una Tarjeta de referencia rápida.
La versión 2.0 salió en 1990 con mejoras técnicas en varios programas, se reagrupadon dos programas para
calcular correlaciones de Pearson, por una parte, y otros dos programas para ordenamiento de alternativas
por rangos, por la otra.
La versión 3.0 salió en 1992; tenı́a mejoras significativas tales como: armonización de parámetros, palabras
clave y sintáxis de proposiciones de control, posibilidad de verificar sin ejecución la sintáxis de las proposiciones de control, posibilidad de ejecutar programas con un número limitado de casos, armonización de los
mensajes de error, posibilidad de reunir y listar las variables de Recode, recodificación alfabética y seis nuevas
funciones aritméticas en la facilidad Recode. Se adicionaron dos nuevos programas para la verificación de
consistencias y análisis discriminatorio. Se incluyó el anexo con fórmulas estadı́sticas al Manual.
Nota: en 1993, después de la preparación de la versión 3.02 para los sistemas operacionales OS y VM/CMS,
terminó el desarrollo de la versión para compuadores mainframe.
Paralelamente, se adaptó IDAMS para microcomputadores bajo MS-DOS
El desarrollo de la versión para microcomputadores comenzó en 1988 y avanzó en forma simultánea con el
desarrollo de la versión para computadores grandes hasta la versión 3.0.
II
La primera versión (1.0) salió en 1989, con las mismas facilidades de la versión para computadores
grandes.
La versión 2.0 salió en 1990 y era totalmente compatible con la versión para OS. Es más, suministraba en
la Interfaz del Usuario, facilidades para preparar el diccionario, entrada de datos, preparación y ejecución
de archivos de setup e impresión de resultados.
La versión 3.0 apareció en 1992 junto con la versión para OS. Sin embargo, la Interfaz del Usuario era
mucho más amigable ya que tenı́a nuevos editores para el diccionario y los datos, ofrecı́a un acceso directo
a prototipos de setup para todos los programas y se enriqueció con un módulo para exploración interactiva
gráfica.
Las dos versiones intermedias (3.02 y 3.04) que salieron en 1993 y 1994 respectivamente, incluı́an mejoras
técnicas internas y la depuración de los programas. La versión 3.02 fué la última totalmente compatible con
la versión de computadores grandes.
La existencia independiente de micro IDAMS comenzó en 1993. Los programas se sometieron a pruebas
completas y sistemáticas, especialmente en el área del manejo de errores del usuario y se hizo una depuración
total.
La versión 4.0 que apareció en 1996 (última versión para DOS) incluye una Interfaz del Usuario más amigable, posibilidad de ambiente personalizado, Manual del Usuario en linea, lenguaje de control simplificado,
nuevas modalidades de presentación gráfica y capacidad de producir versiones en distintos idiomas. Dos
nuevos programas aparecieron para dar al usuario técnicas de análisis de conglomerados y de búsqueda de
estructura. Se reorganizó el Manual del Usuario para presentar los tópicos de una manera más concisa y más
fácil de consultar. Inicialmente estaba sólo en inglés.
Desde 1998, la versión 4 se desarrolló progresivamente en Español, Francés, Arabe y Ruso.
2000: primera versión de IDAMS para Windows y desarollo posterior
La versión 1.0 de IDAMS para el sistema operativo gráfico Windows de 32 bits se puso a prueba en 2000
y su distribución se inició en 2001. Ofrece una moderna Interfaz del Usuario, nuevas caracterı́sticas para
facilitar el uso y acceso en lı́nea al Manual de Referencia con la ayuda estándar de Windows. Nuevos componentes interactivos de análisis suministran herramientas para construcción de tablas multidimensionales,
la exploración gráfica de datos y análisis de series de tiempo.
La versión 1.1 salió en septiembre de 2002 con las siguientes mejoras: (1) externalización de textos para
el uso de los programas en otros idiomas además del inglés; (2) concordancia de los textos en los resultados.
Fue una primera versión para Windows que apareció en inglés, francés y español.
La versión 1.2 salió en julio de 2004 en inglés, francés y español, y contiene nuevas funciones en tres
programas, en la Interfaz del Usuario, y en los componentes interactivos para la exploración gráfica de datos
y el análisis de series de tiempo. Ella salió en abril 2006 en portugués.
La versión 1.3 salió igualmente en inglés, francés, español y portugués, y contiene un nuevo programa para
análisis de variancia multivariado (MANOVA), cálculo de coeficiente de variabilidad en cuadro programas,
mejorı́a de tratamiento de variables de Recode con decimales en SCAT y TABLES, y armonización completa
de la longitud de registro de datos.
Reconocimientos
En primer lugar, se debe agradecer al profesor Frank-M. Andrews († 1994) del Instituto para la Investigación
en Ciencias Sociales de la Universidad de Michigan, Estados Unidos de América, y a este Instituto el cual
autorizó a UNESCO tomar el código fuente de OSIRIS III.2 para usarlo en el desarrollo del paquete de
programas IDAMS. A partir de entonces, continuó el aporte de adiciones y mejoras sustanciales. En este
aspecto, fueron particularmente importantes: el Dr. Jean-Paul Aimetti, Administrador de D.H.E. Conseil,
Paris y profesor en el Conservatoire National des Arts et Métiers (CNAM), Parı́s (Francia); los profesores J.P. Benzécri y E.-R. Iagolnitzer, U.E.R. de Mathématiques, Université de Parı́s V (Francia); el ingeniero Tibor
Diamant y el Dr. Zoltán Vas de la Universidad József Attila, Szeged (Hungrı́a); la profesora Anne-Marie
Dussaix, Ecole Supérieure des Sciences Economiques et Commerciales (ESSEC), Cergy-Pontoise (Francia);
el Dr. Igor S. Enyukov y el ingeniero Nicolaı̈ D. Vylegjanin, StatPoint, Moscú (Federación Rusa); el Dr
III
Péter Hunya, quién fué Director del Laboratorio Kalmár de Cibernética, Universidad József Attila, Szeged
(Hungrı́a), y quien fué el Administrador del Programa IDAMS en UNESCO entre julio 1993 y febrero 2001;
Jean Massol, EOLE, Parı́s (Francia); la profesora Anne Morin, Institut de Recherche en Informatique et
Systèmes Aléatoires (IRISA), Rennes (Francia); Judith Rattenbury, ex-directora, Data Processing Division,
World Fertility Survey, Londres y actualmente fundadora y cabeza de publicaciones SJ MUSIC, Cambridge
(Reino Unido); J.M. Romeder y la Association pour le Développement et la Diffusion de l’Analyse des
Données (ADDAD), Parı́s (Francia); el profesor Peter J. Rousseeuw, Universitaire Instelling Antwerpen,
Amberes (Bélgica); el Dr. A.V. Skofenko, Academia de Ciencias, Kiev (Ucrania); el ingeniero Neal Van Eck,
Philadelphia College of Textiles and Science, Philadelphia (EEUU); Nicole Visart quien lanzó el programa
IDAMS y quien, en adición a sus contribuciones técnicas en todas las etapas, aseguró la coordinación y el
monitoreo de todo el proyecto hasta su retiro en 1992.
Es imposible dar el crédito a todas las personas, además de las mencionadas, quienes han contribuido con
ideas y esfuerzo para IDAMS y para OSIRIS III.2 del cual se derivó IDAMS. Hasta ahora, IDAMS se
desarrolla principalmente en UNESCO. A continuación se presenta una lista de los principales programas,
componentes y facilidades incluidas en IDAMS, con los nombres de sus autores y programadores, y las
instituciones en las cuales se llevó a cabo el trabajo.
Interfaz del Usuario y facilidades básicas
Recodificación de datos
Ellen Grun
Peter Solenberger
Tibor Diamant
Jean-Claude Dauphin
ISR
ISR
UNESCO
UNESCO
Interfaz del Usuario
Jean-Claude Dauphin
UNESCO
Acceso en lı́nea al
Manual del Usuario
Pawel Hoser
Jean-Claude Dauphin
Polish Academy of Sciences
UNESCO
Facilidades para el manejo de datos
AGGREG
BUILD
CHECK
CONCHECK
CORRECT
IMPEX
LIST
MERCHECK
MERGE
SORMER
SUBSET
TRANS
Tina Bixby
Jean-Claude Dauphin
Carl Bixby
Sylvia Barge
Tibor Diamant
Tina Bixby
Jean-Claude Dauphin
Neal Van Eck
Tibor Diamant
Péter Hunya
Marianne Stover
Sylvia Barge
Jean-Claude Dauphin
Karen Jensen
Sylvia Barge
Zoltán Vas
Tina Bixby
Nancy Barkman
Jean-Claude Dauphin
Carol Cassidy
Jean-Claude Dauphin
Judy Mattson
Judith Rattenbury
Jean-Claude Dauphin
Jean-Claude Dauphin
ISR
UNESCO
ISR
ISR
UNESCO
ISR
UNESCO
Van Eck Computing Consulting
UNESCO
UNESCO
ISR
ISR
UNESCO
ISR
ISR
JATE
ISR
ISR
UNESCO
ISR
UNESCO
ISR
ISR
UNESCO
UNESCO
IV
Facilidades para el análisis de datos
CLUSFIND
CONFIG
DISCRAN
FACTOR
MANOVA
MCA
MDSCAL
ONEWAY
PEARSON
POSCOR
QUANTILE
RANK
REGRESSN
SCAT
SEARCH
TABLES
TYPOL
Tablas multidimensionales
GraphID
TimeSID
Leonard Kaufman
Peter J. Rousseeuw
Neal Van Eck
Tibor Diamant
Herbert Weisberg
J.-M. Romeder
and ADDAD
Péter Hunya
Tibor Diamand
J.P. Benzécri,
E.R. Iagolnitzer
Péter Hunya
Charles E. Hall
Elliot M. Cramer
Neal Van Eck
Tibor Diamand
Edwin Dean
John Sonquist
Tibor Diamant
Joseph Kruskal
Frank Carmone
Lutz Erbring
Spyros Magliveras
Tibor Diamant
John Sonquist
Spyros Magliveras
Neal Van Eck
Ronald Nuttal
Tibor Diamant
Péter Hunya
Robert Messenger
Tibor Diamant
Anne-Marie Dussaix
Albert David
Péter Hunya
A.V. Skofenko
M.A. Efroymson
Bob Hsieh
Neal Van Eck
Peter Solenberger
Judith Goldberg
John Sonquist
Elizabeth Lauch Baker
James N. Morgan
Neal Van Eck
Tibor Diamant
Neal Van Eck
Tibor Diamant
Jean-Paul Aimetti
Jean Massol
Péter Hunya
Jean-Claude Dauphin
Jean-Claude Dauphin
Igor S. Enyukov
Nicolaı̈ D. Vylegjanin
Igor S. Enyukov
Vrije Universiteit Brussel
Vrije Universiteit Brussel
Van Eck Computing Consulting
UNESCO
ISR
ADDAD
UNESCO
UNESCO
Université de Paris V
Université de Paris V
JATE
George Washington University
George Washington University
ISR
UNESCO
ISR
ISR
UNESCO
Bell Telephone
Bell Telephone
ISR
ISR
UNESCO
ISR
ISR
ISR
Boston College
UNESCO
JATE
ISR
UNESCO
ESSEC
ESSEC
JATE
Ukrainian Academy of Sciences
ESSO Corporation
ESSO Corporation
ISR
ISR
ISR
ISR
ISR
ISR
Van Eck Computing Consulting
UNESCO
ISR and Van Eck Computing Consulting
UNESCO
CFRO
CFRO
JATE
UNESCO
UNESCO
StatPoint
StatPoint
StatPoint
V
Con relación a la documentación, se debe agradecer a todas las personas que han aportado su colaboración, en particular a Judith Rattenbury quién redactó la primera versión del Manual en inglés (1988)
ası́ como la revisión de las versiones posteriores hasta 1998; Jean-Paul Griset (UNESCO, Paris) quien concibió junto con Nicole Visart el diseño tipográfico utilizado para el Manual hasta 1998; Teresa Krukowska
(grupo IDAMS, UNESCO, Paris) quién compiló los capı́tulos de las fórmulas estadı́sticas y a partir de 1998
mantiene al dı́a la versión original inglesa, hizo el nuevo diseño tipográfico y es responsable de la producción
electrónica de las versiones en inglés, español, francés y portugués, y se hace cargo de la concordancia de los
textos en inglés, español, francés y portugués hasta donde esto es posible.
Reconocimientos a los autores de los documentos de OSIRIS de los cuales se tomó material para el Manual
del Usuario de WinIDAMS, ası́: Volumen 1 del Manual del Usuario de OSIRIS III.2 (editado por Sylvia
Barge y Gregory A. Marks) y el Volumen 5 (compilado por Laura Klem), Insituto para la Investigación
Social, Universidad de Michigan, Estados Unidos de América.
De la misma manera, se agradece la cooperación a los traductores de la documentación y del paquete de
software en español, francés y portugués:
Profesor José Raimundo Carvalho, CAEN Pós-graduação em Economia, UFC, Fortaleza, Brasil, por
la traducción del Manual y de los textos que hacen parte integral de los programas en portugués.
Profesor Bernardo Liévano, Escuela Colombiana de Ingenierı́a (ECI) Bogota, Colombia, por la traducción del Manual y de los textos que hacen parte integral de los programas en español.
Profesora Anne Morin, Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Rennes,
Francia, por su contribución a la traducción de los textos que hacen parte integral de los programas
en francés.
Nicole Visart, Grez-Doiceau, Belgica, por la traducción del Manual en francés.
Las siguientes instituciones se han encargado de las traducciones en arabe y en ruso del paquete y del Manual:
ALECSO - Departmento de Documentación e Información, Túnez, Túnez, y Universidad Hidrometeorológica
del Estado Ruso, Departmento de Telecomunicaciones, San Petersburgo, Federación Rusa.
Solicitudes de WinIDAMS e información adicional
Para información adicional sobre WinIDAMS referente a contenido, actualizaciones, entrenamiento y distribución, por favor escribir a:
UNESCO
Sector de la Comunicación y la Información
División de la Sociedad de la Información
CI/INF - IDAMS
1, rue Miollis
75732 PARIS CEDEX 15
Francia
e-mail: [email protected]
http://www.unesco.org/idams
Índice general
1. Introducción
1.1. Interfaz del Usuario de WinIDAMS . . . . . . .
1.2. Facilidades para el manejo de datos . . . . . . .
1.3. Facilidades para el análisis de datos . . . . . .
1.4. Los datos en IDAMS . . . . . . . . . . . . . . .
1.5. Comandos de IDAMS y el archivo Setup . . . .
1.6. Caracterı́sticas estándar de IDAMS . . . . . . .
1.7. Importación y exportación de datos . . . . . .
1.8. Intercambio de datos entre CDS/ISIS e IDAMS
1.9. Estructura de este Manual . . . . . . . . . . . .
I
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Nociones fundamentales
1
1
2
3
5
5
5
6
6
7
9
2. Los datos en IDAMS
2.1. El dataset IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1. Descripción general . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2. Método de almacenamiento y acceso . . . . . . . . . . . . . . . . . . .
2.2. Archivos Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1. El arreglo de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2. Caracterı́sticas del archivo Datos . . . . . . . . . . . . . . . . . . . . .
2.2.3. Archivos jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.4. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.5. Códigos de datos faltantes . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.6. Valores no numéricos o en blanco en variables numéricas - datos malos
2.2.7. Las reglas de edición de las variables en salida de programas IDAMS .
2.3. El diccionario IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1. Descripción general . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2. Ejemplo de un diccionario . . . . . . . . . . . . . . . . . . . . . . . . .
2.4. Matrices IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1. La matriz cuadrada IDAMS . . . . . . . . . . . . . . . . . . . . . . . .
2.4.2. La matriz rectangular IDAMS . . . . . . . . . . . . . . . . . . . . . .
2.5. Uso de datos de otros paquetes . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.1. Datos primarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.2. Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
11
11
11
11
12
12
12
13
13
13
14
14
16
16
17
18
20
20
20
3. El archivo Setup de IDAMS
3.1. Contenido y propósito . . . . . . . . . . . . . .
3.2. Comandos de IDAMS . . . . . . . . . . . . . .
3.3. Especificación de archivos . . . . . . . . . . . .
3.4. Ejemplos de uso de comandos $ y especificación
3.5. Proposiciones de control de programa . . . . .
3.5.1. Descripción general . . . . . . . . . . . .
3.5.2. Reglas generales de codificación . . . . .
3.5.3. Filtros . . . . . . . . . . . . . . . . . . .
3.5.4. Tı́tulos . . . . . . . . . . . . . . . . . .
3.5.5. Parámetros . . . . . . . . . . . . . . . .
3.6. Proposiciones de Recode . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
21
23
23
25
25
25
25
27
27
31
. . . . . . .
. . . . . . .
. . . . . . .
de archivos
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ÍNDICE GENERAL
VIII
4. Facilidad Recode
4.1. Reglas de codificación . . . . . . . . . . . . . . . . . . . . . .
4.2. Conjunto de muestra de proposiciones Recode . . . . . . . . .
4.3. Tratamiento de datos faltantes . . . . . . . . . . . . . . . . .
4.4. Como funciona Recode . . . . . . . . . . . . . . . . . . . . . .
4.5. Operandos básicos . . . . . . . . . . . . . . . . . . . . . . . .
4.6. Operadores básicos . . . . . . . . . . . . . . . . . . . . . . . .
4.7. Expresiones . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.8. Funciones aritméticas . . . . . . . . . . . . . . . . . . . . . .
4.9. Funciones lógicas . . . . . . . . . . . . . . . . . . . . . . . . .
4.10. Proposiciones de asignación . . . . . . . . . . . . . . . . . . .
4.11. Proposiciones especiales de asignación . . . . . . . . . . . . .
4.12. Proposiciones de control . . . . . . . . . . . . . . . . . . . . .
4.13. Proposiciones condicionales . . . . . . . . . . . . . . . . . . .
4.14. Proposiciones de definición/de asignación de valores iniciales
4.15. Ejemplos de uso de proposiciones de Recode . . . . . . . . . .
4.16. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.17. Nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
33
33
34
34
35
35
36
37
45
46
47
48
50
50
52
54
55
5. Manejo y análisis de datos
5.1. Validación de datos con IDAMS . . . . . . . . . . . . .
5.1.1. Visión general . . . . . . . . . . . . . . . . . . .
5.1.2. Verificación si los datos son completos . . . . .
5.1.3. Detección de valores no numéricos e inválidos .
5.1.4. Verificación de consistencia . . . . . . . . . . .
5.2. Manejo/transformación de datos . . . . . . . . . . . .
5.3. Análisis de datos . . . . . . . . . . . . . . . . . . . . .
5.4. Ejemplo de un pequeño trabajo a ejecutar con IDAMS
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
57
57
57
58
58
59
59
60
60
II
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
El trabajo con WinIDAMS
6. Instalación
6.1. Requisitos del sistema . . . . . . . . .
6.2. Procedimiento de instalación . . . . .
6.3. Prueba de la instalación . . . . . . . .
6.4. Archivos y carpetas creados durante la
6.4.1. Carpetas de WinIDAMS . . . .
6.4.2. Archivos instalados . . . . . . .
6.5. Desintalación . . . . . . . . . . . . . .
63
. . . . . . .
. . . . . . .
. . . . . . .
instalación
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
65
65
65
65
66
66
66
67
7. Primeros pasos
7.1. Visión general de los etapas con WinIDAMS . . . .
7.2. Creación de un ambiente de aplicación . . . . . . .
7.3. Preparación del diccionario . . . . . . . . . . . . .
7.4. Captura de datos . . . . . . . . . . . . . . . . . . .
7.5. Preparación del setup . . . . . . . . . . . . . . . .
7.6. Ejecución del setup . . . . . . . . . . . . . . . . . .
7.7. Revisión de los resultados y modificación del setup
7.8. Impresión de los resultados . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
69
69
70
71
73
75
76
76
78
8. Archivos y carpetas
79
8.1. Archivos en WinIDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
8.2. Las carpetas en WinIDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9. Interfaz del Usuario
9.1. Concepto general . . . . . . . . . . . . . . . . . . . .
9.2. Menús comunes a todas las ventanas de WinIDAMS
9.3. Personalización del ambiente para una aplicación . .
9.4. Crear/actualizar/mostrar archivos Diccionario . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
81
81
82
83
85
ÍNDICE GENERAL
IX
9.5. Crear/actualizar/mostrar archivos Datos . . . . .
9.6. Importación de archivos de datos . . . . . . . . .
9.7. Exportación de archivos Datos de IDAMS . . . .
9.8. Crear/actualizar/mostrar archivos Setup . . . . .
9.9. Ejecución de los setups de IDAMS . . . . . . . .
9.10. Manejo de los archivos Resultados . . . . . . . .
9.11. Creación/actualización de archivos en formato de
III
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
texto y RTF
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Facilidades para el manejo de datos
10.Agrupación de datos (AGGREG)
10.1. Descripción general . . . . . . . . . . .
10.2. Caracterı́sticas estándar de IDAMS . .
10.3. Resultados . . . . . . . . . . . . . . . .
10.4. Dataset de salida . . . . . . . . . . . .
10.5. Dataset de entrada . . . . . . . . . . .
10.6. Estructura del setup . . . . . . . . . .
10.7. Proposiciones de control del programa
10.8. Restricciones . . . . . . . . . . . . . .
10.9. Ejemplo . . . . . . . . . . . . . . . . .
87
89
90
91
92
92
94
95
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
97
97
98
98
98
99
100
100
102
102
11.Construcción de un dataset IDAMS (BUILD)
11.1. Descripción general . . . . . . . . . . . . . . . .
11.2. Caracterı́sticas estándar de IDAMS . . . . . . .
11.3. Resultados . . . . . . . . . . . . . . . . . . . . .
11.4. Dataset de salida . . . . . . . . . . . . . . . . .
11.5. Diccionario de entrada . . . . . . . . . . . . . .
11.6. Datos de entrada . . . . . . . . . . . . . . . . .
11.7. Estructura del setup . . . . . . . . . . . . . . .
11.8. Proposiciones de control del programa . . . . .
11.9. Ejemplos . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
103
103
104
104
105
105
106
106
106
107
12.Verificación de códigos (CHECK)
12.1. Descripción general . . . . . . . . . . .
12.2. Caracterı́sticas estándar de IDAMS . .
12.3. Resultados . . . . . . . . . . . . . . . .
12.4. Dataset de entrada . . . . . . . . . . .
12.5. Estructura del setup . . . . . . . . . .
12.6. Proposiciones de control del programa
12.7. Restricciones . . . . . . . . . . . . . .
12.8. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
109
109
109
109
110
110
110
112
112
13.Verificación de consistencia (CONCHECK)
13.1. Descripción general . . . . . . . . . . . . . . .
13.2. Caracterı́sticas estándar de IDAMS . . . . . .
13.3. Resultados . . . . . . . . . . . . . . . . . . . .
13.4. Dataset de entrada . . . . . . . . . . . . . . .
13.5. Estructura del setup . . . . . . . . . . . . . .
13.6. Proposiciones de control del programa . . . .
13.7. Restricciones . . . . . . . . . . . . . . . . . .
13.8. Ejemplos . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
115
115
115
115
116
116
116
118
118
14.Verificación de intecalación de registros (MERCHECK)
14.1. Descripción general . . . . . . . . . . . . . . . . . . . . . . .
14.2. Caracterı́sticas estándar de IDAMS . . . . . . . . . . . . . .
14.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14.4. Datos de salida . . . . . . . . . . . . . . . . . . . . . . . . .
14.5. Datos de entrada . . . . . . . . . . . . . . . . . . . . . . . .
14.6. Estructura del setup . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
121
121
123
123
123
124
124
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ÍNDICE GENERAL
X
14.7. Proposiciones de control del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
14.8. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
14.9. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
15.Corrección de datos (CORRECT)
15.1. Descripción general . . . . . . . . . . .
15.2. Caracterı́sticas estándar de IDAMS . .
15.3. Resultados . . . . . . . . . . . . . . . .
15.4. Dataset de salida . . . . . . . . . . . .
15.5. Dataset de entrada . . . . . . . . . . .
15.6. Estructura del setup . . . . . . . . . .
15.7. Proposiciones de control del programa
15.8. Restricción . . . . . . . . . . . . . . .
15.9. Ejemplo . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
129
129
129
130
130
130
130
131
132
132
16.Importación/exportación de datos (IMPEX)
16.1. Descripción general . . . . . . . . . . . . . . .
16.2. Caraterı́sticas estándar de IDAMS . . . . . .
16.3. Resultados . . . . . . . . . . . . . . . . . . . .
16.4. Archivos de salida . . . . . . . . . . . . . . .
16.5. Archivos de entrada . . . . . . . . . . . . . .
16.6. Estructura del setup . . . . . . . . . . . . . .
16.7. Proposiciones de control del programa . . . .
16.8. Restricciones . . . . . . . . . . . . . . . . . .
16.9. Ejemplos . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
135
135
135
136
136
137
139
139
142
142
17.Listado de datasets (LIST)
17.1. Descripción general . . . . . . . . . . .
17.2. Caracterı́sticas estándar de IDAMS . .
17.3. Resultados . . . . . . . . . . . . . . . .
17.4. Dataset de entrada . . . . . . . . . . .
17.5. Estructura del setup . . . . . . . . . .
17.6. Proposiciones de control del programa
17.7. Restricción . . . . . . . . . . . . . . .
17.8. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
145
145
145
145
146
146
147
147
148
18.Intercalación de datasets (MERGE)
18.1. Descripción general . . . . . . . . . . .
18.2. Caracterı́sticas estándar de IDAMS . .
18.3. Resultados . . . . . . . . . . . . . . . .
18.4. Dataset de salida . . . . . . . . . . . .
18.5. Dataset de entrada . . . . . . . . . . .
18.6. Estructura del setup . . . . . . . . . .
18.7. Proposiciones de control del programa
18.8. Restricciones . . . . . . . . . . . . . .
18.9. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
149
149
149
150
150
152
152
153
155
155
19.Clasificación e intercalación de archivos (SORMER)
19.1. Descripción general . . . . . . . . . . . . . . . . . . . .
19.2. Caracterı́sticas estándar de IDAMS . . . . . . . . . . .
19.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . .
19.4. Diccionario de salida . . . . . . . . . . . . . . . . . . .
19.5. Datos de salida . . . . . . . . . . . . . . . . . . . . . .
19.6. Diccionario de entrada . . . . . . . . . . . . . . . . . .
19.7. Datos de entrada . . . . . . . . . . . . . . . . . . . . .
19.8. Estructura del setup . . . . . . . . . . . . . . . . . . .
19.9. Proposiciones de control del programa . . . . . . . . .
19.10.Restricciones . . . . . . . . . . . . . . . . . . . . . . .
19.11.Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
157
157
157
157
157
157
158
158
158
159
159
160
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ÍNDICE GENERAL
XI
20.Subdivisión de datasets (SUBSET)
20.1. Descripción general . . . . . . . . . . .
20.2. Caracterı́sticas estándar de IDAMS . .
20.3. Resultados . . . . . . . . . . . . . . . .
20.4. Dataset de salida . . . . . . . . . . . .
20.5. Dataset de entrada . . . . . . . . . . .
20.6. Estructura del setup . . . . . . . . . .
20.7. Proposiciones de control del programa
20.8. Restricciones . . . . . . . . . . . . . .
20.9. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
161
161
161
161
162
162
162
163
164
164
21.Transformación de datos (TRANS)
21.1. Descripción general . . . . . . . . . . .
21.2. Caracterı́sticas estándar de IDAMS . .
21.3. Resultados . . . . . . . . . . . . . . . .
21.4. Dataset de salida . . . . . . . . . . . .
21.5. Dataset de entrada . . . . . . . . . . .
21.6. Estructura del setup . . . . . . . . . .
21.7. Proposiciones de control del programa
21.8. Restricciones . . . . . . . . . . . . . .
21.9. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
165
165
165
165
165
166
166
167
168
168
IV
Facilidades para análisis de datos
171
22.Análisis de conglomerados (CLUSFIND)
22.1. Descripción general . . . . . . . . . . . . .
22.2. Caracterı́sticas estándar de IDAMS . . . .
22.3. Resultados . . . . . . . . . . . . . . . . . .
22.4. Dataset de entrada . . . . . . . . . . . . .
22.5. Matriz de entrada . . . . . . . . . . . . .
22.6. Estructura del setup . . . . . . . . . . . .
22.7. Proposiciones de control del programa . .
22.8. Restricciones . . . . . . . . . . . . . . . .
22.9. Ejemplos . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
173
173
173
173
174
175
175
175
177
178
23.Análisis de configuración (CONFIG)
23.1. Descripción general . . . . . . . . . . .
23.2. Caracterı́sticas estándar de IDAMS . .
23.3. Resultados . . . . . . . . . . . . . . . .
23.4. Matriz de configuración de salida . . .
23.5. Matriz de distancias de salida . . . . .
23.6. Matriz de configuración de entrada . .
23.7. Estructura del setup . . . . . . . . . .
23.8. Proposiciones de control del programa
23.9. Restricción . . . . . . . . . . . . . . .
23.10.Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
179
179
179
179
180
180
180
181
181
183
183
24.Análisis discriminatorio (DISCRAN)
24.1. Descripción general . . . . . . . . . . .
24.2. Caracterı́sticas estándar de IDAMS . .
24.3. Resultados . . . . . . . . . . . . . . . .
24.4. Dataset de salida . . . . . . . . . . . .
24.5. Dataset de entrada . . . . . . . . . . .
24.6. Estructura del setup . . . . . . . . . .
24.7. Proposiciones de control del programa
24.8. Restricciones . . . . . . . . . . . . . .
24.9. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
185
185
185
186
186
187
187
188
190
190
25.Funciones de distribución y de Lorenz (QUANTILE)
191
ÍNDICE GENERAL
XII
25.1. Descripción general . . . . . . . . . . .
25.2. Caracterı́sticas estándar de IDAMS . .
25.3. Resultados . . . . . . . . . . . . . . . .
25.4. Dataset de entrada . . . . . . . . . . .
25.5. Estructura del setup . . . . . . . . . .
25.6. Proposiciones de control del programa
25.7. Restricciones . . . . . . . . . . . . . .
25.8. Ejemplo . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
191
191
191
192
192
192
194
194
26.Análisis factorial (FACTOR)
26.1. Descripción general . . . . . . . . . . .
26.2. Caracterı́sticas estándar de IDAMS . .
26.3. Resultados . . . . . . . . . . . . . . . .
26.4. Dataset(s) de salida . . . . . . . . . .
26.5. Dataset de entrada . . . . . . . . . . .
26.6. Estructura del setup . . . . . . . . . .
26.7. Proposiciones de control del programa
26.8. Restricciones . . . . . . . . . . . . . .
26.9. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
197
197
197
198
198
199
199
200
203
203
27.Regresión lineal (REGRESSN)
27.1. Descripción general . . . . . . . . . . .
27.2. Caracterı́sticas estándar de IDAMS . .
27.3. Resultados . . . . . . . . . . . . . . . .
27.4. Matriz de correlación de salida . . . .
27.5. Dataset de residuos de salida . . . . .
27.6. Dataset de entrada . . . . . . . . . . .
27.7. Matriz de correlación de entrada . . .
27.8. Estructura del setup . . . . . . . . . .
27.9. Proposiciones de control del programa
27.10.Restricciones . . . . . . . . . . . . . .
27.11.Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
205
205
206
207
207
208
208
208
209
209
212
212
28.Escalamiento multidimensional (MDSCAL)
28.1. Descripción general . . . . . . . . . . . . . . .
28.2. Caracterı́sticas estándar de IDAMS . . . . . .
28.3. Resultados . . . . . . . . . . . . . . . . . . . .
28.4. Matriz de configuración de salida . . . . . . .
28.5. Matriz de datos de entrada . . . . . . . . . .
28.6. Matriz de ponderaciones de entrada . . . . .
28.7. Matriz de configuración de entrada . . . . . .
28.8. Estructura del setup . . . . . . . . . . . . . .
28.9. Proposiciones de control del programa . . . .
28.10.Restricciones . . . . . . . . . . . . . . . . . .
28.11.Ejemplo . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
215
215
216
216
217
217
217
218
218
218
220
220
29.Análisis de clasificación múltiple (MCA)
29.1. Descripción general . . . . . . . . . . . . .
29.2. Caracterı́sticas estándar de IDAMS . . . .
29.3. Resultados . . . . . . . . . . . . . . . . . .
29.4. Dataset(s) de residuos de salida . . . . . .
29.5. Dataset de entrada . . . . . . . . . . . . .
29.6. Estructura del setup . . . . . . . . . . . .
29.7. Proposiciones de control del programa . .
29.8. Restricciones . . . . . . . . . . . . . . . .
29.9. Ejemplos . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
221
221
222
222
224
224
225
225
227
227
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30.Análisis multivariado de variancia (MANOVA)
231
30.1. Descripción general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
30.2. Caracterı́sticas estándar de IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
ÍNDICE GENERAL
30.3. Resultados . . . . . . . . . .
30.4. Dataset de entrada . . . . .
30.5. Estructura del setup . . . .
30.6. Proposiciones de control del
30.7. Restricciones . . . . . . . .
30.8. Ejemplos . . . . . . . . . .
XIII
. . . . . .
. . . . . .
. . . . . .
programa
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
232
233
234
234
236
236
31.Análisis de variancia de una entrada (ONEWAY)
31.1. Descripción general . . . . . . . . . . . . . . . . . .
31.2. Caracterı́sticas estándar de IDAMS . . . . . . . . .
31.3. Resultados . . . . . . . . . . . . . . . . . . . . . . .
31.4. Dataset de entrada . . . . . . . . . . . . . . . . . .
31.5. Estructura del setup . . . . . . . . . . . . . . . . .
31.6. Proposiciones de control del programa . . . . . . .
31.7. Restricciones . . . . . . . . . . . . . . . . . . . . .
31.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
239
239
239
239
240
241
241
242
243
32.Puntajes basados en el orden parcial de
32.1. Descripción general . . . . . . . . . . . .
32.2. Caracterı́sticas estándar de IDAMS . . .
32.3. Resultados . . . . . . . . . . . . . . . . .
32.4. Dataset de salida . . . . . . . . . . . . .
32.5. Dataset de entrada . . . . . . . . . . . .
32.6. Estructura del setup . . . . . . . . . . .
32.7. Proposiciones de control del programa .
32.8. Restricciones . . . . . . . . . . . . . . .
32.9. Ejemplos . . . . . . . . . . . . . . . . .
casos (POSCOR)
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
245
245
245
246
246
246
247
247
250
250
33.Correlación de Pearson (PEARSON)
33.1. Descripción general . . . . . . . . . . .
33.2. Caracterı́sticas estándar de IDAMS . .
33.3. Resultados . . . . . . . . . . . . . . . .
33.4. Matrices de salida . . . . . . . . . . .
33.5. Dataset de entrada . . . . . . . . . . .
33.6. Estructura del setup . . . . . . . . . .
33.7. Proposiciones de control del programa
33.8. Restricciones . . . . . . . . . . . . . .
33.9. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
253
253
253
254
255
255
255
256
257
257
34.Ordenamiento de alternativas (RANK)
34.1. Descripción general . . . . . . . . . . . .
34.2. Caracterı́sticas estándar de IDAMS . . .
34.3. Resultados . . . . . . . . . . . . . . . . .
34.4. Dataset de entrada . . . . . . . . . . . .
34.5. Estructuda del setup . . . . . . . . . . .
34.6. Proposiciones de control del programa .
34.7. Restricciones . . . . . . . . . . . . . . .
34.8. Ejemplos . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
259
259
260
260
261
262
263
264
265
35.Diagramas de dispersión (SCAT)
35.1. Descripción general . . . . . . . . . . .
35.2. Caracterı́sticas estándar de IDAMS . .
35.3. Resultados . . . . . . . . . . . . . . . .
35.4. Dataset de entrada . . . . . . . . . . .
35.5. Estructura del setup . . . . . . . . . .
35.6. Proposiciones de control del programa
35.7. Restricciones . . . . . . . . . . . . . .
35.8. Ejemplo . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
267
267
267
268
268
269
269
270
271
36.Búsqueda de estructura (SEARCH)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
273
ÍNDICE GENERAL
XIV
36.1. Descripción general . . . . . . . . . . .
36.2. Caracterı́sticas estándar de IDAMS . .
36.3. Resultados . . . . . . . . . . . . . . . .
36.4. Dataset de residuos de salida . . . . .
36.5. Dataset de entrada . . . . . . . . . . .
36.6. Estructura del setup . . . . . . . . . .
36.7. Proposiciones de control del programa
36.8. Restricciones . . . . . . . . . . . . . .
36.9. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
273
273
274
274
275
275
275
278
278
37.Tablas univariadas y bivariadas (TABLES)
37.1. Descripción general . . . . . . . . . . . . . .
37.2. Caracterı́sticas estándar de IDAMS . . . . .
37.3. Resultados . . . . . . . . . . . . . . . . . . .
37.4. Tablas univariadas/bivariadas de salida . .
37.5. Matrices de estadı́sticas bivariadas de salida
37.6. Dataset de entrada . . . . . . . . . . . . . .
37.7. Estructura del setup . . . . . . . . . . . . .
37.8. Proposiciones de control del programa . . .
37.9. Restricciones . . . . . . . . . . . . . . . . .
37.10.Ejemplo . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
281
281
282
282
284
284
284
285
285
290
291
38.Tipologı́a y clasificación ascendente (TYPOL)
38.1. Descripción general . . . . . . . . . . . . . . . .
38.2. Caracterı́sticas estándar de IDAMS . . . . . . .
38.3. Resultados . . . . . . . . . . . . . . . . . . . . .
38.4. Dataset de salida . . . . . . . . . . . . . . . . .
38.5. Matriz de configuración de salida . . . . . . . .
38.6. Dataset de entrada . . . . . . . . . . . . . . . .
38.7. Matriz de configuración de entrada . . . . . . .
38.8. Estructura del setup . . . . . . . . . . . . . . .
38.9. Proposiciones de control del programa . . . . .
38.10.Restricciones . . . . . . . . . . . . . . . . . . .
38.11.Ejemplos . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
293
293
293
294
295
295
295
296
296
296
299
299
V
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Análisis interactivo de datos
39.Tablas multidimensionales y su presentación gráfica
39.1. Visión general . . . . . . . . . . . . . . . . . . . . . . .
39.2. Preparación del análisis . . . . . . . . . . . . . . . . .
39.3. Ventana de tablas multidimensionales . . . . . . . . .
39.4. Presentación gráfica de tablas univariadas y bivariadas
39.5. Cómo hacer una tabla multidimensional . . . . . . . .
39.6. Cómo cambiar una tabla multidimensional . . . . . . .
301
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
303
303
303
305
306
307
309
40.Exploración gráfica de datos
40.1. Visión general . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40.2. Preparación del análisis . . . . . . . . . . . . . . . . . . . . . .
40.3. Ventana principal de GraphID para análisis de un dataset . . .
40.3.1. Barra de menú y barra de herramientas . . . . . . . . .
40.3.2. Manipulación de la matriz de gráficos de dispersión . . .
40.3.3. Histogramas y densidades . . . . . . . . . . . . . . . . .
40.3.4. Lı́neas de regresión (Lı́neas suavizadas) . . . . . . . . .
40.3.5. Diagramas de caja y bigotes . . . . . . . . . . . . . . . .
40.3.6. Gráfico agrupado . . . . . . . . . . . . . . . . . . . . . .
40.3.7. Diagramas de dispersión tridimensionales y su rotación
40.4. Ventana de GraphID para análisis de una matriz . . . . . . . .
40.4.1. Barra de menú y barra de herramientas . . . . . . . . .
40.4.2. Manipulación de la matriz en pantalla . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
313
313
313
313
314
316
318
318
319
320
320
321
321
322
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ÍNDICE GENERAL
XV
41.Análisis de series de tiempo
41.1. Visión general . . . . . . . . . . . . . . . . . . .
41.2. Preparación del análisis . . . . . . . . . . . . .
41.3. Ventana principal de TimeSID . . . . . . . . .
41.3.1. Barra de menú y barra de herramientas
41.3.2. Ventana de series de tiempo . . . . . . .
41.4. Transformación de series de tiempo . . . . . . .
41.5. Análisis de series de tiempo . . . . . . . . . . .
VI
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Fórmulas estadı́sticas y referencias bibliográficas
323
323
323
323
324
326
327
328
331
42.Análisis de conglomerados
42.1. Estadı́sticas univariadas . . . . . . . . . . . . . . . . . . . . . . . . . .
42.2. Medidas estandarizadas . . . . . . . . . . . . . . . . . . . . . . . . . .
42.3. Matriz de disimilitudes calculada a partir de un dataset de IDAMS . .
42.4. Matriz de disimilitudes calculada a partir de una matriz de similitudes
42.5. Matrix de disimilitudes calculada a partir de una matriz de correlación
42.6. Repartición alrededor de medoides (PAM) . . . . . . . . . . . . . . . .
42.7. Repartición para grandes datasets (CLARA) . . . . . . . . . . . . . .
42.8. Conglomeración difusa (FANNY) . . . . . . . . . . . . . . . . . . . . .
42.9. Conglomeración jerárquica acumulativa (AGNES) . . . . . . . . . . .
42.10.Conglomeración jerárquica divisiva (DIANA) . . . . . . . . . . . . . .
42.11.Conglomeración monotética (MONA) . . . . . . . . . . . . . . . . . .
42.12.Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
333
333
333
334
334
334
334
336
336
337
338
339
339
43.Análisis de configuración
43.1. Configuratión centrada . . . . . .
43.2. Configuratión normalizada . . . .
43.3. Solución en ejes principales . . .
43.4. Matriz de productos escalares . .
43.5. Matriz de distancias entre puntos
43.6. Configuración rotada . . . . . .
43.7. Configuración transladada . . . .
43.8. Rotación varimax . . . . . . . . .
43.9. Configuración clasificada . . . . .
43.10.Referencias . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
341
341
341
342
342
342
342
342
343
343
343
. . . . . . . . . .
2 grupos . . . .
más de 2 grupos
. . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
345
345
346
347
348
45.Funciones de distribución y de Lorenz
45.1. Formula para los puntos de separación . . . . . . .
45.2. Puntos de separación de la función de distribución
45.3. Puntos de separación de la función de Lorenz . . .
45.4. Curva de Lorenz . . . . . . . . . . . . . . . . . . .
45.5. El coeficiente de Gini . . . . . . . . . . . . . . . . .
45.6. Estadı́stica D de Kolmogorov-Smirnov . . . . . . .
45.7. Nota sobre los pesos . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
349
349
349
350
350
350
350
351
46.Análisis factorial
46.1. Estadı́sticas univariadas . . . . . . . . .
46.2. Datos de entrada . . . . . . . . . . . . .
46.3. Matrices núcleo (matrices de relaciones)
46.4. Huella . . . . . . . . . . . . . . . . . . .
46.5. Valores y vectores propios . . . . . . . .
46.6. Tabla de valores propios . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
353
353
354
354
355
355
356
44.Análisis discriminatorio
44.1. Estadı́sticas univariadas .
44.2. Discriminación lineal entre
44.3. Discriminación lineal entre
44.4. Referencias . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ÍNDICE GENERAL
XVI
46.7. Tabla de factores de variables activas .
46.8. Tabla de factores de variables pasivas .
46.9. Tabla de factores de casos activos . . .
46.10.Tabla de factores de casos pasivos . . .
46.11.Factores rotados . . . . . . . . . . . .
46.12.Referencias . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
356
358
358
360
360
360
47.Regresión lineal
47.1. Estadı́sticas univariadas . . . . . . . . . . . . . . . . . . . . . .
47.2. Matriz de sumas totales de cuadrados y productos cruzados . .
47.3. Matriz de sumas de cuadrados residuales y productos cruzados
47.4. Matriz de correlación total . . . . . . . . . . . . . . . . . . . . .
47.5. Matriz de correlación parcial . . . . . . . . . . . . . . . . . . .
47.6. Matriz inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47.7. Estadı́sticas de resumen del análisis . . . . . . . . . . . . . . . .
47.8. Estadı́sticas de análisis para los predictores . . . . . . . . . . .
47.9. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47.10.Nota sobre la regresión por pasos . . . . . . . . . . . . . . . . .
47.11.Nota sobre la regresión descendente . . . . . . . . . . . . . . . .
47.12.Nota sobre la regresión con intercepto cero . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
361
361
361
362
362
362
362
363
364
365
365
366
366
48.Escalamiento multidimensional
48.1. Orden de los cálculos . . . . . . . . . . . . . .
48.2. Configuración inicial . . . . . . . . . . . . . .
48.3. Centrado y normalización de la configuración
48.4. Historia de los cálculos . . . . . . . . . . . . .
48.5. Esfuerzo para la configuración final . . . . . .
48.6. Configuración final . . . . . . . . . . . . . . .
48.7. Configuración clasificada . . . . . . . . . . . .
48.8. Resumen . . . . . . . . . . . . . . . . . . . . .
48.9. Nota sobre ataduras en los datos de entrada .
48.10.Nota sobre los pesos . . . . . . . . . . . . . .
48.11.References . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
367
367
367
367
368
370
370
370
370
371
371
372
49.Análisis de clasificación múltiple
49.1. Estadı́sticas de la variable dependiente . . . . . . . . . . . . . . . . . . .
49.2. Estadı́sticas de los predictores para análisis de clasificación múltiple . .
49.3. Estadı́sticas del análisis para análisis de clasificación múltiple . . . . . .
49.4. Estadı́sticas de resumen de residuos . . . . . . . . . . . . . . . . . . . .
49.5. Estadı́sticas de categorı́a de los predictores, para análisis de variancia de
49.6. Estadı́sticas del análisis, para análisis de variancia de una entrada . . .
49.7. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
una entrada
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
373
373
374
376
376
377
377
377
50.Análisis multivariado de variancia
50.1. Estadı́sticas generales . . . . . . . . . . . . . . . . . .
50.2. Cálculos para una prueba en un análisis multivariado .
50.3. Análisis univariado . . . . . . . . . . . . . . . . . . . .
50.4. Análisis de covariancia . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
379
379
381
384
384
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51.Análisis de variancia de una entrada
385
51.1. Estadı́sticas descriptivas para cada categorı́a de la variable de control . . . . . . . . . . . . . . 385
51.2. Estadı́sticas del análisis de variancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
52.Puntajes basados en el orden parcial
52.1. Terminologı́a especial y definiciones .
52.2. Cálculo de puntajes . . . . . . . . .
52.3. Referencias . . . . . . . . . . . . . .
de
. .
. .
. .
casos
389
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
53.Correlación de Pearson
393
53.1. Estadı́sticas pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393
53.2. Medias y desviaciones estándar no pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
ÍNDICE GENERAL
XVII
53.3. Ecuación de regresión para puntajes primarios
53.4. Matriz de correlación . . . . . . . . . . . . . . .
53.5. Matriz de productos cruzados . . . . . . . . . .
53.6. Matriz de covariancia . . . . . . . . . . . . . .
54.Ordenamiento de alternativas
54.1. Manejo de los datos de entrada . . . .
54.2. Método basado en la lógica clásica . .
54.3. Métodos basados en la lógica difusa: la
54.4. Método difuso-1: capas no dominadas
54.5. Método difuso-2: rangos . . . . . . . .
54.6. Referencias . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
394
394
394
394
. . . . . . . . . . . .
. . . . . . . . . . . .
relación de entrada .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
395
395
396
398
400
402
403
55.Diagramas de dispersión
405
55.1. Estadı́sticas univariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
55.2. Estadı́sticas univariadas por parejas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
55.3. Estadı́sticas bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
56.Búsqueda de estructura
56.1. Análisis de medias . . .
56.2. Análisis de regresión . .
56.3. Análisis de Ji-cuadrada
56.4. Referencias . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
407
407
409
410
411
57.Tablas univariadas y bivariadas
413
57.1. Estadı́sticas univariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
57.2. Estadı́sticas bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
57.3. Nota sobre los pesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
58.Tipologı́a y clasificación ascendente
58.1. Tipos de variables utilizadas . . . . . . . . . . . . . . . . . . . .
58.2. Perfil de caso . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58.3. Perfil de grupo . . . . . . . . . . . . . . . . . . . . . . . . . . .
58.4. Distancias utilizadas . . . . . . . . . . . . . . . . . . . . . . . .
58.5. Construcción de una tipologı́a inicial . . . . . . . . . . . . . . .
58.6. Caracterı́sticas de distancias por grupos . . . . . . . . . . . . .
58.7. Estadı́sticas de resumen . . . . . . . . . . . . . . . . . . . . . .
58.8. Descripción de la tipologı́a resultante . . . . . . . . . . . . . . .
58.9. Resumen de la cantidad de variancia explicada por la tipologı́a
58.10.Clasificación jerárquica ascendente . . . . . . . . . . . . . . . .
58.11.Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
421
421
421
422
422
423
424
424
425
426
426
427
Apéndice: Mensajes de error de los programas de IDAMS.
429
Índice alfabético.
431
Capı́tulo 1
Introducción
IDAMS es un paquete de programas para la validación, manejo y análisis estadı́stico de datos. Consiste en
un grupo de programas y facilidades que usan el mismo ambiente de manera que un solo lenguaje permite el
acceso a las diferentes funciones en todos los programas. Ejemplos del tipo de datos que se pueden procesar
con IDAMS son: respuestas a las preguntas de una encuesta, información acerca de los libros en una biblioteca.
caracterı́sticas personales y desempeño de los alumnos en una escuela, medidas de un experimento cientı́fico.
La caracterı́stica que tienen en común estos datos es que consisten en valores de variables para cada una de
las colecciones de objetos/casos (por ej. en una encuesta, las preguntas corresponden a las variables y los
encuestados a los casos).
Existen numerosos paquetes y programas que ayudan al análisis estadı́stico de tales datos. Una caracterı́stica
especial de IDAMS es que también suministra facilidades para hacer una validación extensa de los datos (por
ej. verificación de códigos y de consistencia) antes del análisis. En lo que concierne al análisis, IDAMS realiza
técnicas clásicas tales como construcción de tablas, análisis de regresión, análisis de variancia de una entrada,
análisis de discriminación y conglomerados y también algunas técnicas más avanzadas tales como análisis
factorial de componentes principales, análisis factorial de correspondencias, cálculo de puntajes basados en el
orden parcial de casos, ordenamiento de alternativas, segmentación y tipologı́a iterativa. Además, la versión
de IDAMS para Windows (WinIDAMS) ofrece los componentes interactivos para construcción de tablas
multidimensionales, exploración gráfica de datos y análisis de series de tiempo.
1.1.
Interfaz del Usuario de WinIDAMS
Es una interfaz de documento múltiple (MDI). Permite trabajar simultáneamente con diferentes tipos de
documentos en ventanas separadas.
Esta Interfaz suministra lo siguiente:
la definición de las carpetas Datos, Trabajo y Temporal para una aplicación;
la ventana Diccionario para crear/actualizar/mostrar archivos Diccionario;
la ventana Datos para crear/actualizar/mostrar archivos Datos;
la ventana Setup para preparar/mostrar archivos Setup (el editor de sintáxis en color);
la ventana Resultados para mostrar, copiar e imprimir partes seleccionadas de los resultados;
un editor general de texto;
opción para ejecutar setups de IDAMS desde un archivo o desde la ventana activa Setup;
facilidades interactivas de importar/exportar datos;
acceso a los componentes de análisis interactivo de datos (Tablas multidimensionales, GraphID, TimeSID);
acceso en lı́nea al Manual de Referencia.
2
1.2.
Introducción
Facilidades para el manejo de datos
Agrupación de datos (AGGREG). Permite agrupar en un solo registro los registros que vienen de varios
casos y produce a la salida un nuevo dataset con un registro por grupo, por ejemplo los miembros de
una familia se reagrupan en un registro que representa la familia. Las variables en el nuevo registro son
estadı́sticas de resumen de variables especı́ficas de los registros individuales, por ej. la suma, media, valor
mı́nimo/máximo.
Construcción de un dataset IDAMS (BUILD). Lee un archivo de datos primarios (que puede tener
múltiples registros por caso) junto con un diccionario que describe las variables que se van a seleccionar.
BUILD verifica la presencia de valores no numéricos en campos numéricos; los campos en blanco se pueden
recodificar a valores numéricos especificados por el usuario y otros no numéricos se reportan y reemplazan
con nueves. La salida es un dataset IDAMS que comprende un archivo Datos con un sólo registro por caso
y un diccionario asociado que describe cada campo en los registros de datos.
Verificación de códigos (CHECK). Reporta casos que tengan valores inválidos en las variables. Los códigos
válidos para cada variable los especifica el usuario y se toman del diccionario.
Verificación de consistencia (CONCHECK). Reporta casos con inconsistencias entre dos o más variables.
Las proposiciones de Recode de IDAMS se utilizan para especificar las relaciones lógicas a verificar.
Verificación de intercalación de registros (MERCHECK). Verifica que estén presentes los registros
correctos para cada caso en un archivo de múltiples registros por caso. Produce un archivo de salida que
tiene un número igual de registros por caso. Se pueden eliminar registros inválidos o duplicados y se pueden
insertar registros faltantes con códigos de valores faltantes especificados por el usuario.
Corrección de datos (CORRECT). Actualiza un archivo al aplicar correcciones a valores individuales de
variables para casos especificados. El archivo Resultados contiene un informe escrito con la historia de las
correcciones y estas se pueden archivar.
Importación/exportación de datos (IMPEX). La importación tiene por objeto crear datasets o matrices de IDAMS a partir de archivos que vienen de otro programa. La exportación pretende hacer posible
el uso de archivos Datos y Matrices, almacenados o creados por IDAMS, en otros paquetes. Se pueden
importar/exportar archivos de texto en formato libre y en formato DIF.
Listado de datasets (LIST). Se pueden listar los valores de variables seleccionadas (originales o recodificadas) y casos seleccionados en formato de columnas.
Intercalación de datasets (MERGE). Se pueden intercalar dos datasets emparejando casos de acuerdo con
un conjunto común de variables llamadas variables de emparejamiento. Hay cuatro opciones para seleccionar
casos en el dataset de salida: (1) sólo casos presentes en ambos archivos (intersección); (2) cada caso en
ambos archivos (unión); (3) cada caso en el primer archivo; (4) cada caso en el segundo archivo. El usuario
especifica cuales variables de cada uno de los dos archivos de entrada van a la salida. Existe una opción para
encajar un caso de un archivo con más de un caso del segundo archivo, por ej. para añadir datos de hogares
de un archivo al registro de cada individuo en un segundo archivo.
Clasificación e intercalación de archivos (SORMER). Es un utilitario de uso general para clasificar
datos en forma ascendente o descendente hasta por 12 campos de clasificación. Se pueden intercalar hasta
16 archivos.
Subdivisión de datasets (SUBSET). Produce un nuevo dataset (archivos Datos y Diccionario) con casos
y variables seleccionados del dataset de entrada. Tiene una opción para verificar casos duplicados.
Transformación de datos (TRANS). Este programa se usa para guardar las variables creadas por la
facilidad Recode de IDAMS en un dataset permanente.
1.3 Facilidades para el análisis de datos
1.3.
3
Facilidades para el análisis de datos
Análisis de conglomerados (CLUSFIND). Ejecuta análisis de conglomerados dividiendo un conjunto de
objetos (casos o variables) en un conjunto de conglomerados determinado por uno de 6 algoritmos, 2 basados
en la división alrededor de medoides, 1 basado en la lógica difusa y los otros 3 basados en una conglomeración
jerárquica.
Análisis de configuración (CONFIG). Ejecuta análisis sobre una configuración de entrada, creada por
ejemplo con el programa MDSCAL. Tiene la capacidad de centrar, normalizar, rotar, trasladar dimensiones,
calcular distancias entre puntos y productos escalares. Se puede graficar la configuración después de cada
transformación.
Análisis discriminatorio (DISCRAN). Busca la mejor función lineal de discriminación de un conjunto de
variables que produce, hasta donde sea posible, una agrupación a priori de los casos. Utiliza un procedimiento
por pasos, es decir, en cada paso entra la variable más poderosa. El programa distingue tres muestras de
casos: la muestra básica sobre la cual se hacen los análisis discriminatorios principales, muestra de prueba
sobre la cual se verifica la potencia de la función de discriminación y muestra anónima que se usa sólo para
clasificar los casos. Se pueden guardar en un dataset la última asignación de grupos a los casos y valores de
los dos primeros factores discriminatorios (para análisis con más de 2 grupos).
Funciones de distribución y de Lorenz (QUANTILE). Funciones de distribución con 2 a 100 subintervalos, funciones de Lorenz, curva de Lorenz y coeficientes de Gini, y la prueba de Kolmogorov-Smirnov.
Análisis factorial (FACTOR). Consiste en un conjunto de análisis factoriales de componentes principales
(productos escalares, covariancias, correlaciones) y análisis factorial de correspondencias. Para cada análisis
construye una matriz que representa las relaciones entre las variables y calcula sus valores propios y vectores
propios. Calcula los factores para los casos y las variables dando para cada caso y cada variable su ordenada,
su calidad de representación y su contribución a los factores. Estos factores se pueden guardar en el dataset y
se puede obtener una representación gráfica de casos y variables en el espacio factorial. El programa distingue
entre casos y variables activas y pasivas.
Regresión lineal (REGRESSN). Suministra una capacidad general de regresión múltiple para análisis de
regresión lineal estándar y por pasos. Se puede usar un dataset o una matriz de correlación como entrada.
Se pueden imprimir residuos con la estadı́stica de Durbin-Watson para su correlación de primer orden, y
también puede llevarse al archivo de salida, por ej. para análisis posteriores.
Escalamiento multidimensional (MDSCAL). Este es un procedimiento de escalamiento multidimensional
no métrico para el análisis de similitudes. Opera sobre una matriz de medidas de similitud o disimilitud y
está diseñado para hallar la mejor representación geométrica de los datos. El usuario controla la dimensión
de la configuración, la métrica usada y la manera de manejar las ataduras (valores iguales) en los datos de
entrada.
Análisis de clasificación múltiple (MCA). Examina las relaciones entre varias variables predictoras (control) y una sola variable dependiente y determina el efecto de cada predictor antes y después del ajuste de sus
intercorrelaciones con otros predictores. Suministra información de las relaciones bivariadas y multivariadas
entre predictores y la variable dependiente. Se pueden imprimir los residuos y llevarlos a un dataset.
Análisis de variancia multivariado (MANOVA). Ejecuta análisis de variancia univariado y multivariado,
y análisis de covariancia, usando un modelo general lineal. Se pueden usar hasta ocho factores (variables
dependientes). Cuando hay más de una variable dependiente, se ejecutan ambos análisis univariado y multivariado. El programa aplica una solución exacta con un nombre igual o diferente de casos en las celdas.
Análisis de variancia de una entrada (ONEWAY). Estadı́sticas descriptivas dentro de las categorı́as
de la variable de control y estadı́sticas de análisis de variancia de una entrada tales como: suma total de
cuadrados, suma de cuadrados entre medias, suma de cuadrados dentro grupos, eta y eta cuadrada (no
ajustada y ajustada) y el valor de la prueba F.
Puntajes basados en el orden parcial de casos (POSCOR). Calcula puntajes de escala ordinales a partir
de variables de intervalos u ordinales. Se calculan los puntajes para cada caso involucrado en el análisis y
miden la posición relativa del caso dentro del conjunto de los mismos. Los puntajes, opcionalmente con otras
variables especificadas por el usuario, salen en la forma de un dataset IDAMS.
4
Introducción
Correlación de Pearson (PEARSON). Calcula los coeficientes r de correlación de Pearson, covariancias
y coeficientes de regresión. Se puede solicitar eliminación de datos faltantes por parejas o por casos. Las
matrices de correlación y de covariancias de salida se pueden guardar en un archivo.
Ordenamiento de alternativas (RANK). Determina un orden de alternativas por rangos usando datos
preferenciales y tres procedimientos diferentes de asignación de rangos, uno basado en la lógica clásica y
otros dos basados en la lógica difusa. Los datos preferenciales pueden representar una selección o un rango
de alternativas. Se pueden especificar dos tipos de relaciones individuales preferenciales: débil y estricta. Con
la asignación difusa de rangos, los datos determinan completamente los resultados obtenidos mientras que
con la asignación clásica el usuario tiene la posibilidad de controlar los cálculos.
Diagramas de dispersión (SCAT). Diagramas de dispersión, estadı́sticas univariadas (media, desviación
estándar y N), estadı́sticas bivariadas (r de Pearson y estadı́sticas de regresión: coeficiente B y constante A).
Búsqueda de estructura (SEARCH). Un procedimiento de segmentación binaria para desarrollar modelos
predictivos. La pregunta “qué dicotomı́a y en que variable predictora se obtendrá el máximo aprovechamiento
de la capacidad para predecir valores de la variable dependiente” dentro de un esquema iterativo, es la base
del algoritmo usado.
Tablas univariadas y bivariadas (TABLES). Las opciones incluyen: (1) distributiones de frecuencia
univariadas simples y acumulativas y de porcentajes; (2) estadı́sticas univariadas: media, mediana, moda,
variancia, desviación estándar, asimetrı́a, kurtosis, mı́nimo y máximo; (3) tablas de frecuencias bivariadas con
porcentajes por fila, columna y total; (4) tablas de valores medios de una variable adicional; (5) estadı́sticas
bivariadas: pruebas-t de medias entre pares de filas, Ji-cuadrada, coeficiente de contingencia, V de Cramer,
Tau a, b, c de Kendall, Gama, Lambda, Ro de Spearman, estadı́sticas para la medicina basada en evidencia,
y tres pruebas no parámetricas: Wilcoxon, Mann-Whitney y Fisher.
Tipologı́a y clasificación ascendente (TYPOL). Crea una variable de clasificación como el resumen
de un gran número de variables cuantitativas y cualitativas. El usuario escoge el número inicial y final de
grupos, el tipo de distancia usada y la manera de comenzar la tipologı́a inicial. Los grupos de la tipologı́a
inicial se estabilizan con un procedimiento iterativo. El número de grupos se puede reducir con un algoritmo
de clasificación jerárquica ascendente. El programa distingue entre variables activas que participan en la
construcción de la tipologı́a y variables pasivas para las cuales se calculan las estadı́sticas principales dentro
de los grupos de la tipologı́a.
Tablas interactivas multidimensionales. El componente “Tablas multidimensionales” permite visualizar
y personalizar tablas con frecuencias, porcentajes de fila, de columna y totales, estadı́sticas univariadas
(suma, conteo, media, máximo, mı́nimo, variancia, desviación estádar) de variables adicionales y estadı́sticas
bivariadas. Se pueden anidar hasta siete variables en filas y columnas. Se puede repetir la construcción de
tablas para cada valor hasta tres variables de “página”. También se pueden imprimir las tablas o exportarlas
en formato libre (coma o carácter de tabulación como delimitador) o en formato HTML.
Exploración gráfica interactiva de los datos. Un componente separado, GraphID, está disponible en
WinIDAMS para explorar datos a través de despliegues gráficos. El despliegue básico se encuentra en la
forma de gráficos de dispersión múltiple para diferentes pares de variables. Se puede graficar información
adicional tal como histogramas y lı́neas de regresión. Los gráficos se pueden manejar de varias maneras. Por
ejemplo, se pueden marcar en un gráfico casos seleccionados y luego resaltarlos en todos los otros gráficos.
Se pueden aumentar partes del gráfico (“zoom”). Las matrices de IDAMS se muestran como gráficos de tres
dimensiones en los cuales se representan las variables/los códigos en dos de los ejes y la tercera dimensión
se usa para mostrar el tamaño de la estadı́sitica en la matriz (por ej. coeficiente de correlación) para cada
par de variables.
Análisis interactivo de series de tiempo. Otro componente separado, TimeSID, suministra la posibilidad de análisis interactivo de series de tiempo. Contiene análisis de tendencias, correlaciones auto y
cruzadas, análisis gráfico y estadı́stico de los valores de las series de tiempo, pruebas de aleatoriedad y tendencia, predicción a corto plazo, periodogramas y estimación de densidades espectrales. Las series se pueden
transformar calculando promedios, composiciones aritméticas, diferencias secuenciales, razones de cambio,
se pueden suavizar con promedios móviles y se pueden descomponer usando filtros de frecuancia.
1.4 Los datos en IDAMS
1.4.
5
Los datos en IDAMS
Dataset IDAMS - el archivo Datos. El archivo de entrada a IDAMS puede ser cualquier archivo de
caracteres (ASCII) de formato fijo, es decir, los valores de una variable ocupan la misma posición en el
registro para cada caso. Las caracerı́sticas del archivo Datos son:
1-50 registros por caso;
cada caso puede contener hasta 4096 caracteres;
número de casos limitado para la capacidad de disco y la representación numérica interna;
las variables pueden ser numéricas (hasta 9 caracteres) o alfabéticas (hasta 255 caracteres).
Dataset IDAMS - el archivo Diccionario. El diccionario se usa para describir los datos:
puede contener hasta 1000 variables identificadas con un número único entre 1 y 9999;
para cada variable, contiene como mı́nimo el número de la variable, su tipo (numérica o alfabética), su
localización en el registro de datos;
para cada variable se puede especificar también un nombre de variable, dos códigos de datos faltantes,
el número de cifras decimales y número de referencia;
para variables cualitativas se pueden incluir sus códigos y nombres correspondientes.
El conjunto de los dos archivos Diccionario y Datos se conoce como dataset IDAMS.
Matrices IDAMS. Algunos programas de análisis utilizan como entrada una matriz de valores rectangular
o cuadrada en lugar de un archivo de datos primarios.
La matriz cuadrada se usa para arreglos simétricos de estadı́sticas bivariadas con una constante en la
diagonal. Solamente se guarda la esquina superior derecha de la matriz, sin la diagonal.
La matriz rectangular es para arreglos no simétricos. El significado de filas y columnas varı́a según el
programa de IDAMS.
1.5.
Comandos de IDAMS y el archivo Setup
Excepto los componentes interactivos de WinIDAMS, la ejecución de un programa de IDAMS comienza
con un archivo Setup. Contiene información tal como especificación de archivos, proposiciones de control de
programa, instrucciones de recodificación de variables, etc. separadas por comandos de IDAMS (comienzan
con un signo $) los cuales identifican la clase de información que se especifica. El primer comando de IDAMS
en el archivo Setup identifica siempre el primer programa que se va a ejecutar, por ej.
$RUN TABLES
$FILES
DICTIN = nombre del archivo Diccionario
DATAIN = nombre del archivo Datos
$SETUP
proposiciones de control para el programa TABLES
$RECODE
proposiciones de transformación de variables
1.6.
Caracterı́sticas estándar de IDAMS
Selección de casos. Por defecto, en una ejecución de un programa de IDAMS se procesan todos los casos
de un archivo Datos. Para escoger un subconjunto, se incluye una proposición de filtro en el setup, por ej.
INCLUDE V3=1 (incluir sólo aquellos casos para los cuales la variable 3 es igual a 1).
6
Introducción
Selección de variables. Las variables son referidas por sus números de variable asignados en el diccionario.
Se especifica un conjunto de variables en una lista de variables que sigue a continuación de palabras clave
tales como VARS, CONVARS, OUTVARS. Tales listas de variables también pueden incluir variables R
construidas con la facilidad Recode de IDAMS (ver más adelante) por ej. VARS=(V3-V6,V129,R100,R101).
Transformación/recodificación de datos. Es una poderosa herramienta de recodificación que permite
asignar nuevos códigos y construir nuevas variables. Las instrucciones de recodificación las escribe el usuario
en el lenguaje Recode de IDAMS. Incluye la posibilidad de hacer cálculos aritméticos ası́ como también
el uso de varias funciones especiales para operaciones tales como agrupamiento de variables, creación de
variables “ficticias”, etc. También se permiten proposiciones condicionales. Los siguientes son ejemplos de
proposiciones de Recode para construir tres nuevas variables R100, R101, R102:
R100=V4+V5
R101=BRAC(V10,0-15=1,16-60=2,60-98=3,99=9)
IF (MDATA(V3,V4) OR V4 EQ 0) THEN R102=99 ELSE R102=V3*100/V4
Las variables R ası́ construidas para cada caso se pueden usar temporalmente en el programa que se está ejecutando o se pueden guardar en un dataset con el programa TRANS.
Ponderación de datos. Cuando se usan procedimentos complejos de muestreo durante la recolección de
datos, puede ser necesario usar diferentes ponderaciones de los casos durante el análisis. Tales ponderaciones
se guardan como una variable en el archivo Datos. Se utiliza entonces el parámetro WEIGHT para invocar
la ponderación en las proposiciones de control del programa, por ej. WEIGHT=V5.
Tratamiento de datos faltantes y datos “malos” . Se pueden identificar valores especiales como códigos
de datos faltantes para cada variable numérica y guardarlos en el diccionario. Durante el procesamiento de
los datos, el manejo de datos faltantes se hace con dos parámetros:
MDVALUES (especifica cuales de los códigos de datos faltantes se usarán para verificar datos faltantes
en las variables numéricas);
MDHANDLING (especifica qué hacer cuando se encuentren datos faltantes).
Normalmente se supone que los datos se han depurado antes del análisis. Si no es éste el caso entonces se
dispone del parámetro BADDATA para omitir casos con valores no numéricos o con valores en blanco en
campos numéricos o para tratar esos valores como datos faltantes.
1.7.
Importación y exportación de datos
IDAMS no utiliza formatos internos especiales para almacenar los datos. Cualquier archivo de caracteres
ASCII de formato fijo puede ser descrito con un diccionario IDAMS y luego ser leı́do por IDAMS. Por el
contrario, los datos en formato libre separados con Tab, coma o punto y coma se pueden importar a través
de la Interfaz del Usuario de WinIDAMS. Aun más, el programa IMPEX permite crear datos de IDAMS de
formato fijo a partir de un archivo de texto en cualquier formato libre o en formato DIF.
Los datos creados por IDAMS son siempre archivos de caracteres de formato fijo. Los archivos pueden entrar
directamente a otro programa junto con la información descriptiva apropiada para dicho programa. Los
datos en formato libre separados con Tab, coma o punto y coma se pueden obtener a través de la Interfaz del
Usuario de WinIDAMS. Aun más, el programa IMPEX permite a exportar un archivo IDAMS de formato
fijo como archivo de texto en formato libre o formato DIF.
Las matrices IDAMS se guardan en un formato especı́fico de IDAMS (descrito en el capı́tulo “Los datos en
IDAMS”). Se puede usar el programa IMPEX para importar/exportar matrices con formato libre.
1.8.
Intercambio de datos entre CDS/ISIS e IDAMS
Hay un programa separado, WinIDIS, el cual prepara la descripción de los datos y hace la transferencia de los
mismos entre IDAMS y CDS/ISIS (programas de UNESCO para el manejo de bases de datos y recuperación
de información). La transferencia es controlada por los archivos de descripción de datos de IDAMS e ISIS
1.9 Estructura de este Manual
7
(el diccionario IDAMS y la tabla de definición de campos de CDS/ISIS). Para ir de ISIS a IDAMS siempre
se construyen nuevos archivos de diccionario y de datos y se pueden intercalar con otros datos usando las
facilidades de manejo de datos de IDAMS. Para ir de IDAMS a ISIS, hay tres posibilidades: (1) se puede
construir una base de datos completamente nueva, (2) se pueden añadir los registros transferidos a una base
de datos existente como nuevos registros de la base de datos, (3) se pueden actualizar los registros de una
base de datos existente con los datos transferidos.
1.9.
Estructura de este Manual
Todas las caracterı́sticas generales de IDAMS, incluida la facilidad Recode, se describen en la Parte 1 de
este Manual.
La Parte 2 incluye las instrucciones de instalación, la descripción de archivos y carpetas usadas en
WinIDAMS, una sección titulada “Primeros pasos” la cual lleva al usuario a través de los pasos requeridos
para hacer una ejecución de IDAMS y la descripción de la Interfaz del Usuario de WinIDAMS.
En las Partes 3 y 4 se dan descripciones detalladas de cada programa IDAMS. Estas documentaciones
contiene las secciones siguientes:
Descripción general. Una descripción del propósito principal del programa.
Caracterı́sticas estándar de IDAMS. Descripción de las posibilidades de selección de casos y de
variables, transformación de datos, capacidad de ponderación y manejo de datos faltantes.
Resultados. Detalles de los resultados destinados a ser impresos (o revisados en pantalla).
Descripción de archivos de salida y entrada. Una sección para cada dataset de IDAMS, cada
matriz y cualquier otro archivo de entrada o salida diferente, que proporciona una descripción
de su contenido.
Estructura del setup. Una designación de las definiciones de archivos, comandos de IDAMS y
proposiciones de control necesarias para ejecutar el programa.
Proposiciones de control del programa. Los parámetros y formatos de cada una de las proposiciones de control del programa con un ejemplo para cada tipo.
Restricciones. Un resumen de las limitaciones del programa.
Ejemplos. Ejemplos de conjuntos completos de proposiciones de control para ejecutar el programa.
La Parte 5 suministra una descripción de los componentes interactivos de IDAMS para la construcción de
tablas multidimensionales, para la exploración gráfica de los datos y para el análisis de series de tiempo.
En la Parte 6 se pueden encontrar detalles de técnicas estadı́sticas, fórmulas y referencias bibliográficas de
los programas de análisis.
Finalmente, los errores generados por los programas de IDAMS se resumen en el Apéndice.
Parte I
Nociones fundamentales
Capı́tulo 2
Los datos en IDAMS
2.1.
2.1.1.
El dataset IDAMS
Descripción general
El dataset consiste en dos archivos distintos y asociados: un archivo Datos y un archivo Diccionario que
describe algunos o todos los campos (variables) en los registros de datos. Todos los archivos Diccionario/Datos
que salen de un programa IDAMS son datasets de IDAMS.
2.1.2.
Método de almacenamiento y acceso
Los archivos Diccionario y Datos se leen y se escriben secuencialmente. De esta manera, se pueden guardar
en cualquier medio de almacenamiento. No hay un archivo especial interno del “sistema” de IDAMS como
en otros paquetes. Los archivos se encuentran en formato de texto/carácter (ASCII) y se pueden procesar
en cualquier momento con utilitarios generales o editores o pueden entrar directamente a otros paquetes
estadı́sticos.
2.2.
2.2.1.
Archivos Datos
El arreglo de datos
Sin importar el formato que tengan los datos en el archivo, éstos pueden visualizarse como un arreglo
rectangular de valores de variables, en donde el elemento xij es el valor de la variable representada por la
columna j-ésima para el caso representado por la fila i-ésima. Por ejemplo, los datos de una encuesta se
pueden mostrar de la manera siguiente:
Casos
Variables
identificación
educación
sexo
edad
...
___________________________________________________________________
caso 1
caso 2
.
.
1300
1301
1302
.
6
2
3
.
2
1
1
.
31
25
55
.
...
...
...
...
...
En el ejemplo, cada fila representa una persona que responde a una encuesta y cada columna representa una
pregunta del cuestionario.
12
Los datos en IDAMS
2.2.2.
Caracterı́sticas del archivo Datos
Este archivo contiene normalmente, pero no necesariamente, registros de longitud fija, ya que el final del
registro se reconoce con caracteres de alimentación de retorno. Sin embargo, la longitud del registro más
largo debe suministrarse en la especificación de archivo (ver comando $FILES). No hay lı́mite para el número
de registros del archivo Datos.
La longitud máxima de registro es 4096 caracteres.
Cada “caso” puede tener más de un registro (hasta un máximo de 50). Si en una ejecución particular de un
programa, se accede a las variables desde más de un tipo de registro, entonces debe haber exactamente el
mismo número de registros para cada caso. El programa MERCHECK puede usarse para crear archivos que
cumplan esta condición. Nótese que cualquier archivo Datos de salida de un programa IDAMS siempre se
reestructura para tener un sólo registro por caso.
Si un archivo de datos primarios tiene tipos de registro diferentes y el tipo de registro está codificado y
no tiene exactamente el mismo número de registros por caso, los programas de IDAMS se pueden ejecutar
usando variables de un tipo de registro a la vez, mediante la selección de ese tipo de registro al comienzo.
2.2.3.
Archivos jerárquicos
IDAMS sólo procesa archivos “rectangulares” como se indicó anteriormente. Los archivos jerárquicos se
pueden manejar al almacenar registros de los diferentes niveles en diferentes archivos y después se usan los
programas AGGREG y MERGE para producir registros compuestos que tengan las variables de los diferentes
niveles. Alternativamente, el archivo jerárquico completo de datos se puede procesar de a un nivel a la vez
mediante el “filtrado” de registros para ese nivel (siempre que los tipos de registros estén codificados).
2.2.4.
Variables
Referencia a variables. Las variables en el archivo Datos se identifican con un número único entre 1 y
9999. Este número, precedido de una V (por ej. V3) se usa para referirse a una variable en particular en
las instrucciones de control de programa. El número de variable se usa para asignar un ı́ndice a un registro
descriptor de variable en el diccionario que suministra el resto de información necesaria acerca de la variable
tal como el nombre y su ubicación dentro del registro de datos.
Tipos de variable. Las variables pueden ser de tipo numérico o alfabético, ambas almacenadas en modo
de caracteres.
Variables numéricas. Estas pueden ser positivas o negativas con las siguientes caracterı́sticas:
Un valor se puede componer de los caracteres numéricos 0-9, un punto decimal y un signo (+,-). Se
permiten blancos a la izquierda.
Los valores deben estar justificados a la derecha dentro del campo (es decir, sin blancos a la derecha)
a menos que aparezca un punto decimal.
El ancho máximo de campo es 9 pero sólo hasta 7 dı́gitos significativos (tomando enteros y decimales)
se retienen en el procesamiento.
Los valores de variable pueden ser enteros (por ej. una variable de edad o una variable categórica
como sexo) o pueden tener decimales (por ej. una variable con valores de porcentajes). El número de
decimales (NDEC) se guarda en el registro descriptor de la variable en el diccionario. Normalmente
el punto decimal está “implı́cito” y no aparece en los datos. En este caso NDEC indica el número de
dı́gitos del valor de la variable que se van a tratar como cifras decimales. Si se codifica un punto decimal
“explı́cito” en los datos, entonces NDEC se utiliza para determinar el número de dı́gitos a retener a la
derecha del punto decimal, con el redondeo necesario del valor, por ej. valores codificados 4.54 y 4.55
con NDEC=1 se usarán como 4.5 y 4.6 respectivamente.
Un signo (si aparece) debe ser el primer carácter, por ej. “-0123”.
Los campos en blanco se consideran no numéricos y se tratan cómo datos “malos”. Ver más adelante
cómo tratar los blancos en los datos que indican datos inaplicables y faltantes.
2.2 Archivos Datos
13
Con excepción de BUILD, todos los programas de IDAMS aceptan valores en notación exponencial,
por ej. el valor codificado como .215E02 se userá como 21.5.
Variables alfabéticas. Se pueden guardar variables alfabéticas en los archivos Datos y pueden tener hasta
255 caracteres de longitud. Pueden usarse en los programas de manejo de datos. Las variables alfabéticas
de 1-4 caracteres pueden usarse también en filtros. Para usarlas en los programas de análisis deben ser
recodificadas a valores numéricos. Esto se puede hacer con la función BRAC de Recode.
2.2.5.
Códigos de datos faltantes
El valor de una variable para un caso en particular puede ser desconocido por muchas razones, por ejemplo
una pregunta puede ser inaplicable a ciertos encuestados o uno de ellos puede rehusarse a contestar la
pregunta. Se pueden establecer códigos especiales para datos faltantes en cada variable numérica y se pueden
codificar en los datos cuando se necesiten. Se permiten dos códigos de datos faltantes: MD1 y MD2. En caso
de usarlos, cualquier valor en los datos igual a MD1 se considerará dato faltante; cualquier valor mayor
o igual que MD2 (si MD2 es positivo o cero) o menor o igual que MD2 (si MD2 es negativo) también se
considerará dato faltante.
Estos códigos de datos faltantes se guardan en el registro de diccionario de la variable. Igual que para valores
de datos, pueden ser enteros o decimales con punto decimal implı́cito o explı́cito. Si se especifica MD1 o
MD2 con punto decimal implı́cito, NDEC da el número de dı́gitos a tratar como cifras decimales. Si se ha
codificado un punto decimal en MD1 o MD2, entonces NDEC determina el número de dı́gitos a la derecha
del punto decimal que deben retenerse, y el valor se redondea apropiadamente.
Cuando los códigos MD1 y MD2 de una variable están en blanco en el diccionario, significa que no hay
códigos especiales numéricos de datos faltantes. Durante una ejecución de un programa IDAMS, los códigos
MD1 y MD2 del diccionario que estén en blanco se convierten a códigos de datos faltantes por defecto con
valores de 1,5 × 109 y 1,6 × 109 respectivamente.
Como los códigos de datos faltantes están limitados a un máximo de 7 dı́gitos (o 6 dı́gitos y un signo
negativo), pueden presentar problemas para variables de 8 y 9 dı́gitos. El usuario debe considerar el uso de
un primer código negativo de datos faltantes en este caso.
2.2.6.
Valores no numéricos o en blanco en variables numéricas - datos malos
En los programas de manejo de datos de IDAMS, éstos simplemente se copian de un lado a otro y no
se lleva a cabo una conversión a modo computacional (binario); en este caso no se verifica si las variables
numéricas tienen valores numéricos. Sin embargo, cuando las variables se usan para análisis o en operaciones
de Recode, entonces sus valores se convierten a modo binario y los valores con caracteres no numéricos
causarán problemas. Normalmente, se deben limpiar esos caracteres de los datos antes del análisis. Además,
valores en blanco en variables numéricas no se tratan automáticamente como datos faltantes; se consideran
también como no numéricos o datos “malos”.
Para permitir el análisis de datos con limpieza incompleta y para el manejo de campos en blanco no recodificados, se puede usar el parámetro BADDATA para tratar los blancos y otros valores no numéricos como
faltantes y de esta manera tener la posibilidad de eliminarlos del análisis. La especificación del parámetro
BADDATA=MD1 o BADDATA=MD2 resulta en la conversión de valores “malos” a los códigos MD1 o MD2
de la variable. Si los códigos MD1 o MD2 están en blanco, entonces los valores malos se convierten a los códigos de datos faltantes correspondientes por defecto (ver arriba) y entonces se tratan como valores faltantes
(ver también la descripción del parámetro BADDATA en el capı́tulo “El archivo Setup de IDAMS”).
2.2.7.
Las reglas de edición de las variables en salida de programas IDAMS
Los programas IDAMS crean siempre un archivo Datos y un diccionario correspondiente, es decir un dataset
IDAMS.
El archivo Datos contiene un registro para cada caso. La longitud del registro es la suma de los anchos de
campo de todas las variables de salida y es determinada por el programa.
14
Los datos en IDAMS
Los valores de las variables numéricas se editan de acuerdo con una forma estándar que se describe a
continuación.
Si la totalidad del campo contiene unicamente los caracteres numéricos 0-9, éstos se envı́an a la salida
tal como aparecen en el archivo de entrada.
Si el campo contiene un número precedido por blancos (por ej. “ 5”), los blancos se convierten a ceros
antes de la salida de los datos. Los campos con los blancos a la derecha (por ej. “04 ” en un campo
numérico de tres dı́gitos), los blancos entre digitos (por ej. “0 4”) y sólo los blancos, se tratan según la
especificación de BADDATA.
Si el campo contiene un valor positivo o negativo con los caracteres “+” y “-” dados explı́citamente,
el signo positivo se elimina y el signo negativo se pone antes del primer dı́gito numérico significativo.
Si el campo contiene un número con un punto decimal explı́cito, se elimina el punto decimal y se
produce un valor con el mismo tamaño del campo de entrada y n cifras decimales tal como se hayan
definido en el campo NDEC de la descripción de la variable. Los blancos a la izquierda en el campo
se convierten a ceros. Si en el campo de entrada se encuentran más de n dı́gitos después del punto
decimal, el valor se redondea a n cifras decimales y se envı́a a la salida (por ej. si n=2 el valor de salida
de 2.146 será 215; si n=0, el valor de salida para 1.5 será 002). Los blancos a la derecha no causan
condición de error. Si se encuentran menos de n dı́gitos, se insertan ceros a la derecha en los lugares
de los decimales faltantes.
Los valores demasiado grandes para entrar en el campo asignado son tratados según la especificación
de BADDATA.
Los valores de las variables alfabéticas no se editan y son los mismos en la entrada y en la salida.
2.3.
2.3.1.
El diccionario IDAMS
Descripción general
El diccionario se usa para describir las variables en los datos. Para cada variable, éste debe contener como
mı́nimo el número de la variable, su tipo y su localización dentro del registro de datos. Adicionalmente se
puede suministrar un nombre de variable, dos códigos de datos faltantes, el número de cifras decimales y un
número o nombre de referencia. La información se guarda en registros descriptores de variables conocidos
a veces como registros T. Registros opcionales C para variables categóricas dan nombres a los diferentes
códigos posibles. El primer registro del diccionario, el registro descriptor del diccionario, identifica el tipo
de diccionario, da los números de la primera y de la última variable usados en el diccionario y especifica el
número de registros de datos que hacen un “caso”.
El diccionario original lo prepara el usuario para describir los datos primarios. Los programas de IDAMS
que construyen datasets siempre producen nuevos diccionarios que reflejan el nuevo formato de los datos.
Los registros del diccionario se guardan como registros de formato fijo de longitud de 80 caracteres.
A continuación se ofrece una descripción detallada de cada tipo de registro de diccionario.
Registro descriptor de diccionario. Es siempre el primer registro del diccionario.
Columnas Contenido
4
5-8
9-12
13-16
20
3 (indica el tipo de diccionario).
Número de la primera variable (justificado a la derecha).
Número de la última variable (justificado a la derecha).
Número de registros por caso (justificado a la derecha).
Forma en la cual se ha especificado la localización de variables (columnas 32-39) en los registros
descriptores de variable.
Blanco
Número de registro y columnas inicial y final. La longitud de registro debe ser 80
para usar este formato si el número de registros por caso es > 1.
1
Posición inicial y ancho de campo.
2.3 El diccionario IDAMS
15
Registros descriptores de variables (registros T). El diccionario tiene un registro de éstos por cada
variable. Estos registros están arreglados en orden ascendente por número de variable. Los números de
variables no necesitan ser contiguos. El número máximo de variables es 1000.
Columnas Contenido
1
2-5
7-30
32-39
40
41
45-51
52-58
59-62
73-75
T
Número de variable.
Nombre de variable.
Localización; de acuerdo con la columna 20 del registro descriptor de diccionario.
o bién
32-33
Número secuencial de registro con la columna inicial de la variable.
34-35
Número de columna inicial.
36-37
Número secuencial de registro con la columna final de la variable.
38-39
Número de columna final.
o
32-35
Posición inicial de la variable dentro del caso.
36-39
Ancho de campo (1-9 para las variables numéricas y 1-255 para las variables alfabéticas).
Número de cifras decimales (sólo variables numéricas).
Blanco implica que no hay cifras decimales.
Tipo de variable.
Blanco
Numérica.
1
Alfabética.
Primer código de datos faltantes para variables numéricas (o blancos si no hay primer código de
datos faltantes).
Justificado a la derecha.
Segundo código de datos faltantes para variables numéricas (o blancos si no hay segundo código
de datos faltantes).
Justificado a la derecha.
Número de referencia (opcional - se puede usar para alguna referencia alfanumérica inmodificable
para la variable, por ej. el número original de la variable o una referencia a la pregunta).
Identificador de estudio (opcional - se puede usar para identificar el estudio al cual pertenece este
diccionario).
Nota 1: cuando se usan número de registro y de columna para identificar la localización de la variable, los
listados de registros de diccionario no muestran el número de registro y de columna tal como aparecen en
el registro del diccionario. En cambio, la localización de la variable se traslada y se imprime en el formato
de posición inicial/ancho. Por ejemplo, para una variable en las columnas 22-24 del tercer registro de un
archivo de registros múltiples por caso (longitud de registro 80), la posición inicial será 182 (2 * 80 + 22) y
el ancho 3.
Nota 2: si hay más de un registro por caso y la longitud de registro no es 80, entonces la notación de posición
inicial y ancho de campo debe usarse en los registros T. La posición inicial se cuenta a partir del comienzo
del primer registro. Por ejemplo, para registros de longitud 121, la posición inicial de un campo en la posición
11 del segundo registro de un caso serı́a 132.
Registros de nombres de códigos (registros C). El diccionario puede contener estos registros opcionalmente para cualquiera de las variables. Van inmediatamente a continuación del registro T para la variable
a la cual aplican y suministran códigos y nombres para diferentes valores posibles de la variable. Los usan
programas tales como TABLES para imprimir nombre de filas y columnas junto con los códigos correspondientes. También pueden usarse como la especificación de códigos válidos para una variable durante la entrada
de datos con la Interfaz del Usuario de WinIDAMS y para la validación de datos con el programa CHECK.
16
Los datos en IDAMS
Columnas Contenido
1
2-5
6-9
C
Número de variable.
Número de referencia (opcional - se puede usar para alguna referencia inmodificable para la
variable, por ej. el número original de la variable o una referencia a la pregunta).
Valor del código justificado a la izquierda.
Nombre para este código. (Nota: los programas de análisis sólo usan los primeros 8 caracteres e
imprimen nombres de códigos aunque el nombre completo aparecerá en el listado del diccionario).
Identificador de estudio (opcional).
15-19
22-72
73-75
2.3.2.
Ejemplo de un diccionario
Columnas:
1
2
3
4
5
6...
123456789012345678901234567890123456789012345678901234567890...
T
T
T
C
C
T
C
C
C
C
T
T
3
1
2
3
3
3
11
11
11
11
11
12
20
1 20
1
1
Identificación
Edad
Sexo
1
Mujer
2
Hombre
Región
1
Norte
2
Sur
3
Este
4
Oeste
Calificación promedio
Nombre
1
6
8
5
2
1
16
1
17
31
31
30 1
99
000
900
Este es un diccionario que describe 6 campos en un registro de datos como se ven esquemáticamente a
continuación.
1-5
V1
6-7
V2
8
V3
16
V11
17-19
V12
31-60
V20
ID
Edad
Sexo
Región
Calif.
Nombre
Las localizaciones de variables se expresan en términos de posición inicial y ancho de campo (1 en la columna
20 del registro descriptor de diccionario) y hay un registro por caso (1 en la columna 16). Hay una cifra
decimal implı́cita en la variable de calificación promedio (V12). La variable edad tiene código 99 para datos
faltantes. Para la calificación promedio, los ceros significan datos faltantes ası́ como todos los valores mayores
o iguales a 90.0. El nombre de cada encuestado (V20) se graba como una variable de tipo alfabético (tipo 1)
de 30 caracteres. Nótese que los números de variable no necesitan ser contiguos y que no se requiere describir
todos los campos en los datos.
2.4.
Matrices IDAMS
Hay dos tipos de matrices IDAMS: cuadradas y rectangulares. Ambos tipos se describen por sı́ mismos, pero
contrariamente al dataset IDAMS, el “diccionario” se guarda en el mismo archivo de los valores del arreglo.
En general, estas matrices se crean con un programa IDAMS para ser usadas como entrada a otro programa
y el usuario no tiene que estar familiarizado con el formato. Sin embargo, si es necesario preparar una matriz
de correlación, una matriz de configuración, etc. a mano, entonces se deben observar los formatos descritos
más adelante.
Sin importar el tipo, todos los registros son de longitud fija de 80 caracteres.
2.4 Matrices IDAMS
2.4.1.
17
La matriz cuadrada IDAMS
La matriz cuadrada se puede usar solamente para un arreglo cuadrado y simétrico. Sólo se guardan los
valores del triángulo superior derecho, sin la diagonal. Un arreglo para una correlación de Pearson se guarda
satisfactoriamente en esta forma.
Programas que leen/producen matrices cuadradas. PEARSON produce matrices cuadradas de correlación y covariancia; REGRESSN produce matrices de correlación cuadradas; TABLES produce matrices
cuadradas de medidas de asociación bivariadas. Estas matrices son la entrada apropiada para otros programas, por ej. la matriz de correlación que sale de PEARSON puede entrar a REGRESSN y a CLUSFIND.
Adamás, CLUSFIND y MDSCAL leen las matrices cuadradas de similitudes o disimilitudes.
Ejemplo.
Columnas:
Descriptor de matriz
Formatos
Identificación de
variables
Arreglo de valores
Medias y
desviaciones estándar
111111111122222222223...
123456789012345678901234567890...
|
|
|
|
|
|
|
|
|
|
|
2
4
#F (12F6.3)
#F (6E12.5)
#T
1 EDAD
#T
3 EDUCACION
#T
9 RELIGION
#T 10 SEXO
-.011 -.174 -.033
.131 -.105
-.133
0.33350E 01 0.54950E 01 0.50251E 01 0.40960E 01
0.20010E 01 0.19856E 01 0.15000E 01 0.12345E 01
Formato. La matriz cuadrada contiene lo siguiente:
1. Un registro descriptor de la matriz. Este, el primer registro, da el tipo de matriz y las dimensiones del
arreglo de valores.
Columnas Contenido
4
5-8
2 (indica matriz cuadrada).
Número de variables (justificado a la derecha).
2. Una proposición de formato Fortran que describe cada fila del arreglo de valores. La proposición de
formato describe el número de campos por registros de 80 caracteres y el formato de cada uno. Por
ejemplo, un formato de (12F6.3) indica que cada fila del arreglo se graba hasta con 12 valores por
registro, cada valor ocupa 6 columnas 3 de las cuales son decimales. Si una fila contiene más de 12
valores, el valor 13 quedará en el siguiente registro, etc. Cada nueva fila del arreglo siempre comienza
en un nuevo registro.
Columnas Contenido
1-2
3-80
#F
Proposición de formato, entre paréntesis.
3. Una proposición de formato Fortran que describe los vectores de medias y desviaciones estándar de
variables. La proposición de formato describe el número de valores por registro y el formato de cada
uno.
Columnas Contenido
1-2
3-80
#F
Proposición de formato, entre paréntesis.
4. Registros de identificación de variables. Son n registros, donde n es el número de variables especificadas
en el registro descriptor de matriz. El orden de estos registros corresponde al orden de las variables
que asignan ı́ndices a las filas (y columnas) del arreglo de valores. Cuando una matriz es creada por un
programa IDAMS, los números de variable y los nombres de las mismas se retienen del dataset IDAMS
del cual se generaron las estadı́sticas.
18
Los datos en IDAMS
Columnas Contenido
1-2
3-6
8-31
#T or #R (indica identificación de variable para una fila de la matriz).
Número de variable (justificado a la derecha).
Nombre de variable.
Las cuatro secciones anteriores de la matriz se llaman el “diccionario” de la matriz. En seguida del
diccionario de la matriz está el arreglo de valores.
5. El arreglo de valores. Como el arreglo es simétrico y tiene celdas diagonales que contienen una constante
(por. ej. una correlación de 1.0 para una variable correlacionada consigo misma), sólo se guarda el
ángulo superior derecho sin la diagonal. Nótese que para una matriz de covariancia los elementos de la
diagonal pueden calcularse utilizando las desviaciones estándar que están incluı́das en el archivo de la
matriz (ver sección 7 más adelante). En el ejemplo anterior de la matriz de 4 variables, el arreglo total
(antes de entrar en el formato de matriz cuadrada) serı́a ası́:
vars
1
3
9
10
1
1.000
-.011
-.174
-.033
3
-.011
1.000
.131
-.105
9
-.174
.131
1.000
-.133
10
-.033
-.105
-.133
1.000
9
-.174
.131
10
-.033
-.105
-.133
La porción del arreglo que se guarda es:
vars
1
3
9
10
1
3
-.011
Cada fila de este arreglo reducido da comienzo a un nuevo registro y se escribe de acuerdo con el
formato especificado en el diccionario de la matriz (ver arriba).
6. Un vector de medias de variables. Los n valores se graban de acuerdo con la proposición de formato
en el diccionario de la matriz.
7. Un vector de desviaciones estándar de variables. Los n valores se graban de acuerdo con la proposición
de formato en el diccionario de la matriz.
2.4.2.
La matriz rectangular IDAMS
La matriz rectangular difiere de la matriz cuadrada en que el arreglo de valores puede ser cuadrado (y no
simétrico) o rectangular. Más aún, como las variables no asignan ı́ndices a las filas de algunos arreglos, por
ej. una tabla de frecuencias, la matriz rectangular puede o no puede contener registros de identificación de
variables; la matriz rectangular no contiene ni medias ni desviaciones estándar de variables.
Programas que leen/producen matrices rectangulares. Estas matrices son creadas por los programas CONFIG, MDSCAL, TABLES y TYPOL. Son apropiadas para como entrada a CONFIG, MDSCAL,
TYPOL.
2.4 Matrices IDAMS
19
Ejemplo.
Columnas:
Descriptor de matriz
Formatos
Identificación de
variables
Arreglo de valores
111111111122222222223...
123456789012345678901234567890...
|
|
|
|
|
|
|
|
3
4
3
#F (l6F5.0)
#T
2 CI
#T
5 EDUCACION
#T
8 MOVILIDAD
#T 12 RIVALIDAD ENTRE HERMANOS
59
20
10
37
15
2
50
40
7
8
26
31
Formato. La matriz rectangular continene lo siguiente:
1. Un registro descriptor de la matriz.
Columnas Contenido
4
5-8
9-12
16
20
21-40
41-60
61-80
3 (indica matriz rectangular)
El número de filas (justificado a la derecha).
El número de columnas (justificado a la derecha).
Número de registros de proposiciones de formato (#F). (Blanco implica 1).
Presencia de nombres de filas y columnas:
blanco/0
Sólo hay nombres de fila (registros #R o #T).
1
Sólo hay nombres de columna (registros #C).
2
Hay nombres de filas y columnas (registros #R o #T, y #C).
3
No hay nombres de filas ni de columnas.
Nombre de variable de fila (opcional).
Nombre de variable de columna (opcional).
Descripción de contenido de la matriz (opcional):
Frequencies/weighted (frecuencias/ponderadas)
Frequencies/unwtd (frecuencias/sin ponderar)
Percentages/row (porcentajes de fila)
Percentages/column (porcentajes de columna)
Percentages/total (porcentajes de total de la tabla)
Nombre de la variable par la cual las medias están incluı́das en la matriz.
2. Una proposición de formato Fortran que describe cada fila del arreglo de valores. El formato describe
un registro de 80 caracteres. Por ejemplo, un formato de (16F5.0) indica que cada fila del arreglo se
graba hasta con 16 valores por registro y cada valor ocupa 5 columnas sin ninguna cifra decimal.
Columnas Contenido
1-2
3-80
#F
La proposición de formato, entre paréntesis.
3. Registros de identificación de variables. El orden de estos registros corresponde al orden de las variables/los códigos que asignan ı́ndeces a las filas y columnas de la matriz. Cuando un programa de
IDAMS crea una matriz rectangular, los números y nombres de las variables/los códigos se retienen
del dataset o matriz de entrada del cual o de la cual se derivó el arreglo de valores.
Columnas Contenido
1-2
3-6
8-31
#T o #R para nombres de filas, #C para nombres de columnas.
Número de variable o valor de código (justificado a la derecha).
Los códigos con longitud mayor que 4, se reemplazan con ****.
Nombre de variable o nombre de código.
Las tres secciones anteriores de la matriz se llaman el “diccionario” de la matriz. A continuación del
diccionario de la matriz está el arreglo de valores.
4. El arreglo de valores. Se guarda todo el arreglo. Cada fila del arreglo da comienzo a un nuevo registro
y se escribe de acuerdo con el formato especificado en el diccionario de la matriz.
20
2.5.
2.5.1.
Los datos en IDAMS
Uso de datos de otros paquetes
Datos primarios
Cada archivo en la forma de registros de formato fijo en modo de caracteres (ASCII) puede usarse directamente para los programas de IDAMS. Casi todos los paquetes de bases de datos y estadı́sticos tienen una
función de “exportar” o “convertir” para producir archivos de datos de caracteres en formato fijo. Debe
prepararse entonces un diccionario IDAMS para describir los campos requeridos en los datos.
Un archivo de formato libre con Tab, coma o punto y coma como delimitador se puede importar directamente
utilizando la Interfaz del Usuario de WinIDAMS. Ver el capı́tulo “Interfaz del Usuario” para más detalles.
Los archivos de texto en formato libre (se puede utilizar para separar cualquier caracter, incluso blancos) y
en formato DIF se pueden importar usando el programa IMPEX.
Los datos almacenados en una base de datos CDS/ISIS se pueden importar con un programa WinIDIS.
2.5.2.
Matrices
Se puede usar el programa IMPEX para importar matrices en formato libre. Además, las matrices producidas
fuera de IDAMS, por ejemplo una matriz en una publicación, pueden entrar de acuerdo con el formato descrito
en la sección “Matrices IDAMS”.
Capı́tulo 3
El archivo Setup de IDAMS
3.1.
Contenido y propósito
Para ejecutar los programas IDAMS el usuario prepara un archivo especial llamado archivo “Setup”, el cual
controla la ejecución de los programas. El archivo Setup contiene comandos de IDAMS e instrucciones que
especifican lo que se requiere, tales como qué programa se va a ejecutar, nombres de archivos, opciones a
escoger del programa e instrucciones de transformación de variables; por. ej.
$RUN nombre de programa
$FILES
especificación de archivos
$SETUP
proposiciones de control del programa
$RECODE
proposiciones de Recode
3.2.
Comandos de IDAMS
Estos comandos, los cuales comienzan con “$”, separan las diferentes clases de información que se suminsitran
a una ejecución de un programa de IDAMS. Los comandos disponibles son:
$RUN programa
$FILES [RESET]
$RECODE
$SETUP
$DICT
$DATA
$MATRIX
$PRINT
$COMMENT [texto]
$CHECK [n]
(nombre del programa a ejecutar)
(señala el comienzo de especificación de archivos)
(señala el comienzo de las proposiciones de Recode)
(señala el comienzo de las proposiciones de control de programa)
(señala el comienzo del diccionario)
(señala el comienzo de los datos)
(señala el comienzo de una matriz)
(activa/desactiva el interruptor de impresión)
(comentarios)
(verifica si el paso previo terminó satisfactoriamente).
La primera lı́nea en un archivo Setup debe ser siempre un comando $RUN que identifica el programa IDAMS
a ejecutar. Otros comandos relacionados con la ejecución de este programa (seguidos de las proposiciones de
control asociadas o de datos) se pueden colocar en cualquier orden. Estos se siguen con un comando $RUN
para ejecutar el siguiente programa (si lo hay) y ası́ sucesivamente.
Los comandos individuales de IDAMS se describen a continuación en orden alfabético.
$CHECK [n]. Cuando este comando está presente, el programa no se ejecutará si el programa inmediatamente precedente terminó con un código de condición mayor que n. Si el comando está presente pero no se
ha suministrado ningún valor, n toma 1 por defecto.
22
El archivo Setup de IDAMS
Todos los programas de IDAMS terminan con un código de condición de 16 si se encuentran errores de
setup. Por ejemplo, si TABLES se va a ejecutar inmediatamente después de TRANS pero el usuario
no quiere ejecutar TABLES si se presenta un error en la ejecución de TRANS, un comando $CHECK
después del comando $RUN TABLES va a impedir la ejecución de TABLES.
El comando $CHECK puede aparecer en cualquier parte dentro del setup del programa pero por lo
general se coloca inmediatamente después del comando $RUN.
$COMMENT texto. El “texto” en este comando se imprime en el listado del setup. Este comando no
tiene efecto en la ejecución del programa.
$DATA. El comando $DATA señala que vienen los datos.
No se puede usar si el programa genera un archivo Datos de salida y no se ha especificado el archivo
DATAOUT, es decir que los datos de salida van a un archivo temporal por defecto.
No se puede usar si se usa el comando $MATRIX.
La longitud del registro de los datos en el setup no puede exceder de 80 caracteres. Si entran registros,
o lı́neas más largas, sólo se usarán los primeros 80 caracteres.
El comando $DATA desactiva el interruptor de impresión. Ası́, a menos de que un comando $PRINT
venga inmediatamente después del comando $DATA, los datos no se imprimen.
$DICT. El comando $DICT señala que viene un diccionario IDAMS.
No se puede usar si el programa genera un archivo Diccionario de salida y no se ha especificado el
archivo DICTOUT, es decir si el diccionario sale a un archivo temporal por defecto.
El comando $DICT desactiva el interruptor de impresión. Ası́, a menos de que un comando $PRINT
venga inmediatamente después del comando $DICT, el diccionario no se imprime.
$FILES [RESET]. Señala el comienzo de especificación de archivos. Al comienzo de la ejecución de los
programas de IDAMS se colocan nombres por defecto a cada archivo, con el uso de un archivo especial
“idams.def”. Cualquiera de estos nombres por defecto, se puede cambiar con proposiciones de especificación
de archivo introducidas después del comando $FILES (ver “Especificación de archivos” más adelante). Para
obtener nuevamente los nombres por defecto para archivos Fortran FT (excepto FT06 y FT50), use el
comando “FILES RESET”.
$MATRIX. El comando $MATRIX señala que viene una matriz o una serie de matrices.
No se puede usar si se usa $DATA.
El comando $MATRIX desactiva el interruptor de impresión. Ası́, a menos que un comando $PRINT
venga inmediatamente después del comando $MATRIX, la matriz no se imprime.
$PRINT. Se invierte el interruptor de impresión; si estaba activado, $PRINT lo desactiva; si estaba desactivado, $PRINT lo activa. Si la impresión estaba activada, las lı́neas del archvo Setup se imprimen como
una parte de los resultados.
Cuando se encuentra un comando $RUN, el interruptor de impresión siempre se activa. Los comandos
$DICT, $DATA y $MATRIX desactivan automáticamente el interruptor de impresión.
$RECODE. La presencia de este comando señala que se va a usar la facilidad Recode de IDAMS. La
facilidad Recode de IDAMS se describe en el capı́tulo “La facilidad Recode” de este manual.
Las proposiciones de Recode normalmente siguen a continuación del comando $RECODE. Si un nuevo
comando de IDAMS sigue inmediatamente después de un comando $RECODE, se usan las proposiciones Recode del setup del programa precedente.
3.3 Especificación de archivos
23
$RUN programa. $RUN especifica el programa que se va a ejecutar y siempre es la primera proposición
en el setup.
“programa” es el nombre del programa de 1-8 caracteres.
Todos los comandos y proposiciones que van a continuación del comando $RUN y van hasta el siguiente
comando $RUN se aplican al programa nombrado.
El interruptor de impresión se activa cuando se encuentra un comando $RUN. Ver la descripción de
$PRINT.
$SETUP. El comando $SETUP señala el comienzo de las proposiciones de control del programa, es decir
el filtro, tı́tulo, proposición de parámetros, etc. (ver más adelante).
Se requiere el comando $SETUP aun cuando haya proposiciones de control de programa imediatamente
después del comando $RUN.
3.3.
Especificación de archivos
Los nombres de los archivos a usar se dan después del comando $FILES y toman el formato siguiente:
ddname=nombre de archivo
[RECL=longitud máxima de registro]
donde:
ddname es el nombre de la referencia de archivo usado interiormente para los programas, por ej.
DICTIN. Los archivos requeridos y los correspondientes ddnames para un programa en particular se
dan en la documentación del programa en la sección titulada “Estructura del setup”.
nombre de archivo es el nombre del archivo fı́sico. Encierre el nombre entre comillas sencillas si éste
tiene blancos. Ver la sección “Carpetas en WinIDAMS” para explicaciones adicionales.
RECL debe usarse si el primer registro del archivo Datos no es el más largo. Si no se ha especificado
RECL la longitud de registro se toma como la longitud del primer registro. Si un registro posterior es
más largo, se presenta un error de entrada.
Ejemplos:
DATAIN
PRINT
FT02
DICTIN
=
=
=
=
A:ECON.DAT RECL=92
RSLTS.LST
ECON.MAT
\\nec0102\commondata\econ.dic
Referirse a la sección “Personalización del ambiente para una aplicación” en el capı́tulo “Interfaz del Usuario”
para una descripción adicional.
3.4.
Ejemplos de uso de comandos $ y especificación de archivos
Ejemplo A. Hacer múltiples ejecuciones de un programa de análisis, por ej. ONEWAY con los mismos
datos pero, por ejemplo, con filtros diferentes.
$RUN ONEWAY
$FILES
DICTIN = CHEESE.DIC
DATAIN = CHEESE.DAT
$RUN ONEWAY
$SETUP
24
El archivo Setup de IDAMS
Filtro 1
Otras proposiciones de control para ONEWAY
$RUN ONEWAY
$SETUP
Filtro 2
Otras proposiciones de control para ONEWAY
Ejemplo B. Ejecutar TABLES y ONEWAY usando el mismo diccionario y los mismos datos para cada
programa y con el mismo Recode; no imprimir las proposiciones de Recode.
$RUN TABLES
$FILES
DICTIN = ABC.DIC
DATAIN = ABC.DAT RECL=232
$SETUP
Proposiciones de control para TABLES
$RECODE
$PRINT
Proposiciones de Recode
$RUN ONEWAY
$SETUP
Proposiciones de control para ONEWAY
$RECODE
$COMMENT EL RECODE DE ENTRADA PARA TABLES SE USARA EN ONEWAY
Ejemplo C. Ejecutar TABLES usando Recode de IDAMS, diccionario en el setup, datos en disco. Imprimir
el diccionario de entrada.
$RUN TABLES
$FILES
DATAIN = A:MYDATA.DAT
$RECODE
Proposiciones de Recode
$SETUP
Proposiciones de control para TABLES
$DICT
$PRINT
Diccionario
Ejemplo D. Usar los datos de salida de un programa de manejo de datos como entrada a los programas de
análisis sin retener el archivo de salida, por ej. ejecutar TRANS seguido de TABLES usando los datos de
salida de TRANS mediante la especificación del parámetro INFILE=OUT. TABLES no se ejecuta si TRANS
tiene errores en las proposiciones de control.
$RUN TRANS
$FILES
DICTIN = MY.DIC
DATAIN = MY.DAT
$SETUP
Proposiciones de control para TRANS
$RECODE
Proposiciones de Recode
$RUN TABLES
$CHECK
$SETUP
Proposiones de control para TABLES, incluı́do el parámetro INFILE=OUT
3.5 Proposiciones de control de programa
3.5.
25
Proposiciones de control de programa
3.5.1.
Descripción general
Las proposiciones de control de la ejecución de programa (van a continuación del comando $SETUP), se
usan para especificar los parámetros del programa a ejecutar. Hay tres proposiciones de control estándar que
usan todos los programas:
1. la proposición opcional de filtro para seleccionar los casos a usar del archivo de datos,
2. la proposición mandatoria de tı́tulo que asigna un tı́tulo a la ejecución,
3. una proposición mandatoria de parámetros que selecciona las opciones para el programa; algunas
opciones de programa son estándar en muchos programas, otras son especı́ficas de cada uno.
Proposiciones de control adicionales requeridas en programas individuales se describen en la documentación
del programa.
3.5.2.
Reglas generales de codificación
Las proposiciones de control entran en lı́neas de hasta 255 caracteres de longitud.
Las lı́neas se pueden continuar si se coloca un guión al final de la lı́nea y se sigue en la siguiente.
La longitud máxima de la información que puede entrar en una proposición de control es 1024 caracteres, excluı́dos los caracteres de continuación.
Las letras minúsculas, con excepción de las que se encuentren en cadenas entre comillas sencillas, se
convierten a letras mayúsculas.
Si se incluyen cadenas de caracteres entre comillas sencillas en una proposición de control, éstas deben
continuar en una lı́nea.
3.5.3.
Filtros
Propósito. Una proposición de filtro se usa para seleccionar un subconjunto de casos. Una proposición
de filtro se expresa en términos de variables y de los valores tomados por esas variables. Por ejemplo, si la
variable V5 indica “sexo del encuestado” en una encuesta y el código 1 representa mujer, entonces “INCLUDE
V5=1” es una proposición de filtro que especifica encuestados femeninos como el subconjunto deseado de
casos.
El filtro principal selecciona casos de un archivo Datos de entrada y se aplica en toda la ejecución de
un programa. Estos filtros están disponibles en todos los programas de IDAMS que cargan un diccionario
(excepto BUILD y SORMER). Algunos programas permiten subdivisión adicional. Tales filtros “locales” se
aplican solamente a una acción especı́fica del programa, por ej. una tabla de frecuencias.
Ejemplos.
1. INCLUDE V2=1-5 AND V7=23,27,35 AND V8=1,2,3,6
2. EXCLUDE V10=2-3,6,8-9 AND V30=<5 OR V91=25
3. INCLUDE V50=’FRAN’,’UK’,’MORO’,’INDI’
Colocación. Si se usa un filtro principal, es siempre la primera proposición de control de programa. La
documentación de cada programa indica si se pueden usar filtros “locales” también.
Reglas de codificación.
La proposición de filtro comienza con las palabras INCLUDE o EXCLUDE. Según la palabra usada,
la proposición de filtro define el subconjunto de casos a usar (INCLUDE) o ignorar (EXCLUDE) por
el programa.
26
El archivo Setup de IDAMS
Una proposición puede contener un máximo de 15 expresiones. Una expresión consiste en un número
de variable, un signo igual y una lista de posibles valores. Esta lista puede tener valores individuales
y/o rangos de los mismos separados con comas, por ej. V2=1,5-9. Los rangos con extremos abiertos
se indican con < o >, por ej. INCLUDE V1=0,3-5,>10; sin embargo la variable siempre debe estar
seguida de un signo = para comenzar, por ej. V1>0 debe expresarse como V1=>0 y V1<0 como
V1=<0.
Las expresiones se conectan con las conjunciones AND y OR.
• AND indica que debe hallarse un valor de cada una de las series de expresiones conectadas con
AND.
• OR indica que debe hallarse un valor por lo menos de una de las series de expresiones conectadas
con OR.
Las expresiones conectadas con AND se evalúan antes de las expresiones conectadas con OR. Por ejemplo, “expresión-1 OR expresión-2 AND expresión-3” se interpreta como “expresión-1 OR (expresión-2
AND expresión-3)”. Ası́, para que un caso esté en el subconjunto definido por estas expresiones, debe
presentarse un valor de expresión-1 o valores de expresión-2 y expresión-3 o bién debe presentarse un
valor de cada una de las tres expresiones.
No se pueden usar paréntesis en la proposición de filtro para indicar precedencia de evaluación de
expresiones.
Las variables pueden aparecer en cualquier orden y en más de una expresión. Sin embargo, nótese que
“V1=1 OR V1=2” es equivalente a la expresión sencilla “V1=1,2”. Nótese también que “V1=1 AND
V1=2” es una condición imposible ya que un caso no puede tener ambos valores “1” y “2” para la
variable V1.
Una proposición de filtro puede terminar opcionalmente con un asterisco.
Las variables en un filtro.
• Se pueden usar variables de caracteres de tipo numérico y alfabético.
• No se permiten variables R en filtros principales. Se permiten en filtros especificos de análisis o
en filtros locales. Nótese que la proposición REJECT de Recode se puede usar para utilizar las
variables R para filtrar casos.
Los valores en un filtro para variables numéricas.
• Los valores numéricos pueden ser enteros o decimales, positivos o negativos, por ej. 1, 2.4, -10.
• Los valores se expresan en forma sencilla o en rangos y se separan con comas, por ej. 1-5, 8, 12-13.
• Para variables numéricas de filtro, los valores en el archivo de datos se convierten primero a
modo binario real con el número correcto de cifras decimales del diccionario y después se hace
la comparación numéricamente con el valor en el filtro. Nótese que ésto significa que para una
variable con decimales, los valores de filtro se deben suministrar con el punto decimal en el lugar
correcto, por ej. V2=2.5-2.8.
• Los casos con valores no numéricos en una variable de filtro siempre se excluyen de la ejecución.
Los valores en un filtro para variables alfabéticas.
• Valores de 1-4 caracteres se expresan como cadenas de caracteres entre comillas sencillas, por ej.
’F’. No se requiere entrar los blancos a la derecha, es decir que se añaden los blancos a la derecha.
• Si la variable tiene un ancho de campo mayor que 4, entonces se usan sólo los primeros cuatro
caracteres de los datos para comparar con la variable de filtro.
• No se pueden usar rangos de cadenas de caracteres; sólo se permiten valores individuales separados
con comas.
Nota. La primera proposición después del comando $SETUP se reconoce como filtro principal si comienza
con INCLUDE o EXCLUDE. Si los primeros caracteres que no estén en blanco son cualquier otra cosa, se
supone que la proposición es un tı́ltulo.
3.5 Proposiciones de control de programa
3.5.4.
27
Tı́tulos
Propósito. Una proposición de tı́tulo se usa para titular los resultados que produce un programa. Algunos
programas de IDAMS imprimen este tı́tulo una vez al comienzo del listado mientras que otros lo utilizan
para titular cada página del mismo.
Ejemplos.
1. TABLAS DE LOS DATOS DE LAS ELECCIONES - JULIO, 2000
2. LISTADO DE DATOS DE ENCUESTA CORREGIDOS A34
Colocación. Todos los programas de IDAMS requieren una proposición de tı́tulo. El tı́tulo es la primera
proposición de control de programa o (si se usa filtro) la segunda. Si no se desea tı́tulo en especial, es necesario
de todas maneras incluir una lı́nea en blanco.
Reglas de codificación.
La proposición puede ser cualquier cadena de caracteres de los cuales se usan los primeros 80, es decir,
si entra un tı́tulo con más de 80 caracteres, se trunca a los primeros 80.
Si el tı́tulo no esta encerrado entre comillas sencillas, las minúsculas se convierten a mayúsculas y los
blancos se reducen a un solo blanco.
El tı́tulo no puede empezar con las palabras “INCLUDE” o “EXCLUDE”.
3.5.5.
Parámetros
Propósito. Todos los programas de IDAMS se han diseñado de una manera más o menos general de forma
tal que permitan al usuario seleccionar varias opciones. Estas opciones y valores se llaman “parámetros” y
se suministran en las proposiciones de control del programa, tales como “parámetros”, “especificaciones de
regresión”, “especificaciones de tablas”, etc. El usuario especifica los parámetros en formato de palabra clave
estándar con una palabra inglesa o su abreviación para identificar una opción.
Ejemplos.
1. WRITE=CORR WEIGHT=V3, PRINT=(DICT, PAIR)
(parámetros de PEARSON)
2. DEPV=V5 METHOD=STEP VARS=(R3-R9,V30) WRITE=RESID
(parámetros de regresión de REGRESSN)
3. ROWV=(V3,V9,V10) COLV=(V4,V11,V19) CELLS=(FREQ,ROWPCT) STATS=(CHI,TAUA)
(descripción de tabla de TABLES)
Colocación. Todos los programas de IDAMS requieren la proposición principal de parámetros y debe
seguir después de la proposición de tı́tulo. Si se escogen todos los valores por defecto, debe suministrarse
una lı́nea con un asterisco. Cada documentación de programa indica el tipo y contenido de cualesquiera
otras listas de parámetros que se requieran e indica su posición relativa a otras proposiciones de control del
programa.
Presentación de parámetros en formato de palabra clave en la documentación de programas.
Toda la documentación tiene una notación estándar en las secciones que describen los parámetros de los que
se dispone. La notación básica es la siguiente:
Una diagonal indica que se puede escoger sólo uno de los términos mutuamente excluyentes, por ej.
SAMPLE/POPULATION o PRINT=CDICT/DICT.
Una coma indica que se pueden escoger todos, algunos o niguno de los ı́tems, por ej. STATS=(TAUA,
TAUB, GAMMA).
Cuando se combinan comas y diagonales, se puede escoger sólo uno (o ninguno) de los ı́tems dentro
de cada grupo separados por comas y conectados con diagonales, por ej. PRINT= (CDICT/DICT,
LONG/SHORT).
28
El archivo Setup de IDAMS
Valores por defecto, si los hay, están en negrilla, por ej. METHOD=STANDARD/STEPWISE/
DESCENDING. Un valor por defecto es un valor que el programa asume para el parámetro, si no hay
una selcción explı́cita hecha por el usuario.
Si el uso de un parámetro es obligatorio pero no tiene valores por defecto se usan las palabras “Sin
valor por defecto”.
Las palabras en mayúsculas son palabras clave. Palabras o frases en minúsculas indican que el usuario
debe reemplazar la palabra o la frase con un valor apropiado, por ej. MAXCASES=n, VARS=(lista de
variables).
Tipos de palabras clave. Hay 5 tipos de palabras clave para especificar parámetros.
1. Una palabra clave seguida de una cadena de caracteres. Este tipo de palabra clave identifica un
parámetro que consiste en una cadena de caracteres, por ej.
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
El usuario puede especificar:
INFILE=IN2
(los ddnames serian DICTIN2 y DATAIN2)
2. Una palabra clave seguida de uno o más números de variables, por ej.
WEIGHT=número de variable
El número de la variable de ponderación, si se van a ponderar los datos.
VARS=(lista de variables)
Usar sólo las variables en la lista; los números se pueden listar en cualquier orden con notación V
o sin ella, es decir VARS=(V1-V3) o VARS=(1-3). Nótese que la documentación de los programas
indica si se pueden usar variables V y R o sólo variables tipo V.
El usuario puede especificar:
WEIGHT=V39
(la variable de ponderación es V39)
VARS=(32,1,10)
(sólo se usan las variables especificadas)
3. Una palabra clave seguida de uno o más valores numéricos, por ej.
MAXCASES=n
Sólo se procesarán los primeros n casos.
IDLOC=(i1,f1,i2,f2, ...)
Columnas inicial y final para 1-5 campos de identificación de caso.
El usuario puede especificar:
MAXCASES=100
(sólo se procesarán los primeros 100 casos)
IDLOC=(1,3,7,9)
(la identificación de caso se halla en las columnas 1-3 y 7-9)
4. Una palabra clave seguida de uno o más valores de palabras clave. Los valores de palabra clave pueden
ser una mezcla de opciones mutuamente excluyentes (separadas con diagonales) y opciones independientes (separadas con comas). Por ejemplo:
PRINT=(OUTDICT/OUTCDICT/NOOUTDICT,DATA)
OUTD
Imprimir diccionario de salida sin registros C.
OUTC
Imprimir diccionario de salida con registros C si los hay.
NOOU
No imprimir diccionario de salida.
DATA
Imprimir los valores de las variables de salida.
El usuario puede especificar:
PRINT=(OUTC,DATA)
(se imprime todo el diccionario de salida y se imprimen los datos)
3.5 Proposiciones de control de programa
29
PRINT=NOOUTDICT
(no se imprime el diccionario de salida ni los datos)
5. Un conjunto de palabras clave mutuamente excluyentes. De un conjunto de opciones sólo se puede
seleccionar una de ellas, por ej.
SAMPLE/POPULATION
SAMP
Calcule la variancia y/o desviación estándar con la ecuación de la muestra.
POPU
Usar la ecuación de la población.
Todas las palabras clave con excepción del último tipo van seguidas de un signo igual (=). Los valores de
caracteres, numéricos y palabras clave que siguen al signo igual se llaman “valores asociados”.
Reglas de codificación.
Reglas para especificar palabras clave
Sólo se requiere suministrar las primeras 4 letras de una palabra clave o una palabra clave asociada,
aunque se puede suministrar toda la palabra clave. Ası́, “TRAN” es una abreviación apropiada para
de la palabra clave “TRANSVARS”. No hay abreviación para palabras clave de 4 letras o menos.
Reglas para especificar valores asociados
El valor asociado es una lista de ı́tems.
• Los ı́tems en la lista se separan con comas.
• Si hay dos o más ı́tems, la lista debe estar entre paréntesis.
• Rangos de valores enteros numéricos o de variables se indican con un guión.
• No se permiten rangos de valores numéricos con decimales.
Por ejemplo:
R=(V2,3,5)
PRIN=(DICT,DATA,STAT)
MAXC=5
TRAN=(V5,V10-V25,V32)
IDLOC=(1,3,7,8)
El valor asociado es una cadena de caracteres.
• La cadena debe encerrarse entre comillas sencillas si contiene caracteres no-alfanuméricos, por ej.
FNAME=’EDUCACION:ONDA 1’. Nótese que los blancos, el punto y la coma son caracteres
no-alfanuméricos. Cuando haya duda, use comillas sencillas.
• Dos comillas sencillas consecutivas (no el carácter de comilla doble) se deben usar para representar
una comilla sencilla, por ej. ANAME=’KEVIN”S’ (la comilla sencilla extra se elimina una vez
que se ha leı́do la cadena).
• Es mejor no separar una cadena entre lı́neas.
Reglas para especificar listas de palabras clave
Las palabras clave (con o sin valores asociados) se separan unas de otras con comas o con uno o más
blancos, por ej.
FNAME=’FRED’, TRAN=3
KAISER
Una lista de palabras clave puede continuar en tantas lı́neas como sea necesario pero un guión es
necesario al final de cada lı́nea para indicar la continuación, por ej.
FNAME=’FRED’ TRAN=3 KAISER
30
El archivo Setup de IDAMS
Las palabras clave se pueden suministrar en cualquier orden. Si una palabra clave aparece más de una
vez en la lista, entonces se utiliza el último valor encontrado.
Una palabra clave no puede separarse entre dos lı́neas.
Cada lista de palabras clave puede terminar opcionalmente con un asterisco.
Si se escogen todas las opciones por defecto, debe suministrarse una lı́nea con un asterisco.
Detalles de parámetros más comunes y no descritos totalmente en la documentación de cada
programa.
1. BADDATA. Tratamiento de datos no numéricos.
BADDATA=STOP/SKIP/MD1/MD2
Cuando se encuentran caracteres no numéricos (incluidos blancos intercalados y campos totalmente en blanco) en variables numéricas, el programa debe:
STOP
Terminar la ejecución.
SKIP
Saltar el caso.
MD1
Reemplazar los valores no numéricos por el primer código de datos faltantes (o por
1,5 × 109 si el primer código de datos faltantes no está specificado).
MD2
Reemplazar los valores no numéricos por el segundo código de datos faltantes (o por
1,6 × 109 si el segundo código de datos faltantes no está specificado).
Para SKIP, MD1 y MD2 se imprime un mensaje acerca del número de casos ası́ tratados.
2. MAXCASES. Número máximo de casos a procesar.
MAXCASES=n
El valor dado es el máximo número de casos que se van a procesar. Si n=0, no se leen casos;
esta opción se puede usar para probar setups sin leer datos. Si no se especifica el parámetro, se
procesan todos los casos.
3. MDVALUES. Especifica cuales de los códigos de datos faltantes (MD1,MD2) del diccionario o de
las especificaciones de MDCODES en el Recode, si los hay, se van a usar para verificar datos faltantes
en los valores de las variables. Nótese que algunos programas tienen adicionalmente un parámetro
MDHANDLING para especificar cómo se van a manejar los valores faltantes en los datos.
MDVALUES=BOTH/MD1/MD2/NONE
BOTH
Los valores de las variables se verificarán contra los códigos MD1 y los rangos de los
códigos definidos par MD2.
MD1
Los valores de las variables se verificarán contra los códigos MD1 solamente.
MD2
Los valores de las variables se verificarán contra los rangos de los códigos definidos par
MD2 solamente.
NONE
No se usarán códigos MD. Se consideran válidos todos los valores de los datos.
Por defecto siempre se usan ambos códigos MD.
4. INFILE, OUTFILE. Especifican los ddnames con los cuales se definen los archivos Diccionario y
Datos de entrada y salida.
INFILE=IN/xxxx
OUTFILE=OUT/yyyy
Los archivos Diccionario y Datos de entrada y de salida para los programas de IDAMS se definen
con ddnames DICTxxxx, DATAxxxx, DICTyyyy, DATAyyyy. Normalmente tienen los valores por
defecto DICTIN, DATAIN. DICTOUT, DATAOUT. Si se usan varios programas de IDAMS en
el setup, por ejemplo programas que utilizan diferentes datasets como entrada o cuando se usa
la salida de un programa como entrada directa a otro programa (encadenamiento), entonces es
necesario algunas veces cambiar estos valores por defecto.
5. WEIGHT. Este parámetro especifica la variable cuyos valores se usarán para ponderar los datos en
los casos.
WEIGHT=número de variable
La variable especificada puede ser tipo V o tipo R, entera o decimal. Los casos con valores
de ponderación faltantes, ceros, negativos y no numéricos, siempre se saltan y se imprime un
mensaje acerca del total de casos ası́ tratados. Si no se especifica el parámetro WEIGHT, no se
hace ponderación.
3.6 Proposiciones de Recode
31
6. VARS. Este parámetro y otros similares como ROWVARS, OUTVARS, CONVARS, etc. se usan
para especificar una lista de variables.
VARS=(lista de variables)
Si se especifica más de una variable, la lista debe estar entre paréntesis.
Reglas para especificar listas de variables
Las variables se especifican con un “número” de variable precedido de una V o una R. Una V
denota una variable de un dataset o de una matriz de IDAMS. Una R denota una variable que
resulta de una operación de Recode. Nótese que internamente en el programa y en los resultados
del mismo, las variables tipo V y tipo R se distinguen con el signo del número de variable; los
números positivos denotan variables tipo V y los números negativos denotan variables tipo R.
Para especificar un conjunto de variables numeradas en forma contigua, tales como V3, V4, V5,
V6, conecte dos números con un guión, cada número precedido de una V (por ej. V3-V6 es válido;
V3-6 es inválido). Use los rangos con precaución si el dataset que contiene las variables tiene
vacı́os en la numeración de las mismas, ya que todas las variables dentro del rango deben aparecer
en el dataset o en la matriz, es decir V6-V8 implica V6,V7,V8. Si V7 no está en el diccionario
entonces aparecerá un mensaje de error. Las variables tipo V y tipo R no pueden estar mezcladas
en un rango, es decir V2-R5 es inválido.
Los números de variables individuales o rangos de números de variables se separan con comas.
En general, para los programas de manejo de datos, las variables se pueden listar más de una vez
mientras que para los programas de análisis de datos especificar una variable más de una vez es
inapropiado y causará la terminación. Ver la documentación del programa para los detalles.
Se pueden insertar blancos en cualquier parte de la lista.
En general, las variables se pueden especificar en cualquier orden, Sin embargo, el orden de las
variables puede tener significación especial para algunos programas, verificar la documentación
del programa para los detalles.
Ejemplos:
VARS=(V1-V6, V9, V16, V20-V102, V18, V11, V209)
OUTVARS=(R104, V7, V10-V12, R100-R103, V16, V1)
CONVARS=V10
3.6.
Proposiciones de Recode
La facilidad Recode de IDAMS permite recodificar temporalmente los datos durante la ejecución de programas de IDAMS. Los resultados de esas operaciones de recodificación junto con las variables transferidas del
archivo de entrada se pueden guardar también en archivos permanentes con el programa TRANS.
La recodificación se invoca con el comando $RECODE. Este comando y las proposiciones asociadas de
recodificación se colocan después del comando $RUN para el programa con el cual se va a usar la facilidad
Recode. Por ejemplo:
$RUN programa
$FILES
Definición de archivos
$RECODE
Proposiciones de Recode
$SETUP
Proposiciones de control
de programa
$RUN ONEWAY
$FILES
DICTIN=MYDIC
DATAIN=MYDAT
$RECODE
R10 = BRAC(V3,0-10=1,11-20=2)
R11 = SUM(V7,V8)
NAME R10 ’NIVEL EDUC.’, R11’ING. TOT’
$SETUP
INGRESO POR EDUC, SEXO
BADDATA=SKIP
CONVARS=(R10,V2) DEPVAR=R11
Una descripción completa de la facilidad Recode se encuentra en el capı́tulo “Facilidad Recode”.
Capı́tulo 4
Facilidad Recode
4.1.
Reglas de codificación
Las proposiciones de Recode, tienen la forma:
eti
proposición
donde eti es una etiqueta opcional de 1-4 caracteres que comienza en la posición 1 de la lı́nea y
está seguido, por lo menos, de un espacio en blanco. Las proposiciones sin etiqueta deben comenzar en
la posición 2 o más allá.
La etiqueta permite que proposiciones de control tales como GO TO, se refieran a una proposición en
particular, por ej. GO TO ST1. No puede haber etiquetas en las proposiciones de iniciación (CARRY,
MDCODES, NAME).
Para continuar una proposición en otra lı́nea, coloque un guión al final de la lı́nea y continúe en la
lı́nea siguiente en cualquier posición.
La longitud máxima de lı́nea es de 255 caracteres y el número total máximo de caracteres por cada
proposición es de 1024, excluidos los guiones de continuación y los blancos después de cada guión.
4.2.
Conjunto de muestra de proposiciones Recode
Para dar alguna idea de como encajan los elementos del lenguaje de Recode, se ofrece a continuación una
muestra de proposiciones Recode.
$RECODE
IF V5 LT 8 THEN REJECT
(excluir casos donde V5 < 8)
IF NOT MDATA(V6) THEN R51=TRUNC(V6/4) ELSE R51=0
R52=BRAC(V10,0-24=1,25-49=2,50-74=3, (agrupar valores de V10)
74-99=4,TAB=1)
R53=BRAC(V11,TAB=1)
(agrupar V11 igual que V10)
IF V26 INLIST(1-10) THEN R54=1 AND R55=1 ELSE R54=2
IF R54 EQ 1 THEN GO TO L1
R55=99
R56=V15 + V35
GO TO L2
L1 R56=99
L2 R57=COUNT(1,V20-V27,V29)
(cuantas de las variables tienen el valor 1)
NAME R52 ’EDAD AGRUPADA’, R53 ’EDAD AGRUPADA EN MATRIM’
MDCODES R55(99),R56(99)
34
4.3.
Facilidad Recode
Tratamiento de datos faltantes
Recode no verifica automáticamente los datos faltantes en las variables con excepción de las funciones
especiales MAX, MEAN, MIN, STD, SUM, VAR. Por lo tanto el usuario debe controlar especı́ficamente los
datos faltantes antes de hacer cálculos con las variables. Para este propósito está la función MDATA, por ej.
IF MDATA (V5,V6) THEN R1=999 ELSE R1=V5+V6
Hay dos funciones adicionales, MD1 y MD2, las cuales devuelven el primero o segundo código de datos
faltantes para una variable, por ej.
R2=MD1(V6)
asigna a R2 el valor del primer código de datos faltantes de V6.
Finalmente, se pueden asignar códigos de datos faltantes a variables R o V con la proposición de definición
MDCODES, por ej.
MDCODES R3(8,9)
asigna 8 y 9 como primero y segundo código de datos faltantes de R3.
Algunas veces un conjunto de proposiciones de Recode no asigna un valor a una variable de resultado para
un registro de datos en particular. La variable R tomará entonces el valor MD1 por defecto 1,5 × 109 el cual
le fue asignado como valor inicial. Para cambiarla a un valor más aceptable, debemos ensayar si el valor es
grande y si es ası́, asignar el valor de datos faltantes apropiado, por ej.
IF R100 GT 1000000 THEN R100=99
MDCODES R100(99)
4.4.
Como funciona Recode
Verificación de sintaxis e interpretación. Las proposiciones de Recode se leen y se analizan para detectar
errores antes de ser interpretadas por otras proposiciones de control de programa de IDAMS y antes de la
ejecución del programa. Si se encuentran errores, se imprimen mensajes de diagnóstico y termina la ejecución
del programa en curso.
Resultados. Recode imprime las proposiciones de Recode que fueron suministradas por el usuario junto
con los errores de sintaxis detectados, si los hubo. Esto se presenta antes de ejecutar el programa, es decir
antes de imprimir la interpretación de las proposiciones de control del programa.
Iniciación antes de comenzar a procesar un archivo de datos. Las tablas, códigos de datos faltantes,
nombres, etc. se inician (de acuerdo con las proposiciones de iniciación/definición proporcionadas por el
usuario) antes de comenzar la lectura de los datos, siempre que no haya errores de sintaxis. Las variables R
en las proposiciones CARRY se inician con cero.
Iniciación antes de procesar cada caso. Al comenzar el procesamiento de cada caso y antes de la
ejecución de las proposiciones de Recode para ese caso, todas las variables R con excepción de aquellas
listadas en proposiciones CARRY, se inician con los valores internos por defecto de IDAMS para datos
faltantes (1,5 × 109 ).
Ejecución de proposiciones de Recode. La recodificación propiamente dicha tiene lugar después de
haber leı́do los datos para un caso y después de haber aplicado el filtro principal. Los casos que no pasan
el filtro no van a las rutinas de Recode. Por lo tanto, no se pueden usar variables de Recode en filtros
principales.
El uso de las proposiciones de Recode es secuencial (es decir, la primera proposición se usa primero, después
la segunda, la tercera, etc.) excepto cuando se modifican con las proposiciones GO TO, BRANCH, RETURN,
REJECT, ENDFILE, ERROR (proposiciones de control). Cuando se han usado todas las proposiciones, el
caso se pasa al programa IDAMS que se ejecuta.
Cuando el programa ha terminado de usar el caso, se procesa el siguiente caso que haya pasado el filtro, la
variables R se re-inician (excepto las variables en CARRY) con los códigos de datos faltanes y se ejecutan
las proposiciones de Recode para ese caso y ası́ sucesivamente hasta llegar al final del archivo de datos.
4.5 Operandos básicos
35
Prueba de proposiciones Recode. Se pueden presentar errores de lógica que no son detectables por la
facilidad Recode. Para verificar los resultados buscados contra los generados por Recode, las proposiciones
de Recode deben probarse sobre unos pocos registros con el programa LIST y el parámetro MAXCASES
iniciado por ejemplo a 10. Se pueden inspeccionar entonces los valores de las variables de entrada y de las
correspondientes variables de resultados.
Archivos usados por Recode. Cuando se encuentra un comando $RECODE en el archivo Setup, las
lı́neas subsiguientes se copian a un archivo de trabajo en la unidad FT46. El programa RECODE lee las
proposiciones Recode de este archivo y las analiza para buscar errores antes de pasar a la interpretación
de otras proposiciones de control y antes de la ejecución cualquier programa IDAMS. Si hay errores, se
imprimen los mensajes de diagnóstico y se termina la ejecución de ese programa de IDAMS.
Las proposiciones interpretadas se escriben en forma de tablas en un archivo de trabajo en la unidad FT49
en la cual las lee el programa IDAMS que se ejecuta.
Los mensajes acerca de las proposiciones de Recode se escriben en la unidad FT06 junto con los resultados
del programa que se ejecuta.
4.5.
Operandos básicos
Variables. Las variables de Recode se refieren a variables de entrada (variables V) o variables de resultado
(variables R). Se definen ası́:
Variables de entrada (Vn). “V” seguida de un número. Estas son variables que siguen la definición
del diccionario de entrada. Sus valores se pueden cambiar con Recode (por ej. V10=V10+V11).
Normalmente deben ser numéricas, pero se pueden usar variables alfabéticas que no tengan más
de cuatro (4) caracteres y en particular se pueden recodificar a valores numéricos.
Variables de resultado (Rn). “R” seguida de un número (1 a 9999). Estas son variables creadas
por el usuario. Las variables R, (excepto aquellas listadas en proposiciones CARRY - ver más
adelante) se incian con el valor de datos faltantes por defecto 1,5 × 109 antes de procesar cada
caso.
Para usar una variable R en un programa, se especifica una R (en lugar de V) en la lista de variables correspondiente a un parámetro de palabra clave (por ej. WEIGHT=R50 o VARS=(R10R20)). Cuando los programas las escriben, se puede identificar un número de variables de resultado con un signo negativo. Ası́, la variable “10” es V10 y la variable “-10” es R10. Es menos
confuso usar números diferentes para las variables de resultado a los números de las variables de
entrada. Las variables R siempre son numéricas.
Constantes numéricas. Las constantes pueden ser enteras o decimales, positivas o negativas, por ej. (3,
5.5, -50, -0.5).
Constantes de caracteres. Las constantes de caracteres se encierran entre comillas sencillas (por ej.
’ABCXYZ’, ’M’). Una comilla sencilla dentro de una constante de caracteres se debe representar por dos
comillas sencillas adyacentes (por ej. DON’TS se escribirı́a: ’DON”TS’). Se usan constantes de caracteres
en la proposición NAME para asignar nombres a nuevas variables. También pueden usarse en expresiones
lógicas para verificar valores de variables alfabéticas (por ej. IF V10 EQ ’M’); para estas comparaciones, sólo
se usan los cuatro primeros caracteres y los valores de las variables/constantes con longitud inferior a cuatro
(4) caracteres, se llenan de espacios en blanco a la derecha. Las constantes de caracteres no se pueden usar
en funciones aritméticas (a excepción de BRAC).
4.6.
Operadores básicos
Operadores aritméticos. Los operadores aritméticos se usan dentro de los operandos aritméticos. Los
operadores aritméticos en orden de precedencia, son:
36
Facilidad Recode
EXP x
*
/
+
-
(negación)
(exponenciación a la potencia x, donde -181 < x < 175)
(multiplicación)
(división)
(adición)
(sustracción)
Operadores relacionales. Los operadores relacionales se usan para determinar si existe o no alguna relación
particular entre dos valores aritméticos. Los operadores relacionales son:
LT
LE
GT
GE
EQ
NE
(menor que)
(menor o igual que)
(mayor que)
(mayor o igual que)
(igual)
(no igual)
Operadores lógicos. Los operadores lógicos se usan entre operandos lógicos. Los operandos lógicos toman
solamente los valores “verdadero” o “falso”. Los operadores lógicos son:
NOT
AND
OR
4.7.
(ambos)
(uno u otro)
Expresiones
Una expresión es una representación de un valor. Una constante sola, una variable o una referencia de
una función son expresiones. Las combinaciones de constantes, variables, funciones y otras expresiones con
operadores, son también expresiones. Recode puede evaluar expresiones aritméticas y expresiones lógicas.
Nótese que se pueden usar paréntesis en cualquier parte dentro de una expresión para clarificar el orden de
evaluación deseado.
Expresiones aritméticas. Las expresiones aritméticas se construyen con operadores aritméticos y variables,
constantes y funciones aritméticas. Las expresiones aritméticas producen un valor numérico. Ejemplos:
V732
44
R67/V807 + 25
LOG(R10)
(el
(la
(25
(el
valor de V732)
constante 44)
más el valor de R67 dividido por el valor de V807)
logaritmo del valor de R10)
Expresiones lógicas. Las expresiones lógicas se evalúan para obtener un valor de “verdadero” o “falso”. No
existen variables lógicas en el lenguaje Recode, de manera que el resultado de la evaluación de expresiones
lógicas no se puede asignar a una variable. Las expresiones lógicas se pueden usar solamente con proposiciones
IF. Ejemplos:
R5 EQ V33
Verdadera, si el valor de R5 es igual al valor de V333, falsa si no lo es.
(V62 GT 10) OR (R5 EQ V333)
Verdadera, si alguna de las dos expresiones lógicas resulta verdadera, falsa si ambas expresiones lógicas
resultan falsas.
MDATA(V10,R20) AND V9 GT 2
Verdadera, si el valor de V10 o el valor de R20 corresponden a un código de datos faltantes y si el valor de
V9 es mayor que 2, falsa, si lo anterior no se cumple.
4.8 Funciones aritméticas
4.8.
37
Funciones aritméticas
Todas las funciones aritméticas devuelven un solo valor numérico. Las listas de argumentos para las funciones aritméticas pueden ser listas simples encerradas entre paréntesis o listas altamente estructuradas que
involucren elementos de palabras clave y elementos en posiciones especı́ficas dentro de la lista. Las funciones
disponibles son:
Functión
Ejemplo
Propósito
ABS
BRAC
ABS(R3)
BRAC(V5,TAB=1,ELSE=9, 1-10=1,11-20=2)
BRAC(V10,’F’=1,’M’=2)
COMBINE V1(2), V42(3)
COUNT(1,V20-V25)
Valor absoluto
Agrupamiento univariado
COMBINE
COUNT
LOG
MAX
MD1,MD2
MEAN
MIN
NMISS
NVALID
RAND
RECODE
SELECT
LOG(V2)
MAX(V10-V20)
MD1(V3)
MEAN(V5-V8,MIN=2)
MIN(V10-V20)
NMISS(V3-V6)
NVALID(V3-V6)
RAND(0)
RECODE V7,V8,(1/1)(1/2)=1, (2-3/3)=2, ELSE=0
SELECT (BY=V10,FROM=R1-R5,9)
SQRT
STD
SUM
TABLE
TRUNC
VAR
SQRT(V2)
STD(V20-V25,MIN=4)
SUM(V6,V8,V9-V12,MIN=3)
TABLE(V5,V3,TAB=2,ELSE=9)
TRUNC(V26/3)
VAR(V6,R5-R10,MIN=7)
Recodificación alfabética
Combinación de 2 variables
Conteo de ocurrencias de un valor a través
de un conjunto de variables
Logaritmo de base 10
Valor máximo
Valor de código de datos faltantes
Valor medio
Valor mı́nimo
Nr. de valores de datos faltantes
Nr. de valores de datos no faltantes
Número aleatorio
Recodificación multivariada
Selección del valor de una variable dentro de un
conjunto de variables según una variable ı́ndice
Raı́z cuadrada
Desviación estándar
Suma de valores
Recodificación bivariada
Parte entera del valor del argumento
Variancia
A continuación se muestra la sintaxis exacta para cada función.
ABS. La función ABS devuelve un valor que corresponde al valor absoluto del argumento entregado a la
función.
Prototipo: ABS(arg)
Donde arg es cualquier expresión aritmética para la cual se tomará el valor absoluto.
Ejemplo:
R5=ABS(V5-V6)
BRAC. La función BRAC devuelve un valor que es el resultado de operaciones especı́ficas (reglas) ejecutadas
sobre una sola variable.
Prototipo: BRAC(var [,TAB=i] [,ELSE=valor] [,regla1,...,regla n] )
Donde:
var es cualquier variable tipo V o tipo R cuyos valores se van a probar.
TAB=i numera el conjunto de reglas y la cláusula ELSE asociada en este uso de BRAC (opcional)
o bien, se refiere a un conjunto de reglas establecidas en una utilización previa de BRAC. Nota: la
cláusula ELSE se considera parte del conjunto de reglas de recodificación.
ELSE=valor se usa cuando el valor de var no se puede encontrar dentro de las reglas dadas. Si
ELSE=valor se omite, entonces se asume por defecto ELSE=99, ésto significa entonces que BRAC
siempre recodifica.
38
Facilidad Recode
regla 1, regla 2, ..., regla n es el conjunto de reglas que definen los valores que BRAC debe devolver,
según el valor de var. Las reglas se expresan en la forma: x=c, en donde x define uno o más códigos y c
es el valor a devolver cuando el valor de var sea igual al código o códigos definidos por x. Las posibles
reglas (m es cualquier constante numérica o de caracteres) son:
>m=c (si el valor de var es mayor que m, devuelva c)
<m=c (si el valor de var es menor que m, devuelva c)
m=c (si el valor de var es igual a m, devuelva c)
m1-m2=c (si el valor de var está dentro del rango de m1 a m2, es decir m1<=var<=m2, devuelva
c).
Se pueden dar tantas reglas como sean necesarias. Se evalúan de izquierda a derecha y se usa la primera
que se satisfaga. Nótese que se usan los sı́mbolos “>” y “<” a cambio de los operadores lógicos GT y
LT.
ELSE, TAB y las reglas se pueden especificar en cualquier orden.
No se permiten rangos de valores de variables alfabéticas, por ej. ’A’-’B’ no estan permitidos.
Ejemplos:
R1=BRAC(V10,TAB=1,ELSE=9,1-10=1,11-20=2,<0=0)
El valor de R1 será 1 si la variable V10 está dentro del rango de 1 a 10, será 2 si la variable V10 está dentro
del rango 11 a 20 y será cero (0) cuando el valor de V10 sea menor que cero (0). Si V10 tiene cualquier otro
valor, por ej. -3, 10.5, 25, 0, entonces se aplica la cláusula ELSE y R1 toma el valor de 9. Estas reglas de
agrupamiento entre paréntesis se denominan tabla 1, de manera que pueden usarse posteriormente, por ej.
R2=V1 + BRAC(V2, TAB=1) * 3
En este ejemplo, para la variable V2 se aplicarı́an las mismas reglas que a la variable V10 de agrupamiento
entre paréntesis del ejemplo previo. El valor asignado a la variable R2 serı́a igual al de la variable V1 +
(resultado del agrupamiento multiplicado por 3).
R100=BRAC(V10,’F’=1,’M’=2,ELSE=9)
Este es un ejemplo de recodificación de una variable alfabética, la cual tiene los valores ’F’ o ’M’ recodificados
a los valores numéricos 1 y 2.
COMBINE. La función COMBINE devuelve un valor único para cada combinación de valores de las
variables que se usan como argumentos. Esta función se utiliza normalmente con variables categóricas.
Prototipo: COMBINE var1 (n1), var2 (n2),...,varm(nm)
Donde:
var1 a varm son las variables tipo V o tipo R que se van a combinar.
n1 a nm son los códigos máximos +1 de las respectivas variables.
La lista de argumentos para la función COMBINE, no va entre paréntesis.
Cada variable debe tener solamente valores no-negativos y enteros.
Los valores devueltos se calculan con la siguiente fórmula:
V1 + (n1 * V2) + (n1 * n2 * V3) + (n1 * n2 * n3 * V4) etc.
El usuario, sin embargo, determina normalmente el resultado de la función al listar las combinaciones
de valores en una tabla, como se ve en el primer ejemplo que sigue a continuación.
Ejemplos:
R1=COMBINE V6(2), R330(3)
4.8 Funciones aritméticas
39
Suponga que V6 tiene dos códigos (0,1) que representan hombres y mujeres respectivamente y R330 tiene
tres códigos que representan jóvenes, personas con edad media y viejos, la proposición combinará los códigos
de V6 y R330 para devolver una sola variable R1 ası́:
V6
V330
R1
0
1
0
1
0
1
0
0
1
1
2
2
0
1
2
3
4
5
Hombres
Mujeres
Hombres
Mujeres
Hombres
Mujeres
jóvenes
jóvenes
con edad media
con edad media
viejos
viejas
Como V6 tiene dos códigos y R330 tiene tres, R1 tendrá seis. En el ejemplo anterior, si V6 tuviera códigos
1 y 2 en vez de 0 y 1, el valor máximo se deberı́a establecer como “3”. Esto permitirı́a los valores 0,
1 y 2, aunque el código 0 nunca aparecerı́a. Para evitar estos códigos “extra”, el usuario debe primero
agrupar aquellas variables que produzcan un conjunto continuo de códigos que comiencen desde 0, es decir
BRAC(V6,1=0,2=1).
Restricciones:
Puede tener un máximo de 13 variables.
La función COMBINE no se puede usar con otras funciones dentro de la misma proposición de asignación.
Se debe tener especial cuidado en especificar con los códigos máximos cuándo se usa la función COMBINE, de lo contrario, se generarán valores no-únicos. Por ejemplo, con “COMBINE V1(2), V2(4)” la
función devolverá un valor de 7 para el par de valores, V1=1 y V2=3, y también devolverá un valor
de 7 para el par de valores V1=3 y V2=2. Si los valores de 3 pueden existir para V1, entonces n1 se
debe especificar como 4 (1 + código máximo).
COUNT. La función COUNT devuelve un valor que es igual al número de veces que se presenta un valor
de una variable o de una constante como el valor de una de las variables en la lista “varlist”.
Prototipo: COUNT(val,varlist)
Donde:
val es normalmente una constante pero también puede ser una variable tipo V o tipo R.
varlist especifica las variables V y/o las variables R, cuyos valores se verificaran contra val.
Ejemplos:
R3=COUNT(1,V20-V25)
R3 se le asignará un valor igual al número de veces que se repita el valor 1 dentro de las seis variables
V20-V25. Esto se podrı́a usar, por ejemplo, para contar el número de respuestas “SI” en un conjunto de
preguntas hechas a un encuestado.
R5=COUNT(V1,V8-V10)
R5 se le asignará un valor igual al número de veces que se repita el valor de V1 dentro de las variables
V8-V10.
LOG. La función LOG devuelve un valor de punto flotante que es el logaritmo con base 10 del argumento
entregado a la función.
Prototipo: LOG(arg)
Donde arg es cualquier expresión aritmética para la cual se quiere calcular su logaritmo con base 10.
Ejemplos:
R10=LOG(V30)
40
Facilidad Recode
Nota: el logaritmo de cualquier número X en otra base B, se puede calcular fácilmente a partir de la siguiente
transformación:
R1=LOG(X)/LOG(B)
Para el logaritmo natural (base e), serı́a: R1=2.302585 * LOG(X).
Ası́ R1=2.302585 * LOG(V30) asignará a R1 el logaritmo natural de la variable V30.
MAX. La functión MAX devuelve el valor máximo de un conjunto de variables. Se excluyen datos faltantes.
El argumento MIN se puede usar para especificar el mı́nimo número de valores válidos a partir del cual se
devolverá el valor máximo. En caso contrario, se devuelve el valor 1,5 × 109 asignado por defecto para datos
faltantes.
Prototipo: MAX(varlist [,MIN=n] )
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el número mı́nimo de valores válidos, para los cuales se calcula el valor máximo. El valor por
defecto para n es 1.
Ejemplo:
R12=MAX(V20-V25)
MD1, MD2. La función MD1 (o MD2) devuelve un valor que es el primero (o segundo) código de datos
faltantes de la variable suministrada en el argumento.
Prototipo: MD1(var)
o
MD2(var)
Donde var es cualquier variable de entrada (variable V) o cualquier variable de resultado previamente definida
(variable R).
Ejemplo:
R12=MD2(V20)
Para cada caso procesado, R12 tendrá asignado el segundo código de datos faltantes para la variable de
entrada V20.
MEAN. La función MEAN devuelve el valor de la media de un conjunto de variables. Se excluyen valores de
datos faltantes. El argumento MIN se usa para especificar el número mı́nimo de valores válidos para calcular
la media. En caso contrario, el sistema devuelve el valor por defecto 1,5 × 109 para datos faltantes.
Prototipo: MEAN(varlist [,MIN=n] )
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el número mı́nimo de datos válidos, para los cuales se calcula el valor de la media. El valor por
defecto para n es 1.
Ejemplo:
R15=MEAN(R2-R4,V22,V5,MIN=2)
El resultado será el valor de la media de las variables especificadas, si por lo menos dos de las variables tienen
valores no-faltantes. En caso contrario, el resultado será 1,5 × 109 .
MIN. La función MIN devuelve el valor mı́nimo de un conjunto de variables. Se excluyen valores de datos
faltantes. El argumento MIN se puede usar para especificar el mı́nimo número de valores válidos, a partir
del cual se calculará el valor mı́nimo. En caso contrario, se devuelve el valor 1,5 × 109 asignado por defecto
para datos faltantes.
Prototipo: MIN(varlist [,MIN=n] )
4.8 Funciones aritméticas
41
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el número mı́nimo de valores válidos, para los cuales se calcula el valor mı́nimo. El valor por
defecto para n es 1.
Ejemplo:
R10=MIN(V5,V7,V9,R2)
NMISS. La función NMISS devuelve el número de valores faltantes en un conjunto de variables.
Prototipo: NMISS(varlist)
Donde varlist es una lista de variables tipo V y tipo R.
Ejemplo:
R22=NMISS(R6-R10)
El valor que se devuelve, depende de cuantas de las variables R6-R10 tienen valores faltantes. El valor
máximo es de 5 para un caso, en el cual todas las cinco variables tengan datos faltantes.
NVALID. La función NVALID devuelve el número de valores válidos (no faltantes) dentro de un conjunto
de variables.
Prototipo: NVALID(varlist)
Donde varlist es una lista de variables tipo V o tipo R.
Ejemplo:
R2=NVALID(V20,V22,V24)
El valor que se devuelve, depende de cuántas variables tienen valores válidos. Se obtendrá un máximo valor
de 3, si todas las variables tienen todos los valores válidos. Se devuelve cero cuando faltan datos para todas
las tres variables.
RAND. La función RAND devuelve un valor que corresponde a un número aleatorio uniformemente distribuido, basado en los argumentos “comienzo” y “lı́mite” que se describen a continuación.
Prototipo: RAND(comienzo [,lı́mite] )
Donde:
comienzo es una constante entera que se usa para iniciar la secuencia aleatoria. Si comienzo es cero,
entonces se usa el tiempo ordinario del reloj.
lı́mite es un argumento opcional. Es una constante entera que se usa para especificar el rango (3 significa
un rango de 1 a 3). El valor asumido por defecto es 10, es decir que el rango por defecto es de 1 a 10.
Ejemplos:
R1=RAND(0)
IF RAND(0) NE 1 THEN REJECT
Para cada caso procesado, R1 tendrá asignado un número aleatorio, uniformemente distribuido de 1 a 10.
La secuencia se inicia con el tiempo del reloj al ejecutar RAND por primera vez. Nótese que RAND puede
usarse con la proposición REJECT para seleccionar una muestra aleatoria de casos. En el segundo ejemplo,
el resultado será la inclusión de una muestra aleatoria de 1/10 de casos.
RECODE. La función RECODE se usa para devolver un valor basado en los valores concurrentes de m
variables.
Prototipo: RECODE var1,var2,...,varm [,TAB=i] [,ELSE=valor] [,regla1,regla2,...,regla n]
42
Facilidad Recode
Donde:
var1,var2,...,varm es una lista de hasta 12 variables tipo V y tipo R que se van a probar.
TAB=i numera el conjunto de reglas de recodificación establecidas en este uso de RECODE (opcional)
o bien, se refiere a un conjunto de reglas establecidas en una utilización previa de RECODE. Nota: la
cláusula ELSE no se considera parte del conjunto de reglas de recodificación.
ELSE=valor (opcional), indica el valor a devolver cuando ninguna de las listas de códigos coincide con
los valores de las variables. Aunque normalmente es una constante, también puede ser una expresión
aritmética. Si ELSE se omite y ninguna de las listas de códigos coincide con los valores de las variables,
la función no devuelve ningún valor, es decir que su valor permanece sin modificarse. Cuando es la
primera proposición de asignación para una variable, entonces su valor será el dato de entrada para
una variable tipo V o datos faltantes para una variable tipo R.
regla1, regla2, ..., regla n, es el conjunto de reglas que definen los valores a devolver, según los valores
de var1, var2,..., varm. Cada regla es de la forma “(lista de códigos 1)(lista de códigos 2) ... (lista de
códigos p)=c”. Cada lista de códigos es de la forma “(a1/a2/.../am)” donde a1 es el código que se
compara con var1, a2 es el código que se compara con var2, etc. El valor c corresponde al número que
se devuelve cuando var1, var2,...,varm coinciden con los códigos definidos en cualquiera de las listas de
códigos.
El prototipo para una regla es:
(a1/a2/.../am)(b1/b2/.../bm)...(x1/x2/.../xm)=c
Cada lista de códigos contiene una lista y/o un rango de valores para cada variable, por ej. con dos
variables, (3/2)(6-9/4)(0/1,3,5)=1.
Los códigos en una lista de códigos pueden separarse por una diagonal (indica “AND”) o por una barra
vertical (indica “OR”), aunque sólo una o la otra pueden usarse en una lista de códigos dada.
Por ejemplo:
(a1/a2/a3)=c
(la función devolverá c si var1=a1 y var2=a2 y var3=a3)
(a1|a2|a3)=c
(la función devolverá c si var1=a1 o var2=a2 o var3=a3)
Las reglas se examinan de izquierda a derecha. La primera lista de códigos que coincida con los valores
de la lista de variables, determina el valor a devolver.
La lista de argumentos para la función RECODE no va entre paréntesis.
TAB, ELSE y las reglas pueden estar en cualquier orden.
Ejemplos:
R7=RECODE V1,V2,(3/5)(7/8)=1,(6-9/1-6)=2
A R7 se le asignará un valor basado en los valores de V1 y V2. En este ejemplo, R7 será 1 si V1=3 y V2=5,
o si V1=7 y V2=8. R7 será 2 si V1=6-9 y V2=1-6. En los demás casos, R7 permanecerá sin cambios (ver
atrás).
R7=RECODE V1,V2,TAB=1,ELSE=MD1(R7),(3/5)(7/8)=1,(6-9/1-6)=2
A R7 se le asignará un valor igual al del ejemplo anterior, excepto que a R7 se le asignará su propio valor
de MD1 cuando no se cumplan las reglas. TAB=1 permitirá usar estas mismas reglas en otra llamada a la
función RECODE.
Restricción: Cuando se use la función RECODE, ésta debe ser el único operando al lado derecho del signo
igual.
SELECT. La función SELECT devuelve el valor de la constante o variable en la lista que se define en
FROM y el cual se encuentra en la misma posición definida por el valor de la variable en BY. (Advertencia:
si el valor de la variable en BY es menor que 1 o mayor que el número de variables en la lista de FROM,
4.8 Funciones aritméticas
43
resulta un error fatal). Puede haber hasta 50 elementos en la lista de FROM, por lo tanto el valor máximo
para la variable en BY es 50. Una función SELECT puede combinarse con otras funciones, operaciones y
variables y formar ası́ expresiones complejas. Nota: la función SELECT selecciona el valor de una sóla
variable de un conjunto de variables; la proposición SELECT selecciona la variable que se va a usar para
el resultado. (Ver la sección “Proposiciones especiales de asignación” para una descripción de la proposición
SELECT).
Prototipo: SELECT (FROM=lista de variables y/o constantes, BY=variable)
Ejemplo:
R10=SELECT (FROM=R1-R3,9,BY=V2)
R10 tendrá asignado el valor de R1, R2, R3 o 9 para los valores 1, 2, 3 y 4 de la variable V2 respectivamente.
SQRT. La función SQRT devuelve un valor que es la raı́z cuadrada del argumento entregado a la función.
Prototipo: SQRT(arg)
Donde arg es cualquier expresión aritmética.
Ejemplo:
R5=SQRT(V5)
STD. La función STD devuelve la desviación estándar de los valores de un conjunto de variables. Se excluyen
valores de datos faltantes. El argumento MIN se usa para especificar el número mı́nimo de valores válidos
para los cuales se va a calcular la desviación estándar. En caso contrario el sistema asume el valor para datos
faltantes de 1,5 × 109 .
Prototipo: STD(varlist [,MIN=n] )
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el número mı́nimo de valores válidos, para los cuales se calcula la desviación estándar. El valor
por defecto para n es 1.
Ejemplo:
R5=STD(V20-V24,R56-R58,MIN=3)
SUM. La función SUM devuelve la suma de los valores de un conjunto de variables. Se excluyen valores
faltantes. El argumento MIN especifica el número mı́nimo de valores válidos de un caso, para calcular la
suma. En caso contrario se asume el valor para datos faltantes por defecto 1,5 × 109 .
Prototipo: SUM(varlist [,MIN=n] )
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el número mı́nimo de valores válidos, para los cuales se calcula la suma. El valor por defecto para
n es 1.
Ejemplo:
R8=SUM(V20,V22,V24,V26,MIN=3)
Si tres o más variables, tienen valores válidos, se devuelve la suma de estas variables, de lo contrario, se
devuelve el valor 1,5 × 109 .
TABLE. La función TABLE devuelve un valor basado en los valores concurrentes de dos variables.
Prototipo: TABLE (r, c, [TAB=i,] [ELSE=valor,] [PAD=valor,] COLS c1,c2,...,cm,
ROWS r1(vals fila r1),r2(vals fila r2),...,rn(vals fila rn))
44
Facilidad Recode
Donde:
r es una variable o constante que se usará como “ı́ndice de fila” de una tabla.
c es una variable o constante que se usará como “ı́ndice de columna” de una tabla.
TAB=i numera la tabla definida en este uso de TABLE (opcional) o bien, se refiere a una tabla definida
en una utilización previa de TABLE.
ELSE=valor da un valor para usar con pares de valores que no están definidos en la tabla. Este valor
puede ser una expresión aritmética. El valor de ELSE usa 99 por defecto cuando no se especifica, o sea
que TABLE siempre devuelve un valor.
PAD=valor da un valor para insertar en cualquier celda definida por la especificación COLS, pero no
definida por la especificación ROWS.
TAB, ELSE y PAD pueden estar en cualquier orden.
c1,c2,...,cm son las columnas de la tabla. Se pueden usar rangos en la definición de columnas.
r1,r2,...,rn son las filas de la tabla. El tamaño total de la tabla será m por n, donde m es el número de
columnas y n es el número de filas.
(vals fila r1), (vals fila r2),...,(vals fila rn) son los valores retornados dependiendo de los valores de r y
c. Los valores se dan en el mismo orden de la especificación de columnas; el primer valor corresponde
en c1, el segundo en c2, etc. Se pueden usar rangos en la definición de los valores de las filas.
Ejemplos: suponga la siguiente tabla:
Fil:
Col:
1
2
3
4
5
6
2
3
5
6
8
1
1
1
3
9
1
2
2
3
9
2
2
2
3
9
2
2
2
3
9
3
3
3
3
9
4
4
4
4
9
R1=TABLE (V6, V4, TAB=1, ELSE=0, PAD=9, COLS 1-6, ROWS 2(1,1,2,2,3,4), 3(1,2,2,2,3,4),5(1,2,2,2,3,4),6(3,3,3,3,3,4),8(9))
Si V6 es igual a 5 y V4 es igual a 3, entonces a R1 se le asigna el valor 2 (la intersección de la fila 5 y la
columna 3).
Si V6 es igual a 2 y V4 es igual a 6, entonces a R1 se le asigna el valor 4 (la intersección de la fila 2 y la
columna 6).
Si V6 es igual a 4 y V4 es igual a 2, entonces a R1 se le asigna el valor 0 (la fila 4 no está definida; se usa el
valor de la cláusula ELSE).
R5=TABLE (3, V8, TAB=7, ELSE=TABLE(V1,V8,TAB=1) )
Este ejemplo usará la tabla llamada “7” con 3 como ı́ndice de fila y el valor de V8 como ı́ndice de columna.
Si un valor de V8 no está en la tabla 7, entonces se usará la tabla denominada “1”, con ı́ndice de fila la
variable V1 e ı́ndice de columna la variable V8.
TRUNC. La función TRUNC devuelve el valor entero de un argumento.
Prototipo: TRUNC(arg)
Donde arg es cualquier expresión aritmética de la cual se va a tomar la parte entera.
Ejemplo:
R5=TRUNC(V5)
R5 se le asignará el valor de la variable de entrada V5 truncada a un entero.
4.9 Funciones lógicas
45
VAR. La función VAR devuelve la variancia de los valores de un conjunto de variables, excluyendo los datos
faltantes. El argumento MIN se usa para especificar el número mı́nimo de valores válidos, para los cuales se
va a calcular la variancia. En caso contrario el sistema asume el valor para datos faltantes de 1,5 × 109 .
Prototipo: VAR(varlist [,MIN=n] )
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el número mı́nimo de valores válidos, para los cuales se calcula la variancia para el caso. El valor
por defecto para n es 1.
Ejemplo:
R9=VAR(V5-V10)
4.9.
Funciones lógicas
Cuando se evalúan funciones lógicas, éstas devuelven un valor “verdadero” o “falso”. No se pueden usar como
operandos aritméticos. Se usan funciones lógicas en expresiones lógicas y las expresiones lógicas comprenden
la porción de prueba de la proposición condicional “IF prueba THEN ...”. Las funciones disponibles son:
Función
Exjemplo
Propósito
EOF
INLIST
IF EOF THEN GO TO NEXT
IF V5 INLIST(2,4,6) THEN R100=1 ELSE R100=0
IF MDATA(V5,V6) THEN R101=99
Verifica el final del archivo de datos
Busca una lista de valores
MDATA
Verifica datos faltantes
EOF. La función EOF se usa para agrupar valores a través de los casos. Ver el ejemplo 10 dado en la sección
“Ejemplo de uso de proposiciones de Recode”. La presencia de la función EOF hace que las proposiciones
de Recode se ejecuten una vez más después de encontrar el fin de archivo. El valor de la función EOF es
“verdadero” durante de esta pasada de las proposiciones de Recode, y es “falso” todas las otras veces.
Para la pasada final a través de las proposiciones de Recode, las variables tipo V tendrán el valor que tenı́an
después de haber procesado totalmente el último caso. Las variables tipo R (excepto aquellas listadas en
proposiciones CARRY), tendrán asignado el valor 1,5 × 109 . Las variables tipo R de CARRY permanecerán
sin modificación. El usuario debe tener cuidado de establecer un camino correcto a seguir a través de las
proposiciones de Recode cuando se haya llegado al fin de archivo.
Prototipo: EOF
Ejemplo:
IF R1 NE V1 OR EOF THEN GO TO L1
INLIST. La función INLIST (abreviada IN) devuelve un valor “verdadero” si el resultado de una expresión
aritmética es uno de los valores de un conjunto especificado de valores. Si la expresión es igual a un valor
por fuera del conjunto de valores, la función devuelve el valor “falso”.
Prototipo: expr INLIST(valores)
o
expr IN(valores)
Donde:
expr es cualquier expresión aritmética o una variable individual.
valores es una lista de valores. Pueden ser discretos y/o un rango de valores.
Ejemplos:
IF R12 INLIST(1-5,9,10) THEN V5=0
46
Facilidad Recode
Si R12 tiene un valor de 1,2,3,4,5,9 o 10, la función INLIST devuelve un valor “verdadero” y a la variable
de entrada V5 se le asigna el valor cero. En caso contrario, la función INLIST devuelve un valor “falso” y la
variable de entrada V5 mantiene su valor original.
IF (V3 + V7) IN(2,4,5,6) THEN R1=1 ELSE R1=9
Si la suma de las variables de entrada V3 y V7 resulta en el valor 2,4,5 o 6, entonces INLIST devuelve un
valor “verdadero” y la variable de resultado R1 contendrá el valor 1. En caso contrario, INLIST devolverá el
valor “falso” y a la variable R1 se le asignará el valor 9.
MDATA. La función MDATA devuelve un valor “verdadero” cuando cualquiera de las variables que se han
pasado a la función tienen valores de datos faltantes; en caso contrario, la función devuelve el valor “falso”.
Esta función se usa ampliamente ya que los valores de datos faltantes no se verifican automáticamente en la
evaluación de expresiones, con excepción de las funciones MAX, MEAN, MIN, STD, SUM y VAR.
Prototipo: MDATA(varlist)
Donde varlist es una lista de variables de tipo V y tipo R. Puede haber un máximo de 50 variables en esta
lista.
Ejemplo:
IF MDATA(V1,V5-V6) THEN R1=MD1(R1) ELSE R1=V1+V5+V6
Si alguna variable de la lista V1, V5, V6 tiene un valor igual a su código MD1 de datos faltantes, o está en
el rango especificado por su código MD2, la función MDATA devuelve un valor “verdadero” y a la variable
de resultado R1 se le asigna el valor de su primer código de datos faltantes. En caso contrario, la función
MDATA devuelve el valor “falso” y a la variable R1 se le asigna el resultado de la suma de V1, V5 y V6.
4.10.
Proposiciones de asignación
Estas son las unidades estructurales principales del lenguaje Recode. Se usan para asignar un valor a un
resultado. Se puede usar cualquier número entre 1 y 9999 para una variable R, pero se evita confusión si los
números R son distintos de los números V de las variables en el diccionario, por ej. si hay 22 variables en
el diccionario entonces comience la numeración de las variables R desde R30. También se pueden usar para
asignar un valor nuevo a una variable de entrada. En este caso se pierde el valor original de la variable de
entrada durante la ejecución del programa de IDAMS.
Prototipo: variable=expresión
Donde:
variable es cualquier variable de entrada (Vn) o de resultado (Rn).
expresión es cualquier expresión aritmética que use opcionalmente funciones aritméticas de Recode.
Nótese que para las variables usadas en la expresión, no se verifican automáticamente los datos faltantes
con excepción de las funciones especiales MAX, MEAN, MIN, STD, SUM, VAR. En todos los demás
casos, se deben introducir proposiciones especificas para la verificación de datos faltantes en donde sea
necesario. Para un ejemplo, ver “Proposiciones condicionales” más adelante.
Ejemplos:
R10=5
A R10 se le asigna el valor constante 5.
R5=2*V10 + (V11 + V12)/2
Se puede usar cualquier expresión aritmética y los paréntesis se utilizan para cambiar la precedencia normal
de los operadores aritméticos.
V20=SQRT(V20)
El valor en V20 se reemplaza por el valor de su raı́z cuadrada al usar la función SQRT.
4.11 Proposiciones especiales de asignación
47
R20=BRAC(V6,0-15=1,16-25=2,26-35=3,36-90=4,ELSE=9)
A R20 se le asigna el valor 1, 2, 3, 4 o 9 de acuerdo con el grupo dentro del cual esté el valor de la variable
V6.
R10=MD1(V10)
A R10 se le asigna un valor igual al primer código de datos faltantes de V10.
4.11.
Proposiciones especiales de asignación
DUMMY. La proposición DUMMY produce una serie de “variables ficticias”, codificadas 0 o 1, a partir
de una sola variable.
Prototipo: DUMMY var1,...,varn USING var(val1)(val2)...(valn) [ELSE expresión]
Donde:
var1, var2,...,varn es una lista de las variables ficticias cuyos valores están definidos por esta proposición.
Pueden ser variables tipo V o tipo R, pueden listarse individualmente o en rangos y deben estar
separadas por comas (por ej. R1-R3, R10, R7-R9, V20). El orden especificado se mantiene.
Las referencias dobles (R1, R3, R1) son válidas.
var es cualquier variable tipo V o tipo R. El valor de esta variable es probado contra las listas de valores
(val1)(val2) etc. para asignar el valor apropiado a las variables ficticias.
(val1)(val2)...(valn) son listas de valores que se usan para asignar el valor de las variables ficticias.
Debe haber el mismo número de listas como variables ficticias haya (var1, var2, ..., varn). Las listas de
valores pueden tener constantes solas o rangos o ambos.
expresión es cualquier expresión aritmética que se usa como valor para todas las variables ficticias
cuando el valor de la variable var no se encuentra en una de las listas de valores. El valor por defecto
para expresión es la constante 0.
El valor de la variable var se prueba contra las listas de valores (el número de listas de valores debe ser
igual al número de variables ficticias); si var tiene un valor en la primera lista de valores, la primera
variable ficticia toma el valor 1 y las otras 0; si el valor de var se presenta en la segunda lista de valores,
la segunda variable ficticia toma el valor 1 y las demás 0, etc. Si el valor de var no se presenta en
ninguna de las listas de valores, todas las variables ficticias toman el valor especificado después de la
cláusula ELSE (valor por defecto 0).
Ejemplo:
DUMMY R1-R3 USING V8(1-4)(5,7,9)(0,8) ELSE 99
La tabla siguiente muestra los valores de R1, R2 y R3, basados en valores diferentes de V8:
V8:
R1:
R2:
R3:
1
1
0
0
2
1
0
0
3
1
0
0
4
1
0
0
5
0
1
0
7
0
1
0
8
0
0
1
9
0
1
0
0
0
0
1
OTROS
99
99
99
SELECT. La proposición SELECT hace que la variable en la lista de FROM que tiene una posición igual
al valor de la variable BY, tome el valor de la expresión a la derecha del signo igual, es decir, selecciona a
cual variable se le va a asignar un valor. Si el valor de la variable en BY es menor que 1 o mayor que el
número de variables en la lista de FROM, resulta un error fatal. El número máximo de variables en la lista
de FROM es de 50, por lo tanto, el máximo valor de la variable en BY es 50.
Prototipo: SELECT (FROM=lista de variables, BY=variable)=expresión
Ejemplos:
SELECT (FROM=R1, V3-V10, BY=R99)=1
SELECT (BY=V1, FROM=V8, R2, R5)=R7*5
48
Facilidad Recode
En el primer ejemplo, R1 tomará el valor de 1 si R99 es igual a 1; V3 tomará el valor de 1 si R99 toma el
valor de 2,...; y V10 tomará el valor de 1 si R99 toma el valor de 9. Si R99 es mayor que 9 o menor que 1,
se presentará un error fatal. Los valores de las ocho variables no referidas no se alterarán.
SELECT se puede usar para un bucle ası́:
L1
R99=1
SELECT (BY=R99, FROM=R1, V3-V10)=0
IF R99 LT 9 THEN R99=R99+1 AND GO TO L1
Las nueve variables R1, V3-V10, tomarán el valor cero una después de la otra, en tanto que R99 se incrementa
de 1 a 9. El bucle se completa cuando R99 es igual a 9 y a todas las variables se han asignado valores iniciales.
4.12.
Proposiciones de control
Las proposiciones de Recode se ejecutan normalmente sobre cada caso en orden desde el primero hasta el
último. El orden se puede cambiar con una de las proposiciones de control:
Proposición
Ejemplo
Propósito
BRANCH
CONTINUE
ENDFILE
ERROR
GO TO
REJECT
RELEASE
BRANCH (V16,L1,L2)
CONTINUE
ENDFILE
ERROR
GO TO TOWN
REJECT
RELEASE
RETURN
RETURN
Ramificar según el valor de una variable
Continuar con la siguiente proposición
No procesar más casos después de éste
Terminar la ejecución completamente
Ramificar incondicionalmente
Rechazar el caso
Entregar el caso al programa para ser procesado
y asumir la ejecución de las proposiciones Recode
nuevamente después, sin leer otro caso
Usar el caso para análisis, sin recodificación adicional
BRANCH. La proposición BRANCH cambia la secuencia en la cual se ejecutan las proposiciones, según el
valor de la variable.
Prototipo: BRANCH(var, etiquetas)
Donde:
var es una variable tipo V o tipo R.
etiquetas es una lista de una o más etiquetas de proposiciones de 1-4 caracteres.
Ejemplo:
BRANCH(R99,LAB1,LAB2,LAB3)
La transferencia se hace a LAB1, LAB2 o LAB3, según el valor de R99 sea 1, 2 o 3.
CONTINUE. CONTINUE es una proposición simple que no ejecuta ninguna operación. Se usa como un
punto conveniente al cual se hace la transferencia.
Prototipo: CONTINUE
Ejemplo:
AT
THAT
IF V17 EQ 10 THEN GO TO AT
R10=V11
GO TO THAT
R20=V11*100
CONTINUE
ENDFILE. La proposición ENDFILE hace que Recode cierre el dataset de entrada, exactamente como si
hubiera encontrado un fin de archivo. Si se ha especificado la función EOF, la función EOF tomará un valor
4.12 Proposiciones de control
49
“verdadero” para una pasada final a través de las proposiciones de Recode desde el principio, después de
haber ejecutado ENDFILE.
Prototipo: ENDFILE
Ejemplo:
IF V1 EQ 100 THEN ENDFILE
Esta proposición se puede usar para probar un conjunto de proposiciones Recode o un setup de IDAMS con
los primeros n casos de un dataset.
ERROR. La proposición ERROR hace que Recode termine con un mensaje de error que indica el número
del caso y el número de la proposición de Recode en donde se presentó el error.
Prototipo: ERROR
Ejemplo:
B
IF R6 EQ 2 THEN GO TO B
ERROR
CONTINUE
GO TO. La proposición GO TO se usa para cambiar la secuencia en la cual se ejecutan las proposiciones.
Cuando no hay un GO TO o un BRANCH, cada proposición se ejecuta secuencialmente.
Prototipo: GO TO etiqueta
Donde etiqueta es una etiqueta de proposición de 1 a 4 caracteres. La proposición identificada por la etiqueta
puede estar antes o después de GO TO. (Advertencia: tenga cuidado al referir una proposición antes de GO
TO ya que pueden formarse bucles infinitos).
Ejemplo:
TOWN
1
GO TO TOWN
.
.
R10=R5
GO TO 1
R10=R5+V11
R11=...
REJECT. La proposición REJECT hace que Recode rechace el caso presente y obtenga otro caso. El nuevo
caso se procesa desde el comienzo de las proposiciones de Recode. De esta manera, REJECT se puede usar
como un filtro con variables tipo R.
Prototipo: REJECT
Ejemplo:
IF MDATA (V8,V12-V13) THEN REJECT
RELEASE. La proposición RELEASE hace que Recode entregue el caso al programa para procesarlo y
tome nuevamente el control después de ese procesamiento sin leer otro caso. Después de tomar el control
nuevamente, Recode continúa con la primera proposición de Recode. RELEASE se puede usar para separar
un registro individual en varios casos para análisis. Nota: cuando se utiliza la proposición RELEASE tenga
cuidado de no crear bucles infinitos.
Prototipo: RELEASE
Ejemplo:
CARRY (R1)
R1=R1+1
IF R1 LT V1 THEN RELEASE ELSE R1=0
RETURN. La proposición RETURN hace que Recode regrese el control al programa de IDAMS. No se
ejecutan más proposiciones Recode para el caso en cuestión.
50
Facilidad Recode
Prototipo: RETURN
Ejemplo:
A
4.13.
IF V8 LT 12 THEN GO TO A
RETURN
R10=V8
Proposiciones condicionales
La proposición IF permite la asignación condicional y/o control condicional. Es una proposición compuesta
con varias proposiciones simples conectadas por las palabras clave THEN, AND y ELSE.
Prototipo:
IF prueba THEN prop1 [AND prop2 AND...prop n] [ELSE eprop1] [AND eprop2 AND...eprop n]
Donde:
prueba puede ser cualquier combinación de expresiones lógicas (incluidas funciones lógicas) conectadas
con AND u OR y opcionalmente precedidas de NOT. Puede estar entre paréntesis, pero ésto no es
necesario.
prop1,...,prop n,eprop1,...,eprop n puede ser cualquier proposición de asignación o proposición de control (excepto CONTINUE).
La(s) proposición(es) entre THEN y ELSE se ejecutan si el resultado de la prueba es “verdadero”.
La(s) proposición(es) después de ELSE se ejecutan si el resultado de la prueba es “falso”. Si no hay
cláusula ELSE, se ejecuta la siguiente proposición.
Las palabras clave THEN y ELSE pueden estar seguidas cada una por cualquier número de proposiciones, conectadas cada una con la palabra clave AND.
Ejemplos:
IF V5 EQ V6 THEN R1=1 ELSE R1=2
Asigne el valor 1 a la variable R1 si V5 es igual a V6; si no lo es, entonces asigne a R1 el valor 2.
IF MDATA(V7,V10-V12) THEN R6=MD1(V7) AND R10=99 ELSE R6=V7+V10+V11 AND R10=V12*V7
Asigne a la variable R6, el primer código de datos faltantes de la variable V7 cuando cualquiera de las
variables V7, V10, V11, V12 sean iguales a sus códigos de datos faltantes; si esta condición no se cumple,
entonces haga R6 igual a la suma de V7, V10 y V11 y haga también R10 igual al producto de las variables
V12 y V7.
IF (V5 NE 7 AND R8 EQ 9) THEN V3=1 ELSE V3=0
Haga V3 igual a 1 cuando V5 no sea igual a V7 y R8 sea igual a 9 (debe cumplir ambas condiciones), en
caso contrario haga V3 igual a 0. (Nota: los paréntesis no son necesarios).
IF MDATA(V6) OR V10 LT 0 THEN GO TO X
Si falta el valor de V6 o si V10 es menor que cero, vaya a la proposición etiquetada X; de lo contrario,
continue con la siguiente proposición.
4.14.
Proposiciones de definición/de asignación de valores iniciales
Estas proposiciones se ejecutan una sola vez, antes de comenzar el procesamiento de los datos, para asignar
de valores iniciales que se van a utilizar durante la ejecución de proposiciones de Recode. No se pueden usar
dentro de expresiones y no pueden tener etiquetas.
4.14 Proposiciones de definición/de asignación de valores iniciales
51
CARRY. La proposición CARRY hace que los valores de las variables listadas sean llevados de caso en caso.
Las variables de CARRY son asignadas los valores iniciales con ceros sólo una vez (antes de comenzar a leer
los datos). Las variables de CARRY se pueden usar como contadores o acumuladores para agrupamiento.
Prototipo: CARRY(varlist)
Donde varlist es una lista de variables tipo R.
Ejemplo:
CARRY(R1,R5-R10,R12)
MDCODES. La proposición MDCODES cambia los códigos de datos faltantes del diccionario para las
variables de entrada o asigna códigos de datos faltantes a variables de resultado. Los valores por defecto que
usa Recode para variables tipo R y tipo V que no tengan especificación de datos faltantes en el diccionario
y que no tengan especificación en MDCODES son MD1=1,5 × 109 y MD2=1,6 × 109 .
Prototipo: MDCODES (varlist1)(md1,md2),(varlist2)(md1,md2), ..., (varlistn)(md1,md2)
Donde:
varlist1, varlist2, ..., varlistn son listas de variables individuales y de rangos de variables.
md1 y md2 son respectivamente, el primero y segundo códigos de datos faltantes para todas variables
listadas. Los códigos de datos faltantes que tengan decimales deben especificarse con el punto decimal
explı́cito. Advertencia: sólo se retienen 2 cifras decimales para variables R y se redondean los valores
apropiadamente, por ej. md1 especificado como 9.999 se trata como 10.00 .
Se puede omitir cualquiera de los dos códigos md1 o md2. Si se omite md1, se debe colocar una coma
que preceda al valor de md2.
Ejemplos:
MDCODES V5(8,9)
El primer código de datos faltantes para V5 será 8; el segundo será 9.
MDCODES (R9-R11)(,99), V7(8,9), V6(9)
Para R9, R10 y R11, el primer código de datos faltantes será 1,5 × 109 y el segundo será 99.
Para V7, el primer código de datos faltantes será 8 y el segundo será 9.
Para V6, el primer código de datos faltantes será 9 y el segundo será 1,6 × 109 .
NAME. La proposición NAME asigna nombres a variables tipo R o reasigna nombres a variables tipo V.
Prototipo: NAME var1 ’nombre1’, var2 ’nombre2’, ..., varn ’nombre n’
Donde:
var1,var2,...,varn son variables tipo V o tipo R.
nombre1, nombre2, ..., nombre n son los nombres a asignar a estas variables.
El número máximo de caracteres por nombre es 24; si es más largo, el nombre se trunca a 24 caracteres.
El valor por defecto del nombre para una variable tipo R es ’RECODED VARIABLE Rn’.
Para incluir un apóstrofo en un nombre (por ej. PERSON’S), usar dos comillas sencillas (por ej.
PERSON”S).
Ejemplo:
NAME R1 ’V5 + V6’, V1 ’PERSON’’S STATUS’
52
Facilidad Recode
4.15.
Ejemplos de uso de proposiciones de Recode
Supongamos que existe un archivo de datos con las siguientes variables:
V1
V2
V4
V5
Identificador de ciudad
Sexo
Edad
Nivel educativo
V8
V9
V10
V21
V22
V31
V32
V33
V34
V35
V41
V42
V43
V44
V45
Ingreso del primer empleo
Ingreso del segundo empleo
Ingreso del compañero(a)
Peso en Kg (un decimal)
Altura en metros (dos decimales)
¿Posée automóvil?
¿Posée TV?
¿Posée estéreo?
¿Posée refrigerador?
¿Posée microcomputador?
Número de hijos
Edad primer hijo
Edad segundo hijo
Edad tercer hijo
Edad cuarto hijo
1=hombre, 2=mujer
21-98, 99=sin definir
1=primaria, 2=secundaria,
3=universitaria, 9=sin definir
1=si, 2=no, 9=sin definir
A continuación se muestra someramente la construcción de algunas variables de análisis posibles a partir de
estos datos.
1. Ingreso total. Si faltan los ingresos del primero y del segundo empleos, entonces faltará el ingreso total.
Si falta sólo uno de ellos entonces úselo como ingreso total.
END
o
IF NVALID(V8,V9) EQ 0 THEN R101=-1 AND GO TO END
IF NVALID(V8,V9) EQ 2 THEN R101=V8+V9 AND GO TO END
IF MDATA(V8) THEN R101=V9 ELSE R101=V8
CONTINUE
MDCODES R101(-1)
R101=SUM(V8,V9,MIN=1)
IF R101 EQ 1.5 * 10 EXP 9 THEN R101=-1
MDCODES R101(-1)
2. No usar el caso si el ingreso total es cero o falta.
IF MDATA(R101) OR R101 EQ 0 THEN REJECT
3. Componer el ingreso con 3/4 del ingreso propio más 1/4 del ingreso del compañero(a). Si falta el ingreso
del compañero(a) supóngalo como cero.
IF MDATA(V10) THEN V10=0
IF MDATA(R101) THEN R102=MD1(R102) ELSE R102=R101 * .75 + V10 * .25
NAME R102’Ingreso compuesto’
MDCODES R102(99999)
4. Peso del encuestado agrupado en liviano (30-50), medio (51-70), y pesado (70+).
R103=BRAC(V21,30-50=1,50-70=2,70-200=3,ELSE=9)
Nótese que V21 está grabada con un decimal. Para asegurarase de que valores tales como 50.2 tengan
una asignación a una categorı́a, los rangos dentro de la proposición BRAC deben traslaparse. Recode
trabaja de izquierda a derecha y asigna el código al primer rango en el cual se presente el caso. De esta
manera, un valor de 50.0 se ubicará en la categorı́a 1 pero un valor de 50.1 se ubicará en la categorı́a
2. Para colocar valores de 50.0 en la categorı́a 2, usar
4.15 Ejemplos de uso de proposiciones de Recode
53
R103=BRAC(V21, <50=1, <70=2, <200=3, ELSE=9)
Un valor de 49 caerı́a en todas las tres categorı́as pero Recode usará el primer rango válido que
encuentre (código 1). Un valor de 50 no satisfará al primer rango y se asignará el código 2.
5. Indice de alfluencia con valores de 0-5 de acuerdo con el número de bienes poseı́dos.
R104=COUNT(1,V31-V35)
Si todos los ı́tems se codifican 1 (sı́), el ı́ndice, R104, tomará el valor 5. Si todos se codifican 2 (no) o
faltan, entonces el ı́ndice será cero.
6. Crear tres variables ficticias (codificadas 0/1) a partir de la variable educación.
DUMMY R105-R107 USING V5(1)(2)(3)
Las tres variables de resultado tomarán los valores siguientes:
V5=1
V5=2
V5=3
V5 no es ni 1
ni 2 ni 3
R105=1,
R105=0,
R105=0,
R105=0,
R106=0,
R106=1,
R106=0,
R106=0,
R107=0
R107=0
R107=1
R107=0 (valor por defecto si no hay valor para ELSE)
7. Edad del hijo menor. Las edades de los últimos 4 hijos se guardan en las variables 42 a 45, el mayor
está en V42. Si alguien tiene 3 hijos, entonces el valor de V44 da la edad del menor de los hijos; si
alguien tiene 4 o más hijos entonces queremos V45. En este caso, V41 (número de hijos) se puede usar
como un ı́ndice para seleccionar la variable correcta con la función SELECT.
IF V41 GT 4 THEN V41=4
IF V41 EQ 0 OR MDATA(V41) THEN R109=99 ELSE R109=SELECT (FROM=V42-V45, BY=V41)
NAME R109’Edad ultimo hijo’
MDCODES R109(99)
8. Relación peso/edad como un decimal redondeado al entero próximo.
IF MDATA (V21,V22) OR V22 EQ 0 THEN R111=99 AND R112=99 ELSE R111=V21/V22 AND R112=TRUNC ((V21/V22) + .5)
NAME R111’relación peso/edad dec’, R112 ’P/E REDONDEADO’
MDCODES (R111,R112)(99)
9. Crear una variable sencilla combinando sexo y nivel educacional en cuatro grupos ası́:
Mujeres, sólo educación primaria
Mujeres, educación+ secundaria
Hombres, sólo educación primaria
Hombres, educación+ secundaria
Método a. Primero se reducen los códigos para sexo y educación a códigos contiguos que comienzan
desde 0, se guardan los resultados temporalmente en las variables R901, R902.
R901=BRAC (V5,1=0,2=1,ELSE=9)
R902=BRAC (V6,1=0,2=1,3=1,ELSE=9)
Ahora se usa la función COMBINE asegurándose primero de que los casos con codigos falsos se coloquen
en una categorı́a de datos faltantes.
IF R901 GT 1 OR R902 GT 1 THEN R110=9 ELSE R110=COMBINE R901(2),R902(2)
54
Facilidad Recode
Método b. Usar IFs, colocando un valor por defecto de 9 al comienzo.
R110=9
IF V5 EQ
IF V5 EQ
IF V5 EQ
IF V5 EQ
1
1
2
2
AND
AND
AND
AND
V6
V6
V6
V6
EQ 1 THEN R110=1
INLIST (2,3) THEN R110=2
EQ 1 THEN R110=3
INLIST (2,3) THEN R110=4
Método c. Usar la función RECODE.
R110=RECODE V5,V6(1/1)=1,(1/2-3)=2,(2/1)=4,(2/2-3)=5,ELSE=9
10. Agrupación de casos con Recode. Supongamos que queremos analizar los datos (que consisten en registros de nivel individual) a nivel ciudad, por ejemplo producir una tabla que muestre la distribución
de ciudades por ingreso (V8,V9) y el % de gente con automovil propio en la ciudad (V31). Podrı́amos
hacerlo con AGGREG para agrupar los datos a nivel de ciudad y después ejecutar TABLES. Alternativamente, podemos usar las proposiciones CARRY, EOF, y REJECT del lenguaje Recode y usar
TABLES directamente.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
VIL
CARRY (R901,R902,R903,R904)
IF (R901 EQ 0) THEN R901=V1
IF (R901 NE V1) THEN GO TO VIL
IF EOF THEN GO TO VIL
R902=R902+1
R903=R903+V8+V9
IF (V31 EQ 1) THEN R904=R904+1
REJECT
R101=(R904*100)/R902
R101=BRAC(R101,<25=1,<50=2,<75=3,<101=4)
R102=R903/R902
R102=BRAC(R102,<1000=1,<2000=2,<5000=3,ELSE=4)
R901=V1
R902=1
R903=V8+V9
IF (V31 EQ 1) THEN R904=1 ELSE R904=0
NAME R102’ingr. promedio’, R101’% con automóvil’
R901 es una variable de trabajo usada para para retener el identificador de la ciudad; cuando se lee
el primer caso (R901=0), a R901 se le asigna el valor del identificador de ciudad (V1); R902 a R904
son variables de trabajo para el número de personas en la ciudad, el ingreso total de las personas en
la ciudad y el número de personas con automóvil en la ciudad respectivamente.
Mientras que el identificador de ciudad se mantiene igual, se acumulan los datos en las variables R902
a R904 (cuyos valores se “llevan” a medida que se lean nuevos casos). Entonces el caso se rechaza (no
pasa al análisis) y se lee el nuevo caso. Cuando aparece un cambio en el identificador de ciudad, se
ejecutan las instrucciones en la etiqueta VIL: los contenidos que tienen las variables R9902, R903 y
R904 en ese momento se usan para calcular las variables requeridas (media agrupada del ingreso y %
agrupado de propietarios de automóviles) y entonces se pasan estas variables al análisis después de
colocar primero en las variables de trabajo los valores para el último caso leı́do (el primer caso de la
siguiente ciudad). Cuando se llega al final del archivo, necesitamos estar seguros de que se usarán los
datos de la última ciudad. La proposición 4 hace ésto.
4.16.
Restricciones
1. El máximo número de variables R es 200.
2. El máximo número de tablas numeradas (BRAC, RECODE, TABLE) es 20.
3. El máximo número de caracteres en una proposición de Recode, excluidos los guiones de continuación
es 1024.
4.17 Nota
55
4. El número máximo de etiquetas de proposiciones es aproximadamente 60.
5. El máximo número de constantes, incluidas las de todas las tablas es aproximadamente 1500.
6. El máximo número de nombres que se pueden definir en proposiciones NAME es 70.
7. El máximo número de valores de datos faltantes que se pueden definir en proposiciones MDCODES es
100 y sólo se retienen 2 cifras decimales para variables R.
8. El número máximo de anidamientos con paréntesis dentro de una proposición (es decir, paréntesis
dentro de paréntesis) es 20.
9. El máximo número de operadores aritméticos es aproximadamente 400.
10. El máximo número de variables en proposición SELECT es 50.
11. El máximo número de proposiciones IF es aproximadamente 100.
12. El máximo número de anidamientos de funciones (es decir, referencias a función como argumentos de
función) es 25.
13. El máximo número de proposiciones es aproximadamente 200.
14. El máximo número de etiquetas en una proposición BRANCH es 20.
15. El máximo número de variables de CARRY es 100.
16. El “máximo número de variables” dado en la sección de “restricciones” de cada documentación de
programa de análisis, incluye variables R y variables V usadas en el análisis y variables V usadas en
Recode pero no en el análisis. Ası́, si un programa tiene un máximo de 40 variables y se usan 40 variables
de entrada en el análisis, no se pueden usar más variables de entrada que las 40 en las proposiciones
de Recode. Las variables R definidas en las proposiciones de Recode y que no se usan en el análisis, no
se necesita tenerlas en cuenta para el “máximo número de variables”.
17. El filtrado se hace antes de la recodificación, de manera que a las variables de resultado no se les pueda
hacer referencia en filtros principales.
4.17.
Nota
Recodificación univariada/bivariada se puede hacer con los métodos de TABLE, IF y RECODE. Más adelante
hay una breve comparación de estos métodos teniendo en cuenta dos aspectos de ejecución.
Totalidad
TABLE ... hace una recodificación completa. Se produce un valor de resultado, aún cuando el valor de
entrada esté por fuera de la tabla (por que ELSE asume 99 por defecto).
RECODE permite recodificación parcial. Si ninguna prueba es verdadera y no hay valor especificado
para ELSE, no hay recodificación.
Tamaño de tabla
Las recodificaciones bivariadas y univariadas completas de gran tamaño tienen mayor eficiencia si usa
TABLE e IF...
Para una recodificación grande, uno a uno, univariada, con una lı́nea de una tabla rectangular, TABLE
es mejor que IF...
Capı́tulo 5
Manejo y análisis de datos
5.1.
5.1.1.
Validación de datos con IDAMS
Visión general
Antes de iniciar un análisis de datos con cualquier programa, los datos necesitan, normalmente, validarse.
Esta validación comprende tı́picamente tres etapas:
1. Verificar si los datos son completos, es decir verificar que todos los casos esperados están presentes en
el archivo de datos y verificar que existan los registros correctos para cada caso cuando hay registros
multiples per caso.
2. Verificar que las variables numéricas sólo tienen valores numéricos y verificar que los valores son
válidos.
3. Verificar la consistencia entre las variables.
Como muchos otros programas estadı́sticos, IDAMS exija que debe haber la misma cantidad de datos para
cada caso. Si los datos para un caso abarcan varios registros, entonces cada caso debe abarcar exactamente
el mismo conjunto de registros. Si algunas variables no se aplican a algunos casos, entonces se deben asignar
valores “faltantes”. La capacidad de IDAMS de verificación de intercalación de registros, permite chequear
que cada caso de datos tenga el conjunto correcto de registros. Esto se hace con el programa MERCHECK
el cual produce un archivo de salida “rectangular” en el cual se han eliminado los registros extra/duplicados
y los casos con registros faltantes se han rellenado o bién se les han asignado registros ficticios.
La verificación de valores no numéricos en variables numéricas y la conversión opcional de campos en blanco
a valores numéricos especificados por el usuario la hace el programa BUILD. La verificación de otros códigos
inválidos la hace el programa CHECK en donde los que son códigos válidos se definen en proposiciones
especiales de control o bién se toman de registros C en el diccionario que describe los datos.
Si los datos se introducen con la Interfaz del Usuario de WinIDAMS, no se permiten caracteres no numéricos
(excepto campos en blanco) en campos numéricos. Más aun, existe la posibilidad de verificación de códigos
durante la introducción de datos y de una verificación general de códigos inválidos en todo el archivo de
datos. Los registros C del diccionario, se usan para este propósito.
Las verificaciones de consistencia se pueden expresar en el lenguaje Recode de IDAMS y se usan con el
programa CONCHECK para listar casos con incosistencias.
Los errores hallados en cualquiera de estos pasos se pueden corregir o bién con la Interfaz del Usuario o con
el programa CORRECT. Una secuencia tı́pica de pasos para la detección y corrección de errores con IDAMS
se describe con más detalle a continuación.
58
5.1.2.
Paso 1
Manejo y análisis de datos
Verificación si los datos son completos
Producir tablas de resumen que muestren la distribución de los casos dentro de las unidades
de muestreo, zonas geográficas, etc. para obtener una verificación contra los totales esperados.
Esto es particularmente útil en una encuesta por muestreo. Por ejemplo, supongamos que se
va a hacer una encuesta de hogares. Se toma una muestra seleccionando primero unidades
primarias de muestreo (UPM), después, hasta cinco (5) áreas dentro de cada UPM y luego se
entrevistan los hogares ubicados dentro de esas áreas. La distribución que tienen en los datos
los hogares por UPM y área se puede obtener con la preparación de un pequeño diccionario
que contenga solamente las dos variables: UPM y área. La tabla tendrá el siguiente aspecto:
V2 AREA
V1
UPM
01
02
03
.
.
01
02
03
04
05
3
10
6
4
2
2
8
5
Esta tabla puede compararse con la bitácora de registro de los entrevistadores para verificar
si en el archivo existen los datos de todas las entrevistas tomadas.
Pasos 2, 3 y 4 son necesarios sólo cuando hay más que un registro por caso.
Paso 2
Paso 3
Paso 4
Los registros de datos primarios se clasifican en orden de identificación de casos/identificación
de registros con SORMER.
Los datos primarios ya clasificados, se verifican con MERCHECK para ver si se tiene el grupo
correcto de registros para cada caso. El archivo de salida contiene solamente casos “buenos”,
es decir, aquellos con registros correctos. Los registros que sobren y los duplicados se eliminan.
Los casos con registros faltantes se eliminan o se completan. Se imprimen todos los casos que
tengan errores de intercalación.
A continuación se hacen las correcciones de los errores detectados por MERCHECK. Esto se
pueden hacer de varias maneras:
Recapturar casos “malos” e intercalarlos con el archivo de salida de MERCHECK usando
SORMER.
Editar los datos primarios originales con un editor del sistema y repetir los pasos 2 y 3.
Recapturar los casos “malos”, hacer los pasos 2 y 3 con estos datos y después intercalar
el archivo de salida de esta ejecución del paso 3 con el archivo de salida original del paso
3.
Con cualquier método que se escoja, el programa MERCHECK debe ejecutarse nuevamente
con el archivo corregido para cerciorarse de que no hay errores.
5.1.3.
Paso 5
Paso 6
Paso 7
Detección de valores no numéricos e inválidos
Preparar un diccionario para todas las variables, con las proposiciones apropiadas para el
manejo de campos en blanco. Ejecutar BUILD. La salida es un dataset IDAMS (archivos
Datos y Diccionario). Todos los valores no numéricos inesperados se convierten en nueves (9)
y se indican en los resultados.
Con TABLES imprimir distribuciones de frecuencias de todas las variables cualitativas y los
valores máximos, mı́nimos y medios de las variables cuantitativas. Esto da una idea inicial
del contenido de los datos y muestra cuales variables tienen códigos inválidos (variables cualitativas) o valores muy grandes o muy pequeños (variables cuantitativas). También pueden
compararse posteriormente con un listado similar producido después de la limpieza para observar cómo la validación afectó los datos.
Preparar proposiciones de control que especifiquen los códigos válidos o los rangos de valores
para cada variable. Estas proposiciones se pueden preparar con anterioridad para todas las
5.2 Manejo/transformación de datos
Paso 8
59
variables, o bién, después del paso 6, solamente para aquellas variables de las cuales se sabe
que tienen códigos inválidos. Usar el dataset de salida del paso 5 como entrada al programa
CHECK para obtener un listado que muestre los casos que tienen valores inválidos. Téngase
en cuenta que la especificación de códigos válidos para las variables también se puede tomar
de los registros C del diccionario, si éstos se introdujeron en el paso 5.
Preparar la corrección de errores en variables detectados en los pasos 5 y 7. Usar el programa
CORRECT para actualizar el dataset IDAMS creado en el paso 5.
Téngase en cuenta que las correcciones también se podrı́an hacer con la Interfaz del Usuario
si el número de casos no es muy grande. Sin embargo, el uso de CORRECT es un método
menos propenso a los errores.
Ejecute nuevamente los pasos 7 y 8 hasta que no se encuentren errores.
5.1.4.
Paso 9
Verificación de consistencia
Preparar proposiciones lógicas de las verificaciones de consistencia que se van a hacer, por
ej. PREGNANT (V32) = no aplicable si y sólo si SEX (V6) = masculino.
Asignar un número de “resultado” a cada verificación de consistencia y traducir la lógica a
proposiciones de RECODE en donde el resultado se pone en uno (1) para una inconsistencia,
por ej.
IF V6 EQ 1 AND V32 NE 9 THEN R1001=1
IF V6 NE 1 AND V32 EQ 9 THEN R1001=1 ELSE R1001=0
Paso 10
Usar el conjunto de proposiciones de Recode con CONCHECK para imprimir los casos con
errores.
Corregir los casos con errores como en el paso 8.
Ejecute nuevamente los pasos 9 y 10 hasta que no se encuentren errores. Entonces los datos de salida de la
última ejecución de CORRECT estarán listos para analizarlos.
5.2.
Manejo/transformación de datos
IDAMS posée un extenso conjunto de ayudas para generar ı́ndices, medidas derivadas, agrupamientos
y otras transformaciones de los datos, incluida la recodificación alfabética. Las capacidades utilizadas más
frecuentemente las provée la facilidad Recode, la cual puede llevar a cabo operaciones temporales en todos los
programas de análisis que usan como entrada un dataset IDAMS. Los resultados de la recodificación se pueden
guardar como variables permanentes con el programa TRANS. Estas facilidades operan en las variables
que forman un caso y permiten recodificar los valores de una o más variables, generar nuevas variables
mediante la combinación de las mismas, controlar la secuencia de estas operaciones mediante la ejecución de
proposiciones lógicas y ejecutar un número de proposiciones y funciones especializadas adicionales. La nueva
información del diccionario, necesaria para describir los resultados de las operaciones realizadas, se produce
automáticamente.
Para agrupaciones entre diferentes casos se dispone del programa AGGREG. AGGREG suministra sumas
aritméticas y medidas relacionadas, rangos y conteos de valores de datos válidos dentro de grupos de casos.
Las ejecuciones tı́picas de AGGREG involucran el uso previo del programa SORMER para clasificar el
archivo Datos en los grupos deseados.
Hay un número de circunstancias en las cuales es necesario combinar los registros de dos archivos diferentes,
por ejemplo, datos recolectados en puntos diferentes en el tiempo. En la medida en que se reciben nuevos
grupos de datos para las variables, el objetivo es añadirlos al registro que contenı́a los datos previos para
el mismo caso o el mismo encuestado. El programa MERGE se encarga de esta labor, incluido el relleno
apropiado con datos faltantes cuando no se encuentren entrevistados en el nuevo grupo. Ejemplos similares
se presentan cuando en un programa de análisis se generan residuos o algún tipo de puntajes de escala para
cada caso y se necesita incluirlos en los datos originales.
Un proceso de combinación algo diferente se presenta cuando se van a combinar datos obtenidos de diferentes
60
Manejo y análisis de datos
niveles de análisis. Una ilustración de ésto es la adición de datos de hogares a los registros individuales de
los encuestados. Cuando se ordena un dataset de tal manera que todos los encuestados de un mismo hogar
queden juntos, MERGE hace la intercalación necesaria de los registros duplicados. Se presenta una situación
similar cuando se van a adicionar resúmenes de grupo obtenidos con AGGREG a los registros de cada caso
en el grupo respectivo.
Otro proceso de combinación de datasets, a menudo también llamado intercalación, se presenta cuando se
desea añadir casos adicionales a un dataset. Los nuevos registros deben ser descritos por el mismo diccionario
del dataset original. Este tipo de intercalación puede lograrse con el programa SORMER.
La mayorı́a de los programas de IDAMS disponen como operaciones temporales, de funciones para la
subdivisión de los datos (usando un “filtro”), con el objeto de seleccionar casos particulares para procesar.
También es posible crear archivos permanentes que contengan subconjuntos de los datasets IDAMS (un
subconjunto de variables o un subconjunto de casos, o ambos). Los programas TRANS y SUBSET son los
más adecuados para esta clase de tareas, aunque otros programas que producen un dataset IDAMS como
salida, tales como MERGE, también pueden usarse. La selección de casos puede hacerse sobre la base de que
sólo ciertos casos tienen un interés lógico (por ejemplo sólo los encuestados de sexo femenino), o también
puede hacerse al azar, con la función RAND de Recode en el programa TRANS.
Muchas veces es de gran ayuda para el usuario poder obtener una imagen de los valores almacenados en
el dataset IDAMS, con el objeto de verificar los resultados de los pasos de modificación de los datos y
ciertamente en cualesquiera otras etapas. El programa LIST es el adecuado para este propósito y permite
obtener listados completos de diferentes selecciones de variables y casos especı́ficos. El filtrado o la selección
de los casos que se van a mostrar se puede lograr mediante la combinación de varias variables dentro de
expresiones lógicas; un ejemplo serı́a una selección de sólo aquellos registros de mujeres solteras entre los 21 y
los 25 años de edad. Tanto las variables numéricas y alfabéticas de un dataset como las variables construidas
con proposiciones de Recode se pueden incluir en la salida impresa. La Interfaz del Usuario también tiene
una opción para imprimir el contenido de un archivo de datos en formato de tabla.
5.3.
Análisis de datos
La consideración fundamental del usuario con respecto a la escogencia de un programa de análisis es si éste
posée las funciones estadı́sticas apropiadas. Una guı́a en esta materia está fuera del alcance de este manual.
En la Introducción se puede hallar un resumen de la función de cada programa de análisis de IDAMS. Se
dan más detalles en la documentación individual de cada programa. Las fórmulas usadas en cada programa
para calcular las estadı́sticas, y referencias se encuentran en la parte “Fórmulas estadı́sticas y referencias
bibliográficas”.
5.4.
Ejemplo de un pequeño trabajo a ejecutar con IDAMS
Supongamos que un dataset IDAMS contiene las respuestas al cuestionario de una encuesta e incluye las
siguientes variables:
V11 representa el sexo del encuestado según la codificación siguiente:
1. Hombre
2. Mujer
9. Sin información
V12 representa el ingreso del encuestado en dólares (99999 = sin información).
V13 a V16 representan medidas de actitud ante diferentes situaciones. Las variables se codifican cada una
para reflejar los sentimientos del encuestado ası́:
1. Muy positivo 2. Positivo 3. Neutro 4. Negativo 5. Muy negativo 8. No sabe
9. Sin información 0. La pregunta es irrelevante para el encuestado
Supongamos que sólo se necesita un agrupamiento o recodificación de niveles de ingreso ası́:
5.4 Ejemplo de un pequeño trabajo a ejecutar con IDAMS
Código nuevo
1
2
3
9
61
Significado
Ingreso en el rango $0 a $9999
Ingreso en el rango $10,000 a $29,999
Ingreso de $30,000 o mayor
Rechazado, sin información, no sabe
Los cruces deseados son entre la versión nuevamente codificada de la variable de ingreso, V12, y cada una
de las variables de actitud V13 a V16. Para este análisis sólo se seleccionarán encuestados femeninos.
A continuación se muestra un “setup” de IDAMS con las proposiciones de control necesarias para hacer este
trabajo. Los números entre paréntesis a la izquierda identifican cada proposición de control y la relacionan
a la explicación subsiguiente.
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)
$RUN TABLES
$FILES
DICTIN = ECON.DIC
DATAIN = ECON.DAT
$RECODE
R101=BRAC(V12,0-9999=1,10000-29999=2,30000-99998=3, ELSE=9)
NAME R101’Ingreso agrupado’
$SETUP
INCLUDE V11=2
EJEMPLO DE TABLES USANDO DATOS ECONOMICOS
*
TABLES
ROWVARS=(R101,V13-V16)
ROWVAR=R101 COLVARS=(V13-V16) CELLS=(FREQS,ROWPCT) STATS=CHI
En pocas palabras, lo siguiente es lo que hace cada proposición:
(1)
(2)
(3)&(4)
(5)
(6)(7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)
“$RUN TABLES” es un comando de IDAMS, en el cual se le informa que se va a utilizar el
programa TABLES.
Esta proposición señala el comienzo de especificación de archivos para este trabajo.
El dataset IDAMS se almacena en dos archivos separados. Uno contiene el diccionario y el
otro los datos.
Esta proposición indica que se requieren transformaciones de los datos. Las proposiciones que
siguen a continuación se refieren especı́ficamente a los comandos de Recode.
Estas dos lı́neas (una original y una de continuación) forman una proposición de Recode que
indica que el agrupamiento entre corchetes deseado para la variable de ingreso V12, sigue
el esquema indicado atrás. El resultado de la función BRAC se almacena en la variable de
resultado R101.
Esta proposición asigna un nombre a la variable R101.
“$SETUP” es un comando que indica el fin de las proposiciones de Recode y el comienzo de
las proposiciones de control del programa TABLES.
Este es un “filtro” que indica que los únicos casos que se van a usar son aquellos en los cuales
la variable V11 tenga el código 2, para las mujeres.
Este es un tı́tulo que contiene el texto que se va a utilizar como encabezamiento de los listados.
Esta lı́nea especifica los parámetros principales. Como sólo se ha dado un asterisco, para esta
ejecución se escogen las opciones por defecto para todos los parámetros.
La palabra TABLES se introduce en este punto para separar la información global precedente,
válida para toda la ejecución, de las especificaciones de las tablas individuales que siguen.
Esta proposición solicita distribuciones de frecuencia univariadas para 5 variables.
Ahora se solicitan tablas bivariadas. Las celdas van a contener los conteos (frecuencias) y los
porcentajes de fila; para cada tabla se imprimirá la estadı́stica Ji-cuadrada. Las dos listas de
variables que siguen a las palabras clave ROWVAR y COLVARS especifican aquellas variables
que se utilizarán, para las filas y las columnas de las tablas, respectivamente. De esta manera
se producirán sucesivamente cuatro tablas: R101 (ingreso agrupado) por V13, V14, V15 y
V16.
Parte II
El trabajo con WinIDAMS
Capı́tulo 6
Instalación
6.1.
Requisitos del sistema
El paquete de programas WinIDAMS está disponible para versiones del sistema operacional Windows
de 32 bits (Windows 95, 98, NT 4.0, 2000 y XP).
Se recomienda un procesador Pentium II o un procesador más veloz y memoria RAM de 64 megabytes.
En todos los sistemas se deben tener cerca de 11 megabytes de espacio libre en disco antes de instalar
el programa WinIDAMS en cada versión lingüı́stica.
6.2.
Procedimiento de instalación
La versión 1.3 de WinIDAMS se almacena en CD de distribución en archivo de autoextracción
WinIDAMS\English\Install\WIDAMSR13E.EXE
WinIDAMS\French\Install\WIDAMSR13F.EXE
WinIDAMS\Portuguese\Install\WIDAMSR13P.EXE
WinIDAMS\Spanish\Install\WIDAMSR13S.EXE
:
:
:
:
la
la
la
la
versión
versión
versión
versión
en
en
en
en
inglés
francés
portugués
espa~
nol
o en un archivo telecargado equivalente.
Para instalar la versión en español:
1. Seleccione WIDAMSR13S.EXE con el explorador Windows.
2. Haga doble click en este archivo y siga las instrucciones de pantalla.
3. Al final del proceso de instalación aparece una caja de diálogo con la pregunta “Do you wish to
install HTML Help 1.3 update now?” (Desea instalar la actualización de ayuda 1.3 de HTML
ahora?). Se recomienda responder “YES” (SÍ).
El procedimiento de instalación crea dos elementos en el Administrador de programas/menú Inicio,
uno para ejecutar WinIDAMS y uno para desinstalar WinIDAMS. También crea un ı́cono que es un
vı́nculo/atajo de WinIDAMS.
6.3.
Prueba de la instalación
Un archivo Setup con las proposiciones para ejecutar 4 programas de manejo de datos (CHECK, CONCHECK,
TRANS y AGGREG) y 6 programas de análisis (TABLES, REGRESSN, MCA, SEARCH, TYPOL y RANK)
se copia en la carpeta Trabajo durante la instalación. Para ejecutarlo:
Active WinIDAMS con un doble click en su ı́cono.
66
Instalación
Aparece la ventana principal de WinIDAMS con una aplicación por defecto desplegada en el panel
izquierdo. Abra la carpeta Setup. Hay allı́ el archivo demo.set con las proposiciones para ejecutar los
10 programas
Con un doble click este archivo se abre en la ventana Setup. Ejecútelo desde adentro de esta ventana. Los
resultados se escriben en el archivo idams.lst que se abre automáticamente en la ventana Resultados.
El archivo demo.lst con la versión distribuida de los resultados se encuentra en la carpeta Results.
Compare las dos versiones de resultados.
6.4.
6.4.1.
Archivos y carpetas creados durante la instalación
Carpetas de WinIDAMS
El nombre completo de la carpeta del sistema WinIDAMS se da en “Seleccione la Carpeta Destino” del
instalador y se crean las siguientes carpetas (ver el capı́tulo “Carpetas y archivos” para una descripción más
detallada) durante la instalación:
de la versión en inglés
de la versión en francés
<WinIDAMS13-EN>\appl
<WinIDAMS13-EN>\data
<WinIDAMS13-EN>\temp
<WinIDAMS13-EN>\trans
<WinIDAMS13-EN>\work
<WinIDAMS13-FR>\appl
<WinIDAMS13-FR>\data
<WinIDAMS13-FR>\temp
<WinIDAMS13-FR>\trans
<WinIDAMS13-FR>\work
de la versión en portugués
de la versión en espa~
nol
<WinIDAMS13-PT>\appl
<WinIDAMS13-PT>\data
<WinIDAMS13-PT>\temp
<WinIDAMS13-PT>\trans
<WinIDAMS13-PT>\work
<WinIDAMS13-SP>\appl
<WinIDAMS13-SP>\data
<WinIDAMS13-SP>\temp
<WinIDAMS13-SP>\trans
<WinIDAMS13-SP>\work
6.4.2.
Archivos instalados
Archivos del sistema en la carpeta Sistema
(\WinIDAMS13-EN, \WinIDAMS13-FR, \WinIDAMS13-PT, \WinIDAMS13-SP)
WinIDAMS.exe
Ter32.dll
Hts.dll
unesys.exe
Idame.mst
Idame.xrf
idams.def
Graph32.exe
graphid.ini
Idtml32.exe
Idaddto32.dll
IDAMSC_DLL.dll
Idams.chm
<pgname>.pro
Archivo principal ejecutable de la Interfaz del Usuario de WinIDAMS
|
| Dlls usados por la Interfaz del Usuario de WinIDAMS
Archivo ejecutable usado para la ejecución de setups
Archivo maestro de base de datos de texto para los programas de IDAMS
Archivo de referencias cruzadas para la base de datos de texto
Definición del mapeo entre ddnames y nombres de archivo
Archivo ejecutable GraphID
Archivo .ini usado por GraphID para almacenar colores,
fuentes y coordenadas
Archivo ejecutable TimeSID
Dll usado por GraphID y TimeSID
Dll usado por TimeSID
Archivo de ayuda (Manual de referencias del usuario) de WinIDAMS
Prototipos para programas de IDAMS
6.5 Desintalación
67
Archivos de diccionario y de datos usados como ejemplos, guardados en la carpeta Datos
(\WinIDAMS13-EN\data, \WinIDAMS13-FR\data, \WinIDAMS13-PT\data, \WinIDAMS13-SP\data)
educ.dic
educ.dat
rucm.dic
rucm.dat
watertim.dic
watertim.dat
data.csv
tab.mat
Archivos de setup y de resultados de demostración, guardados en la carpeta Trabajo
(\WinIDAMS13-EN\work, \WinIDAMS13-FR\work, \WinIDAMS13-PT\work, \WinIDAMS13-SP\work)
demo.set
demo.lst
6.5.
Desintalación
Durante el procedimiento de instalación, se crea un programa desinstalador. El usuario puede ejecutar
el desinstalador bien haciendo clic en WinIDAMS/Uninstall WinIDAMS en el Administrador de programas/menú Inicio o bien suprimiendo la entrada “WinIDAMS versión 1.3 en español, Julio de 2006” en Agregar/Quitar programas del Panel de control. Este desinstalador borra el contenido del carpeta de WinIDAMS
usada en el proceso de instalación. No borra carpetas que no estén vacı́as.
Capı́tulo 7
Primeros pasos
7.1.
Visión general de los etapas con WinIDAMS
En este ejemplo, se prepara un diccionario IDAMS para la descripción de los datos recogidos en un cuestionario y se toman los datos de algunos encuestados. Luego se prepara un conjunto de instrucciones (un
“setup”) y se usa para obtener distribuciones de frecuencias de Edad, Sexo, y Educación (número de años
agrupado en 4 grupos). Se procede como sigue:
1. Cree un ambiente de la aplicación.
2. Prepare y almacene un diccionario IDAMS que describa las variables en los datos.
3. Capture los datos (este paso sobra si los datos se capturaran fuera de WinIDAMS).
4. Haga y almacene un “setup” de instrucciones que especifique qué se va a hacer con los datos.
5. Ejecute el programa de IDAMS según el setup.
6. Revise los resultados y modifique el setup si es necesario; después repita a partir del paso 4.
7. Imprima los resultados.
Para comenzar, primero active WinIDAMS. Verá la ventana principal de WinIDAMS
70
Primeros pasos
7.2.
Creación de un ambiente de aplicación
El ambiente de la aplicación le permite definir rutas para tres carpetas. Todos los archivos de entrada/salida
se abrirán/crearán por defecto en una de estas carpetas. Esto le evita tener que escoger o suministrar siempre
la ruta completa de la carpeta.
Los archivos Diccionario y Datos: en la carpeta Datos.
Los archivos Setup y Resultados: en la carpeta Trabajo.
Los archivos temporales: en la carpeta Temporal.
Haga clic en Aplicación en la barra de menú y después en Nuevo. Ahora ve el siguiente diálogo:
Crearemos una nueva aplicación con el nombre “MyAppl” y con las carpetas de aplicación C:\MyAppl\data,
C:\MyAppl\work y C:\MyAppl\temp suministrando estos nombres en los correspondientes cuadros de texto.
7.3 Preparación del diccionario
71
Para cada carpeta de aplicación creada que no exista, se verá un diálogo como el sigue a continuación:
Haga clic en Yes (Si) para cada carpeta nueva y luego haga clic en OK. Ahora se ve la ventana principal
WinIDAMS nuevamente.
7.3.
Preparación del diccionario
Crearemos un diccionario para describir los registros de datos para las siguientes variables:
Número
1
2
3
4
Nombre
Identificación
Edad
Sexo
1 Hombre
2 Mujer
9 MD
Educación
Ancho
3
2
1
Código de datos faltantes (MD)
9
2
Teclée Ctrl/N o haga clic en Archivo/Nuevo. Estos comandos abren el diálogo del Nuevo documento:
El diálogo muestra la lista de tipos de documentos usados en WinIDAMS. Debe escoger “IDAMS
Dictionary file” (archivo Diccionario), ya seleccionado por defecto.
Haga clic en el campo de Nombre de archivo y suministre el nombre “demog”. Haga clic en OK. Nótese
que automáticamente se añade la extensión .dic al nombre del archivo.
72
Primeros pasos
Ahora se ve:
• la ventana Aplicación;
• una ventana con dos paneles para entrar la descripción de las variables y los códigos y nombres de
códigos opcionales asociados. Aparece el nombre completo del archivo Diccionario “demog.dic”.
Haga clic en la primera celda de la fila en el panel de variables e introduzca el número de la primera
variable. Tan pronto como comience a introducir los datos de la fila marcada con un asterisco, se crea
una nueva fila inmediatamente después y en la fila que está editando, aparece un lápiz en el encabezador
de fila. Con Intro o Tab se puede mover al campo siguiente. Ahora introduzca nombre y ancho. Salte
sobre los campos siguientes con Intro o con Tab y capture la descripción con Intro o Tab en el último
campo. Nótese que WinIDAMS adopta la localización por defecto cuando se ha aceptado la fila de
descripción.
Cuando se teclea Intro o Tab en el último campo, el lápiz desaparece, lo cual significa que la fila ha
sido capturada después de una verificación rudimentaria de campos. Ahora el campo es el primero de
la fila siguiente (marcada con un asterisco) y puede introducir la descripción de la segunda variable,
Edad. Haga lo mismo para la variable 3, Sexo, pero suministre para esta variable un código MD1 de
datos faltantes con valor 9 (código para ausencia de respuesta).
Después de aceptar la descripción de la variable 3, el primer campo (número de variable) de la fila con
un asterisco, se convierte en el siguiente campo para recibir datos. Haga clic en cualquier campo de la
fila que se acaba de introducir (variable 3, Sexo) para activarla.
Cámbiese al panel de códigos haciendo clic en el campo de código de la primera fila. Nótese que este
panel está sincronizado con la variable para la cual se están suministrando los datos en el panel de
variables.
Teclée 1 en el campo de código. Nuevamente, tan pronto como se comienza a introducir la información
de los nombres de códigos, se crea una nueva fila inmediatamente después y la fila que se está editando
muestra un lápiz. Oprima Intro para moverse al siguiente campo, introduzca Hombre en el campo de
nombre. Oprima Intro. El campo actual es ahora el campo de código de la fila siguiente y puede entrar
2 con nombre Mujer y similarmente para el código 9.
7.4 Captura de datos
73
Regrese al panel de variables haciendo clic en el campo del número de variable en la fila con asterisco.
Introduzca las informaciones para la variable 4.
Para suprimir filas, haga clic al lado de la fila y escoja Cortar del menú Edición.
Guarde el diccionario haciendo clic en Archivo/Guardar como y aceptando el nombre del archivo
“demog.dic”.
7.4.
Captura de datos
Oprima Ctrl/N o haga clic en Archivo/Nuevo. Aparece el mismo diálogo de documento que ya se
vió para el diccionario.
Seleccione la lı́nea “IDAMS Data file” (archivo Datos) de la lista e introduzca el nombre del archivo
Datos. Por convención, es mejor usar el mismo nombre para el archivo Datos y el archivo Diccionario
correspondiente. Sólo cambia la extensión de archivo, “dic” para el archivo Diccionario y “dat” para
el archivo Datos. El diccionario y los datos forman un dataset de IDAMS. Introduzca “demog” como
nombre de archivo y haga clic en OK.
Un diálogo Abrir archivo muestra ahora los diccionarios que existen para la aplicación actual y solicita
escoger el diccionario que describe los datos. Escoja “demog.dic” y haga clic en Abrir.
74
Primeros pasos
Aparece ahora una ventana de entrada de datos con tres paneles. Los datos son introducidos sólo en el
panel del fondo. Los otros dos paneles están sincronizados para mostrar la descripción de la variable
para la cual están entrando los datos y los nombres de códigos si los hay. Se muestra el nombre completo
del archivo Datos “demog.dat” (la extensión .dat se añade automáticamente).
Nótese que en las imagenes que siguen, la ventana Aplicación está cerrada.
Haga clic en el primer campo de la fila con un asterisco y teclée la primera lı́nea de datos como se ve
a continuación, oprima la tecla Intro después de cada dato. Tan pronto como se empiezan a entrar los
datos, aparece una nueva fila y aparece un lápiz en el encabezador de la fila a la cual están entrando
los datos, lo cual indica que se está editando esta fila.
Después de entrar el valor de la última variable V4 y oprimir Intro, el primer campo de la fila siguiente
se habilita para recibir datos.
Introduzca los datos de los cinco casos que se dan a continuación.
7.5 Preparación del setup
75
Haga clic en Archivo/Guardar para guardar los datos en el archivo “demog.dat”.
7.5.
Preparación del setup
Oprima Ctrl/N o haga clic en Archivo/Nuevo.
Seleccione la lı́nea “IDAMS Setup file” (archivo Setup) de la lista e introduzca un nombre, por ejemplo,
“demog1” para el archivo Setup. Haga clic en OK. Nótese que la extensión .set se añade automáticamente al nombre del archivo y se muestra el nombre completo del archivo “demog1.set”.
Se ve ahora una ventana vacı́a de setup. Introduzca lo siguiente:
76
Primeros pasos
$RUN identifica el programa de IDAMS deseado; después del comando $FILES, se especifica el archivo
Datos y el archivo Diccionario correspondiente; en seguida, las proposiciones de Recode aparecen
precedidas de la lı́nea $RECODE (aquı́ se usa Recode para reunir años de educación en 4 grupos);
finalmente, se dan los parámetros (de acuerdo con las reglas del programa TABLES) para la tarea (en
este caso se solicitan distribuciones de frecuencia univariadas), precedidas del comando $SETUP.
Haga clic en Archivo/Guardar y guarde el setup en el archivo “demog1.set”.
7.6.
Ejecución del setup
Desde adentro de la ventana Setup, haga clic en Ejecutar/Setup actual. Se guarda el setup en un
archivo temporal y se ejecuta. Aparece un diálogo durante la ejecución y desaparece si la ejecución
tuvo éxito.
Los resultados se escriben, por defecto, en el archivo “idams.lst”. Para cambiar esta acción por defecto,
se puede añadir debajo de $FILES una lı́nea PRINT con el nombre del archivo requerido, por ejemplo,
“print=a:demog1.lst” para guardar los resultados en un diskette.
7.7.
Revisión de los resultados y modificación del setup
El archivo de los resultados se carga automáticamente cuando se termina la ejecución.
7.7 Revisión de los resultados y modificación del setup
77
La tabla de contenido de los resultados que hay en el panel izquierdo permite localizar rápidamente
partes diferentes. Ábrala haciendo clic en “idams.lst” y oprima el botón con un asterisco en el teclado
numérico, ahora haga clic en el elemento que desea ver.
Si desea cambiar algo en el setup mientras revisa los resultados, entonces haga clic en el TAB “demog1.set” y haga las modificaciones requeridas. Oprima Ctrl/E para ejecutar.
78
Primeros pasos
7.8.
Impresión de los resultados
Seleccione Archivo/Imprimir.
Seleccione las páginas que desea imprimir y haga clic en OK.
Capı́tulo 8
Archivos y carpetas
8.1.
Archivos en WinIDAMS
Archivos del usuario
Estos archivos los crea el usuario con la ayuda de las herramientas suministradas por la Interfaz del Usuario
de WinIDAMS, o bien, se producen por IDAMS como un resultado final o como una salida para ser procesada posteriormente. Todos son archivos estándar de texto ASCII. Se permiten caracteres de tabulación; se
convierten automáticamente al número correcto de blancos. Las extensiones unificadas las usa la Interfaz del
Usuario para reconocer el tipo del archivo.
Archivo Datos (*.dat). Cualquier archivo de datos puede entrar a los programas de IDAMS teniendo
en cuenta que cada caso contenga un número igual de registros de formato fijo. Sin embargo, si la
Interfaz del Usuario usa un archivo Datos, sólo puede haber un registro por caso.
Puede haber registros de longitud variable con un máximo de 4096 caracteres por caso. Si el primer
registro del archivo no es más largo, entonces la longitud máxima de registro (RECL) debe especificarse en la proposición de especificación de archivo correspondiente. Los archivos producidos por los
programas de IDAMS tienen registros de longitud fija sin caracteres de tabulación. En general, no hay
lı́mite para el número de casos que pueden entrar a un programa de IDAMS.
Archivo Diccionario (*.dic). Se usa para describir las variables en los datos. Como mı́nimo,
debe describir solamente las variables usadas en una ejecución particular de un programa, pero puede
describir todas las variables en cada registro de datos. La longitud de registro es variable, pero tiene
un máximo de 80. Si un programa IDAMS produce un diccionario, entonces la longitud del registro es
fija (80 caracteres) sin caracteres de tabulación.
El diccionario se puede preparar sin conocer su formato interno, en la ventana Diccionario de la Interfaz
del Usuario. Alternativamente, se puede preparar con el Editor General y siguiendo el formato dado
en el capı́tulo ”Los datos en IDAMS”.
Archivo Matriz (*.mat). Las matrices de IDAMS (para guardar varias estadı́sticas) tienen registros
de longitud fija (80 caracteres) sin caracteres de tabulación.
Archivo Setup (*.set). Este archivo se usa para guardar comandos de IDAMS, especificaciones
de archivos, proposiciones de control del programa y proposiciones de Recode (si las hay). Se puede
preparar en la ventana Setup de la Interfaz del Usuario. La longitud de registro es variable aunque el
máximo es de 255 caracteres.
Archivo Resultados (*.lst). Normalmente IDAMS escribe los resultados en un archivo. El contenido
de este archivo puede entonces revisarse antes de producir la salida al papel.
Nota: para facilitar el trabajo con WinIDAMS, se aconseja utilizar el mismo nombre para los archivos
Diccionario y Datos, y el mismo nombre para los archivos Setup y Resultados.
Los archivos del usuario se especifican a continuación del comando $FILES en el archivo Setup (ver el capı́tulo
“El archivo Setup de IDAMS”).
80
Archivos y carpetas
Archivos del sistema
El usuario no tiene acceso directo a los archivos del sistema. Estos se crean durante el proceso de instalación
(archivos permanentes del sistema), durante la personalización del ambiente para una aplicación (archivos
Aplicación) o durante la ejecución de procedimientos de WinIDAMS (archivos temporales de trabajo).
Archivos permanentes del sistema. Incluyen los archivos ejecutables de programas, archivos dll,
archivos de parámetros del sistema, archivo del Manual en pantalla (en formato HTML Help) y archivos
de prototipos de setup.
Archivos de controle del sistema.
• Idams.def : definiciones de archivos por defecto que suministran conexión entre nombres lógicos
y nombres fı́sicos de los archivos de usuario y los archivos temporales de trabajo.
• <application nombre>.app : un archivo por aplicación que contiene los nombres de las carpetas Datos, Trabajo y Temporal.
• lastapp.ini : archivo que contiene el nombre de la última aplicación usada.
• graphid.ini : los parámetros de configuración para el componente GraphID .
• tml.ini : los parámetros de configuración para el componente TimeSID .
Archivos temporales de trabajo. No conciernen al usuario ya que se definen y se eliminan automáticamente. Tienen extensión de archivo .tmp y .tra.
8.2.
Las carpetas en WinIDAMS
Los archivos que usa WinIDAMS se guardan en las siguientes carpetas:
archivos permanentes del systema en la carpeta Sistema,
archivos Aplicación en la carpeta Aplicación,
archivos Datos, Diccionario y Matriz en la carpeta Datos,
archivos Setup y Resultados en la carpeta Trabajo,
archivos temporales de trabajo en la carpeta Temporal y la carpeta Transpuesta.
Las cinco carpetas obligatorias para la aplicación por defecto deben siempre estar presentes bajo la
carpeta <system dir>. Se definen y se crean por la primera vez durante el proceso de instalación. Después,
cuando WinIDAMS se ejecuta y falta alguna de las carpetas, ésta se crea nuevamente de manera automática.
carpeta
carpeta
carpeta
carpeta
carpeta
Aplicación
Datos
Temporal
Transpuesta
Trabajo
<system
<system
<system
<system
<system
dir>\appl
dir>\data
dir>\temp
dir>\trans
dir>\work
donde <system dir> es el nombre de la carpeta Sistema dado durante el proceso de instalación.
Referirse a la sección “Personalización del ambiente para una aplicación” del capı́tulo “Interfaz del Usuario”
para una descripción más detallada de como las rutas definidas en la aplicación se usan en los programas de
IDAMS.
Capı́tulo 9
Interfaz del Usuario
9.1.
Concepto general
La Interfaz del Usuario de WinIDAMS es una interfaz de documentos múltiples. Puede mostrar y trabajar
simultáneamente diferentes tipos de documentos tales como Diccionario, Datos, Setup, Resultados y documentos Texto en ventanas separadas. Más aun, suministra el acceso a la ejecución de los setups de IDAMS
y de los componentes para el análisis interactivo de datos, a saber: Tablas multidimensionales, Exploración
gráfica de los datos y Análisis de series de tiempo desde cualquier ventana del documento. La ventana
principal de WinIDAMS contiene:
la barra de menú para abrir menús desplegables con opciones o comandos de WinIDAMS,
la barra de herramientas para escoger comandos rápidamente,
la barra de estado para mostrar información acerca del documento activo o de la opción o comando
resaltado,
la ventana Aplicación, ubicada en el lado izquierdo, para mostrar el nombre de la aplicación,
carpetas y documentos para la aplicación activa,
las ventanas de documentos para mostrar los diferentes documentos de WinIDAMS.
82
Interfaz del Usuario
La barra de menú y la barra de herramientas tienen contenidos fijos y dependiente de documentos. Los
menús comunes a todos los tipos de documento se describen a continuación y los menús que dependen del
tipo de documento se describen en las secciones relevantes.
9.2.
Menús comunes a todas las ventanas de WinIDAMS
La barra de menú principal contiene siempre los siguientes siete menús: Archivo, Edición, Ver, Ejecutar,
Interactivo, Ventana y Ayuda.
Archivo
Nuevo
Llama al cuadro de diálogo para seleccionar el tipo de documento a crear y
suministrar su nombre y localización.
Abrir
Después de escoger el tipo de documento, llama al cuadra de diálogo para
seleccionar el documento a abrir.
Cerrar
Guardar
Cierra la ventana activa.
Guarda el documento mostrado en la ventana activa.
Guardar como
Llama al cuadro de diálogo para guardar el documento que está en la ventana
activa.
Llama al cuadro de diálogo para cambiar las optiones de impresión y de la
impresora.
Muestra el documento activo tal como se verá cuan lo se imprima.
Configurar impresora
Vista preliminar
Imprimir
Llama al cuadro de impresión para imprimir el conenido del documento
mostrado en la ventana activa o en el panel activo. Nótese que las partes
ocultas del documento no se imprimen.
Salir
Termina la sesión de WinIDAMS.
El menú puede contener también la lista hasta de 7 documentos abiertos recientemente, es decir, documentos
usados en sesiones anteriores de WinIDAMS.
Edición
La disponibilidad y algunas veces el tı́tulo de algunos comandos en este menú puede ser diferente en diferentes
ventanas.
Deshacer
Reversa la última acción.
Rehacer
Cortar
Hace nuevamente la última acción cancelada.
Mueve la selección al portapapeles.
Copiar
Pegar
Copia la selección al portapapeles.
Copia el contenido del portapapeles al sitio donde está ubicado el cursor.
Buscar
Reemplazar
Da comienzo al mecanismo de búsqueda de Windows.
Da comienzo al mecanismo de reemplazo de Windows.
Buscar siguiente
Busca la siguiente ocurrencia de la cadena de caracteres activa en el cuadro
de diálogo de Buscar.
Nótese que en las ventanas Resultados y Texto, las acciones de buscar/reemplazar se activan con los comandos
Buscar, Buscar adelante, Buscar atrás, y Reemplazar.
9.3 Personalización del ambiente para una aplicación
83
Ver
Barra de herramientas
Muestra/oculta la barra de herramientas.
Barra de estado
Muestra/oculta la barra de estado.
Aplicación
Pantalla completa
Muestra/oculta la ventana Aplicación.
Muestra la ventana activa en pantalla completa. Haga clic en el ı́cono “Cerrar
la pantalla completa” en la esquina superior izquierda o teclée Esc para
regresar a la ventana anterior.
Ejecutar
Con excepción de la ventana Setup, el menú sólo tiene un comando, Seleccionar setup, para seleccionar un
archivo con el setup a ejecutar.
Interactivo
Con este menú, se puede acceder a tres componentes de análisis interactivo, a saber:
Tablas multidimensionales
Exploración gráfica de los datos
Análisis de series de tiempo
Ver los capı́tulos correspondientes para una descripción detallada de cada componente.
Ventana
El menú contiene la lista de ventanas abiertas y de comandos estándar de Windows para organizarlos.
Ayuda
Manual de WinIDAMS
Acerca de WinIDAMS
9.3.
Da acceso al Manual de Referencia de WinIDAMS.
Muestra información de la versión y el copyright de WinIDAMS y un vı́nculo
para acceder a la página web de IDAMS en la sede principal de UNESCO.
Personalización del ambiente para una aplicación
El usuario puede definir y guardar los nombres de carpetas Datos, Tarbajo y Temporal en los archivos
Aplicación con el nombre de la aplicación como nombre del archivo. El nombre de la última aplicación usada
es guardado por el sistema y las caracterı́sticas que definen esta aplicación se cargan al comienzo de la
siguiente sesión. Estas caracterı́sticas se pueden cambiar en cualquier momento durante la sesión de trabajo
mediante la selección/creación y activación de otra aplicación.
Como es necesario, por lo menos, un archivo Aplicación para usar WinIDAMS, se suministra una aplicación
estándar llamada “Default” y se activa cuando se usa WinIDAMS por primera vez después de la instalación.
Las caracterı́sticas de definición por defecto son:
Carpeta Datos
Carpeta Trabajo
Carpeta Temporal
<system dir>\data
<system dir>\work
<system dir>\temp
donde <system dir> es el nombre de la carpeta Sistema fijado durante la instalación. Esta aplicación (guardada en el archivo Default.app) nunca debe suprimirse o modificarse.
El usuario puede crear, modificar, o suprimir los archivos Aplicación (excepto el archivo Default.app) con
el menú Aplicación de la barra de menú de la ventana principal de WinIDAMS. Contiene los siguientes
comandos:
84
Interfaz del Usuario
Nueva
Llama al cuadro de diálogo para crear una aplicación nueva.
Abrir
Llama al cuadro de diálogo para escoger un archivo con los detalles de la
aplicación que se va a abrir.
Mostrar
Cerrar
Llama al cuadro de dialogo para escoger el archivo Aplicación y muestra las
caracterı́sticas de la aplicación.
Cierra la aplicación activa y abre la aplicación “Default”.
Actualizar
Crea nuevamente el arbol de la aplicación en uso.
Creación de una nueva aplicación. La selección del comando Nueva de menú Aplicación suministra un
cuadro de diálolgo para introducir el nombre de una nueva aplicación y los nombres de las carpetas Datos,
Trabajo y Temporal. Con excepción del campo para el nombre de la aplicación, el cual está libre, todos los
otros campos tienen valores tomados de la aplicación por defecto, que se pueden modificar. Puede introducir
el nombre de la ruta o escogerlo, moviendo el resaltador al nombre requerido en el árbol de las carpetas.
Oprima el botón de OK para guardar la aplicación. Con Cancelar, cancela la creación de una nueva aplicación
y regresa a la ventana principal de WinIDAMS con las caracterı́sticas mostradas previamente.
Abrir una aplicación. El comando Abrir de menú Aplicación llama al cuadro de diálogo para escoger un
archivo de aplicación para abrir y suministra una lista de aplicaciones existentes en la carpeta Aplicación.
Haciendo clic en el nombre requerido, se activan las caracterı́sticas de esta aplicación.
Modificar una aplicación. Primero ábrala y luego cambie los valores de la misma manera que para crear
una aplicación.
Mostrar las caracterı́sticas de una aplicación. Use el comando Mostrar de menú Aplicación para llamar
al cuadro de diálogo y haga clic en el nombre deseado.
Para mostrar las caracterı́sticas de una aplicación activa, haga doble clic en el nombre en la ventana Aplicación.
Suprimir una aplicación. Se puede retirar una aplicación existente si se suprime el archivo correspondiente.
Use el comando Abrir de menú Aplicación para obtener una lista de archivos Aplicación, escoja el archivo
para suprimir y use el botón derecho para acceder al comando de supresión de Windows. No se debe suprimir
el archivo Default.app.
Restaurar las caracterı́sticas de WinIDAMS por defecto. Se puede hacer de dos maneras: con el
comando Cerrar de menú Aplicación, o bien para escoger y abrir el archivo Default.app.
Cerrar una aplicación activa. Use el comando Cerrar de menú Aplicación. Se activa la aplicación por
defecto.
Las rutas definidas en la aplicación las usan los programas de IDAMS para prefijar el nombre de
cualquier archivo que no comience con “<unidad>:\...” o con “\...”.
9.4 Crear/actualizar/mostrar archivos Diccionario
85
La ruta de la carpeta Datos : en las proposiciones con ddnames DICT..., DATA..., o FTnn referido a
matrices.
La ruta de la carpeta Trabajo : en las proposiciones con ddnames PRINT o FT06.
La ruta de la carpeta Temporal : los nombres de archivos temporales.
Ejemplo:
Carpeta Datos:
c:\MyStudy\students\data
Especificación en el setup:
dictin=students2004.dic
Nombre completo del archivo diccionario: c:\MyStudy\students\data\students2004.dic
9.4.
Crear/actualizar/mostrar archivos Diccionario
La ventana Diccionario para crear, actualizar o mostrar un diccionario de IDAMS, se llama cuando:
usted crea un nuevo archivo Diccionario (el comando Nuevo/“IDAMS Dictionary file” (archivo Diccionario) de menú Archivo o el botón Nuevo de la barra de herramientas),
usted abre un archivo Diccionario (con la extensión .dic) mostrado en la ventana Aplicación (haga
doble clic en el nombre del archivo requerido de la lista de “Datasets”),
usted abre un archivo Diccionario (con cualquier extensión) que no está en la ventana Aplicación (el
comando Abrir/Diccionario de menú Archivo o el botón Abrir de la barra de herramientas).
Esta ventana suministra dos paneles: uno para la definición de variables (panel Variables) y otro para los
códigos y los nombres de códigos de la variable en cuestión (panel Códigos). Una lı́nea azul en la parte
superior del panel, indica el panel activo.
Los encabezamientos de columna en el panel Variables tiene el siguiente significado:
Número
Número de variable.
Nombre
Loc, Ancho
Nombre de variable.
Posición inicial y ancho del campo de la variable en el archivo Datos.
Dec
Número de cifras decimales; un blanco implica que no hay decimales.
86
Interfaz del Usuario
Tipo
Tipo de variable (N=numérica, A=alfabética).
Md1
Md2
Primer código de datos faltantes para variables numéricas.
Segundo código de datos faltantes para variables numéricas.
Refe
IdEs
Número de referencia.
Identificador del estudio.
Para mayor detalle, ver la sección “El diccionario IDAMS” en el capı́tulo “Los datos en IDAMS”. Nótese
que con la ventana Diccionario, sólo se pueden crear, actualizar, mostrar diccionarios de descripción de datos
que tengan un registro por caso.
Cambiar la apariencia de los paneles. La apariencia de cada panel se puede cambiar separadamente y
los cambios se aplican exclusivamente al panel activo.
En cada panel hay las siguientes posibilidades de modificación:
Aumentar el tamaño de la fuente - use el botón Aumentar de la barra de herramientas.
Disminuir el tamaño de la fuente - use el botón Reducir de la barra de herramientas.
Restaurar el tamaño de la fuente por defecto - use el botón 100 % de la barra de herramientas.
Aumentar/Disminuir el ancho de columna - coloque el cursor del ratón sobre la lı́nea que separa dos
columnas en el encabezado de columna hasta que le cursor se haya convertido en una barra horizontal
con dos flechas y muévalo a derecha/izquierda teniendo apretado el botón izquierdo del ratón.
El panel Variables puede modificarse aun más asi:
Aumentar/Disminuir el alto de filas - coloque el cursor del ratón sobre la lı́nea que separa dos filas en
el encabezado de fila hasta que el cursor se haya convertido en una barra horizontal con dos flechas y
muévalo arriba/abajo manteniendo apretado el botón izquierdo del ratón.
Definir una variable. Coloque el cursor en el panel Variables, llene el número de variable (por lo menos uno
es obligatorio, las siguientes variables se numerarán añadiendo el valor 1), nombre (opcional), localización
(si no se suministra, se asigna 1 a la primera variable y para las variables siguientes, se calcula la localización
sumando el ancho de la variable precedente) y ancho (obligatorio). Otros campos tienen valores por defecto
(que usted puede aceptar o modificar) o son opcionales y se pueden dejar en blanco. Oprima Intro o Tab para
aceptar un valor en un campo y moverse al siguiente, o Mayúsculas/Tab para moverse al campo anterior.
Nótese que mientras aparezca un lápiz pequeño en el encabezado de fila, ésta no se habrá guardado. Oprima
Intro para aceptar la definición completa de variables. Un asterisco en el encabezado de fila indica que ésta
es la fila siguiente y puede introducir una nueva definición de variable.
Definir los códigos y sus nombres para una variable. Cámbiese al panel Códigos y llene los campos
de códigos y nombres de códigos. Llene el valor del código, luego oprima Intro o Tab y llene el nombre del
código, luego Intro o Tab para aceptar la fila y moverse a la siguiente. Una vez que se hayan definido los
códigos y sus nombres, regrese al panel de Variables para la definición de una nueva variable.
Modificar un campo bien en panel Variables o panel Códigos. Haga clic en el campo e introduzca el nuevo
valor (al entrar el primer carácter del nuevo valor se borra el campo). Si se hace doble clic en el campo su
valor se puede modificar parcialmente. Se puede usar la tecla Esc para recuperar el valor previo.
Las operaciones de edición se pueden hacer en una fila o en un bloque de filas. Para marcar una fila,
haga clic en cualquier campo de la misma. Aparece un triángulo en el encabezado de fila y la fila se colorea
con azul oscuro. Para marcar un bloque de filas, coloque el cursor en el encabezado de fila en donde se desea
iniciar la marcación y haga clic sobre le botón izquierdo del ratón. La fila se vuelve amarilla, indicando que
está activa. Ahora mueva el cursor arriba o abajo hasta la fila en la que desea terminar la marcación y haga
clic en el botón izquierdo del ratón mientra oprime la tecla de mayúsculas. Las filas marcadas se colorean
con azul oscuro y el color amarillo marca la fila activa.
Puede Cortar, Copiar y Pegar filas marcadas usando los comandos de Edición, botones equivalentes de la
barra de herramientas o las teclas de acceso rápido Ctrl/X, Ctrl/C y Ctrl/V respectivamente.
Con el botón derecho del ratón usted puede Insertar antes, Insertar después, Suprimir o Borrar la fila activa
(aun cuando se haya marcado un bloque de filas).
9.5 Crear/actualizar/mostrar archivos Datos
87
Detectar errores en un diccionario. Utilize el comando Validez de menú Verificar. Están señalados
uno a uno y se pueden corregir una vez se hayan mostrado todos. Más aun la Interfaz trata de prevenir
que se guarden diccionarios con errores. También, cuando se abre un diccionario con errores, se advierte su
existencia antes de abrir el mismo.
9.5.
Crear/actualizar/mostrar archivos Datos
La ventana Datos se usa para crear, actualizar o mostrar un archivo Datos de IDAMS. Nótese que debe
haberse construido un diccionario de IDAMS que corresponda al archivo Datos y que con la ventana Datos
sólo se pueden crear, actualizar o mostrar archivos Datos con un registro por caso. Esta ventana se llama
cuando:
usted crea un nuevo archivo Datos (el comando Nuevo/“IDAMS Data file” (archivo Datos) de menú Archivo o el botón Nuevo de la barra de herramientas),
usted abre un archivo Datos (con la extensión .dat) mostrado en la ventana Aplicación (haga doble
clic en el nombre del archivo requerido de la lista de “Datasets”),
usted abre un archivo Datos (con cualquier extensión) que no está en la ventana Aplicación (el comando
Abrir/Datos de menú Archivo o el botón Abrir de la barra de herramientas).
La ventana se divide en tres paneles: uno muestra los códigos y sus nombres de la variable señalada (panel
Códigos), el segundo muestra la definición de las variables (panel Variables) y el tercero provee lugar para
introducción/modificación de datos (panel Datos). Sólo se puede editar el panel Datos. Los otros dos paneles
sólo muestran la información relevante. Una lı́nea azul en la parte superior de cada panel indica cual panel
está activa. Los paneles están sincronizados, es decir, la selección de un campo de variable en el panel Datos
hace resaltar su correspondiente descripción y la selección de un campo en el panel Variables muestra el
valor correspondiente a la variable en el caso señalado. Para la variable seleccionada, siempre se muestran
los códigos y sus nombres, si los hay.
Cambiar la apariencia de los paneles. La apariencia de cada panel se puede cambiar separadamente y
los cambios se aplican exclusivamente al panel activo.
En cada panel hay las siguientes posibilidades de modificación:
88
Interfaz del Usuario
Aumentar el tamaño de la fuente - use el comando Aumentar de menú Ver o el botón Aumentar de la
barra de herramientas.
Disminuir el tamaño de la fuente - use el comando Reducir de menú Ver o el botón Reducir de la barra
de herramientas.
Restaurar el tamaño de la fuente por defecto - use el comando 100 % de menú Ver o el botón 100 % de
la barra de herramientas.
Aumentar/Disminuir el ancho de columna - coloque el cursor del ratón sobre la lı́nea que separa dos
columnas en el encabezado de columna hasta que le cursor se haya convertido en una barra horizontal
con dos flechas y muévalo a derecha/izquierda teniendo apretado el botón izquierdo del ratón.
El panel Datos puede modificarse aun más ası́:
Aumentar/Disminuir el alto de filas - coloque el cursor del ratón sobre la lı́nea que separa dos filas en
el encabezado de fila hasta que el cursor se haya convertido en una barra horizontal con dos flechas y
muévalo arriba/abajo manteniendo apretado el botón izquierdo del ratón.
Colocar columna(s) al comienzo - marque la(s) columna(s) requerida(s) y use el comando Inmovilizar
columnas de menú Ver (use el comando Liberar de menú Ver para regresarlas).
Mostrar datos en un panel múltiple - use el comando Dividir de menú Ventana. Se suministra una
cruz para determinar el tamaño de los cuatro paneles. El tamaño se puede cambiar después usando
la técnica estandar de Windows. Se muestran todos los datos cuatro veces. La división horizontal se
puede quitar haciendo doble clic en la lı́nea horizontal, la división vertical se puede quitar haciendo
doble clic en la lı́nea vertical y toda la división se puede quitar haciendo doble clic en el centro de la
división.
Introducir un nuevo caso. Haga clic en el primer campo de una fila vacı́a y comience a teclear los datos.
Oprima Intro o Tab para aceptar un dato para la variable y muévase a la variable siguiente, o Mayúsculas/Tab
para moverse a la variable anterior. Nótese que mientras aparezca un pequeño lápiz en el encabezado de fila,
el caso no se guarda. Oprimir Intro en la última variable guarda el caso y mueve el cursor al comienzo de
la fila siguiente. Se puede insertar una fila nueva antes o después de la fila resaltada (haga clic en el botón
derecho del ratón), o puede adicionarse la final del archivo (fila con un asterisco en el encabezado de fila).
La entrada de datos se puede facilitar tomando ventaja de dos opciones dadas en el menú Opciones:
Verifica códigos verifica valores de datos durante la entrada de los mismos contra códigos definidos en el
diccionario, los solos dados por válidos.
Salto automático mueve el cursor automáticamente al siguiente campo cuando haya un número suficiente
de dı́gitos para llenar el campo. Si no se selecciona, debe oprimir Intro o Tab para moverse al campo
siguiente.
Modificar el valor de una variable. Haga clic en el campo de la variable y entre el nuevo valor (la entrada
del primer carácter del nuevo valor, borra el campo). Se puede usar doble clic en el campo de una variable
para modificar parte del valor. Se puede usar la tecla Esc para recuperar el valor previo.
Copiar el valor de una variable a otro campo. Haga clic en el campo de la variable y copie su contenido
al portapapeles (el comando Copiar de menú Edición, Ctrl/C o Copiar de la barra de herramientas). Después,
haga clic en otro campo y peque el valor (el comando Pegar de menú Edición, Ctrl/V o Pegar de la barra
de herramientas). El comando Deshacer caso de menú Edición se puede usar para recuperar el valor previo.
Las operaciones de edición se pueden hacer sobre una fila o un bloque de filas de la misma manera que
en la ventana del Diccionario. Para marcar una fila, haga clic en cualquier campo de esta fila. Aparece un
triángulo en el encabezado de la fila y la fila se colorea en azul oscuro. Para marcar un bloque de filas, colque
le cursor en el encabezado de la fila en donde quiere comenzar a marcar y haga clic en el botón izquierdo del
ratón para encenderlo. La fila se torna amarilla, para indicar que está activa. Mueva ahora el cursor hacia
arriba o hacia abajo hasta la fila en la cual desea terminar la marcación y haga clic en el botón izquierdo
del ratón mientras oprime la tecla de mayúsculas. Las filas marcadas se colorean con azul oscuro y el color
amarillo muestra la fila que está activa.
9.6 Importación de archivos de datos
89
Las filas marcadas se pueden cortar, copiar o pegar con los comandos bajo Edición, con los botones equivalentes de la barra de herramientas o con las teclas de acceso rápido Ctrl/X, Ctrl/C y Ctrl/V respectivamente.
Con el botón derecho del ratón se puede Insertar antes, Insertar después, Suprimir o Borrar la fila activa
(aun si está marcado un bloque de filas).
Dos comandos para manejo de datos en el menú Gestión de datos permiten verificación de los datos
después de la entrada de los mismos o bién de los datos venidos del exterior, y clasificación de los datos:
Verificar códigos verifica valores de datos de todos los casos en el archivo Datos contra los códigos definidos
en el diccionario, los solos dados por válidos. Al final de la verificación, aparece un mensaje que muestra
el número de errores encontrados y se ofrece la posibilidad de corregirlos uno a uno con el cuadro de
diálogo para corrección de datos. Este cuadro suministra el número secuencial de caso, número y
nombre de variable, valor de código inválido, y una lista de códigos válidos como están definidos en el
diccionario.
Clasificar llama al cuadro de diálogo de la clasificación para especificar hasta tres variables de clasificación
y su correspondiente orden de clasificación de cada una de ellas. Después de hacer clic en OK, aparece
el archivo clasificado en el panel Datos.
También se pueden clasificar los datos sobre una variable (una columna) con doble clic en el número de
la variable del encabezado del panel de datos. Un doble clic clasifica los casos en orden ascendente. Para
obtener la clasificación en orden descendiente, repita el doble clic.
Se proponen dos tipos de gráfico para una variable en el menú Gráficos.
Gráfico de barras suministra un gráfico de barras basado en frecuencias o porcentajes de las categorı́as de
una variable cualitativa. Para variables cuantitativas, el usuario define el número de barras (NB) en dos lados
de la media (M) y un coeficiente (C) para calcular el ancho de las barras (clases). El ancho de las barras
(BW) es igual al valor de la desviación estándar (STD) multiplicado para el coeficiente (BW=C*STD).
Las barras se construyen usando los valores M-NB*BW, ..., M-2BW, M-BW, M, M+BW, M+2BW, ...,
M+NB*BW. El alto de un ectángulo= (frecuencia relativa de la clase)/(ancho de la clase). Además, para
variables cuantitativas se puede obtener una curva de la distribución normal con la media y desviación
estándar calculadas.
Histograma, orientado a variables cuantitativas, suministra un histograma basado en frecuencias o porcentajes con el número de barras especificado por el usuario.
Los gráficos para variables cuantitativas contienen también estadı́sticas univariadas para la variable trazada
tales como: media, desviación estándar, variancia, asimetrı́a y kurtosis. Las variables con puntos decimales se
multiplican por un factor de escala para obtener valores enteros. En este caso, se debe ajustar en consecuencia
los valores de la media, de la desviación estándar y de la variancia.
9.6.
Importación de archivos de datos
WinIDAMS suministra una herramienta para importar archivos de datos directamente a IDAMS a través
de la Interfaz del Usuario. Se puede acceder a esta herramienta en la ventana principal de WinIDAMS, en
la ventana Datos y en la ventana Tablas multidimensionales.
Se pueden importar tres tipos de archivos de formato libre:
archivos .txt delimitados con Tab,
archivos .csv separados con punto y coma,
archivos .csv separados con coma.
La información dada en la primera fila se considera como etiquetas de columnas y se usa como nombres de
variables durante el proceso de construcción del diccionario. Entonces, la presencia de etiquetas de columnas
es obligatoria en la primera fila de los archivos de entrada.
90
Interfaz del Usuario
Además, el carácter usado para separar campos se detecta en la primera fila y el carácter usado en la notación
decimal se detecta en la secunda fila del archivo. Entonces, si una variable tiene valores decimale, la presencia
de estos valores es obligatoria en la secunda fila del archivo.
Durante el proceso de importación, el contenido de las variables alfabéticas importadas se puede cambiar a
códigos numéricos, manteniendo los valores alfabéticos como nombres de códigos en el diccionario de IDAMS
creado. Comas usadas como separador decimal para variables numéricas se convierten en puntos.
La operación de importación de datos se activa con el comando Importar de menú Archivo, seguido
de la selección del archivo requerido en el cuadro de diálogo estándar Abrir de archivos. Se muestran juntos
con los valores de todos los campos para los tres primeros casos. Entonces, se puede verificar la lectura de
los datos antes de proceder a la importación. Después aparecen dos ventanas llamadas Datos externos y
Definición de variables, ambas son ventanas de tipo hoja de cálculo.
La ventana de Datos externos sólo muestra el contenido del archivo a importar. No se permiten operaciones de edición con excepción de copiar una selección al portapapeles.
La ventana de Definición de variables sirve para preparar descripción de variables de IDAMS. Su
contenido inicial viene dado por defecto y sobre la base de los datos importados, pero hay libertad de
cambiarlo y completarlo si es necesario.
Las columnas tienen la siguiente información:
Descripción
Nombre de variable
Tipo
AnchMáx
Tipo de variable (numérica por defecto). Es el tipo de variable de entrada.
Si una variable de entrada es alfabética y debe salir como numérica, solicite
recodificación (ver más adelante).
Ancho máximo de la variable.
NDec
Md1
Número de cifras decimales; blanco implica que no hay cifras decimales.
Primer código de datos faltantes para variables numéricas.
Md2
Recodificación
Segundo código de datos faltantes para variables numéricas.
Solicitud para recodificar una variable alfabética a valores numéricos.
Para modificar la definición de variables, coloque el cursor dentro de la ventana y despés use las teclas de
navegación o el ratón para moverse al campo requerido y cambiar su contenido.
Use el comando Dataset de menú Construir para crear el archivo Diccionario de IDAMS y el archivo Datos.
Ambos estarán en la carpeta Datos de la aplicación activa.
9.7.
Exportación de archivos Datos de IDAMS
WinIDAMS tiene también una herramienta para exportar datos directamente a través de la Interfaz del
Usuario. Esto se puede hacer desde la ventana Datos con el comando Exportar de menú Archivo. El archivo
Datos de IDAMS que aparece en la ventana en que se está trabajando, se puede guardar en uno de los tres
tipos de archivos de formato libre:
archivos .txt delimitados por Tab,
archivos .csv separados con punto y coma.
archivos .csv separados con coma.
En la primera fila de los datos exportados, los nombres de variables del diccionario correspondiente, aparecen
como nombres de columnas.
Si existen nombres de códigos para una variable, los valores numéricos de códigos se pueden sustituir opcionalmente por sus correspondientes nombres en el archivo de datos en salida. Además, las variables numéricas
pueden salir con coma usada como separador decimal.
9.8 Crear/actualizar/mostrar archivos Setup
9.8.
91
Crear/actualizar/mostrar archivos Setup
La ventana Setup para preparar o mostrar un archivo Setup de IDAMS se llama cuando:
usted crea un nuevo archivo Setup (el comando Nuevo/“IDAMS Setup file” (archivo Setup) de menú Archivo o el botón Nuevo de la barra de herramientas),
usted abre un archivo Setup (con extensión .set) mostrado en la ventana Aplicación (haga doble clic
en el nombre del archivo requerido en la lista de “Setups”),
usted abre un archivo Setup (con cualquier extensión) que no esté en la ventana Aplicación (el comando
Abrir/Setup de menú Archivo o el botón Abrir de la barra de herramientas.
La ventana suministra dos paneles: el de arriba es para preparar el archivo mismo de setup (panel Setup) y
el de abajo para mostrar los mensajes de error cuando se verifican proposiciones de filtro y Recode (panel
Mensajes). Sólo se puede editar el panel Setup. Nótese que se muestran los comandos de IDAMS en negrilla
y los nombres de programas en rosado si se han escrito correctamente. Los textos colocados en un comando
$comment se muestran en verde.
Para preparar un nuevo setup usted puede teclear todas las proposiciones o puede usar el prototipo de
setup del programa requerido y modificarlo según sea necesario. Se suministran prototipos de setup para
todos los programas. Se puede acceder a ellos seleccionando el nombre del programa en la lista bajo el botón
Prototipos de la barra de herramientas. Para copiar el prototipo al panel Setup, haga clic en el nombre del
programa requerido. Para los detalles acerca de cómo preparar archivos Setup, vea el capı́tulo “El archivo
Setup de IDAMS” y la descripción del programa correspondiente.
Se pueden hacer operaciones de edición igual que con cualquier editor de textos ASCII, es decir, usted
puede Cortar, Copiar, y Pegar cualquier selección usando los comandos de Edición, los botones equivalentes
de la barra de herramientas o las teclas de acceso rápido Ctrl/X, Ctrl/C y Ctrl/V respectivamente.
Dos comandos de verificación de setup en el menú Verificar permiten la verificación de conjuntos de
proposiciones de filtro y de Recode.
Sintaxis de Recode activa la verificación de la sintaxis en las proposiciones de Recode incluidas en el
setup. Todos los errores que se encuentren se reportan en el panel Mensajes con el número del conjunto
de Recode, la lı́nea con error y el carácter o caracteres que causan el problema de sintaxis. Haciendo
doble clic sobre la lı́nea errónea o en el mensaje de error en el panel Mensajes muestra esta lı́nea en
92
Interfaz del Usuario
el panel Setup con una flecha amarilla. Puede corregir los errores y repetir la verificación de sintaxis,
antes de pasar a la ejecución del setup.
Sintaxis de filtros activa la verificación de la sintaxis en las proposiciones de filtro incluidas en el setup.
Todos los errores que se encuentren se reportan en el panel Mensajes con el número de la proposición de
filtro, la lı́nea de la proposición y el carácter o caracteres que causan el problema de sintaxis. Haciendo
doble clic sobre la lı́nea errónea o en el mensaje de error en el panel Mensajes muestra esta lı́nea en el
panel Setup con una flecha amarilla.
Nótese que aunque la mayorı́a de los errores de sintaxis en las proposiciones de filtro y de Recode se pueden
detectar y corregir aquı́, IDAMS lleva a cabo otra verificación sistemática de sintaxis durante la ejecución
del setup. También se reportan en los resultados, los errores de ejecución que no se pueden detectar aquı́.
9.9.
Ejecución de los setups de IDAMS
Para ejecutar los programas de IDAMS (para los que se han preparado instrucciones y se han guardado en
un archivo Setup), use el comando Seleccionar setup de menú Ejecutar en cualquier ventana de documento
de WinIDAMS. En el cuadro de diálogo estándar de Windows, se pide escoger el archivo del cual se deben
tomar las instrucciones para la ejecución.
Si usted está preparando sus instrucciones en la ventana Setup, puede ejecutar los programas del setup activo
usando el comando Setup actual de menú Ejecutar.
El programa o los programas se ejecutarán y los resultados se escribirán en el archivo especificado para PRINT
bajo $FILES (por defecto IDAMS.LST en la carpeta Trabajo que esté activa). Al final de la ejecución, se
abrirá el archivo de resultados en la ventana Resultados.
9.10.
Manejo de los archivos Resultados
La ventana Resultados para acceder, mostrar e imprimir partes seleccionadas de resultados se llama
cuando:
usted abre un archivo Resultados (con extensión .lst) mostrado en la ventana Aplicación (haga doble
clic en el nombre del archivo requerido en la lista de “Results”),
usted abre un archivo Resultados (con cualquier extensión) que no está en la ventana Aplicación (el
comando Abrir/Resultados de menú Archivo o el botón Abrir de la barra de herramientas),
usted ejecuta el setup de IDAMS; se muestra automáticamente el contenido del archivo Resultados.
La tabla de contenido del archivo Resultados, facilita una navegación rápida por los resultados. Puede
acceder al comienzo del resultado de un programa en particular o aun, a una sección en particular. Es más,
el menú Edición suministra acceso a una facilidad de búsqueda.
9.10 Manejo de los archivos Resultados
93
La ventana está dividida en tres paneles: uno muestra la tabla de contenido de resultados (TDC) como una
estructura de árbol, el segundo muestra el contenido de resultados y el tercero muestra mensajes de errores
y de advertencias incluidos en los resultados.
Por defecto, se retiene la división en las páginas del contenido de resultados hecha por los programas (la
opción Modo de página en el menú Ver ésta activa). Para hacer más compacto el contenido de resultados,
desactive esta opción. Las lı́neas en blanco al final de las páginas se retiran de todas las páginas y los saltos
de página insertados por los programas se reemplazan con la lı́nea de texto “Page break”.
Para abrir/cerrar rápidamente el árbol TDC se dispone de tres botones en el teclado numérico:
*
+
abre todos los niveles del árbol bajo el nodo seleccionado
cierra todos los niveles del árbol bajo el nodo seleccionado
abre un nivel bajo el nodo seleccionado.
Para ver una sección en particular, haga doble clic sobre su tı́tulo en el árbol TDC.
Para localizar un mensaje de error o de advertencia, haga doble clic sobre el texto del mismo.
No se permite modificación del contenido de resultados. Sin embargo, partes seleccionadas (resaltadas o
marcadas en cuadros de selección en el árbol TDC) o todos los resultados, se pueden copiar al portapapeles
(el comando Copiar de menú Edición, Ctrl/C o botón de Copiar en la barra de herramientas) y pegadas a
cualquier documento con las técnicas estándar de Windows.
Se puede imprimir todo el contenido o páginas seleccionadas de un archivo Resultados con el comando
Imprimir de menú Archivo o con el botón Imprimir de la barra de herramientas. Nótese que la impresión se
hace con orientación horizontal y esta orientación no se puede cambiar.
El contenido del archivo Resultados tal como se muestra, se puede guardar en formato RTF o en formato
de texto con el comando Guardar como de menú Archivo. Las lı́neas en blanco al final se eliminan siempre.
Los saltos de página se manejan de acuerdo con la opción Modo de página.
94
Interfaz del Usuario
9.11.
Creación/actualización de archivos en formato de texto y
RTF
WinIDAMS tiene un Editor General que le permite abrir y modificar cualquier tipo de documento en formato
de caracteres. Sin embargo, su función básica es suministrar una facilidad para editar archivos Texto y ofrecer
aspectos sofisticados de formato y edición. Se debe evitar la manipulación de archivos Diccionario, Datos o
Setup y la manipulación de archivos Matriz debe hacerse cuidadosamente.
La ventana Texto se llama cuando:
usted crea un nuevo archivo Texto (el comando Nuevo/“Text file” (archivo Texto) o “RTF file” (archivo
RTF) de menú Archivo, o el botón Nuevo de la barra de herramientas),
usted abre un archivo Matriz (con extensión .mat) mostrado en la ventana Aplicación (haga doble clic
en el nombre del archivo requerido en la lista de “Matrices”),
usted abre cualquier archivo de caracteres que no esté en la ventana Aplicación (el comando Abrir/Con
el Editor General de menú Archivo o el botón Abrir de la barra de herramientas).
El Editor General suministra un número de comandos estándar de edición que son conocidos por los usuarios
de Windows. Se escriben a continuación pero no se describen en detalle.
Insertar suministra comandos para insertar salto de página y de sección, pintura, objeto OLE (vinculación
e incrustación de objetos), marco y objeto de dibujo.
Los comandos de la Fuente le permiten cambiar la fuente y el color del texto seleccionado y el color del
fondo.
Los comados del Párrafo le permiten alinear párrafos diferentemente, sangrı́arlos, mostrarlos en doble
espacio, dibujar un borde alrededor y sombrear el fondo.
Tabla permite el acceso a un número de comandos para insertar y manipular tablas.
Ver contiene tres comandos adicionales para mostrar el documento activo en modo de página, mostrar la
regla y el marcador de parágrafo.
La barra de herramientas de formato le permite escoger rápidamente los comandos de formato usados
con más frecuencia.
Parte III
Facilidades para el manejo de datos
Capı́tulo 10
Agrupación de datos (AGGREG)
10.1.
Descripción general
AGGREG reune registros individuales (casos) en grupos definidos por el usuario y calcula las estadı́sticas
descriptivas de resumen para variables especificadas en cada grupo. Las estadı́sticas incluyen sumas, medias,
variancias, desviaciones estándar, ası́ como valores máximos y mı́nimos y el conteo de datos no faltantes. Se
crea un dataset IDAMS como salida, es decir, el archivo de datos agrupado (agregado) y descrito por un
diccionario IDAMS; el archivo de datos agrupados, contiene un registro (caso) por grupo con variables que
son el resumen a nivel de grupo de cada una de las variables de entrada seleccionadas.
En el capı́tulo “Tablas univariadas y bivariadas” de la parte “Fórmulas estadı́sticas y referencias bibliográficas” se pueden encontrar fórmulas para calular media, variancia y desviación estándar. Sin embargo, deben
ajustarse ya que los casos no están ponderados y el coeficiente N/(N-1) no se usa en el cálculo de la variancia
y desviación estándar de la muestra. Nótese que las estadı́sticas se seleccionan para el conjunto total de
variables agrupadas. De esta manera, si hay 2 variables agrupadas y tres estadı́sticas seleccionadas, entonces
habrá 6 variables calculadas.
AGGREG le permite al usuario cambiar el nivel de agrupación de datos, por ejemplo, de miembros de una
familia a nivel de hogares o de distrito a nivel regional, etc. Por ejemplo, supongamos que un archivo de
datos contiene registros de cada individuo de un hogar y queremos analizar estos datos a nivel de hogares.
AGGREG nos permite agrupar valores de las variables de registros individuales de cada hogar para crear
un archivo de registros a nivel de hogares para análisis posteriores. Para ser más especı́ficos, si el archivo
de datos a nivel de individuos tiene una variable que nos da el ingreso personal, AGGREG podrı́a crear
registros a nivel de hogares con una variable que describa el ingreso total por hogar.
Agrupamiento de datos. El usuario especifica hasta 20 variables de definición de grupos (variables de
identificación) que determinan el nivel de agrupamiento del archivo de salida. Por ejemplo, si se quieren
agrupar datos a nivel de miembros de una familia a nivel de hogares, entonces una variable que identifique
el hogar serı́a la variable de definición de grupo. Cada vez que AGGREG lee un registro de entrada, busca
cambios en cualquiera de las variables de identificación. Cuando se encuentra un cambio, se produce un
registro de salida que contiene estadı́sticas de resumen, calculadas con las variables agrupadas especificadas
para el grupo de registros que se acaban de procesar.
Inserción de constantes dentro de los registros de grupo. Se pueden insertar constantes dentro de
cada registro de grupo con los parámetros PAD1, ... , PAD5, los cuales especifican las llamadas variables
pad. El valor de una variable pad es una constante.
Transferencia de variables. Se pueden transferir variables a los registros de salida. Nótese que solamente
los valores del primer caso dentro del grupo son transferidos.
98
10.2.
Agrupación de datos (AGGREG)
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. El filtro estándar está disponible para escoger un subconjunto de casos a
partir de los datos de entrada. Con los parámetros, se especifican las variables de identificación que definen
los grupos y las variables a ser agrupadas. Las variables de identificación se incluyen automáticamente en el
dataset de salida.
Transformación de datos. Se pueden usar las proposiciones de Recode.
Tratamiento de datos faltantes. El valor de cada variable agrupada se compara con ambos códigos de
datos faltantes y si se detecta que se trata de un valor faltante, se excluye automáticamente de los cálculos.
Un porcentaje suministrado por el usuario, el “punto de corte” (ver el parámetro CUTOFF), determina el
número de datos faltantes permitido antes de producir el valor de resumen como un código de datos faltantes.
Por ejemplo, supongamos que se quiere calcular la media de una variable agrupada dentro de un grupo y
éste contiene 12 registros, 6 de los cuales tienen datos faltantes, es decir, el 50 %. Si el valor de CUTOFF es
75 %, se calcula la media de los 6 datos no faltantes y ésta es la salida para el grupo. Si el valor de CUTOFF
es de 25 %, entonces no se calcula la media y se produce como salida el primer código de datos faltantes.
10.3.
Resultados
Resumen de datos faltantes. (Opcional: ver el parámetro PRINT). Para cada variable en cada grupo, se
imprime: el número de la variable de entrada, el número de la variable de salida, el número de registros con
datos no faltantes y el porcentaje de registros con datos faltantes.
Resumen de grupos. (Opcional: ver el parámetro PRINT). El número de registros de entrada para cada
grupo.
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C si los hay, sólo para las variables usadas en la ejecución.
Diccionario de salida. (Opcional: ver el parámetro PRINT).
Estadı́sticas generadas. (Opcional: ver el parámetro PRINT). Se pueden imprimir todas las variables
calculadas para cada registro agrupado. También se dan el número de variable de la correspondiente variable
agrupada y las variables de identificación.
10.4.
Dataset de salida
El dataset de los datos agrupados en la salida es un archivo Datos descrito por un diccionario IDAMS.
Cada registro contiene valores de las variables de identificación, de las variables calculadas, de las variables
transferidas y de las constantes pad; se produce un registro para cada grupo.
Orden y numeración de variables. Las variables de salida se encuentran en el mismo orden relativo de
las variables de entrada a partir de las cuales fueron derivadas, sin importar si la variable de entrada se
usó como variable de identificación, variable a ser agrupada o variable a ser transferida. De esta manera, si
se utiliza la primera variable de entrada, la variable o variables que se deriven de ella, serán la primera o
primeras variables de salida. Cada variable de entrada que se use como variable de identificación o variable
a ser transferida, corresponde a una variable de salida; cada variable agrupada corresponde a 1-7 variables
de salida, según el número de estadı́sticas de resumen solicitadas (estas variables salen en el orden relativo:
suma, media, variancia, desviación estándar, conteo, mı́nimo, máximo). Las variables de salida son siempre
renumeradas, a partir del número suministrado en el parámetro VSTART. Las constantes pad siempre van
al final.
Nombres de variable. Las variables de salida tienen los mismos nombres de las variables de entrada de
las cuales se derivaron, con la excepción de que para las variables agrupadas se codifican los caracteres 23 y
24 del campo del nombre:
10.5 Dataset de entrada
S
M
V
D
CT
MN
MX
=
=
=
=
=
=
=
99
suma
media
variancia
desviación estándar
conteo
mı́nimo
máximo.
Las constantes pad, tienen los nombres de variable “Pad variable 1”, “Pad variable 2”, etc.
Tipo de variable. Las variables de identificación y las variables transferidas salen con el mismo tipo de
variable que la de entrada. Las variables calculadas son siempre numéricas.
Ancho de campo y número de decimales. El ancho de campo de las variables agrupadas de salida
depende de las estadı́sticas, el ancho de campo de entrada (FW), el número de cifras decimales de entrada
(ND) y las cifras decimales extra, solicitadas por el usuario en el parámetro DEC. Los anchos de campo y el
número de cifras decimales, se asignan de la manera mostrada a continuación, donde FW=ancho del campo
de entrada y ND=número de cifras decimales de entrada para las variables de entrada, y FW=6 y ND=0
para las variables que vienen de Recode.
Estadı́stica
Ancho de campo
Cifras decimales
SUMA
MEDIA
VARIANCIA
DESVIACION ESTÁNDAR
MÍNIMO
MÁXIMO
COUNTEO
FW
FW
FW
FW
FW
FW
4
ND
ND + DEC ***
ND + DEC ***
ND + DEC ***
ND
ND
0
*
**
***
+
+
+
+
3*
DEC **
DEC **
DEC **
Si el ancho de campo pasa de 9, se reduce a 9.
Si el ancho de campo pasa de 9, entonces el número de decimales extra se reduce igualmente.
Si el número de decimales pasa de 9, entonces DEC se reduce de la misma manera.
Códigos de datos faltantes. Los códigos de datos faltantes para las variables de identificación y para las
variables transferidas se toman del diccionario de entrada. El segundo código de datos faltantes (MD2) es
siempre blancos para variables calculadas. El valor del primer código de datos faltantes (MD1) se asigna de
la siguiente manera:
Variable de salida
FW de salida <= 7
FW de salida > 7
variable CONTEO
MD1 de salida
9’s
-999999
9999
Números de referencia. Las variables calculadas reciben un número de referencia igual al de su variable
de base.
Registros C. Los registros C del diccionario de entrada se transfieren al diccionario de salida para las
variables de identificación y para las variables transferidas.
Nota acerca del cálculo de las estadı́sticas. Antes de producir la salida, los valores calculados se
redondean al ancho de campo y al número de cifras decimales calculadas. Si el valor calculado excede a
999999999 o es inferior a -99999999, entonces sale como 999999999.
10.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Las variables de definición de grupo
(identificadoras) y las variables a ser transferidas pueden ser numéricas o alfabéticas, aunque las variables
numéricas se tratan como cadenas de caracteres, es decir, un valor de ’044’ es diferente de ’ 44’. No pueden
ser variables recodificadas. Las variables a ser agrupadas deben ser numéricas y pueden ser variables recodificadas.
100
Agrupación de datos (AGGREG)
El archivo se procesa secuencialmente y se reunen los registros contiguos que tengan el mismo valor para
las variables identificadoras. De esta manera, el archivo de entrada debe clasificarse con las variables identificadoras como llave de clasificación antes de usar AGGREG. Notar que AGGREG no verifica el orden de
clasificación de los registros del archivo de entrada.
10.6.
Estructura del setup
$RUN AGGREG
$FILES
Epecificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. Tı́tulo
3. Parámetros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
10.7.
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de salida
datos de salida
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE V1=10,20,30,50 OR V10=90-300
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
REUNION DE DATOS PROFESOR/ESTUDIANTE
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
IDVARS=(V1,V2) STATS=(SUM,VARI) DEC=3 AGGV=(V5-V10,V50-V75) PAD1=80
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
10.7 Proposiciones de control del programa
101
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
IDVARS=(lista de variables)
Hasta 20 números de variable para definir los grupos. No se permiten variables R.
Sin valor por defecto.
AGGV=(lista de variables)
Variables V o R para ser agrupadas.
Sin valor por defecto.
STATS=(SUM, MEAN, VARIANCE, SD, COUNT, MIN, MAX)
Parámetros para escoger las estadı́sticas solicitadas (se debe seleccionar al menos una de: SUM,
MEAN, VARIANCE, SD). Salen para cada grupo y para cada variable AGGV.
SUM
La suma.
MEAN
La media.
VARI
La variancia.
SD
La desviación estándar.
COUN
El número de casos válidos.
MIN
El valor mı́nimo.
MAX
El valor máximo.
SAMPLE/POPULATION
SAMP
Calcular la variancia y/o la desviación estándar con la ecuación de muestra.
POPU
Usar la ecuación de población.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
VSTART=1/n
Número de variable para la primera variable en el dataset de salida.
CUTOFF=100/n
Porcentaje de casos con códigos MD permitidos antes de producir la salida de un código MD. Un
valor entero.
DEC=2/n
Para las variables calculadas que involucren media, variancia o desviación estándar: número de
cifras decimales adicionales a aquellas de las correspondientes variables de entrada (ver restricción
7).
TRANSVARS=(lista de variables)
Las variables cuyos valores, tal como aparezcan en el primer caso de cada grupo, se van a
transferir al archivo de salida. No se permiten variables R.
PAD1=constante
PAD2=constante
PAD3=constante
PAD4=constante
PAD5=constante
Se pueden añadir hasta 5 constantes al dataset de salida. El número de caracteres dado, determina
el ancho del campo de la constante PAD.
102
Agrupación de datos (AGGREG)
PRINT=(MDTABLES, GROUPS, DATA, CDICT/DICT, OUTDICT/OUTCDICT/NOOUTDICT)
MDTA
Imprimir una tabla que suministre el porcentaje de datos faltantes encontrado para
cada variable agrupada en cada grupo.
GROU
Imprimir el número de casos por grupo.
DATA
Imprimir los valores de cada variable calculada en cada registro de grupo.
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
NOOU
No imprimir el diccionario de salida.
10.8.
Restricciones
1. Máximo número de variables a ser agrupadas es 400.
2. Máximo número de variables de identificación es 20.
3. Máximo número de caracteres en las variables de identificación es 180.
4. Máximo número de variables a ser transferidas es 100.
5. No se permiten variables recodificadas como IDVARS o TRANSVARS.
6. La misma variable no pueden aparecer en dos listas de variables.
10.9.
Ejemplo
Producir un dataset de salida que contenga un caso agrupado para cada valor único de V5 y V7; las variables
en cada caso van a ser la suma, la media y la desviación estándar de 4 variables de entrada y 1 variable
recodificada, agrupadas en los casos que forman el grupo (es decir, con los mismos valores de V5 y V7);
los valores de V10 y de V11 para el primer caso de cada grupo van a transferirse a los registros de salida;
se requiere un listado de los valores producidos para cada caso; en el archivo de salida, las variables se
numerarán a partir del número 1001.
$RUN AGGREG
$FILES
PRINT
= AGGR.LST
DICTIN = IND.DIC
archivo Diccionario de entrada
DATAIN = IND.DAT
archivo Datos de entrada
DICTOUT = AGGR.DIC
archivo Diccionario de salida
DATAOUT = AGGR.DAT
archivo Datos de salida
$RECODE
R100=COUNT(1,V20-V29)
NAME R100’INDICE DE SALUD’
$SETUP
REUNION DE 4 VARIABLES DE ENTRADA Y UNA VARIABLE RECODIFICADA
IDVARS=(V5,V7) AGGV=(V31,V41-V43,R100) STATS=(SUM, MEAN, SD)
VSTART=1001 PRINT=DATA TRANS=(V10,V11)
-
Capı́tulo 11
Construcción de un dataset IDAMS
(BUILD)
11.1.
Descripción general
BUILD toma un archivo de datos “primarios”, que puede contener varios registros por caso, junto con un
diccionario que describe las variables requeridas y crea un archivo Datos nuevo con un solo registro por caso
que contiene valores solamente para las variables especificadas. Al mismo tiempo, produce un diccionario
IDAMS de salida que describe el archivo Datos con nuevo formato, en otras palabras se crea un dataset
IDAMS.
Además de la reconstrucción de los datos, BUILD también verifica valores no numéricos en variables numéricas.
¿Por que usar BUILD? Cualquier programa IDAMS se puede usar sin tener que utilizar BUILD, al preparar
por separado un diccionario IDAMS. Sin embargo, se recomienda usar BUILD como un paso preliminar ya
que:
- verifica la correcta preparación del diccionario,
- asegura que haya una correspondencia exacta entre el diccionario y los datos,
- asegura que no haya caracteres no numéricos inesperados en los datos,
- reduce los datos a la forma de un solo registro compacto por caso,
- recodifica los espacios en blanco con valores especificados por el usuario.
Procesamiento de las variables numéricas. Cuando BUILD procesa un campo como si tuviera una
variable numérica, verifica que el campo contenga un número reconocible o contenga solamente blancos.
Si se presenta un valor diferente de los anteriores, por ej. “3J”, “3-”, “++2”, etc. se imprime la posición
secuencial del caso, el número de variable asociado con el campo y el caso de entrada y se usa una cadena
de nueves como el valor de salida.
Las reglas de procesamiento son las siguientes:
Si un campo contiene un número reconocible, el número se edita a una forma estándar antes de enviarlo
a la salida (ver el capı́tulo “Los datos en IDAMS” para una descripción más detallada).
Si un campo contiene sólo blancos, BUILD recodificará el valor asignándole el primero o segundo
códigos de datos faltantes, nueves o ceros en el campo de salida o, si no se especificó recodificación,
indicará un error y el campo de salida estará en blanco. La columna 64 de los registros T se puede usar
para especificar la recodificación correspondiente a la variable (ver la sección “Diccionario de entrada”).
Si un campo contiene los blancos a la derecha, por ej. “04 ” en un campo numérico de tres dı́gitos o
los blancos entre digitos, por ej. “0 4”, se reportará como un error y el valor se llenará con dı́gitos 9.
Si un campo contiene un valor positivo o negativo con el carácter “+” o “-” mal colocado, por ej.
“1-23”, se reportará como un error y el valor se llenará con dı́gitos 9.
104
Construcción de un dataset IDAMS (BUILD)
Si un código de datos faltantes para una variable tiene un dı́gito más que el campo de entrada, el
campo de salida será un dı́gito mayor que el campo de entrada. Se puede usar cuando es necesario
aumentar el ancho del campo de salida sin cambiar el ancho del campo de entrada; por ejemplo, si se
han definido los códigos 0-9 y blanco para una variable que ocupa una sola columna, el campo blanco
no se podrı́a recodificar con un valor numérico único sin disponer de un código de salida de 2 dı́gitos.
Tabla que muestra ejemplos de ediciones hechas con BUILD
y el contenido del campo de salida
para un campo de entrada numérico de 3 dı́gitos
____________________________________________________________________________________
Valor
Nr. MD1
de
dec.
entrada
______ ___ ____
032
32
3 2
32
-03
-3
- 3
3.2
32
.32
3.2
.32
.35
-.3
-.3
-03
A32
3-2
11.2.
0
0
0
0
0
0
0
0
1
1
1
2
1
0
1
1
-
9999
8888
Recodif.
especif.
________
1
0
Ninguna
-
Valor
de
salida
______
0032
032
999
999
-03
-03
-03
003
032
003
032
032
004
-00
-03
-03
8888
000
999
999
Ancho del
campo de
salida
________
4
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
4
3
3
3
3
Mensaje de error
_______________
blancos intercalados en var...
blancos intercalados en var...
(sólo si PRINT=RECO)
(sólo si PRINT=RECO)
blancos en var ...
caracteres malos en var...
caracteres malos en var...
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Este programa no tiene provisión para la selección de casos a partir del
archivo de datos de entrada. El filtro estándar no está disponible. Por medio de la descripción de variables,
se puede seleccionar para los datos de salida cualquier subconjunto de los campos dentro de un caso.
Transformación de datos. Las proposiciones de Recode no se pueden usar.
Tratamiento de datos faltantes. BUILD no hace distinción entre datos verdaderos y valores de datos
faltantes. Sin embargo, los campos en blanco se pueden recodificar a códigos de datos faltantes, ceros o
nueves.
11.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). La columna “Brule” del listado del diccionario contiene reglas para la recodificación de campos en blanco, tal como se especifica en la columna 64
del diccionario de entrada. Tener en cuenta que los posibles mensajes de error producidos para las descripciones de las variables, están mezclados con el listado del diccionario y no contienen un número de variable.
Si no se imprime el diccionario de entrada, puede ser muy difı́cil la identificación de errores.
11.4 Dataset de salida
105
Diccionario de salida. (Opcional: ver el parámetro PRINT). Los registros descriptores de variables (registros T) se imprimen con o sin registros C, si los hay.
Caracterı́sticas del archivo Datos de salida. Longitud del registro de datos de salida.
Mensajes de la edición de datos. Para cada caso que contenga errores se imprime el caso de entrada
(hasta 100 caracteres por lı́nea) y un registro de los errores en el orden del número de variable.
Mensajes de la recodificación de campos en blanco. (Opcional: ver el parámetro PRINT). Para cada
caso que contenga campos en blanco recodificados, se imprime un mensaje de la recodificación junto con el
caso de entrada. Este listado está integrado con la impresión de los mensajes de errores en los datos, si se
presentan errores para el caso.
11.4.
Dataset de salida
BUILD crea un archivo Datos y el diccionario IDAMS correspondiente, es decir un dataset IDAMS. Téngase
en cuenta que los registros T producidos por BUILD siempre definen la ubicación de las variables en términos
de la posición inicial y el ancho del campo.
El archivo Datos contiene un registro para cada caso o unidad de análisis. La longitud del registro es la suma
de los anchos de campo de todas las variables de salida y es determinada por el programa BUILD.
Valores de variables numéricas. Los valores de las variables numéricas se editan de acuerdo con una
forma estándar que se describe en el párrafo “Procesamiento de las variables numéricas” arriba.
Valores de variables alfabéticas. Los valores de las variables alfabéticas no se editan y son los mismos
en la entrada y en la salida.
Ancho de campo. BUILD normalmente asigna como ancho de una variable el número de caracteres del
campo de la variable de entrada correspondiente. Sin embargo, cuando un código de datos faltantes para
una variable tiene un dı́gito más que el campo de entrada, el campo de salida será un dı́gito mayor que el
campo de entrada.
Localización de variable. BUILD asigna los campos de salida según el orden de los números de las
variables. De acuerdo con ésto, si las dos primeras variables tienen anchos de salida de 5 y 3, se asignan las
posiciones 1-5 para la primera variable y 6-8 para la segunda variable, etc.
Número de referencia e identificador de estudio. El número de referencia, si no es blanco, e identificador de estudio son los mismos que sus valores de entrada. Si el campo del número de referencia de un
registro T o un registro C es blanco, se llena con el número de la variable.
11.5.
Diccionario de entrada
Describe las variables que se van a seleccionar para la salida. El formato está descrito en el capı́tulo “Los
datos en IDAMS”, la columna 64 del registro T se usa para especificar una regla de recodificación de campos
en blanco en una variable de la manera siguiente:
blanco
0
1
2
9
-
no hay recodificación de campos en blanco,
recodifique campos en blanco a ceros,
recodifique campos en blanco al primer código de datos faltantes de la variable,
recodifique campos en blanco al segundo código de datos faltantes de la variable,
recodifique campos en blanco a nueves.
Nota. La ventana Diccionario de la Interfaz del Usuario no permite acceso a la columna 64; entonces, use el
Editor General de WinIDAMS (Archivo/Nuevo/Archivo usando Editor General) o cualquier otro editor de
texto para llenar esta columna.
106
Construcción de un dataset IDAMS (BUILD)
11.6.
Datos de entrada
Los datos pueden ser cualquier archivo de registros de longitud fija, con uno o más registros por caso, siempre
que se tenga exactamente el mismo número de registros para cada caso. El archivo debe estar clasificado
por tipo de registro dentro de cada ID de caso. Los valores para cualquier variable deben localizarse en las
mismas columnas del mismo registro para cada caso.
Si los datos de entrada tienen más de un registro por caso, debe usarse siempre MERCHECK antes que
BUILD para garantizar que los datos tengan los mismos registros para cada caso.
Nótese que BUILD no acepta notación exponencial en los datos.
11.7.
Estructura del setup
$RUN BUILD
$FILES
Especificación de archivos
$SETUP
1. Tı́tulo
2. Parámetros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
11.8.
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de salida
datos de salida
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-2, a continuación.
1. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
ESTUDIO DE CONSTRUCCION DE ARCHIVO A35
2. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
MAXERROR=50
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
11.9 Ejemplos
107
LRECL=80/n
Longitud de cada registro de los datos de entrada.
(Se usa para verificar si las posiciones de comienzo de las variables en los registros T son válidas).
MAXCASES=n
Número máximo de casos a usar del archivo de entrada.
Por defecto: se usan todos los casos.
VNUM=CONTIGUOUS/NONCONTIGUOUS
CONT
Verifica que las variables estén numeradas en orden ascendente y consecutivo en el
diccionario de entrada.
NONC
Verifica solamente que las variables estén numeradas en orden ascendente.
MAXERR=10/n
Número máximo de casos con errores antes de terminar la ejecución de BUILD.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
PRINT=(RECODES, CDICT/DICT, OUTDICT/OUTCDICT/NOOUTDICT)
RECO
Imprimir los casos de entrada que tengan uno o más campos, todos en blanco, que
hayan sido recodificados.
CDIC
Imprimir el diccionario de entrada para todas las variables con registros C, si los hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
NOOU
No imprimir el diccionario de salida.
11.9.
Ejemplos
Ejemplo 1. Construir un dataset IDAMS (archivos Diccionario y Datos); los registros de datos de entrada
tienen una longitud de registro de 80 con 3 registros por caso; las variables tienen una numeración no
contigua en el diccionario de entrada; la variable 2 es el identificador completo (columnas 5-10) mientras
que las variables V3 y V4 contienen las dos partes del identificador (columnas 5-8, 9-10 respectivamente);
los campos en blanco se reemplazarán por el primer código de datos faltantes de las variables V101, V122,
V168, y con ceros para la variable V169; los blancos en la variable V123 (edad) se tratarán como errores.
$RUN BUILD
$FILES
DATAIN = ABCDATA.DAT RECL=80
archivo Datos de entrada
DICTOUT = ABC.DIC
archivo Diccionario de salida
DATAOUT = ABC.DAT
archivo Datos de salida
$SETUP
CONSTRUCCION DE UN DATASET IDAMS
VNUM=NONC MAXERR=200
$DICT
3
1 169
3
T
1 CODIGO CIUDAD
1 1 1 3
T
2 IDENTIFICADOR DEL ENCUE
5 10
T
3 NUMERO DEL HOGAR
5
8
T
4 NUMERO DEL ENCUESTADO
9 10
T 101 POS. DEL ENCUE EN FAMIL
13
0
9
1
T 122 SEXO
225
9
1
T 123 EDAD
48 49
T 168 OCUPACION
358 59
99
98
1
T 169 INGRESO
61 65
99998
0
ID
ID
ID
ID
QS1
QS2
QS2
QS3
QS3
108
Construcción de un dataset IDAMS (BUILD)
Ejemplo 2. Verificar la presencia de caracteres no numéricos en 4 campos numéricos; el archivo Datos de
entrada tiene un registro por caso; los registros se identifican con un campo alfabético; las 5 variables no se
numeran en forma contigua; como no se necesitan los archivos de salida que BUILD produce normalmente,
se definen como archivos temporales (extensión TMP) que IDAMS borra automáticamente al final de la
ejecución.
$RUN BUILD
$FILES
DATAIN = NEWDATA.DAT RECL=256
archivo Datos de entrada
DICTOUT = DIC.TMP
archivo temporal Diccionario de salida
DATAOUT = DAT.TMP
archivo temporal Datos de salida
$SETUP
VERIFICACION DE CARACTERES NO NUMERICOS Y CAMPOS EN BLANCO
VNUM=NONC LRECL=256 PRINT=NOOU MAXERR=200
$DICT
3
1 35
1
1
T
1 NOMBRE ENCUESTADO
1 20 1
T 21 EDAD
21
2
T 22 INGRESO
29
6
T 25 NR. SITIOS DE TRABAJO
129
1
T 35 TITULO SCI.
201
1
Capı́tulo 12
Verificación de códigos (CHECK)
12.1.
Descripción general
CHECK verifica si las variables tienen datos válidos y produce un listado con todos los códigos inválidos por
identificador de caso y número de variable.
Especificación de códigos. Hay dos maneras de especificar los códigos de las variables a verificar. Primera,
las proposiciones de control del programa incluyen un conjunto de “especificaciones de códigos” en el cual se
definen las variables y sus códigos válidos. Segunda, el usuario puede suministrar una lista de variables de la
cual se van a tomar códigos válidos de los registros C en el diccionario. En cualquier ejecución de CHECK,
el usuario puede aplicar el primer método para unas variables y el segundo para otras. Las especificaciones
de código para variables en el setup tienen prioridad sobre las especificaciones del diccionario.
Método usado para verificar valores de los datos. Los valores de los datos para variables numéricas
y alfabéticas se verifican carácter por cáracter contra los códigos válidos especificados. Ası́, si se da una
especificación de códigos válidos de “V2=02,03”, un valor de “ 2” en los datos será inválido; un blanco a la
izquierda en los datos no se considera igual a cero. Si se especifican valores de códigos con menos dı́gitos que
el ancho de campo de la variable, se suponen ceros a la izquierda. Ası́, si se da la especificación “V2=2,3”,
donde V2 es una variable de 2 dı́gitos, los valores válidos para la comparación de los datos serán 02,03. De
manera similar, si se suministran “-3” y “1” como códigos válidos para una variable de 3 dı́gitos, CHECK
editará los códigos con “-03” y “001” antes de efectuar cualquier comparación de datos con estos valores.
Nota. Si se encuentra un error de sintaxis en una especificación de códigos, se verifica el resto de las
especificaciones de códigos pero no se procesan los datos.
12.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. El filtro estándar está disponible para seleccionar un subconjunto de casos
del dataset de entrada. El usuario escoge las variables a verificar, especificándolas en una “lista de variables”
y/o en las “especificaciones de códigos”.
Transformación de datos. Las proposiciones de Recode no se pueden usar.
Tratamiento de datos faltantes. CHECK no hace distinción entre datos sustantivos y valores de datos
faltantes; todos los datos reciben el mismo tratamiento.
12.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Se imprimen los registros del diccionario
para todas las variables, no solamente para aquellas variables que se van a verificar.
110
Verificación de códigos (CHECK)
Documentación de códigos inválidos. Para cada caso en el que se encuentre una variable con un código
inválido, CHECK imprime el valor o los valores de la(s) variable(s) de identificación, las variables con error
y sus valores.
12.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. CHECK puede verificar datos válidos
en variables numéricas y alfabéticas. Si el diccionario contiene registros C, éstos pueden usarse para definir
códigos válidos de las variables.
Para los valores de las variables numéricas se supone que se encuentran en la forma que tendrı́an después
de haber pasado por el programa BUILD. Esta suposición implica que no hay blancos a la izquierda (fueron
reemplazados por ceros), que un signo negativo, si lo hay, aparece en el extremo izquierdo del campo y que
no aparecen puntos decimales explı́citos.
12.5.
Estructura del setup
$RUN CHECK
$FILES
Especificación de archivos
$SETUP
1.
2.
3.
4.
Filtro (opcional)
Tı́tulo
Parámetros
Especificaciones de códigos (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
12.6.
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE V10=3
AND
V20=1-9
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
DATOS: DATOS DE TESIS, VERSION 1
12.6 Proposiciones de control del programa
111
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
IDVA=(V1-V4) VARS=(V22-V26,V101-V102)
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
START=1/n
Número secuencial del primer caso a ser verificado.
VARS=(lista de variables)
Variables para las cuales se van a tomar codigos válidos de los registros C en el diccionario.
MAXERR=100/n
Máximo número de casos permitidos con códigos inválidos; si se excede este número, se termina
la ejecución del programa.
IDVARS=(lista de variables)
Hasta 20 variables cuyos valores se imprimen cuando se encuentra un código inválido. Estas consistirán normalmente como mı́nimo, de las variables que identifican un caso pero pueden incluir otras
variables que suministren información adicional al usuario. Las variables pueden ser alfabéticas o
numéricas.
Sin valor por defecto.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para todas las variables con registros C, si los hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de códigos (opcional). Estas especificaciones definen las variables a verificar y sus
valores de código válidos o inválidos.
Ejemplos:
V3=1,3,5-9
(Los datos para la variable 3 pueden tener los códigos
1,3,5-9. Cualquier otro código será inválido y será
documentado).
V7,V9,V12-V14= 2,50-75,100
(Los datos para las variables 7,9 y 12 a 14 pueden
tener sólo los valores 2, 50-75, 100).
V50 <> 75
(Los datos para la variable 50 pueden tener cualquier
valor excepto 75).
Formato general
lista de variables = lista de valores de código
o
lista de variables <> lista de valores de código
Reglas de codificación
Cada especificación de códigos debe comenzar en una lı́nea nueva. Para continuar en otra lı́nea, interrumpa después de una coma y coloque un guión. Se pueden usar todas las lı́neas de continuación que
sean necesarias. Pueden aparecer blancos en cualquier lugar de las especificaciones.
112
Verificación de códigos (CHECK)
Lista de variables
Cada número de variable debe estar precedido por una letra V.
Las variables se pueden expresar una por una (separadas con una coma), por rangos (separadas
con un guión) o una combinación de ambos (V1,V2,V10-V20).
Las variables se pueden definir en cualquier orden.
Todas las variables agrupadas en una expresión deben tener el mismo ancho de campo (por ej. para
“V2,V3=10-20” V2 y V3 deben tener ambas el mismo ancho de campo definido en el diccionario).
Las variables a verificar pueden ser numéricas o alfabéticas.
Válido (=) o inválido (<>)
Un signo = indica que los valores de código que siguen son los códigos válidos para las variables
especificadas. Todos los demás códigos se documentarán como errores.
<> (no igual) indica que los códigos que siguen son inválidos. Todos los casos que tengan estos
códigos para las variables especificadas se documentarán como errores.
Lista de valores de código
Los códigos se pueden expresar uno por uno (separados con una coma), por rangos (separados
con un guión) o una combinación de ambos.
Para variables numéricas, no es necesario suministrar ceros a la izquierda (por ej. V1=1-10), pero
recuerde que si se verifican varias variables para códigos comunes, todas deben tener definido en
el diccionario el mismo ancho de campo.
Para datos con cifras decimales, no coloque el punto decimal en el valor, pero suministre el valor
de manera que refleje exactamente las cifras decimales implicadas, por ej. el número 2 con un
decimal debe ser dado como “20”.
Para valores alfabéticos, no es necesario colocar blancos a la derecha, éstos son añadidos por el
programa de manera que completen la longitud del ancho de campo de la variable.
Para definir un blanco o para especificar un valor con blancos intercalados, encierre el valor entre
comillas sencillas. (por ej. V10=’NEW YORK’,’WASHINGTON’,’ ’).
Los valores de código se pueden definir en cualquier orden.
Notas.
1) Si se dan dos especificaciones diferentes para la misma variable, sólo se utilizará la última de ellas.
2) Las especificaciones de códigos para una variable reemplazan el uso de registros de nombres de
códigos del diccionario para las variables especificadas con el parámetro VARS.
12.7.
Restricciones
1. El máximo número de variables de identificación es 20.
2. El máximo número de códigos distintos que se pueden suministrar en las especificaciones de código es
4000. Esta restricción se puede obviar con rangos de códigos ya que un rango de códigos se cuenta sólo
como 2 códigos.
12.8.
Ejemplos
Ejemplo 1. Busqueda de códigos ilegales en variables cualitativas y valores fuera de rango en variables
cuantitativas; los únicos códigos válidos para las variables V10, V12 y V21 a V25 son 1 a 5 y 9; el código
9998 es ilegal para la variable V35; los códigos 0 y 8 son ilegales para las variables V41, V44 y V46; las
variables V71 a V77 deben tener valores dentro del rango de 0 a 100 o 999; los casos se identifican con las
variables V1, V2 y V4; no se usan los valores de códigos del diccionario.
12.8 Ejemplos
113
$RUN CHECK
$FILES
PRINT = CHECK1.LST
DICTIN = STUDY1.DIC
archivo Diccionario de entrada
DATAIN = STUDY1.DAT
archivo Datos de entrada
$SETUP
BUSQUEDA DE CODIGOS ILEGALES Y VALORES FUERA DE RANGO
IDVARS=(V1,V2,V4)
V10,V12,V21-V25=1-5,9
V35<>9998
V41,V44,V46<>0,8
V71-V77=0-100,999
Ejemplo 2. Verificación de la validez del código unicamente para un subconjunto de casos (cuando la
variable V21 es igual a 2 o igual a 3 y la variable V25 es igual a 1); los códigos válidos para algunas variables
se toman de los registros C del diccionario; adicionalmente, se da una especificación válida para la variable
V48; los casos se identifican con la variable V1.
$RUN CHECK
$FILES
DICTIN = STUDY2.DIC
archivo Diccionario de entrada
DATAIN = STUDY2.DAT
archivo Datos de entrada
PRINT = CHECK.PRT
$SETUP
INCLUDE V21=2,3 AND V25=1
BUSQUEDA DE CODIGOS ILEGALES
IDVARS=V1 VARS=(V18-V28,V36-V41)
V48=15-45,99
Capı́tulo 13
Verificación de consistencia
(CONCHECK)
13.1.
Descripción general
El uso de CONCHECK junto con las proposiciones de Recode de IDAMS ofrece la capacidad de verificación de
consistencia la cual permite probar relaciones ilegales entre valores de diferentes variables. Las proposiciones
condicionales incluidas en el setup de CONCHECK se usan para denominar cada una de las verificaciones e
indicar qué variables se deben listar ante un error.
La verificación de consistencia se define por medio de Recode al probar una relación lógica y después asignar
el valor 1 a una variable R si la condición no se satisface, por ej. si V3 no puede tomar lógicamente el valor
de 9 cuando V2 toma el valor de 3, se puede usar la siguiente proposición de Recode:
IF V2 EQ 3 AND V3 EQ 9 THEN R100=1 ELSE R100=0
Cuando se detecta una inconsistencia en un caso, se imprimen los identificadores del caso (ID). Además se
imprimen también los valores de un conjunto de variables definidas con el parámetro VARS. Este conjunto
de variables se usa para tener una visión general del caso, de manera que se pueda detectar más fácilmente
la razón de la inconsistencia y asegurar que la corrección de una inconsistencia no va a producir otra. Para
cada condición de consistencia que falle se puede imprimir un conjunto separado de variables con el número
y nombre de la condición; este conjunto consiste normalmente de las variables que se verifican.
13.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. El filtro estándar está disponible para escoger un subconjunto de casos a
verificar. Las variables a imprimir cuando se presenten inconsistencias se especifican con el parámetro VARS
(para el caso) o CVARS (para una condición individual).
Transformación de datos. Las proposiciones de Recode se usan para indicar las validaciones de consistencia requeridas.
Tratamiento de datos faltantes. CONCHECK no hace distinción entre datos sustantivos y valores de
datos faltantes; todos los datos reciben el mismo tratamiento.
13.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, sólo para las variables usadas en la ejecución.
116
Verificación de consistencia (CONCHECK)
Inconsistencias. Para cada caso que presente una inconsistencia se imprime una lı́nea de identificación con
el número de secuencia del caso y opcionalmente los valores de los identificadores de caso. A continuación se
imprimen los valores de las variables especificadas en el parámetro VARS.
Para cada inconsistencia individual detectada en un caso, se imprimen el número y nombre de la condición
correspondiente y los valores de las variables especificadas en la proposición de condición.
Estadı́sticas de error. Al final de la ejecución se imprime una tabla de resumen con el número de casos procesados, el número de casos que tienen por lo menos una inconsistencia y, para cada condición de
consistencia, su número y nombre y el número de casos que no pasaron la prueba.
13.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Se pueden usar variables numéricas o
alfabéticas.
13.5.
Estructura del setup
$RUN CONCHECK
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode que indican las inconsistencias
$SETUP
1.
2.
3.
4.
Filtro (opcional)
Tı́tulo
Parámetros
Proposiciones de condición
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
13.6.
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo ”El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-4, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE V1=1
13.6 Proposiciones de control del programa
117
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
PRUEBA DE INCONSISTENCIAS PARA LA REGION NORTE
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
IDVARS=(V1,V3-V4) MAXERR=50
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo ”El archivo Setup de IDAMS”.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MAXERR=999/n
Número máximo de inconsistencias a imprimir antes de detener la ejecución de CONCHECK.
IDVARS=(lista de variables)
Hasta 5 variables cuyos valores se imprimirán para identificar casos con inconsistencias.
Por defecto: se imprime el número secuencial de caso.
VARS=(lista de variables)
Variables a imprimir para cualquier caso que tenga por lo menos un error.
FILLCHAR=’cadena de caracteres’
Hasta 8 caracteres usados para separar variables cuando se imprimen las inconsistencias.
Por defecto: 2 espacios.
PRINT=(CDICT/DICT, VNAMES)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
VNAM
Cuando se imprimen variables para casos inconsistentes, imprimir los primeros 6 caracteres del nombre en vez de los números de las variables.
4. Proposiciones de condición (se debe dar por lo menos una). Se suministra una proposición de
condición para cada consistencia a verificar con una referencia a las correspondientes proposiciones
de Recode, un nombre para la prueba y las variables cuyos valores se deben imprimir cuando falle la
prueba.
Las reglas de codificación son las mismas de los parámetros. Cada proposición condicional debe comenzar en una nueva lı́nea.
Ejemplo:
TEST=R3 CVARS=(V34,V36,V52) CNAME=’EDAD, SEXO, ESTADO DE EMBARAZO’
TEST=número de variable
Una variable para la cual un valor no igual a cero, indica que una verificación de consistencia ha
fallado.
Sin valor por defecto.
118
Verificación de consistencia (CONCHECK)
CVARS=(lista de variables)
Lista de variables cuyos valores se deben imprimir cuando se presente esta inconsistencia.
Por defecto: sólo se imprimen las variables especificadas en IDVARS y VARS.
CNUM=n
Número de condición.
Por defecto: número secuencial de la condición.
CNAME=’cadena de caracteres’
Nombre para esta condición, hasta 40 caracteres.
Por defecto: no asigna nombre.
13.7.
Restricciones
1. Sólo se imprimen los primeros 4 caracteres de las variables alfabéticas.
2. Los nombres de condición no pueden tener más de 40 caracteres de longitud.
3. El número máximo de variables de identificación es 5.
4. El número máximo de variables a imprimir para cada caso con errores es 20 (lista de variables en
VARS).
5. El número máximo de variables a imprimir para cada condición es 20 (lista de variables en CVARS).
13.8.
Ejemplos
Ejemplo 1. Verificar la relación entre V6 y V7 y entre V20 y V21; para cada caso con errores se imprimirán
las variables de identificación V2 y V3 junto con los valores de las variables claves V8-V10; se imprimirán
los nombres de las variables.
$RUN CONCHECK
$FILES
PRINT = CONCH1.LST
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$RECODE
R1=0
R2=0
IF V5 INLIST(1-5,8) AND V7 EQ 2 THEN R1=1
IF V20 LE 3 AND V21 EQ 5 OR V20 EQ 8 AND V21 EQ 7 OR V20 EQ V21 THEN R2=1
$SETUP
PRUEBA PARA 2 INCONSISTENCIAS
PRINT=VNAMES IDVARS=(V2,V3) VARS=(V8-V10)
TEST=R1 CNAME=’primera inconsistencia’ CVARS=(V5,V7)
TEST=R2 CNAME=’segunda inconsistencia’ CVARS=(V20,V21)
Ejemplo 2. Verificar 5 condiciones en la parte 2 de un cuestionario; las pruebas se van a numerar a partir
de 201; se van a listar todas las variables de la parte 2 para cada cuestionario con errores, junto con las
variables claves de la parte uno (V5-V10); además, se van a imprimir nuevamente ciertas variables usadas
en las pruebas para cada prueba que falle. Tenga en cuenta el uso de la función SELECT de Recode para
iniciar con ceros las correspondientes variables de resultados.
13.8 Ejemplos
$RUN CONCHECK
$FILES
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$SETUP
PARTE 2 DE LA VERIFICACION DE CONSISTENCIA
MAXERR=400 IDVARS=(V1,V3) VARS=(V5-V10,V200-V231)
TEST=R1 CNUM=201 CVARS=(V203-V205)
TEST=R2 CNUM=202 CVARS=(V203,V210-V212)
TEST=R3 CNUM=203 CVARS=(V214,V215)
TEST=R4 CNUM=204 CVARS=(V222-V226)
TEST=R5 CNUM=205 CVARS=(V229,V230)
$RECODE
R900=1
A
SELECT (FROM=(R1-R5), BY R900) = 0
IF R900 LT 5 THEN R900=R900+1 AND GO TO A
IF V203 IN(1-5,17,20-25) AND V204 EQ 3 OR V205 EQ ’M’ THEN R1=1
IF V203 GT 6 AND MDATA(V210,V211,V212) THEN R2=1
IF 2*TRUNC(V214/2) EQ V214 OR V215 EQ 0 THEN R3=1
IF COUNT(1,V222-V226) LT 2 THEN R4=1
IF MDATA(V229) AND NOT MDATA(V230) THEN R5=1
119
Capı́tulo 14
Verificación de intecalación de
registros (MERCHECK)
14.1.
Descripción general
El programa MERCHECK detecta y corrige los errores de intercalación de registros (registros faltantes,
duplicación de registros y registros inválidos) en un archivo con registros múltiples por caso. La salida es un
archivo con igual número de registros por caso, rellena los registros faltantes y elimina los registros duplicados
y los registros inválidos. Aunque la concepción original de este programa se hizo para imagen de tarjeta, se
pueden tener registros hasta de 128 caracteres de longitud. Como los demás programas IDAMS suponen que
cada caso en un archivo de datos tiene exactamente el mismo número de registros, el uso de MERCHECK
es un paso esencial de verificación inicial para todos los archivos que tengan más de un registro por caso.
Operación del programa. El usuario suministra un conjunto de Descripciones de registros que definen los
tipos de registro permitidos. En el momento de procesar los datos, el programa carga en un área de trabajo
todos los registros de datos consecutivos de entrada que tengan un mismo identificador de caso. Los registros
se comparan, uno a uno, con los tipos de registro definidos y se construye un caso de salida. Los registros
se rellenan, se eliminan, se reordenan, etc. según las necesidades. El caso se lleva al archivo de salida y el
programa regresa para leer el conjunto de registros de entrada para el siguiente caso. Los resultados muestran
las correcciones hechas por el programa a los datos de entrada.
Identificación de casos y de registros. MERCHECK requiere que el identificador de caso esté en la
misma posición para todos los registros. Los campos del identificador de casos pueden estar ubicados entre
columnas no contiguas y puede estar compuesto por cualquier tipo de caracteres. Los tipos de registro se
identifican por un solo campo identificador de registro (de 1-5 columnas) que puede tener cualquier tipo de
carácter excepto blancos. A continuación se muestra el bosquejo de un archivo de datos con dos tipos de
registros. Los puntos hacen referencia a campos de datos o campos en blanco.
...SE23..........01...............10......
...SE23..........01...............12......
...SE23..........02...............10......
...SE23..........02...............12......
...SE24..........01...............10......
...SE24..........01...............12......
primer
campo
identificador
de caso
segundo
campo
identificador
de caso
campo
identificador
de registro
En este ejemplo hay dos tipos de registro para cada caso, que se identifican con los números 10 o 12 en las
columnas 35 y 36. El identificador de caso (ID de caso) está compuesto por dos campos no consecutivos en
las columnas 4-7 y 18-19. Ası́ “SE2301”, es un identificador de caso, “SE2302” es otro y “SE2401” es otro.
122
Verificación de intecalación de registros (MERCHECK)
Eliminación de registros inválidos. Se imprime de manera opcional pero no se transmite al archivo de
salida, un registro de datos de entrada conocido como registro “extra”, el cual contiene un identificador de
registro no definido en las Descripciones de registros. Adicionalmente, hay dos opciones para eliminar otros
tipos de registros inválidos.
Los registros que no tengan una constante especı́fica, se rechazan. (Ver los parámetros CONSTANT,
CLOCATION, y MAXNOCONSTANT).
El usuario puede especificar el valor del identificador del primer caso válido. Todos los casos con un
identificador cuyo valor sea menor que el valor especificado, se rechazan. (Ver el parámetro BEGINID).
Opciones para el manejo de casos con registros faltantes. El usuario debe escoger, con el parámetro
DELETE, una de las tres formas posibles para el manejo de los casos incompletos.
1. DELETE=ANYMISSING. No se produce caso de salida cuando faltan uno o más tipos de registro.
2. DELETE=ALLMISSING. Un caso no sale si no se encuentra por lo menos un identificador válido de
registro.
3. DELETE=NEVER. El programa nunca excluye ningún caso que tenga uno o más registros faltantes.
En esta alternativa, el programa construye un registro para cada tipo de registro faltante y lo llena
con blancos o con valores suministrados por el usuario. Ver el parámetro PADCH y el parámetro
PAD de las Descripciones de registros. La complementación tiene lugar en columnas diferentes de
las de identificación de campos de caso y de campos de registro. El programa siempre inserta los
identificadores apropiados para casos y registros.
Opciones para el manejo de casos con registros duplicados. Un registro duplicado es aquel que tiene
los mismos identificadores de caso y de registro que otro, sin interesar el contenido de ambos registros. El
usuario especifica cual duplicado debe mantenerse si hay más de un registro de entrada con los mismos
identificadores de caso y de registro. Por ejemplo, la opción DUPKEEP=1 hace que el programa guarde el
primer registro y descarte los otros. El caso no se transfiere al archivo de salida si se encuentra un número de
duplicados menor que n (donde DUPKEPP=n), es decir, que para borrar casos con registros duplicados, se
especifica un valor grande para n. Precaución: puede suceder que registros con identificadores duplicados no
contengan los mismos datos. Corresponde al usuario decidir la conveniencia de retener o no un determinado
registro.
Opciones para el manejo de registros eliminados. Los registros de datos de entrada que se han
eliminado, es decir, aquellos que no van al archivo de salida, se pueden colocar en otro archivo (ver el
parámetro WRITE).
Selección de tipos de registro. MERCHECK le permite al usuario subdividir tipos de registros, seleccionados a partir de un archivo de entrada más amplio. Incluya simplemente sólo los identificadores requeridos
en las Descripciones de registros y escoja una opción apropiada para la impresión de errores (EXTRAS=n o
PRINT=ERRORS, por ejemplo) y un valor razonable para MAXERR. Es esencial minimizar la impresión
de casos con errores ya que casi siempre cada caso con identificadores faltantes en el archivo de entrada,
será impreso como error debido a registros con identificación inválida (es decir, aquellos que no se han
especificado en las Descripciones de registros).
Capacidad de comenzar nuevamente. El parámetro BEGINID se usa para volver a comenzar el programa
MERCHECK cuando la ejecución anterior terminó antes de haber procesado todos los datos de entrada.
El usuario debe determinar el identificador del último caso procesado y asignar al parámetro BEGINID ese
valor +1. (Si el programa termina porque se excedió el valor del parámetro MAXERR, en el listado de salida
aparecerá el último registro leido y el valor asignado al parámetro BEGINID deberá ser el identificador de
caso de ese registro).
Nota. MERCHECK tiene por objeto la verificación de archivos de datos con múltiples registros por caso
y debe haber un identificador de registro en cada registro. Teóricamente, MERCHECK se podrı́a usar
para eliminar registros duplicados y registros sin alguna constante especı́fica para archivos con casos de
un solo registro por caso. Sin embargo, ésto sólo puede hacerse si los registros contienen alguna constante
cuyo valor se pueda asimilar a un identificador de registro. Este tipo de operación se realiza mejor con el
programa SUBSET al usar un filtro que excluya los registros que carezcan de una constante y con la opción
DUPLICATE=DELETE para eliminar los duplicados. (Ver la documentación de SUBSET).
14.2 Caracterı́sticas estándar de IDAMS
14.2.
123
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Con excepción de las definiciones anteriores, esta opción no se encuentra
en este programa.
Transformación de datos y datos faltantes. Estas opciones no se aplican en MERCHECK.
14.3.
Resultados
Casos con errores. El listado completo de la documentación de cada caso con errores tiene tres partes: un
resumen de los errores, registros no transferidos al archivo de salida (registros malos) y los casos transferidos
al archivo de salida (casos buenos) tal como aparecen en este archivo de salida. Ver más adelante para mayor
información sobre estos componentes. Para datos con un gran número de tipos de registros y muchos casos
con errores, el listado de los casos errados puede ser costoso y para algunos jobs innecesario. La cantidad de
listado requerido depende del mayor o menor conocimiento que el usuario tenga acerca de los datos y de su
habilidad para corregir o re-corregir los errores. Por ejemplo, si un usuario espera que se presenten muchos
rellenos (padding), pero ninguna o casi ninguna duplicación de registros o registros inválidos, es suficiente
tener en el papel sólo el resumen de los errores y especificar que se almacenen los casos con errores (si los
hay) (ver la opción WRITE=BADRECS) y listarlos posteriormente. Se pueden aplicar varios controles a la
cantidad de listado obtenido con los parámetros PRINT, EXTRAS, DUPS y PADS.
Casos con errores: resumen de errores. El resumen de errores consiste en una identificación del caso
con errores (conteo de caso o ID de caso) y uno de tres tipos de mensaje referentes a los errores que se
presentaron. El conteo secuencial de los casos no considera los registros o casos eliminados porque ellos
aparecen antes del comienzo del identificador o les falta la constante requerida. El identificador del caso se
toma de los identificadores del campo tal como se haya especificado en el parámetro IDLOC.
Se reportan tres tipos de errores, a saber:
1. tipo de registro inválido,
2. casos con registros faltantes,
3. casos con registros duplicados.
Casos con errores: registros malos. Se presentan los registros inválidos y los registros duplicados, ası́ como también todos los registros de casos que se han rechazado por carencia de registros. Se imprimen en el
orden en que se encuentran en el archivo de entrada.
Casos con errores: registros buenos. Cuando se guarda un caso, después de haber detectado un error,
los registros que pasan al archivo de salida, incluidos aquellos que se han rellenado, se imprimen.
Registros anteriores a BEGINID. Su impresión es opcional. Ver parámetro PRINT=LOWID.
Registros sin clasificar. Normalmente se imprimen, sin embargo el listado puede suprimirse. Ver parámetro
PRINT=NOSORT.
Registros sin constante especificada. Se imprime cualquier registro que carezca de la constante especificada por el usuario en las columnas adecuadas. Este listado se puede suprimir. Ver parámetro PRINT=NOCONSTANT.
Estadı́sticas de ejecución. Al final de resultados, se imprimen los totales de registros faltantes, registros
inválidos y registros duplicados asi como también, el número total de casos leı́dos, casos escritos, casos
eliminados y casos con errores.
14.4.
Datos de salida
Los datos de salida van a un archivo con longitud de registro igual a la de los registros de entrada y con el
mismo número de registros por caso. Cada caso tiene cada uno de los tipos de registro especificados en las
descripciones de registros.
124
Verificación de intecalación de registros (MERCHECK)
14.5.
Datos de entrada
Los datos de entrada consisten en un archivo con registros de longitud fija, clasificado normalmente por el
ID del caso y dentro de éste, por el identificador de registro. La longitud del registro no puede exceder de
128 caracteres.
14.6.
Estructura del setup
$RUN MERCHECK
$FILES
Especificación de archivos
$SETUP
1. Tı́tulo
2. Parámetros
3. Descripciones de registros (tantas como se requieran)
$DATA (condicional)
Datos
Archivos:
FT02
DATAxxxx
DATAyyyy
PRINT
14.7.
registros rechazados (registros de casos malos)
cuando se ha especificado WRITE=BADRECS
datos de entrada (omitir si se usa $DATA)
datos de salida (casos buenos)
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3, a continuación.
1. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
MERCHECK DE MIS DATOS ESTUDIO 308 SAM 7/18/48
2. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
MAXE=25
RECORDS=8
IDLOC=(1,5)
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para el archivo Datos de entrada.
Por defecto: DATAIN.
MAXCASES=n
Número máximo de casos a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MAXERR=10/n
Número máximo de casos con errores. Cuando hay casos que tengan (n + 1) errores, termina la
ejecución del programa. Los casos que están antes del parámetro BEGINID, los casos sin clasificar
y los registros sin constante, no se cuentan como casos con errores. Se consideran casos con error
los que contienen registros inválidos, duplicados o faltantes.
14.7 Proposiciones de control del programa
125
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para el archivo Datos de salida.
Por defecto: DATAOUT.
RECORDS=2/n
Número de registros por caso (tal como se hayan definido en las Descripciones de registros).
IDLOC=(i1,f1, i2,f2, ...)
Columnas inicial y final para identificación de 1-5 campos de identificación de caso. Debe suministrarse por lo menos una columna. Si hay más de un campo de identificación de caso, entonces
deben especificarse en el orden en el cual los datos están clasificados.
Sin valor por defecto.
BEGINID=’ID del caso’
El caso con el identificador más bajo a partir del cual el programa comienza el proceso: de 1-40
caracteres encerrados entre comillas sencillas si contiene caracteres no alfanuméricos. Si se usan
casos con identificadores de campos múltiples, el valor debe ser el resultado de la concatenación
de los identificadores individuales de cada campo clasificados.
Por defecto: blancos.
NOSORT=0/n
Número máximo de casos sin clasificar tolerado por el programa. Cuando se presenta un número
de casos sin clasificar igual o mayor que (n+1), la ejecución del programa termina.
DELETE=NEVER/ANYMISSING/ALLMISSING
Especifica bajo que condiciones referentes a registros faltantes, se borra o no se borra un caso.
NEVE
Nunca rechaza un caso por registros faltantes. Si falta uno o todos los registros, el
programa rellena (con blancos o con valores especificados por el usuario), todos los
registros que falten y rechaza cualquier registro con identificador inválido, antes de la
salida del caso.
ANYM
No sale ningún caso para el cual falten uno o más registros, es decir que no se graban
casos incompletos.
ALLM
No sale ningún caso para el cual no haya registros válidos, es decir, cuando todos los
registros para un caso tienen valores inválidos de los ID de registro.
PADCH=x
Caracter para usar cuando se rellenan los registros. Los caracteres no alfanuméricos deben estar
entre comillas sencillas. Ver también Descripciones de registros para mayores detalles sobre la
acción de relleno (padding) de registros.
Por defecto: blancos.
DUPKEEP=1/n
Especifica (para registros duplicados) que se debe guardar el n-ésimo duplicado. Si se encuentran
menos duplicados que n, el caso en el cual éstos se presentan se elimina (aún si se especifica
DELETE=NEVER).
WRITE=BADRECS
Crear un archivo de los registros rechazados (casos malos).
CONSTANT=valor
Valor de una constante. Debe ir entre comillas sencillas si contiene caracteres no alfanuméricos.
Cualquier registro de datos de entrada sin la constante, se rechaza. La localización de la constante
debe ser la misma en todos los registros de entrada, sin importar el tipo de registro.
126
Verificación de intecalación de registros (MERCHECK)
CLOCATION=(i, f)
(Se suministra sólo cuando se usa CONSTANT). Localización del campo de la constante.
i
Columna inicial para el campo de la constante en cada registro.
f
Columna final para el campo de la constante en cada registro.
MAXNOCONSTANT=0/n
(Se suministra sólo cuando se usa CONSTANT). Número máximo de registros sin la constante que
son tolerados por el programa. Cuando se encuentran n + 1 registros sin constante, MERCHECK
termina la ejecución.
PRINT=(CONSTANT/NOCONSTANT, SORT/NOSORT, ERRORS/NOERRORS, LOWID,
BADRECS, GOODRECS)
CONS
Imprimir registros sin constante especificada.
NOCO
No imprimir registros sin constante especificada.
SORT
Imprimir mensaje de tres lı́neas para los casos por fuera del orden de clasificación.
NOSO
No imprimir casos por fuera del orden de clasificación.
LOWI
Imprimir todos los registros que tengan un identificador de caso menor de BEGINID.
Las siguientes opciones de impresión, se refieren a los listados de casos con errores (es decir,
registros faltantes, duplicaciones e inválidos).
ERRO
Imprimir resumen de errores para cada caso con un error.
NOER
No imprimir resumen de errores para casos con errores.
BADR
Imprimir registros rechazados (malos) para casos con errores.
GOOD
Imprimir registros aceptados (buenos) para casos con errores.
EXTRAS=0/n
DUPS=0/n
PADS=0/n
Si un caso tiene un número de registros inválidos (extra/duplicados/con relleno) inferior a n y no
otros errores, no se imprime. Ası́, un caso que tenga solamente 2 registros inválidos y no le falten
registros o no tenga registros duplicados, no se imprime si se asigna EXTRAS=3; pero, por otra
parte, se imprime de acuerdo con la especificación en PRINT si le falta 1 registro.
Por defecto: se imprimen todos los casos con errores, de acuerdo con las especificaciones de PRINT.
3. Descripciones de registros (obligatoria: una por cada tipo de registro que se seleccione como salida).
Las reglas de codificación son las mismas de los parámetros. Cada descripción de registro debe comenzar
en una nueva lı́nea.
Ejemplo:
RECID=21
RIDLOC=1
RECID=3
RIDLOC=2
PAD=’43599999998889999999881119’
RECID=xxxxx
Un código de tipo de registro, de 1-5 caracteres no blancos. Debe encerrarse entre comillas sencillas
si contiene caracteres en minúsculas.
Sin valor por defecto.
RIDLOC=i
Columna inicial para el identificador de campo.
Sin valor por defecto.
PAD=’xxx....’
Valores a usar cuando se rellena un registro de este tipo. La cadena de valores debe estar entre
comillas sencillas cuando contenga caracteres no alfanuméricos. El primer carácter se colocará en
la columna 1 del registro rellenado de salida, etc. Para pasar a la lı́nea siguiente, coloque un guión.
Si la longitud de la cadena es menor que la longitud de registro, entonces el resto se rellena hacia
la derecha con el PADCH especificado en la proposición del parámetro.
Por defecto: se usa PADCH para toda la cadena.
Nota: los valores correctos de los identificadores de caso y registro, se insertan automáticamente
en las posiciones correctas, en el registro que se ha rellenado.
14.8 Restricciones
14.8.
127
Restricciones
1. La longitud máxima del registro de entrada es 128.
2. El número máximo de registros de salida por caso es 50.
3. El programa reserva un espacio de trabajo para un máximo de 60 registros con valor igual del identificador de caso. En esta cuenta se incluyen los registros válidos, duplicados, inválidos y registros
rellenados por el programa. MERCHECK termina la ejecución cuando en el area de trabajo hay más
de 60 registros con un identificador de caso igual.
4. La longitud máxima combinada de los identificadores de campo dentro de un caso en particular, es de
40 caracteres.
5. La longitud máxima de un campo identificador de registro es de 5 caracteres consecutivos no blancos.
6. La longitud máxima de una constante para verificación es de 12 caracteres.
7. El número máximo de campos identificadores de caso es 5.
14.9.
Ejemplos
Ejemplo 1. Verificar la intercalación de tres registros por caso, los cuales tienen tipos de registro 1, 2 y 3
respectivamente; los registros faltantes se rellenan: registros 1 y 2 se rellenan con blancos y el registro 3 se
rellena con una copia de los valores dados en el parámetro PAD; los casos con registros no válidos (cuando
todos los registros de un caso tienen tipos de registro inválidos), se escriben en el archivo BAD; los registros
que presenten un máximo de cuatro registros duplicados, también se escriben en el archivo BAD (si un caso
tiene 5 o más duplicados de un tipo de registro en particular, entonces se guarda como un caso bueno usando
el quinto duplicado y eliminando los otros).
$RUN MERCHECK
$FILES
PRINT
= MERCH1.LST
FT02
= \DEMO\BAD.DAT
archivo de registros malos de salida
DATAIN = \DEMO\DATA1.DAT
archivo Datos de entrada
DATAOUT = \DEMO\DATA2.DAT
archivo Datos de salida (sólo con casos buenos)
$SETUP
VERIFICACION DE INTERCALACION DE DATOS
IDLO=(1,3,5,6,10,10) RECO=3 DELE=ALLM DUPK=5 WRITE=BADRECS MAXE=200
RECID=1 RIDLOC=12
RECID=2 RIDLOC=12
RECID=3 RIDLOC=12
PAD=’99999999999399999999999999999999999999999999999999999999999999999999999999999999’
Ejemplo 2. Verificar los datos, borrando casos con registros faltantes y eliminando casos que no pertenecen
al estudio; el archivo Datos contiene dos registros por caso; se guardan los casos con registros duplicados
(se desechan todos, excepto el primero de una serie de registros duplicados); hay un tipo de registro TT en
las columnas 4 y 5 de un registro y un tipo AB en las columnas 7 y 8 del otro registro; el identificador del
estudio, HST, debe aparecer en las columnas 124-126 de cada registro.
128
Verificación de intecalación de registros (MERCHECK)
$RUN MERCHECK
$FILES
FT02
= BAD.DAT
archivo de registros malos de salida
DATAIN = DATA.DAT RECL=126
archivo Datos de entrada
DATAOUT = GOOD.DAT
archivo Datos de salida (sólo con casos buenos)
$SETUP
VERIFICACION DE INTERCALACION DE DATOS
IDLO=(1,3) RECO=2 WRITE=BADRECS MAXE=20 CONS=HST CLOC=(124,126)
RECID=TT RIDLOC=4
RECID=AB RIDLOC=7
Capı́tulo 15
Corrección de datos (CORRECT)
15.1.
Descripción general
CORRECT ofrece la facilidad de corregir la información contenida en un dataset IDAMS. Se pueden corregir
valores de las variables individuales en casos especificados o eliminar casos en forma total.
CORRECT sirve para corregir errores en variables individuales de casos especı́ficos que hayan sido detectados por BUILD, CHECK o CONCHECK. La preparación de instrucciones de actualización es fácil. Las
verificaciones se llevan a cabo de manera que exista compatibilidad entre los datos y la corrección y se
imprime una buena documentación en la cual se describen todas las correcciones hechas.
Operación del programa. CORRECT lee primero el diccionario y almacena la información acerca de
todas las variables del dataset. A continuación se procesan las instrucciones de corrección. Después de leer
una instrucción, CORRECT lee el archivo Datos y copia los casos hasta identificar el caso especificado en la
instrucción. CORRECT ejecuta la instrucción, bién sea, imprimiendo el caso o revisando los valores de las
variables seleccionadas y llevando el caso al archivo de salida o eliminándolo del mismo, según lo apropiado.
Cuando se han agotado todas las instrucciones, los casos restantes, si los hay, se copian al archivo de salida
y la ejecución termina en forma normal. Si hay errores en el orden de clasificación de las instrucciones de
corrección o en el orden de clasificación de los casos, y también, si hay errores de sintaxis en las instrucciones
de corrección, CORRECT informa de la situación en el listado de salida y pasa a la instrucción siguiente.
Corrección de variables. El usuario especifica la identificación del caso seguida de los números de variables
que se van a corregir, junto con sus nuevos valores. Se pueden corregir las variables numéricas (enteras o
decimales) y alfabéticas.
Corrección de variables de identificación de casos. Si se va a corregir un campo de identificación, se
afectará, normalmente, el orden de clasificación y por lo tanto debe usarse el parámetro CKSORT=NO. Si
la variable de identificación contiene caracteres no-numéricos erróneos, entonces se encierra su valor entre
comillas sencillas en la instrucción de corrección.
Eliminación de casos. El usuario puede eliminar un caso del archivo Datos mediante la especificación de
la información de identificación del caso y la palabra “DELETE”.
Listado de casos. El usuario puede escoger un caso en particular para imprimirlo con la especificación de
la identificación del caso y la palabra “LIST”.
15.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Se puede escoger un subconjunto de casos para procesar y llevar a la
salida mediante la inclusión de un filtro estándar. La selección de variables es inapropiada.
Transformación de datos. Las proposiciones de Recode no se pueden usar.
130
Corrección de datos (CORRECT)
Tratamiento de datos faltantes. CORRECT no hace distinción entre datos verdaderos y valores de datos
faltantes; el concepto no aplica a la operación del programa.
15.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Se imprimen los registros del diccionario
para todas las variables, no solamente aquellos que corresponden a las que se van a corregir.
Listado de las instrucciones de corrección. Siempre se imprimen las instrucciones de corrección. El
programa también imprime, en forma opcional, con cada corrección: (1) registros de datos de entrada, (2)
registros eliminados, o (3) registros corregidos (ver el parámetro PRINT).
15.4.
Dataset de salida
Siempre sale una copia del diccionario. Si no se necesita, la definición de archivo DICTOUT puede omitirse.
Los datos se copian siempre al archivo de salida, aún si no hay correcciones o eliminaciones.
15.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario de IDAMS. Normalmente, CORRECT espera que
los casos vengan clasificados en orden ascendente por las variables de identificación de caso. Sin embargo,
el usuario puede indicar (con el parámetro CKSORT) que los casos no se encuentran en orden ascendente.
Esta opción debe usarse con precaución: el orden de las instrucciones de corrección debe ser exactamente el
mismo orden de los datos en el archivo.
15.6.
Estructura del setup
$RUN CORRECT
$FILES
Especificación de archivos
$SETUP
1.
2.
3.
4.
Filtro (opcional)
Tı́tulo
Parámetros
Instrucciones de corrección (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de salida
datos de salida
resultados (por defecto IDAMS.LST)
15.7 Proposiciones de control del programa
15.7.
131
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE V1=10,20,30 AND V12=1,3,7
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
CORRECCION DE CODIGOS ALFA EN LA ELECCION DE 2001
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
PRINT=CORRECTIONS, IDVARS=V4
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada. Si MAXC=0, en todas
las instrucciones de corrección se verifican los errores de sintáxis pero no se procesan los datos.
Por defecto: se usan todos los casos.
IDVARS=(lista de variables)
Hasta 5 números de variable para los campos de identificación de caso. Si se especifica más de un
identificador de campo, los números de variables deben suministrarse en orden de clasificación de
mayor a menor.
Sin valor por defecto.
CKSORT=YES/NO
Indica si se debe verificar la clasificación del orden ascendente secuencial de los campos de identificación. La ejecución termina si se detecta un caso fuera de orden.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
PRINT=(DELETIONS, CORRECTIONS, CDICT/DICT)
DELE
Listar los casos para los cuales se especificó una instrucción de eliminación en las
instrucciones de correción.
CORR
Listar los casos corregidos.
CDIC
Imprimir el diccionario de entrada para todas las variables con registros C, si los hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Instrucciones de corrección. Estas proposiciones indican cual de las opciones de listar, eliminar o
corregir se van a aplicar y para cuales casos.
Ejemplos:
ID=1026,V5=9,V6=22
ID=’PEDRO PEREZ’,DELETE
ID=091,3,LIST
ID=023,16,V8=’DON_T’,V9=’TEACH|RES’
(Para el caso con identificador "1026", cambie
el valor de V5 a 9 y el valor de V6 a 22).
(Elimine el caso con identificador "PEDRO PEREZ"
del archivo de salida).
(Listar el caso con identificador "091", "3").
(Cambiar el valor de V8 a DON’T y de V9 a TEACH,RES).
132
Corrección de datos (CORRECT)
Reglas de codificación
Cada instrucción de corrección debe comenzar en una lı́nea nueva. Para seguir a otra lı́nea, interrumpa
después de la coma al final de una corrección completa de variable y coloque un guión. Se pueden usar
tantas lı́neas de continuación como sean necesarias. Pueden aparecer blancos en cualquier lugar de las
instrucciones.
Los casos y las instrucciones de corrección deben estar clasificados exactamente en el mismo orden
relativo según los identificadores.
Valores de identificación de caso
El caso a corregir se identifica con la palabra clave “ID=” seguida del valor o valores de la variable
o variables de identificación.
La lista de valores en la instrucción no va entre paréntesis.
Cada valor, incluido el último, debe estar seguido de una coma y el orden de los valores debe
corresponder al orden de las variables en la lista de variables de identificación especificadas con
el parámetro IDVARS.
El número de dı́gitos o de caracteres en un valor debe ser igual al ancho de la variable como se
haya establecido en el diccionario, es decir, puede ser necesario incluir los ceros a la izquierda.
Valores que contengan caracteres no numéricos deben encerrarse entre comillas sencillas, por ej.
ID=9, ’PAM’.
Tipo de instrucción
La identificación de caso está seguida de la palabra “LIST”, de la palabra “DELETE” o de una cadena
de corrección de variables.
Correcciones de variables
Una corrección de variable consiste en un número de variable precedido de una “V” y seguido de
un “=” y del valor correcto, por ej. V3=4.
Correcciones de variable para diferentes variables en el mismo caso se separan con comas.
Valores de corrección para variables numéricas pueden especificarse sin ceros a la izquierda.
Si la variable incluye cifras decimales, se puede colocar el punto decimal pero éste no se escribe en
el archivo de salida. Los dı́gitos se alinean de acuerdo con el número de cifras decimales indicado
en el diccionario y se redondean los dı́gitos decimales en exceso.
Si el valor contiene caracteres no numéricos, éste debe encerrarse entre comillas sencillas. Una
coma intercalada debe representarse como una barra vertical y una comilla sencilla intercalada
debe representarse como un guión de subrayado; el programa convertirá la barra vertical y el
subrayado a la coma y a la comilla sencilla respectivamente, por ej. v8=’Don t’).
Los valores de corrección para valores alfabéticos deben encajar con el ancho de la variable. Si
el valor de corrección contiene blancos o caracteres en minúsculas, éste debe encerrarse entre
comillas sencilas.
15.8.
Restricción
El número máximo de variables identificadoras de caso es 5.
15.9.
Ejemplo
Corrección de un archivo Datos; se van a corregir variables numéricas y alfabéticas y se van a eliminar dos
casos; los casos se identifican con las variables V1, V2 y V5; no se cambia el diccionario y por lo tanto, no
se requiere diccionario de salida.
15.9 Ejemplo
$RUN CORRECT
$FILES
PRINT
= CORRECT1.LST
DICTIN = DATA1.DIC
archivo Diccionario de entrada
DATAIN = DATA1.DAT
archivo Datos de entrada
DICTOUT = DATA2.DIC
archivo Diccionario de salida (igual a entrada)
DATAOUT = DATA2.DAT
archivo Datos de salida (corregido)
$SETUP
CORRECCION DE UN ARCHIVO DE DATOS
IDVARS=(V1,V2,V5)
ID=311,01,21,V12=’JUAN MOLINA’
ID=311,05,41,DELETE
ID=557,11,32,V58=199,V76=2,V90=155
ID=559,11,35,V12=’AGATA CHRISTI’,V13=’F’
ID=657,31,11,V58=100,V77=4,V90=105,V36=999999,V37=999999,V38=999999, V41=98,V44=99
ID=711,15,11,DELETE
133
Capı́tulo 16
Importación/exportación de datos
(IMPEX)
16.1.
Descripción general
El programa IMPEX hace importación y exportación de datos en formato libre o formato DIF, e importación
y exportación de matrices en formato libre. En un archivo de formato libre los campos pueden separarse con
un carácter de tabulación, un blanco, la coma, punto y coma o con otro carácter dado por el usuario. El
carácter usado en notación decimal puede ser el punto o la coma. Un archivo Datos importado/exportado
puede contener números y nombres de variable como nombrestas de columnas. Un archivo Matriz importado/exportado puede contener números de variable/valores de código y nombres de variable/nombres de
código como nombres de columnas/filas.
Importación de datos. El programa crea un nuevo dataset de IDAMS a partir de un archivo de datos
ASCII existente en formato libre o formato DIF (un formato para intercambio de datos desarrollado por
Software Art ProductsCorp.) y a partir de un diccionario IDAMS. El diccionario de entrada es para definir
cómo se van a transferir los campos del archivo Datos de entrada al dataset IDAMS de salida.
Exportación de datos. El programa crea un nuevo archivo de datos ASCII que contiene variables de un
dataset existente de IDAMS y variables nuevas definidas con proposiciones Recode de IDAMS. El archivo
exportado puede ser de formato libre o formato DIF.
Importación de matrices. El programa crea un archivo Matriz de IDAMS a partir de un archivo ASCII
en formato libre que contenga un triangulo inferior de una matriz cuadrada o una matriz rectangular.
Exportación de matrices. El programa crea un archivo ASCII que contiene todas las matrices almacenadas en un archivo Matriz de IDAMS. Para exportar matrices sólo se dispone del formato libre.
16.2.
Caraterı́sticas estándar de IDAMS
Selección de casos y variables. El filtro estándar está disponible para seleccionar un subconjunto de casos
de los datos de entrada cuando se solicita exportar datos. También en exportación de datos, la selección de
variables se hace con el paramétro OUTVARS.
Transformación de datos. Si se exportan datos, se pueden usar las proposiciones de Recode.
Tratamiento de datos faltantes. No se verifican datos faltantes a excepción de la verificación que se hace
con Recode en la exportación datos. En la importación de datos, los campos vacı́os (campos vacios entre
delimitadores consecutivos) se reemplazan con el primer código de datos faltantes o con un campo de nueves
si no se ha definido el primer código de datos faltantes.
136
16.3.
Importación/exportación de datos (IMPEX)
Resultados
Importación de datos
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Los registros descriptores de variable y
registros C, si los hay, para todas las variables incluidas en el diccionario de entrada.
Nombres y códigos de columnas de entrada. (Opcional: ver los parámetros PRINT y EXPORT/IMPORT).
Se imprimen los nombres y los códigos de columnas (sin formato) tal como se leen del archivo de entrada.
Datos de entrada. (Opcional: ver el parámetro PRINT). Se imprimen sin formato para todos los casos las
lı́neas de datos de entrada, tal como se leen del archivo de entrada.
Diccionario de salida. (Opcional: ver el parámetro PRINT).
Datos de salida. (Opcional: ver el parámetro PRINT). Se dan los valores para todos los casos y todas las
variables, 10 valores por lı́nea, en el mismo orden de las lı́neas de datos de entrada.
Exportación de datos
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Los registros descriptores de variable y
registros C, si los hay, sólo para variables usadas en la ejecución.
Datos de salida. (Opcional: ver el parámetro PRINT). Se dan los valores de las variables V o R para todos
los casos, 10 valores por lı́nea. Para variables alfabéticas sólo se imprimen los primeros 10 caracteres.
Importación de matrices
Matriz de entrada. (Opcional: ver el parámetro PRINT). Se imprime la matriz que se encuentra en el
archivo ASCII de entrada, con o sin nombres y códigos de columnas.
Exportación de matrices
Matrices de entrada. (Opcional: ver el parámetro PRINT). Se imprimen las matrices que se encuentran
en el archivo Matriz de IDAMS de entrada, con o sin registros descriptores de variable o de nombres de
código.
16.4.
Archivos de salida
Importación
La salida es un dataset IDAMS o una matriz IDAMS segun se haya solicitado una importación de datos o
de matriz.
En el caso de un dataset IDAMS, los valores de las variables numéricas se editan de acuerdo con las reglas
de IDAMS (ver el capı́tulo “Los datos en IDAMS”).
Campos numéricos vacı́os (es decir, cadenas vacı́as entre caracteres delimitadores) en un formato libre se
reemplazan con el primer código de datos faltantes o con nueves si el primer código de datos faltantes no
está definido.
Exportación
La salida es un archivo ASCII cuyo contenido varı́a de acuerdo con los requerimientos de exportación.
Datos en formato DIF. Este es un archivo con secciones “Header” (encabezamiento) y “Data” (datos). Los
VECTORS corresponden a variables IDAMS y los TUPLES a los casos. Adicionalmente a los ı́tems requeridos
de encabezamiento, se usa LABEL (un ı́tem estándar opcional) para exportar nombres de variables. En la
sección DATA, el indicador de valor “V” se usa siempre para valores numéricos. Se usa punto decimal o
coma en la notación decimal cuando el número de decimales definido en el diccionario es mayor que cero.
Datos en formato libre. Este es un archivo en el cual los valores de variables se separan con un delimitador
(ver los parámetros WITH y DELCHAR) y los casos se separan, adicionalmente, con retornos de carro más
caracteres de alimentación de lı́nea. Para valores numéricos, se incluye un punto decimal o una coma (ver el
parámetro DECIMALS) si el número de decimales definido en el diccionario es mayor que cero. Los valores
16.5 Archivos de entrada
137
de variables alfabéticas pueden estar entre comillas sencillas o comillas dobles, o sin encerrar entre caracteres
especiales (ver el parámetro STRINGS).
Matriz en formato libre. El formato de las matrices producidas por IMPEX es el mismo que el formato
requerido para matrices importadas (ver “Importación de matrices” en la sección “Archivos de entrada” más
atrás). La única diferencia es que se insertan caracteres adicionales de separación para asegurar la posición
correcta de los nombre de filas y columnas en un paquete de hoja electrónica.
16.5.
Archivos de entrada
Importación de datos
Para importar datos, la entrada es:
un archivo ASCII con un arreglo de datos en formato libre en el cual los campos están separados con un
delimitador y un diccionario IDAMS el cual define como transferir datos a un dataset IDAMS (deben
describirse todos los campos en el diccionario de entrada);
un archivo de datos en formato DIF, y también un diccionario IDAMS.
Los archivos de entrada también pueden tener información de diccionario. Para archivos de formato libre ésto
significa que los nombres y códigos de columna (los cuales corresponden a nombres de variable y números
de variable) se suministran con el arreglo de datos como primeras filas del arreglo. Los nombres y códigos
son ambos opcionales. Si se suministran, los nombres de columna reemplazan a los nombres de variable del
diccionario de entrada y se insertan en el diccionario de salida. Pueden encerrarse entre caracteres especiales
(ver el parámetro STRINGS). Los códigos de columna sólo se usan para verificar contra los números de
variable del diccionario de entrada. Para archivos de formato DIF, los nombres de columna aparecen como
ı́tems LABEL en la sección de “Header” (encabezamiento). Los códigos de columna pueden estar presentes
como primera fila en el arreglo de datos.
Importación de matrices
Para importación de matrices, la entrada es siempre un archivo ASCII en formato libre en el cual los valores
numéricos/cadenas de caracteres se separan con un delimitador. Campos vacı́os (es decir, cadenas vacı́as
entre caracteres delimitadores) se saltan. Cada archivo puede tener una sóla matriz para importar.
El archivo Matriz de entrada puede opcionalmente suministrar información del diccionario consistente en
una serie de cadenas para nombrar columnas/filas de la matriz y los valores correspondientes de código. Si
se suministran, deben seguir la sintáxis dada más adelante (la cual es diferente para matrices rectangulares
y cuadradas).
Matriz rectangular
Esta es un archivo ASCII que contiene un arreglo rectangular de valores en formato libre; puede incluir
información del diccionario.
Ejemplo.
Salario promedio; Grupo de edad; Sexo;
Hombre; Mujer;
1;2;
20 - 30;1;600;530;
31 - 40;2;650;564;
41 - 60;3;723;618;
Formato.
1. Las primeras tres cadenas contienen: (1) una descripción del contenido de la matriz, (2) el tı́tulo de
fila (“nombre de variable de fila”) y (3) el tı́tulo de columna (“nombre de variable de columna”).
(Opcional).
2. Nombres de columna. (Opcional: un nombre para una columna de valores en el arreglo).
138
Importación/exportación de datos (IMPEX)
3. Códigos de columna (Opcional: un código para una columna de valores en el arreglo).
4. El arreglo de valores. (Puede contenir opcionalmente un nombre y un código de fila antes de cada fila
de valores).
Nota. Si los nombres de fila y columna, y códigos no están presentes, se generan automáticamente para la
matriz IDAMS de salida (nombres como R-#0001, R-#0002, ... C-#0001, C-#0002, ... y códigos desde 1
hasta el número de filas y columnas respectivamente).
Matriz cuadrada
Esta es un archivo ASCII que contiene un triángulo inferior izquierdo de una matriz triangular inferior (sin
los elementos de la diagonal) y opcionalmente vectores de medias y desviaciones estándar después de la
matriz como una serie de datos en formato libre.
Ejemplo.
;;Paris;Londres;Bruselas;Madrid; ...
;;1;2;3;4; ...
Paris;1;
Londres;2;0.55;
Bruselas;3;0.45;0.35;
Madrid;4;1.45;2.35;1.15;
.
.
.
Formato.
1. Nombres de columna (“nombres de variable”). (Opcional: tantos nombres como columnas/filas de
valores en el arreglo).
2. Códigos de columna (“números de variable”). (Opcional: tantos códigos como columnas/filas de valores
en el arreglo).
3. El arreglo de valores. (Puede contenir opcionalmente un nombre y código de fila antes de cada fila de
valores).
4. Un vector de medias. (Opcional).
5. Un vector de desviaciones estándar. (Opcional).
Nota. Si los nombres o códigos no están presentes, se generan automáticamente para la matriz IDAMS de
salida (nombres como V-#0001, V-#0002, ... y códigos desde 1 hasta el número de filas/columnas respectivamente).
Exportación de datos y matrices
Según se vaya a exportar datos o una matriz, la entrada es un archivo Datos descrito por un diccionario
IDAMS (se pueden usar variables numéricas y alfabéticas) o un archivo Matriz IDAMS cuadrada o rectangular.
16.6 Estructura del setup
16.6.
139
Estructura del setup
$RUN IMPEX
$FILES
Especificación de archivos
$RECODE (opcional con exportación de datos; no disponible otramente)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. Tı́tulo
3. Parámetros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
16.7.
diccionario de entrada para exportar/importar datos
(omitir si se usa $DICT)
datos/matriz de entrada (omitir si se usa $DATA)
diccionario de salida para importar datos
datos/matriz de salida
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución si se ha especificado
exportación de datos.
Ejemplo:
EXCLUDE V19=2-3
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
EXPORTACION DE INDICADORES DE DESARROLLO SOCIAL
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
EXPORT=(DATA,NAMES) FORMAT=DELIMITED WITH=SPACE
IMPORT=(DATA/MATRIX, NAMES, CODES)
DATA
Se solicita importar datos.
MATR
Se solicita importar matriz.
NAME
Se incluyen nombres de variable en el archivo Datos a importar. Se incluyen nombres
de variable/de código en el archivo Matriz a importar.
CODE
Se incluyen números de variable en el archivo Datos a importar. Se incluyen números
de variable/valores de código en el archivo Matriz a importar.
140
Importación/exportación de datos (IMPEX)
EXPORT=(DATA/MATRIX, NAMES, CODES)
DATA
Se solicita exportar datos.
MATR
Se solicita exportar matriz.
NAME
Se exportan nombres de variable en el archivo Datos de salida. Se exportan nombres
de variable/de código en el archivo Matriz de salida.
CODE
Se exportan números de variable en el archivo Datos de salida. Se exportan números
de variable/valores de código en el archivo Matriz de salida.
Nota. Sin valor por defecto. Se debe especificar IMPORT o EXPORT (no ambos).
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para el(los) archivo(s) de entrada:
archivo Datos o Matriz para importar (ddname por defecto: DATAIN),
archivos Diccionario y Datos para exportar (ddnames por defecto: DICTIN, DATAIN),
archivo Matriz IDAMS para exportar (ddname por defecto: DATAIN).
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos a exportar o importar y los valores con “amplitud insuficiente de campo” en salida. Ver el capı́tulo “El archivo Setup de IDAMS”.
MAXCASES=n
Sólo se aplica si se ha especificado importación/exportación de datos.
Número máximo de casos (después de filtrar) a usar del archivo Datos de entrada.
Por defecto: se usan todos los casos.
MAXERR=0/n
Número máximo de errores “amplitud insuficiente de campo” permitido antes de detener la ejecución. Estos errores se presentan cuando el valor de una variable es muy grande para caber en
el campo asignado, por ej. un valor de 250 cuando se ha especificado un ancho de campo de 2.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para el(los) archivo(s) de salida:
archivos Diccionario y Datos obtenidos por importación (ddnames por defecto: DICTOUT, DATAOUT),
archivo Matriz IDAMS obtenido por importación (ddname por defecto: DATAOUT),
archivo Datos o archivo Matriz exportado (ddname por defecto: DATAOUT).
OUTVARS=(lista de variables)
Se aplica sólo si se ha especificado exportación de datos.
Las variables V y R que se van a exportar. El orden de las variables en la lista no es significativo
ya que salen en orden numérico ascendente. Todos los números de las variables V y R deben ser
únicos.
Sin valor por defecto.
MATSIZE=(n,m)
Se aplica sólo si se ha especificado importación de matriz.
Número de filas y columnas de la matriz a importar. El programa supone una matriz rectangular
si han especificado ambos y una matriz cuadrada simétrica si uno de ellos se ha omitido.
n
Número de filas.
m
Número de columnas.
Sin valor por defecto.
16.7 Proposiciones de control del programa
141
FORMAT=DELIMITED/DIF
Especifica el formato de los datos/la matriz de entrada para importación o el formato de los
datos/la(s) matriz(ces) de salida para exportación.
DELI
Los datos/la(s) matriz(ces) se esperan en formato libre, en el cual los campos están
separados por un delimitador (ver adelante).
DIF
Los datos se esperan en formato DIF.
Nota: el formato DIF está disponible sólo para exportar o importar datos.
WITH=SPACE/TABULATOR/COMMA/SEMICOLON/USER
(Condicional: ver FORMAT=DELIMITED).
Especifica el carácter delimitador para separar campos de archivos en formato libre.
SPAC
Un carácter en blanco (código ASCII: 32).
TABU
Un carácter de tabulación (código ASCII: 9).
COMM La coma “,” (código ASCII: 44).
SEMI
El punto y coma “;” (código ASCII: 59).
USER
Un carácter especificado por el usuario (ver el parámetro DELCHAR más adelante).
Nota: cuando se importan/exportan archivos DIF, siempre se usa COMMA como carácter delimitador, independientemente del que se haya seleccionado.
DELCHAR=’x’
(Condicional: ver el parámetro WITH=USER atrás).
Define el carácter usado para separar campos de archivos en formato libre.
Valor por defecto: blancos.
DECIMALS=POINT/COMMA
Define el carácter usado en notación decimal.
POIN
El punto “.” (código ASCII: 46).
COMM La coma “,” (código ASCII: 44).
STRINGS=PRIME/QUOTE/NONE
Define el carácter para encerrar cadenas de caracteres.
PRIM
Comillas sencillas.
QUOT
Comillas dobles.
NONE
No se usa un carácter especial.
Nota: en importación/exportación de archivos DIF, siempre se usa QUOTE, independientemente
de lo que se haya seleccionado.
NDEC=2/n
Número de cifras decimales a retener en exportación.
PRINT=(DICT/CDICT/NODICT, DATA)
DICT
Imprimir diccionario sin registros C.
CDIC
Imprimir diccionario con registros C, si los hay.
DATA
Imprimir los datos/la(s) matriz(ces).
Nota:
a) Las opciones de impresión del diccionario controlan la impresión del diccionario de salida y de
entrada.
b) La opción de impresión de datos controla la impresión de datos de salida si se está exportando
un archivo Datos; controla la impresión de datos la salida y la entrada si se está importando un
archivo Datos (nunca se imprime la entrada si se importa un archivo de formato DIF).
c) Para matrices, la matriz de entrada se imprime si se ha especificado imprimir datos.
142
Importación/exportación de datos (IMPEX)
16.8.
Restricciones
1. El número máximo de variables R que se pueden exportar es 250.
2. El número máximo de variables que se pueden usar en una ejecución (incluidas las variables usadas
solamente en proposiciones de Recode) es 500.
3. El número máximo de filas de matriz es 100.
4. El número máximo de columnas de matriz es 100.
5. El número máximo de casillas de matriz es 1000.
16.9.
Ejemplos
Ejemplo 1. Variables escogidas del dataset de entrada se transfieren al archivo de salida junto con las dos
nuevas variables; los datos salen en formato libre y sus valores se separan con punto y coma; se usa coma
en la notación decimal y los valores alfabéticos se encierran entre comillas dobles; los nombres y números de
variable se incluyen en el archivo de salida.
$RUN IMPEX
$FILES
PRINT
= EXPDAT.LST
DICTIN = OLD.DIC
archivo Diccionario de entrada
DATAIN = OLD.DAT
archivo Datos de entrada
DATAOUT = EXPORTED.DAT
archivo Datos exportado
$SETUP
EXPORTACION DE DATOS IDAMS DE FORMATO FIJO A DATOS DE FORMATO LIBRE
EXPORT=(DATA,NAMES,CODES) BADD=MD1 MAXERR=20 OUTVARS=(V1-V20,V33,V45-V50,R105,R122) FORMAT=DELIM WITH=SEMI DECIM=COMMA STRINGS=QUOTE
$RECODE
R105=BRAC(V5,15-25=1,<36=2,<46=3,<56=4,<66=5,<90=6,ELSE=9)
MDCODES R105(9)
NAME R105’GRUPOS DE EDAD’
IF MDATA(V22) THEN R122=99.9 ELSE R122=V22/3
MDCODES R122(99.9)
NAME R122’ARTICULOS POR A~
NO’
Ejemplo 2. Se importan datos en formato DIF a IDAMS; nombres y códigos de columna se incluyen en el
archivo de entrada y se usa la coma para notación decimal.
$RUN IMPEX
$FILES
PRINT
= IMPDAT.LST
DICTIN = IDA.DIC
archivo Diccionario que describe
los datos a importar
archivo Datos a importar
archivo Diccionario de salida
archivo Datos de salida
DATAIN = IMPORTED.DAT
DICTOUT = IDAFORM.DIC
DATAOUT = IDAFORM.DAT
$SETUP
IMPORTACION DE DATOS EN FORMATO DIF A DATASET IDAMS DE FORMATO FIJO
IMPORT=(DATA,NAMES,CODES) BADD=MD1 MAXERR=20 FORMAT=DIF DECIM=COMMA
16.9 Ejemplos
143
Ejemplo 3. Se exporta un conjunto de matrices rectangulares creadas con el programa TABLES; los campos
se separan con punto y coma y la coma se usa para notación decimal; los nombres y códigos de fila y columna
se incluyen en el archivo de la matriz de salida; se imprimen las matrices de entrada.
$RUN IMPEX
$FILES
PRINT
= EXPMAT.LST
DATAIN = TABLES.MAT
archivo con las matrices rectangulares
DATAOUT = EXPORTED.MAT
archivo con las matrices exportadas
$SETUP
EXPORTACION DE MAT RECTANG DE IDAMS EN FORMATO FIJO A MAT DE FORMATO LIBRE
EXPORT=(MATRIX,NAMES,CODES) PRINT=DATA
FORMAT=DELIM WITH=SEMI DECIM=COMMA
STRINGS=QUOTE
Ejemplo 4. Importación de una matriz cuadrada que contiene medidas de distancia para 10 objetos numerados de 1 a 10; sólo se incluyen valores enteros y se separan con el signo % ; los codigos de fila/columna
ası́ como los vectores de medias y desviaciones estándar se incluyen en el archivo de la matriz.
$RUN IMPEX
$FILES
PRINT
= IMPMAT.LST
DATAOUT = IMPORTED.MAT
archivo con la matriz importada
$SETUP
IMPORTACION DE UNA MAT EN FORMATO LIBRE A MAT CUADRADA IDAMS DE FORMATO FIJO
IMPORT=(MATRIX,CODES) MATSIZE=10
FORMAT=DELIM WITH=USER DELCH=’%’
$DATA
$PRINT
%
1%
2%
3%
4%
5%
6%
7%
8%
9% 10%
1%
2%38%
3%72%25%
4%24%53%17%
5%64%26%76%18%
6%48%25%63%15%61%
7%12%50%7%42%8%8%
8%19%7%13%4%14%1%15%
9%29%37%34%21%24%35%3%5%
10%32%57%29%45%26%28%74%24%61%
%46%15%7%7119%74%38%9%19%34%256%
%9%11%84%8971%23%28%12%20%35%843%
Capı́tulo 17
Listado de datasets (LIST)
17.1.
Descripción general
LIST se usa para imprimir los datos de un archivo, las variables recodificadas e información del diccionario
IDAMS asociado. Se pueden seleccionar variables especı́ficas para ser impresas o se pueden listar todos los
datos y/o el diccionario.
Cada registro de un archivo Datos es una flujo continuo de valores. Cuando se imprime tal como es, resulta
difı́cil distinguir los valores de variables adyacentes. LIST elimina esta inconveniencia porque ofrece un
formato de impresión de datos que separa los valores de las variables.
Se puede imprimir un diccionario IDAMS sin su correspondiente archivo Datos mediante el suministro de
un archivo ficticio (es decir, un archivo vacı́o o nulo), al definir el archivo Datos.
17.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Los casos se pueden seleccionar con un filtro o con la opción de saltar
casos (SKIP). La opción de saltar, si se usa, especifica que se imprime el primer caso y después cada n-ésimo
caso. Si se especifica un filtro, la opción de saltar se aplica a los casos que han pasado por el filtro. De los
casos seleccionados, se imprimen los valores de los datos para todas las variables descritas en el diccionario
o para un subconjunto si se ha especificado el parámetro VARS.
Transformación de datos. Se pueden usar las proposiciones de Recode.
Tratamiento de datos faltantes. Los valores de datos faltantes se imprimen tal como se presentan, sin
causar acción especial.
17.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variable y registros
C, si los hay, solamente para variables utilizadas en la ejecución. Si se escogen para imprimir todas las
variables, entonces se imprime el diccionario completo en orden secuencial.
Datos. Las variables numéricas se imprimen con el punto decimal explı́cito, si lo hay, y sin ceros a la
izquierda. Si un valor desborda el ancho de campo, éste se imprime como una cadena de asteriscos. Los datos
malos reemplazados por códigos de datos faltantes por defecto se imprimen como blancos. Se imprimen los
valores de una variable en una columna que se extiende con el número de páginas necesarias para abarcar
todos los casos escogidos para imprimir. El siguiente es un bosquejo en bloque del formato de impresión:
146
Listado de datasets (LIST)
v
v
v
v
xxx
xxx
xxx
xxx
.
.
xxxx
xxxx
xxxx
xxxx
.
.
x
x
x
x
.
.
xxxxxxxx
xxxxxxxx
xxxxxxxx
xxxxxxxx
.
.
Los encabezamientos v de las columnas representan los números de las variables y las x representan los
valores de las variables. Si el usuario pide más variables de las que caben en una fila (127 caracteres), LIST
hará un número de pasadas al archivo de datos e imprimirá tantas variables como pueda cada vez. Por
ejemplo, si se van a imprimir 50 variables, LIST lee los datos, escribe todos los valores, digamos para las
primeras 10 variables. Después lee nuevamente los datos y escribe, digamos para las siguientes 12 variables
y ası́ sucesivamente. El número de variables impresas en cada pasada, depende de los anchos de campo de
las variables que se van a imprimir y es calculado automáticamente por LIST.
Secuencia e identificación de casos. Existen opciones para imprimir un número secuencial de caso y/o de
los valores de las variables de identificación en cada caso (ver parámetros PRINT e IDVARS). Se imprimen
como las primeras columnas.
Variables de Recode. Se imprimen con 11 dı́gitos incluidos un punto decimal explı́cito y dos cifras decimales.
17.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Si sólo se necesita un listado del
diccionario, el archivo Datos se especifica como NUL.
17.5.
Estructura del setup
$RUN LIST
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. Tı́tulo
3. Parámetros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)
17.6 Proposiciones de control del programa
17.6.
147
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE V5=100-199
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
LISTADO DEL ESTUDIO: 113A
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
VARS=(V3,V10-V25) IDVARS=V1
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
MAXCASES=n
Número máximo de casos a imprimir.
Por defecto: se imprimen todos los casos.
SKIP=n
Se imprime cada caso n-ésimo (o cada caso n-ésimo que pase por el filtro), comenzando por el
primer caso. El último caso siempre se imprime a no ser que la opción MAXCASES lo prohiba.
Por defecto: se imprimen todos los casos (o todos los casos que pasen por el filtro).
VARS=(lista de variables)
Imprimir los datos de las variables especificadas. Los valores de variables se imprimen en el orden
en que aparecen en esta lista.
Por defecto: se imprimen todas las variables del diccionario.
IDVARS=(lista de variables)
Se imprimen los valores de la(s) variable(s) especificada(s) para identificar cada caso.
SPACE=3/n
Número de espacios entre columnas. El valor máximo es SPACE=8.
PRINT=(CDICT/DICT, SEQNUM, LONG/SHORT, SINGLE/DOUBLE)
CDIC
Imprimir el diccionario de entrada para todas las variables con registros C, si los hay.
DICT
Imprimir el diccionario de entrada sin registros C.
SEQN
Imprimir un número secuencial para cada caso que se imprima. Nótese que los casos
se numeran después de pasar por el filtro.
LONG
Asume 127 caracteres por lı́nea de impresión.
SHOR
Asume 70 caracteres por lı́nea de impresión.
SING
Espacio sencillo entre lı́neas.
DOUB
Doble espacio entre lı́neas.
17.7.
Restricción
La suma de los anchos de campo de las variables que se van a imprimir, incluidos las variables identificadoras
de caso, debe ser menor o igual a 10,000 caracteres.
148
Listado de datasets (LIST)
17.8.
Ejemplos
Ejemplo 1. Listar 50 variables, incluida una variable de recodificación; todos los casos se imprimirán con
sus variables de identificación (V1, V2 y V4); se imprimirá el diccionario pero sin registros C.
$RUN LIST
$FILES
PRINT = LIST1.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$RECODE
R6=BRAC(V6,0-50=1,51-99=2)
$SETUP
LISTADO DE 50 VARIABLES CON 3 VARIABLES ID CON CADA GRUPO
IDVA=(V1,V2,V4) VARS=(V3-V49,V59,V52,R6) PRIN=DICT
Ejemplo 2. Imprimir un diccionario completo con registros C, sin imprimir los datos.
$RUN LIST
$FILES
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = NUL
$SETUP
LISTADO COMPLETO DE UN DICCIONARIO
PRIN=CDICT
Ejemplo 3. Verificación de una recodificación mediante el listado de valores de variables de entrada y de
variables recodificadas para 10 casos.
$RUN LIST
$FILES
DICTIN = A.DIC
archivo Diccionario de entrada
DATAIN = A.DAT
archivo Datos de entrada
$RECODE
R101=COUNT(1,V40-V49)
IF MDATA(V9,V10) THEN R102=99 ELSE R102=V9+V10
R103=BRAC(V16,15-24=1,25-34=2,35-54=3,ELSE=9)
$SETUP
VERIFICACION DE LOS VALORES DE TRES VARIABLES RECODIFICADAS
MAXCASES=10 SKIP=10 SPACE=1 VARS=(V40-V49,R101,V9,V10,R102,V16,R103)
Capı́tulo 18
Intercalación de datasets (MERGE)
18.1.
Descripción general
MERGE intercala variables que vienen de casos en un dataset IDAMS, con variables que vienen de un
segundo dataset, emparejando los casos con una(s) variable(s) comun(es) de emparejamiento. Los casos en
los dos datasets no tienen que ser idénticos; esto es, todos los casos presentes en un dataset, no tienen que
estar en el otro. El archivo Datos de salida está compuesto de registros que tienen variables especificadas
por el usuario de cada uno de los dos datasets de entrada, junto con su correspondiente diccionario IDAMS.
Con el objeto de distinguir los dos datasets de entrada, uno se llama “dataset A” y el otro “dataset B” en
la documentación del programa.
Combinación de datasets con colecciones idénticas de casos. Un ejemplo de uso del programa es
la combinación de los datos de la primera y subsiguiente series de entrevistas con la misma colección de
encuestados.
Combinación de datasets con recolecciones diferentes de casos. Cuando hay más de una serie de
entrevistas en una encuesta, algunos encuestados pueden retirarse y otros incluirse. El programa permite
estas discrepancias entre datasets y se le puede solicitar, por ejemplo, que produzca registros de salida para
todos los encuestados, incluidos aquellos entrevistados en una sola serie. En este ejemplo, los valores de las
variables para una serie en la cual un encuestado no fue entrevistado, saldrán como datos faltantes.
Combinación de datasets con diferentes niveles de datos. También se usa MERGE para combinar
dos datasets diferentes, uno de los cuales contiene datos más agregados que el otro. Por ejemplo, los datos
de hogares se pueden añadir a registros individuales de miembros de familia.
18.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Se puede especificar un filtro para uno o para los dos datasets de entrada.
La única diferencia en el formato del filtro es que debe estar precedido de una “A:” o de una “B:” en las
columnas 1-2, para indicar el dataset al cual se aplica el filtro.
Las variables de salida seleccionadas o todas las variables de salida de cada dataset de entrada se pueden
incluir en el dataset de salida. Estas variables de salida se especifican en una lista de variables que tiene el
formato usual, excepto que las variables se denotan con una “A” o una “B” (en vez de “V”) para indicar
el dataset de entrada en el cual se encuentran. Por ejemplo, “A1, B5, A3-A45” selecciona las variables V1,
V3-V45 del dataset A y la variable V5 del dataset B. Ver la descripción de variables de salida en la sección
“Proposiciones de control del programa”.
Transformación de datos. Las proposiciones de Recode no se pueden usar.
Tratamiento de datos faltantes. Para las opciones de salida MATCH=UNION, MATCH=A y MATCH=B,
se usan los códigos de datos faltantes como valores para las variables de salida que no están disponibles para
un caso particular. Ver el parágrafo “Manejo de casos que aparecen en un dataset de entrada solamente” en
la sección que describe el dataset de salida más adelante. Los códigos de datos faltantes se obtienen de los
150
Intercalación de datasets (MERGE)
diccionarios de los datasets A y B. El usuario indica para cada dataset si se usa el primero o segundo código
de datos faltantes, y ésto para todas las variables de este dataset (ver los parámetros APAD y BPAD). Si
una variable no tiene un código de datos faltantes apropiado en el diccionario, se usan espacios en blanco en
el dataset de salida.
Los datos faltantes nunca salen como el valor de una variable de salida que sea también una variable de
emparejamiento, por que una variable de emparejamiento siempre está disponible en el dataset que contiene
el caso. Por ejemplo, si se selecciona MATCH=UNION, supongamos que las variables A1 y B3 se han
seleccionado como las variables de emparejamiento y que sólo A1 se imprimió como variable de salida (A1 y
B3 no se imprimen ambas ya que presumiblemente, tienen el mismo valor): entonces, si faltó un caso en el
dataset A, el valor de la variable de salida A1 será el valor de la variable B3.
18.3.
Resultados
Números de variable anteriores (de entrada) versus números de variable nuevos (de salida).
(Opcional: ver el parámetro PRINT). Una carta que contiene los números de las variables de entrada y los
números de referencia y los números correspondientes de las variables de salida y números de referencia.
Diccionario de salida. (Opcional: ver el parámetro PRINT).
Documentación de casos sin emparejar en cualquiera de los datasets A o B. Hay varias maneras
de documentar los casos sin emparejar, es decir, casos que aparecen sólo en un dataset (ver el parámetro
PRINT).
Se pueden imprimir los valores de las variables de emparejamiento:
- cuando las variables de salida de cualquiera de los datasets se rellenan con datos faltantes,
- cuando se eliminan casos del dataset A,
- cuando se eliminan casos del dataset B.
Se pueden imprimir los valores de las variables del dataset A cuando un caso del dataset A no encaja
con ningún caso del dataset B. Las variables se imprimen en el orden especificado para el dataset en
la lista de variables de salida, seguida de la lista de variables de emparejamiento que tampoco son
variables de salida.
Se pueden imprimir los valores de las variables del dataset B cuando un caso del dataset B no encaja
con ningún caso del dataset A. Las variables se imprimen en el orden especificado para el dataset en
la lista de variables de salida, seguida de la lista de variables de emparejamiento que tampoco son
variables de salida.
Conteo de casos. El programa imprime el número de casos existentes en los datasets A y B, el número de
casos en el dataset A y que no están en el dataset B, el número de casos en el dataset B y que no están en
el dataset A y el número total de casos escritos en la salida.
18.4.
Dataset de salida
La salida es un nuevo archivo Datos y un diccionario IDAMS correspondiente.
Cada registro de datos contiene el valor de las variables de salida para emparejar casos de los datasets A y
B. Nótese que una variable de emparejamiento no se produce automáticamente: el usuario debe incluir la(s)
variable(s) de emparejamiento a partir de uno de los datasets en la lista de variables de salida para asignar
al registro de salida un identificador de caso.
Manejo de casos que aparecen solamente en un solo dataset de entrada. Hay cuatro acciones
posibles:
1. MATCH=INTERSECTION. Los casos que aparecen en un solo dataset de entrada no se incluyen en
el dataset de salida. (Si los datasets A y B se consideran como conjuntos de casos, la salida es la
intersección de los conjuntos A y B).
18.4 Dataset de salida
151
2. MATCH=UNION. Cualquier caso que aparezca en cualquiera de los datasets de entrada se incluye en
el dataset de salida. A las variables del dataset de entrada que no contengan el caso se les asignan
valores de datos faltantes en el dataset de salida. (La salida es la unión de los conjuntos A y B).
3. MATCH=A. Cualquier caso que aparezca en el dataset A, se incluye en el dataset de salida, mientras
que un caso que sólo aparece en el dataset B, no se incluye. Si un caso sólo se encuentra en el dataset
A, a las variables del dataset B se les asignan valores de datos faltantes en el dataset de salida para
ese caso. (La salida es el conjunto A).
4. MATCH=B. Tiene la misma acción que la opción 3, pero el dataset B define cuales casos se incluyen
en el dataset de salida. (La salida es el conjunto B).
Manejo de casos duplicados. Cuando uno de los dos datasets de entrada contiene más de un caso con el
mismo valor en la variable o variables de emparejamiento, se dice que el dataset contiene casos duplicados.
Normalmente (es decir, cuando no se especifica el parámetro DUPBFILE) el programa imprime un mensaje
que señala la presencia de duplicados y luego los trata cada uno como un caso diferente. Los casos escritos
en el dataset de salida dependerán de la opción escogida en MATCH. El cuadro siguiente muestra cómo
funciona esto.
Intercalación de archivos con duplicados (sin especificar DUPBFILE)
Entrada
A
ID
01
01
02
|
|
N1 |
|
EVA |
ANA |
CORA |
|
Salida
B
|
|
ID N2
|
|
01 ADAN |
02 PEDRO |
03 JORGE |
|
MATCH = UNION |
|
ID
N1
N2 |
|
01 EVA ADAN |
01 ANA ____ |
02 CORA PEDRO |
03 ____ JORGE |
MATCH = A
ID
01
01
02
|
|
N1
N2
|
|
EVA ADAN |
ANA ____ |
CORA PEDRO |
|
MATCH = B
ID
01
02
03
|
|
N1
N2
|
|
EVA ADAN |
CORA PEDRO |
____ JORGE |
|
MATCH =INTER
ID
N1
N2
01 EVA ADAN
02 CORA PEDRO
Sin embargo, los duplicados se pueden interpretar y manejar de una manera diferente cuando uno de los dos
datasets contiene casos en un nivel de análisis más bajo que el otro. Por ejemplo, un dataset contiene datos de
hogares y el segundo contiene datos de miembros de hogares. En este caso, las variables de emparejamiento
especificadas para cada dataset serı́an la identificación de los hogares. Ası́, naturalmente se presentarán
duplicados en el dataset de “miembros de hogares”, ya que la mayorı́a de hogares tienen más de un miembro.
Al especificar el parámetro DUPBFILE, no se imprime mensaje de presencia de duplicados y se construyen
casos para cada caso “duplicado” en el dataset B con las variables del caso de emparejamiento del dataset
A, copiadas en cada caso construido. El siguiente cuadro muestra un ejemplo de este procedimiento.
Intercalación de archivos a diferentes niveles (se especificó DUPBFILE)
Entrada
A
|
|
ID N1 |
|
01 ALVA |
03 MORA |
04 RIZO |
|
|
|
|
B
|
|
ID N2
|
|
01 ANA
|
01 EVA
|
01 PEDRO |
02 CORA |
02 ADAN |
03 JORGE |
|
Salida
MATCH = UNION |
|
ID
N1 N2
|
|
01 ALVA ANA
|
01 ALVA EVA
|
01 ALVA PEDRO |
02 ____ CORA |
02 ____ ADAN |
03 MORA JORGE |
04 RIZO _____ |
MATCH = A
|
|
ID N1
N2
|
|
01 ALVA ANA
|
01 ALVA EVA
|
01 ALVA PEDRO |
03 MORA JORGE |
04 RIZO ____ |
|
|
MATCH = B
|
|
ID N1
N2
|
|
01 ALVA ANA
|
01 ALVA EVA
|
01 ALVA PEDRO |
02 ____ CORA |
02 ____ ADAN |
03 MORA JORGE |
|
MATCH = INTER
ID N1
N2
01
01
01
03
ANA
EVA
PEDRO
JORGE
ALVA
ALVA
ALVA
MORA
Orden y numeración de variables. La salida de variables se lleva acabo en el orden en el que aparecen
en la lista de variables de salida y siempre se renumeran a partir del valor dado en el parámetro VSTART.
152
Intercalación de datasets (MERGE)
Ası́, una lista de variables de salida tal como “A1-A5, B6, A7-A25,B100” crea un dataset con variables de
V1 a V26 si VSTART=1. Los números de referencia de variables, si los hay, se transfieren sin modificar al
diccionario de salida.
Localización de variables. MERGE asigna la localización de variables a partir de la primera variable de
salida y luego continúa en orden a través de la lista de variables de salida.
18.5.
Dataset de entrada
MERGE necesita dos archivos de datos de entrada, cada uno de ellos descrito por un diccionario IDAMS.
Las variables de emparejamiento pueden ser alfabéticas o numéricas. Las variables de emparejamiento correspondientes que vienen de los datasets A y B, deben tener el mismo ancho de campo.
Las variables de salida pueden ser alfabéticas o numéricas.
Cada archivo de datos de entrada debe estar clasificado en orden ascendente por las variables de emparejamiento, antes de usar MERGE.
18.6.
Estructura del setup
$RUN MERGE
$FILES
Especificación de archivos
$SETUP
1.
2.
3.
4.
5.
Filtro(s) (opcional)
Tı́tulo
Parámetros
Especificación de variables de emparejamiento
Variables de salida
$DICT (condicional)
Diccionario (ver Nota más adelante)
$DATA (condicional)
Datos (ver Nota más adelante)
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
DICTzzzz
DATAzzzz
PRINT
diccionario de entrada del dataset A (omitir
datos de entrada del dataset A (omitir si se
diccionario de entrada del dataset B (omitir
datos de entrada del dataset B (omitir si se
diccionario de salida
datos de salida
resultados (por defecto IDAMS.LST)
si se usa $DICT)
usa $DATA)
si se usa $DICT)
usa $DATA)
Nota. En el setup, se puede introducir uno de los datasets de entrada A o B, pero no ambos. Sin embargo,
los registros que siguen a continuación de $DICT y $DATA se copian en los archivos definidos por DICTIN
y DATAIN respectivamente. Entonces, si el dataset A se coloca en el setup, el dataset A estará definido por
DICTIN y DATAIN y se debe especificar el parámetro INAFILE=IN. De la misma manera, si el dataset B
va en el setup, se debe especificar el parámetro INBFILE=IN.
18.7 Proposiciones de control del programa
18.7.
153
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3, a continuación.
1. Filtro(s) (opcional). Selecciona un subconjunto de casos de los datasets A y/o B para usar en la
ejecución. Nótese que cada proposición de filtro debe estar precedida por “A:” o “B:” en las columnas
1 y 2 para indicar a cual dataset se va a aplicar el filtro.
Ejemplo:
A: INCLUDE V1=10,20,30
B: INCLUDE V1=10,20,30
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
INTERCALACION DE DATOS DE MAESTROS Y ESTUDIANTES
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
MATCH=INTE PRINT=(A,B)
INAFILE=INA/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos A de entrada.
Por defecto: DICTINA, DATAINA.
INBFILE=INB/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos B de entrada.
Por defecto: DICTINB, DATAINB.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo A de entrada.
Por defecto: se usan todos los casos.
MATCH=INTERSECTION/UNION/A/B
INTE
Llevar a la salida sólo los casos que aparezcan en ambos datasets A y B.
UNIO
Llevar a la salida los casos que aparezcan en uno de los dos o en ambos datasets A y
B, rellenando las variables con datos faltantes cuando sea necesario.
A
Llevar a la salida sólo los casos que aparezcan en el dataset A, rellenando las variables
que vienen del dataset B con datos faltantes cuando sea necesario.
B
Llevar a la salida sólo los casos que aparezcan en el dataset B, rellenando las variables
que vienen del dataset A con datos faltantes cuando sea necesario.
Sin valor por defecto.
DUPBFILE
Un caso en el dataset A puede emparejarse con uno o más casos (es decir, duplicados) del dataset
B. Para cada emparejamiento, se crea un registro de salida, dependiendo del parámetro MATCH.
Nota: el dataset con los duplicados esperados debe definirse como el dataset B.
Por defecto: los casos duplicados en cualquiera de los datasets serán anotados en los resultados y
entonces serán tratados como casos diferentes según la especificación en el parámetro MATCH.
OUTFILE=OUT/zzzz
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
VSTART=1/n
Número de variable para la primera variable en el dataset de salida.
154
Intercalación de datasets (MERGE)
APAD=MD1/MD2
Cuando se rellenan las variables de A con datos faltantes:
MD1
Llevar a la salida el primer código de datos faltantes.
MD2
Llevar a la salida el segundo código de datos faltantes.
BPAD=MD1/MD2
Cuando se rellenan las variables de B con datos faltantes:
MD1
Llevar a la salida el primer código de datos faltantes.
MD2
Llevar a la salida el segundo código de datos faltantes.
PRINT=(PAD/NOPAD, ADELETE/NOADELETE, BDELETE/NOBDELETE, VARNOS,
A, B, OUTDICT/OUTCDICT/NOOUTDICT)
PAD
Imprimir los valores de las variables de emparejamiento cuando se rellenen cualesquiera
variables de los datasets A o B con códigos de datos faltantes.
ADEL
Imprimir los valores de la variable de emparejamiento para el dataset A cada vez que
no se incluya un caso del dataset A en el archivo de datos de salida.
BDEL
Imprimir los valores de la variable de emparejamiento para el dataset B cada vez que
no se incluya un caso del dataset B en el archivo de datos de salida.
VARN
Imprimir un listado con los números de las variables de los datasets de entrada y sus
correspondientes números de variable en el dataset de salida.
A
Imprimir todos los valores de las variables de emparejamiento y de salida para los casos
que aparezcan solamente en el dataset A, estén o no estén incluidas en el dataset de
salida.
B
Imprimir todos los valores de las variables de emparejamiento y de salida para los casos
que aparezcan solamente en el dataset B, estén o no estén incluidas en el dataset de
salida.
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
NOOU
No imprimir el diccionario de salida.
4. Especificación de variables de emparejamiento (mandatorio). Esta proposición define las variables de los datasets A y B que se van a comparar para emparejar los casos. Nótese que cada archivo
Datos de entrada debe estar clasificado, con la(s) variable(s) de emparejamiento como llaves de clasificación antes de usar MERGE.
Ejemplo:
A1=B3, A5=B1
Lo cual significa que para emparejar un caso del dataset A con un caso del dataset B, el valor de la
variable V1 del dataset A, debe ser igual al valor de la variable V3 del dataset B y similarmente para
las variables V5 y V1.
Formato general
An=Bm, Aq=Br, ...
Reglas de codificación
El ancho de campo de las dos variables que se van a comparar debe ser idéntico. La comparación
se hace carácter por carácter, no numéricamente. Ası́, “0.9” no es equivalente a “009”, ni “ 9”
es igual a “09”. Si el ancho de campo no es el mismo, use el programa TRANS para cambiar el
ancho de una de las variables antes de usar MERGE.
Cada par de variables de emparejamiento está separado con una coma.
Puede haber blancos en cualquier parte de la proposición.
Para continuar en otra lı́nea, termine la información en una coma y coloque un guión para indicar
continuación.
5. Variables de salida (mandatorio). Definen cuales variables de cada uno de los datasets de entrada
se van a transferir a la salida y cual es su orden de salida.
18.8 Restricciones
Ejemplo:
155
A1, B2, A5-A10, B5, B7-B10
Lo que significa que el dataset de salida contendrá la variable V1 del dataset A, seguida por la variable
V2 del dataset B, seguida por las variables V5 hasta V10 del dataset A, etc. en ese orden.
Reglas de codificación
Las reglas de codificación son las mismas que las de la especificación de variables con el parámetro
VARS, excepto que se usan las letras A y B en vez de la letra V. Cada número de variable del
dataset A está precedido de una “A” y cada número de variable del dataset B está precedido de
una “B”.
Las variables duplicadas en la lista, se cuentan como variables separadas.
18.8.
Restricciones
1. El número máximo de variables de emparejamiento de cada dataset es 20.
2. Las variables de emparejamiento deben ser del mismo tipo y ancho de campo en cada dataset.
3. La longitud total máxima del conjunto de variables de emparejamiento de cada dataset es 200 caracteres.
18.9.
Ejemplos
Ejemplo 1. Combinación de registros de dos datasets con el mismo número de casos; en ambos datasets,
los casos se identifican con las variables 1 y 3; todas las variables se seleccionan de cada uno de los datasets
de entrada.
$RUN MERGE
$FILES
DICTOUT = AB.DIC
archivo Diccionario de salida
DATAOUT = AB.DAT
archivo Datos de salida
DICTINA = A.DIC
archivo Diccionario de entrada del dataset A
DATAINA = A.DAT
archivo Datos de entrada del dataset A
DICTINB = B.DIC
archivo Diccionario de entrada del dataset B
DATAINB = B.DAT
archivo Datos de entrada del dataset B
$SETUP
COMBINACION DE REGISTROS DE 2 DATASETS CON EL MISMO NUMERO DE CASOS
MATCH=UNION
A1=B1,A3=B3
A1-A112,B201-B401
Ejemplo 2. Combinación de datasets con número de casos diferentes; sólo los casos con registros en ambos
datasets se llevan a la salida; los casos se identifican con las variables 2 y 4 en el primer dataset y con
las variables 105 y 107 respectivamente en el segundo dataset; las variables en el dataset de salida serán
renumeradas a partir del número 201 y se pide un listado de referencias; sólo se tomarán las variables
seleccionadas de cada dataset de entrada.
$RUN MERGE
$FILES
los mismos del ejemplo 1
$SETUP
COMBINACION DE REGISTROS DE 2 DATASETS CON DIFERENTE NUMERO DE CASOS
MATCH=INTE VSTA=201 PRIN=VARNOS
A2=B105,A4=B107
B105,B107,A36-A42,B120,B131
156
Intercalación de datasets (MERGE)
Ejemplo 3. Combinación de datasets con datos de niveles diferentes; los casos del dataset A se combinan
con un subconjunto de casos del dataset B; un caso del dataset A puede aparearse con uno o más casos
del dataset B; los casos del dataset A que no se emparejen con un caso del subconjunto del dataset B se
descartan y no se imprimen.
$RUN MERGE
$FILES
los mismos del ejemplo 1
$SETUP
B: INCLUDE V18=2 AND V21=3
COMBINACION DE 2 DATASETS CON DIFERENTES NIVELES DE DATOS
MATCH=B DUPB
A1=B15
B15,A2,A6-A12,B20-B31,B40
Ejemplo 4. Se va a calcular el ingreso por hogar a partir de un dataset de miembros de hogares y luego
intercalarlo con los registros individuales de los miembros; se usa primero AGGREG para sumar los ingresos
(V6) de los individuos en los hogares; V3 es la variable que identifica cada hogar; el dataset de salida de
AGGREG (definido por DICTAGG y DATAAGG) contendrá 2 variables, el identificador de hogar (V1) y
el ingreso por hogar (V2); este dataset se usa en seguida como el dataset “A” de MERGE para sumar el
ingreso por hogar apropiado (variable A2) al registro original de cada individuo (variables B1-B46).
$RUN AGGREG
$FILES
PRINT
= MERGE4.LST
DICTIN = INDIV.DIC
archivo Diccionario de entrada
DATAIN = INDIV.DAT
archivo Datos de entrada
DICTAGG = AGGDIC.TMP
archivo temporal Diccionario de salida de AGGREG
DATAAGG = AGGDAT.TMP
archivo temporal Datos de salida de AGGREG
DICTOUT = INDIV2.DIC
archivo Diccionario de salida de MERGE
DATAOUT = INDIV2.DAT
archivo Datos de salida de MERGE
$SETUP
SUMA DE LOS INGRESOS
IDVARS=V3 AGGV=V6 STATS=SUM OUTF=AGG
$RUN MERGE
$SETUP
FUSION DEL INGRESO POR HOGAR CON LOS REGISTROS INDIVIDUALES
INAFILE=AGG INBFILE=IN DUPB MATCH=B
A1=B3
B1-B46,A2
Nótese que una vez que se han hecho las asignaciones de datasets bajo $FILES, no es necesario repetirlas si
se vuelven a usar en pasos siguientes.
Capı́tulo 19
Clasificación e intercalación de
archivos (SORMER)
19.1.
Descripción general
SORMER le permite al usuario ejecutar Clasificar/Intercalar de una manera más conveniente ya que permite,
mediante el uso de los formatos de los parámetros de IDAMS, especificar la información de los campos de
control para clasificación o intercalación. Si el archivo Datos está descrito por un diccionario IDAMS, entonces
se puede enviar a la salida una copia del diccionario correspondiente a los datos clasificados y los campos
de clasificación se especifican con las variables apropiadas; en caso contrario, se especifican a través de su
localización.
Orden de clasificación. El usuario debe especificar si los datos se van a clasificar/intercalar en orden
ascendente o descendente.
19.2.
Caracterı́sticas estándar de IDAMS
SORMER es un programa utilitario y no contiene ninguna de las caracterı́sticas estándar de IDAMS.
19.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, para las variables claves de classificacción.
Resultados de Clasificar/Intercalar. Número de registros clasificados/intercalados.
19.4.
Diccionario de salida
Una copia del diccionario de entrada que corresponde al archivo Datos de salida.
19.5.
Datos de salida
La salida es un archivo con los mismos atributos del archivo o archivos de entrada cuyos registros están
clasificados según el orden solicitado.
158
Clasificación e intercalación de archivos (SORMER)
19.6.
Diccionario de entrada
Si los campos de clasificación se especifican con números de variable, entonces se debe entrar un diccionario
IDAMS con registros T, como mı́nimo para estas variables. Sólo se permiten diccionarios que describan un
registro por caso.
19.7.
Datos de entrada
Para clasificar, se lee un solo archivo Datos el cual contiene uno o más campos (o variables) cuyos valores
definen el orden de clasificación deseado.
Para intercalar, la entrada consiste de 2-16 archivos Datos, cada uno con el mismo formato de registro,
es decir, la misma longitud de registro y los campos que definen el orden de clasificación en las mismas
posiciones. Cada archivo debe haberse clasificado previamente con los campos de control de intercalación,
antes de pasar a intercalar los archivos.
19.8.
Estructura del setup
$RUN SORMER
$FILES
Especificación de archivos
$SETUP
1. Tı́tulo
2. Parámetros
$DICT (condicional)
Diccionario para las variables de los campos de clasificación/intercalación
Archivos para clasificar:
DICTxxxx
diccionario IDAMS para las variables de los campos de clasificación
(omitir si se usa $DICT)
SORTIN
datos de entrada
DICTyyyy
diccionario de salida
SORTOUT
datos de salida
Archivos para intercalar:
DICTxxxx
diccionario IDAMS para las variables de los campos de intercalación
(omitir si se usa $DICT)
SORTIN01
1er archivo de datos
SORTIN02
2do archivo de datos
.
.
DICTyyyy
diccionario de salida
SORTOUT
datos de salida
PRINT
resultados (por defecto IDAMS.LST)
Nota. Cuando se solicita la ejecución de SORMER más de una vez en un archivo Setup, las definiciones
para el archivo de entrada en la ejecución subsiguiente, solamente modifican pero no reemplazan las definiciones del archivo de entrada especificadas previamente, por ej. si SORTIN01, SORTIN02 y SORTIN03 se
especifican para la primera ejecución y SORTIN01 y SORTIN02 se especifican para la segunda ejecución en
el mismo setup, los “nuevos” SORTIN01 y SORTIN02, ası́ como el “antiguo” SORTIN03 se tomarán para
la intercalación.
19.9 Proposiciones de control del programa
19.9.
159
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-2, a continuación.
1. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
CLASIFICACION ONDA UNO
2. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
KEYVARS=(V2,V3)
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para el archivo Diccionario de entrada.
Por defecto: DICTIN.
OUTFILE=yyyy
Un sufijo de ddname de 1-4 caracteres para el archivo Diccionario de salida.
Debe especificarse para obtener en la salida una copia del diccionario de entrada.
SORT/MERGE
SORT
Se clasifican los datos de entrada.
MERG
Se intercalan dos o más archivos de datos.
ORDER=A/D
A
Clasificación ascendente sobre los campos de clasificación.
D
Clasificación descendente.
KEYVARS=(lista de variables)
Lista de las variables que se van a usar como campos de clasificación (se debe suministrar el
diccionario IDAMS).
Nota: el archivo Datos debe tener sólo un registro por caso para seleccionar esta opción. Si hay
más de un registro por caso, usar KEYLOC.
KEYLOC=(I1,F1, I2,F2, ...)
In
Localización del comienzo del n-ésimo campo de clasificación.
Fn
Localización del final del n-ésimo campo de clasificación. Debe especificarse aún si tiene
el mismo valor de la posición de comienzo de campo.
Nota. Sin valor por defecto. Se debe especificar uno de los dos parámetros KEYVARS o bién KEYLOC,
pero no ambos.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables de clasificación con registros C,
si los hay.
DICT
Imprimir el diccionario de entrada sin los registros C.
19.10.
Restricciones
1. Se pueden intercalar hasta 16 archivos como máximo.
2. Se puede especificar un máximo de 12 campos de control o variables para clasificar/intercalar.
3. El número máximo de registros depende del espacio de disco disponible para el archivo de salida y
para los archivos de trabajo SORTWK01, 02, 03, 04, 05. Estos archivos de trabajo pueden asignarse a
un disco diferente al disco por defecto si es necesario.
160
Clasificación e intercalación de archivos (SORMER)
19.11.
Ejemplos
Ejemplo 1. Intercalar tres archivos con igual formato, clasificados previamente; cada archivo está descrito
por el mismo diccionario IDAMS; los casos se clasifican en orden ascendente sobre tres variables: V1, V2 y
V4.
$RUN SORMER
$FILES
PRINT
= SORT1.LST
DICTIN
= \SURV\DICT.DIC
archivo
SORTIN01 = DATA1.DAT
archivo
SORTIN02 = DATA2.DAT
archivo
SORTIN03 = DATA3.DAT
archivo
DICTOUT = \SURV\DATA123.DIC
archivo
SORTOUT = \SURV\DATA123.DAT
archivo
$SETUP
INTERCALAR DE TRES ARCHIVOS DE DATOS: DATA1
MERG KEYVARS=(V1,V2,V4) OUTF=OUT
Diccionario de entrada
Datos 1 de entrada
Datos 2 de entrada
Datos 3 de entrada
Diccionario de salida
Datos de salida
DATA2 Y DATA3
Ejemplo 2. Clasificar un archivo de datos en orden descendente sobre dos campos: el primer campo tiene
4 caracteres de longitud y comienza en la columna 12; el segundo campo tiene una longitud de 2 caracteres
y comienza en la columna 3; no se usa diccionario.
$RUN SORMER
$FILES
SORTIN = RAW.DAT
archivo Datos de entrada
SORTOUT = SORT.DAT
archivo Datos de salida
$SETUP
CLASIFICACION DE UN ARCHIVO DE DATOS SIN USAR DICCIONARIO
KEYLOC=(12,15,3,4) ORDER=D
Capı́tulo 20
Subdivisión de datasets (SUBSET)
20.1.
Descripción general
SUBSET divide en subconjuntos un archivo Datos y su diccionario IDAMS correspondiente por caso y/o
variable, o copia los archivos completos.
Verificación del orden de clasificación. El programa tiene una opción para verificar que los casos se
encuentren clasificados en orden ascendente, basado en una lista de variables de clasificación (ver el parámetro
SORTVARS). Los casos adyacentes con identificación duplicada no se consideran fuera de orden. Sin embargo
hay una opción para eliminar las duplicaciones de cualquier caso.
20.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. La subdivisión de un caso en subconjuntos se lleva a cabo con un filtro
que selecciona un conjunto particular de casos del dataset de entrada. La selección de variables se hace al
definir un conjunto de variables de entrada que se van a transferir al dataset de salida. Las variables pueden
salir en cualquier orden y pueden ser transferidas más de una vez, si los números de variable de salida son
renumerados.
Transformación de datos. Las proposiciones de Recode no se pueden usar.
Tratamiento de datos faltantes. SUBSET no hace distinción entre datos sustantivos y valores de datos
faltantes; todos los datos reciben el mismo tratamiento.
20.3.
Resultados
Diccionario de salida. (Opcional: ver el parámetro PRINT).
Estadı́sticas de subdivisión. La longitud del registro de salida, el número de registros del diccionario de
salida y el número de registros de datos de salida.
Números de variable anteriores (de entrada) versus números de variable nuevos (de salida).
(Opcional: ver el parámetro PRINT). Se imprime una cartilla que contiene los números de variable de entrada
y números de referencia y los correspondientes números de variable de salida y números de referencia.
Notificación de casos duplicados. (Condicional: si se verifica el orden de clasificación del archivo, todos
los casos duplicados se documentan, no importa si se ha especificado el parámetro DUPL=DELE). Para
cada identificación de caso que aparezca más de una vez en los datos, se imprime el número de duplicados,
el número secuencial y la identificación del caso. Además, el programa imprime el número de registros de
datos de entrada y el número de registros de datos de entrada eliminados.
162
Subdivisión de datasets (SUBSET)
20.4.
Dataset de salida
El archivo Datos de salida y su diccionario IDAMS correspondiente se construyen a partir del subconjunto
de casos y/o variables, especificado por el usuario a partir del archivo de entrada. Cuando se copian todas
las variables, es decir, cuando no se ha especificado OUTVARS, la estructura de los registros de salida es
idéntica a la de los registros de entrada y el diccionario de salida será una copia exacta del diccionario de
entrada. De lo contrario, la información del diccionario para las variables en el archivo de salida se asigna
de la manera siguiente:
Orden y numeración de variables. Si se ha especificado VSTART, la salida de variables se lleva acabo
en el orden en el que aparecen en la lista OUTVARS y siempre se renumeran a partir del valor dado en el
parámetro VSTART. Si no se ha especificado VSTART, el programa no cambia los números de variable y
las variables salen en orden ascendente de los números.
Localización de variables. La localización de variables se asigna de forma contigua de acuerdo con el
orden de las variables en la lista OUTVARS (si se ha especificado VSTART) o en el orden de los números
de variable después de clasificar (si no se ha especificado VSTART).
Tipo de variable, ancho y número de decimales son los mismos que sus valores de entrada.
Número de referencia. Los mismos que sus valores de entrada o modificados de acuerdo con el parámetro
REFNO.
Registros C. Los registros C del diccionario de entrada se transfieren al diccionario de salida.
20.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Se pueden usar variables numéricas o
alfabéticas.
20.6.
Estructura del setup
$RUN SUBSET
$FILES
Especificación de archivos
$SETUP
1. Filtro (opcional)
2. Tı́tulo
3. Parámetros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de salida
datos de salida
resultados (por defecto IDAMS.LST)
20.7 Proposiciones de control del programa
20.7.
163
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE V1=10,20,30 AND V2=1,5,7
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
SUBDIVISION DE LA ELECCION DE 1968, V1-V50
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
SORT=(V1,V2), DUPLICATE=DELETE
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
SORTVARS=(lista de variables)
Si se va a verificar el orden de clasificación del archivo, se especifican hasta 20 variables que definen
la secuencia de clasificación en orden de mayor a menor. Los duplicados se consideran en orden
ascendente.
DUPLICATE=KEEP/DELETE
Eliminación de casos duplicados (sólo se aplica cuando se especifica SORT).
KEEP
Lleva a la salida todos casos duplicados que se presenten.
DELE
Lleva a la salida sólo el primer caso de los casos duplicados y escribe mensaje para los
duplicados.
OUTVARS=(lista de variables)
Suministre esta lista sólo si va a salir un subconjunto de variables del dataset de entrada. Si no
se ha seleccionado VSTART, la lista de variables no puede contener duplicados. De lo contrario,
las variables pueden estar en cualquier orden y repetirse según se necesite.
Por defecto: se llevan a la salida todas las variables.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
VSTART=n
Las variables se numerarán secuencialmente a partir de n en el dataset de salida.
Por defecto: se retienen los números de variable de entrada.
REFNO=OLDREF/VARNO
OLDR
Retiene los números de referencia en los registros T y C tal como están en el dataset
de entrada.
VARN
Actualiza el campo del número de referencia en los registros C y T para que encaje
con el número de variable de salida.
164
Subdivisión de datasets (SUBSET)
PRINT=(OUTDICT/OUTCDICT/NOOUTDICT, VARNOS)
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
VARN
Imprimir una lista con los números de variables anteriores y nuevos y con los números
de referencia.
20.8.
Restricciones
1. El máximo número de variables de clasificación es 20.
2. El ancho de los campos combinados de las variables usadas para la clasificación, no puede exceder de
200 caracteres.
20.9.
Ejemplos
Ejemplo 1. Construcción de un subconjunto de casos para variables seleccionadas; las variables se renumerarán a partir de 1 y se imprimirá una tabla que muestre la numeración anterior de las variables y la nueva
numeración asignada.
$RUN SUBSET
$FILES
PRINT
= SUBS1.LST
DICTIN = ABC.DIC
archivo
DATAIN = ABC.DAT
archivo
DICTOUT = SUBS.DIC
archivo
DATAOUT = SUBS.DAT
archivo
$SETUP
INCLUDE V5=2,4,5 AND V6=2301
SUBDIVISION DE CASOS Y VARIABLES
PRINT=VARNOS VSTART=1 OUTVARS=(V1-V5,V18,V43-V57,V114,V116)
Diccionario de entrada
Datos de entrada
Diccionario de salida
Datos de salida
Ejemplo 2. Uso del programa SUBSET para verificar casos duplicados; los casos se identifican con las
variables de las columnas 1-3 y 7-8; hay un registro por caso; no se necesita dataset de salida y no se guarda.
$RUN SUBSET
$FILES
DATAIN = DEMOG.DAT
$SETUP
CHEQUEO DE CASOS DUPLICADOS
SORT=(V2,V4) PRIN=NOOUTDICT
$DICT
$PRINT
3
2
4
1
1
T
2 PRIMERA VAR ID DE CASO
T
4 SEGUNDA VAR ID DE CASO
archivo Datos de entrada
1
7
3
2
Capı́tulo 21
Transformación de datos (TRANS)
21.1.
Descripción general
El programa TRANS crea un nuevo dataset IDAMS que contiene variables de un dataset existente y nuevas
variables definidas por las proposiciones de Recode. Es la manera de “salvar” variables recodificadas.
TRANS tiene una opción de impresión y ası́ puede usarse para probar proposiciones de Recode sobre un
número pequeño de casos antes de ejecutar un programa de análisis o antes de guardar el archivo completo.
21.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. El filtro estándar está disponible para seleccionar un subconjunto de los
casos del archivo Datos de entrada. La selección de variables se lleva a cabo con el parámetro OUTVARS.
Transformación de datos. Se pueden usar las proposiciones de Recode.
Tratamiento de datos faltantes. Los códigos de datos faltantes apropiados se escriben en el diccionario
de salida; éstos se copian normalmente del diccionario de entrada pero pueden también ser obviados o
suministrados para variables de salida a través de la proposición Recode MDCODES. No se hace verificación
de datos faltantes sobre valores de datos, excepto a través del uso de proposiciones de Recode.
21.3.
Resultados
Diccionario de salida. (Opcional: ver el parámetro PRINT).
Datos de salida. (Opcional: ver el parámetro PRINT). Se dan los valores de todos los casos para cada
variable V o R, 10 variables por lı́nea. Para variables alfabéticas sólo se imprimen los primeros 10 caracteres.
21.4.
Dataset de salida
La salida es un dataset IDAMS que contiene sólo aquellas variables (V y R) especificadas en el parámetro
OUTVARS. La información del diccionario para las variables en el archivo de salida se asigna de la manera
siguiente:
Orden y numeración de variables. Si se ha especificado VSTART, la salida de variables se lleva acabo
en el orden en el que aparecen en la lista OUTVARS y siempre se renumeran a partir del valor dado en el
parámetro VSTART. Si no se ha especificado VSTART, el programa no cambia los números de variable y
las variables salen en orden ascendente de los números.
166
Transformación de datos (TRANS)
Nombre de variable y códigos de datos faltantes. Se toman del diccionario de entrada (sólo variables
V) o de las proposiciones de Recode NAME y MDCODES, si las hay.
Localización de variable. La localización de variables se asigna de forma contigua de acuerdo con el orden
de las variables en la lista OUTVARS (si se ha especificado VSTART) o en el orden de los números de
variable después de clasificar (si no se ha especificado VSTART).
Tipo de variable, ancho y número de decimales.
Variables V: tipo, ancho de campo y número de decimales son los mismos que sus valores de entrada.
Variables R: el tipo para variables R es siempre numérico; el ancho y número de decimales se asignan de
acuerdo con los valores especificados para los parámetros WIDTH (por defecto 9) y DEC (por defecto
0), o de acuerdo con los valores especificados para variables individuales con las especificaciones de
diccionario.
Número de referencia e identificador de estudio. El número de referencia y el identificador de estudio
para una variable V son sus mismos valores de entrada. Para las variables R el identificador de estudio es
siempre REC.
Registros C. No se pueden crear registros C para variables R. Los registros C (si los hay) para todas las
variables V se copian al diccionario de salida. Nótese que si una variable V es codificada nuevamente durante
una ejecución de TRANS, los registros C que salen no se pueden aplicar más a la nueva versión de la variable.
21.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Se pueden usar variables numéricas o
alfabéticas.
21.6.
Estructura del setup
$RUN TRANS
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
Filtro (opcional)
Tı́tulo
Parámetros
Especificaciones de diccionario (opcional)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de salida
datos de salida
resultados (por defecto IDAMS.LST)
21.7 Proposiciones de control del programa
21.7.
167
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-4, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
EXCLUDE V19=2-3
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
CONSTRUCCION DE INDICADORES DE VIOLENCIA
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
VSTART=1, WIDTH=2, OUTVARS=(V2-V5,R7)
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos en entrada y los valores con “amplitud insuficiente de
campo” en salida. Ver el capı́tulo “El archivo Setup de IDAMS”.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MAXERR=0/n
Máximo número de errores “insufficient-field width” (amplitud insuficiente de campo) permitido antes de detener la ejecución. Estos errores se presentan cuando el valor de una variable es
demasiado grande para caber dentro del campo asignado, por ej. un valor de 250 cuando se ha
especificado WIDTH=2. Ver el capı́tulo “Los datos en IDAMS”.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
OUTVARS=(lista de variables)
Las variables V o R que irán a la salida. El orden de las variables en la lista es siginificativo sólo
si se ha especificado el parámetro VSTART. Si no se especifica VSTART todos los números de
variables V o R deben ser únicos.
Sin valor por defecto.
VSTART=n
Las variables se numerarán secuencialmente a partir de n en el dataset de salida.
Por defecto: se retienen los números de variable de entrada.
WIDTH=9/n
Valor por defecto del ancho de campo de la variable de salida a usar para las variables R. Este
valor por defecto se puede reemplazar para variables especı́ficas con la especificación de diccionario
WIDTH. Para cambiar el ancho de campo de una variable numérica V, se crea una variable R
equivalente (ver Ejemplo 1).
DEC=0/n
Número de cifras decimales a retener para variables R.
168
Transformación de datos (TRANS)
PRINT=(OUTDICT/OUTCDICT/NOOUTDICT, DATA)
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
DATA
Imprimir los valores de las variables de salida.
4. Especificaciones de diccionario (opcional). Para cualquier conjunto particular de variables, se puede
especificar el ancho de campo y el número de cifras decimales. Estas especificaciones obviarán los valores
colocados por los parámetros principales WIDTH y DEC. Nótese que los códigos de datos faltantes y los
nombres de variables se asignan con las proposiciones de Recode MDCODES y NAME respectivamente.
Advertencia: la proposición MDCODES retiene sólo 2 cifras decimales para variables R y redondea los
valores apropiadamente.
Las reglas de codificación son las mismas de los parámetros. Cada especificación de diccionario debe
comenzar en una lı́nea nueva.
Ejemplos:
VARS=R4, WIDTH=4, DEC=1
VARS=R8, WIDTH=2
VARS=(R100-R109), WIDTH=1
VARS=(lista de variables)
La lista de variables a la cual aplican los parámetros WIDTH y DEC.
WIDTH=n
Ancho de campo para las variables de salida.
Por defecto: valor dado para el parámetro WIDTH.
DEC=n
Número de cifras decimales.
Por defecto: valor dado para el parámetro DEC.
21.8.
Restricciones
1. El máximo número de variables R que puede salir es 250.
2. El máximo número de variables que pueden ser usadas en la ejecución (incluidas las variables usadas
sólo en las proposiciones Recode) es 500.
3. El máximo número de especificaciones de diccionario es 200.
21.9.
Ejemplos
Ejemplo 1. Las variables seleccionadas del dataset de entrada se transfieren al archivo de salida junto con
las dos nuevas variables; no se cambian los números de variable; el ancho de campo de la variable de entrada
V20 se cambia a 4.
$RUN TRANS
$FILES
PRINT
= TRANS1.LST
DICTIN = OLD.DIC
archivo Diccionario de entrada
DATAIN = OLD.DAT
archivo Datos de entrada
DICTOUT = NEW.DIC
archivo Diccionario de salida
DATAOUT = NEW.DAT
archivo Datos de salida
$SETUP
CONSTRUCCION DE DOS NUEVAS VARIABLES
PRINT=NOOUTDICT OUTVARS=(V1-V19,R20,V33,V45-V50,R105,R122)
VARS=R105,WIDTH=1
VARS=R122,WIDTH=3,DEC=1
21.9 Ejemplos
169
VARS=R20,WIDTH=4
$RECODE
R20=V20
NAME R20’VARIABLE 20’
R105=BRAC(V5,15-25=1,<36=2,<46=3,<56=4,<66=5,<90=6,ELSE=9)
MDCODES R105(9)
NAME R105’GRUPOS DE EDAD’
IF MDATA(V22) THEN R122=99.9 ELSE R122=V22/3
MDCODES R122(99.9)
NAME R122’NR. ARTICULOS POR ANO’
Ejemplo 2. Este ejemplo ilustra el uso de TRANS para verificar proposiciones de Recode; se listan los
valores de los datos para las variables identificadoras (V1, V2), las variables usadas en Recode y las variables
de resultado para los primeros 30 casos; no se requiere el dataset de salida y no se define.
$RUN TRANS
$FILES
PRINT = TRANS2.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
VERIFICACION DE RECODE
WIDTH=2 PRINT=(DATA,NOOUTDICT) MAXCASES=30 OUTVARS=(V1-V2,V71-V74,V118,V12,V13,R901-R903)
$RECODE
R901=BRAC(V118,1-16=2,17=1,18-23=3,24=1,25-35=3,36=1,37=2,ELSE=9)
IF NOT MDATA(V12,V13) THEN R902=TRUNC(V12/V13) ELSE R902=99
R903=COUNT(1,V71-V74)
Ejemplo 3. Creación de un archivo de prueba con una muestra aleatoria de 1/20 del archivo Datos; no se
necesita salvar el diccionario de salida ya que será idéntico al de entrada.
$RUN TRANS
$FILES
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
DATAOUT = TESTDATA
archivo Datos de salida
$SETUP
CREA ARCHIVO PRUEBA CON TODAS VARIABLES MUESTRA DE CASOS 1/20
PRINT=NOOUTDICT OUTVARS=(V1-V505)
$RECODE
IF RAND(0,20) NE 1 THEN REJECT
Parte IV
Facilidades para análisis de datos
Capı́tulo 22
Análisis de conglomerados
(CLUSFIND)
22.1.
Descripción general
CLUSFIND hace análisis de conglomerados mediante la separatión de un conjunto de objetos (casos o
variables) en un conjunto de conglomerados según se determina por uno de seis algoritmos: dos algoritmos
basados en repartición alrededor de medoides, uno basado en conglomeración difusa y tres basados en
conglomeración jerárquica.
22.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Si entran datos primarios, se puede utilizar el filtro estándar para escoger
un subconjunto de casos de los datos de entrada. Las variables para análisis se espcifican en el parámetro
VARS.
Transformación de datos. Si entran datos primarios, se pueden usar las proposiciones de Recode.
Ponderación de datos. No se aplica el uso de variables de ponderación.
Tratamiento de datos faltantes. Si entran datos primarios, el parámetro MDVALUES está disponible
para indicar cuales valores de datos faltantes, si los hay, se usarán para verificar datos faltantes. Los casos en
los cuales hay datos faltantes para todas las variables se eliminan automáticamente. Si no, datos faltantes se
eliminan por pares. Si los datos están estandarizados, el promedio y la desviación media absoluta se calculan
usando sólo valores válidos. Cuando se calculan las distancias, sólo se consideran en la suma aquellas variables
para las cuales hay valores válidos presentes para ambos objetos.
Si entra una matriz, el parámetro MDMATRIX está disponible para indicar qué valor se va a usar para
verificar elementos inválidos en la matriz.
22.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.
Datos de entrada después de la estandarización. (Opcional: ver el parámetro PRINT). Los valores
estandarizados para todos los casos para cada variable V o R usada en el análisis, precedidos de el promedio
y la desviación absoluta media para estas variables.
Matriz de disimilitudes. (Opcional: ver el parámetro PRINT). El triángulo inferior izquierdo de la matriz,
tal como se leyó o fué calculado por el programa.
174
Análisis de conglomerados (CLUSFIND)
Resultados del análisis PAM. Para cada número de conglomerados en turno (desde CMIN a CMAX)
se imprime lo siguiente:
número de objetos representativos (conglomerados) y la distancia final promedio,
para cada conglomerado: identificador del objeto representativo, número de objetos y la lista de objetos
que pertenecen a ese conglomerado,
coordenandas de los medoides (valores de la variables de análisis para cada objeto repersentativo; sólo
para el dataset de entrada),
vector de conglomeración (un vector de números que corresponde a los objetos e indica a qué conglomerado pertenece cada objeto) y caracteristicas de conglomeración,
representación gráfica de los resultados, es decir, un gráfico de silueta para cada conglomerado (opcional
- ver el parámetro PRINT).
Resultados del análisis FANNY. Para cada número de conglomerados en turno (desde CMIN a CMAX)
se imprime lo siguiente:
número de conglomerados,
valor de la función objetivo en cada iteración,
para cada objeto, su identificador y el coeficiente de pertenencia para cada conglomerado,
coeficiente de partición de Dunn y su versión normalizada,
conglomeración dura más cercana, es decir, número de objetos y la lista de objetos que pertenecen a
cada conglomerado,
vector de conglomeración,
representación gráfica de los resultados, es decir, un gráfico de silueta para cada conglomerado (opcional
- ver el parámetro PRINT).
Resultados del análisis CLARA. Para el número de conglomerados ensayados se imprime lo siguiente:
lista de objetos seleccionados en la muestra retenida,
vector de conglomeración,
para cada conglomerado: identificador del objeto representativo, número de objetos y la lista de objetos
que pertenecen a ese conglomerado,
distancia promedio y distancia máxima a cada medoide,
representación gráfica de los resultados, es decir, un gráfico de silueta para cada conglomerado (opcional
- ver el parámetro PRINT).
Resultados del análisis AGNES contiene lo siguiente:
ordenamiento final de los objetos (identificados por su identificador) y disimilitudes entre ellos,
representación gráfica de los resultados, es decir, un gráfico de “bandera” de disimilitudes (opcional ver el parámetro PRINT).
Resultados del análisis DIANA contiene lo siguiente:
ordenamiento final de los objetos (identificados por su identificador) y diámetros de los conglomerados,
representación gráfica de los resultados, es decir, un gráfico de “bandera” de disimilitudes (opcional ver el parámetro PRINT).
Resultados del análisis MONA contiene lo siguiente:
huella de las separaciones (opcional - ver el parámetro PRINT) para cada paso, con el conglomerado
a separar, la lista de objetos (identificados por su valor de la variable identificadora) en cada uno de
los dos subconjuntos y la variable usada para la separación,
el ordenamiento final de objetos,
representación gráfica de los resultados, es decir, un gráfico de separación con la lista de objetos en
cada conglomerado y la variable usada para la separación (opcional - ver el parámetro PRINT).
22.4.
Dataset de entrada
El dataset de entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas
para análisis deben ser numéricas; pueden ser enteras o con cifras decimales. La variable identificadora de
caso puede ser alfabética. Las variables usadas en los análisis PAM, CLARA, FANNY, AGNES o DIANA
deben tener escala de intervalo. Las variables usadas en el análisis MONA deben ser binarias (con valores 0
o 1). Nótese que CLUSFIND usa como máximo 8 caracteres del nombre de la variable como se suministra
en el diccionario.
22.5 Matriz de entrada
22.5.
175
Matriz de entrada
Esta es una matriz cuadrada de IDAMS. Ver el capı́tulo “Los datos en IDAMS”. Puede contener medidas
de similitudes, disimilitudes o coeficientes de correlación. Nótese que CLUSFIND usa máximo 8 caracteres
del nombre del objeto como se suministra en los registros de identificación de variables.
22.6.
Estructura del setup
$RUN CLUSFIND
$FILES
Especificación de archivos
$RECODE (opcional con entrada de datos primarios;
no disponible con entrada matricial)
Proposiciones de Recode
$SETUP
1. Filtro (opcional, sólo para entrada de datos primarios)
2. Tı́tulo
3. Parámetros
$DICT (condicional)
Diccionario para la entrada de datos primarios
$DATA (condicional)
Datos para la entrada de datos primarios
$MATRIX (condicional)
Matriz para la entrada de la matriz
Archivos:
FT09
DICTxxxx
DATAxxxx
PRINT
22.7.
matriz de entrada
(si no se usa $MATRIX y se usa entrada matricial)
diccionario de entrada (si $DICT no se usa y INPUT=RAWDATA)
datos de entrada (si $DATA no se usa y INPUT=RAWDATA)
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución. Disponible solamente
con datos primarios de entrada.
Ejemplo:
INCLUDE V8=5-10
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
PARTICION CON CONGLOMERACION DIFUSA
176
Análisis de conglomerados (CLUSFIND)
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
ANALYSIS=PAM VARS=(V7-V12)
INPUT=RAWDATA/SIMILARITIES/DISSIMILARITIES/CORRELATIONS
RAWD
En entrada: un archivo Datos descrito por un diccionario IDAMS.
SIMI
En entrada: medidas de similitudes en la forma de una matriz cuadrada IDAMS.
DISS
En entrada: medidas de disimilitudes en la forma de una matriz cuadrada IDAMS.
CORR
En entrada: coeficientes de correlación en la forma de una matriz cuadrada IDAMS.
Parámetros sólo para entrada de datos primarios
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
MAXCASES=100/n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Su valor depende de la memoria disponible.
n=0
No ejecuta, sólo verifica los parámetros.
0<n<=100 Ejecución normal.
n>100
Sólo permite ANALYSIS=CLARA.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver
el capı́tulo “El archivo Setup de IDAMS”.
STANDARDIZE
Estandarizar las variables antes de calcular las disimilitudes.
DTYPE=EUCLIDEAN/CITY
Tipo de distancia utilizado para calcular las disimilitudes.
EUCL
Distancia euclideana.
CITY
Distancia en cuadra urbana (“city block”).
IDVAR=número de variable
Variable que se imprime como identificadora de caso. Sólo se usan tres caracteres en el listado.
Ası́, las variables enteras deben tener valores menores que 1000. Sólo se imprimen los tres primeros
caracteres de una variable alfabética.
Sin valor por defecto.
PRINT=(CDICT/DICT, STAND)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
STAN
Imprimir los datos de entrada después de la estandarización.
Parámetros sólo para entrada matricial
DISSIMILARITIES=ABSOLUTE/SIGN
Para INPUT=CORR, especifica cómo se debe calcular la matriz de disimilitudes.
ABSO
Considerar valores absolutos de coeficientes de correlación como medida de similitud.
SIGN
Usar coeficientes de correlación con sus signos.
22.8 Restricciones
177
MDMATRIX=n
Tratar los elementos de la matriz iguales a n como datos faltantes.
Por defecto: todos los valores son válidos.
PRINT=MATRIX
Imprimir la martiz de entrada.
Parámetros para ambos tipos de entrada
VARS=(lista de variables)
Variables a usar en este análisis.
Sin valor por defecto.
ANALYSIS=PAM/FANNY/CLARA/AGNES/DIANA/MONA
Especifica el tipo de análisis a hacer.
PAM
Repartición alrededor de medoides.
FANN
Conglomeración difusa.
CLAR
Repartición alrededor de medoides (igual a PAM), pero para datasets de al menos
100 casos. CLUSFIND hará un muestreo de los casos y escogerá la mejor muestra
representativa. Se extraen cinco muestras de 40+2*CMAX casos (ver el parámetro
CMAX más adelante).
Sólo para entrada de datos primarios.
AGNE
Conglomeratión jerárquica acumulativa.
DIAN
Conglomeratión jerárquica divisiva.
MONA
Conglomeración monotética de datos con variables binarias. Requiere al menos tres
variables.
Sólo para entrada de datos primarios.
Sin valor por defecto.
CMIN=2/n
Para PAM y FANNY. Número mı́nimo de conglomerados a ensayar.
CMAX=n
Para PAM y FANNY, número máximo de conglomerados a ensayar.
Para CLARA, número exacto de conglomerados ensayar.
Por defecto: el mayor de 20 y el valor especificado en CMIN.
PRINT=(DISSIMILARITIES, GRAPH, TRACE, VNAMES)
DISS
Imprimir la matriz de disimilitudes.
GRAP
Imprimir la representación gráfica de los resultados.
TRAC
Imprimir cada paso de la separación binaria cuando se especifica MONA.
VNAM
Para entrada matricial, imprimir los primeros 3 o 8 caracteres de nombres en vez de
los números de las variables como identificador del objecto.
22.8.
Restricciones
1. El número máximo de casos que se pueden usar en un análisis (excepto CLARA) es 100.
2. El número mı́nimo de casos requerido para análisis CLARA) es 100.
3. El número máximo de objetos en una matriz de entrada es 100.
4. Sólo los tres caracteres de una variable alfabética se usan en el listado.
178
Análisis de conglomerados (CLUSFIND)
22.9.
Ejemplos
Ejemplo 1. Conglomerar los primeros 100 casos en 5 grupos usando 6 variables cuantitativas V11-V16; se
estandarizan los valores de las variables y se usa la distancia euclideana en los cálculos; la conglomeración se
hace con la repartición alrededor de los medoides; se solicita imprimir gráficos; los casos se identifican con
la variable V2.
$RUN CLUSFIND
$FILES
PRINT
= CLUS1.LST
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$SETUP
ANALISIS PAM CON DATOS PRIMARIOS COMO ENTRADA
BADD=MD1 VARS=(V11-V16) STAND IDVAR=V2 CMIN=5 CMAX=5 PRINT=GRAP
Ejemplo 2. Conglomerado jerárquico aglomerativo de 30 pueblos; la matriz de entrada contiene distancias
entre los pueblos y los pueblos se numeran de 1 a 30; se solicita imprimir gráficos; los nombres de pueblo se
usan en el listado.
$RUN CLUSFIND
$FILES
PRINT
= CLUS2.LST
FT09
= TOWNS.MAT
archivo Matriz de entrada
$SETUP
ANALISIS AGNES CON LA MATRIZ DE DISTANCIAS COMO ENTRADA
$COMMENT
LAS DISTANCIAS ACTUALES SE DIVIDIERON POR 10.000 PARA
$COMMENT
ESTAR EN EL INTERVALO 0-1
INPUT=DISS VARS=(V1-V30) ANAL=AGNES PRINT=(GRAP,VNAMES)
Capı́tulo 23
Análisis de configuración (CONFIG)
23.1.
Descripción general
CONFIG hace análisis de configuración espacial sencilla, sobre datos de entrada en la forma de una matriz
rectangular de IDAMS (tal como se produce, por ejemplo en MDSCAL). Tiene la capacidad de centrar,
normalizar, rotar, trasladar dimensiones, calcular distancias entre puntos y calcular productos escalares.
Cada fila de una matriz de configuración suministra las coordenadas de un punto de la configuración. Ası́,
el número de filas es igual al número de puntos (variables), mientras que el número de columnas es igual al
número de dimensiones.
CONFIG puede proveer resultados que le permiten al usuario comparar de manera más fácil, configuraciones
las cuales originalmente tenı́an orientaciones disı́miles. Puede también usarse para hacer análisis adicionales
sobre una configuración. La rotación, por ejemplo, puede hacer una configuración más fácilmente interpretada.
23.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. No se aplica la selección de un subconjunto de casos y no hay filtro
disponible. Tampoco hay una opción de CONFIG que permita subdividir la configuración de entrada. Existe
en CONFIG una opción para seleccionar una matriz de un archivo que tenga múltiples matrices (ver el
parámetro DSEQ).
Transformación de datos. No se aplica el uso de las proposiciones de Recode con CONFIG.
Ponderación de datos. No se aplica el uso de variables de ponderación.
Tratamiento de datos faltantes. CONFIG no reconoce datos faltantes en la configuración de entrada. Normalmente, ésto no presenta ningún problema, ya que las configuraciones se presentan usualmente
completas.
23.3.
Resultados
Diccionario de la matriz de entrada. (Condicional: sólo si la matriz de entrada tenı́a diccionario. Ver
parámetro MATRIX). Los registros de variables del diccionario de entrada con los números correspondientes
usados en los gráficos (etiquetas de gráficos).
Configuración de entrada. Una copia impresa de la configuración de entrada.
Configuración centrada. (Opcional: ver el parámetro PRINT). Si se especifica PRINT=ALL o PRINT=CENT
y la configuración de entrada ya está centrada, se imprime el mensaje “Configuración de entrada está centrada”.
180
Análisis de configuración (CONFIG)
Configuración normalizada. (Opcional: ver el parámetro PRINT). Si se especifica PRINT=ALL o
PRINT=NORM y la configuración de entrada ya está normalizada, se imprime el mensaje “Configuración
de entrada está normalizada”.
Solución en ejes principales. (Opcional: ver el parámetro PRINT). Las filas de la matriz son los puntos
y las columnas son los ejes principales. Los elementos de la matriz son las proyecciones de los puntos sobre
los ejes.
Productos escalares. (Opcional: ver el parámetro PRINT). Se imprime la mitad inferior izquierda de la
matriz simétrica. Cada elemento de la matriz es el producto escalar de un par de puntos (variables).
Distancias entre puntos. (Opcional: ver el parámetro PRINT). Se imprime la mitad inferior izquierda
de la matriz simétrica. Cada elemento de la matriz es la distancia entre un par de puntos (variables). La
diagonal, siempre en ceros, se imprime.
Configuración(es) transformada(s). (Opcional: ver el parámetro de especificación de transformación
PRINT). La configuración transformada se imprime después de la rotación/traslación.
Gráfico de la(s) configuración(es) transformada(s). (Opcional: ver el parámetro de especificación
de transformación PRINT). Se dibuja la configuración transformada en dos ejes a la vez después de la
rotación/traslación. Se numeran los puntos.
Historia de la rotación varimax. (Opcional: ver el parámetro PRINT). Se imprime un vector que
contiene la variancia de la matriz de configuración antes de cada ciclo de iteración. En seguida se imprime
la matriz de configuración después de la rotación para maximizar el criterio normal de varimax. Tendrá el
mismo número de filas y columnas de la matriz de configuración de entrada.
Configuración clasificada. (Opcional: ver el parámetro PRINT). Se imprime horizontalmente a través de
la página cada columna de la matriz de configuración, después de haber sido clasificada.
Gráficos de vectores. (Opcional: ver el parámetro PRINT). Se dibuja la configuración final en dos ejes a
la vez. Los puntos se numeran con las etiquetas de los gráficos de las variables tal como se imprimió con el
diccionario de la configuración de entrada.
23.4.
Matriz de configuración de salida
La configuración final se puede escribir en un archivo (ver el parámetro WRITE). Sale como una matriz
rectangular de IDAMS. Ver el capı́tulo “Los datos en IDAMS” para una descripción de las matrices de
IDAMS. Los registros de identificación de variables se imprimen sólo si tales registros se han incluido en el
archivo de la configuración de entrada (ver el parámetro MATRIX). El formato de los elementos de la matriz
es 10F7.3. Los registros que contienen los elementos de la matriz se identifican con CFG en las columnas
73-75 y un número secuencial en las columnas 76-80. Las dimensiones de la matriz son las mismas de la
matriz de entrada.
23.5.
Matriz de distancias de salida
La matriz de distancias entre puntos se puede escribir en un archivo (ver el parámetro WRITE). Sale en la
forma de una matriz cuadrada de IDAMS, con registros ficticios suministrados para la media y la desviación
estándar esperadas en este tipo de matriz. Los registros de identificación de variables se producen sólo si
éstos se incluyeron en el archivo de la configuración de entrada (ver el parámetro MATRIX). El formato de
los elementos de la matriz es 10F7.3. Los registros que contienen los elementos de la matriz se identifican
con CFG en las columnas 73-75 y un número secuencial en las columnas 76-80.
23.6.
Matriz de configuración de entrada
La matriz de entrada debe estar en la forma de una matriz rectangular de IDAMS, con o sin registros de
identificación de variables (ver el parámetro MATRIX). Ver el capı́tulo “Los datos en IDAMS” para una
descripción del formato.
23.7 Estructura del setup
181
Las matrices de configuración obtenidas con el programa MDSCAL, pueden entrar directamente a CONFIG.
La matriz de entrada de n(filas) por m(columnas), debe tener las coordenadas de n puntos para m dimensiones. No puede haber datos faltantes en la matriz de entrada.
En un archivo leido por CONFIG, puede haber más de una configuración. La configuración a analizar se
escoge con el parámetro DSEQ.
23.7.
Estructura del setup
$RUN CONFIG
$FILES
Especificación de archivos
$SETUP
1. Tı́tulo
2. Parámetros
3. Especificaciones de transformación (opcionales)
$MATRIX (condicional)
Matriz
Archivos:
FT02
FT09
PRINT
23.8.
configuración de salida y/o matriz de distancias
configuración de entrada (omitir si se usa $MATRIX)
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3, a continuación.
1. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
EJECUCION DE CONFIG DESPUES DE MDSCAL
2. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
PRINT=(CENT,SORT,DIST) TRANS
MATRIX=STANDARD/NONSTANDARD
STAN
Se incluyen los registros de identificación de variables en la matriz de entrada.
NONS
No se incluyen los registros de identificación de variables en la matriz de entrada.
DSEQ=1/n
El número secuencial en el archivo de entrada de la configuración que se analiza.
WRITE=(CONFIG,DISTANCES)
CONF
Llevar la configuración final a un archivo.
DIST
Llevar a un archivo la matriz de distancias entre puntos.
182
Análisis de configuración (CONFIG)
TRANSFORM
Se suministrarán especificaciones de transformación.
PRINT=(CENTER, NORMALIZE, PRINAXIS, SCALARS, DISTANCES, VARIMAX, SORTED,
PLOT, ALL)
CENT
Mover el origen al centroide del espacio.
NORM
Alterar el tamaño del espacio de manera que al sumar las cargas al cuadrado, esta
suma sea igual al número de variables.
PRIN
Búsqueda de solución en ejes principales.
SCAL
Matriz de productos escalares.
DIST
Matriz de distancias entre puntos.
VARI
Rotación (después de transformación, si la hay) ortogonal (varimax).
SORT
Configuración clasificada (después de transformación, si la hay).
PLOT
Graficar la configuración final.
ALL
Imprimir CENT, NORM, PRIN, SCAL, DIST, VARI, SORT, PLOT.
Por defecto: la configuración de entrada se imprime.
Nota. Las opciones de análisis se llevan a cabo sobre los datos de la configuración de entrada en la
secuencia especificada arriba, sin importar el orden en el cual se hayan especificado con el parámetro
PRINT. Transformaciones, si las hay, se llevan a cabo antes de la rotación ortogonal de la configuración.
Después de cada operación, se imprimen los resultados. Los efectos de las opciones de análisis son
acumulativos. Si la configuración final se grafica y/o se almacena, ésto se hace después de haber hecho
todos los análisis.
3. Especificaciones de transformación. (Condicional: si se ha especificado TRANSFORM, usar los
parámetros como se explica a continuación). Se pueden especificar tantas transformaciones como se
desée; cada una debe comenzar en una nueva lı́nea.
Si el usuario especifica el ángulo de rotación (DEGREES) y dos dimensiones (DIMENSION), entonces
se hace una rotación. Si se especifica una constante (ADD) y una dimensión (DIMENSION), se hace
una traslación.
Ejemplo:
DEGR=45, DIME=(5,8) PRINT=PLOT
PRINT=(CONFIG, PLOT)
CONF
Imprimir la configuración rotada o trasladada (automático para configuraciones con 2
dimensiones y para la configuración final).
PLOT
Graficar la configuración rotada o trasladada.
Nota: no habrán resultados para la transformación si no se especifica PRINT. Debe especificarse
para cada transformación.
Parámetros de rotación
DIMENSION=(n, m)
Las dos dimensiones a rotar (sólo rotación pareada).
DEGREES=n
Angulo de rotación en grados (sólo rotación ortogonal).
Parámetros de traslación
DIMENSION=n
La dimensión a trasladar.
ADD=n
Valor a sumar a cada coordenada en la dimensión especificada (puede ser negativo y tener cifras
decimales).
23.9 Restricción
23.9.
183
Restricción
El tamaño máximo de la matriz de configuración de entrada es de 60 filas por 10 columnas.
23.10.
Ejemplos
Ejemplo 1. Rotación y transformación de una matriz de configuración creada previamente por el programa
MDSCAL; la configuración final se escribe en un archivo y se grafica; se rotan las dimensiones 1 y 2 por un
ángulo de 60 grados; la dimensión 1 se transformará sumando 6.
$RUN CONFIG
$FILES
PRINT = CONF1.LST
FT02
= CONFIG.MAT
archivo para la matriz de configuración de salida
FT09
= MDS.MAT
matriz de configuración de entrada
$SETUP
ANALISIS DE CONFIGURACION
PRINT=(PLOT,VARI) TRAN WRITE=CONF
DEGR=60 DIME=(1,2) PRINT=PLOT
ADD=6 DIME=1 PRINT=PLOT
Ejemplo 2. Cálculo de la matriz de productos escalares y la matriz de distancias entre puntos para la cuarta
configuración en el archivo de entrada; no se requieren gráficos.
$RUN CONFIG
$FILES
PRINT = CONF2.LST
FT02
= SCAL.MAT
FT09
= MDS.MAT
$SETUP
ANALISIS DE CONFIGURACION
PRINT=(SCAL,DIST) DSEQ=4
archivo de salida para la matriz de productos
escalares y la matriz de distancias entre puntos
matriz de configuración de entrada
Capı́tulo 24
Análisis discriminatorio (DISCRAN)
24.1.
Descripción general
La tarea del análisis discriminatorio es hallar la mejor o las mejores funciones de discriminación lineal de un
conjunto de variables que reproduzca o reproduzcan, hasta donde sea posible, un agrupamiento “a priori”
de los casos considerados.
En este programa se usa un procedimiento por pasos, es decir, en cada paso la variable más poderosa entra a
la función discriminatoria. La función criterio para la selección de la variable siguiente, depende del número
de grupos especificados (el número de grupos varı́a entre 2 y 20). En el caso de dos grupos se usa la distancia
de Mahalanobis. Cuando el número de grupos es mayor que dos, entonces el criterio para la selección de
variables es la huella de un producto entre la matriz de covariancia de las variables involucradas y la matriz
de covariancia interclase en una paso en particular. Esto es una generalización de la distancia de Mahalanobis
definida para dos grupos.
Además de ejecutar los pasos principales de análisis discriminatorio sobre una muestra básica, hay dos
posibilidades opcionales: verificación del poder de la función o funciones discriminatorias con la ayuda de
una muestra de prueba, para la cual se conoce la asignación de casos a grupos (como en la muestra
básica) pero los cuales no se usaron en el análisis, y clasificación de los casos con la ayuda de funcion(es)
discriminatoria(s) suministrada(s) por el análisis en una muestra anónima en la cual se desconoce, o por
lo menos no se usa la asignación de casos a grupos.
24.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. El filtro estándar está disponible para escoger un subconjunto de casos
de los datos de entrada. Es posible hacer una subdivisión adicional con el uso de las variables de muestra y
de grupo. Las variables de análisis se escogen con el parámetro VARS.
Transformación de datos. Se pueden usar las proposiciones de Recode.
Ponderación de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderación puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderación para un
caso es cero, negativo, dato faltante o no numérico, entonces el caso siempre se omite; se imprime el número
de casos ası́ tratados.
Tratamiento de datos faltantes. El parámetro MDVALUES está disponible para indicar cuales valores
de datos faltantes, si los hay, se usarán para verificar los datos faltantes. Los casos con datos faltantes en
la variable de muestra, la variable de grupo y/o las variables de análisis, se pueden excluir del análisis de
manera opcional.
186
Análisis discriminatorio (DISCRAN)
24.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, sólo para las variables usadas en la ejecución.
Número de casos en las muestras. El número de casos en las muestras básica, de prueba y anónima de
acuerdo con los parámetros de definición de la muestra.
Número revisado de casos en las muestras. El número de casos en las muestras básica, de prueba
y anónima de acuerdo con los parámetros de definición de la muestra y del grupo. Nótese que las cifras
revisadas pueden ser menores que las no revisadas para la muestra básica y la muestra de prueba si los
grupos definidos no cubren completamente las muestras.
Muestra básica. (Opcional: ver el parámetro PRINT). Se imprimen por grupos, las variables de identificación y de análisis de los casos en la muestra básica, los grupos se separan unos de otros con una lı́nea de
asteriscos.
Muestra de prueba. Igual a la muestra básica.
Muestra anónima. Igual a la muestra básica pero no hay grupos.
Estadı́sticas univariadas. El programa imprime las medias y desviaciones estándar grupales, ası́ como la
media total para cada variable usada en el análisis.
Resultados del procedimiento por pasos (para cada paso)
Número del paso. El número secuencial del paso.
Variables ingresadas. La lista de variables retenidas en este paso.
Función discriminatoria lineal. (Condicional: sólo si se especifican 2 grupos). El término constante y los
coeficientes de la función discriminatoria lineal correspondientes a las variables que ya han entrado.
Tabla de clasificación para la muestra básica. Una tabla bivariada de frecuencias que muestra la redistribución de casos entre los grupos originales y los grupos en los cuales se los ha colocado según la función
discriminatoria, seguida del porcentaje de casos clasificados correctamente.
Tabla de clasificación para la muestra de prueba. Igual a la muestra básica.
Lista de asignación de casos. (Opcional: ver el parámetro PRINT). Se imprimen los casos de las tres
muestras con identificación de caso, colocación de caso y valor de la función discriminatoria (para 2 grupos)
o distancias a cada grupo (para más de 2 grupos).
Resultados del análisis factorial discriminatorio. (Condicional: sólo si se han especificado más de 2
grupos). Poder discriminatorio general y poder discriminatorio de los primeros tres factores, seguidos de
los valores de los factores discriminatorios para las medias de grupos. Adicionalmente, se suministra una
representación gráfica de casos y medias en el espacio de los dos primeros factores.
24.4.
Dataset de salida
Se puede pedir un dataset para la última asignación de grupos a los casos. Sale en la forma de un archivo
Datos descrito por un diccionario IDAMS (ver el parámetro WRITE y el capı́tulo “Los datos en IDAMS”).
Contiene en orden siguiente:
-
las variables transferidas,
el código del grupo original renumerado por DISCRAN (“Original group”),
el código del grupo asignado a los casos al final (“Assigned group”),
el tipo de la muestra (“Sample type” - 1=muestra básica, 2=muestra de prueba, 3=muestra anónima) y,
para análisis con más de 2 grupos, valores de los dos primeros factores discriminatorios
(“Factor-1”, “Factor-2”).
Las variables se numeran desde uno.
El código del grupo original contiene el primer código de datos faltantes (999.9999) para los casos en la
24.5 Dataset de entrada
187
muestra anónima; los factores contienen el primer código de datos faltantes (999.9999) para los casos en la
muestra de prueba y la muestra anónima.
Nota: la variable especificada en IDVAR no sale de manera automátia y entonces debe ser incluida en la
lista de variables para ser transferidas.
24.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Se pueden especificar tres tipos de
muestra en el archivo de entrada:
- muestra básica,
- muestra de prueba,
- muestra anónima.
El análisis se basa en la muestra básica. La muestra de prueba se usa para probar la(s) función(es) discriminatoria(s), los casos en la muestra anónima simplemente se clasifican con las funciones discriminatorias.
Las muestras se definen con una “variable de muestra”. La muestra básica no debe estar vacı́a. Los grupos
que se van a separar con la función discriminatoria deben definirse con una “variable de grupo”. Esta variable
define una clasificación a priori de la muestra básica y de la muestra de prueba de los casos.
Todas las variables usadas para análisis deben ser numéricas; pueden tener cifras enteras o decimales. La
variable identificadora del caso y las variables para ser transferidas pueden ser alfabéticas.
24.6.
Estructura del setup
$RUN DISCRAN
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. Tı́tulo
3. Parámetros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de salida si se especifica WRITE=DATA
datos de salida si se especifica WRITE=DATA
resultados (por defecto IDAMS.LST)
188
Análisis discriminatorio (DISCRAN)
24.7.
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE V3=6 OR V11=99
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
ANALISIS DISCRIMINATORIO DE UNA ENCUESTA AGRICOLA
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
MDHA=SAMPVAR IDVAR=V4
VARS=(V12-V15)
SAVAR=R5
BASA=(1,5)
-
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
VARS=(lista de variables)
Lista de las variables V o R a usar en el análisis.
Sin valor por defecto.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver
el capı́tulo “El archivo Setup de IDAMS”.
MDHANDLING=(SAMPVAR, GROUPVAR, ANALVARS)
Selección del tratamiento de datos faltantes.
SAMP
Se excluyen del análisis los casos que tengan datos faltantes en la variable de muestra.
GROU
Se excluyen del análisis los casos que tengan datos faltantes en la variable de grupo de
las muestras básica y de prueba.
ANAL
Se excluyen del análisis los casos con datos faltantes en las variables de análisis.
Por defecto: se incluyen los casos con datos faltantes.
WEIGHT=número de variable
Número de la variable de ponderación si se van a ponderar los datos.
IDVAR=número de variable
Variable de identificación de caso para el listado de datos y/o de asiganción de casos.
Por defecto: se utiliza “DISC” como un identificador para todos los casos.
STEPMAX=n
Máximo número de pasos a ejecutar. Debe ser menor o igual al número de variables de análisis.
Por defecto: número de variables de análisis.
24.7 Proposiciones de control del programa
189
MEMORY=20000/n
Memoria necesaria para ejecución del programa.
WRITE=DATA
Crear un dataset IDAMS que contenga las variables transferidas, las variables de asignación de
grupo, el tipo de muestra y los valores de factores discriminatorios, si los hay.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
TRANSVARS=(variable list)
Variables (hasta 99) para ser transferidas al dataset de salida.
PRINT=(CDICT/DICT, OUTCDICT/OUTDICT, DATA, GROUP)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTC
Imprimir el diccionario de salida con registros C si los hay.
OUTD
Imprimir el diccionario de salida sin registros C.
DATA
Imprimir los datos con asignación original de casos por grupos.
GROU
Imprimir para cada caso, la asignación de grupo basada en la función discriminatoria.
Especificación de muestra
Estos parámetros son opcionales. Si no se especifican, se toman todos los casos del archivo de entrada
como muestra básica. Las muestras de prueba y anónima, si existen, se deben definir siempre en forma
explı́cita. La intersección pareada de las muestras debe estar vacı́a. Sin embargo, las muestras no
necesitan cubrir todo el archivo de entrada. Se puede usar un sólo valor o un rango de valores para
escoger los casos que pertenecen a la muestra correspondiente:
m1 = valor de la variable de muestra
o
m1 <= valor de la variable de muestra < m2
donde m1 y m2 pueden ser valores enteros o decimales.
SAVAR=número de variable
La variable usada para la definición de la muestra. Se pueden usar variables V o variables R.
BASA=(m1, m2)
Condicional: define la muestra básica. Se debe suministrar si se especifica SAVAR.
TESA=(m1, m2)
Condicional y opcional: si se especifica SAVAR. Define la muestra de prueba.
ANSA=(m1, m2)
Condicional y opcional: si se especifica SAVAR. Define la muestra anónima.
Clasificación de la muestra básica
Estos parámetros definen los grupos a priori usados en el procedimiento de análisis discriminatorio. Todos los grupos se deben definir explı́citamente y su intersección pareada debe estar vacı́a. Sin embargo,
no necesitan cubrir toda la muestra básica.
GRVAR=número de variable
La variable usada para la definición de grupos. Se pueden usar variables V o R.
Sin valor por defecto.
190
Análisis discriminatorio (DISCRAN)
GR01=(m1, m2)
Define el primer grupo en la muestra básica.
GR02=(m1, m2)
Define el segundo grupo en la muestra básica.
GRnn=(m1, m2)
Define el n-ésimo grupo en la muestra básica (nn <= 20).
Nota. Por lo menos, se deben especificar dos grupos.
24.8.
Restricciones
1. Número máximo de grupos a priori es 20.
2. La misma variable no se puede usar dos veces.
3. El tamaño máximo de campo para la variable identificadora de caso es 4.
4. Número máximo de variables a ser transferidas as 99.
5. No se pueden transferir variables R.
6. Si una variable a ser transferida es alfabética con ancho > 4, sólo se usan los primeros cuatro caracteres.
24.9.
Ejemplos
Ejemplo 1. Análisis discriminatorio de todos los casos juntos; los casos se identifican con la variable V1;
se solicitan 5 pasos de análisis; los grupos a priori se definen con la variable V111 que incluye las categorı́as
1-6.
$RUN DISCRAN
$FILES
PRINT = DISC1.LST
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$SETUP
ANALISIS CANONICO DE DISCRIMINACION LINEAL
PRINT=(DATA,GROUP) IDVAR=V1 STEP=5 VARS=(V101-V105) GVAR=V111 GR01=(1,3) GR02=(3,5) GR03=(5,7)
Ejemplo 2. Repetir el análisis descrito en el Ejemplo 1, con el subconjunto de encuestados que tienen el
valor 1 en la variable V5 y probar los resultados con los encuestados que tienen valor 2 en la variable V5.
$RUN DISCRAN
$FILES
los mismos del ejemplo 1
$SETUP
ANALISIS DE DISCRIMINACION LINEAL USANDO MUESTRAS BASICA Y DE PRUEBA
PRINT=(DATA,GROUP) IDVAR=V1 STEP=5 VARS=(V101-V105) SAVAR=V5 BASA=1 TESA=2 GVAR=V111 GR01=(1,3) GR02=(3,5) GR03=(5,7)
Capı́tulo 25
Funciones de distribución y de Lorenz
(QUANTILE)
25.1.
Descripción general
QUANTILE genera funciones de distribución, funciones de Lorenz y coeficientes de Gini para variables
individuales y hace la prueba de Kolmogorov-Smirnov entre dos variables o entre dos muestras.
25.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Se puede usar el filtro estándar para escoger un subconjunto de casos de
los datos de entrada. Además, se puede hacer cada análisis sobre un conjunto adicional mediante el uso de
un parámetro de filtro. Las variables a analizar se especifican con el parámetro VAR.
Transformación de datos. Se pueden usar las proposiciones de Recode.
Ponderación de datos. Se puede usar una variable de ponderación para ponderar los datos; esta variable
de ponderación puede tener valores enteros hasta el valor máximo asignable de 32,767. Nótese que los valores
decimales se redondean al entero más próximo. Cuando el valor de una variable de ponderación para un caso
es cero, negativo, faltante, no numérico o excede el máximo, entonces el caso se omite; se imprime el número
de casos ası́ tratados.
Tratamiento de datos faltantes. El parámetro MDVALUES está disponible para indicar cuales valores
de datos faltantes, si los hay, se usarán para verificar los datos faltantes. Los casos con un dato faltante en
una variable de análisis se eliminan de ese análisis.
25.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.
Resultados para cada análisis.
Función de distribución: mı́nimo, máximo, puntos de separación en el subintervalo.
Función de Lorenz (opcional): mı́nimo, máximo, puntos de separación en el subintervalo y coeficiente
de Gini.
Curva de Lorenz (opcional): dibujada por deciles.
Estadı́sticas de prueba de Kolmogorov-Smirnov (opcional).
192
Funciones de distribución y de Lorenz (QUANTILE)
25.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables referidas (excepto
del filtro principal) deben ser numéricas; pueden tener valores enteros o decimales.
25.5.
Estructura del setup
$RUN QUANTILE
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
5.
6.
Filtro (opcional)
Tı́tulo
Parámetros
Especificaciones de subconjuntos (opcional)
QUANTILE
Especificaciones de análisis (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
25.6.
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3 y 6 a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE
V5=1
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
CONSTRUCCION DE DECILES
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
MDVAL=MD1, PRINT=DICT
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
25.6 Proposiciones de control del programa
193
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver
el capı́tulo “El archivo Setup de IDAMS”. Los casos con datos faltantes se eliminan del análisis.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de subconjuntos (opcional). Estas proposiciones permiten escoger un subconjunto
de casos para un análisis en particular.
Ejemplo:
MUJERES
INCLUDE V6=2
Reglas de codificación
Prototipo: nombre
proposición
nombre
Nombre del subconjunto. 1-8 caracteres alfanuméricos comenzando con una letra. Este nombre
debe coincidir exactamente con el nombre usado en las especificaciones de análisis subsecuentes.
Blancos intercalados no se permiten. Se recomienda que todos los nombres se justifiquen a la
izquierda.
proposición
Definición del subconjunto que siga la sintáxis del filtro estándar de IDAMS.
5. QUANTILE. La palabra QUANTILE en esta lı́nea, señala que siguen especificaciones de análisis.
Debe incluirse (con el objeto de separar las especificaciones de subconjunto de las especificaciones de
análisis) y sólo debe aparecer una vez.
6. Especificaciones de análisis. Las reglas de codificación son las mismas de los parámetros. Cada
especificación de análisis debe comenzar en una nueva lı́nea.
Ejemplos: VAR=R10
VAR=V25
VAR=V25
N=5
N=10
N=10
PRINT=CLORENZ
FILTER=MALE
FILTER=FEMALE
ANALID=M
KS=M
VAR=número de variable
Variable a ser analizada.
Sin valor por defecto.
WEIGHT=número de variable
El número de la variable de ponderación, si se van a ponderar los datos. En la prueba de
Kolmogorov-Smirnov no se pueden ponderar los datos.
N=20/n
Número de subintervalos. Si n<2 o n>100, se imprime un mensaje de advertencia y se usa 20
como valor por defecto.
194
Funciones de distribución y de Lorenz (QUANTILE)
FILTER=xxxxxxxx
Sólo se usan en este análisis los casos que satisfagan la condición definida en la especificación de
subconjunto denominada xxxxxxxx. Si el nombre contiene caracteres no alfanuméricos, debe estar
encerrado entre comillas sencillas. Se deben usar letras mayúsculas para hacer encajar el nombre
del subconjunto el cual se convierte automáticamente a mayúsculas.
ANALID=’nombre’
Un nombre para este análisis de manera que pueda ser referencia para una prueba de KolmogorovSmirnov. Si el nombre contiene caracteres no alfanuméricos, debe estar encerrado entre comillas
sencillas.
KS=’nombre’
Es el nombre asignado a un análisis anterior, con el parámetro ANALID y define la variable y/o
la muestra con la cual se va a comparar este análisis usando la prueba de Kolmogorov-Smirnov.
Si el nombre contiene caracteres no alfanuméricos, debe estar encerrado entre comillas sencillas.
PRINT=(FLORENZ, CLORENZ)
FLOR
Imprimir la función de Lorenz y los coeficientes de Gini.
CLOR
Imprimir la curva de Lorenz, dibujada en deciles. (Se imprime la función de Lorenz
también).
Nota: si se ha especificado KS, se ignora el parámetro PRINT.
25.7.
Restricciones
1. El número máximo de variables usadas (variables de análisis + la variable de ponderación + variables
en filtros locales) es 50.
2. El número máximo de casos que se pueden analizar es 5000.
3. Número mı́nimo de subintervalos es 2; máximo es 100.
4. El número máximo de especificaciones de subconjuntos es 25.
5. Si se usa la prueba de Kolmogorov-Smirnov, el número máximo de casos que se pueden analizar es
2500.
6. La función de Lorenz y la prueba de Kolmogorov-Smirnov no se pueden solicitar para el mismo análisis.
7. Los valores de los puntos de separación siempre se imprimen con tres cifras decimales. Las variables
con más de tres decimales se truncan a tres cuando se imprimen.
25.8.
Ejemplo
Generación de función de distribución, función de Lorenz y coeficientes de Gini para la variable V67; se hacen
análisis separados en todos los datos y después en dos subconjuntos; se hace la prueba de Kolmogorov-Smirnov
para probar la diferencia de distribuciones de la variable V67 en los dos subconjuntos de datos.
$RUN QUANTILE
$FILES
PRINT = QUANT.LST
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$SETUP
COMPARACION DE DISTRIBUCION DE EDADES PARA HOMBRES Y MUJERES
*
(valores por defecto para todos los parámetros)
FEMALE
INCLUDE V12=1
MALE
INCLUDE V12=2
QUANTILE
25.8 Ejemplo
VAR=V67
VAR=V67
VAR=V67
VAR=V67
195
N=15
N=15
N=15
N=15
PRINT=(FLOR,CLOR)
PRINT=(FLOR,CLOR) FILT=FEMALE
PRINT=(FLOR,CLOR) FILT=MALE
FILT=MALE
ANALID=F
KS=F
Capı́tulo 26
Análisis factorial (FACTOR)
26.1.
Descripción general
FACTOR cubre una serie de análisis factoriales de componentes principales y análisis de correspondencias
que tengan especificaciones comunes. Da la posibilidad de ejecutar, con una sola lectura de datos, los análisis
factoriales de correspondencias, de productos escalares, de productos escalares normados, de covariancias y
de correlaciones.
Para cada análisis, el programa construye una matriz que representa las relaciones entre las variables y calcula
sus valores propios y sus vectores propios. Después calcula los factores de “caso” y “variable” que dan, para
cada “caso” y “variable”, su ordenada, su calidad de representación y su contribución a los factores. También
se puede imprimir una representación gráfica de los factores con opciones ordinarias o simplicio-factoriales.
Los casos/variables activos (principales) son los casos/variables sobre cuya base se ejecuta el procedimiento de descomposición factorial, es decir, se usan en la computación de la matriz de relaciones. También
se puede buscar una representación de otros casos/variables en el espacio factorial, que corresponde a las
variables activas. Tales casos/variables (al no tener influencia en los factores) se llaman casos/variables
pasivos (suplementarions).
Se habla acerca de la representación ordinaria (de casos/variables) si los valores (puntajes de factores)
que vienen directamente del análisis, se usan en la representación gráfica. Sin embargo, para una comprensión mejor de la relación entre casos y variables, es posible otra representación simultáneamente, la
representación simplicio-factorial.
26.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Se puede usar el filtro estándar para la selección de un subconjunto de
casos de los datos de entrada. Las variables se escogen con los parámetros PVARS y SVARS.
Transformación de datos. Se pueden usar las proposiciones de Recode.
Ponderación de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderación puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderación para un
caso es cero, negativo, dato faltante o no numérico, entonces el caso siempre se omite; se imprime el número
de casos ası́ tratados.
Tratamiento de datos faltantes. El parámetro MDVALUES está disponible para indicar cuales valores
de datos faltantes, si los hay, se usarán para verificar los datos faltantes. Hay dos maneras de manipular los
datos faltantes:
se excluyen los casos con datos faltantes en las variables activas, en cambio, los datos faltantes en las
variables pasivas se tratan como datos válidos,
se excluyen del análisis, los casos con datos faltantes en variables activas y/o pasivas.
198
26.3.
Análisis factorial (FACTOR)
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.
Estadı́sticas univariadas. (Opcional: ver el parámetro PRINT). Número de variable, nombre de variable, nuevo número de variable (renumerada a partir de 1), valores mı́nimos y máximos, media, desviación
estándar, coeficiente de variación, suma, variancia, asimetrı́a, kurtosis y número ponderado de casos válidos para cada variable. Nótese que la desviación estándar y la variancia se estiman a partir de los datos
ponderados.
Datos de entrada. (Opcional: ver el parámetro PRINT). Grupos de 16 variables, que tienen en cada fila: el
número correspondiente de casos, el total para variables activas y los valores de todas las variables, precedidos
del total de las columnas (calculado solamente para los casos activos). Los valores se imprimen con el punto
decimal explı́cito y con una cifra decimal. Si se requieren más de 7 caracteres para imprimir un valor, éste
se reemplaza por asteriscos.
Matriz de relaciones (matriz núcleo). (Opcional: ver el parámetro PRINT). La matriz (después de
multiplicar por 10 a la n-ésima potencia como se indica en la lı́nea delente de la matriz), el valor de la huella
y la tabla de valores propios y vectores propios.
Histograma de valores propios. El histograma de porcentajes y porcentajes acumulativos de la contribución de cada valor propio a la inercia total. Los guiones en el histograma muestran el criterio de Kaiser para
el análisis de correlación.
Diccionarios de los archivos Datos de salida. (Opcional: ver el parámetro PRINT). El diccionario
correspondiente a los factores de “caso” seguido del de los factores de “variable”.
Tabla(s) de factores. Según la opción u opciones escogidas, se tiene: una tabla (para factores de “caso” o
de “variable”), o dos tablas (para factores de “caso” y “variable”, en ese orden). Según la opción de impresión
escogida, estas tablas sólo contienen los casos (variables) activos, solamente los casos (variables) pasivos, o
ambos.
Tabla de factores de “caso”. Suministra, lı́nea por lı́nea:
valor del identificador de caso,
información relevante a todos los factores juntos, es decir, la calidad de la representación del caso en
el espacio definido por los factores, la ponderación del caso y la “inercia” del caso,
información para cada factor a su turno, es decir, la ordenada del caso, el coseno cuadrado del ángulo
entre el caso y el factor y la contribución del caso al factor.
Tabla de factores de “variable”. Suministra, lı́nea por lı́nea, la misma información para las variables.
Gráficos de puntos. (Opcional: ver el parámetro PLOTS). La primera lı́nea da el número del factor
representado en el eje horizontal con su valor propio y su rango de valores mı́nimos-máximos. La segunda
lı́nea da la misma información, concerniente al eje vertical. Junto con el tı́tulo de la ejecución, se da el número
de casos/variables (es decir puntos) representados. A la derecha de cada gráfico se imprime:
número de puntos que no se pueden imprimir para esa ordenada (puntos traslapados),
número de puntos que no fue posible representar,
número de página.
Factores rotados. (Opcional: ver el parámetro ROTATION). Se imprime la variancia calculada para cada
matriz de factores en cada iteración de la rotación (con el método VARIMAX), seguida de las comunalidades
de las variables antes y después de la rotación, y se termina con la tabla de factores rotados.
Mensaje de terminación. Al final de cada análisis, se imprime un mensaje de terminación con el tipo de
análisis hecho.
26.4.
Dataset(s) de salida
Se pueden construir, opcionalmente, dos archivos Datos cada uno con su diccionario IDAMS asociado. En
el dataset de factores de “caso”, los registros corresponden a los casos (activos y pasivos), las columnas
corresponden a las variables (incluidos el identificador de casos y las variables transferidas) y a los factores.
26.5 Dataset de entrada
199
En el dataset de factores de “variable”, los registros corresponden a las variables de análisis y las columnas
contienen las identificaciones de variables (números originales de variables) y factores.
Las variables de salida se numeran secuencialmente a partir de 1 y tienen las caracterı́sticas siguientes:
Variable identificadora de casos y variables transferidas: las variables V tienen las mismas caracterı́sticas que su equivalente de entrada, las variables de Recode salen con WIDTH=9 y DEC=2.
Variables calculadas de factores:
Nombre
Ancho de campo
Nr. de decimales
MD1 et MD2
26.5.
especificado por FNAME
7
5
9999999
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para análisis
deben ser numéricas; pueden tener valores enteros o decimales. Deben ser dicotomizadas o medidas en
una escala de intervalo. La variable de identificación de caso y las variables a ser transferidas pueden ser
alfabéticas. Hay dos clases de variables de análisis, activas y pasivas. Adicionalmente, debe existir una variable
que identifique el caso. Se pueden escoger otras variables para ser transferidas al archivo de salida de factores
de “caso”. Se pueden especificar uno o más casos al final del archivo de entrada como casos pasivos.
Para análisis de correspondencias, son adecuados dos tipos de datos: a) variables dicotómicas de un archivo
Datos primarios o b) una tabla de contingencia descrita por un diccionario y entrada como un dataset.
26.6.
Estructura del setup
$RUN FACTOR
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
Filtro (opcional)
Tı́tulo
Parámetros
Especificaciones de gráficos definidos por el usuario (condicional)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
DICTzzzz
DATAzzzz
PRINT
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de salida para factores de caso
datos de salida para factores de caso
diccionario de salida para factores de variable
datos de salida para factores de variable
resultados (por defecto IDAMS.LST)
200
Análisis factorial (FACTOR)
26.7.
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-4, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
EXCLUDE V10=99 OR V11=99
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los listados.
Ejemplo:
ENCUESTA AGRICOLA 1984
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
ANAL=(CRSP,SSPRO) TRANS=(V16,V20) IDVAR=V1 PVARS=(V31-V35)
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver
el capı́tulo “El archivo Setup de IDAMS”.
MDHANDLING=PRINCIPAL/ALL
PRIN
Se excluyen del análisis, los casos con datos faltantes en las variables activas y se
incluyen los casos pasivos que tengan datos faltantes. Los factores de variables pasivas
se basan sólo en datos válidos.
ALL
Se excluyen todos los casos con datos faltantes.
ANALYSIS=(CRSP/NOCRSP, SSPRO, NSSPRO, COVA, CORR)
Selección del análisis.
CRSP
Análisis factorial de correspondencias.
SSPR
Análisis factorial de productos escalares.
NSSP
Análisis factorial de productos escalares normados.
COVA
Análisis factorial de covariancias.
CORR
Análisis factorial de correlaciones.
PVARS=(lista de variables)
Lista de variables V o R a usar como variables activas (principales).
Sin valor por defecto.
SVARS=(lista de variables)
Lista de variables V o R a usar como variables pasivas (suplementarias).
WEIGHT=número de variable
Número de la variable de ponderación si se van a ponderar los datos.
26.7 Proposiciones de control del programa
201
NSCASES=0/n
Número de casos pasivos. Nota: estos casos no se incluyen en el cálculo de las estadı́sticas, matriz
y factores; son los últimos “n” del archivo Datos.
IDVAR=número de variable
Variable de identificación de caso usada para identificar puntos en los gráficos y para identificar
casos en el archivo de salida.
Sin valor por defecto.
KAISER/NFACT=n/VMIN=n
Criterio para determinar el número de factores.
KAIS
Criterio de Kaiser - número de raı́ces mayor de 1.
NFAC
Número de factores deseado.
VMIN
El porcentaje mı́nimo de variancia a ser explicado por los factores tomados todos
juntos. No debe teclearse el decimal, por ej. “VMIN=95”.
ROTATION=KAISER/UDEF/NOROTATION
Especifica rotación VARIMAX de factores de “variable”. Sólo análisis de correlaciones.
KAIS
El número de factores a rotar se define de acuerdo con el criterio de KAISER.
UDEF
El numero de factores a rotar lo especifica el usuario (ver el parámetro NROT).
NROT=1/n
Número de factores a rotar (si se especifica ROTATION=UDEF).
WRITE=(OBSERV, VARS)
Controla la salida de archivos de factores de “caso” y “variable”. Si se solicita más de un análisis
con el parámetro ANALYSIS, estos archivos serán para el primer análisis especificado.
OBSE
Crear un archivo que contenga factores de “caso”.
VARS
Crear un archivo que contenga factores de “variable”.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos para los factores de
“caso”.
Por defecto: DICTOUT, DATAOUT.
OUTVFILE=OUTV/zzzz
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos para los factores de
“variable”.
Por defecto: DICTOUTV, DATAOUTV.
TRANSVARS=(lista de variables)
Variables a transferir (hasta 99) al archivo de salida de factores de “caso”.
FNAME=uuuu
Una cadena de 1-4 caracteres usada como prefijo para nombres de variables de factores en los diccionarios de salida. Debe encerrarse entre comillas sencillas si contiene caracteres no-alfanuméricos.
Los factores tienen los nombres uuuuFACT0001, uuuuFACT0002, etc.
Por defecto: espacio en blanco.
PLOTS=STANDARD/USER/NOPLOTS
Controla la representación gráfica de los resultados.
STAN
Se imprimen gráficos estándar para pares de factores 1-2, 1-3, 2-3 con las opciones
PAGES=1, OVLP=LIST, NCHA=4, REPR=COOR, VARPL=(PRIN,SUPP).
USER
Se desean gráficos definidos por el usuario (ver parámetros de control para gráficos
definidos por el usuario, más adelante).
202
Análisis factorial (FACTOR)
PRINT=(CDICT/DICT, OUTCDICTS/OUTDICTS, STATS, DATA, MATRIX,
VFPRINC/NOVFPRINC, VFSUPPL, OFPRINC, OFSUPPL)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTC
Imprimir diccionarios de salida con registros C, si los hay.
OUTD
Imprimir diccionarios de salida sin registros C.
STAT
Imprimir las estadı́sticas de variables activas y pasivas.
DATA
Imprimir los datos de entrada.
MATR
Imprimir matriz de relaciones (núcleo) y vectores propios.
VFPR
Imprimir factores de “variable” para las variables activas.
VFSU
Imprimir factores de “variable” para variables pasivas.
OFPR
Imprimir factores de “caso” para los casos activos.
OFSU
Imprimir factores de “caso” para los casos pasivos.
4. Especificaciones de gráficos definidos por el usuario. (Condicional: si PLOT=USER se especifica
como parámetro). Repetir para cada gráfico bi-dimensional a imprimir. Las reglas de codificación son
las mismas de los parámetros. Cada especificación de gráfico debe comenzar en una lı́nea nueva.
Ejemplo:
X=3
Y=10
X=número de factor
Número del factor a representar en el eje horizontal.
Y=número de factor
Número del factor a representar en el eje vertical (ver también el parámetro FORMAT=STANDARD).
ANSP=ALL/CRSP/SSPRO/NSSPRO/COVA/CORR
Especifica los análisis para los cuales se van a imprimir los gráficos.
ALL
Gráficos para todos los análisis especificados en el parámetro ANALYSIS.
Para el resto, se imprime un gráfico para un sólo análisis (las palabras clave tienen el mismo
significado que para el parámetro ANALYSIS). Estas opciones implican un sólo gráfico.
OBSPLOT=(PRINCIPAL, SUPPL)
Selección de casos a representar en el gráfico o gráficos.
PRIN
Representar casos activos.
SUPP
Representar casos pasivos.
VARPLOT=(PRINCIPAL/NOPRINCIPAL, SUPPL)
Selección de variables a representar en el gráfico o gráficos.
PRIN
Representar variables activas.
SUPP
Representar variables pasivas.
REPRESENT=COORD/BASVEC/NORMBV
Selección de representación simultánea de puntos (casos/variables).
COOR
Coordenadas como se indican en la tabla de factores.
BASV
Representar vectores básicos.
NORM
Representar vectores básicos con norma especial para la representación “simpliciofactorial”.
OVLP=FIRST/LIST/DEN
Opción concerniente a la representación de puntos traslapados.
FIRS
Imprimir el número de la variable/identificación de casos sólo del primer punto.
LIST
Dar una lista vertical de los puntos que tengan la misma abscisa en el gráfico, hasta
hallar otro punto (entonces se pierden los números de variable y/o los identificadores
de caso).
26.8 Restricciones
DEN
203
Imprimir la densidad (número de puntos traslapados). Imprimir para un punto “.”,
para dos puntos (traslapados) “:”, para tres puntos “3”, etc, para 9 puntos “9”, para
más de 9 puntos “*”. Se debe especificar NCHAR=2 si se selecciona esta opción.
NCHAR=4/n
Número de dı́gitos/caracteres usados para la identificación de variables/casos en el gráfico o
gráficos (1 a 4 caracteres).
PAGES=1/n
Número de páginas por gráfico.
FORMAT=STANDARD/NONSTANDARD
Define el tamaño del marco del gráfico.
STAN
Usar un marco de 21 x 30 centı́metros para el gráfico que muestra el factor con rango
más amplio en el eje horizontal y usa diferentes escalas para los dos ejes.
NONS
El marco no se estandariza en el sentido indicado en la opción anterior. El tamaño del
gráfico se define con PAGES=n y los ejes son X e Y.
26.8.
Restricciones
1. Número máximo de variables de análisis es 80.
2. Se debe especificar una y sólo una variable de identificación.
3. Número máximo de variables a ser transferidas es 99.
4. Número máximo de variables de entrada incluidas aquellas usadas en proposiciones de filtro y de Recode
es 100.
5. Número máximo de gráficos definidos por el usuario es 24.
6. Si la variable de identificación o una variable a ser transferida es alfabética con ancho > 4, sólo se usan
los primeros cuatro caracteres.
7. Los parámetros deben cumplir las siguientes especificaciones:
max(D1,D2,D3) < 5000
donde
D1 = NPV * NPV + 10 * NV
D2 = NV * (NF + 6) + NPV * NIF
D3 = NV + NF + NIF + 3 * NP
y NV, NPV, NF, NIF, NP denominan el número total de variables de análisis, número de variables
activas, número de factores a calcular, número de factores a ignorar y número máximo de puntos a
representar en gráficos, respectivamente.
26.9.
Ejemplos
Ejemplo 1. Análisis factorial de correlaciones; el análisis se basa en 20 variables y se solicitan 7 factores; el
número de factores a rotar se define de acuerdo con el criterio de Kaiser; se imprimirán las estadı́sticas, matriz
de correlación, los valores propios, seguidos de factores de variables y gráficos estándar; no se almacenarán
los factores en un archivo.
204
Análisis factorial (FACTOR)
$RUN FACTOR
$FILES
PRINT = FACT1.LST
DICTIN = A.DIC
archivo Diccionario de entrada
DATAIN = A.DAT
archivo Datos de entrada
$SETUP
ANALISIS FACTORIAL DE CORRELACIONES
ANAL=(NOCR,CORR) ROTA=KAISER NFACT=7 IDVAR=V1 PRINT=(STATS,MATRIX) PVARS=(V12-V16,V101-V115)
Ejemplo 2. Análisis factorial de productos escalares basado en 10 variables; se representarán en gráficos 2
variables pasivas V5 y V7; los gráficos serán definidos por el usuario ya que sólo se requiere el primero de
los puntos traslapados; se utilizará el criterio de Kaiser para determinar el número de factores y el número
de factores a rotar; los factores de caso y de variable se llevarán a archivos de salida.
$RUN FACTOR
$FILES
DICTIN
= A.DIC
archivo Diccionario de entrada
DATAIN
= A.DAT
archivo Datos de entrada
DICTOUT = CASEF.DIC
archivo Diccionario de factores de caso
DATAOUT = CASEF.DAT
archivo Datos de factores de caso
DICTOUTV = VARF.DIC
archivo Diccionario de factores de variable
DATAOUTV = VARF.DAT
archivo Datos de factores de variable
$SETUP
ANALISIS FACTORIAL DE PRODUCTOS ESCALARES
ANAL=(NOCRSP,SSPR) IDVAR=V1 WRITE=(OBSERV,VARS) PRINT=STATS PLOT=USER
PVARS=(V112-V116,V201-V205) SVARS=(V5,V7)
X=1 Y=2 VARP=(PRINCIPAL,SUPPL)
X=1 Y=3 VARP=(PRINCIPAL,SUPPL)
X=2 Y=3 VARP=(PRINCIPAL,SUPPL)
-
Ejemplo 3. Análisis de correspondencias sobre una tabla de contingencia descrita por un diccionario y
entrada como un dataset en un archivo Setup a ejecutar; el número de factores se define de acuerdo con
el criterio de Kaiser; se imprimirán la matriz de relaciones seguida de factores de variables y de casos; los
gráficos serán definidos por el usuario ya que se pide una projección de casos.
$RUN FACTOR
$FILES
PRINT = FACT3.LST
$SETUP
ANALISIS DE CORRESPONDENCIAS SOBRE UNA TABLA DE CONTINGENCIA
BADD=MD1 IDVAR=V8 PLOTS=USER PRINT=(MATRIX,OFPRINC) PVARS=(V31-V33)
$DICT
3
8 33
1
1
T
8 Grado cientı́fico
1
20
C
8
81
Professor
C
8
82
Ass.Prof.
C
8
83
Doctor
C
8
84
Ma^
ıtrise
C
8
85
Licencia
C
8
86
Otro
T 31 Jefe
4
20
T 32 Cientı́fico
7
20
T 33 Técnico
10
20
$DATA
81 5 0 0
82 1 3 0
83 0 17 01
84 0 28 04
85 0 0 01
86 0 0 17
Capı́tulo 27
Regresión lineal (REGRESSN)
27.1.
Descripción general
REGRESSN suministra una capacidad general para regresión múltiple, diseñada para análisis de regresión
lineal estándar o por pasos. Se pueden hacer varios análisis de regresión, con parámetros y variables diferentes
en una misma ejecución.
Término constante. Si los datos de entrada son datos primarios, el usuario puede solicitar que las
ecuaciónes no tengan término constante (ver el parámetro de regresión CONSTANT=0). En este caso se
analiza una matriz basada en la matriz de productos cruzados en vez de una matriz de correlación. Esto
cambia la pendiente de la lı́nea ajustada y puede afectar sustancialmente los resultados. En la regresión por
pasos, las variables pueden entrar a la ecuación en un orden diferente al que se hubiese requerido en caso de
estimar un término constante. Si la entrada es una matriz de correlación, la ecuación de regresión contiene
siempre un término constante.
Uso de variables categóricas como variables independientes. Existe una opción para crear un
conjunto de variables ficticias (dicotómicas) a partir de variables categóricas especı́ficadas (ver el parámetro
CATE). Estas se pueden utilizar como variables independientes en el análisis de regresión.
Cociente F para introducir una variable en la ecuación. En la regresión por pasos, se adicionan a su
turno, variables a la ecuación de regresión hasta que la ecuación sea satisfactoria. En cada paso, se selecciona
la variable que tenga la correlación parcial más alta con la variable dependiente. Se calcula entonces un
valor parcial de la prueba F para la variable y este valor se compara con un valor crı́tico suministrado por el
usuario. Tan pronto como la F parcial para la proxima variable que va entrar sea menor que el valor crı́tico,
se termina el análisis.
Cociente F para retirar una variable de la ecuación. Una variable que puede haber sido la mejor
variable individual para entrar en una etapa inicial de un análisis de regresión por pasos, en una etapa
posterior, puede no ser la mejor debido a la relación actual con otras variables en la regresión. Para detectar
ésto, el valor parcial F de cada variable en la regresión en cada paso del cálculo, es calculado y comparado
con un valor crı́tico suministrado por el usuario. Cualquier variable cuyo valor parcial F se presente por
debajo del valor crı́tico, se retira del modelo.
Regresión por pasos. Si se pide regresión por pasos, el programa determina qué variables o cuales conjuntos
de variables ficticias dentro del conjunto especificado de variables independientes se van a usar en la regresión
y en que orden se van a introducir, se comienza con las variables forzadas y se continúa con las demás variables
y los conjuntos de variables ficticias, una a una. Después de cada paso, el algoritmo escoge entre las variable
predictoras restantes, la variable o el conjunto de variables ficticias que produzcan la reducción más grande
en la variancia residual (no explicada) de la variable dependiente, a menos de que su contribución al cociente
F total para la regresión permanezca por debajo de un umbral especificado. Igualmente, el algoritmo evalúa
después de cada paso, si la contribución de alguna variable o de algún conjunto de variables ficticias ya
incluidas, se presentan o no se presentan por debajo de un umbral especificado, caso en el cual se elimina de
la regresión.
Regresión descendente por pasos. Igual que en la regresión por pasos, excepto que el algoritmo comienza
con todas las variables independientes y luego elimina variables y conjuntos de variables ficticias por pasos.
206
Regresión lineal (REGRESSN)
En cada paso el algoritmo selecciona a partir de las variables predictoras que quedan, la variable o el
conjunto de variables ficticias que produzcan la reducción más baja en la variancia explicada de la variable
dependiente, a menos que ésta exceda un umbral especificado. Igualmente, el algoritmo evalúa en cada paso
si la contribución de alguna variable o conjunto de variables ficticias previamente suprimidas de la regresión,
se ha elevado por encima de un umbral especificado, caso en el cual, se vuelve a incluir en la regresión.
Generación de un dataset de residuos. Con datos primarios como entrada, se pueden calcular residuos
y llevarlos como un archivo Datos de salida descrito por un diccionario IDAMS. Ver la sección “Datasets
de residuos de salida” para detalles del contenido. Nótese que para cada ecuación, se genera un dataset
de residuos separado. También, como REGRESSN no tiene la capacidad de transferir variables de interes
especı́fico en un análisis de residuos a partir de los datos primarios de entrada al dataset de residuos, puede
ser necesario usar el programa MERGE para crear el dataset que contenga todas las variables deseadas.
Una variable de identificación de caso (ID) del dataset de entrada se lleva al dataset de residuos para hacer
posible el encaje.
Generación de una matriz de correlación. Si entran datos primarios, el programa calcula coeficientes
de correlación que pueden salir en el formato de una matriz cuadrada de IDAMS y ser usados para análisis
posteriores. Las correlaciones de REGRESSN incluyen todas las variables de todas las ecuaciones de regresión
y se basan en casos con datos válidos en todas las variables de la matriz. De esta manera, las correlaciones
serán generalmente diferentes de las correlaciones obtenidas con el programa PEARSON cuando se ejecuta
con la opoción MDHANDLING=PAIR. Cuando la eliminación de datos faltantes en REGRESSN deja un
tamaño de muestra aceptablemente grande, REGRESSN es una alternativa de PEARSON para generar
matrices de correlación (ver parágrafo “Tratamiento de datos faltantes”).
27.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Si entran datos primarios, se puede usar el filtro estándar para escoger un
subconjunto de casos a partir de los datos de entrada. Si se utiliza una matriz de correlación como entrada
al programa, no se puede usar la selección de casos. Las variables para la ecuación de regresión se especifican
en los parámetros DEPVAR y VARS.
Transformación de datos. Si entran datos primarios, se pueden usar las proposiciones de Recode.
Ponderación de datos. Si entran datos primarios, se puede usar una variable para ponderar los datos de
entrada; esta variable de ponderación puede tener cifras enteras o decimales. El programa forzará la suma
de las ponderaciones para que sea igual al número de casos de entrada. Cuando el valor de la variable de
ponderación para un caso es cero, negativo, dato faltante o no numérico, entonces el caso siempre se omite;
se imprime el número de casos ası́ tratados.
Tratamiento de datos faltantes.
1. Entrada. Si entran datos primarios, el parámetro MDVALUES está disponible para indicar cuales
valores de datos faltantes, si los hay, se usarán para verificar los datos faltantes. Los casos en los cuales
haya datos faltantes para cualquier variable de regresión en cualquier análisis se eliminan (eliminación
de datos faltantes “por casos”). Una opción (ver parámetro MDHANDLING) permite al usuario especificar el máximo número de casos con datos faltantes que puede tolerarse antes de terminar la ejecución.
Advertencia: si se llevan a cabo análisis múltiples en una ejecución de REGRESSN, se calcula una sola
matriz de correlación para todas las variables utilizadas en los diferentes análisis. Por causa del método
de eliminación de casos con datos faltantes “por casos”, el número de casos usado y por lo tanto las
estadı́sticas de regresión producidas pueden ser diferentes si los análisis se llevan a cabo separadamente.
Si entra una matriz, los casos con datos faltantes se han debido acomodar al crear la matriz. Si una
celda de la matriz de entrada tiene un código de dato faltante (es decir, 99.999) cualquier análisis que
involucre dicha celda, se omite.
2. Residuos de salida. Si se piden residuos, se calculan para todos los casos que pasen el filtro (opcional)
valores predichos y residuos. Si un caso tiene datos faltantes en cualquiera de las variables requeridas
para estos cálculos, se generan códigos de datos faltantes en la salida.
3. Matriz de correlación de salida. El algoritmo de REGRESSN para el manejo de datos faltantes en
la entrada de datos primarios no puede resultar en valores de datos faltantes en la matriz de correlación.
27.3 Resultados
27.3.
207
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.
Estadı́sticas univariadas. (Sólo datos primarios). Se imprime la suma, el promedio, la desviación estándar,
el coeficiente de variación, el valor máximo y el valor mı́nimo para todas las variables dependientes e independientes utilizadas.
Matriz de sumas totales de cuadrados y productos cruzados. (Sólo datos primarios. Opcional: ver
el parámetro PRINT).
Matriz de sumas de cuadrados residuales y productos cruzados. (Sólo datos primarios. Opcional:
ver el parámetro PRINT).
Matriz de correlación total. (Opcional: ver el parámetro PRINT).
Matriz de correlación parcial. (Opcional para cada regresión: ver el parámetro de regresión PARTIALS).
El elemento ij-ésimo es la correlación parcial entre la variable i y la variable j, manteniendo constantes las
variables especificadas en la lista de variables de PARTIALS.
Matriz inversa. (Opcional para cada regresión: ver el parámetro PRINT).
Estadı́sticas de resumen del análisis. Las siguientes estadı́sticas se imprimen para cada regresión o para
cada paso de un regresión por pasos:
error estándar de estimación,
cociente F,
coeficiente de correlación múltiple (ajustado y no ajustado),
fracción de variancia explicada (ajustada y no ajustada),
determinante de la matriz de correlación,
grados de libertad de residuos,
término constante.
Estadisticas de análisis para predictores. Las siguientes estadı́sticas se imprimen para cada regresión
o para cada paso de un regresión por pasos:
coeficiente B (coeficiente de regresión parcial no estandarizado),
error estándar (sigma) de B,
coeficiente beta (coeficiente de regresión parcial estandarizado),
error estándar (sigma) de beta,
R cuadrada parcial y marginal,
cociente t,
cociente de covariancia,
valores de la R cuadrada marginal para todos los predictores y cocientes t para todos conjuntos de las
variables ficticias (para la regresión por pasos).
Diccionario de residuos de salida. (Para entrada de datos primarios solamente. Opcional: ver el parámetro
de regresión WRITE).
Datos de residuos de salida. (Para entrada de datos primarios solamente. Opcional: ver el parámetro de
regresión PRINT). Si hay menos de 1000 casos, los valores calculados, los valores observados y los residuos
(diferencias) se pueden listar en orden ascendente por el valor del residuo. Se puede listar cualquier número
de casos en el orden secuencial de entrada de los mismos. La estadı́stica de Durbin-Watson para la asociación
de residuos se imprime para los residuos impresos en el orden secuencial de los casos.
27.4.
Matriz de correlación de salida
Se puede producir la matriz de correlación calculada (ver el parámetro WRITE). Se escribe en la forma
de una matriz cuadrada de IDAMS (ver el capı́tulo “Los datos en IDAMS”). El formato es 6F11.7 para
las correlaciones y 4E15.7 para las medias y desviaciones estándar. Además, en las columnas 73-80 de los
registros se escriben tı́tulos para la información ası́:
208
Regresión lineal (REGRESSN)
registro descriptor de matriz
registros de correlación
registros de media
registros de desviación estándar
N=nnnnn
REG xxx
MEAN xxx
SDEV xxx
(nnnnn es el tamaño de la muestra de REGRESSN. Las xxx corresponden a un número secuencial que
comienza con 1 para el primer registro de correlación y se incrementa de uno en uno para cada registro
sucesivo hasta el último registro de desviación estándar).
Los elementos de la matriz son r de Pearson. Estas r, ası́ como las medias y las desviaciones estándar se
basan en casos que tienen datos válidos en todas las variables especificadas en cualquiera de las listas de
variables de regresión. Las correlaciones son para todos los pares de variables de toda la lista de variables de
análisis, tomadas a la vez.
27.5.
Dataset de residuos de salida
Se puede pedir un dataset de residuos para cada análisis (ver el parámetro de regresión WRITE). Este tiene
la forma de un archivo Datos descrito por un diccionario IDAMS. Contiene cuatro o cinco variables por caso,
según los datos sean o no sean ponderados: una variable de identificación (ID), una variable dependiente,
una variable dependiente predicha (calculada), un residuo y una ponderación, si la hay. El archivo de salida
de los residuos tiene el mismo orden de los casos de entrada. Las caracetrı́sticas del archivo son:
Número de
variable
(identificador)
(variable dependiente)
(variable predicha)
(residuo)
(ponderación - si hay)
*
**
***
1
2
3
4
5
Nombre
igual a entrada
igual a entrada
Predicted value
Residual
igual a entrada
Ancho de
campo
Número de
decimales
Código
MD1
*
*
7
7
*
0
**
***
***
**
igual a entrada
igual a entrada
9999999
9999999
igual a entrada
transferido del diccionario de entrada para variables V o 7 para variables R
transferido del diccionario de entrada para variables V o 2 para variables R
6 + Nr. de decimales para la variable dependiente menos el ancho de la variable dependiente; si
ésta es negativa, entonces este valor es cero.
Si el valor calculado o el residuo exceden el ancho de campo asignado, se reemplazan por código MD1.
27.6.
Dataset de entrada
El dataset de entrada de datos primarios es un archivo Datos descrito por un diccionario IDAMS. Todas
las variables usadas para análisis deben ser numéricas; pueden ser enteras o con decimales. La variable
identificadora de casos puede ser alfabética.
27.7.
Matriz de correlación de entrada
Es una matriz cuadrada de IDAMS. Una matriz de correlación generada por PEARSON o por una ejecución
anterior de REGRESSN resulta apta como matriz de entrada a REGRESSN.
El diccionario de la matriz de entrada debe contener números y nombres de variables. La matriz debe contener
correlaciones, medias y desviaciones estándar. Se usan ambas, las medias y las desviaciones estándar.
27.8 Estructura del setup
27.8.
209
Estructura del setup
$RUN REGRESSN
$FILES
Especificación de archivos
$RECODE (opcional con datos primarios como entrada;
no se usa con entrada matricial)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
5.
Filtro (opcional)
Tı́tulo
Parámetros
Definición de variables ficticias (condicional)
Especificaciones de regresión (tantas como sean necesarios)
$DICT (condicional)
Diccionario para entrada de datos primarios
$DATA (condicional)
Datos primarios de entrada
$MATRIX (condicional)
Matriz de correlación de entrada
Archivos:
FT02
FT09
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
27.9.
matriz de correlación de salida
matriz de correlación de entrada
(si no se usa $MATRIX e INPUT=MATRIX)
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de residuos de salida ) un conjunto por cada
datos de residuos de salida
) archivo de residuos
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3 y 5, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución. Disponible sólo con
datos primarios de entrada.
Ejemplo:
INCLUDE
V3=5
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
ANALISIS DE REGRESION
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
IDVAR=V1
MDHANDLING=100
210
Regresión lineal (REGRESSN)
INPUT=RAWDATA/MATRIX
RAWD
Los datos de entrada vienen en la forma de un archivo Datos descrito por un diccionario
IDAMS.
MATR
Los datos de entrada son coeficientes de correlación en la forma de una matriz cuadrada
de IDAMS.
Parámetros sólo para datos primarios de entrada
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver
el capı́tulo “El archivo Setup de IDAMS”.
MDHANDLING=0/n
Número de casos con datos faltantes admitido antes de terminar. Un caso se considera faltante si
éste contene datos faltantes en cualquiera de las variables de las ecuaciones de regresión.
WEIGHT=número de variable
Número de la variable de ponderación, si se van a ponderar los datos.
CATE
Se especifica CATE si se suministra una definición de variables ficticias.
IDVAR=número de variable
Variable que se lleva a la salida o se imprime como identificadora de casos si se han solicitado
dataset de residuos. La variable de identificación no se debe incluir en ninguna lista de variables.
WRITE=MATRIX
Escribir la matriz de correlación calculada a partir de los datos primarios de entrada en un archivo
de salida.
PRINT=(CDICT/DICT, XMOM, XPRODUCTS, MATRIX)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
XMOM Imprimir la matriz de sumas residuales de cuadrados y productos cruzados.
XPRO
Imprimir la matriz de sumas totales de cuadrados y de productos cruzados.
MATR
Imprimir la matriz de correlación.
Parámetros para entrada de la matriz de correlación
CASES=n
Haga CASES igual al número de casos usados para la creación de la matriz de entrada. Este
número se utiliza en el cálculo del nivel F.
No admite valor por defecto; debe suministrarse cuando entra la matriz de correlación.
PRINT=MATRIX
Imprimir la matriz de correlación.
27.9 Proposiciones de control del programa
211
4. Definición de variables ficticias (condicional: si se ha especificado CATE como un parámetro). El
programa REGRESSN puede transformar una variable categórica en un conjunto de variables ficticias.
Para tener un tratamiento de variables como categóricas, el usuario debe: a) incluir el parámetro
CATE en la lista de parámetros y b) especificar cuales variables se van a considerar como categóricas
y los códigos a usar. Cada variable categórica a transformar está seguida de los códigos a usar entre
paréntesis cuadrados. Para cada variable, los códigos no listados se excluyen de la construcción. Nota:
la lista de códigos no debe ser exahustiva, es decir, no se deben imprimir todos los códigos existentes
o de lo contrario, resultará una matriz singular.
Ejemplo:
V100(5,6,1), V101(1-6)
Los códigos 5, 6 y 1 de la variable 100 se representarán en la regresión como variables ficticias,
ası́ como también los códigos 1 a 6 de la variable 101.
Una variable especificada en la definición de variables ficticias, cuando se use en listas de variables
predictoras (VARS), variables parciales (PARTIALS) o variables forzadas (FORCE) para regresión
por pasos, se referirán al conjunto de variables ficticias creado a partir de esa variable. En regresiones
por pasos, los códigos de esa variable entrarán o se excluirán ambos a la vez, las R cuadradas marginales
y los cocientes-F se calculan para todos los códigos de las variables conjuntamente ası́ como para los
códigos individualmente. Una variable usada en la definición de variables ficticias no se puede usar
como variable dependiente.
5. Especificaciones de regresión. Las reglas de codificación son las mismas de los parámetros. Cada
conjunto de parámetros de regresión debe comenzar en una nueva lı́nea.
Ejemplo:
DEPV=V5
METH=STEP
FORCE=(V7) VARS=(V7,V16,V22,V37-V47,R14)
METHOD=STANDARD/STEPWISE/DESCENDING
STAN
Se hace regresión estándar.
STEP
Se hace regresión por pasos.
DESC
Se hace una regresión descendente por pasos.
DEPVAR=número de variable
Número de la variable dependiente.
Sin valor por defecto.
VARS=(lista de variables)
Las variables independientes que se van a usar en el análisis.
Sin valor por defecto.
PARTIALS=(lista de variables)
Calcular e imprimir una matriz de correlación parcial con las variables eliminadas de la lista de
variables independientes.
Por defecto: no hay parciales.
FORCE=(lista de variables)
Forzar las variables listadas a entrar en la regresión por pasos (METHOD=STEP) o a permanecer
en la regresión descendente por pasos (METHOD=DESC).
Por defecto: no hay forzamiento.
FINRATIO=.001/n
El valor del cociente F por debajo del cual una variable no entra al procedimiento por pasos; este
es el cociente F para entrar. Debe darse el punto decimal.
FOUTRATIO=0.0/n
El valor del cociente F por encima del cual una variable se debe mantener para permanecer en el
procedimiento por pasos; este es el cociente F para retirar. Debe darse el punto decimal.
212
Regresión lineal (REGRESSN)
CONSTANT=0
Sólo para la entrada de datos primarios.
El término constante debe ser igual a cero y no se estimará término constante.
Por defecto: se calcula un término constante.
WRITE=RESIDUALS
Los residuos se escriben en un dataset IDAMS.
OUTFILE=OUT/yyyy
Se aplica solamente cuando se ha especificado WRITE=RESI.
Un sufijo de ddname de 1-4 caracteres para los archivos del diccionario y de los datos de residuos
de salida. Si se llevan los residuos al archivo de salida para más de un análisis, el nombre por
defecto OUT, sólo puede utilizarse una sola vez.
PRINT=(STEP, RESIDUALS, ERESIDUALS, INVERSE)
STEP
Se aplica solamente a una regresión por pasos: imprimir R cuadradas marginales para
todos los predictores en cada paso.
RESI
Imprimir los residuos en el orden de los casos de entrada y la estadı́stica de DurbinWatson.
ERES
Imprimir los residuos, excepto para datos faltantes, en orden de magnitud del error,
siempre que haya menos de 1000 casos.
INVE
Imprimir la matriz de correlación inversa.
27.10.
Restricciones
1. Con datos primarios como entrada, puede haber hasta 99 o 100 variables distintas, (dependiendo de si
hay o no hay una variable de ponderación) para utilizar en una sóla ecuación de regresión; el número
total de variables en todo el análisis, incluidas las variables de Recode, la variable de ponderación y la
variable de identificación, no puede ser mayor de 200.
2. Cuando la entrada es una matriz, ésta puede ser de 200 x 200 y se pueden usar hasta 100 variables en
una sóla ecuación de regresión.
3. FINRATIO debe ser mayor o igual a FOUTRATIO.
4. Los residuos se pueden listar en orden ascendente por valor de residuo si hay menos de 1000 casos.
5. Una variable especificada en la definición de variables ficticias, no puede usarse como variable dependiente.
6. Máximo se pueden definir 12 variables ficticias a partir de una variable categórica.
7. Si la variable de identificación es alfabética con ancho > 4, sólo se usan los primeros cuatro caracteres.
27.11.
Ejemplos
Ejemplo 1. Regresión estándar con cinco variables independientes con una matriz de correlación IDAMS
como entrada.
$RUN REGRESSN
$FILES
FT09 = A.MAT
archivo Matriz de entrada
SETUP
REGRESION ESTANDAR - USA MATRIZ DE ENTRADA
INPUT=MATR CASES=1460
DEPV=V116 VARS=(V18,V36,V55-V57)
27.11 Ejemplos
213
Ejemplo 2. Regresión estándar con seis variables independientes y dos variables cada una con 3 categorı́as
transformadas a 6 variables ficticias; se usan datos primarios de entrada; se van a calcular residuos y se
escriben en un dataset de salida (los casos se identifican con la variable V2).
$RUN REGRESSN
$FILES
PRINT
= REGR2.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
DICTOUT = RESID.DIC
archivo Diccionario de los residuos
DATAOUT = RESID.DAT
archivo Datos para residuos
$SETUP
REGRESION ESTANDAR - USA DATOS PRIMARIOS DE ENTRADA Y ESCRIBE RESIDUOS
MDHANDLING=50 IDVAR=V2 CATE
V5(1,5,6),V6(1-3)
DEPV=V116 WRITE=RESI VARS=(V5,V6,V8,V13,V75-V78)
Ejemplo 3. Dos regresiones: una estándar y una por pasos con datos primarios como entrada.
$RUN REGRESSN
$FILES
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
DOS REGRESIONES
PRINT=(XMOM,XPROD)
DEPV=V10 VARS=(V101-V104,V35) PRINT=INVERSE
DEPV=V11 METHOD=STEP PRINT=STEP VARS=(V1,V3,V15-V18,V23-V29)
Ejemplo 4. Regresión en dos etapas; la primera usa las variables V2 - V6 para estimar los valores de la
variable dependiente V122; en la segunda etapa, dos variables adicionales V12, V23 se usan para estimar los
valores predichos de V122, es decir V122 sin los efectos de V2 - V6.
En la primera regresión, los valores predichos para la variable dependiente (V122) se calculan y se escriben
en el archivo de residuos (OUTB) como la variable V3. Después se usa el programa MERGE para intercalar
esta variable con las variables del archivo original que se necesitan en la segunda etapa. El dataset de salida
de MERGE (un archivo temporal y por lo tanto no es necesario definirlo) tendrá cinco variables de la lista
de construcción, numeradas V1 a V5, donde A12 y A23 (para usar como predictores de la segunda etapa) se
convierten en V2 y V3, A122, la variable dependiente original, se convierte en V4 y B3, la variable que da
los valores predichos de V122, se convierte en V5. Este archivo de salida se utiliza entonces como entrada de
la segunda etapa.
$RUN REGRESSN
$FILES
PRINT
= REGR4.LST
DICTIN
= STUDY.DIC
archivo Diccionario de entrada
DATAIN
= STUDY.DAT
archivo Datos de entrada
DICTOUTB = RESID.DIC
archivo Diccionario de los residuos
DATAOUTB = RESID.DAT
archivo Datos para residuos
$SETUP
REGRESION EN DOS ETAPAS - PRIMERA ETAPA
MDHANDLING=100 IDVAR=V1
DEPV=V122 WRITE=RESI OUTF=OUTB VARS=(V2-V6)
$RUN MERGE
$SETUP
INTERCALACION DE LOS VALORES PREDICHOS (V3 EN ARCH.DE RES.) EN ARCH DE DATOS
MATCH=INTE INAF=IN INBF=OUTB
A1=B1
A1,A12,A23,A122,B3
214
Regresión lineal (REGRESSN)
$RUN REGRESSN
$SETUP
REGRESION EN ETAPAS - SEGUNDA ETAPA
MDHANDLING=100 INFI=OUT
DEPV=V5 VARS=(V2,V3)
Capı́tulo 28
Escalamiento multidimensional
(MDSCAL)
28.1.
Descripción general
MDSCAL es un programa del escalamiento multidimensional no métrico para el análisis de similitudes. El
programa, el cual opera sobre una matriz de medidas de similitud o disimilitud, está diseñado para encontrar,
en cada dimensión especificada, la mejor representación geométrica de los datos en el espacio.
El uso del escalamiento multidimensional no métrico, es parecido al del análisis factorial: por ej. se pueden
puntualizar conglomerados de variables, se puede descubrir el número de dimensiones de los datos y algunas
veces se pueden interpretar las dimensiones. Se puede usar el programa CONFIG para hacer análisis sobre
una configuración de salida de MDSCAL.
Configuración de entrada. Para comenzar los cálculos, se usa normalmente, una configuración inicial
creada internamente, en forma arbitraria. Sin embargo, el usuario puede suministrar una configuración inicial.
Hay varias razones para suministrar una configuración inicial. El usuario puede tener motivos teóricos para
comenzar con una cierta configuración; se puede desear hacer iteraciones adicionales sobre una configuración
que no se encuentra suficientemente cerca a la mejor; o, para ahorrar tiempo de computación, se puede desear
suministrar una configuración de dimensiones más elevadas como punto de partida para una configuración
de más baja dimensión.
Algoritmo de escalamiento. El programa comienza con una configuración inicial, generada arbitrariamente o suministrada por el usuario, e itera (usando un procedimiento del tipo “descenso más inclinado”)
sobre sucesivas configuraciones de ensayo, cada vez compara el orden de rango de las diferencias entre puntos
en la configuración de ensayo con el orden de rango de la medida correspondiente en los datos. Una medida
de “calidad de ajuste” (coeficiente de esfuerzo) se calcula después de cada iteración y la configuración se
arregla nuevamente para mejorar el ajuste a los datos, hasta que, idealmente, el orden de rango entre las
distancias entre puntos es perfectamente monotónico con el orden de rango de disimilitudes dado por los
datos; en este caso, el “esfuerzo” será cero. En la práctica, los cálculos de escalamiento (en cualquier número
de dimensiones) se detienen porque el esfuerzo alcanzó un valor suficientemente pequeño (STRMIN), el factor de escala (magnitud) del gradiente, alcanzó un valor suficientemente pequeño (SRGFMN), el esfuerzo
ha mejorado demasiado lentamente (SRATIO), o se alcanzó un número de iteraciones definido previamente
(ITERATIONS). El programa se detiene con cualquiera de estas condiciones que se presente primero. El
mismo procedimiento se repite para la dimensión más baja que sigue, utiliza como configuración inicial los
resultados anteriores, hasta alcanzar un número mı́nimo de dimensiones especificado. Durante los cálculos, el
coseno del ángulo entre gradientes sucesivos, juega un papel importante de varias maneras; opcionalmente,
se pueden especificar dos parámetros internos de ponderación (ver parámetros COSAVW y ACSAVW).
Número de dimensiones y métrica. Se pueden obtener soluciones en 2 a 10 dimensiones. El usuario
controla el número de dimensiones de las configuraciones obtenidas, a partir de la especificación del número
máximo y mı́nimo de dimensiones deseadas y la diferencia de dimensiones de las soluciones sucesivas producidas (ver parámetros DMAX, DMIN, y DDIF). El usuario también especifica, con el parámetro R, si la
métrica de distancia debe ser euclideana (R=2), que es el caso usual, o alguna otra métrica r de Minkowski.
216
Escalamiento multidimensional (MDSCAL)
Esfuerzo. El esfuerzo es una medida de la bondad del ajuste de la configuración a los datos. El usuario
puede escoger entre dos fórmulas para calcular el coeficiente de esfuerzo: el esfuerzo se estandariza por la
suma de las distancias cuadradas desde la media (SQDIST) o bien, el esfuerzo se estandariza por la suma de
las desviaciones cuadradas desde la media (SQDEV). En muchas situaciones, las configuraciones obtenidas
por las dos fórmulas no son sustancialmente diferentes. En la fórmula 2, se obtienen valores más altos del
esfuerzo para el mismo grado de ajuste.
Ataduras en los coeficientes de entrada. Hay dos métodos alternos para el manejo de ataduras entre los
datos de entrada; las distancias correspondientes puede requerirse que sean iguales (TIES=EQUAL) o puede
permitirse diferir (TIES=DIFFER). Cuando hay pocas ataduras, es muy poca la diferencia entre las dos
alternativas. Cuando hay gran número de ataduras, hay diferencia y se hace necesario considerar el contexto
para hacer la selección.
28.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. El filtrado de casos debe hacerse en el momento de creación de la matriz,
no en MDSCAL. El parámetro VARS permite que los cálculos se hagan sobre subconjuntos de la matriz y
no sobre toda la matriz.
Transformación de datos. No se aplica el uso de las proposiciones de Recode con MDSCAL. La transformación de los datos debe hacerse al crear la matriz.
Ponderación de datos. La ponderación en el sentido usual (ponderar casos para corregir diferentes tasas
de muestreo o diferentes niveles de agregación) debe hacerse antes de usar MDSCAL; tales ponderaciones
deben ser incorporadas como datos en la matriz de entrada. Hay una opción de ponderación de naturaleza
muy diferente en MDSCAL (ver el parámetro INPUT=WEIGHTS). Se puede usar para asignar ponderación
a las celdas de las matriz de entrada; el usuario suministra una matriz de valores que se van a usar como
coeficientes de ponderación para los elementos correspondientes en la matriz de entrada.
Tratamiento de datos faltantes. Los datos faltantes de casos individuales se deben tener en cuenta en el
momento de formación de la matriz, no en MDSCAL. Si después de haber creado la matriz, falta una entrada
de la misma, es decir, contiene un código de dato faltante, existe la posibilidad de procesarlo en MDSCAL.
La opción de recorte de MDSCAL (ver el parámetro CUTOFF) se puede usar para excluir del análisis los
valores de datos faltantes si éstos son menores que valores de datos válidos. MDSCAL no tiene la opción de
reconocer códigos de datos faltantes que sean números grandes (tales como 99.999, que es el código de datos
faltantes emitido por PEARSON). Si existen códigos de datos faltantes grandes, éstos deberán editarse a
números pequeños. Si una variable en particular, tiene muchos valores faltantes de entrada, posiblemente
deberá ser excluida del análisis.
28.3.
Resultados
Matriz de entrada. (Opcional: ver el parámetro PRINT).
Ponderaciones de entrada. (Opcional: ver el parámetro PRINT).
Configuración de entrada. Si se da una configuración inicial, ésta siempre se imprime.
Historia de los cálculos. Para cada solución, el programa imprime una historia completa de los cálculos,
reporta el esfuerzo y sus parámetros auxiliares para cada iteración:
Iteración
Stress
SRAT
SRATAV
CAGRGL
COSAV
ACSAV
SFGR
STEP
el número de la iteración
el valor actual del esfuerzo
el valor actual del cociente de esfuerzo
el promedio actual del cociente de esfuerzo (es un promedio ponderado exponencial)
el coseno del ángulo entre el gradiente actual y el gradiente previo
el promedio del coseno del ángulo entre gradientes sucesivos (un promedio ponderado)
el promedio del valor absoluto del coseno del ángulo entre gradientes sucesivos
(un promedio ponderado)
la longitud (más apropiadamente, el factor de escala) del gradiente
el tamaño del paso.
28.4 Matriz de configuración de salida
217
Motivo para terminar. Cuando se termina el cálculo, se indican los motivos con uno de los siguientes
mensajes: “Se logró el mı́nimo”, “Número máximo de iteraciones usado”, “Se alcanzó esfuerzo satisfactorio”,
o “Se alcanzó esfuerzo cero”.
Configuración final. Para cada solución, se imprimen las coordenadas cartesianas de la configuración final.
Configuración clasificada. (Opcional: ver el parámetro PRINT). Para cada solución, las proyecciones de
puntos de la configuración final se clasifican ascendentemente por separado en cada dimensión y se imprimen.
Resumen. Para cada solución, los datos originales se ordenan y se imprimen junto con sus distancias finales
correspondientes (DIST) y las distancias hipotéticas requeridas para un ajuste monotónico perfecto (DHAT).
28.4.
Matriz de configuración de salida
Cuando se ha calculado la configuración final para cada número de dimensiones, se puede obtener como una
matriz rectangular IDAMS. La configuración es centrada y normalizada. Las filas representan variables y
las columnas dimensiones. Los elementos de la matriz se escriben en formato 10F7.3. Se generan registros
de diccionario. Esta matriz puede ser una configuración inicial para otra ejecución de MDSCAL, o también
puede ser capturada por otro programa, tal como CONFIG, para otros análisis.
28.5.
Matriz de datos de entrada
La entrada usual a MDSCAL es una matriz cuadrada IDAMS (ver el capı́tulo “Los datos en IDAMS”).
Esta matriz es la mitad superior derecha sin diagonal y se define con el parámetro INPUT=STANDARD.
TABLES y PEARSON generan matrices que son aptas para entrar a MDSCAL. La media y la desviación
estándar no se usan, pero se deben suministrar registros ficticios apropiados. MDSCAL acepta matrices
en otros formatos adicionalmente al triángulo superior derecho sin diagonal. Sin embargo, tales matrices
deben tener la porción del diccionario de una matriz cuadrada IDAMS y deben tener registros al final, que
contengan la pseudo-media y la pseudo-desviación estándar.
Los siguientes parámetros de entrada, indican el formato exacto de la matriz de entrada:
STAN
STAN, DIAG
LOWER, DIAG
LOWER
SQUARE
triángulo superior derecho, sin diagonal
triángulo superior derecho, con diagonal
triángulo inferior izquierdo, con diagonal
triángulo inferior izquierdo, sin diagonal
toda la matriz cuadrada con diagonal.
Las medidas contenidas en la matriz de datos pueden ser de similitud (tales como correlaciones) o de disimilitud. Aunque la entrada a MDSCAL, es normalmente, una matriz de coeficientes de correlación (por ej.
una matriz de gamas o una matriz de r de Pearson), la matriz de entrada puede contener cualquier medida
que tenga sentido como medida de proximidad. Como el escalamiento no métrico hace uso solamente de la
ordinalidad de los datos, no se requiere suponer nada acerca de las propiedades cuantitativas o numéricas
de los mismos. Al final debe haber el doble de variables que dimensiones.
28.6.
Matriz de ponderaciones de entrada
Si se suministra una matriz de ponderaciones, debe tener exactamente el mismo formato de la matriz de datos.
El parámetro INPUT=(STAN/LOWE/SQUA,DIAG) se aplica a la matriz de ponderaciones, tanto como a
la matriz de datos. El diccionario para la matriz de ponderaciones debe ser el mismo de la matriz de datos.
No se utilizan medias ni desviaciones estándar, pero se deben suministrar las lı́neas ficticias correspondientes.
Esta matriz contiene valores en correspondencia uno a uno con la matriz de datos, los cuales se usarán como
ponderaciones para los datos. Estos valores se usan conjuntamente con el valor del parámetro CUTOFF al
aplicarlos a los datos. Si un dato es mayor que el valor correspondiente del parámetro CUTOFF, pero su
ponderación correspondiente es menor o igual a cero, entonces se señala una condición de error. Similarmente,
si el dato es menor o igual al valor del parámetro CUTOFF y su ponderación correspondiente es mayor de
218
Escalamiento multidimensional (MDSCAL)
cero, se genera una condición de error. Si se presenta una de estas inconsistencias, la ejecución termina.
28.7.
Matriz de configuración de entrada
La configuración de entrada debe estar en el formato de una matriz rectangular de IDAMS. Ver el capı́tulo
“Los datos en IDAMS”.
Suministra una configuración inicial, a partir de la cual se llevan a cabo los cálculos. Las filas deben representar las variables y las columnas las dimensiones. Usualmente es producida por una ejecución previa de
MDSCAL y se pueda continuar una ejecución anterior, en el punto en el cual ésta quedó.
La matriz debe tener tantas dimensiones como hayan sido dadas para el parámetro DMAX.
Nota: si se especifica una lista de variables (VARS), MDSCAL usa las primeras n filas de la configuración
de entrada, donde n es el número de variables del subconjunto, sin verificar los numeros de variable.
28.8.
Estructura del setup
$RUN MDSCAL
$FILES
Especificación de archivos
$SETUP
1. Tı́tulo
2. Parámetros
$MATRIX (condicional)
Matriz de datos
Matriz de ponderaciones
Matriz de configuración inicial
(Nota: no es necesario incluir todas las matrices aquı́; sin embargo, si
se incluyen más matrices, éstas deben estar en el orden arriba indicado).
Archivos:
FT02
FT03
FT05
FT08
PRINT
28.9.
matriz de configuración de salida
matriz de ponderaciones de entrada, si se ha especificado INPUT=WEIGHTS
(omitir si se usa $MATRIX)
configuración inicial de entrada, si se ha especificado INPUT=CONFIG
(omitir se usa $MATRIX)
matriz de datos de entrada (omitir si se usa $MATRIX)
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-2, a continuación.
1. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
CORRIDA DE MDSCAL CON EL ARCHIVO X4952
2. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
DMAX=5
ITER=75
WRITE=CONFIG
28.9 Proposiciones de control del programa
219
INPUT=(STANDARD/LOWER/SQUARE, DIAGONAL, WEIGHTS, CONFIG)
STAN
La entrada es una matriz cuadrada IDAMS, sin diagonal, mitad superior derecha.
LOWE
La matriz de entrada es la mitad inferior izquierda de la matriz.
SQUA
La matriz de entrada es una matriz cuadrada completa.
DIAG
La matriz de entrada tiene los elementos de la diagonal.
WEIG
Se suministra una matriz de ponderaciones.
CONF
Se suministra la matriz de configuración inicial.
VARS=(lista de variables)
Lista de variables de la matriz sobrer la cual se va a hacer el análisis.
Por defecto: se usa toda la matriz de entrada.
FILE=(DATA, WEIGHTS, CONFIG)
DATA
La matriz de datos de entrada está en un archivo.
WEIG
La matriz de ponderaciones está en un archivo.
CONF
La matriz de configuración de entrada está en un archivo.
Por defecto: se supone que todas las matrices se encuentran después de un comando $MATRIX
en el orden: datos, ponderaciones, configuración.
COEFF=SIMILARITIES/DISSIMILARITIES
SIMI
Coeficientes grandes en la matriz de datos indican que los puntos son similares o están
cerca unos de otros.
DISS
Coeficientes grandes indican que los puntos no son similares o están lejos unos de otros.
DMAX=2/n
El máximo de la dimensión: el escalamiento comienza con el espacio de máxima dimensión.
DMIN=2/n
El mı́nimo de la dimensión: el escalamiento continúa hasta que alcance o pase de la dimensión
mı́nima.
DDIF=1/n
Diferencia de dimensión: el escalamiento se lleva a cabo desde la dimensión máxima hasta la
mı́nima, con pasos del tamaño de la diferencia de dimensión.
R=2.0/n
Indica cual es la métrica r de Minkowski a usar. Se puede utilizar cualquier valor >= 1.0.
R=1.0
Métrica de cuadra urbana (“city block”).
R=2.0
Distancia euclideana ordinaria.
CUTOFF=0.0/n
Se descartan los valores de datos iguales o menores a n. Si los valores legı́timos de los coeficientes
de entrada se encuentran en el rango -1.0 a 1.0, se debe usar CUTOFF=-1.01.
TIES=DIFFER/EQUAL
DIFF
Las distancias desiguales que correspondan a valores iguales en los datos, no contribuyen al coeficiente de esfuerzo y no se intenta igualarlas.
EQUA
Las distancias desiguales que correspondan a valores iguales en los datos, sı́ contribuyen
al coeficiente de esfuerzo y sı́ se hace el intento de igualarlas.
ITERATIONS=50/n
Número máximo de iteraciones a hacer para un número dado de dimensiones. Este máximo es
una precaución de seguridad para controlar el tiempo de ejecución.
STRMIN=.01/n
Esfuerzo mı́nimo. El escalamiento se detiene cuando se alcanza el valor de esfuerzo mı́nimo.
220
Escalamiento multidimensional (MDSCAL)
SFGRMN=0.0/n
El valor mı́nimo de factor de escala de gradiente. El proceso de escalamiento se detiene cuando se
alcanza el valor mı́nimo de la magnitud del gradiente.
SRATIO=.999/n
El cociente de esfuerzo. El proceso de escalamiento se detiene si el cociente de esfuerzo entre dos
pasos consecutivos alcanza n.
ACSAVW=.66/n
El factor de ponderación para el promedio del valor absoluto del coseno del ángulo entre dos
gradientes sucesivos.
COSAVW=.66/n
El factor de ponderación del promedio del coseno del ángulo entre dos gradientes sucesivos.
STRESS=SQDIST/SQDEV
SQDI
Calcular el esfuerzo utilizando la estandarización por la suma de las distancias cuadradas.
SQDE
Calcular el esfuerzo utilizando la estandarización por la suma de las desviaciones
cuadradas desde la media.
WRITE=CONFIG
Guardar en un archivo la configuración final de cada solución.
PRINT=(MATRIX, SORTCONF, LONG/SHORT)
MATR
Imprimir la matriz de entrada y la matriz de ponderaciones, si la hay.
SORT
Clasificar cada dimensión de la configuración final e imprimirla.
LONG
Imprimir las matrices en lı́neas largas.
SHOR
Imprimir las matrices en lı́neas cortas.
28.10.
Restricciones
1. La capacidad del programa es de 1800 puntos (por ej. 1800 elementos de la matriz de similitud o
disimilitud). Esto es equivalente a una matriz triangular de 60x60 o a una matriz cuadrada de 42x42.
2. Las variables se pueden escalar hasta 10 dimensiones.
3. La matriz de configuración inicial puede tener un máximo de 60 filas y 10 columnas.
28.11.
Ejemplo
Generación de una matriz de configuración de salida; la matriz de entrada de datos es una matriz estándar
de IDAMS en un archivo; no hay matriz de entrada de ponderaciones ni matriz de configuración de entrada;
se solicitan 20 iteraciones; se hace el análisis sobre un subconjunto de variables.
$RUN MDSCAL
$FILES
FT02 = MDS.MAT
archivo Matriz de configuración de salida
FT08 = ABC.COR
archivo Matriz de datos de entrada
$SETUP
ESCALAMIENTO MULTIDIMENSIONAL
ITER=20 WRITE=CONFIG FILE=DATA VARS=(V18-V36)
Capı́tulo 29
Análisis de clasificación múltiple
(MCA)
29.1.
Descripción general
MCA examina las relaciones entre varias variables de predicción y una sóla variable dependiente y determina
los efectos de cada predictor antes y después de los ajustes para sus intercorrelaciones con otros predictores
dentro del análisis. También produce información acerca de las relaciones bivariadas y multivariadas entre
los predictores y la variable dependiente. La técnica MCA se puede considerar equivalente a un análisis de
regresión múltiple con variables ficticias. Sin embargo, a menudo MCA resulta más conveniente para usar e
interpretar. MCA tiene también la posibilidad de hacer análisis de variancia de una entrada.
MCA asume que los efectos de los predictores son aditivos, es decir que no hay interacciones entre los
predictores. Está diseñado para usar con variables predictoras las cuales se miden en escalas nominales,
ordinales y de intervalos. Acepta un número desigual de casos en las celdas construidas por clasificación
cruzada de los predictores.
Como alternativa al uso de MCA, se tiene REGRESSN y ONEWAY. REGRESSN suministra una capacidad
de tipo general de regresión múltiple. ONEWAY hace un análisis de variancia de una entrada. La ventaja
de MCA sobre REGRESSN consiste en aceptar variables predictoras en una forma tan débil como escalas
nominales y no supone una relación lineal en la regresión. Las ventajas sobre ONEWAY son que en MCA
el código máximo para una variable de control en un análisis de una entrada es 2999 (en lugar de 99 en
ONEWAY).
Generación de un dataset de residuos. Se pueden calcular residuos y llevarlos como un archivo de
datos de salida descrito por un diccionario IDAMS. Ver la sección “Dataset(s) de residuos de salida” para
detalles del contenido. Esta opción no se puede usar cuando se tiene sólo un predictor.
Procedimientos iterativos. MCA utiliza un algoritmo de iteración para aproximar los coeficientes que
constituyen las soluciones del conjunto de ecuaciones normales. El algoritmo de iteración se detiene cuando
los coeficientes generados tienen la exactitud suficiente. Esto involucra la definición de una tolerancia y la
especificación de una prueba para determinar cuando se ha satisfecho esta tolerancia (ver parámetros de
análisis CRITERION y TEST). Hay cuatro pruebas de convergencia. Si los coeficientes no convergen dentro
de los lı́mites impuestos por el usuario, el programa imprime los resultados de la última iteración. El número
de iteraciones útiles depende, en alguna forma, del número de predictores usados en el análisis y de la fracción
especificada de tolerancia. Cuando hay menos de 10 predictores, se ha encontrado que resulta conveniente
especificar 10 como el número de máximo de iteraciones.
Detección y tratamiento de interacciones. El programa asume que el fenómeno que se va estudiar se
puede entender en términos de un modelo aditivo.
Si sobre bases a priori, se sospecha que algunas variables en particular presentan interacciones entre ellas,
MCA se puede usar para determinar la extensión de estas interacciones ası́. Si se especifica un predictor, MCA
hace análisis de variancia de una entrada. Este análisis puede ayudar a determinar y eliminar interacciones
entre predictores. El procedimiento completo es el siguiente (ver también Ejemplo 3):
222
Análisis de clasificación múltiple (MCA)
1. Determinar un conjunto de predictores de los cuales se sospecha que tendrán interacciones.
2. Formar una sola “variable de combinación” con estos predictores y la proposición COMBINE de
Recode.
3. Ejecutar un análisis de MCA con los predictores sospechosos para obtener una R cuadrada ajustada.
4. Ejecutar un análisis de MCA con la “variable de combinación” como control en un análisis de variancia
de una entrada para obtener eta cuadrada ajustada, la cual será mayor o igual a la R cuadrada ajustada.
5. Use la diferencia, eta cuadrada ajustada menos R cuadrada ajustada (la fracción de la variancia explicada que se pierde debido a la suposición de aditividad), como guı́a para determinar si se justifica el
uso de una variable de combinación a cambio de los predictores originales.
La prueba para interacción debe basarse en la misma muestra de la ejecución normal de MCA. Si se detectan
interacciones, entonces debe usarse la variable de combinación como variable de predicción en lugar de las
variables individuales que interactúan.
29.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Los casos se pueden excluir del análisis en la ejecución de MCA con una
proposición de filtro estándar. En el análisis de clasificación múltiple, se excluyen casos por haber excedido el
código máximo de predictor. (Nota: si en una ejecución, una variable de predicción tiene un código fuera del
rango 0-31, el caso con este valor se elimina de todos los análisis). Para un análisis en particular, se pueden
excluir casos adicionales, debido a las condiciones siguientes:
Un caso (referido como excéntrico) tiene un valor de la variable dependiente que es mayor que un
número especificado de desviaciones estándar de la media de la variable dependiente. Ver los parámetros
de análisis OUTDISTANCE y OUTLIERS.
Un caso tiene una variable dependiente que es mayor que un valor máximo especificado. Ver parámetro
de análisis DEPVAR.
Un caso tiene datos faltantes para la variable dependiente o la variable de ponderación. Ver “Tratamiento de datos faltantes” y “Ponderación de datos” más adelante.
Transformación de datos. Se pueden usar las proposiciones de Recode.
Ponderación de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderación puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderación para
un caso es cero, negativo, dato faltante o no numérico, entonces el caso siempre se omite; se imprime el
número de casos ası́ tratados. Cuando se usan datos ponderados, las pruebas de significación estadı́stica
deben interpretarse con precaución.
Tratamiento de datos faltantes. El parámetro MDVALUES está disponible para indicar cuales valores
de datos faltantes, si los hay, se usarán para verificar los datos faltantes. Los casos con datos faltantes en
la variable dependiente siempre se excluyen. Los casos con datos faltantes en las variables de predicción se
pueden excluir de todos los análisis con un filtro. (El uso de filtro para excluir casos con datos faltantes de
las variables predictoras en la clasificación múltiple, solamente se necesita si los códigos de datos faltantes
se encuentran dentro del rango 0-31; si el valor de algún predictor está por fuera de este rango, un caso se
excluye automáticamente de todos los análisis en la ejecución).
29.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.
Tabla de frecuencias ponderadas. (Opcional: ver el parámetro PRINT). Se imprime una matriz N x M
para cada par de predictores donde N=código máximo de predictor de fila y N=código máximo de predictor
de columna. El número total de tablas es P(P-1)/2 donde P es el número de predictores.
29.3 Resultados
223
Coeficientes para cada iteración. (Opcional: ver el parámetro de analisis PRINT). Coeficientes para
cada clase para cada predictor.
Estadı́sticas de la variable dependiente. Para la variable dependiente (Y):
gran media, desviación estándar y coeficiente de variación,
suma de Y y suma de Y cuadrada,
sumas de cuadrados total, explicada y residual,
número de casos usados en el análisis y suma de ponderaciones.
Estadı́sticas de predictores para análisis de clasificación múltiple.
Para cada categorı́a de cada predictor:
código de categorı́a (clase) y nombre, si existe en el diccionario,
número de casos con datos válidos (en forma primaria, ponderada y porcentaje),
media (no ajustada y ajustada), desviación estándar y coeficiente de variación de la variable dependiente,
desviación no ajustada de la media de la categorı́a a partir de la gran media y coeficiente de ajuste.
Para cada variable predictora:
eta y eta cuadrada (no ajustada y ajustada),
beta y beta cuadrada,
sumas de cuadrados no ajustadas y ajustadas.
Estadı́sticas de análisis para análisis de clasificación múltiple. Para todos los predictores combinados:
R cuadrada múltiple (no ajustada y ajustada),
coeficiente de ajuste para grados de libertad,
R múltiple (ajustada),
lista de betas en orden descendente de sus valores.
Estadı́sticas de análisis de variancia de una entrada.
Para cada categorı́a del predictor:
código de categorı́a (clase) y nombre, si existe en el diccionario,
número de casos con datos válidos (en forma primaria, ponderada y porcentaje),
media, desviación estándar y coeficiente de variación de la variable dependiente,
suma y porcentaje de valores de la variable dependiente,
suma de valores cuadrados de la variable dependiente.
Para la variable predictora:
eta y eta cuadrada (no ajustada y ajustada),
coeficiente de ajuste para grados de libertad,
sumas de cuadrados total, entre medias y dentro de grupos,
valor F (se imprimen grados de libertad).
Residuos. (Opcional: ver el parámetro PRINT). Se imprimen para cada caso, en el orden del archivo
de entrada: la variable de identificación, el valor observado, el valor predicho, el residuo y la variable de
ponderación si se ha usado.
Estadı́sticas de resumen para los residuos. Si se solicitan residuos, el programa imprime el número de
casos, la suma de ponderaciones, media, variancia, asimetrı́a y kurtosis de la variable de residuo.
224
29.4.
Análisis de clasificación múltiple (MCA)
Dataset(s) de residuos de salida
Para cada análisis se puede, opcionalmente, llevar los residuos a un archivo de salida, descrito por un
diccionario IDAMS. (Ver el parámetro de análisis WRITE=RESIDUALS). Se graba un registro por cada caso
que haya pasado por el filtro contenido una variable de identificación, un valor observado, un valor calculado,
un residuo para la variable dependiente y la variable de ponderación si se ha usado. Las caracterı́sticas del
dataset son las siguientes:
Número de
variable
(identificador)
(variable dependiente)
(variable predicha)
(residuo)
(ponderación - si hay)
*
**
***
1
2
3
4
5
Nombre
igual a entrada
igual a entrada
Predicted value
Residual
igual a entrada
Ancho de
campo
Número de
decimales
Códigos
MD
*
*
7
7
*
0
**
***
***
**
igual a entrada
igual a entrada
9999999
9999999
igual a entrada
transferido del diccionario de entrada para variables V o 7 para variables R
transferido del diccionario de entrada para variables V o 2 para variables R
6 + Nr. de decimales para la variable dependiente menos el ancho de la variable dependiente; si
ésta es negativa, entonces este valor es cero.
Si faltan el valor observado o el valor de la variable de ponderación, o si el caso se excluyó por la verificación
de código máximo o por criterio de dato excéntico, se graba un registro residual de todas las variables con
código MD1 (con excepción de la variable de identificación).
29.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para análisis
deben ser numéricas; pueden tener valores enteros o decimales, excepto los predictores que deben tener valor
entero, entre 0 y 31 para clasificación múltiple y hasta 2999 para el análisis de variancia de una entrada. La
variable identificadora de caso puede ser alfabética.
Para un análisis con MCA se requiere un gran número de casos; una regla práctica es que el número total de
categorı́as (es decir la suma de categorı́as sobre todos los predictores) no debe exceder el 10 % del tamaño
de la muestra).
La variable dependiente debe medirse en una escala de intervalo o ser una dicotomı́a, y no debe presentar
mala asimetrı́a. Las variables predictoras en MCA deben estar categorizadas, preferiblemente no más de
6 categorı́as. Aunque MCA está diseñado para manejar predictores correlacionados, no debe haber dos
predictores tan fuertemente correlacionados que presenten una superposición perfecta entre cualesquiera
de sus categorı́as. (Si hay una superposición perfecta, se hace necesaria una recodificación para combinar
categorı́as o un filtrado para retirar casos viciados).
29.6 Estructura del setup
29.6.
225
Estructura del setup
$RUN MCA
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
Filtro (opcional)
Tı́tulo
Parámetros
Especificaciones de análisis (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
29.7.
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de residuos de salida ) un conjunto por cada
datos de residuos de salida
) archivo de residuos requerido
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-4, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE V6=2-6
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
EJECUCION DE PRUEBA PARA MCA
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
*
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
226
Análisis de clasificación múltiple (MCA)
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de análisis. Las reglas de codificación son las mismas que las de los parámetros.
Cada especificación de análisis debe comenzar en una lı́nea nueva.
Ejemplo:
PRINT=TABLES, DEPVAR=(V35,98), ITER=100, CONV=(V4-V8)
DEPVAR=(número de variable, codmax)
Número de variable y código máximo para la variable dependiente.
Sin valor por defecto; siempre se debe especificar el número de variable.
El valor por defecto para el máximo código es 9999999.
CONVARS=(lista de variables)
Variables que se van a usar como predictores. Si sólo se especifica una variable, entonces se ejecuta
un análisis de variancia de una entrada.
Sin valor por defecto.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes de la variable dependiente se van a verificar. Ver el capı́tulo “El
archivo Setup de IDAMS”.
Nota: nunca se verifican datos faltantes para las variables de predicción.
WEIGHT=número de variable
Número de la variable de ponderación, si se van a ponderar los datos.
ITERATIONS=25/n
Número máximo de iteraciones. Rango 1-99999.
TEST=PCTMEAN/CUTOFF/PCTRATIO/NONE
Prueba de convergencia deseada.
PCTM
Prueba si el cambio en los coeficientes de una iteración a otra, se encuentra por debajo
de la fracción especificada de la gran media.
CUTO
Prueba si el cambio en los coeficientes de una iteración a otra, es menor que un valor
especificado.
PCTR
Prueba si el cambio en los coeficientes de una iteración a otra, es menor que una fracción
especificada de la relación de la desviación estándar de la variable dependiente a su
media.
NONE
El programa itera hasta exceder el máximo número de iteraciones especificado.
CRITERION=.005/n
Dar un valor numérico que es la tolerancia de la convergencia de la prueba escogida. Rango 0.0 a
1.0 (se debe dar el punto decimal).
OUTLIERS=INCLUDE/EXCLUDE
INCL
Se incluyen en el análisis y se contarán, los casos con valores excéntricos de la variable
dependiente.
EXCL
Los casos con valores excéntricos de la variable dependiente, se excluyen del análisis.
29.8 Restricciones
227
OUTDISTANCE=5/n
Número de desviaciones estándar, tomadas desde la gran media, para definir cuándo un valor de
la variable dependiente se considera excéntrico.
WRITE=RESIDUALS
Escribir los residuos en un dataset IDAMS; aplicar el modelo MCA, sólo al subconjunto de los
casos que pasan los criterios de datos faltantes, código máximo y valores excéntricos. Los casos a
los cuales el modelo MCA no se aplica, se incluyen en el dataset de residuos con todos sus valores
(excepto el valor de la variable de identificación) marcados MD1.
No se pueden obtener residuos si sólo se ha especificado una variable de predicción.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
Nota: si más de un análisis solicita llevar residuos al archivo, los ddnames por defecto DICTOUT
y DATAOUT sólo se pueden usar para uno.
IDVAR=número de variable
Número de una variable de identificación para ser incluida en el dataset de residuos.
Por defecto: se crea una variable cuyos valores son números que indican la posición secuencial del
caso en el archivo de residuos.
PRINT=(TABLES, HISTORY, RESIDUALS)
TABL
Imprimir la tabulación cruzada por pares de predictores.
HIST
Imprimir los coeficientes de todas las iteraciones. Si no se ha seleccionado la opción
HIST y la iteración converge, sólo se imprimen los coeficientes finales; si la iteración
no converge, se imprimen los coeficientes de las dos últimas iteraciones.
RESI
Imprimir los residuos en el mismo orden secuencial de los casos de entrada.
29.8.
Restricciones
1. Número máximo de variables de entrada, incluidas las variables de proposiciones Recode es 200.
2. El número máximo de variables predictoras (de control) por análisis es 50.
3. No es posible usar el número máximo de predictores, cada uno de ellos con el número máximo de
categorı́as en un análisis. Si un problema excede la capacidad de memoria, se imprime un mensaje de
error y el programa pasa al siguiente análisis.
4. Máximo número de análisis por ejecución es 50.
5. Las variables predictoras para el análisis de clasificación múltiple deben estar categorizadas, preferiblemente con 6 o menos categorı́as. Las categorı́as deben tener códigos enteros en el rango 0-31. Los
casos con cualquier otro valor serán excluidos del análisis.
6. La variable predictora en el análisis de variancia de una entrada debe estar codificada dentro del rango
0-2999. Los casos con otros valores, se excluyen del análisis.
7. Si una variable predictora tiene cifras decimales, sólo se usa la parte entera.
8. Si la variable de identificación es alfabética con ancho > 4, sólo se usan los primeros cuatro caracteres.
29.9.
Ejemplos
Ejemplo 1. Análisis de clasificación múltiple con cuatro variables de control (predictores): V7, V9, V12,
V13 y la variable dependiente V100; se harán análisis separados en todo el dataset y en dos subconjuntos de
casos.
228
Análisis de clasificación múltiple (MCA)
$RUN MCA
$FILES
PRINT = MCA1.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
TODOS LOS ENCUESTADOS JUNTOS
*
(valores por defecto para todos los parámetros)
DEPV=V100 CONV=(V7,V9,V12-V13)
$RUN MCA
$SETUP
INCLUDE V4=21,31-39
SOLO CIENTIFICOS
*
(valores por defecto para todos los parámetros)
DEPV=V100 CONV=(V7,V9,V12-V13)
$RUN MCA
$SETUP
INCLUDE V4=41-49
SOLO TECNICOS
*
(valores por defecto para todos los parámetros)
DEPV=V100 CONV=(V7,V9,V12-V13)
Ejemplo 2. Análisis de clasificación múltiple con la variable dependiente V201 y tres variables de predicción
V101, V102, V107; los datos se van a ponderar con la variable V6; se producirá un dataset de residuos en el
cual los casos se identificarán con la variable V2; se excluirán los casos con valores extremos de la variable
dependiente (casos excéntricos que estén a más de cuatro desviaciones estándar desde la gran media). Los
residuos para los primeros 20 casos se imprimirán con el programa LIST.
$RUN MCA
$FILES
PRINT
= MCA2.LST
DICTIN = LAB.DIC
archivo Diccionario de entrada
DATAIN = LAB.DAT
archivo Datos de entrada
DICTOUT = LABRES.DIC
archivo Diccionario de residuos
DATAOUT = LABRES.DAT
archivo Datos de residuos
$SETUP
ANALISIS DE CLASIFICACION MULTIPLE - RESIDUOS VAN A UN ARCHIVO DE SALIDA
*
(valores por defecto para todos los parámetros)
DEPV=V201 OUTL=EXCL OUTD=4 IDVA=V2 WRITE=RESI CONV=(V101,V102,V107) WEIGHT=V6
$RUN LIST
$SETUP
LISTADO DEL PRINCIPIO DEL ARCHIVO DE RESIDUOS
MAXCASES=20 INFILE=OUT
Ejemplo 3. Para una variable dependiente V52, se van a verificar las interacciones entre tres variables (V7,
V9, V12). V7 se codifica 1,2,9, V9 se codifica 1,3,5,9 y V12 se codifica 0,1,9 donde los dı́gitos 9 significan
valores de datos faltantes. Se construye, con Recode, una sola variable de combinación. Esto implica la
recodificación de cada variable a un conjunto de códigos contiguos que comienza desde cero y luego se usa
la función COMBINE para producir un código único para cada combinación posible de códigos de las tres
variables separadas. Se ejecuta MCA con las tres variables separadas como predictores y se lleva a cabo un
análisis de variancia de una entrada, con la variable de combinación como variable de control. Se excluyen
los casos con datos faltantes en los predictores. Los casos con valores mayores de 90000 en la variable
dependiente, también se excluyen.
29.9 Ejemplos
$RUN MCA
$FILES
DICTIN = CON.DIC
archivo Diccionario de entrada
DATAIN = CON.DAT
archivo Datos de entrada
$SETUP
EXCLUDE V7=9 OR V9=9 OR V12=9
VERIFICACION DE INTERACCIONES
BADD=SKIP
DEPV=(V52,90000) CONVARS=(V7,V9,V12)
DEPV=(V52,90000) CONVARS=R1
$RECODE
R7=V7-1
R9=BRAC(V9,1=0,3=1,5=2)
R1=COMBINE R7(2),R9(3),V12(2)
229
Capı́tulo 30
Análisis multivariado de variancia
(MANOVA)
30.1.
Descripción general
MANOVA hace análisis de variancia y covariancia univariado y multivariado, usando un modelo lineal
general. Se pueden usar hasta ocho factores (variables independientes). Si se especifica más de una variable
dependiente, se hacen análisis univariados y multivariados. El programa acepta números iguales y desiguales
de casos en las celdas.
MANOVA es el único programa de IDAMS para análisis multivariado de variancia. Se recomienda ONEWAY
para el análisis univariado de variancia. MCA maneja problemas univariados de múltiples factores. No tiene
limitaciones con relación a celdas vacı́as, acepta más de ocho predictores y permite más de 80 celdas. Sin
embargo, el modelo básico de análisis de MCA es diferente del de MANOVA. Una diferencia importante es
que MCA no es sensible a los efectos de interacción.
Modelo jerárquico de regresión. MANOVA usa aproximación de la regresión al análisis de variancia.
De manera más particular, el programa emplea un modelo jerárquico. Hay una consecuencia importante
para el usuario: si una ejecución de MANOVA involucra más de una variable de factor y hay un número
desproporcionado de casos en las celdas construidas por la clasificación cruzada de los factores, entonces
se debe considerar el orden en el cual están especificadas las variables de factores. La desproporción de los
números de casos en las subclases confunde los efectos principales y el investigador debe escoger el orden en
el cual se deben eliminar los efectos de confusión. Al usar MANOVA, esto se logra con el orden en el que se
especifican las variables de factor: cuando se usa orden estándar, las primeras variables especificadas tienen
los efectos de las variables retiradas más tarde, es decir, el primer efecto listado se probará con todos los
otros efectos principales eliminados. La regla general es que cada prueba elimina los efectos listados antes
en las especificaciones de nombre de prueba e ignora los efectos listados después. Para un análisis estándar
de dos entradas, el término de interacción no se afecta con el orden de las variables de factor; de forma
general, para un análisis estándar de n entradas, el término de la n-ésima interacción y sólo ese término, no
es afectado. El problema existe para ambos análisis, unvariado y multivariado.
Opción de contraste. Hay dos opciones disponibles para definir los contrastes (ver el parámetro de factor
CONTRAST). Los contrastes nominales se generan por defecto; son las desviaciones acostumbradas de las
medias de fila y columna de la gran media y la generalización de las mismas para los contrastes de interacción.
El programa también puede generar contrastes de Helmert.
Aumento de la suma de cuadrados dentro de las celdas. Es posible aumentar la suma de cuadrados
dentro de las celdas (término de error) usando los estimativos ortogonales (ver el parámetro AUGMENT).
Esto permite usar el programa para cuadrados Latinos y para reunir los términos de interacción con errores.
Reordenamiento y/o reunión de estimativos ortogonales. El programa tiene un ordenamiento convencional de estimativos de efectos ortogonales para uso estándar (media, C, B, A, BxC, AxC, AxB, AxBxC
en diseño con tres factores). Sin embargo los estimativos ortogonales se pueden disponer en otro orden (ver
el parámetro REORDER). Más aún, es posible reunir varios estimativos ortogonales tales como términos de
interacción para pruebas simultáneas o fragmentar el cúmulo de estimativos ortogonales para un efecto dado
232
Análisis multivariado de variancia (MANOVA)
en varios cúmulos más pequeños para hacer pruebas por separado (ver el parámetro de nombre de prueba
DEGFR).
30.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. El filtro estándar está disponible para escoger casos para ejecución. Las
variables dependientes se escogen con el parámetro DEPVARS y las covariadas con el parámetro COVARS.
Las variables de factor se especifican con proposiciones especiales de factor.
Transformación de datos. Se pueden usar las proposiciones de Recode. Nótese que solamente se aceptan
valores enteros (positivos y negativos) para las variables usadas como factor.
Ponderación de datos. No se aplica el uso de variables de ponderación.
Tratamiento de datos faltantes. El parámetro MDVALUES está disponible para indicar cuales valores
de datos faltantes, si los hay, se usarán para verificar datos faltantes. Se excluyen los casos con códigos de
datos faltantes en cualquiera de las variables de entrada (dependientes, covariadas, o de factor). Esto puede
resultar en muchos casos excluidos y constituye un problema potencial que debe considerarse cuando se
planee el análisis.
30.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables usadas en la ejecución.
Medias de celda y enes (N). Para cada celda, se imprime N y la media para cada variable dependiente y
cada variable covariada. Las medias no se ajustan para ninguna variable covariada. Las celdas se etiquetan
consecutivamente comenzando con “1 1” (para un diseño con 2 factores) sin importar los códigos actuales
de las variables de factor. Al indexar las celdas, los ı́ndices del último factor son los menores (de más rápido
movimiento).
Basa de diseño. Es la matriz de diseño generada por el programa. Las ecuaciones de efectos están en
las columnas comenzando con el efecto de la media en la columna 1. Si se ha especificado REORDER, se
imprime la matriz después del reordenamiento.
Intercorrelaciones entre los coeficientes de las ecuaciones normales.
Matriz de correlación de errores. En un análisis multivariado de variancia, el término de error es una
matriz variancia-covariancia. Este es el término de error reducido a una matriz de correlación (antes de
ajustar para las variables covariadas, si las hay).
Componentes principales de la matriz de correlación de errores. Las componentes están en las
columnas. Son las componentes del término de error del análisis (antes de ajustar para las variables covariadas, si las hay).
Matriz de dispersión de errores y errores estándar de estimación. Es el término de error del análisis,
una matriz de variancia-covariancia. La matriz se ajusta para variables covariadas, si las hay. Cada elemento
de la diagonal de la matriz es exactamente el que aparecerı́a en una tabla de análisis convencional de variancia
como el error interno cuadrático medio de la variable. Los grados de libertad se ajustan para aumento si
se solicita. Los errores estándar de estimación corresponden a las raı́ces cuadradas de los elementos de la
diagonal de la matriz.
Para análisis con variables covariadas
Matriz de dispersión de errores ajustada a las correlaciones. Es el término del error, una matriz de
variancia-covariancia reducida a una matriz de correlación, después de ajustarla para variables covariadas.
Resumen del análisis de regresión.
Componentes principales de la matriz de correlación de errores después de ajustes de covariadas. Las componentes están en las columnas. Son las componentes del término de error del análisis después
30.4 Dataset de entrada
233
del ajuste para las variables covariadas.
Para análisis univariado
Una tabla anova. Grados de libertad, suma de cuadrados, medias cuadráticas y cocientes F.
Para análisis multivariado
Se imprimen los siguientes items para cada efecto. Se hacen ajustes para las variables covariadas, si las hay.
El orden de los efectos es exactamente opuesto al orden de las especificaciones de nombre de prueba.
Cociente F para el criterio de razón de semejanza. Se usa aproximación de Rao. Es una prueba
multivariada del significado del efecto global para todas las variables dependientes simultáneamente.
Variancias canónicas de las componentes principales de la hipótesis. Son las raı́ces o valores propios
de la matriz de hipótesis.
Coeficientes de las componentes principales de la hipótesis. Son las correlaciones entre las variables
y las componentes de la matriz de hipótesis. El número de componentes diferentes de cero para cualquier
efecto será el mı́nimo de los grados de libertad y del número de variables dependientes.
Puntajes de contraste de componentes para efectos estimados. Son los puntajes de la hipótesis de
contrastes usados en el diseño. Son análogos a las medias de columna en un análisis univariado de variancia
y se pueden usar de la misma manera para ubicar variables y contrastes que producen desviaciones inusuales
de la hipótesis nula.
Pruebas acumulativas de Bartlett sobre las raı́ces. Es una prueba aproximada para las raı́ces restantes
después de eliminar la primera, la segunda, la tercera, etc.
Cocientes F para pruebas univariadas. Son exactamente los cocientes F que se obtendrı́an en un análisis
convencional de variancia.
30.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables deben ser numéricas.
Las variables dependientes y covariadas deben medirse en escala de intervalo o deben ser una dicotomı́a. Las
variables de factor pueden ser nominales, ordinales o intervalos pero deben tener valores enteros; se usan
para designar la celda apropiada del caso.
234
Análisis multivariado de variancia (MANOVA)
30.5.
Estructura del setup
$RUN MANOVA
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
Filtro (opcional)
Tı́tulo
Parámetros
Especificaciones de factores
(tantas como sean necesarias; al menos se debe suministrar un factor)
5. Especificaciones de nombre de prueba
(tantas como sean necesarias;
al menos se debe suministrar un nombre de prueba)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
30.6.
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-5, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE V2=1-4 AND V15=2
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
ANALISIS DE EDAD Y SALARIO CON SEXO Y PROFESION COMO FACTORES
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
DEPVARS=(V5,V8) COVA=(V101,V102)
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
30.6 Proposiciones de control del programa
235
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver
el capı́tulo “El archivo Setup de IDAMS”.
DEPVARS=(lista de variables)
Una lista de variables a usar como variables dependientes
Sin valor por defecto.
COVARS=(lista de variables)
Una lista de variables para usar como covariadas.
AUGMENT=(m,n)
Para construir el término de error, la suma interna de cuadrados se aumentará por las columnas
m, m+1, m+2,...,n de la matriz ortogonal de estimativos.
Por defecto: la suma interna de cuadrados se usará como término de error.
REORDER=(lista de valores)
Reordena los estimativos ortogonales de acuerdo con la lista (ver parágrafo “Reordenamiento
y/o reunión de estimativos ortogonales” atrás). Nótese que si se solicita el reordenamiento de
estimativos, el orden de las especificaciones de nombre de prueba debe corresponder al nuevo
orden.
Ejemplo: el orden convencional de un diseño de tres factores se puede cambiar por el orden: media,
A, B, C, AxB, AxC, BxC, AxBxC usando REORDER=(1,4,3,2,7,6,5,8).
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de factores (al menos se debe suministrar un factor). Se pueden especificar hasta
8 factores. Las reglas de codificación son las mismas de los parámetros. Cada especificación de factor
debe comenzar en una nueva lı́nea.
Ejemplo:
FACTOR=(V3,1,2)
FACTOR=(número de variable, lista de valores de código)
Variable a usar como factor, seguida por los valores de código que se deben usar para designar la
celda apropiada para el caso.
CONTRAST=NOMINAL/HELMERT
Especifica el tipo de contraste a usar en los cálculos.
NOMI
Contrastes nominales. Medias de efectos desviadas de la gran media, i.e. M(1)-GM,
M(2)-GM, etc.
HELM
Contrastes de Helmer. Media de efecto desviada de la suma de medias desde 1 hasta
r, donde están involucrados r niveles.
5. Especificaciones de nombre de prueba (al menos se debe suministrar un nombre de prueba).
Estas especificaciones identifican las pruebas que se deben realizar. Deben estar en el orden correcto.
Ordinariamente, habrá una especificación para la gran media seguida de una especificación de nombre
para cada efecto principal y una especificación de nombre para cada interacción posible. Si se reordenan
los parámetros de diseño o se reagrupan los grados de libertad (ver los parámetros REORDER y
DEGFR), las proposiciones de nombre de prueba deben hacerse de acuerdo con las modificaciones. Las
236
Análisis multivariado de variancia (MANOVA)
reglas de codificación son las mismas de los parámetros. Cada especificación de nombre de prueba debe
comenzar en una nueva lı́nea.
Ejemplo:
TESTNAME=’gran media’
TESTNAME=’nombre de la prueba’
Un nombre que tenga hasta 12 caracteres para la prueba que se va a realizar. Las comillas son
mandatorias si el nombre tiene caracteres no alfanuméricos.
DEGFR=n
La agrupación natural de grados de libertad (o de ecuaciones de parámetros de hipótesis) se
presenta cuando se usa el orden convencional de pruebas estadı́sticas. DEGFR se usa solamente
para cambiar la agrupación; por ejemplo, cuando se quieren reunir varios términos de interacción
y probarlos simultáneamente o para separar los grados de libertad de algún efecto en dos a más
partes. Cuando se usa el parámetro DEGFR, asegúrese de usarlo en todos las proposiciones de
nombre de prueba, incluido un grado de libertad para la gran media.
Por defecto: se usa el agrupamiento natural de grados de libertad.
30.7.
Restricciones
1. El máximo número de variables dependientes es 19.
2. El máximo número de covariadas es 20.
3. El máximo número de especificaciones de factor es 8.
4. El máximo número de valores de código en una especificación de factor es 10.
5. El máximo número de celdas es 80.
6. Celdas con cero frecuencias, o solamente con un caso o con múltiples casos idénticos a veces causan
problemas; la ejecución puede terminar prematuramente o puede llegar hasta el final pero produce
cocientes F y otras estadı́sticas inválidas.
30.8.
Ejemplos
Ejemplo 1. Análisis univariado de variancia (V10 es la variables dependiente) con dos factores representados
con A con códigos 1,2,3 y B con códigos 21 y 31; se usarán contrastes normales en los cálculos y se harán
pruebas en el orden convencional.
$RUN MANOVA
$FILES
PRINT
= MANOVA1.LST
DICTIN = CM-NEW.DIC
DATAIN = CM-NEW.DAT
$SETUP
ANALISIS UNIVARIADO DE VARIANCIA
DEPVARS=v10
FACTOR=(V3,1,2,3)
FACTOR=(V8,21,31)
TESTNAME=’gran media’
TESTNAME=B
TESTNAME=A
TESTNAME=AB
archivo Diccionario de entrada
archivo Datos de entrada
Ejemplo 2. Análisis multivariado de variancia (V11-V14 son variables dependientes) con dos factores (“sexo”
codificado 1,2 y “edad” codificada 1,2,3); se usarán contrastes nominales en los cálculos y se harán pruebas
en un orden convencional.
30.8 Ejemplos
237
$RUN MANOVA
$FILES
los mismos del ejemplo 1
$SETUP
ANALISIS MULTIVARIADO DE VARIANCIA
DEPVARS=(v11-v14)
FACTOR=(V2,1,2)
FACTOR=(V5,1,2,3)
TESTNAME=’gran media’
TESTNAME=edad
TESTNAME=sexo
TESTNAME=’sexo & edad’
Ejemplo 3. Análisis multivariado de variancia (V11-V14 son variables dependientes) con tres factores (A
codificado 1,2, B codificado 1,2,3, C codificado 1,2,3,4); se usarán contrastes nominales en los cálculos y se
harán pruebas en orden modificado (media, A, B, AxB, C, AxC, BxC, AxBxC).
$RUN MANOVA
$FILES
los mismos del ejemplo 1
$SETUP
ANALISIS MULTIVARIADO DE VARIANCIA - PRUEBAS EN ORDEN MODIFICADO
DEPVARS=(v11-v14) REORDER=(1,4,3,7,2,6,5,8)
FACTOR=(V2,1,2)
FACTOR=(V5,1,2,3)
FACTOR=(V8,1,2,3,4)
TESTNAME=media
TESTNAME=A
TESTNAME=B
TESTNAME=AxB
TESTNAME=C
TESTNAME=AxC
TESTNAME=BxC
TESTNAME=AxBxC
Capı́tulo 31
Análisis de variancia de una entrada
(ONEWAY)
31.1.
Descripción general
ONEWAY es un programa para hacer análisis de variancia de una entrada. Se puede producir en una sola
ejecución, un número ilimitado de tablas, con parejas de variables dependientes e independientes. Cada
análisis puede hacerse con todos los casos o con un subconjunto de los mismos, tomado del archivo Datos; la
selección de casos para un análisis, es independiente de la selección para otros análisis. El término “variable
de control” usado en ONEWAY es equivalente al término “variable independiente”, “predictor”, o en la
terminologı́a del análisis de variancia, “variable de tratamiento”.
Una alternativa del programa ONEWAYE es el programa MCA cuando se ha especificado sólo un predictor.
Este programa permite un código máximo de 2999 para la variable de control, mientras que ONEWAY
está limitado a un máximo de 99.
31.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Se puede utilizar el filtro estándar para escoger un subconjunto de casos
del archivo de entrada. Este filtro afecta todos los análisis de una ejecución. Adicionalmente, hay dos filtros
locales para una selección independiente de subconjuntos de casos de datos para cada análisis. Si se usan
dos filtros locales, un caso debe satisfacerlos a los dos para ser incluido en el análisis. Las variables para
cada análisis se seleccionan con los parámetros de tablas DEPVARS y CONVARS. Se produce una tabla
por separado para cada variable de la lista DEPVARS con cada variable de la lista CONVARS.
Transformación de datos. Se pueden usar las proposiciones de Recode.
Ponderación de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderación puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderación para un
caso es cero, negativo, dato faltante o no numérico, entonces el caso siempre se omite; se imprime el número
de casos ası́ tratados.
Tratamiento de datos faltantes. El parámetro MDVALUES está disponible para indicar cuales valores
de datos faltantes, si los hay, se usarán para verificar los datos faltantes. Los casos con datos faltantes en la
variable dependiente, siempre se excluyen del análisis. Los casos con datos faltantes en la variable de control,
se pueden excluir opcionalmente (ver el parámetro de tabla MDHANDLING).
31.3.
Resultados
Especificaciones de tabla. Se imprime una lista de especificaciones de tabla con una tabla de contenido
de los resultados.
240
Análisis de variancia de una entrada (ONEWAY)
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.
Estadı́sticas descriptivas dentro de las categorı́as de la variable de control. Se imprimen estadı́sticas
intermedias en forma de tabla para cada código de la variable de control, con:
número de casos válidos (N) y suma de ponderaciones (redondeadas al entero más cercano),
suma de ponderaciones como porcentaje de la suma total,
media, desviación estándar, coeficiente de variación, suma y suma de cuadrados de la variable dependiente,
suma de la variable dependiente como un porcentaje de la suma total.
Se imprime una fila de totales para la tabla, con las sumas de todas las categorı́as de la variable de control
(excepto categorı́as con cero grados de libertad, las cuales se excluyen de los totales).
Estadı́sticas del análisis de variancia. Las categorı́as de la variable de control que tengan cero grados
de libertad, no se incluyen en el cálculo de estas estadı́sticas. Para cada tabla, se imprimen las siguientes
estadı́sticas:
suma total de cuadrados de la variable dependiente,
eta y eta cuadrada (no ajustada y ajustada),
la suma de cuadrados entre grupos (suma de cuadrados entre medias) y la suma de cuadrados dentro
de grupos,
el cociente F (sólo se imprime si los datos no son ponderados).
31.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables analizadas deben
ser numéricas; pueden tener valores decimales o enteros.
Una variable dependiente debe medirse en una escala de intervalos o debe ser una dicotomı́a. Una variable de
control puede ser nominal, ordinal o de intervalo pero debe tener valores en el rango 0-99. Si, para cualquier
caso, la variable de control para un análisis, tiene un valor que excede este rango, el caso se elimina del
análisis; no se imprime ningún mensaje al respecto. Si el valor de la variable de control tiene decimales, sólo
se usa la parte entera (por ej. 1.1 y 1.6 se colocan ambas en el grupo 1); no se imprime ningún mensaje al
respecto.
31.5 Estructura del setup
31.5.
241
Estructura del setup
$RUN ONEWAY
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
Filtro (opcional)
Tı́tulo
Parámetros
Especificaciones de tablas (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
31.6.
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-4, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
EXCLUDE V3=9
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
DATOS DE EFECTOS DE ENTRENAMIENTO SOBRE JUGADORES DE FUTBOL
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
*
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
242
Análisis de variancia de una entrada (ONEWAY)
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de tablas. Las reglas de codificación son las mismas de los parámetros. Cada
especificación de tabla debe comenzar en una nueva lı́nea.
Ejemplos:
CONV=V6 DEPV=V26 WEIG=V3 F1=(V14,2,7) F2=(V13,1,1)
CONV=V5 DEPV=(V27-V29,V80)
DEPVARS=(lista de variables)
Una lista de variables a usar como variables dependientes
CONVARS=(lista de variables)
Una lista de variables a usar como variables de control.
WEIGHT=número de variable
Número de la variable de ponderación, si se van a ponderar los datos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en este conjunto de
tablas. Ver el capı́tulo “El archivo Setup de IDAMS”.
MDHANDLING=DELETE/KEEP
DELE
Eliminar casos con datos faltantes en la variable de control.
KEEP
Incluir casos con datos faltantes en la variable de control.
Nota: los casos con datos faltantes en la variable dependiente, siempre se excluyen.
F1=(número de variable, código mı́nimo válido, código máximo válido)
F1 se refiere a la primera variable de filtro que se usa para crear un subconjunto de los datos. El
número de variable debe ser el número de la variable de filtro; los casos para los cuales, el valor
de esta variable se encuentre en el rango mı́nimo-máximo, entran en la tabla. El valor mı́nimo
puede ser un entero negativo. El máximo debe ser menor que 99,999. Las cifras decimales deben
entrar en donde sea necesario.
F2=(número de variable, código mı́nimo válido, código máximo válido)
F2 se refiere a la segunda variable de filtro. Si se especifica un segundo filtro, un caso debe satisfacer
los requisitos de ambos filtros para entrar en la tabla.
31.7.
Restricciones
1. El número máximo de variables de control es 99. El número máximo de variables dependientes es 99.
El número total de variables a las cuales se puede acceder es 204, incluidas las variables usadas en
Recode.
2. ONEWAY usa variables de control dentro del rango 0-99. Si para cualquier caso, la variable de control
de un cierto análisis, se encuentra fuera de este rango, el caso se elimina de la tabla.
3. La máxima suma de ponderaciones es alrededor de 2,000,000,000.
4. El cociente F se imprime sólo para datos sin ponderación.
31.8 Ejemplos
31.8.
243
Ejemplos
Ejemplo 1. Tres análisis de variancia de una entrada, con V201 como variable de control y V204 como
variable dependiente; primero para todo el archivo, segundo para un subconjunto de casos con valores 1-3
para la variable V5 y tercero para un subconjunto de casos con valores 4-7 para la variable V5.
$RUN ONEWAY
$FILES
PRINT = ONEW1.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
ANALISIS DE VARIANCIA DE UNA ENTRADA DESCRITO SEPARADAMENTE
*
(valores por defecto para todos los parámetros)
CONV=V201 DEPV=V204
CONV=V201 DEPV=V204 F1=(V5,1,3)
CONV=V201 DEPV=V204 F1=(V5,4,7)
Ejemplo 2. Generación de un análisis de variancia de una entrada, para todas las combinaciones de las
variables de control V101, V102, V105 y V110, y las variables dependientes V17 a V21; los datos son
ponderados con la variable V3.
$RUN ONEWAY
$FILES
los mismos del ejemplo 1
$SETUP
GENERACION MASIVA DE ANALISIS DE VARIANCIA DE UNA ENTRADA
*
(valores por defecto para todos los parámetros)
CONV=(V101,V102,V105,V110) DEPV=(V17-V21) WEIGHT=V3
Capı́tulo 32
Puntajes basados en el orden parcial
de casos (POSCOR)
32.1.
Descripción general
POSCOR calcula puntajes (escala ordinal), con un procedimiento basado en la posición jerárquica de los
elementos de un conjunto parcialmente ordenado de acuerdo con un número de propiedades (o caracterı́sticas). Los puntajes, calculados separadamente para cada elemento del conjunto, se llevan a un archivo de
salida descrito por un diccionario IDAMS. Este dataset se puede utilizar después, como entrada para otros
programas.
Al utilizar el parámetro ORDER, se pueden calcular : (1) cuatro tipos de puntajes donde los cálculos se
basan en la proporción de casos dominados por el caso examinado, (2) los otros cuatro donde los cálculos se
basan en la proporción de casos que dominan al caso examinado. El rango de los puntajes se determina con
el parámetro SCALE. Sólo se pueden esperar puntajes con sentido, cuando el número de casos involucrados
es mucho más grande que el número de variables especificadas.
En aplicaciones con variables de importancia no uniforme, se puede definir una lista de prioridades con el
parámetro de análisis LEVEL en el ordenamiento parcial. Si las variables con prioridad más alta determinan
sin ambigüedad la relación entre dos casos, entonces no se consideran las variables con prioridades más bajas.
En el caso especial en el cual sólo se utiliza una variable de análisis, los valores transformados corresponden
a sus probabilidades (ver las opciones ORDER=ASEA/DEEA/ASCA/DESA).
En un análisis, se puede examinar una serie de conjuntos mutuamente excluyentes con la facilidad de subconjunto. En esta oportunidad, se calculan las variables de puntaje dentro de cada subconjunto de casos.
32.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Se puede utilizar el filtro estándar para la selección de casos en una
ejecución. También existe la opción de obtener subconjuntos de casos en cada análisis. Las variables que
se van a transferir al archivo de salida se escogen con el parámetro TRANSVARS. Las variables para cada
análisis, se eligen con las especificaciones de análisis.
Transformación de datos. Se pueden usar las proposiciones de Recode. Nótese que el programa sólo utiliza
la parte entera de las variables recodificadas, es decir, las variables recodificadas se redondean al entero más
próximo.
Ponderación de datos. No se aplica el uso de variables de ponderación.
Tratamiento de datos faltantes. El parámetro MDVALUES está disponible para indicar cuales valores de
datos faltantes, si los hay, se usarán para verificar los datos faltantes. El parámetro MDHANDLING indica
si variables o casos con datos faltantes se deben excluir de un análisis.
246
Puntajes basados en el orden parcial de casos (POSCOR)
32.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.
Diccionario de salida. (Opcional: ver el parámetro PRINT).
32.4.
Dataset de salida
El archivo de salida contiene los puntajes calculados junto con las variables transferidas, y opcionalmente,
las variables de análisis para cada caso usado en el análisis (es decir, todos los casos que pasan el filtro y no
excluidos con el uso de la opción de datos faltantes. También se produce un diccionario asociado IDAMS de
salida.
Las variables de salida tienen las caracterı́sticas descritas abajo, se numeran secuencialmente a partir de 1 y
en el orden siguiente:
Variables de análisis y de subconjunto (condicional: sólo si AUTR=YES). Las variables V tienen las
mismas caracterı́sticas que sus equivalentes de entrada. Las variables de Recode salen con WIDTH=7
y DEC=0.
Variable identificadora de casos y variables transferidas. Las variables V tienen las mismas caracterı́sticas que su equivalente de entrada. Las variables de Recode salen con WIDTH=7 y DEC=0.
Variables calculadas de puntajes.
Para ORDER=ASEA/DEEA/ASCA/DESA, una variable para cada análisis con:
nombre
ancho de campo
número de decimales
MD1
MD2
especificado
especificado
0
especificado
especificado
por ANAME
por FSIZE
(por defecto: blanco)
(por defecto: 5)
por OMD1
por OMD2
(por defecto: 99999)
(por defecto: 99999)
Para ORDER=ASER/DESR/ASCR/DEER, dos variables para cada análisis con nombres especificados por los parámetros ANAME y DNAME respectivamente y otras caracterı́sticas tales como las
mencionadas anteriormente.
Nota. Si un análisis se repite para varios subconjuntos de casos mutuamente excluyentes, la variable de
puntaje se calcula para los casos en cada subconjunto a su vez. Si un caso no se encuentra en uno de los
subconjuntos definidos para el análisis, entonces sus valores de la(s) variable(s) de puntaje se colocan en el
valor del código MD1.
32.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Por las variables del análisis sólo se
usan números enteros. Notar que los valores decimales se redondean al entero más próximo. La variable de
identificación de casos y las variables a ser transferidas pueden ser alfabéticas.
32.6 Estructura del setup
32.6.
247
Estructura del setup
$RUN POSCOR
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
5.
6.
Filtro (opcional)
Tı́tulo
Parámetros
Especificaciones de subconjuntos (opcional)
POSCOR
Especificaciones de análisis (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
32.7.
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de salida
datos de salida
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3 y 6 a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE V2=1-4
AND V15=2
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
ESCALAMIENTO DE LAS VARIABLES RU DE ENTRADA
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
MDHAND=CASES TRAN=V5
IDVAR=R6
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
248
Puntajes basados en el orden parcial de casos (POSCOR)
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver
el capı́tulo “El archivo Setup de IDAMS”.
MDHANDLING=VARS/CASES
Tratamiento de datos faltantes.
VARS
Se excluyen de la comparación las variables con valores de datos faltantes.
CASE
Se excluyen del análisis los casos con valores de datos faltantes.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
IDVAR=número de variable
Variable a ser transferida al dataset de salida para la identificación de casos.
Sin valor por defecto.
TRANSVARS=(lista de variables)
Se pueden transferir variables adicionales (hasta 99) al dataset de salida. Esta lista no puede
incluir variables de análisis o variables utilizadas en las especificaciones de subconjuntos. Estas se
transfieren automáticamente con el parámetro AUTR.
AUTR=YES/NO
YES
Se transfieren al dataset de salida en forma automática, las variables de análisis y las
variables utilizadas en la especificación de subconjuntos.
NO
No se transfieren las variables de análisis ni las de subconjuntos.
FSIZE=5/n
Ancho de campo de las variables (puntajes) calculadas.
SCALE=100/n
Valor (factor de escala) que especifica el rango (0 - n) de los puntajes calculados.
OMD1=99999/n
Valor del primer código de datos faltantes para las variables (puntajes) calculadas.
OMD2=99999/n
Valor del segundo código de datos faltantes para las variables (puntajes) calculadas.
PRINT=(CDICT/DICT, OUTDICT/OUTCDICT/NOOUTDICT)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
NOOU
No imprimir el diccionario de salida.
4. Especificaciones de subconjuntos (opcional). Aquı́ se especifican subconjuntos de casos mutuamente excluyentes para un análisis en particular.
Ejemplo:
EDAD
INCLUDE V5=15-20,21-45,46-64
32.7 Proposiciones de control del programa
249
Reglas de codificación
Prototipo: nombre
proposición
nombre
Nombre del subconjunto. 1-8 caracteres alfanuméricos comenzando con una letra. Este nombre
debe coincidir exactamente con el nombre usado en las especificaciones de análisis subsecuentes.
Blancos intercalados no se permiten. Se recomienda que todos los nombres se justifiquen a la
izquierda.
proposición
Definición del subconjunto.
Comenzar con la palabra INCLUDE.
Especificar el número de variable (variable V o R) sobre la cual se basan los subconjuntos
(no se permiten variables alfabéticas).
Especificar valores y/o rangos de valores separados por comas. Cada valor o rango define
un subconjunto. Las comas separan los subconjuntos. Los rangos negativos deben estar en
secuencia numérica, por ej. -4 - -2 (para -4 a -2); -2 - 5 (para -2 a +5). Los subconjuntos
deben ser mutuamente excluyentes (es decir, los mismos valores no pueden aparecer en dos
rangos). En el ejemplo anterior, se definen 3 subconjuntos basados en el valor de V5 para la
especificación del subconjunto EDAD.
Colocar un guión al final de una lı́nea para continuar en la lı́nea siguiente.
5. POSCOR. La palabra POSCOR en esta lı́nea, indica que a continuación vienen especificaciones de
análisis. Debe incluirse (para separar las especificaciones de subconjuntos de las de análisis) y sólo debe
aparecer una vez.
6. Especificaciones de análisis. Las reglas de codificación son las mismas de los parámetros. Cada
especificación de análisis debe comenzar en una nueva lı́nea.
Ejemplo:
ORDER=ASER ANAME=MSDCORE DNAME=DOWNSCORE VARS=(V3-V6) LEVELS=(1,1,2,2)
VARS=(lista de variables)
Las variable V y/o R a usar en el análisis.
Sin valor por defecto.
ORDER=ASEA/DEEA/ASCA/DESA/ASER/DESR/ASCR/DEER
Especifica el tipo de puntaje a calcular.
El puntaje se basa en:
ASEA
DEEA
ASCA
DESA
ASER/DESR
ASER
DESR
casos mejores o iguales/dominantes
casos peores o iguales/dominados
casos definitivamente mejores/dominantes definitivamente
casos definitivamente peores/dominados definitivamente
con relación al número total de casos
casos mejores o iguales/dominantes
casos definitivamente peores/dominados definitivamente
con relación al número de casos comparables
ASCR/DEER
ASCR
casos definitivamente mejores/dominantes definitivamente
DEER
casos peores o iguales/dominados
con relación al número de casos comparables
Nota. En los dos últimos casos, los puntajes se calculan con cualquier selección. La suma de ellos es
igual al valor especificado en el parámetro SCALE.
250
Puntajes basados en el orden parcial de casos (POSCOR)
SUBSET=xxxxxxxx
Especifica el nombre de la especificación de subconjunto a usar, si lo hay. Si el nombre contiene caracteres no alfanuméricos, debe encerrarse entre comillas sencillas. Se deben usar letras
mayúsculas para hacer encajar el nombre en la especificación de subconjuntos el cual se convierte
automáticamente a mayúsculas.
LEVELS=(1, 1,..., 1) / (N1,N2,N3,...,Nk)
“k” es el número de variables utilizadas en la lista de variables de análisis. Ni define el orden de
prioridad de la variable i-ésima de la lista de variables involucradas en el ordenamiento parcial.
Un valor más alto implica una prioridad más baja. Los valores de prioridad deben especificarse en
la misma secuencia de las correspondientes variables en la lista de variables de análisis. El valor
de 1 por defecto, implica que todas las variables tienen la misma prioridad.
ANAME=’nombre’
Un nombre del puntaje ascendente, que contenga hasta 24 caracteres. Las comillas sencillas son
obligatorias si el nombre contiene caracteres no alfanuméricos.
Por defecto: blancos.
DNAME=’nombre’
Un nombre del puntaje descendente, que contenga hasta 24 caracteres. Las comillas sencillas son
obligatorias si el nombre contiene caracteres no alfanuméricos.
Por defecto: blancos.
32.8.
Restricciones
1. El valor de las variables de análisis debe estar en el rango -32,767 a +32,767.
2. En el parámetro LEVEL, los componentes de la lista de prioridades deben ser enteros positivos dentro
del rango 1 a 32,767.
3. Número máximo de análisis es 10.
4. Número máximo de variables a ser transferidas es 99.
5. Una variable se puede utilizar solamente una vez, ası́ sea una variable identificadora, en una lista de
análisis o en una lista de transferencia. Si se necesita usar la misma variable dos veces, entonces debe
recodificarse previamente para obtener una copia de la misma variable con un número diferente de
variable (de resultado).
6. El número máximo de variables utilizadas en análisis, en las especificaciones de subconjuntos y en la
lista de transferencia es 100 (incluye variables V y R).
7. El número máximo de especificaciones de subconjunto es 10.
8. Si la variable de identificación o una variable a ser transferida es alfabética con ancho > 4, sólo se usan
los primeros cuatro caracteres.
9. Aunque no hay lı́mite para el número de casos procesados, nótese que el tiempo usado para ejecución
crece como una función cuadrática del número de casos analizados.
32.9.
Ejemplos
Ejemplo 1. Cálculo de dos puntajes con las mismas variables V10, V12, V35 a V40; el primer puntaje
se calculará para todo el archivo, el segundo puntaje será calculado separadamente para tres subconjuntos
(para valores 1, 2 y 3 de la variable V7); los casos con datos faltantes se excluyen del análisis; ambos puntajes
se basan en los casos dominados estrictamente con relación al número de casos comparables; los casos se
identifican con las variables V2 y V4, las cuales se transferirán al archivo de salida. Nótese que Recode se
utiliza para hacer una copia de las variables ya que una restricción del programa significa que una variable
puede usarse una vez solamente.
32.9 Ejemplos
251
$RUN POSCOR
$FILES
PRINT
= POSCOR1.LST
DICTIN = PREF.DIC
archivo Diccionario de entrada
DATAIN = PREF.DAT
archivo Datos de entrada
DICTOUT = SCORES.DIC
archivo Diccionario de salida
DATAOUT = SCORES.DAT
archivo Datos de salida
$SETUP
CALCULO DE DOS PUNTAJES
MDHAND=CASES IDVAR=V2 TRANSVARS=V4
TYPE
INCLUDE V7=1,2,3
POSCOR
ORDER=DESR ANAME=’PUNTAJE CREC. GLOBAL’ DNAME=’PUNTAJE DECR. GLOBAL’ VARS=(V10,V12,V35-V40)
ORDER=DESR ANAME=’PUNTAJE AJUSTADO CREC.’ DNAME=’PUNTAJE AJUSTADO DECR.’
SUBS=TYPE VARS=(R10,R12,R35-R40)
$RECODE
R10=V10
R12=V12
R35=V35
R36=V36
R37=V37
R38=V38
R39=V39
R40=V40
Ejemplo 2. Cálculo de tres puntajes basados en casos dominantes con relación al número total de casos;
las variables de análisis no se transferirán al dataset de salida; las variables con datos faltantes se excluyen
de la comparación; las variables para identificación de casos V1 y V5, se transfieren al dataset de salida.
$RUN POSCOR
$FILES
los mismos del ejemplo 1
$SETUP
CALCULO DE TRES PUNTAJES
AUTR=NO IDVAR=V1 TRANSVARS=V5
POSCOR
ORDER=ASEA ANAME=’PUNT.1
CREC’
ORDER=ASEA ANAME=’PUNT.2
CREC’
ORDER=ASEA ANAME=’PUNT.3
CREC’
VARS=(V11,V17,V55-V60)
VARS=(V108-V110,V114,V116,V118,V120)
VARS=(V22,V33,V101-V105)
Capı́tulo 33
Correlación de Pearson (PEARSON)
33.1.
Descripción general
PEARSON calcula e imprime matrices de coeficientes de correlación r de Pearson y covariancias para todos
los pares de variables en una lista (opción de matriz cuadrada) o para cada pareja de variables formada al
tomar una variable de cada dos listas de variables (opción de matriz rectangular).
Se puede especificar la eliminación de datos faltantes “por pares” o “por casos”.
PEARSON se puede utilizar también para obtener una matriz de correlación, la cual puede ser posteriormente
leida por los programas REGRESSN o MDSCAL. Aunque REGRESSN puede calcular su propia matriz de
correlación, su opción de manejo de datos faltantes sólo puede eliminar “por casos”. En contraste, PEARSON
puede generar una matriz con el uso de un algoritmo de eliminación “por pares” para datos faltantes.
33.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Se puede utilizar el filtro estándar para la selección de un subconjunto
de casos de los datos de entrada. Las variables para las cuales se desea la correlación se especifican con los
parámetros ROWVARS y COLVARS.
Transformación de datos. Se pueden usar las proposiciones de Recode.
Ponderación de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderación puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderación para un
caso es cero, negativo, dato faltante o no numérico, entonces el caso siempre se omite; se imprime el número
de casos ası́ tratados.
Tratamiento de datos faltantes. El parámetro MDVALUES está disponible para indicar cuales valores de
datos faltantes, si los hay, se usarán para verificar los datos faltantes. Se calculan las estadı́sticas univariadas
para cada variable a partir de los casos que tengan datos válidos (no faltantes) para la variable.
Datos faltantes: eliminación por pares. Las estadı́sticas por pares y el coeficiente de correlación, se
pueden calcular de los casos que tengan datos válidos para ambas variables (MDHANDLING=PAIR). Ası́,
un caso se puede utilizar en los cálculos para algunos pares de variables y no usarse para otros. Este método
de manejo de datos faltantes se llama algoritmo de eliminación “por pares”. Nota: si hay datos faltantes, se
pueden calcular coeficientes de correlación individuales para diferentes subconjuntos de datos. Si hay muchos
datos faltantes, se pueden presentar inconsistencias internas en la matriz de correlación, las cuales pueden
causar dificultades en análisis multivariados posteriores.
254
Correlación de Pearson (PEARSON)
Datos faltantes: eliminación por casos. El programa puede también recibir la instrucción (MDHANDLING=CASE) para calcular estadı́sticas pareadas y correlaciones a partir de los casos que tengan datos
válidos en todas las variables de la lista de variables. De esta manera, un caso se usa en el cálculo para
todos los pares de variables o no se usa. Este método de manejar los datos faltantes se llama algoritmo de
eliminación “por casos” (también se encuentra en el programa REGRESSN) y sólo se aplica a la opción de
matriz cuadrada.
33.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.
Opción de matriz cuadrada
Estadı́sticas pareadas. (Opcional: ver el parámetro PRINT). Para cada par de variables de la lista, se
imprime la siguiente información:
número de casos válidos (o suma ponderada de casos),
media y desviación estándar de la variable X,
media y desviación estándar de la variable Y,
prueba T para el coeficiente de correlación,
coeficiente de correlación.
Estadı́sticas univariadas. Para cada variable de la lista, se imprime la siguiente información:
número de casos válidos y suma de ponderaciones,
suma de puntajes y suma de puntajes cuadrados,
media y desviación estándar.
Coeficientes de regresión para puntajes primarios. (Opcional: ver el parámetro PRINT). Para cada
par de variables x, y se imprimen los coeficientes de regresión a y c y los términos constantes b y d de las
ecuaciones de regresión x=ay+b y y=cx+d.
Matriz de correlación. (Opcional: ver el parámetro PRINT). Se imprime el triángulo inferior izquierdo
de la matriz.
Matriz de productos cruzados. (Opcional: ver el parámetro PRINT). Se imprime el triángulo inferior
izquierdo de la matriz.
Matriz de covariancia. (Opcional: ver el parámetro PRINT). Se imprime el triángulo inferior izquierdo
de la matriz con su diagonal.
En cada una de las tablas anteriores, se imprime por página, un máximo de 11 columnas y 27 filas.
Opción de matriz rectangular
Tabla de frecuencias de variables. Número de casos válidos para cada par de variables.
Tabla de valores de la media para las variables de columnas. Se calculan y se imprimen las medias
para cada variable de columna en los casos que son válidos, a su turno, para cada variable de fila.
Tabla de desviaciones estándar para variables de columnas. Igual que para las medias.
Matriz de correlación. (Opcional: ver el parámetro PRINT). Coeficientes de correlación para todos los
pares de variables.
Matriz de covariancia. (Opcional: ver el parámetro PRINT). Covariancias para todos los pares de variables.
En cada una de las tablas anteriores, se imprime por página, un máximo de 8 columnas y 50 filas.
Nota: si un par de variables no tiene casos válidos, se escribe 0.0 para la media, desviación estándar, correlación y covariancia.
33.4 Matrices de salida
33.4.
255
Matrices de salida
Matriz de correlación
Cuando se especifica el parámetro WRITE=CORR, se produce la matriz de correlación, en la forma estándar
de una matriz cuadrada IDAMS. El formato de las correlaciones es 8F9.6; el formato para la media y la
desviación estándar es 5E14.7. Las columnas 73-80, se utilizan para identificar los registros.
La matriz contiene correlaciones, medias y desviaciones estándar. Las medias y las desviaciones estándar
están sin parear. Los registros de diccionario que produce PEARSON, tienen números y nombres de variable
del diccionario de entrada y/o de proposiciones de Recode. El orden de las variables lo determina el orden
de las mismas en la lista.
PEARSON puede generar correlaciones iguales a 99.999901, y medias y desviaciones estándar iguales a 0.0
cuando los valores calculados carezcan de sentido. Razones tı́picas de ésto pueden ser por ejemplo, que se
hayan eliminado todos los casos debido a datos faltantes o una de las variables tuvo un valor constante.
Nótese que MDSCAL no acepta estos “valores faltantes” y REGRESSN sı́.
Matriz de covariancia
Cuando se especifica el parámetro WRITE=COVA, se produce la matriz de covariancia, sin la diagonal, en
la forma de una matriz cuadrada estándar de IDAMS.
33.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables del análisis deben
ser numéricas; pueden tener valores enteros o decimales.
33.6.
Estructura del setup
$RUN PEARSON
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. Tı́tulo
3. Parámetros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
FT02
DICTxxxx
DATAxxxx
PRINT
matrices de salida si se especifica el parámetro WRITE
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)
256
Correlación de Pearson (PEARSON)
33.7.
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE V2=11-15,60 OR
V3=9
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
PRIMERA CORRIDA DE PEARSON - ABRIL 27
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
WRITE=CORR,
PRINT=(CORR,COVA) ROWV=(V1,V3-V6,R47,V25)
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MATRIX=SQUARE/RECTANGULAR
SQUA
Calcular coeficientes de correlación de Pearson para todos los pares de variables de la
lista en ROWV.
RECT
Calcular los coeficientes de correlación de Pearson para cada par de variables formado
al tomar una variable de cada una de las dos listas en ROWV y COLV.
ROWVARS=(lista de variables)
Una lista de variables V o R a correlacionar (MATRIX=SQUARE) o la lista de variables de fila
(MATRIX=RECTANGULAR).
Sin valor por defecto.
COLVARS=(lista de variables)
(Sólo MATRIX=RECTANGULAR).
Una lista de variables V o R a usar como variables de columna. Se escriben 8 columnas por
página; si las listas de variables de columna o de fila tienen menos de 8 variables, es preferible
(para facilidad de lectura del listado) tener la lista corta como la lista de variables de columna.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver
el capı́tulo “El archivo Setup de IDAMS”.
MDHANDLING=PAIR/CASE
Método para el manejo de datos faltantes.
PAIR
Eliminación por pares.
CASE
Eliminación por casos (no disponible con MATRIX=RECTANG).
WEIGHT=número de variable
Número de la variable de ponderación, si se van a ponderar los datos.
33.8 Restricciones
257
WRITE=(CORR, COVA)
Sólo MATRIX=SQUARE.
CORR
Escribir en un archivo de salida, la matriz de correlación con medias y desviaciones
estándar.
COVA
Escribir en un archivo de salida, la matriz de covariancia con medias y desviaciones
estándar.
PRINT=(CDICT/DICT, CORR/NOCORR, COVA, PAIR, REGR, XPRODUCTS)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
CORR
Imprimir la matriz de correlación.
COVA
Imprimir la matriz de covariancia.
PAIR
Imprimir estadı́sticas pareadas (sólo MATRIX=SQUARE).
REGR
Imprimir los coeficientes de regresión (sólo MATRIX=SQUARE).
XPRO
Imprimir la matriz de productos cruzados (sólo MATRIX=SQUARE).
33.8.
Restricciones
Cuando se especifica MATRIX=SQUARE
1. El número máximo de variables permitido en una ejecución es 200. Este lı́mite incluye todas las variables
de análisis y variables usadas en proposiciones Recode.
2. Los números de las variables recodificadas no pueden exceder de 999 si se especifica el parámetro
WRITE. (Salen como números negativos en la parte descriptiva de la matriz, la cual sólo tiene cuatro
columnas reservadas para el número de variable, por ej. R862 saldrı́a como -862).
Cuando se especifica MATRIX=RECTANGULAR
1. El número máximo de variables en la lista para filas o columnas es 100.
2. El máximo total variables de filas, columnas, variables usadas en Recode y variable de ponderación es
136.
33.9.
Ejemplos
Ejemplo 1. Cálculo de una matriz cuadrada de coeficientes de correlación de Pearson, con eliminación de
casos con datos faltantes por pares; la matriz se escribirá en un archivo de salida y se imprimirá.
$RUN PEARSON
$FILES
PRINT = PEARS1.LST
FT02
= BIRDCOR.MAT
archivo Matriz de salida
DICTIN = BIRD.DIC
archivo Diccionario de entrada
DATAIN = BIRD.DAT
archivo Datos de entrada
$SETUP
MATRIZ DE COEFICIENTES DE CORRELACION
PRINT=(PAIR,REGR,CORR) WRITE=CORR ROWV=(V18-V21,V36,V55-V61)
258
Correlación de Pearson (PEARSON)
Ejemplo 2. Cálculo de coeficientes de correlación de Pearson para las variables V10-V20, con las variables
V5-V6.
$RUN PEARSON
$FILES
DICTIN = BIRD.DIC
archivo Diccionario de entrada
DATAIN = BIRD.DAT
archivo Datos de entrada
$SETUP
COEFICIENTES DE CORRELACION
MATRIX=RECT ROWV=(V10-V20) COLV=(V5-V6)
Capı́tulo 34
Ordenamiento de alternativas
(RANK)
34.1.
Descripción general
RANK ofrece un ordenamiento razonable de alternativas, utilizando datos preferenciales como entrada y
tres procedimientos de categorización, uno basado en la lógica clásica (el método ELECTRE) y otros dos
basados en lógica difusa. Los dos métodos se diferencian esencialmente en la manera de construir las matrices
relacionales. Con rangos difusos, los datos determinan completamente el resultado mientras que con el
ordenamiento por el método clásico, el usuario, basado en los conceptos de la lógica clásica, tiene la posibilidad
de controlar el cálculo de las relaciones que están por encima de las alternativas.
El método ELECTRE (lógica clásica) implementado en RANK, en un primer paso, utiliza los datos
preferenciales de entrada para calcular una matriz final que expresa la opinión total colectiva acerca de
la “dominancia” entre las alternativas, la estructura de relación no corresponde necesariamente a un ordenamiento lineal o parcial. La relación de “dominancia” para cada par de alternativas se controla por las
condiciones de “concordancia” y “discordancia” establecidas por el usuario. Se pueden obtener diferentes
relaciones estructurales a partir de los mismos datos al cambiar los parámetros de análisis. En el segundo
paso, el procedimiento busca una secuencia de capas (o núcleos) de alternativas no dominadas. El primer
núcleo consiste en las alternativas de más alto rango en todo el conjunto considerado. Debe notarse que en
ciertos casos puede que no existan más núcleos, debido a bucles dentro de la relación. Esto puede ser verdad
aún en el nivel más alto.
El primer método difuso (capas no dominadas) se desarrolló originalmente para resolver problemas
de toma de decisiones con información difusa. Este método permite encontrar una secuencia de núcleos de
alternativas no dominados dentro de una estructura de preferencia difusa, la cual no representa necesariamente un orden (total) lineal. Los núcleos subsiguientes son aquellos grupos de alternativas que tengan el
rango más alto dentro las alternativas que no pertenezcan a los núcleos previos de nivel más alto. El primer
núcleo comprende las alternativas de rango más alto dentro todo el conjunto considerado.
El segundo método difuso (rangos) trata de encontar la credibilidad de frases como “la j-ésima alternativa está exactamente en la posición p-ésima dentro el orden por rangos”. Los resultados son claros en el caso
de una relación lineal (total) en los datos; de lo contrario, se debe tener cuidado al interpretar los resultados. El proceso de optimización, desarrollado para manejar el caso general (normalizado o no-normalizado),
permite al usuario decidir si debe normalizar o no la matriz relacional difusa antes del proceso de rangos
(ver opción NORM). Después de la normalización se necesita un proceso cuidadoso de interpretación de los
resultados. Usualmente datos incompletos resultan en una matriz relacional no-normalizada, especialmente
cuando se usa DATA=RAWC y el número seleccionado de alternativas en respuestas individuales es más
pequeño que el número de alternativas posibles. Aunque una matriz no-normalizada produce resultados en
los cuales el nivel de incertidumbre es más alto, puede suministrar un cuadro más realista acerca de la
relación latente que determina los datos; en verdad la normalización se puede interpretar como una clase de
extrapolación.
260
Ordenamiento de alternativas (RANK)
Se pueden especificar dos tipos de relación individual preferencial (estricta o débil), en caso de que
los datos que representen una selección de alternativas y en caso de que los datos representen alternativas
por rangos.
1. Datos que representan una selección de alternativas.
Preferencia estricta: se considera que cada alternativa seleccionada tiene un único rango (diferente) y a las no seleccionadas se les asigna el mismo rango más bajo.
Preferencia débil: se considera que todas las alternativas seleccionadas tienen un mismo rango
común, el cual es más alto que el rango de las no seleccionadas.
2. Datos que representan una ordenación de alternativas por rango.
Preferencia estricta: se considera que todas las alternativas con rangos tienen diferentes
valores y las relaciones entre las alternativas del mismo rango se excluyen de los cálculos de la
relación de preferencia global entre las alternativas.
Preferencia débil: en los cálculos se tienen en cuenta las alternativas con el mismo rango.
34.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Se puede usar el filtro estándar para escoger un subconjunto de casos de
los datos de entrada y se usa el parámetro VARS para seleccionar las variables.
Transformación de datos. Se pueden usar las proposiciones de Recode. Nótese que el programa sólo utiliza
la parte entera de las variables recodificadas, es decir que estas variables se redondean al entero más próximo.
Ponderación de datos. Los datos se pueden ponderar con valores enteros. Nótese que los valores ponderados
se redondean al entero más próximo. Cuando el valor de la variable de ponderación para un caso es cero,
negativo, dato faltante o no numérico, entonces el caso siempre se omite; se imprime el número de casos
ası́ tratados.
Tratamiento de datos faltantes. Se puede usar el parámetro MDVALUES para indicar cuales valores de
datos faltantes se van a usar para la verificación de los datos faltantes. Para DATA=RAWC, las variables
con datos faltantes se saltan; para DATA=RANKS, los valores faltantes se sustituyen con el rango más bajo.
34.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.
Datos inválidos. Mensajes acerca de los datos incorrectos (rechazados).
Métodos basados en la lógica difusa (METHOD=NOND/RANKS)
Matriz de relaciones. Se imprime por filas una matriz cuadrada que representa la relación difusa. Si las
filas tienen más de 10 elementos, se continúa en la(s) lı́nea(s) siguiente(s).
Descripción de las relaciones. Después de imprimir el tipo de relación, se imprimen tres medidas que
caracterizan de manera concisa la relación, a saber: ı́ndice de coherencia absoluta, ı́ndice de intensidad e
ı́ndice de dominación absoluta.
Resultados del análisis. Los resultados se presentan de manera diferente para cada método.
Para METHOD=NOND los núcleos se imprimen secuencialmente a partir del rango más alto y para cada
uno de ellos se suministra la siguiente información:
su número secuencial con nivel de certeza,
los códigos y los nombres de alternativas o los números y nombres de variables (hasta 8 caracteres),
los valores de la función de pertenencia de las alternativas, indicando que tan fuertemente están ligadas
al núcleo; los valores de pertenencia de alternativas que pertenecen a núcleos anteriores se sustituyen
por asteriscos,
34.4 Dataset de entrada
261
lista de alternativas que pertenecen al núcleo con el valor de pertenencia más alto (alternativas con
mayor credibilidad).
Para METHOD=RANKS se imprime primero la matriz relacional normalizada si se solicitó antes la normalización. Después se imprimen los resultados, de dos maneras para una interepretación más fácil.
1. Se imprimen secuencialmente todas las alternativas con la siguiente información para cada una:
código y nombre de la alternativa o número y nombre de variable,
los valores de la función de pertenencia de la alternativa, indicando que tan fuertemente está conectada con cada rango,
la lista del rango o de los rangos de mayor credibilidad para esta alternativa.
2. Se imprimen todos los rangos secuencialmente con la siguiente información para cada uno:
número de rango,
códigos y nombres de las alternativas o números y nombres de variables,
los valores de la función de pertenencia de la alternativas, indicando que tan fuertemente están
conectadas con ese rango,
la lista de la(s) alternativa(s) de mayor credibilidad para ese rango.
Método basado en la lógica clásica (METHOD=CLAS)
Resultado del análisis. Se imprimen, para cada estructura relacional de “dominancia” final que resulta
de un análisis, las diferencias de rangos y las proporciones mı́nimo/máximo de población especificadas por
el usuario, seguidas de la lista de núcleos sucesivos no-dominados (identificados por su número secuencial)
con las alternativas que les pertenecen.
Nota. Las alternativas se titulan con los 8 primeros caracteres del nombre de la variable para DATA=RANKS
o con los 8 caracteres del nombre de código (si hay registros C en el diccionario) para DATA=RAWC.
34.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables del análisis deben
tener valores enteros positivos. Nótese que las variables con valores decimales, se redondean al entero más
próximo.
Las preferencias se pueden presentar de dos maneras en los datos. En la siguiente ilustración se muestra
como hacerlo.
Supongamos que se han recolectado datos acerca de las preferencias de los empleados sobre varios factores
relacionados con su trabajo:
Oficina individual
Salario alto
Vacaciones largas
Supervisión mı́nima
Compatibilidad entre colegas
Las dos maneras de representar ésto en un cuestionario son:
1. DATA=RAWC
En este caso, los factores se codifican (1 a 5) y se solicita al encuestado señalarlos en el orden de su
preferencia. Las variables en los datos representarı́an los rangos:
V6 Factor más importante
V7 Segundo factor más importante
.
.
V10 Factor menos importante
262
Ordenamiento de alternativas (RANK)
y los códigos asignados a cada una de estas variables por un encuestado representarı́an los factores
(1=oficina individual, 2=salario alto, etc.).
No es necesario escoger todos los factores posibles, se podrian pedir por ejemplo, los tres más importantes, especificando sólo esas variables de la lista de variables: V6, V7, V8. El número de factores
diferentes usados se especifica con el parámetro NALT.
2. DATA=RANKS
Aquı́, cada factor aparece en el cuestionario como una variable:
V13 Oficina individual
V14 Salario alto
.
.
V17 Compatibilidad entre colegas
y al encuestado se le invita a asignar un rango a cada uno, en el cual 1 se da al factor más importante,
2 al siguiente, etc. Aquı́ las variables representan los factores y sus valores representan los rangos. A
cada variable se le debe asignar un rango y todos los factores entran siempre al análisis. Los rangos
deben codificarse de 1 a n donde n es el número de variables que se consideran.
Notas
1. Si DATA=RANKS, el código 0 y todos los códigos mayores que n, en donde n es el número de variables
(número de alternativas), se tratan como datos faltantes y se les asigna el rango más bajo.
2. Si DATA=RAWC, los primeros NALT codigos diferentes encontrados durante la lectura de los datos
(excluido 0), se usan como códigos válidos. Otros códigos hallados posteriormente en los datos, se toman
como códigos ilegales. El cero siempre se trata como un código ilegal. Si el número de alternativas
escogidas por los encuestados es menor que NALT, entonces aparecen las alternativas no seleccionadas
en el listado con valores de código cero y nombre de código vacı́o.
34.5.
Estructuda del setup
$RUN RANK
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
Filtro (opcional)
Tı́tulo
Parámetros
Especificaciones de análisis (tantas como sean necesarias)
(sólo para lógica clásica)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)
34.6 Proposiciones de control del programa
34.6.
263
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-4, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE
V2=11
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
PRIMERA EJECUCION DE RANK
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
DATA=RANKS
PREF=STRICT MDVALUES=NONE VARS=(V11-V13)
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver
el capı́tulo “El archivo Setup de IDAMS”.
Para DATA=RAWC, las variables con datos faltantes no se incluyen en el ordenamiento.
Para DATA=RANKS, los datos faltantes se recodifican al rango más bajo.
VARS=(lista de variables)
Una lista de variables V y/o R a usar en el procedimento de rangos.
Sin valor por defecto.
WEIGHT=número de variable
Número de la variable de ponderación, si se van a ponderar los datos.
METHOD=(CLASSICAL/NOCLASSICAL, NONDOMINATED, RANKS)
Especifica el método a usar en el análisis.
CLAS
Método de lógica clásica (ELECTRE).
NOND
Método difuso 1, llamado capas no dominadas.
RANK
Método difuso 2, llamado rangos.
DATA=RAWC/RANKS
Tipo de datos.
RAWC
Las variables corresponden a los rangos (la primera variable de la lista tiene el primero
rango, la segunda el segundo, etc.), y su valor es el número del código de la alternativa
seleccionada.
RANK
Las variables representan las alternativas, sus valores son los rangos de las alternativas
correspondientes.
264
Ordenamiento de alternativas (RANK)
PREF=STRICT/WEAK
Determina el tipo de relación de preferencia a usar en el análisis.
STRI
Se usa una relación de preferencia estricta.
WEAK Se usa una relación de preferencia débil.
NALT=5/n
(DATA=RAWC solamente). El número total de alternativas para ordenar.
Nota: si DATA=RANKS, el número de alternativas se coloca automáticamente como el número
de variables de análisis.
NORMALIZE=NO/YES
(METHOD=RANKS solamente).
NO
No normalizar.
YES
Se hace la normalización de la matriz relacional antes de calcular el valor de la función
de pertenencia de las alternativas.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de análisis (condicional: sólo en el caso de la lógica clásica). Las reglas de codificación son las mismas de los parámetros. Cada especificación de análisis debe comenzar en una nueva
lı́nea.
Ejemplo:
PCON=66
DDIS=4
PDIS=20
DCON=1/n
Diferencia de rangos que controla la concordancia en opiniones individuales (casos). Debe ser un
entero dentro del rango 0 a NALT-1.
PCON=51/n
Mı́nima proporción de concordancia individual expresada como un porcentaje y requerida en la
opinión colectiva. Debe ser un entero dentro del rango 0 a 99. El valor por defecto significa que
por lo menos, se necesita un acuerdo del 51 % para tener una concordancia colectiva.
DDIS=2/n
Diferencia de rangos que controla la discordancia en las opiniones individuales (casos). Debe ser
un entero dentro del rango 0 a NALT-1.
PDIS=10/n
Máxima proporción de discordancia individual, expresada como un porcentaje, tolerada en la
opinión colectiva. Debe ser un entero en el rango 0 a 100. El valor por defecto significa que no se
tolera una discordancia individual mayor del 10 %.
34.7.
Restricciones
1. El número máximo de variables permitidas en una ejecución es 200, incluidas las variables de Recode
y las variables de ponderación.
2. El número máximo de variables de análisis es 60.
34.8 Ejemplos
34.8.
265
Ejemplos
Ejemplo 1. Determinación de un ordenamiento de alternativas, usando datos recolectados en forma de
rangos de alternativas; hay diez alternativas, se asume una relación de preferencia débil y se hará una
análisis con el método de rangos.
$RUN RANK
$FILES
PRINT = RANK1.LST
DICTIN = PREF.DIC
archivo Diccionario de entrada
DATAIN = PREF.DAT
archivo Datos de entrada
$SETUP
ORDENAMIENTO DE ALTERNATIVAS : METODO DE RANGOS
DATA=RANKS PREF=WEAK METH=(NOCL,RANKS) VARS=(V21-V30)
Ejemplo 2. Determinación de un ordenamiento de alternativas, con datos recolectados en forma de una
selección por prioridades; se escogen tres alternativas entre 20 y el orden de las variables determina la
prioridad de la selección; se supone preferencia estricta; se solicitan los dos métodos de análisis difuso.
$RUN RANK
$FILES
los mismos del ejemplo 1
$SETUP
ORDENAMIENTO DE ALTERNATIVAS POR RANGOS : DOS METODOS DIFUSOS
NALT=20 METH=(NOCL,NOND,RANKS) VARS=(V101-V103)
Ejemplo 3. Determinación de un ordenamiento de alternativas, usando datos recolectados en forma de una
selección por prioridades; se escogen 4 alternativas entre 15 y el orden de las variables no determina la prioridad de la selección (preferencia débil); se harán cuatro análisis de lógica clásica manteniendo siempre igual
a 1 las diferencias de rangos, pero aumentando la proporción de discordancia y disminuyendo la proporción
de concordancia.
$RUN RANK
$FILES
los mismos del ejemplo 1
$SETUP
ORDENAMIENTO DE ALTERNATIVAS : LOGICA CLASICA
PREF=WEAK NALT=15 METH=CLAS VARS=(V21,V23,V25,V27)
PCON=75 DDIS=1 PDIS=5
PCON=66 DDIS=1 PDIS=10
PCON=51 DDIS=1 PDIS=15
PCON=40 DDIS=1 PDIS=20
Capı́tulo 35
Diagramas de dispersión (SCAT)
35.1.
Descripción general
SCAT es un programa de análisis bivariado que produce diagramas de dispersión, estadı́sticas univariadas
y bivariadas. Los diagramas de dispersión se trazan en un sistema de coordenadas rectangulares; para cada
combinación de valores coordenados que aparece en los datos, se muestra la frecuencia con la cual se presenta.
SCAT es útil para mostrar relaciones bivariadas cuando el número de valores de diferentes variables es grande
y el número de casos que contenga uno de estos valores es pequeño. Si una variable toma relativamente pocos
valores dentro de un número grande de casos, el programa TABLES es más adecuado.
Formato del gráfico. Cada gráfico se define separadamente con la especificación de las dos variables que
se van a usar (llamadas variables X y Y). Las escalas de los ejes se ajustan separadamente para cada gráfico
y ası́ permitir el trazado de variables que difieran radicalmente en escala sin pérdida de resolución gráfica.
Normalmente, el programa dibuja la variable con el rango más amplio (antes de modificar la escala) en el eje
horizontal. Sin embargo, el usuario puede solicitar que la variable X se dibuje siempre en el eje horizontal.
Si las frecuencias son inferiores a 10, éstas se llevan al gráfico. Para frecuencias en el rango 10-65, se usan
las letras del alfabeto. Si la frecuencia de un punto es mayor de 65, se coloca un asterisco en el diagrama.
Este esquema de codificación, es parte de los resultados para facilidad de referencia.
Estadı́sticas. Se imprimen para cada variable accedida, incluidos el filtro y la variable de ponderación, si
los hay: la media, la desviación estándar, el valor máximo y el valor mı́nimo. Para cada gráfico el programa
también imprime la media, desviación estándar, conteo de casos y rango de las dos variables, el coeficiente
de correlación r de Pearson, la constante y el coeficiente no estandarizado de regresión para predecir Y a
partir de X.
35.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Se puede usar el filtro estándar para escoger un subconjunto de casos de
los datos de entrada. Además, se puede especificar un rango de variables y una variable de filtro en el gráfico
para restringir los casos incluidos en un gráfico en particular. Las variables para dibujar, se especifican por
parejas con los parámetros de gráfico.
Transformación de datos. Se pueden usar las proposiciones de Recode. Nótese que para las variables R
el programa utiliza el número de cifras decimales dado en el parámetro NDEC.
Ponderación de datos. Se puede especificar una variable de ponderación para cada gráfico. Las variables
V y R con decimales se multiplican por un factor de escala para obtener valores enteros. Ver la sección
“Dataset de entrada” abajo.
Cuando el valor de la variable de ponderación para un caso es cero, negativo, dato faltante o no numérico,
entonces el caso siempre se omite; se imprime el número de casos ası́ tratados.
268
Diagramas de dispersión (SCAT)
Tratamiento de datos faltantes. El parámetro MDVALUES está disponible para indicar cuales valores
de datos faltantes, si los hay, se usarán para verificar los datos faltantes. Las estadı́sticas univariadas que
aparecen al comienzo de los resultados, inmediatamente después del diccionario, se basan en todos los casos
que tienen datos válidos en cada variable considerada por separado. Para los gráficos en sı́, el programa
elimina los casos que tengan datos faltantes en una o las dos variables en un gráfico dado. La eliminación
por pares también afecta las estadı́sticas bivariadas que se imprimen en la parte superior de cada gráfico.
35.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.
Estadı́sticas univariadas. Las siguientes estadı́sticas se imprimen para cada variable referida, incluidas
las variables de filtro de gráfico y de ponderación: valores máximo y mı́nimo, media y desviación estándar,
y número de casos con valores de datos válidos.
Clave del esquema de codificación de gráficos. Una tabla que muestra la correspondencia entre las
frecuencias actuales y los códigos usados en los gráficos.
Gráficos y estadı́sticas. Para cada gráfico requerido, se imprime un diagrama de dispersión de 8 1/2”
x 12”. En la parte superior del diagrama se imprimen los valores de las estadı́sticas univariadas (medias,
desviaciones estándar) y bivariadas (r de Pearson, constante de regresión A y coeficiente de regresión no
estandarizada B.
35.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables del análisis y del
filtro de gráfico deben ser numéricas; enteras o decimales. Las variables con decimales se multiplican por
un factor de escala para obtener valores enteros. Este factor se calcula como 10n donde n es el número de
decimales del diccionario para las variables V y del parámetro NDEC para las variables R, y aparece en los
resultados para cada variable.
35.5 Estructura del setup
35.5.
269
Estructura del setup
$RUN SCAT
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
Filtro (opcional)
Tı́tulo
Parámetros
Especificaciones de gráficos (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
35.6.
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-4, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE
V21=6
AND
V37=5
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
ESTUDIO 600, JULIO 16, 1999, EDAD POR PESO POR SUBMUESTRA
3. Parámetros (mandatorio). Para seleccionar opciones del programa. Los nuevos parámetros son precedidos por un asterisco.
Ejemplo:
BADD=MD2
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
270
Diagramas de dispersión (SCAT)
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver
el capı́tulo “El archivo Setup de IDAMS”.
* NDEC=0/n
Número de decimales (máximo 4) a conservar para las variables R.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de gráficos. Un conjunto para cada gráfico. Las reglas de codificación son las
mismas de los parámetros. Cada especificación de gráfico debe empezar en una lı́nea nueva.
Ejemplo:
X=V3
Y=R17
FILTER=(V3,1,1)
X=número de variable
Número de la variable X.
Y=número de variable
Número de la variable Y.
WEIGHT=número de variable
Número de la variable de ponderación si se van a ponderar los datos.
FILTER=(número de variable, código mı́nimo válido, código máximo válido)
Filtro de gráfico. Sólo aquellos casos en los cuales el valor de la variable de filtro es mayor o
igual al codigo mı́nimo y menor o igual al código máximo, se incluyen en el gráfico. Por ejemplo,
para especificar que sólo los casos con códigos 0-40 en la variable 6 se van a incluir, se especifica:
FILTER=(V6,0,40).
HORIZAXIS=MAXRANGE/X
MAXR
Dibujar la variable con el rango más álto en el eje horizontal.
X
Dibujar siempre la variable X en el eje horizontal.
35.7.
Restricciones
1. El número máximo de variables por ejecución es 50. Este máximo incluye todo: variables X y Y,
variables de filtro de gráfico, variables de ponderación y variables usadas en proposiciones de Recode.
2. No hay lı́mite al número de gráficos pero SCAT produce sólo 5 gráficos por cada pasada de los datos
de entrada.
35.8 Ejemplo
35.8.
271
Ejemplo
Generación de dos gráficos (ponderados con la variable V100 y sin ponderar) repetidos para tres diferentes
grupos de datos.
$RUN SCAT
$FILES
PRINT = SCAT1.LST
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$SETUP
GENERACION DE DOS DIAGRAMAS
*
(valores por defecto para todos los parámetros)
X=V21 Y=V3 FILTER=(V5,1,2)
X=V21 Y=V3 FILTER=(V5,1,2) WEIGHT=V100
X=V21 Y=V3 FILTER=(V5,3,3)
X=V21 Y=V3 FILTER=(V5,3,3) WEIGHT=V100
X=V21 Y=V3 FILTER=(V5,4,7)
X=V21 Y=V3 FILTER=(V5,4,7) WEIGHT=V100
Capı́tulo 36
Búsqueda de estructura (SEARCH)
36.1.
Descripción general
SEARCH es un procedimiento de segmentación binaria usado para desarrollar un modelo predictivo para
la(s) variable(s) dependiente(s). Busca en un conjunto de variables predictoras aquellas que más aumenten
la habilidad del investigador para explicar la variancia o la distribución de una variable dependiente. La
pregunta: “¿cual separación dicotómica sobre la cual una variable individual de predicción nos dará una
máxima mejora en nuestra habilidad para predecir valores de la variable dependiente?”, inmersa en un
esquema iteractivo, es la base para el algoritmo de este programa.
SEARCH divide la muestra, a través de una serie de separaciones binarias, en series de subgrupos mutuamente
excluyentes. Los subgrupos escogen de manera que, en cada paso en el procedimiento, la separación en los
dos nuevos subgrupos explica más de la variancia o de la distribución (reduce más el error predictivo) que
la separación en otro par de subgrupos.
SEARCH puede hacer las siguientes funciones:
*
*
*
*
Maximizar diferencias en medias de grupo, lı́neas de regresión de grupo, o distribuciones (criterio
de máxima similitud de Ji-cuadrada).
Asignar rangos a los predictores para darles preferencia en la partición.
Sacrificar poder explicativo por simetrı́a.
Comenzar después haber generado de una estructura parcial especificada de árbol.
Generación de un dataset de residuos. Se pueden calcular residuos y llevarlos a la salida como un
archivo Datos descrito por un diccionario IDAMS. Ver “Dataset de residuos de salida” para los detalles.
36.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Se puede utilizar el filtro estándar para escoger un subconjunto de casos
de los datos de entrada. La(s) variable(s) dependiente(s) se especifica(n) en el parámetro DEPVAR y las
predictoras se especifican en el parámetro VARS en las proposiciones de predictor.
Transformación de datos. Se pueden usar las proposiciones de Recode.
Ponderación de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderación puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderación para un
caso es cero, negativo, dato faltante o no numérico, entonces el caso siempre se omite; se imprime el número
de casos ası́ tratados.
Tratamiento de datos faltantes. Casos con datos faltantes en una variable dependiente continua o en una
covariada se eliminan automáticamente. Casos con datos faltantes en una variable dependiente categórica
se pueden excluir con una proposición de filtro o al especificar códigos válidos con el parámetro DEPVAR.
Casos con datos faltantes en las variables predictoras no se excluyen automáticamente. Sin embargo, la
proposición de filtro y/o el parámetro CODES se pueden usar para este propósito.
274
36.3.
Búsqueda de estructura (SEARCH)
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.
Casos excéntricos. (Opcional: ver el parámetro PRINT). Los casos excéntricos con los valores de la variable
de identificación y de la variable dependiente.
Huella. (Opcional: ver el parámetro PRINT, y opciones TRACE y FULLTRACE). La huella de separaciones
para cada predictor en cada separación, contiene: los grupos candidatos para separar, el grupo escogido para
separar, todas las separaciones elegibles para cada predictor, la mejor separación para cada predictor y el
grupo separado.
Resumen de análisis contiene el análisis de variancia o distribución, el resumen de separación, el resumen
de grupos finales.
Tablas de resumen de predictores. (Opcional: ver el parámetro PRINT, opciones TABLE, FIRST y
FINAL). Las tablas del primer grupo (PRINT=FIRST), las tablas de grupos finales (PRINT=FINAL) o las
tablas de todos los grupos (PRINT=TABLE), contiene el resumen de las mejores separaciones para cada
predictor para cada grupo. Las tablas se imprimen en orden inverso de grupos, es decir, el último grupo al
comienzo.
Diagrama de árbol. (Opcional: ver el parámetro PRINT). Diagrama de árbol jerárquico. Cada nodo
(caja) del árbol contiene: número de grupo, número de casos (N), número de separación, número de variable
predictora, media de la variable dependiente (para análisis de medias), media de la variable dependiente y
covariada y pendiente (para análisis de regresión).
36.4.
Dataset de residuos de salida
Los residuos se pueden llevar opcionalmente a la salida en la forma de un archivo Datos descrito por un
diccionario IDAMS. (Ver el parámetro WRITE). Para análisis de medias y de regresión y para análisis
de Ji-cuadrada con variables dependientes múltiples, cada registro contiene: una variable de identificación,
la variable de grupo, variable(s) dependiente(s), una(s) variable(s) dependiente(s) predicha(s) (calculada),
residuo(s) y una ponderación, si la hay.
Para análisis de Ji-cuadrada con una variable dependiente categórica, contiene: una variable de identificación,
la variable de grupo, la primera categorı́a de la variable dependiente, la primera categorı́a predicha (calculada)
de la variable dependiente, el residuo para la primera categorı́a de la variable dependiente, la segunda
categorı́a de la variable dependiente, la segunda categorı́a predicha (calculada) de la variable dependiente,
el residuo para la segunda categorı́a de la variable dependiente, etc. y una ponderación, si la hay.
Las caracterı́sticas de las variables de salida son las siguientes:
Número de
variable
(identificador)
(variable de grupo)
(var dependiente 1)
(var predicha 1)
(residuo para var 1)
(var dependiente 2)
(var predicha 2)
(residuo para var 2)
...
(ponderación - si hay)
*
**
***
1
2
3
4
5
6
7
8
.
n
Nombre
igual a entrada
Group variable
igual a entrada
igual a entrada
igual a entrada
igual a entrada
igual a entrada
igual a entrada
...
igual a entrada
cal
res
cal
res
Ancho de
campo
Número de
decimales
Código
MD1
*
3
*
7
7
*
7
7
.
*
0
0
**
***
***
**
***
***
...
**
igual a entrada
999
igual a entrada
9999999
9999999
igual a entrada
9999999
9999999
...
igual a entrada
transferido del diccionario de entrada para variables V o 7 para variables R
transferido del diccionario de entrada para variables V o 2 para variables R
6 + Nr. de decimales para la variable dependiente menos el ancho de la variable dependiente; si
ésta es negativa, entonces este valor es cero.
36.5 Dataset de entrada
275
Si el valor calculado o el del residuo execeden el ancho de campo asignado, se reemplaza por el código MD1.
36.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para análisis
deben ser numéricas; pueden tener valores decimales o enteros. La variable dependiente puede ser continua
o categórica. Las variables predictoras pueden ser ordinales o categóricas. La variable de identificación de
caso puede ser alfabética.
36.6.
Estructura del setup
$RUN SEARCH
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
5.
Filtro (opcional)
Tı́tulo
Parámetros
Especificaciones de predictores
Especificaciones de separaciones predefinidas (opcional)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
36.7.
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de residuos de salida
datos de residuos de salida
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-5, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE V3=5
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
BUSCANDO ESTRUCTURA
276
Búsqueda de estructura (SEARCH)
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
DEPV=V5
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
ANALYSIS=MEAN/REGRESSION/CHI
MEAN
Análisis de medias.
REGR
Análisis de regresión.
CHI
Análisis de Ji-cuadrada. Con una sola variable dependiente, se usará la lista de códigos
por defecto 0-9 y no se hará verificación de datos faltantes.
DEPVAR=número de variable/(lista de variables)
La variable o variables dependientes. Nótese que se puede suministrar una lista de variables
solamente cuando se especifica ANALYSIS=CHI.
Sin valor por defecto.
CODES=(lista de códigos)
Solamente se puede suministrar una lista de códigos para ANALYSIS=CHI y una variable dependiente. Nótese que en este caso no se hace verificación de datos faltantes para la variable
dependiente y sólo se usan en el anáisis los casos con códigos listados.
COVAR=número de variable
El número de la variable covariada. Debe suministrase para ANALYSIS=REGR.
WEIGHT=número de variable
Número de la variable de ponderación, si se van a ponderar los datos.
MINCASES=25/n
Número mı́nimo de casos en un grupo.
MAXPARTITIONS=25/n
Número máximo de particiones.
SYMMETRY=0/n
La cantidad de poder explicativo que se quiere perder para obtener simetrı́a, expresado como un
porcentaje.
EXPL=0.8/n
Incremento mı́nimo en el poder explicativo que se requiere para una separación, expresado como
un porcentaje.
36.7 Proposiciones de control del programa
277
OUTDISTANCE=5/n
Número de desviaciones estándar de la media del grupo al que pertenecen, que definen un caso
excéntrico. Nótese que se reportan los casos excéntricos si se especifica PRINT=OUTL, pero no
se excluyen del análisis.
IDVAR=número de variable
Variable que sale con los residuos y/o que se imprime con cada caso clasificado como caso excéntrico.
WRITE=RESIDUALS/CALCULATED/BOTH
Residuos y/o valores calculados que se escribirán como un dataset IDAMS.
RESI
Salen sólo valores de residuos.
CALC
Salen sólo valores calculados.
BOTH
Salen valores de residuos y valores calculados.
OUTFILE=OUT/yyyy
Sólo se aplica si se especifica WRITE.
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de residuos de salida
Por defecto: DICTOUT, DATAOUT.
PRINT=(CDICT/DICT, TRACE, FULLTRACE, TABLE, FIRST, FINAL, TREE, OUTLIERS)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
TRAC
Imprimir la huella de separaciones para cada predictor para cada separación.
FULL
Imprimir la huella completa de separaciones para cada predictor, incluidas las separaciones elegibles pero sub-óptimas.
TABL
Imprimir las tablas de resumen de predictores para todos los grupos.
FIRS
Imprimir las tablas de resumen de predictores para el primer grupo.
FINA
Imprimir las tablas de resumen de predictores para los grupos finales.
TREE
Imprimir el diagrama del árbol jerárquico.
OUTL
Imprimir los casos excéntricos con valores de variable identificadora y de variable dependiente.
4. Especificaciones de predictores (mandatorio). Suministrar un conjunto de parámetros para cada
grupo de predictores que se pueda describir con los mismos valores de los parámetros. Las reglas de
codificación son las mismas de los parámetros. Cada especificación de predictor debe comenzar en una
nueva lı́nea.
Ejemplo:
VARS=(V8,V9) TYPE=F
VARS=(lista de variables)
Variables predictoras a las cuales se aplican los otros parámetros.
Sin valor por defecto.
TYPE=M/F/S
La restricción del predictor.
M
Los predictores se consideran “monotónicos”, es decir, los códigos de predictores se van
a mantener adyacentes durante el barrido de la partición.
F
Los códigos de predictores se consideran “libres”.
S
Los códigos de predictores se “selecionarán” y separarán de los códigos restantes al
formar particiones de ensayo.
CODES=(0-9)/máximo código/(lista de códigos)
El valor de código más grande aceptable o una lista de códigos aceptables. Los códigos pueden
estar en el rango de 0 a 31. Los casos con código fuera del rango 0 a 31 siempre se descartan.
278
Búsqueda de estructura (SEARCH)
RANK=n
Rango asignado. Si desean rangos, se asigan un rango predictor de 0 a 9. Un rango de cero indica
que se van a calcular estadı́sticas para los predictores, pero no se van a usar al hacer las particiones.
5. Especificaciones de separaciones predefinidas (opcional). Si desean separaciones predefinidas, se
suministra un conjunto de parámetros para cada separación predefinida. Las reglas de codificación son
las mismas de los parámetros. Cada especificacióon de separación predefinida debe comenzar en una
nueva lı́nea.
Ejemplo:
GNUM=1
VAR=V18
CODES=(1-3)
GNUM=n
El número del grupo a separar. Los grupos se especifican en orden ascendente, en donde la muestra
entera original es el grupo 1. Cada conjunto de parámetros forma dos nuevos grupos.
Sin valor por defecto.
VAR=número de variable
Variable predictora que se usa para hacer la separación.
Sin valor por defecto.
CODES=(lista de códigos)
Lista de los códigos del predictor que definen el primer subgrupo. Todos los demás códigos
pertenecerán al segundo subgrupo.
Sin valor por defecto.
36.8.
Restricciones
1. Número mı́nimo de casos requerido es 2 * MINCASES.
2. Número máximo de predictores es 100.
3. Valor máximo de predictor es 31.
4. Número máximo de códigos de variables categóricas es 400.
5. Número máximo de separaciones perdefinidas es 49.
6. Si la variable de identificación es alfabética con ancho > 4, sólo se usan los primeros cuatro caracteres.
36.9.
Ejemplos
Ejemplo 1. Análisis de medias con cinco variables predictoras; se solicita un mı́nimo de 10 casos por grupo;
se reportan los casos excéntricos con más de 3 desviaciones estándar de la media del grupo; los casos se
identifican con la variable V1.
$RUN SEARCH
$FILES
PRINT
= SEARCH1.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
ANALISIS DE MEDIAS - CINCO VARIABLES PREDICTORAS
DEPV=V4 MINC=10 OUTD=3 IDVAR=V1 PRINT=(TRACE,TREE,OUTL)
VARS=(V3-V5,V12)
VARS=V21 TYPE=F CODES=(1-4)
Ejemplo 2. Análisis de regresión con seis variables predictoras; se van a computar residuos y valores calculados y se van a escribir en un dataset (los casos se identifican con la variable V2).
36.9 Ejemplos
279
$RUN SEARCH
$FILES
PRINT
= SEARCH2.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
DICTOUT = RESID.DIC
archivo Diccionario para residuos
DATAOUT = RESID.DAT
archivo Datos para residuos
$SETUP
ANALISIS DE REGRESION - SEIS VARIABLES PREDICTORAS
ANAL=REGR DEPV=V12 COVAR=V7 MINC=10 IDVAR=V2 WRITE=BOTH PRINT=(TRACE,TABLE,TREE)
VARS=(V3-V5,V18)
VARS=V22 TYPE=F
Ejemplo 3. Análisis de Ji-cuadrada con una variable dependiente categórica y códigos seleccionados; se
predefinen las dos primeras separaciones.
$RUN SEARCH
$FILES
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
ANALISIS DE JI: VARIABLE DEPENDIENTE CATEGORICA, SEPARACIONES PREDEFINIDAS
ANAL=CHI DEPV=V101 CODES=(1-5) MINC=5 PRINT=(FINAL,TREE)
VARS=(V3,V8) TYPE=S
GNUM=1 VAR=V8 CODES=3
GNUM=2 VAR=V3 CODES=(1,2)
Capı́tulo 37
Tablas univariadas y bivariadas
(TABLES)
37.1.
Descripción general
El uso principal de TABLES es obtener listados de tablas de frecuencias univariadas y bivariadas con la
opción de mostrar porcentajes de fila, columna y esquina, y de manera opcional, estadı́sticas univariadas y
bivariadas. También se pueden obtener tablas de valores medios de una variable.
Ambos las tablas univariadas/bivariadas y estadı́sticas bivariadas se pueden bajar a un archivo de manera
que se utilicen desde un programa generador de informes con un formato escogido por el mismo usuario, o
puede entrar a GraphID u otros paquetes, tales como EXCEL, por despliegue gráfico.
Tablas univariadas. Se pueden generar frecuencias univariadas y frecuencias univariadas acumulativas
para cualquier número de variables de entrada y se pueden también expresar como porcentajes de la frecuencia
total ponderada o sin ponderar. Adicionalmente se puede obtener la media de una variable de celda.
Tablas bivariadas. Se puede generar cualquier número de tablas bivariadas. Adicionalmente a las frecuencias ponderadas y/o sin ponderar, una tabla puede tener frecuencias expresadas como porcentajes basados
en los marginales por fila y columna o en el total de la tabla y la media de una variable de una celda. Todos
estos ı́tems se pueden incluir en una sola tabla hasta con seis ı́tems por celda, o bién, se puede imprimir cada
una individualmente como una tabla separada.
Estadı́sticas univariadas. Para análisis univariado, se dispone de las siguientes estadı́sticas: media, moda,
mediana, variancia (sin asimetrı́a), desviación estándar, coeficiente de variación, asimetrı́a y kurtosis. Existe
también una opción de cuantiles (NTILE). Se puede solicitar una división desde tres partes hasta diez partes.
Estadı́sticas bivariadas. Para el análisis bivariado, se pueden solicitar las siguientes estadı́sticas:
-
pruebas-t de medias (asume poblaciones independientes) entre pares de filas,
Ji-cuadrada, coeficiente de contingencia y V de Cramer,
Taus de Kendall, Gama, Lambdas,
S (numerador de las estadı́sticas taus y gama), su desviación estándar y normal, y su variancia,
ro de Spearman,
estadı́sticas para medicina basada en evidencia (EBM),
pruebas no paramétricas: Wilcoxon, Mann-Whitney y Fisher.
Matrices de estadı́sticas. Con excepción de las pruebas, estadı́sticas EBM o estadı́sticas que involucren a
S, se pueden imprimir o bajar a un archivo, matrices con todas las estadı́sticas bivariadas mencionadas. Se
pueden producir las matrices correspondientes a n ponderadas o sin ponderar.
Tablas de 3 y de 4 entradas. Estas tablas se pueden construir haciendo uso de las posibilidades de
repetición y de división en subconjuntos. La variable de repetición se puede pensar como una variable de
control o de panel. La posibilidad de dividir en subconjuntos puede usarse para escoger más casos para un
grupo en particular de tablas.
282
Tablas univariadas y bivariadas (TABLES)
Tablas de sumas. Se pueden producir tablas en las cuales las celdas contengan la suma de una variable dependiente si se especifica la variable dependiente como el factor de ponderación. Por ejemplo, WEIGHT=V208,
donde V208 representa el ingreso de un encuestado, y se quiere obtener el ingreso total de todos los encuestados en una sola celda.
Nota. Se tienen las siguientes opciones para controlar la presentación de los resultados:
Se puede asignar un tı́tulo para cada conjunto de tablas.
Se pueden imprimir porcentajes y las medias en tablas separadas si se desea.
Se puede suprimir la malla de celdas.
Se pueden imprimir las filas que no tengan entradas en una sección particular de una tabla de
frecuencias grande; las tablas que tengan más de diez columnas se imprimen por secciones y el
uso de la opción “zero rows (cero filas)” asegura que las diferentes secciones tengan el mismo
número de filas (lo cual es importante si éstas se van a recortar y pegar posteriormente).
37.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. Se puede usar el filtro estándar para escoger un subconjunto de casos de
los datos de entrada. Además, se pueden usar filtros locales y factores de repetición (llamados especificaciones
de subconjunto) para escoger un subconjunto de casos para una tabla en particular. En tablas especificadas
individualmente, la variable o variables a utilizar con la tabla se escogen con los parámetros de especificación
de tabla R y C. Para conjuntos de tablas, las variables se seleccionan con los parámetros de especificación
de tabla ROWVARS y COLVARS.
Transformación de datos. Se pueden usar las proposiciones de Recode. Nótese que para las variables R
el programa utiliza el número de cifras decimales dado en el parámetro NDEC.
Ponderación de datos. Se puede especificar, de manera opcional, una variable de ponderación para cada
conjunto de tablas. Las variables V y R con decimales se multiplican por un factor de escala para obtener
valores enteros. Ver la sección “Dataset de entrada” abajo.
Cuando el valor de la variable de ponderación para un caso es cero, negativo, dato faltante o no numérico,
entonces el caso siempre se omite; se imprime el número de casos ası́ tratados.
Tratamiento de datos faltantes.
1. El parámetro MDVALUES está disponible para indicar cuales valores de datos faltantes, si los hay, se
usarán para verificar los datos faltantes.
2. Las frecuencias univariadas y bivariadas se imprimen siempre para todos los códigos en los datos sin
importar si se trata de datos faltantes o no. Para retirar completamente de las tablas los datos faltantes,
se puede especificar un filtro o un subconjunto de casos. Alternativamente, se pueden definir valores
máximos y/o mı́nimos de las variables de fila y de columna.
3. Los casos con datos faltantes, se pueden opcionalmente incluir en los cálculos de porcentajes y de las
estadı́sticas bivariadas. Esto se puede hacer con el parámetro de tabla MDHANDLING.
4. Los casos con datos faltantes en la variable de celda se excluyen siempre de las tablas univariadas y
bivariadas.
5. Los casos con datos faltantes, se excluyen siempre de los cálculos de las estadı́sticas univariadas.
37.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.
Una tabla de contenido del listado. El contenido indica cada tabla producida y da el número de página
en el cual está localizada. Se suministra la información siguiente:
37.3 Resultados
-
283
números de variables de fila y columna (0 si no hay)
numero de variable para el valor de la media - variable de celda (0 si no hay)
número de la variable de ponderación (0 si no hay)
valores mı́nimo y máximo de fila (0 si no hay)
valores mı́nimo y máximo de columna (0 si no hay)
nombre de filtro y nombre del factor de repetición
porcentajes: fila, columna y total (T=solicitado, F=no solicitado)
RMD: datos faltantes para la variable de fila (T=eliminar, F=no eliminar)
CMD: datos faltantes para la variable de columna (T=eliminar, F=no eliminar)
CHI: Ji-cuadrada (T=solicitada, F=no solicitada)
TAU: tau a, b o c (T=solicitada, F=no solicitada)
GAM: gama (T=solicitada, F=no solicitada)
TEE: pruebas t (T=solicitadas, F=no solicitadas)
EXA: prueba no paramétrica de Fisher (T=solicitada, F=no solicitada)
WIL: prueba no paramétrica de Wicoxon (T=solicitada, F=no solicitada)
MW: prueba no paramétrica de Mann-Whitney (T=solicitada, F=no solicitada)
SPM: ro de Spearman (T=solicitada, F=no solicitada)
EBM: estadı́sticas para medicina basada en evidencia (T=solicitadas, F=no solicitadas).
Las tablas que se solicitan con los parámetros de tabla PRINT=MATRIX o WRITE=MATRIX no se
imprimen en el contenido y siempre se imprimen primero con números de página y de tabla negativos.
Otras tablas se imprimen en el orden de las especificaciones de la tabla, excepto para aquellas en las cuales
sólo se hayan solicitado las estadı́sticas univariadas; éstas siempre se agrupan juntas al final del listado.
Tablas bivariadas. Cada tabla bivariada comienza en una página nueva; una tabla grande puede ocupar
más de una página. Las tablas se imprimen con un máximo hasta de 10 columnas y 16 filas por página, según
el número de ı́tems de cada celda. Las filas y columnas se imprimen sólo para los códigos que aparezcan en
los datos. Los totales de filas y columnas y las frecuencias acumuladas marginales y porcentajes se imprimen,
si ası́ se ha solicitado, alrededor de los bordes de la tabla.
Una tabla grande se imprime por tiras verticales. Por ejemplo, una matriz con 40 filas de códigos y 40
columnas de codigos se imprimirı́a normalmente en 12 páginas tal como se muestra en el siguiente diagrama,
en el cual los números en las celdas muestran el orden en el cual se imprimen las páginas:
primeros
10
segundos
10
terceros
10
cuartos
10
primeros 16 códigos
1
4
7
10
segundos 16 codigos
2
5
8
11
últimos 8 códigos
3
6
9
12
códigos
Estadı́sticas bivariadas. (Opcional: ver el parámetro de tabla STATS)
Pruebas-t. (Opcional: ver el parámetro de tabla STATS). Si se solicitan pruebas-t, se imprimen éstas y las
medias y las desviaciones estándar de la variable de columna para cada fila en una página separada.
Matrices de estadı́sticas bivariadas. (Opcional: ver el parámetro de tabla PRINT). Se imprime la esquina
inferior izquierda de la matriz. Se imprimen 8 columnas y 25 filas por página.
Matriz de las N. (Opcional: ver el parámetro de tabla PRINT). Se imprime con el mismo formato de la
matriz estadı́stica correspondiente.
Tablas univariadas. (Opcional: ver el parámetro de tabla CELLS). Normalmente, cada tabla univariada
se imprime al comienzo de una nueva página. Se imprimen las frecuencias, porcentajes y las medias de una
variable, si se han solicitado, para diez códigos en una página.
Estadı́sticas univariadas. (Opcional: ver el parámetro de tabla USTATS).
Cuantiles. (Opcional: ver el parámetro de tabla NTILE). Se imprimen N-1 puntos, por ej. si se han solicitado
cuartiles, el parámetro NTILE toma el valor 4 y se imprimen 3 puntos de separación.
284
Tablas univariadas y bivariadas (TABLES)
Numeración de páginas. Es de la forma ttt.rr.ppp donde:
ttt
rr
ppp
37.4.
=
=
=
número de la tabla
número de repetición (00 si no se usa)
número de página dentro de cada tabla.
Tablas univariadas/bivariadas de salida
Se pueden obtener en un archivo, tablas univariadas y bivariadas con las estadı́sticas solicitadas en el
parámetro CELLS, si se especifica WRITE=TABLES. Las tablas están en el formato de matriz rectangular de IDAMS (ver el capı́tulo “Los datos en IDAMS”). Se produce una matriz para cada estadı́stica
solicitada. Si se usa un factor de repetición, se produce una matriz para cada repetición.
Las columnas 21-80 del registro descriptor de la matriz, contienen la siguiente descriptión adicional de la
matriz:
21-40
41-60
61-80
Nombre de la variable de fila (para tablas bivariadas).
Nombre de la variable de columna.
Descripción de los valores en la matriz.
Los registros de identificación de variable (#R and #C) contienen valores y nombres de código para las
variables de fila y de columna respectivamente.
Las estadı́sticas se escriben como registros de 80 caracteres de acuerdo con un formato Fortran 7F10.2. Las
columnas 73-80 contienen un identificador de la manera siguiente:
73-76
77-80
Identificación de la estadı́stica: FREQ, UNFR, ROWP, COLP, TOTP o MEAN.
Número de tabla.
Nótese que los códigos de datos faltantes no se incluyen en la matriz.
37.5.
Matrices de estadı́sticas bivariadas de salida
Se pueden seleccionar estadı́sticas para bajarlas a un archivo. Por ejemplo, si se han seleccionado gamas y
taus, entonces se generará una matriz de gamas y una matriz de taus separadamente. Las matrices de salida
de estadı́sticas bivariadas se solicitan con las especificaciones WRITE=MATRIX o bién con los parámetros
de tabla ROWVARS o ROWVARS y COLVARS. Si se usa un factor de repetición, se baja al archivo una
matriz por cada repetición. Las matrices son de la forma matriz de IDAMS cuadrada o rectangular (ver el
capı́tulo “Los datos en IDAMS”). Los valores en la matriz se escriben con el formato Fortran 6F11.5. Las
columnas 73-80 contienen la siguiente identificación:
73-76
77-80
Identificación de la estadı́stica: TAUA, TAUB, TAUC, GAMM, LSYM, LRD, LCD, CHI, CRMV
o RHO.
Número de tabla.
Nota. Si se suministra sólo ROWVARS, se escriben registros de medias y desviaciones estándar ficticias,
2 registros por 60 variables. El segundo registro de formato (#F) en el diccionario especifica un formato
60I1 para estos registros ficticios. Esto se hace de manera que la matriz se ajuste al formato de una matriz
IDAMS cuadrada.
37.6.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Excepto variables del filtro principal,
todas otras variables referidas deben ser numéricas.
En distribuciones y ponderaciones, las variables V y R con cifras decimales se multiplican por un factor de
escala para obtener valores enteros. Este factor se calcula como 10n donde n es el número de decimales del
37.7 Estructura del setup
285
diccionario para las variables V y del parámetro NDEC para las variables R, y aparece en los resultados
para cada variable.
Estadı́sticas univariadas sin distribuciones se calculan usando el número de decimales del diccionario para
las variables V y del parámetro NDEC para las variables R.
Los campos con caracteres no-numéricos (incluidos campos en blanco) se pueden tabular con el parámetro
BADDATA con MD1 o MD2. Ver el capı́tulo “El archivo Setup de IDAMS”.
37.7.
Estructura del setup
$RUN TABLES
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
5.
6.
Filtro (opcional)
Tı́tulo
Parámetros
Especificaciones de subconjuntos (opcional)
TABLES
Especificaciones de tablas (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
FT02
DICTxxxx
DATAxxxx
PRINT
37.8.
tablas/matrices de salida
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al el capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, 1-3 y 6 a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE
V3=6
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
TABLAS DE FRECUENCIAS
3. Parámetros (mandatorio). Para seleccionar opciones del programa. Los nuevos parámetros son precedidos por un asterisco.
Ejemplo:
BADDATA=SKIP
286
Tablas univariadas y bivariadas (TABLES)
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver
el capı́tulo “El archivo Setup de IDAMS”.
* NDEC=0/n
Número de decimales (máximo 4) a conservar para las variables R.
PRINT=(CDICT/DICT, TIME)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
TIME
Imprimir el tiempo después de cada tabla.
4. Especificaciones de subconjuntos (opcional). Estas proposiciones permiten escoger un subconjunto
de casos para una tabla o un conjunto de tablas.
Ejemplo:
CLASS
INCLUDE V8=1,2,3,-7,9
Hay dos clases de especificación de subconjunto: filtros locales y factores de repetición. Cada uno tiene
una función diferente, pero sus formatos son muy similar. Una especificación se puede utilizar como
filtro local para una o más tablas y como un factor de repetición para otras.
Reglas de codificación
Prototipo: nombre proposición
nombre
Nombre del subconjunto. 1-8 caracteres alfanuméricos comenzando con una letra. Este nombre
debe coincidir exactamente con el nombre usado en las especificaciones de análisis subsecuentes.
Blancos intercalados no se permiten. Se recomienda que todos los nombres se justifiquen a la
izquierda.
proposición
Definición del subconjunto que siga la sintáxis del filtro estándar de IDAMS.
Para los factores de repetición, sólo se puede especificar una variable en la expresión.
A continuación se describe como trabajan los filtros locales y los factores de repetición.
Filtros locales. Una especificación de subconjunto se identifica como un filtro local para una tabla o
un conjunto de tablas, al especificar el nombre del subconjunto con el parámetro FILTER. El filtro local
funciona de la misma manera que el filtro estándar excepto que se aplica solamente a las especificaciones
de la tabla en la cual ha sido referido.
Ejemplo:
EDUCATN
(nombre subconjunto)
INCLUDE V4=0-4,9 AND V5=1
(expresión)
En el ejemplo anterior, si EDUCATN se define como filtro local en las especificaciones de la tabla, la
tabla se producirı́a con la inclusión de sólo aquellos casos con códigos 0,1,2,3,4 o 9 para V4 y 1 para
V5.
37.8 Proposiciones de control del programa
287
Factores de repetición. Una especificación de subconjunto se identifica como un factor de repetición
para una tabla o un conjunto de tablas, al especificar el nombre del subconjunto con el parámetro
REPE. Sólo se debe dar una variable en una especificación de subconjunto para usarla como factor
de repetición. Los factores de repetición permiten la generación de tablas de 3 entradas, en donde la
variable utilizada en el factor de repetición, se puede considerar como una variable de control o de
panel. Si se utiliza un factor de repetición y un filtro, se puede obtener una tabla de 4 entradas.
Las expresiones INCLUDE, hacen que las tablas producidas incluyan los casos para cada valor o rango
de valores de la variable de control utilizada en la expresión. Los valores o rangos se separan con comas.
Ası́ si hay n comas en la expresión, se producirán n+1 tablas.
Ejemplo:
EDUCATN
(nombre subconjunto)
INCLUDE V4=0-4,9
(expresión)
En el ejemplo anterior, si EDUCATN se designa como un factor de repetición, resultarán dos tablas:
una que la incluye los casos codificados 0-4 para la variable 4, y otra que incluye los casos codificados
9 para la variable 4.
EXCLUDE se puede usar para producir tablas con todos los valores excepto aquellos especificados.
Ejemplo:
EDUCATN
(nombre subconjunto)
EXCLUDE V1=1,4
(expresión)
En el ejemplo anterior, si EDUCATN se designa como un factor de repetición, resultarán dos tablas:
una con todos los valores excepto 1 y otra con todos los valores excepto 4.
5. TABLES. La palabra TABLES en esta lı́nea, señala que siguen especificaciones de tablas. Debe
incluirse (con el objeto de separar las especificaciones de subconjuntos de las especificaciones de tablas)
y sólo debe aparecer una vez.
6. Especificaciones de tablas. Las especificaciones de tablas se utilizan para describir las caracterı́sticas
de las tablas que se van a producir. Las reglas de codificación son las mismas de los parámetros. Cada
conjunto de especificaciones de tabla debe comenzar en una lı́nea nueva.
Ejemplos:
R=(V6,1,8) CELLS=FREQS
R=(V6,1,8) C=(V9,0,4) REPE=SEX CELLS=(ROWP,FREQS)
ROWV=(V5-V9) CELLS=FREQS USTA=MEAN
ROWV=(V3,V5) COLV=(V21-V31) R=(0,1,8) C=(0,1,99)
(una tabla univariada)
(una tabla bivariada con factor de repetición,
es decir tabla de 3 entradas)
(conjunto de tablas univariadas)
(conjunto de tablas bivariadas)
ROWVARS=(lista de variables)
Lista de variables para la cual se requieren tablas univariadas o lista de variables que se va a usar
como filas en tablas bivariadas.
COLVARS=(lista de variables)
Lista de variables a usar como columnas para tablas bivariadas.
R=(var, rmin, rmax)
var
Número de variable de fila o de variable univariada de una tabla individual. Para
suministrar los valores máximos y mı́nimos de un conjunto de tablas, coloque el número
de variable en ceros, por ej. R=(0,1,5); en este caso los códigos máximos y mı́nimos se
aplican a todas las variables en el parámetro ROWVARS.
rmin
Código mı́nimo de la(s) variable(s) de fila para los cálculos estadı́sticos y de porcentajes.
rmax
Código máximo de la(s) variable(s) de fila para los cálculos estadı́sticos y de porcentajes.
Si se especifica rmin o rmax, entonces se deben especificar ambos. Si sólo se especifica el número
de variable, los valores máximos y mı́nimos no se aplican.
288
Tablas univariadas y bivariadas (TABLES)
C=(var, cmin, cmax)
var
Número de variable de columna para una tabla bivariada individual. Para suministrar
los valores máximos y mı́nimos de un conjunto de tablas, coloque el número de variable
en ceros, por ej. C=(0,2,5); en este caso los códigos máximos y mı́nimos se aplican a
todas las variables en el parámetro COLVARS.
cmin
Código mı́nimo de la(s) variable(s) de columna para los cálculos estadı́sticos y de
porcentajes.
cmax
Código máximo de la(s) variable(s) de columna para los cálculos estadı́sticos y de
porcentajes.
Si se especifica cmin o cmax, entonces se deben especificar ambos. Si sólo se especifica el número
de variable, los valores máximos y mı́nimos no se aplican.
TITLE=’tı́tulo de la tabla’
Tı́tulo para imprimir en el encabezamiento de cada tabla en este conjunto.
Por defecto: no imprime tı́tulo.
CELLS=(ROWPCT, COLPCT, TOTPCT, FREQS/NOFREQS, UNWFREQS, MEAN)
Contenido de las celdas de tablas cuando se ha especificado PRINT=TABLES o WRITE=TABLES.
ROWP
Porcentajes para tablas univariadas o porcentajes basados en totales de fila para tablas
bivariadas.
COLP
Porcentajes basados en totales de columnas en tablas bivariadas.
TOTP
Porcentajes basados en el gran total en tablas bivariadas.
FREQ
Conteos de frecuencia ponderada (el mismo sin ponderar si no se especifica WEIGHT).
UNWF
Conteos de frecuencia sin ponderar.
MEAN
Media de la variable especificada por VARCELL.
VARCELL=número de variable
El número de la variable para la cual se va calcular la media en cada celda de la tabla.
MDHANDLING=ALL/R/C/NONE
Indica cuales valores de datos faltantes deben excluirse de los cálculos de porcentajes y estadı́sticas
bivariadas.
ALL
Eliminar todos los valores de datos faltantes.
R
Eliminar los valores de datos faltantes para las variables de fila.
C
Eliminar los valores de datos faltantes para las variables de columna.
NONE
No eliminar valores de datos faltantes.
Nota: los casos con datos faltantes siempre se excluyen de las estadı́sticas univaridas.
WEIGHT=número de variable
Número de la variable de ponderación, si se van a ponderar los datos.
FILTER=xxxxxxxx
El nombre de 1-8 caracteres de la especificación de subconjunto que se va a usar como filtro local.
Debe estar encerrado entre comillas sencillas si tiene caracteres no-alfanuméricos. Si el nombre
no coincide con alguno de los nombres de las especificaciones de subconjunto, se salta la tabla.
Se deben usar letras mayúsculas con el objeto de hacer encajar el nombre en la especificación de
subconjuntos el cual se convierte automáticamente a mayúsculas.
REPE=xxxxxxxx
El nombre de 1-8 caracteres de la especificación de subconjunto que se va a usar como factor
de repetición. Debe estar encerrado entre comillas sencillas si tiene caracteres no-alfanuméricos.
Si el nombre no coincide con alguno de los nombres de las especificaciones de subconujunto, se
salta la tabla. Las tablas se repetirán para cada grupo de casos especificado. Se deben usar letras
mayúsculas con el objeto de hacer encajar el nombre en la especificación de subconjuntos el cual
se convierte automáticamente a mayúsculas.
37.8 Proposiciones de control del programa
289
USTATS=(MEANSD, MEDMOD)
(Sólo tablas univariadas).
MEAN
Imprimir media, mı́nimo, máximo, variancia (sin asimetrı́a), desviación estándar, coeficiente de variación, asimetrı́a, kurtosis, total de casos ponderados y sin ponderar.
MEDM
Imprimir mediana y moda (si hay ataduras, se escoge el valor numérico más pequeño).
NTILE=n
(Sólo tablas univariadas).
La n es el número de cuartiles que se van a calcular; debe estar en el rango 3-10.
STATS=(CHI, CV, CC, LRD, LCD, LSYM, SPMR, GAMMA, TAUA, TAUB, TAUC, EBMSTAT,
WILC, MW, FISHER, T)
Si se va imprimir o producir como salida alguna de las estadı́sticas bivariadas, suministrar el
parámetro STAT con cada una de las estadı́sticas deseadas.
Tablas bivariadas y matrices de salida
CHI
Ji-cuadrada. (Si no se ha pedido MATRIX, la selección de CHI, CV o CC hará que se
calculen las tres).
CV
V de Cramer.
CC
Coeficiente de contingencia.
LRD
Lambda, variable de fila es la variable dependiente. (Si no se ha pedido MATRIX, la
selección de cualquiera de las lambdas hará que se calculen las tres).
LCD
Lambda, variable de columna es la variable dependiente.
LSYM
Lambda, simétrica.
SPMR
Estadı́stica Ro de Spearman.
GAMM
Estadı́stica Gama.
TAUA
Estadı́stica tau a. (Si no se ha pedido MATRIX, la selección de cualquiera de las taus
hará que se calculen las tres).
TAUB
Estadı́stica tau b.
TAUC
Estadı́stica tau c.
Tablas bivariadas solamente
EBMS
Estadı́sticas para medicina basada en evidencia.
WILC
Prueba de rangos con signo de Wilcoxon.
MW
Prueba de Mann-Whitney.
FISH
Prueba exacta de Fisher.
T
Pruebas-t entre todas las combinaciones de filas, hasta un lı́mite de 50 filas.
DECPCT=2/n
Número de decimales impresos para porcentajes, máximo cuatro.
DECSTATS=2/n
Número de decimales impresos para las estadı́sticas media, mediana, taus, gama, lambdas y Jicuadrada. Todas las demás estadı́sticas se imprimirán con 2+n decimales (es decir, por defecto
4).
WRITE=MATRIX/TABLES
Si se va a generar un archivo de salida, se debe suministrar el parámetro WRITE y el tipo de
salida.
MATR
Bajar al archivo las matrices de estadı́sticas seleccionadas.
Si el parámetro ROWVARS se especifica, se produce una matriz cuadrada para cada
estadı́stica solicitada en el parámetro STATS con todos los apareamientos de las variables que aparecen en la lista.
Si se especifican los parámetros ROWVARS y COLVARS, se produce una matriz rectangular para cada estadı́stica solicitada en el parámetro STATS con cada variable que
aparezca en la lista de ROWVARS, apareada con cada variable que aparezca en la lista
de COLVARS.
290
Tablas univariadas y bivariadas (TABLES)
TABL
Bajar al archivo las tablas de estadı́sticas solicitadas en el parámetro CELLS.
PRINT=(TABLES/NOTABLES, SEPARATE, ZEROS, CUM, GRID/NOGRID,
N, WTDN, MATRIX)
Opciones que se refieren a tablas univariadas/bivariadas solamante.
TABL
Imprimir las tablas con ı́tems especificados por CELLS.
SEPA
Imprime cada ı́tem especificado en CELLS como una tabla separada.
ZERO
Mantener las filas con marginales cero en el listado. (Sólo aplica si la tabla tiene más
de 10 columnas y por lo tanto ha de imprimirse por tiras).
CUM
Imprimir frecuencias y porcentajes acumulados y marginales por fila y columna. Si los
datos son ponderados, las cifras se calculan sobre frecuencias ponderadas solamente.
GRID
Imprimir la malla alrededor de las celdas de tablas bivariadas.
NOGR
Suprimir la malla alrededor de las celdas de tablas bivariadas.
Opciones
N
WTDN
MATR
37.9.
que se refieren a WRITE=MATRIX solamente.
Imprimir la matriz de las n para las matrices de estadı́sticas solicitadas.
Imprimir la matriz de las n ponderadas, para las matrices de estadı́sticas solicitadas.
Imprimir las matrices de estadı́sticas especificadas con STATS.
Restricciones
1. El número máximo de variables para frecuencias univariadas es 400.
2. La combinación de variables y especificaciones de subconjuntos está sujeta a la siguiente restricción:
5NV + 107NF < 8499
donde NF es el número de especificaciones de subconjuntos y NV es el número de variables.
3. Los valores de los códigos en tablas univariadas deben estar dentro del rango -2,147,483,648 a 2,147,483,647.
4. Los valores de los códigos para tablas bivariadas deben estar en el rango -32,768 a 32,768. Cualesquiera
valores de código fuera de este rango, se recodifican inmediatamente a los valores de los puntos extremos
del rango, por ej. -40,000 se recodificará a -32,768 y 40,000 se convertirá en 32,768. De esta manera, en
las especificaciones de tablas bivariadas, 32,768 corresponde al máximo “valor máximo”. (Nótese que
una variable de 5 dı́gitos con un código de datos faltantes de 99999 tendrá en el listado la fila de dato
faltante con tı́tulo 32,768).
5. La frecuencia máxima acumulada, ponderada o sin ponderar para una tabla (y para cualquier celda,
fila o columna) es 2,147,483,647.
6. Dimensiones máximas de la tabla.
Bivariada: 500 códigos de fila, 500 códigos de columna, 3000 celdas con entidades diferentes
de cero.
Univariada: 3000 categorı́as cuando se hayan solicitado frecuencias, mediana/moda; de lo
contrario, son ilimitadas.
Nota: para una variable como ingreso, si hay más de 3000 valores únicos de ingreso, no se
puede obtener una mediana o una moda sin antes haber agrupado la variable.
7. Los valores no enteros de las variables tipo V en distribuciones y ponderaciones se tratan como si no
existiera el punto decimal; se imprime un factor de escala para cada variable.
8. Las pruebas-t de medias entre filas se llevan a cabo solamente en las primeras 50 filas de una tabla.
9. Para la salida de la matriz de estadı́sticas bivariadas, el máximo número de variables por fila o columna
es de 95.
10. Si se van a producir archivos de salida para frecuencias bivariadas y matrices de estadı́sticas, todos
van al mismo archivo fı́sico de salida.
11. Cuando se utilizan variables recodificadas, no se pueden titular las filas y las columnas de las tablas.
37.10 Ejemplo
37.10.
291
Ejemplo
En el ejemplo a continuación, se piden las siguientes tablas:
1. Conteos de frecuencia para las variables V201-V220.
2. Estadı́sticas univariadas sin tablas de frecuencias para las variables V54-V62 y V64. Las medias tendrán
un decimal y las demás estadı́sticas 3 decimales.
3. Conteos de frecuencias ponderadas y sin ponderar y porcentajes con frecuencias acumuladas y porcentajes para las variables V25-V30 y la versión agrupada de la variable V7. Los casos con datos
faltantes no se excluirán de los porcentajes o de las estadı́sticas. Se solicitan la mediana y la moda.
4. Para las categorı́as de la variable individual V201, se piden conteos de frecuencias y la media de la
variable V54.
5. 8 tablas bivariadas (con variables de fila V25-V28 y variables de columna V29, V30) repetidas por los
valores 1 y 2 de la variable 10 (sexo), es decir que la variable sexo se utiliza como variable de panel
(control). En cada celda habrá conteos, porcentajes por filas, por columnas y por totales. Se piden las
estadı́sticas Ji-cuadrada y Taus.
6. Tablas de 3 entradas con la región (V3) agrupada en tres categorı́as como variable de panel. Las tablas
se restringen a casos de hombres solamente (V10=1). En cada celda aparecerán conteos de frecuencias
y media de la variable V54.
7. Una tabla de conteos de frecuencia ponderada individual, con exclusión de los casos en los cuales la
variable de fila y/o de columna tomen el valor de 9.
8. Las matrices de las estadı́sticas Tau A y Gama se imprimirán y se bajarán a un archivo para todos los
pares de variables V54-V62. También se imprimirá una matriz de conteo de casos válidos para cada
par de variables.
1.
2.
3.
4.
5.
6.
7.
8.
$RUN TABLES
$FILES
PRINT = TABLES.LST
FT02
= TREE.MAT
matrices de estadı́sticas
DICTIN = TREE.DIC
archivo Diccionario de entrada
DATAIN = TREE.DAT
archivo Datos de entrada
$RECODE
R7=BRAC(V7,0-15=1,16-25=2,26-35=3,36-45=4,46-98=5,99=9)
NAME R7’V7 AGRUPADA’
$SETUP
EJEMPLO DE TABLAS
BADDATA=MD1
MALE
INCLUDE V10=1
SEX
INCLUDE V10=1,2
REGION
INCLUDE V3=1-2,3-4,5
MD
EXCLUDE V19=9 OR V52=9
TABLES
ROWV=(V201-V220) TITLE=’Conteo de frecuencias’
ROWV=(V54-V62,V64) USTATS=MEANSD PRINT=NOTABLES DECSTAT=1
ROWV=(V25-V30,R7)
USTATS=MEDMOD CELLS=(FREQS,UNWFREQS,ROWP) WEIGHT=V9 PRINT=CUM MDHAND=NONE
R=(V201,1,3) CELLS=(FREQS,MEAN) VARCELL=V54
ROWV=(V25-V28) COLV=(V29-V30) CELLS=(FREQS,ROWP,COLP,TOTP) STATS=(CHI,TAUA) REPE=SEX
ROWV=(V201-V203) COLV=V206 CELLS=(FREQS,MEAN) VARCELL=V54 REPE=REGION FILT=MALE
R=V19 C=V52 WEIGHT=V9 FILT=MD
ROWV=(V54-V62) STATS=(TAUA,GAMMA) PRINT=(MATRIX,N) WRITE=MATRIX
Capı́tulo 38
Tipologı́a y clasificación ascendente
(TYPOL)
38.1.
Descripción general
TYPOL crea una variable de clasificación que resume un gran número de variables. Se permite que el núcleo
inicial de grupos esté constituido por el uso de una variable de clasificación inicial, definida “a priori” (variable
clave), una muestra aleatoria de casos, o una muestra por pasos. Un proceso iterativo mejora los resultados
mediante la estabilización de los núcleos. Los grupos finales constituyen las categorı́as de la variable de
clasificación que se busca. El número de grupos de la tipologı́a se puede reducir si se utiliza un algoritmo de
clasificación jerárquica ascendente.
Las variables activas son aquellas sobres las cuales se hace el agrupamiento y reagrupamiento de los casos.
También se pueden buscar las estadı́sticas principales de otras variables dentro de los grupos construidos de
acuerdo con las variables activas. Tales variables (que no tienen influencia en la construcción de los grupos)
se llaman variables pasivas.
TYPOL acepta variables cuantitativas y cualitativas, estas últimas se tratan como cuantitativas depués
de una dicotomización completa de sus respectivas categorı́as, lo cual resulta en la construcción de tantas
variables dicotomizadas (1/0) como número de categorı́as haya de la variable cualitativa. También es posible
estandarizar las variables activas (tanto cuantitativas como cualitativas después de la dicotomización).
TYPOL opera en dos etapas:
1. Construcción de una tipologı́a inicial. El programa construye una tipologı́a de n grupos, como
se haya solicitado por el usuario, a partir de los casos los cuales se caracterizan por un número dado
de variables (consideradas como cuantitativas). El usuario puede escoger la manera de establecer una
configuración inicial (ver el parámetro INITIAL), y también el tipo de distancia (ver el parámetro
DTYPE) utilizado por el programa para calcular la distancia entre los casos y los grupos.
2. Clasificación ascendente adicional (opcional). Si el usuario desea una tipologia con menos grupos,
el programa -mediante un algoritmo de clasificación jerárquica ascendente- reduce uno a uno, el número
de grupos hasta llegar al número especificado por el usuario.
38.2.
Caracterı́sticas estándar de IDAMS
Selección de casos y variables. El filtro estándar está disponible para escoger un subconjunto de casos a
partir de los datos de entrada. Las variables se especifican con parámetros.
Transformación de datos. Se pueden usar las proposiciones de Recode.
Ponderación de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderación puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderación para un
294
Tipologı́a y clasificación ascendente (TYPOL)
caso es cero, negativo, dato faltante o no numérico, entonces el caso siempre se omite; se imprime el número
de casos ası́ tratados.
Tratamiento de datos faltantes. El parámetro MDVALUES está disponible para indicar cuales valores
de datos faltantes, si los hay, se usarán para verificar los datos faltantes. Los casos con datos faltantes en las
variables cuantitativas pueden ser excluidos del análisis (ver el parámetro MDHANDLING).
38.3.
Resultados
Diccionario de entrada. (Opcional: ver el parámetro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecución.
Tipologı́a inicial
Construcción de una tipologı́a inicial. (Opcional: ver el parámetro PRINT).
El reagrupamiento de grupos iniciales, seguido de una tabla de números de referencias cruzadas
atribuidos a los grupos antes y después de la construcción de los grupos iniciales.
Tabla(s) que muestra(n) la redistribución de casos entre una iteración y la siguiente y da el
porcentaje del número total de casos agrupados correctamente.
Evolución del porcentaje de variancia explicada de una iteración a la otra.
Caracterı́sticas de distancias por grupos. El número de casos en cada grupo inicial de la tipologı́a,
junto con el valor de la media y de la desviación estándar de las distancias.
Tablas de las distancias. (Opcional: ver el parámetro PRINT). Tablas de distancias mostrando dentro de
cada grupo, la distribución de casos a través de quince intervalos continuos siendo estos intervalos:
diferentes para cada grupo (primera tabla),
idénticos para todos los grupos (segunda tabla).
Caracterı́sticas globales de distancias. El número total de casos, con la media y desviación estándar
globales de las distancias.
Estadı́sticas de resumen. La media, desviación estándar y el peso de la variable para las variables cuantitativas y para las categorı́as de las variables cualitativas activas.
Descripción de la tipologı́a resultante. Para cada grupo de tipologı́a, se imprime primero su número
y el porcentaje de casos que le pertenecen. Después se suministran las estadı́sticas, variable por variable,
en el siguiente orden: (1) variables cuantitativas activas (2) variables cuantitativas pasivas (3) variables
cualitativas activas (4) variables cualitativas pasivas.
Para cada variable cuantitativa se da su monto de variancia explicada, su valor de media global
y, dentro de cada grupo de la tipologı́a, su media y desviación estándar.
Para cada categorı́a de la variable cualitativa, se da primero su monto de variancia explicada y el
porcentaje de casos que le coresponden; luego dentro de cada grupo de la tipologı́a se imprime:
verticalmente el porcentaje de casos a través de las categorı́as de la variable en la primera lı́nea
y horizontalmente, el porcentaje de casos a través de los grupos de la tipologı́a (porcentajes por
fila) en la segunda lı́nea (opcional: ver el parámetro PRINT).
Resumen de la cantidad de variancia explicada por la tipologı́a. Se dan los siguientes porcentajes
de variancia explicada:
la variancia explicada por las variables más discriminatorias, es decir, aquellas que tomadas juntas son
responsables por el 80 % de la variancia explicada,
la media de la cantidad de variancia explicada por las variables activas,
la media de la cantidad de variancia explicada por todas las variables juntas,
la media de la cantidad de variancia explicada por las variables más discriminatorias junto con la
proporción de estas variables.
38.4 Dataset de salida
295
Nota: cuando aparecen variables cualitativas en las tablas, se imprimen los primeros 12 carateres del nombre
de la variable junto con el código que identifica la categorı́a. Cuando aparecen variables cuantitativas en las
tablas, se imprimen todos los 24 caracteres del nombre de la variable.
Clasificación jerárquica ascendente
Tabla de raices cuadradas de desplazamientos y distancias, calculadas para cada par de grupos. (Opcional:
ver el parámetro PRINT).
Tabla de reagrupamiento Nr.1. Estadı́sticas de resumen para las variables cuantitativas activas y las
categorı́as de variables cualitativas activas de los grupos implicados en el reagrupamiento.
Descripción de la nueva tipologı́a resultante. (Opcional: ver el parámetro LEVELS). La misma información anterior.
Resumen de la cantidad de variancia explicada por la nueva tipologı́a. La misma información
anterior. Nótese aquı́ la media de la cantidad de variancia explicada por las variables más discriminatorias
antes del reagrupamiento.
El resumen de la clasificación jerárquica ascendente se imprime después de cada reagrupamiento hasta el
número de grupos especificado por el usuario.
Tres diagramas que muestran el porcentaje de variancia explicada como una función del número de grupos
de las tipologı́as sucesivas, a su turno, para:
todas las variables,
las variables activas,
las variables que explican el 80 % de la variancia antes de llevar a cabo el reagrupamiento.
Perfiles para cada grupo de la tipologı́a. (Opcional: ver el parámetro PRINT). Estos perfiles se imprimen
y se grafican para todos los grupos de la primera tipologı́a resultante y después para los grupos obtenidos
en cada reagrupamiento.
Arbol jerárquico se produce al final.
38.4.
Dataset de salida
Se puede pedir un dataset de “variable de clasificación” para la primera tipologı́a resultante y sale en la
forma de un archivo Datos descrito por un diccionario IDAMS (ver el parámetro WRITE y el capı́tulo
“Los datos en IDAMS”). Contiene la variable de identificación de caso, las variables transferidas, la variable
de clasificación (“GROUP NUMBER”) y para cada caso, su distancia multiplicada por 1000 desde cada
categorı́a de la variable de clasificación, llamadas “variables de distancia” (“n GROUP DISTANCE”). Las
variables se numeran desde uno e incrementan de uno en uno en el orden siguiente: variable de identificación
de caso, variables transferidas, variable de clasificación y variables de distancia.
38.5.
Matriz de configuración de salida
Se puede escribir opcionalmente una matriz de configuración de salida en la forma de una matriz rectangular
de IDAMS (ver el parámetro WRITE). Ver el capı́tulo “Los datos en IDAMS” para una descripción del
formato. Esta matriz suministra, lı́nea por lı́nea, para cada variable cuantitativa y para cada categorı́a de
variables cualitativas activas, su valor medio a través de los grupos y su desviación estándar total para la
tipologı́a inicial, es decir, antes de que los reagrupamientos tengan lugar. Los elementos de la matriz se
escriben en formato 8F9.3. Se escriben registros de diccionario.
38.6.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para análisis
deben ser numéricas; pueden ser enteras o decimales. La variable identificadora de casos y las variables a ser
transferidas pueden ser alfabéticas.
296
Tipologı́a y clasificación ascendente (TYPOL)
38.7.
Matriz de configuración de entrada
La matriz de configuración de entrada debe estar en la forma de una matriz rectangular IDAMS. Ver el
capı́tulo “Los datos en IDAMS” para una descripcion del formato. La matriz es opcional y suministra una
configuración inicial para usar en los cálculos. Las estadı́sticas incluidas deberı́an ser valores medios para
las variables cuantitativas y proporciones (no porcentajes) para las categorı́as de variables cualitativas (por
ej. .180 en vez de 18.0 %). Una matriz de configuración producida por el programa en una ejecución previa
puede servir como configuración de entrada.
38.8.
Estructura del setup
$RUN TYPOL
$FILES
Especificación de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. Tı́tulo
3. Parámetros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
$MATRIX (condicional)
Matriz de configuración de entrada
Archivos:
FT02
FT09
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
38.9.
matriz de configuración de salida si se ha especificado WRITE=CONF
matriz de configuración de entrada si se ha especificado INIT=CONF
(omitir si se usa $MATRIX)
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de salida si se especifica WRITE=DATA
datos de salida si se especifica WRITE=DATA
resultados (por defecto IDAMS.LST)
Proposiciones de control del programa
Referirse al capı́tulo “El archivo Setup de IDAMS” para una descripción más detallada de las proposiciones
de control del programa, ı́tems 1-3, a continuación.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecución.
Ejemplo:
INCLUDE
V1=10-40,50
38.9 Proposiciones de control del programa
297
2. Tı́tulo (mandatorio). Una lı́nea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
PRIMERA CONSTRUCCION DE VARIABLE DE CLASIFICACION
3. Parámetros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
MDHAND=ALL AQNTV=(V12-V18) DTYPE=EUCL PRINT=(GRAP,ROWP,DIST) INIG=5 FING=3
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numéricos. Ver el capı́tulo “El archivo Setup de IDAMS”.
MAXCASES=n
Número máximo de casos (después de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
AQNTVARS=(lista de variables)
Una lista de variables que especifica las variables cuantitativas activas.
PQNTVARS=(lista de variables)
Una lista de variables que especifica las variables cuantitativas pasivas.
AQLTVARS=(lista de variables)
Una lista de variables que especifica las variables cualitativas activas.
PQLTVARS=(lista de variables)
Una lista de variables que especifica las variables cualitativas pasivas.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecución. Ver
el capı́tulo “El archivo Setup de IDAMS”.
MDHANDLING=ALL/QUALITATIVE/QUANTITATIVE
ALL
Se saltan los casos con datos faltantes en variables cuantitativas y se excluyen del
análisis los códigos de datos faltantes en variables cualitativas.
QUAL
Se excluyen del análisis los valores de datos faltantes en las variables cualitativas.
QUAN
Se saltan los casos con datos faltantes en las variables cuantitativas.
REDUCE
Estandarización de variables activas, cuantitativas y cualitativas.
WEIGHT=número de variable
Número de la variable de ponderación, si se van a ponderar los datos.
DTYPE=CITY/EUCLIDEAN/CHI
CITY
Distancia en cuadra urbana (“city block”).
EUCL
Distancia euclideana.
CHI
Distancia de Ji-cuadrada.
Nota: con referencia a la selección del tipo de distancia, se recomienda usar:
la distancia en cuadra urbana cuando algunas variables activas son cualitativas y otras son
cuantitativas,
298
Tipologı́a y clasificación ascendente (TYPOL)
la distancia euclideana cuando las variables activas son todas cuantitativas (con estandarización
cuando no se hayan medido todas con la misma escala),
la distancia de Ji-cuadrada cuando las variables activas son todas cualitativas.
INIGROUP=n
Número de grupos iniciales. Si una variable clave va a servir como base para la tipologı́a y si el
número de grupos iniciales especificado aquı́ es mayor que el valor máximo de la variable clave,
el programa corrige ésto automáticamente. También, si hay ciertas categorı́as con cero casos, el
número de grupos iniciales será el número de categorias no vacı́as que tengan casos.
Sin valor por defecto.
FINGROUP=1/n
Número de grupos finales.
INITIAL=STEPWISE/RANDOM/KEY/INCONF
La manera como la configuración inicial es establecida.
STEP
Muestra por pasos.
RAND
Muestra aleatoria.
KEY
El perfil de los grupos iniciales es creado de acuerdo con una variable clave.
INCO
Se da un perfil “a priori” de grupos iniciales en un archivo de configuración de entrada.
Nota: las variables incluidas en la configuración de entrada deben corresponder exactamente a las variables suministradas con los parámetros AQNTV y/o AQLTV.
STEP=5/n
Si se ha solicitado muestra de casos por pasos (INIT=STEP), n es la longitud del paso.
NCASES=n
Si se ha solicitado la muestra aleatoria de casos (INIT=RAND), n es el número de casos (sin
ponderar) en el archivo de entrada, o una buena estimación siempre que no exceda el número de
casos.
Sin valor por defecto; debe especificarse si INIT=RAND.
KEY=número de variable
Si se ha usado una variable clave para construir grupos iniciales (INIT=KEY), éste es el número
de la variable clave.
Sin valor por defecto; debe especificarse si INIT=KEY.
ITERATIONS=5/n
Número máximo de iteraciones para convergencia del perfil de grupo.
REGROUP=DISPLACEMENT/DISTANCE
DISP
El reagrupamiento se basa en el desplazamiento mı́nimo.
DIST
El reagrupamiento se basa en la distancia mı́nima.
WRITE=(DATA, CONFIG)
DATA
Crear un dataset IDAMS que contenga la variable identificadora de casos, las variables
transferidas, la variable de clasificación y las variables de distancia.
CONF
Bajar la matriz de configuración a un archivo.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
IDVAR=número de variable
La variable a ser transferida al dataset de salida para identificar los casos.
Obligatorio si WRITE=DATA se ha especificado.
38.10 Restricciones
299
TRANSVARS=(lista de variables)
Variables adicionales (hasta 99) para ser transferidas al dataset de salida.
LEVELS=(n1, n2, ...)
Imprimir la descripción de la tipologı́a resultante para el número de grupos especificado.
Por defecto: se imprime la descripción después de cada reagrupamiento.
PRINT=(CDICT/DICT, OUTCDICT/OUTDICT, INITIAL, TABLES, GRAPHIC, ROWPCT,
DISTANCES)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTC
Imprimir el diccionario de salida con registros C si los hay.
OUTD
Imprimir el diccionario de salida sin registros C.
INIT
Imprimir la historia de la construcción de la tipologı́a inicial.
TABL
Imprimir dos tablas con clasificación de distancias.
GRAP
Imprimir el gráfico de los perfiles.
ROWP
Imprimir porcentajes de fila para categorı́as de variables cualitativas.
DIST
Imprimir tabla de distancias y desplazamientos para cada reagrupamiento.
38.10.
Restricciones
1. El número máximo de grupos iniciales es 30.
2. El número máximo total de variables es 500, incluidas variable de ponderación, variable clave, variables
a ser transferidas, variables de análisis (variables cuantitativas + número de categorı́as para variables
cualitativas) y variables usadas temporalmente en proposiciones de Recode.
3. Si la variable de identificación o una variable a ser transferida es alfabética con ancho > 4, sólo se usan
los primeros cuatro caracteres.
4. No se pueden usar variables R como variable identificadora o como variables a ser transferidas.
38.11.
Ejemplos
Ejemplo 1. Creación de una variable de clasificación al reunir 5 variables cuantitativas y 4 variables cualitativas con uso de distancia en cuadra urbana; se establecerá una configuración inicial mediante selección
aleatoria de casos; la clasificación comienza con 6 grupos y termina con 3; el reagrupamiento se basa en la
distancia mı́nima; los datos faltantes se excluyen del análisis.
$RUN TYPOL
$FILES
PRINT = TYPOL1.LST
DICTIN = A.DIC
archivo Diccionario de entrada
DATAIN = A.DAT
archivo Datos de entrada
$SETUP
BUSCA NUMERO DE CATEGORIAS EN UNA VARIABLE DE CLASIFICACION
AQNTV=(V114,V116,V118,V120,V122) AQLTV=(V5-V7,V36) REDU INIG=6 FING=3 INIT=RAND NCAS=1200 REGR=DIST PRINT=(GRAP,ROWP,DIST)
Ejemplo 2. Generación de una variable de clasificación a partir del Ejemplo 1 con 4 categorı́as; la variable
se va escribir en un archivo; las variables V18 y V34 se usan como cuantitativas pasivas y las variables V12
y V14 como cualitativas pasivas.
300
Tipologı́a y clasificación ascendente (TYPOL)
$RUN TYPOL
$FILES
PRINT
= TYPOL2.LST
DICTIN = A.DIC
archivo Diccionario de entrada
DATAIN = A.DAT
archivo Datos de entrada
DICTOUT = CLAS.DIC
archivo Diccionario de salida
DATAOUT = CLAS.DAT
archivo Datos de salida
$SETUP
GENERACION DE UNA VARIABLE DE CLASIFICACION
AQNTV=(V114,V116,V118,V120,V122) AQLTV=(V5-V7,V36) REDU PQNTV=(V18,V34) PQLTV=(V12,V14) INIG=6 FING=4 INIT=RAND NCAS=1200 REGR=DIST PRINT=(GRAP,ROWP) WRITE=DATA IDVAR=V1
Parte V
Análisis interactivo de datos
Capı́tulo 39
Tablas multidimensionales y su
presentación gráfica
39.1.
Visión general
El componente interactivo “Tablas multidimensionales” de WinIDAMS le permite visualizar y personalizar
tablas multidimensionales con frecuencias, porcentajes de fila, de columna y totales, estadı́sticas univariadas
(suma, conteo, media, máximo, mı́nimo, variancia, desviación estándar) de variables adicionales y estadı́sticas
bivariadas. Las variables de fila y/o columna se pueden colocar al mismo nivel o bien se pueden anidar hasta
siete variables en filas y columnas. Se puede repetir la construcción de una tabla para cada valor de hasta
tres variables de “página”. También se pueden imprimir o exportar cada página de la tabla en formato libre
(con coma o carácter de tabulación como delimitadores) o en formato HTML.
Los datasets de IDAMS usados como entrada deben tener el mismo nombre para los archivos Diccionario y
Datos con extensiones .dic y .dat respectivamente.
Sólo se puede usar un dataset por vez, es decir, si se abre un otro dataset, entonces se cierra automáticamente
el dataset que está en uso.
39.2.
Preparación del análisis
Selección de los datos. Hay un dataset disponible para construir tablas multidimensionales hasta que se
cambie al activar nuevamente el componente “Tablas multidimensionales”. El diálogo le permite escoger un
archivo de datos, bien sea de una lista de archivos usados recientemente (Recientes) o de cualquier carpeta
(Existentes). Por defecto se usa la carpeta Datos de la aplicación actual. Si se asigna “Archivos Datos (*.dat)”
a “Archivos de tipo:” sólo se muestran archivos Datos de IDAMS.
Selección de variables. Al seleccionar un dataset para análisis, se llama al cuadro de diálogo para definición
de la tabla. Se presenta una lista de las variables disponibles y se presentan cuatro ventanas para especificar
variables con diferentes propósitos. Use las técnicas arrastrar y colocar para mover las variables entre y/o
dentro de las ventanas requeridas.
Variables de página se usan para construir páginas separadas de la tabla para cada valor distinto de la
variable a la vez y para todos los casos juntos (página Total). Los casos incluidos en una página en
particular tienen todos el mismo valor en la variable de página. Las variables de página nunca se anidan.
El orden en el cual se especifican las variables determina el orden en el cual se colocan las páginas.
Variables de fila son aquellas cuyos valores se usan para definir filas de la tabla. Su orden determina la
secuencia de uso de anidamiento.
Variables de columna son aquellas cuyos valores se usan para definir columnas de la tabla. Su orden
determina la secuencia de uso de anidamiento.
304
Tablas multidimensionales y su presentación gráfica
Variables de celda son aquellas cuyos valores se usan para calcular las estadı́sticas univariades (por ej. la
media) en las celdas de la tabla. El orden en el cual se especifican determina su orden de aparición en
la tabla. Puede haber hasta 10 variables de celda.
Anidamiento. Si se especifica más de una variable de fila y/o columna, se anidan por defecto. Para usarlas
en forma secuencial, en el mismo nivel, haga doble clic en la variable de la fila o columna de la lista de
variables y marque la opción de tratamiento en el mismo nivel. Nota: esta opción no está disponible para la
primera variable de una lista.
Porcentajes. Se pueden obtener porcentajes en cada celda (de fila, de columna y totales) haciendo doble
clic sobre la última variable de fila anidada en la ventana de definición de tabla escogiendo los tipos de
porcentajes requeridos.
Estadı́sticas univariadas. Se pueden obtener diferentes estadı́sticas (suma, conteo, media, máximo, mı́nimo, variancia, desviación estándar) para cada variable de celda haciendo doble clic sobre la variable en la
ventana de definición de tabla y marcando la estadı́stica o estadı́sticas requeridas. Las fórmulas para calcular media, variancia y desviación estándar se pueden encontrar en la sección “Estadı́sticas univariadas” del
capı́tulo “Tablas univariadas y bivariadas”. Sin embargo, deben ajustarse ya que los casos no se ponderan.
Tratamiento de datos faltantes. El tratamiento de datos faltantes por defecto se aplica a la primera
construcción de tabla. Después, se puede cambiar con el menú Cambiar.
La opción Valores de datos faltantes se usa para indicar cuales valores de datos faltantes, si los hay, se
usarán para verificar datos faltantes en los valores de las variables de fila y columna.
Ambos
Los valores de las variables se verificarán contra los códigos MD1 y los rangos de los códigos
definidos por MD2.
MD1
Los valores de las variables se verificarán contra los códigos MD1 solamente.
MD2
Los valores de las variables se verificarán contra los rangos de los códigos definidos por MD2
solamente.
Ninguno
No se usarán códigos MD. Se consideran válidos todos los valores de los datos.
Por defecto, se usan ambos códigos MD.
La opción Manejo de datos faltantes se usa para indicar cuales valores de datos faltantes deben excluirse
de los cálculos de porcentajes y estadı́sticas bivariadas.
Todos
Elimine todos los valores de datos faltantes.
Fila
Elimine los valores de datos faltantes para las variables de fila.
39.3 Ventana de tablas multidimensionales
Columna
Ninguno
305
Elimine los valores de datos faltantes para las variables de columna.
No elimine valores de datos faltantes.
Por defecto, se eliminan todos los valores de datos faltantes.
Nota: los casos con datos falantes en variables de celda siempre se excluyen de los cálculos de estadı́sticas
univariadas. Esta exclusión se hace por celda, separadamente para cada variable. De esta manera, el número
de casos válidos puede no ser igual a la frecuencia de la celda. La estadı́stica “conteo” muestra el número de
casos válidos.
Cambiar la definición de la tabla. El comando Especificación de menú Cambiar llama al cuadro de
diálogo con la definición de la tabla actual. Puede cambiar variables para análisis, su anidamiento ası́ como
pedir porcentajes y estadı́sticas univariadas. Hacer clic en OK reemplaza la tabla actual por una nueva.
39.3.
Ventana de tablas multidimensionales
Después de seleccionar las variables y hacer clic en OK, aparece la ventana de Tablas multidimensionales
en la ventana de documento de WinIDAMS. Por defecto, se muestran las frecuencias y las medias de todas
las variables de celda. Si se especifican las variables de página, se muestran los nombres de códigos de estas
variables en el tabulador en la parte inferior de la tabla. Se puede acceder a una página en particular con un
clic en su nombre (o su código).
Cambiar la presentación de la página. Se puede cambiar separadamente la presentación de cada página,
los cambios se aplican exclusivamente a la página activa.
Son posibles las siguientes modificaciones:
Aumentar el tamaño de la fuente - use el comando Aumentar de menú Ver o el botón Aumentar de la
barra de herramientas.
Disminuir el tamaño de la fuente - use el comando Reducir de menú Ver o el botón Reducir de la barra
de herramientas.
Restaurar el tamaño de la fuente por defecto - use el comando 100 % de menú Ver o el botón 100 % de
la barra de herramientas.
306
Tablas multidimensionales y su presentación gráfica
Aumentar/Disminuir el ancho de columna - coloque el cursor del ratón sobre la lı́nea que separa dos
columnas en el encabezado de columna hasta que el cursor se haya convertido en una barra vertical
con dos flechas y muévalo a derecha/izquierda teniendo apretado el botón izquierdo del ratón.
Minimizar el ancho de columnas - marque la columna o columnas requeridas y use el comando Cambiar
tamaño de columnas de menú Formato.
Aumentar/Disminuir el alto de fila - coloque el cursor del ratón sobre la lı́nea que separa dos filas en
el encabezado de fila hasta que el cursor se haya convertido en una barra horizontal con dos flechas y
muévalo arriba/abajo teniendo apretado el botón izquierdo del ratón.
Minimizar el alto de filas - marque la fila o filas requeridas y use el comando Cambiar tamaño de filas
de menú Formato.
Ocultar columnas/filas - reduzca el ancho/alto de la columna/fila a cero. Para mostrar nuevamente
una columna/fila ocultada, coloque el cursor sobre la lı́nea donde está ocultada hasta que aquel se
convierta en una barra vertical/horizontal con dos flechas y haga doble clic en el botón izquierdo del
ratón.
Adicionalmente, el comando Formato/Estilo permite el acceso a un número de posibilidades de formato de
tablas tales como: selección de fuentes, tamaño de fuentes, colores, etc. para la celda activa o para todas las
celdas de una lı́nea activa.
Estadı́sticas bivariadas.
Se calculan estadı́sticas bivariadas para cada tabla o cada página (Ji-cuadrada,
coeficiente fi, coeficiente de contingencia, V de Cramer, Taus, Gammas, Lambdas, y D de Sormer). Use el
comando Estadı́sticas de menú Mostrar para mostrar las estadı́sticas al final de la tabla. Esta operación
debe repetirse separadamente para cada página si es necesario. Las fórmulas para calcular las estadı́sticas
bivariadas se pueden encontrar en la sección “Estadı́sticas bivariadas” del capı́tulo “ Tablas univariadas y
bivariadas”.
Nótese que las estadı́sticas se calculan solamente cuando hay una variable de fila y una variable de columna.
Imprimir una página de tabla. Se puede imprimir todo el contenido o solamente partes deseadas de una
página activa de tabla con el comando Imprimir de menú Archivo. Si quiere imprimir solamente algunas
columnas y/o filas, oculte primero las otras filas/columnas. Se imprimen las columnas y filas mostradas.
Exportar una página de tabla. Se puede exportar en formato libro (delimitadas con comma o carácter de
tabulación) o en formato HTML, todo el contenido o solamente partes deseadas de una página activa de tabla.
Use el comando Exportar de menú Archivo y escoja el formato deseado. Si quiere exportar solamente algunas
columnas y/o filas, oculte primero las otras filas/columnas. Se exportan las columnas y filas mostradas.
39.4.
Presentación gráfica de tablas univariadas y bivariadas
Las frecuencias mostradas en una página de tablas univariadas o bivariadas se pueden presentar gráficamente
con uno de los 24 estilos de gráficos que están a su disposición. Se inicia la construcción del gráfico con el
comando Crear de menú Gráfico. Este comando llama al cuadro de diálogo para escoger el estilo de gráfico
para la página activa. Adicionalmente, puede pedir el uso de transformación logarı́tmica de frecuencias y dar
una leyenda para los colores y los sı́mbolos usados en el gráfico.
Los gráficos proyectados no se pueden manipular. Sin embargo, se pueden guardar en uno de los dos formatos,
a saber: formato JPEG de intercambio de archivos (.jpg) o formato Bitmap de Windows (.bmp) con los
comandos relevantes en el menu de Archivo. Tambien se pueden copiar en el portapapeles (el comando
Copiar de menú Edición, el botón Copiar de la barra de herramientas o teclas Ctrl/C) y pasar a cualquier
editor de texto.
Nótese aquı́ otra vez, que se usan para esta presentación, sólo las frecuencias de las filas y columnas mostradas,
es decir, no de las filas y columnas que están ocultas.
39.5 Cómo hacer una tabla multidimensional
39.5.
307
Cómo hacer una tabla multidimensional
Usaremos el dataset “rucm” (“rucm.dic” es el archivo Diccionario y “rucm.dat” es el archivo Datos) que es
en la carpeta Datos por defecto y el cual está instalado con WinIDAMS.
Construiremos una tabla de tres entradas con dos variables de fila anidadas (“SCIENTIFIC DEGREE” y
“SEX”), una variable de columna (“CM POSITION IN UNIT”) y una variable de celda (“AGE”) para la
cual pediremos la media, el máximo y el mı́nimo.
Haga clic en Interactivo/Tablas multidimensionales. Este comando abre un diálogo para escoger un
archivo Datos de IDAMS.
Haga clic en rucm.dic y Abrir. Se ve ahora un diálogo para especificar las variables que desea usar en
la tabla multidimensional.
308
Tablas multidimensionales y su presentación gráfica
Escoja las variables “SCIENTIFIC DEGREE” y “SEX” como VARIABLES DE FILA, “CM POSITION IN UNIT” como VARIABLE DE COLUMNA y “AGE” como VARIABLE DE CELDA.
Con el ratón, arrastre y coloque las variables (oprima el botón izquierdo del ratón sobre la variable que
desea mover, mantenga oprimido el botón mientras mueva la variable y suéltela en la lista de variables
a donde quiere llevarla). Se pueden escoger y mover varias variables simultáneamente de una lista a
otra (oprima la tecla Ctrl cuando seleccione).
El orden de las variables en las listas VARIABLES DE FILA y VARIABLES DE COLUMNA especifica
implı́citamente el orden de anidamiento. La primera variable de la lista será la de más afuera. El orden
de las variables en una lista se puede modificar arrastrando y colocando las variables en la misma lista.
Después de escoger las variables, puede cambiar las opciones por defecto, haciendo doble clic sobre la
variable. Un doble clic sobre la variable “AGE” en la lista VARIABLES DE CELDA abre el diálogo
siguiente:
La media aparece marcada por defecto. Marque Máx y Mı́n. Ahora haga clic sobre OK aquı́ y sobre
OK en el diálogo de definición de tabla multidimensional.
39.6 Cómo cambiar una tabla multidimensional
39.6.
309
Cómo cambiar una tabla multidimensional
Solicitar tablas separadas. Suponga que desea ver una tabla separada para hombres y mujeres.
Haga clic sobre Cambiar/Especificación y obtiene nuevamente el diálogo con la selección previa de
variables.
Coja y mueva con el ratón la variable “SEX” de la lista VARIABLES DE FILA a la lista VARIABLES
DE PAGINA y haga clic sobre OK.
Se observa a primera vista que es total para todos los valores juntos (hombres y mujeres). En la parte
inferior de la vista se ven tres etiquetas “Total”, “MALE”,“FEMALE”. “Total” es la etiqueta de la
vista actual.
310
Tablas multidimensionales y su presentación gráfica
Para ver la página de los hombres, haga clic en la etiqueta “MALE”
Para ver la página de las mujeres, haga clic en la etiqueta “FEMALE”
39.6 Cómo cambiar una tabla multidimensional
311
Solicitar porcentajes. Ası́ como las frecuencias se muestran por defecto, los porcentajes deben pedirse
explı́citamente.
Haga clic sobre Cambiar/Especificación y obtiene nuevamente el diálogo de la selección previa de
variables.
Haga doble clic en la variable de fila “SCIENTIFIC DEGREE” y ve un diálogo con casillas para
marcar frecuencia (marcada por defecto), % Fila, % Columna, y % Total. Marque todas las casillas de
porcentajes ası́:
Haga clic sobre OK para aceptar el cambio y haga clic sobre OK en el diálogo de definición de tablas
multidimensonales. Ve la tabla multidimensional previa con todos los porcentajes.
312
Tablas multidimensionales y su presentación gráfica
Capı́tulo 40
Exploración gráfica de datos
40.1.
Visión general
GraphID es un componente de WinIDAMS para la exploración interactiva de los datos a través de una
visualización gráfica. Acepta dos clases de entrada:
datasets de IDAMS en los cuales los archivos Diccionario y Datos tienen el mismo nombre con extensiones .dic y .dat respectivamente,
archivos Matriz de IDAMS cuya extensión debe ser .mat.
Sólo se puede usar un dataset o una matriz cada vez, es decir, la apertura de un otro archivo, cierra
automáticamente el que se está usando.
40.2.
Preparación del análisis
Selección de datos. Para seleccionar datos, use el comando Abrir de menú Archivo o haga clic en el botón
Abrir de la barra de herramientas. A continuación, en el cuadro de diálogo de Abrir, escoja su archivo. La
asignación de “Archivos Datos (*.dat)” o “Archivos Matriz (*.mat)” a “Archivos de tipo:” permite filtrar
los archivos mostrados.
Selección de identificación de caso. Si ha escogido un dataset, se le pide especificar una identificación de
caso la cual puede ser una variable o el número secuencial del caso. Se puede escoger una variable numérica
o alfabética de una lista desplegable.
Selección de variables. Si ha escogido un dataset, se le pide especificar las variables que quiera analizar.
Las variables numéricas se pueden escoger de la “Lista de origen” de posibles variables y moverlas al área de
“Vars seleccionadas”. Mover las variables entre las listas se puede hacer con clic en los botones >, < (mover
sólo las variables resaltadas), >>, << (mover todas las variables). Nótese que las variables alfabéticas no
están disponibles aquı́ y la variable identificadora del caso no debe escogerse para análisis.
Tratamiento de datos faltantes. Se proponen dos posibilidades: (1) en la eliminación por casos, se usa
un caso en análisis solamente si tiene datos válidos en todas las variables escogidas; (2) en la eliminación
por pares, se usa un caso si tiene datos válidos en ambas variables de cada par de variables separadamente.
40.3.
Ventana principal de GraphID para análisis de un dataset
Después de hacer la selección de variables para el análisis y de un clic en OK, la ventana principal de GraphID
muestra la matriz inicial de gráficos de dispersión con tres variables y propiedades por defecto de la matriz.
Este gráfico se puede manipular con varias opciones y comandos en menús y/o con los ı́conos equivalentes
de la barra de herramientas.
314
40.3.1.
Exploración gráfica de datos
Barra de menú y barra de herramientas
Archivo
Abrir
Llama al cuadro de diálogo para escoger un nuevo dataset/matriz para análisis.
Cerrar
Guardar como
Cierra todas las ventanas del análisis actual.
Llama al cuadro de diálogo para guardar la imagen gráfica de la ventana
activa en formato Bitmap (*.bmp) de Windows.
Guardar casos enmascarados
Guarda para utilización ulterior, el número secuencial de casos enmascarados en la sesión actual, la numeración sigue la secuencia de casos en el
archivo Datos analizado.
Imprimir
Llama al cuadro de diálogo para imprimir el contenido de la ventana activa.
Vista preliminar
Configurar impresora
Salir
Muestra una visión previa de la impresión de la imagen gráfica de la ventana
activa.
Llama al cuadro de diálogo para modificar las opciones de la impresión y de
la impresora.
Termina la sesión de GraphID.
El menú también puede contener la lista de los archivos abiertos recientemente, es decir, archivos usados en
sesiones previas de GraphID.
Edición
El menú sólo tiene un comando, Copiar, para copiar la imagen gráfica de la ventana activa al portapapeles.
Ver
Configuración
Llama al cuadro de diálogo para escoger sı́mbolos, colores, variables y número
de columnas y filas visibles en la matriz.
Escalas
Barra de herramientas
Muestra/oculta las escalas del gráfico en la ventana de aumento activa.
Muestra/oculta la barra de herramientas.
Barra de estado
Muestra/oculta la barra de estado.
40.3 Ventana principal de GraphID para análisis de un dataset
Info
Info de celda
Apariencia del pincel
Fuente para escalas
Fuente para nombres
Colores básicos
315
Muestra una ventana con información relevante acerca del dataset: número
de casos, número de variables, nombre del archivo Datos, etc.
Muestra una ventana con información relevante del gráfico activo: nombres
de variables, sus medias, desviaciones estándar, coeficientes de correlación y
regresión.
Llama al cuatro de diálogo para escoger el sı́mbolo y color de los casos dentro
del rectángulo del pincel.
Llama al cuadro de diálogo para escoger la fuente de escalas de la ventana
de aumento activa.
Guardar colores
Llama al cuadro de diálogo para escoger la fuente de los nombres de variables.
Llama al cuadro de diálogo para escoger colores de la ventana activa: color
de margen, color de cuadrı́cula y color de fondo de la celda diagonal.
Guarda la modificación de colores.
Guardar fuentes
Guarda la modificación de fuentes.
Herramientas
En este menú puede hallar herramientas para manipular la matriz de gráficos de dispersión y para llamar
otros gráficos suministrados por GraphID.
Pincel
Activa/cancela el modo pincel.
Aumento
Agrupación
Aumenta el gráfico activo o el contenido del pincel a toda la ventana.
Llama al cuadro de diálogo para especificar la creación de grupos.
Cancelar agrupación
Histogramas
Cancela el agrupación.
Llama al cuadro de diálogo para especificar gráficos para mostrar en la celdas
de la diagonal y sus propiedades.
Llama al cuadro de diálogo para especificar tipos de lı́neas de regresión
(lı́neas suavizadas) y sus propiedades.
Lı́neas suavizadas
Gráficos de 3D
Llama al cuadro de diálogo para seleccionar variables para usar como ejes
para la dispersión 3D y rotación.
Modo dirigido
Activa/cancela modo dirigido.
Diagramas de caja y bigotes Llama al cuadro de diálogo para seleccionar variables y colores para
mostrar diagramas de caja y bigotes.
Titilado
Hace titilar los casos proyectados.
Enmascaramiento
Enmascara los casos dentro del rectángulo del pincel.
Desenmascaramiento
Restaure paso por paso los casos enmascarados.
Hacer enmascaramiento guardado
Enmascara los casos enmascarados y guardados en la sesión previa.
Gráfico agrupado
Llama al cuadro de diálogo para seleccionar variables de fila y de columna
de una tabla de dos dimensiones, y las variables X e Y para proyección de
sus gráficos en las celdas de la tabla.
Ventana
El menú contiene la lista de ventanas abiertas y de comandos de Windows para organizarlos.
Ayuda
Manual de WinIDAMS
Acerca de GraphID
Da acceso al Manual de Referencia de WinIDAMS.
Muestra información de la versión y el copyright de GraphID y un vı́nculo
para acceder a la página web de IDAMS en la sede principal de UNESCO.
316
Exploración gráfica de datos
Íconos de la barra de herramientas
Hay 21 botones en la barra de herramientas que dan acceso directo a los mismos comandos/opciones como
en los correspondientes menús. Se escriben a continuación tal como aparecen de derecha a izquierda.
Abrir
Guardar
Copiar
Imprimir
Colores básicos
Fuente para nombres
Fuente para ecalas
Pincel
Aumento
Agrupación
Histogramas
40.3.2.
Lı́neas suavizadas
Diagramas de 3D
Modo dirigido
Diagramas de caja y bigotes
Cancelar titilado
Disminuir el nivel de titilado
Aumentar el nivel de titilado
Enmascarar los casos dentro del rectángulo del pincel
Restaure paso por paso los casos enmascarados
Información acerca de la versión de GraphID
Manipulación de la matriz de gráficos de dispersión
Configuración de la matriz de gráficos de dispersión. La matriz actual de gráficos de dispersión se
puede cambiar con el comando Configuración de menú Ver.
Visible: Aquı́ se puede definir el número de columnas y filas para mostrar en la pantalla (no necesitan ser
iguales). Se pueden ver otras celdas desplazando la pantalla.
Variables: El cuadro de diálogo tiene dos listas de variables: “Lista de origen” y “Vars seleccionadas”. Se
pueden mover las variables de una lista a otra haciendo clic en los botones >, < (mover sólo variables
resaltadas), >>, << (mover todas las variables).
Sı́mbolos: En este cuadro de diálogo, puede seleccionar la forma y el color de los sı́mbolos que se van a
usar para representar cada grupo de casos en los gráficos. Si no se especifican grupos, entonces todos
los casos caen por defecto en un solo grupo y todos se representan con el mismo signo (por defecto
es un rectángulo negro pequeño). Uno puede asignar un sı́mbolo a un grupo o bien colapsar grupos
asignando el mismo sı́mbolo a dos o más grupos.
La lista de grupos se suministra en el cuadro de la izquierda. Los otros dos cuadros, son cuadros de
selección de sı́mbolos y colores. Para seleccionar un color o un sı́mbolo, simplemente haga clic sobre él.
Aparece inmediatamente la imagen del sı́mbolo en el botón al lado del nombre del grupo resaltado.
Modo dirigido. Esta opción es útil cuando el orden de los casos en algunas variables de columna tiene
sentido, por ej. cuando los valores de una variable de columna indican intervalos de tiempo. Enlazando las
imágenes de manera secuencial con lı́neas rectas, puede ayudar, por ejemplo, a buscar patrones cı́clicos.
Para cambiar a gráficos dirigidos o regresar a gráficos de dispersión, pulse el botón Modo dirigido de la barra
de herramientas o use el comando Modo dirigido de menú Herramientas.
Enmascaramiento y desenmascaramiento de casos. Puede enmascarar casos proyectados en los gráficos
de dispersión. Este aspecto puede ser útil, por ejemplo, para retirar del gráfico los casos extraviados.
Enmascarar está disponible cuando el pincel está activo.
Para enmascarar casos incluidos en el rectángulo del pincel, haga clic en el botón Enmascarar de la barra de
herramientas. Los casos enmascarados se ocultan en todos los gráficos de dispersión. El enmascaramiento de
casos se puede repetir varias veces.
Todos o una parte de los casos enmascarados se puede desenmascarar haciendo clic en el botón Restaurar
de la barra de herramientas.
Guardar y utilizar de nuevo casos enmascarados. Se puede guardar el número secuencial de casos
enmascarados en la sesión actual en el archivo correspondiente al dataset analizado con el comando Archivo/Guardar casos enmascarados. Estos casos se pueden enmascarar de nuevo en la(s) sesión(es) siguiente(s)
con el comando Herramientas/Hacer enmascaramiento guardado.
40.3 Ventana principal de GraphID para análisis de un dataset
317
Agrupación de casos. Esta opción permite ver cómo una variable reúne los casos en grupos en todos
los gráficos. La variable puede ser cualitativa o cuantitativa. Además de seleccionar la variable para crear
grupos, el usuario controla la forma de hacerlo (por valores o por intervalos y el número de grupos).
El cuadro de diálogo para crear grupos se activa haciendo clic en el botón Agrupación de la barra de
herramientas o con el comando Agrupación de menú Herramientas.
Exploración con el pincel. El pincel es un rectángulo que se puede mover, aumentar y cuyo tamaño se
puede redefinir. Mientras se mueve sobre el gráfico de dispersión, los casos dentro del pincel se resaltan en
el color y forma del pincel en todos los otros gráficos de dispersión.
Una de las aplicaciones es determinar si una aglomeración de casos representa verdaderamente un cúmulo en
un gráfico de dispersión en el espacio multidimensional o si es simplemente una propiedad de la proyección.
Para este propósito, coloque el pincel sobre una aglomeración en un gráfico de dispersión y observe cómo
estos casos se ubican en los otros gráficos. Si la misma aglomeración aparece en los otros gráficos entonces
puede tratarse de un cúmulo real. Desde luego, los gráficos de dispersión deben escogerse de forma que las
distancias entre casos sean del mismo orden en los diferentes gráficos.
Otra aplicación del pincel es estudiar las distribuciones condicionales. Si las 4 esquinas del pincel se dan
como xmin , xmax , ymin , ymax , entonces los casos dentro del pincel son los que satisfacen las condiciones:
xmin < x < xmax
and ymin < y < ymax
y los casos que satisfacen estas condiciones se pueden estudiar en los otros gráficos.
También puede usar Pincel para enmascarar y buscar casos.
Para entrar o cancelar el modo Pincel, haga clic en el botón Pincel de la barra de herramientas o use el
comando Pincel de menú Herramientas.
Para colocar el pincel en el área deseada, ubique el cursor en el borde, pulse el botón izquierdo del ratón,
arrastre y suelte en el otro borde.
Para mover o cambiar el tamaño del pincel, coloque el cursor dentro del rectángulo del pincel o en el lado
del mismo, pulse el botón izquierdo y arrastre. Nota: para mover rápidamente el pincel a otra celda, coloque
el cursor en la celda deseada y pulse el botón izquierdo del ratón.
Aumento. Crea una nueva ventana para agrandar la celda deseada o, en modo Pincel, agrandar el pincel.
Esta nueva ventana aumentada tiene la mayorı́a de las propiedades de una matriz de gráficos de dispersión
con una celda, por ejemplo, puede usar el pincel para identificar un nuevo conjunto de casos y luego agrandar
nuevamente.
Si la matriz madre de los gráficos de dispersión está en modo Pincel, la modificación del pincel se refleja
inmediatamente en la ventana agrandada; de lo contrario, la ventana agrandada refleja las modificaciones
introducidas en la celda escogida en la matriz madre.
El comando Escalas de menú Ver le permite mostrar las escalas de valores de variable para la ventana activa
agrandada.
Titilado. Esta función es útil cuando hay variables discretas o cualitativas en los datos analizados. En este
caso, es posible que las matrices usuales de los gráficos de dispersión no suministren suficiente información ya
que una parte o todas las proyecciones 2D y 3D presenta cuadrı́culas en 2D o 3D y por lo tanto es imposible
determinar visualmente cuantos casos coinciden en la misma posición de la cuadrı́cula y a cuales grupos
pertenecen.
El titileo es una transformación aleatoria de los datos. Los valores de los datos (x ) se modifican adicionando
un “ruido” (a*U ) donde U es un valor aleatorio uniformemente distribuido del intervalo (-0.5, 0.5) y a es
una factor para controlar el nivel del titilado.
Para establecer el nivel deseado de titilado, use los botones Disminuir el nivel de titilado, Aumentar el nivel
de titilado y Cancelar titilado de la barra de herramientas.
Nótese que el titileo sólo se puede obtener en la ventana de la matriz de gráficos de dispersión.
318
Exploración gráfica de datos
40.3.3.
Histogramas y densidades
Se pueden mostrar histogramas, densidades normales, gráficos de puntos y tres estadı́sticas univariadas en
las celdas diagonales de la matriz de gráficos de dispersión.
Para obtenerlos, haga clic en el botón Histogramas de la barra de herramientas o use el comando Histogramas
de menú Herramientas. En el cuadro de diálogo presentado puede seleccionar los gráficos deseados, el color
y el número de barras de histogramas. Con la opción Estadı́sticas, se suministran las siguientes estadı́sticas:
Asimetrı́a (Skew), Kurtosis (Kurt) y Desviación estándar (Std).
40.3.4.
Lı́neas de regresión (Lı́neas suavizadas)
Se pueden mostrar hasta 4 diferentes lı́neas de regresión en cada gráfico de dispersión:
Regresión lineal MLE - Maximum Likelihood Estimation (regresión lineal usual)
Regresión lineal local
Media local
Mediana local
40.3 Ventana principal de GraphID para análisis de un dataset
319
Nótese que estas son lı́neas de regresión de Y contra X, donde las variables X y Y se proyectan respectivamente
en los ejes horizontal y vertical.
Para obtener las lı́neas, haga clic en el botón Lı́neas suavizadas o use el comando Lı́neas suavizadas de
menú Herramientas. Luego, en el cuadro de diálogo escoja las lı́neas deseadas, el color y el valor del parámetro
de suavización.
El parámetro de suavización es el número de “vecinos” (casos vecinos) y esta igual 7 por defecto. No puede
exceder n/2 donde n es el número de casos.
40.3.5.
Diagramas de caja y bigotes
Este es un aspecto especialmente útil si los casos se han fraccionado en grupos (ver “Agrupación de casos”
más atrás).
Use el comando Diagrama de caja y bigotes de menú Herramientas o haga clic en el botón Diagrama de caja
y bigotes para obtener un cuadro de diálogo que especifica el número de filas y columnas visibles ası́ como
los colores para la ventana de las diagramas de caja y bigotes.
Para cada variable escogida, se muestra un rectángulo dentro del cual se encuentran de cajas, cada caja
corresponde a un grupo de casos. La base de la caja se puede obtener proporcional al número de casos en
el grupo y las fronteras superior e inferior muestran los cuartiles superior e inferior respectivamente. Los
extremos superior e inferior de las lı́neas verticales (bigotes) que emergen de la caja corresponden a los
valores máximo y mı́nimo de la variable en el grupo. Las lı́neas dentro de la caja son la media (lı́nea verde)
y la mediana (lı́nea punteada azul) de la variable en el grupo. La parte izquierda del rectángulo muestra la
escala de la variable y el margen inferior del rectángulo muestra los números de grupo.
Puede cambiar los colores y las fuentes de los gráficos con los botones apropiados de la barra de herramientas.
Se puede registrar estos cambios como nuevos valores por defecto para las siguientes sesiones y ventanas.
El botón Colores permite cambiar los colores de:
Cajas
Fondo
Extensiones
Lı́nea de mediana
Lı́nea de media
Márgenes
Los botones Fuentes permiten cambiar las fuentes a escalas y nombres de variables.
320
Exploración gráfica de datos
Se puede agrandar cualquier celda de un diagrama de caja y bigotes. Escoja la celda deseada y haga clic en
el botón Aumento de la barra de herramientas.
40.3.6.
Gráfico agrupado
Permite la proyección de un gráfico de dispersión de dos dimensiones dentro de las celdas de una tabla de
dos dimensiones, y ası́ un análisis en cuatro dimensiones.
Use el comando Herramientas/Gráfico agrupado para obtener una ventana de diálogo en la cual se especifican
variables de fila y de columna para la construcción de la tabla, y las variables X y Y para los gráficos de
dispersión.
También se pide escoger la forma de calcular el número de filas y de columnas. Hay dos posibilidades: pueden
ser iguales al número de valores diferentes de variable o al número de intervalos especificados por el usuario.
Los intervalos calculados son del mismo tamaño.
40.3.7.
Diagramas de dispersión tridimensionales y su rotación
Para obtener un diagrama de dispersión tridimensional, haga clic en el botón Diagramas de 3D de la barra
de herramientas o use el comando Diagramas de 3D de menú Herramientas. El cuadro de diálogo le permite
escoger tres variables para proyectarlas en los ejes OX, OY y OZ. Después de OK, se obtiene una nueva
ventana con un diagrama de dispersión tridimensional de las variables escogidas. Si la ventana de la matriz
madre está en modo pincel, los casos encerrados en el rectángulo del pincel también se resaltan en el color
y forma del pincel en este diagrama.
Puede usar los elementos de control del cuadro de diálogo en el panel izquierdo de la ventana para cambiar
la imagen gráfica y rotarla.
El botón en la esquina superior izquierda se puede usar para regresar el gráfico a la posición inicial.
El botón en la esquina superior derecha se puede usar para colocar el centro de la nube de puntos: en el
centro de gravedad o en cero.
Los botones en el grupo Rotar se usan para mover el diagrama de dispersión alrededor de los ejes correspondientes y los del grupo Esparcir se usan para mover puntos desde y hacia el centro.
El grupo Nombres permite mostrar u ocultar nombres de variables en los ejes correspondientes.
40.4 Ventana de GraphID para análisis de una matriz
321
Finalmente, el diagrama de dispersión 3D se puede proyectar como tres diagramas de dispersión 2D al
solicitar la vista 2D.
40.4.
Ventana de GraphID para análisis de una matriz
Una vez escogido el archivo de matrices, puede hacer clic en Abrir o hacer doble clic sobre el nombre del
archivo para mostrar un histograma 3D con una barra para cada celda de la primera matriz. La altura
de la barra representa el valor de la estadı́stica, con la escala construida usando su rango, es decir, h =
(sval − smin )/(smax − smin ). Por defecto, los valores negativos se muestran en azul y los positivos en rojo.
Puede escoger colores para nombres y escalas, valores negativos y positivos, paredes, piso y fondo. Use la
misma técnica de los diagramas de caja y bigotes.
En la parte derecha de la ventana se le presenta una lista de matrices incluida en el archivo. Nótese que sólo
se muestran los primeros 16 caracteres de la descripción del contenido de la matriz. Si no hay descripción,
GraphID muestra “Untitled n”. Puede traer la matriz a la pantalla haciendo clic sobre la descripción del
contenido.
La matriz en pantalla se puede manipular con las opciones y comandos en los elementos de la barra de
menú y con los ı́conos equivalentes de la barra de herramientas.
40.4.1.
Barra de menú y barra de herramientas
Archivo y Edición
Se suministran los mismos comandos de los correspondientes menús en el análisis de datasets, excepto Cerrar.
322
Exploración gráfica de datos
Ver
Barra de herramientas
Muestra/oculta la barra de herramientas.
Barra de estado
Muestra/oculta la barra de estado.
Colores
Fuente para escalas
Llama al cuadro de diálogo para seleccionar los colores de la ventana activa:
nombres de fila/columna y escalas, valores negativos y positivos, paredes,
piso y fondo.
Llama al cuadro de diálogo para escoger la fuente para las escalas.
Fuente para nombres
Llama al cuadro de diálogo para escoger la fuente para los nombres.
Ventana y Ayuda
Están disponibles los mismos comandos de los correspondientes menús en el análisis de datasets.
Íconos de la barra de herramientas
Hay botones disponibles en la barra de herramientas que suministran acceso directo a los mismos comandos/opciones que en los correspondientes menús. Se listan aquı́ tal como aparecen de izquierda a derecha.
Abrir
Guardar
Copiar
Imprimir
Colores
Fuente para nombres
Fuente para escalas
Información acerca de la versión de GraphID.
40.4.2.
Manipulación de la matriz en pantalla
Similar a la manipulación de los gráficos de dispersión 3D, puede usar los elementos de control del cuadro de
diálogo en el panel izquierdo de la ventana para cambiar la imagen gráfica y para rotar la matriz en pantalla.
El botón superior se puede usar para devolver el gráfico a la posición inicial.
El botón Colores le permite cambiar los colores de:
Barra (valores positivos)
Pared
Barra (valores negativos)
Piso
Fondo
Nombres y escala.
Las casillas del grupo Ocultar/Mostrar le permite mostrar u ocultar paredes, escala, nombres en los ejes
correspondientes y la diagonal, si aplica.
Los botones en el grupo Rotar se pueden usar para mover la matriz alrededor del eje vertical.
Los botones en los grupos Columnas y Filas se pueden usar para cambiar el tamaño de columnas y filas
respectivamente.
Los botones en el grupo Centrar le permiten mover el gráfico a la izquierda, derecha, arriba y abajo.
Capı́tulo 41
Análisis de series de tiempo
41.1.
Visión general
TimeSID es un componente de WinIDAMS para análisis de series de tiempo. Usa datasets de IDAMS
como entrada cuyos archivos Diccionario y Datos deben tener el mismo nombre con extensiones .dic y .dat
respectivamente.
Sólo se puede usar un dataset a la vez, es decir que al abrir un otro dataset automáticamente se cierra el
que se está usando.
41.2.
Preparación del análisis
Selección de datos. Para seleccionar un dataset, use el comando Abrir de menú Archivo o haga clic en el
botón Abrir de la barra de herramientas. A continuación, en el cuadro de diálogo de Abrir, escoja su archivo.
Al asignar “Archivos Datos (*.dat)” a “Archivos de tipo:” se muestran solo archivos Datos de IDAMS.
Selección de series. También se pide especificar las series (variables) que quiere analizar. Las variables
numéricas se pueden escoger de la lista “Series accesibles” de posibles variables y mover al área “Seleccionadas”. Mover las variables entre las listas se puede hacer con clic en los botones >, < (mover sólo las
variables resaltadas), >>, << (mover todas las variables). Nótese que aquı́ no hay variables alfabéticas.
Tratamiento de datos faltantes. Los valores “datos faltantes” se excluyen de las transformaciones de
series; se excluyen también del cálculo de estadı́sticas y auto-correlaciones. En todos los otros análisis, los
valores de datos faltantes se reemplazan por el promedio general.
41.3.
Ventana principal de TimeSID
Después de seleccionar las series y de un clic en OK, la ventana principal de TimeSID muestra el gráfico
de la primer serie de la lista de series seleccionadas. Las series se pueden manipular y analizar con varias
opciones y comandos en menús y/o con los ı́conos equivalentes de la barra de herramientas.
324
41.3.1.
Análisis de series de tiempo
Barra de menú y barra de herramientas
Archivo
Abrir
Llama al cuadro de diálogo para escoger un nuevo dataset para análisis.
Cerrar
Guardar como
Cierra todas las ventanas del análisis actual.
Llama al cuadro de diálogo para guardar el contenido del panel activo o
de la ventana activa. Las imagenes gráficas se guardan en formato Bitmap
(*.bmp) de Windows. Las tablas de datos y de estadı́sticas se guardan en
formato de texto.
Imprimir
Llama al cuadro de diálogo para imprimir el contenido del panel activo o de
la ventana activa.
Vista preliminar
Muestra una visión previa de la impresión del contenido del panel activo o
de la ventana activa.
Configurar impresora
Llama al cuadro de diálogo para modificar las opciones de la impresión y de
la impresora.
Termina la sesión de TimeSID.
Salir
El menú también puede contener la lista de los archivos abiertos recientemente, es decir, archivos usados en
sesiones previas de TimeSID.
Edición
El menú sólo tiene un comando, Copiar, para copiar el contenido del panel activo o de la ventana activa al
portapapeles.
41.3 Ventana principal de TimeSID
325
Ver
Barra de herramientas
Muestra/oculta la barra de herramientas.
Barra de estado
Muestra/oculta la barra de estado.
Escala OX
Fuente para escalas
Muestra/oculta la escala OX para las series de tiempo.
Llama al cuadro de diálogo para escoger la fuente de escalas.
Colores básicos
Llama al cuadro de diálogo para escoger colores de margen y de fondo.
Ventana
Tabla de datos
Llama la ventana con la tabla de datos. Las columnas de la tabla de datos son
las series de tiempo analizadas (incluidos los resultados de transformación).
Además de Tabla de datos, el menú contiene la lista de ventanas abiertas y las opciones estándar de Windows
para organizarlas.
Ayuda
Manual de WinIDAMS
Acerca de TimeSID
Da acceso al Manual de Referencia de WinIDAMS.
Muestra información de la versión y el copyright de TimeSID y un vı́nculo
para acceder a la página web de IDAMS en la sede principal de UNESCO.
Los otros dos menús, Transformaciones y Análysis, se describen detalladamente en las secciones “Transformación de series de tiempo” y “Análisis de series de tiempo” más adelante.
Íconos de la barra de herramientas
Hay 9 botones activos en la barra de herramientas que dan acceso directo a los mismos comandos/opciones
como en los correspondientes elementos de menú. Se listan aquı́ tal como aparecen de derecha a izquierda.
Abrir
Copiar
Imprimir
Colores básicos
Fuente para escalas
Histogramas, estadı́sticas
Correlaciones auto y cruzadas
Autoregresión
Información acerca de TimeSID
326
Análisis de series de tiempo
41.3.2.
Ventana de series de tiempo
La ventana de series de tiempo se divide en tres paneles: el de la izquierda es para cambiar las propiedades
de la ventana y para seleccionar series (variables), el de la derecha arriba es para mostrar varias series de
tiempo y el de la derecha abajo es para mostrar la serie actual.
Cambiar la apariencia de la ventana. Los dos paneles para mostrar series de tiempo están sincronizados
y se pueden cambiar con los controles suministrados en el panel de la izquierda. Por defecto, el panel superior
derecho está vacı́o y su tamaño está reducido. El panel derecho inferior muestra la serie actual dejando visibles
la barra de desplazamiento y las escalas. El tamaño de cualquiero de los paneles se puede cambiar con el
ratón y la escala OX se puede ocultar/mostrar con el comando “Escala OX” de menú Ver. Más aun, la
presentación de gráficos se puede modificar de la manera siguiente:
Regulación del grado de compresión de gráficos - use los botones bajo “Compresión de OX”.
Colores para fondo y márgenes - use el botón Colores.
Fuente para escalas - use el botón Fuente para escalas.
Cambiar el nombre de la serie de tiempo. Escoja la serie de tiempo requerida, haga clic en el nombre
con el botón derecho del ratón y escoja la opción Cambiar nombre. La ventana activa presenta el nombre
para ser modificado. Nótese que estas modificaciones son temporales y se guardan solamente durante la
sesión.
Escoger la serie de tiempo para mostrarla en pantalla. En el panel izquierdo de la ventana se
suministra una lista de series de tiempo. Al hacer doble clic sobre una variable de la lista, puede escoger la
forma y el color de la lı́nea de proyección. Después de OK, se muestra el gráfico correspondiente en el panel
superior de la ventana. Esta operación se puede repetir para diferentes variables y de esta forma, puede
obtener varios gráficos mostrados simultáneamente en el panel superior de la pantalla. El panel inferior
derecho siempre muestra la serie actual.
Suprimir una serie del análisis. Escoja la serie de tiempo requerida, haga clic en el nombre con el botón
derecho del ratón y escoja la opción Suprimir serie.
41.4 Transformación de series de tiempo
41.4.
327
Transformación de series de tiempo
Los datos de series de tiempo se pueden transformar calculando diferencias, suavización, supresión de tendencias, transformación funcional, etc. El menú Transformaciones tiene comandos para crear nuevas series
de tiempo basadas en valores de series seleccionadas. Nótese que las variables mostradas están renumeradas
secuencialmente a partir de cero (0).
Promedio crea una nueva serie de tiempo como promedio de las series especificadas. Las series tomadas
para los cálculos se seleccionan en el cuadro de diálogo “Selección de series” (ver sección “Preparación
del análisis”).
Aritmética en parejas crea un conjunto de series de tiempo haciendo operaciones aritméticas en parejas
de series de tiempo especificadas en el cuadro de diálogo (cada serie especificada en la primera lista de
argumentos con el segundo argumento).
Diferencias, MA, ROC crea un conjunto se series de tiempo basado en transformaciones (diferencias
secuenciales, promedios movibles (MA) no centradas, razón de cambio (ROC)) de las series especificadas en el cuadro de diálogo. En el mismo cuadro se asignan los parámetros especificados para cada
transformación ası́ como el tipo de transformación ROC.
328
41.5.
Análisis de series de tiempo
Análisis de series de tiempo
Los aspectos del análisis se activan con comandos en el menú Análysis.
Estadı́sticas crea una tabla con la media, la desviación estándar, los valores mı́nimo y máximo para la serie
de tiempo seleccionada y una tabla con estadı́sticas para prueba de la hipótesis “aleatoriedad versus
tendencia” . También muestra un histograma para esta serie.
Correlaciones auto y cruzadas crea una nueva ventana con un conjunto de celdas que contienen gráficos
de auto-correlaciones y correlaciones cruzadas para el conjunto especificado de las series de tiempo.
Tendencia (paramétrica) crea una nueva serie de tiempo como la estimación de un modelo paramétrico
de tendencia para la serie de tiempo especificada. El modelo de tendencia y la serie se seleccionan en
un cuadro de diálogo.
Autoregresión estima los parámetros de un modelo de autoregresión de predicción a corto plazo para la
serie de tiempo especificada.
Espectro (un análisis espectral) produce una tabla de valores del espectro (frecuencia, periodo, densidad),
gráfico de estimación del espectro, y para el espectro de tipo DFT, gráfico de la desviación del espectro
acumulativo a partir del espectro acumulativo de ruido blanco. Para la estimación de densidades
espectrales, se puede utilizar el método de la transformada discreta rápida de Fourier (DFT) o el
método de la entropı́a máxima (MENT). En el procedimiento DFT se utilizan dos ventanas para
mejorar la estimación de estas densidades: la ventana de datos de Welch para el tiempo y suavizado
polinomial para la frecuencia.
Espectro cruzado analiza una pareja de series de tiempo estacionarias. Suministra las densidades coespectrales, el espectro de fase y los valores de coherencia ası́ como sus gráficos. La estimación de las
densidades co-espectrales se hace con la ventana de suavizado de Parzen.
Filtros de frecuencia es un procedimiento de descomposición de una serie de tiempo en componentes
de frecuencia. Construye una serie nueva utilizando uno de los filtros siguientes: pasa-bajos, pasaaltos, pasa-banda o parada-banda. Para un filtro pasa-bajos o pasa-altos, su banda es igual al valor
del parámetro Frecuencia. Para un filtro pasa-banda o parada-banda, las bandas de frecuencia están
41.5 Análisis de series de tiempo
329
definidas por el intervalo (Frecuencia - ancho de la ventana, Frecuencia + ancho de la ventana). Con
una opción Eliminar tendencia se puede suprimir la tendencia de la serie antes filtración (después, el
componente de tendencia se añade a los resultados de la filtración).
Referencias
Farnum, N.R., Stanton, L.W., Quantitative Forecasting Methods, PWS-KENT Publishing Company, Boston,
1989.
Kendall, M.G., Stuart, A., The Advanced Theory of Statistics, Volume 3 - Design and Analysis, and time
series, Second edition, Griffin, London, 1968.
Marple Jr, S.L., Digital Spectral Analysis with Applications, Prentice-Hall, Inc., 1987.
Parte VI
Fórmulas estadı́sticas y referencias
bibliográficas
Capı́tulo 42
Análisis de conglomerados
Notación
x
h, i, j, l
f, g
p
c
k
Nj
N
42.1.
= valores de variables
= subı́ndices para objetos
= subı́ndices para variables
= número de variables
= subı́ndice para conglomerado
= número de conglomerados
= número de objetos en conglomerado j
= número total de casos.
Estadı́sticas univariadas
Si la entrada es un dataset IDAMS, se calculan las siguientes estadı́sticas para todas las variables usadas en
el análisis:
a) Promedio.
xf =
X
xif
i
N
b) Desviación absoluta media.
sf =
42.2.
X
i
|xif − xf |
N
Medidas estandarizadas
En la misma situación, el programa puede calcular medidas estandarizadas, también llamadas puntajes z,
dados por:
zif =
xif − xf
sf
para cada caso i y cada variable f utilizando el valor promedio y la desviación absoluta media de la variable
f (ver sección 1 más atrás).
334
Análisis de conglomerados
42.3.
Matriz de disimilitudes calculada a partir de un dataset de
IDAMS
Los elementos dij de una matriz de disimilitudes miden el grado de disimilitud entre los casos i y j. Los
dij se calculan directamente a partir de los datos primarios o a partir de los puntajes z si se solicita la
estandarización de las variables. Se pueden escoger dos tipos de distancias: euclideana o en cuadra urbana
(“city block”).
a) Distancia euclideana.
v
uX
u p
dij = t (xif − xjf )2
f =1
b) Distancia en cuadra urbana (“city block”).
dij =
p
X
f =1
42.4.
|xif − xjf |
Matriz de disimilitudes calculada a partir de una matriz de
similitudes
Si la entrada es una matriz de similitudes con elementos sij , los elementos dij de la matriz de disimilitudes
se calculan ası́:
dij = 1 − sij
42.5.
Matrix de disimilitudes calculada a partir de una matriz de
correlación
Si la entrada es una matriz de correlación con elementos rij , los elementos dij de la matriz de disimilitudes
se calculan usando una de las dos fórmulas: SIGN o ABSOLUTE.
Cuando se usa la fórmula SIGN, las variables con una correlación positiva alta reciben un coeficiente de
disimilitud cercano a cero mientras que las variables con una correlación negativa fuerte se cosideran muy
disı́miles.
dij = (1 − rij )/2
Cuando se usa la fórmula ABSOLUTE, se asigna una disimilitud pequeña a las variables con alta correlación
positiva o con fuerte correlación negativa.
dij = 1 − |rij |
42.6.
Repartición alrededor de medoides (PAM)
El algoritmo busca k objetos representativos (medoides) que se encuentran centrados en los conglomerados
que ellos definen. El medoide, objeto representativo del conglomerado, es aquel objeto para el cual la disimilitud promedio con todos los objetos en el conglomerado es mı́nima. En realidad, el algoritmo PAM minimiza
la suma de disimilitudes en vez de la disimilitud promedio.
La selección de k medoides se lleva a cabo en dos fases. En la primera, se obtiene un conglomerado inicial
con la selección sucesiva de objetos representativos hasta hallar k objetos. El primer objeto es aquel para
el cual la suma de las disimilitudes con todos los otros objetos es tan pequeña como sea posible. (Es una
especie de “Mediana multivariada” de los N objetos, de allı́ el término “medoide”.) En cada paso, PAM
42.6 Repartición alrededor de medoides (PAM)
335
selecciona el objeto que hace decrecer la función objetivo (suma de disimilitudes) tanto como sea posible.
En la segunda fase, se hace un intento de mejorar el conjunto de objetos representativos. Esto se hace al
considerar todos los pares de objetos (i, h) para los cuales se ha escogido el objeto i y el objeto h no se ha
escogido, verificando si la escogencia de h y desechando i reduce la función objetivo. En cada paso, se hace
el intercambio más económico.
a) Distancia (disimilitud) promedio final. Esta es la función objetivo de PAM que puede verse como
una medida de la “bondad” del conglomerado final.
Distancia promedio final =
N
X
di,m(i)
i=1
N
donde m(i) es el objeto representativo (medoide) más cercano al objeto i.
b) Conglomerados aislados. Hay dos tipos de conglomerados aislados: conglomerados L y conglomerados L∗ .
El conglomerado C es un conglomerado L si para cada objeto i que pertenece a C
máx dij < mı́n dih
j∈C
h6∈C
El conglomerado C es un conglomerado L∗ si
máx dij < mı́n dlh
i,j∈C
l∈C,h6∈C
c) Diámetro de un conglomerado. Se define el diámetro del conglomerado C como la mayor disimilitud
entre objetos que pertenecen a C:
DiámetroC = máx dij
i,j∈C
d) Separación de un conglomerado. Se define la separación del conglomerado C como la menor disimilitud entre dos objetos, uno de los cuales pertenece a C y el otro no.
SeparaciónC = mı́n dlh
l∈C,h6∈C
e) Distancia promedio a un medoide. Si j es el medoide del conglomerado C, la distancia promedio
de todos los objetos de C a j se calcula ası́:
Distancia promedioj =
X
dij
i∈C
Nj
f ) Distancia máxima a un medoide. Si el objeto j es el medoide del conglomerado C, la distancia
máxima de todos los objetos de C a j se calcula ası́:
Distancia máximaj = máx dij
i∈C
g) Siluetas de los conglomerados. Cada conglomerado se representa con una silueta (Rousseeuw
1987), que muestra cuales objetos caen bien dentro del conglomerado y cuales simplemente tienen una
posición intermedia. Para cada objeto se suministra la siguiente información:
-
número del conglomerado al cual pertenece (CLU),
número del conglomerado vecino (NEIG),
el valor si (denotado como S(I) en el listado),
el identificador de tres caracteres del objeto i,
una lı́nea cuya longitud es proporcional a si .
336
Análisis de conglomerados
Para cada objeto i, el valor si se calcula ası́:
si =
b i − ai
máx(ai , bi )
donde ai es la disimilitud promedio del objeto i con todos los demás objetos del conglomerado A al
cual pertenece i y bi es la disimilitud promedio del objeto i con todos los objetos del conglomerado
más cercano B (vecina del objeto i). Nótese que el conglomerado vecino es como la segunda mejor
escogencia del objeto i. Cuando el conglomerado A tiene sólo un objeto i, si se coloca en cero (si = 0).
h) Ancho promedio de la silueta de un conglomerado. Es el promedio de si para todos los objetos
i de un conglomerado.
i) Ancho promedio de silueta. Es el promedio de si para todos los objetos i en los datos, es decir el
ancho promedio de silueta para k conglomerados. Se puede usar para seleccionar el “mejor” número
de conglomerados a escoger el k que produzca el promedio más grande de si .
Otro coeficiente, SC, llamado coeficiente de silueta, se puede calcular manualmente como el ancho
promedio máximo de silueta sobre todos los k para los cuales se pueden construir las siluetas. Este
coeficiente es una medida adimensional de la cantidad de estructura de conglomeración que se ha
encontrado con el algoritmo de clasificación.
SC = máx sk
k
Rousseew (1987) propuso la siguiente interpretación del coeficiente SC:
0,71 − 1,00 Se encontró una estructura fuerte.
0,51 − 0,70 Se encontró una estructura razonable.
0,26 − 0,50 La estructura es débil y podrı́a ser artificial;
debe tratar métodos adicionales con estos datos.
≤ 0,25
No hay estructura substancial.
42.7.
Repartición para grandes datasets (CLARA)
Al igual que PAM, el método CLARA también se basa en la búsqueda de k objetos representativos, pero el
algoritmo CLARA esta diseñado especialmente para analizar grandes conjuntos de datos. Consecuentemente,
la entrada a CLARA ha de ser un dataset IDAMS.
Internamente, CLARA tiene dos pasos. Primero se toma una muestra del conjunto de objetos (casos), y se
divide en k conglomerados con el mismo algoritmo de PAM. A continuación, cada objeto que no pertenezca
a la muestra se asigna al más cercano entre los k objetos representativos. La calidad de esta conglomerado
se define como la distancia promedio entre cada objeto y su objeto representativo. Después se sacan cinco
muestras, se aglomeran y se escoge la que tenga la distancia promedio más baja.
Se analiza a continuación la aglomeración retenida de todos los datos. La distancia promedio final, las
distancias promedio y máximas a cada medoide se calculan de la misma manera que en PAM (para todos
los objetos y no sólo para aquellos en la muestra escogida). También se calculan siluetas y estadı́sticas
relacionadas de la misma manera que en PAM, pero sólo para los objetos de la muestra escogida (ya que
toda la silueta serı́a muy grande para imprimir).
42.8.
Conglomeración difusa (FANNY)
La conglomeración difusa es una generalización de la repartición, que se puede aplicar al mismo tipo de
datos que el método PAM pero el algoritmo es de naturaleza diferente. En vez de asignar un objeto a
un conglomerado en particular, FANNY da su grado de pertenencia (coeficiente de pertenencia) a cada
conglomerado y ası́ suministra una información más detallada acerca de la estructura de los datos.
42.9 Conglomeración jerárquica acumulativa (AGNES)
337
a) Función objetivo. La técnica de conglomeración difusa usada en FANNY busca minimizar la función
objetivo
XX
u2ic u2jc dij
k
X i j
X
Función objetivo =
u2jc
2
c=1
j
donde uic y ujc son funciones de pertenencia que están sujetas a las restricciones
uic ≥ 0
para i = 1, 2, . . . , N ; c = 1, 2, . . . , k
X
para i = 1, 2, . . . , N
uic = 1
c
El algoritmo que minimiza esta función objetivo es iterativo y se detiene cuando la función converge.
b) Conglomeración difusa (pertenencia). Son los valores de pertenencia (coeficientes de pertenencia
uic ) que dan el valor más pequeño de la función objetivo. Indican para cada objeto i, que tan fuertemente pertenece al conglomerado c. Nótese que la suma de los coeficientes de pertenencia es igual a 1
para cada objeto.
c) Coeficiente de partición de Dunn. Este coeficiente, Fk , mide que tan “dura” es una aglomeración
difusa. Varı́a del mı́nimo de 1/k para una conglomeración completamente difusa (donde todos los
uic = 1/k) hasta 1 para una conglomeración totalmente dura (donde todos los uic = 0 o 1).
Fk =
k
N X
X
u2ic / N
i=1 c=1
d) Coeficiente de Dunn de partición normalizado. La versión normalizada del coeficiente de Dunn
siempre varı́a de 0 a 1, cualquiera que sea el valor escogido de k.
Fk0 =
Fk − (1/k)
kFk − 1
=
1 − (1/k)
k − 1
e) Conglomeración dura más cercana. Esta partición (= conglomeración “dura”) se obtiene asignando cada objeto al conglomerado en el cual tenga el más alto coeficiente de pertenencia. Se calculan
siluetas y estadı́sticas relacionadas de la misma manera que en PAM.
42.9.
Conglomeración jerárquica acumulativa (AGNES)
Este método se puede aplicar al mismo tipo de datos que los métodos PAM y FANNY. Sin embargo, no es
necesario especificar el número de conglomerados requeridos. El algoritmo construye una jerarquı́a en forma
de árbol que contiene implı́citamente todos los valores de k, comenzando por N conglomerados y siguiendo
con fusiones sucesivas hasta obtener un solo conglomerado con todos los objetos.
En el primer paso, se unen los dos objetos más cercanos (es decir, con disimilitud entre objetos más pequeña)
para formar un conglomerado de dos objetos, mientras que los demás conglomerados tienen un solo miembro.
En cada paso siguiente se fusionan los dos conglomerados más cercanos (con disimilitud entre objetos más
pequeña).
a) Disimilitud entre dos conglomerados. En el algoritmo AGNES, se usa el método del promedio del
grupo de Sokal y Michener (llamado algunas veces “método del promedio no ponderado de los grupos
pareados”) para medir las disimilitudes entre conglomerados.
Sean R y Q dos conglomerados y |R| y |Q| el número de objetos en cada uno de ellos. La disimilitud
d(R, Q) entre los conglomerados R y Q se define como el promedio de todas las disimilitudes dij donde
i es cualquier objeto de R y j es cualquier objeto de Q.
d(R, Q) =
1 XX
dij
|R| |Q|
i∈R j∈Q
338
Análisis de conglomerados
b) Ordenamiento final de objetos y disimilitudes entre ellos. En la primera lı́nea, los objetos se
imprimen en el orden en que aparecerán en la representación gráfica de los resultados. En la segunda
lı́nea se imprimen las disimilitudes entre conglomerados de unión. Nótese que el número de disimilitudes
impreso es uno menos que el número de objetos N porque hay N − 1 fusiones.
c) Bandera de disimilitudes. Es una representación gráfica de los resultados. Una bandera consiste
en tiras y estrellas. Las estrellas indican enlaces y las tiras son repeticioners de identificadores de
objetos. Una bandera se lee siempre de izquierda a derecha. Cada lı́nea con estrellas comienza en la
disimilitud de los conglomerados fusionados. Hay escalas fijas encima y debajo de la bandera que van de
0.00 (disimilitud 0) hasta 1.00 (la disimilitud más grande encontrada). La disimilitud más alta actual
(correspondiente a 1.00 en la bandera) se encuentra justamente debajo de la bandera.
d) Coeficiente aglomerativo. El ancho promedio de la bandera se llama coeficiente aglomerativo (AC).
Describe la fuerza de la estructura de aglomeración encontrada.
AC =
1X
li
N i
donde li es la longitud de la lı́nea que contiene el identificador del objeto i.
42.10.
Conglomeración jerárquica divisiva (DIANA)
El método DIANA se puede usar para el mismo tipo de datos que el método AGNES. Aunque AGNES y
DIANA producen salidas similares, DIANA construye su jerarquı́a en la dirección opuesta, comenzando con
un gran conglomerado que contiene todos los objetos. En cada paso, divide un conglomerado en dos más
pequeños, hasta que todos los conglomerados tengan un solo elemento. Esto significa que para N objetos, la
jerarquı́a se construye en N − 1 pasos.
En el primer paso, los datos se dividen en dos conglomerados haciendo uso de las disimilitudes. En cada
uno de los pasos siguientes, se divide el conglomerado con diámetro más grande (ver 6.c atrás) de la misma
manera. Después de N − 1 pasos divisorios, todos los objetos están aparte.
a) Disimilitud promedio con todos los objetos. Sea A un conglomerado y |A| el número de objetos
en él. La disimilitud promedio entre el objeto i y todos los demás objetos en el conglomerado A se
define como en 6.g atrás.
di =
X
1
dij
|A| − 1
j∈A,j6=i
b) Ordenamiento final de objetos y diámetros de conglomerados. En la primera lı́nea, se imprimen los objetos en el orden en que aparecerán en la representación gráfica. Debajo se imprimen los
diámetros de los conglomerados. Estas dos secuencias de números caracterizan juntas toda la jerarquı́a.
El diámetro más rande indica el nivel de división de todos los datos. Los objetos a la izquierda de este
valor constituyen un conglomerado y los objetos a la derecha constituyen otro. El segundo diámetro
más grande indica la segunda división, etc.
c) Bandera de disimilitudes. Igual que para el método AGNES, es una representación gráfica de los
resultados. También consiste de lı́neas con estrellas y las tiras que repiten los identificadores de objetos.
La bandera se lee de izquierda a derecha pero las escalas fijas encima y debajo ahora van de 1.00
(correspondiente al diámetro de todo el archivo de datos) a 0.00 (correspondiente al diámetros de las
clases con un solo elemento). Cada lı́nea con estrellas termina en el diámetro en el que el conglomerado
se divide. El diámetro actual de los datos (correspondiente a 1.00 en la bandera) se suministra debajo
de la bandera.
d) Coeficiente divisorio. El ancho promedio de la bandera se llama coeficiente divisorio (DC). Describe
la fuerza de aglomeración de la estructura encontrada.
DC =
1X
li
N i
donde li , es la longitud de la lı́nea que contiene el identificador del objeto i.
42.11 Conglomeración monotética (MONA)
42.11.
339
Conglomeración monotética (MONA)
El método MONA está orientado a datos que consisten exclusivamente de variables binarias (dicótomas,
que toman sólo dos valores, de manera que xif = 0 o xif = 1). Aunque el algoritmo es del tipo jerárquico
divisorio, no usa disimilitudes entre objetos y por lo tanto no se calcula una matriz de disimilitudes. La
división en conglomerados utiliza directamente las variables.
En cada paso, una de las variables (digamos, f ) se usa para dividir los datos mediante la separación de objetos
i para los cuales xif = 1 de aquellos en los que xif = 0. En el paso siguiente, cada conglomerado obtenido
en el paso anterior se divide aun más, usando valores (0 y 1) de una de las variables restantes (se pueden
usar variables diferentes en conglomerados diferentes). El proceso continúa hasta que cada conglomerado
contenga un objeto o bién, las variables restantes no puedan dividirlo.
Para cada división, se escoge la variable más fuertemente asociada con las otras variables.
a) Asociación entre dos variables. La medida de asociación entre dos variables f y g se define ası́:
Af g = |af g df g − bf g cf g |
donde af g es el número de objetos i con xif = xig = 0, df g es el número de objetos con xif = xig = 1,
bf g es el número de objetos con xif = 0 y xig = 1, y cf g es el número de objetos con xif = 1 y xig = 0.
La medida Af g expresa si las variables f y g dan divisiones similares del conjunto de objetos y se puede
considerer como una clase de similitud entre variables.
Para seleccionar la variable más fuertemente asociada con las otras variables, se calcula la medida total
Af para cada variable ası́:
Af =
X
Af g
g6=f
b) Orden final de objetos. Los objetos se imprimen en el orden en que aparecen en el gráfico de
separación. Los pasos de separación y las variables usadas para la separación se imprimen debajo de
los identificadores de objetos.
c) Gráfico de separción (bandera). Esta representación gráfica es muy similar a la bandera que
produce DIANA. La longitud de una fila de estrellas ahora es proporcional al número del paso en
el cual se hizo la separación. Las filas de identificadores de objetos corresponden a objetos. Una fila
de identificadores que continúa a la derecha de la bandera, señala un objeto que se convirtió en un
conglomerado con un solo elemento en el paso correspondiente. Las filas de identificadores graficadas
entre dos filas de estrellas indican objetos que pertenecen a un conglomerado que no se pudo separar.
42.12.
Referencias
Kaufman, L., and Rousseeuw, P.J., Finding Groups in Data: An Introduction to Cluster Analysis, John
Wiley & Sons, Inc., New York, 1990.
Rousseeuw, P.J., Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis,
Journal of Computational and Applied Mathematics, 20, 1987.
Capı́tulo 43
Análisis de configuración
Notación
Sea A(n,t) una matriz rectangular de n variables (filas) y t dimensiones (columnas). Una variable o punto a
tiene t coordenadas, cada una correspondiente a una dimensión.
ais
i, j
= elemento de la matriz A localizado en la iésima fila
y la sésima columna
= subı́ndices para variables (filas)
n = número de variables
s, l, m = subı́ndices para dimensiones (columnas)
t
43.1.
= número de dimensiones.
Configuratión centrada
Las variables se centran en cada dimensión restando la media de cada columna de cada elemento en la
columna.
X
ais
ais centrada = ais −
i
n
Después de haber efectuado los cálculos con ésta formula, la media de las coordenadas de las n variables es
cero para cada dimensión.
43.2.
Configuratión normalizada
La suma de cuadrados de todos los elementos de la matriz A dividida por el número de variables n, calcula
la media del segundo momento de las variables. Cada elemento de la matriz queda normalizada por la raı́z
cuadrada del este valor (ver el denominador abajo).
ais
ais normalizada = sX X
a2is /n
i
s
Después del esta normalización, la suma de cuadrados de los elementos ais es igual a n.
342
Análisis de configuración
43.3.
Solución en ejes principales
Se rota la configuración de forma que dimensiones sucesivas suministran la máxima variancia posible. Sea A
la configuración a rotar y B la configuración en la forma de ejes principales.
Cálculo de la matriz B:
La matriz simétrica A0 A de dimensión (t, t) es calculada en primer lugar. Después los vectores propios, T ,
de A0 A se determinan con el método de diagonalización de Jacobi.
La matriz A está transformada en la matriz B con elementos bis , tal que B = A T , B tiene n lı́neas y t
columnas de la misma forma que la matriz A.
43.4.
Matriz de productos escalares
SPij =
X
ais ajs
s
La matriz SP es una matriz cuadrada y simétrica de dimensión (n, n) de productos escalares de variables. El
producto escalar de una variable con ella misma, es su segundo momento. Si cada variable ha sido centrada
y normalizada, (media igual a cero y desviación estándar igual a la unidad), la matriz SP se convierte en
una matriz de correlaciones.
43.5.
Matriz de distancias entre puntos
DISTij =
s
X
s
(ais − ajs )2
DIST es una matriz cuadrada y simétrica de distancias euclideanas entre variables.
43.6.
Configuración rotada
La rotación puede ser llevada a cabo de dos en dos dimensiones cada vez. Corresponde al usuario seleccionar
las dimensiones, por eg. 2 y 5 (columna 2 y columna 5) y el ángulo φ de la rotación en grados.
Las nuevas coordenadas se calculan como sigue:
a0il
a0im
= ail cos φ + aim sin φ
= −ail sin φ + aim cos φ
El cálculo se lleva a cabo para cada valor de i, y tantas veces como haya variables.
En la matriz A, las columnas l y m, se transforman en los vectores de las nuevas coordenadas que han sido
calculadas como se indicó arriba.
43.7.
Configuración transladada
La traslación puede ser llevada a cabo en una sola dimensión (una columna) cada vez. El usuario especifica
la constante T a ser adicionada a cada elemento de la dimensión, y la columna l a la que se aplica.
Para todas las coordenadas de l (n coordenadas ya que hay n variables):
a0il = ail + T
43.8 Rotación varimax
43.8.
343
Rotación varimax
(a) Los elementos ais de A están normalizados por la raı́z cuadrada de las comunalidades correspondientes
a cada variable y definimos
ais
bis = rX
a2is
s
(b) Después de construir B = (bis ), uno buscará el mejor eje de proyección para las variables, una vez se
haya igualado su inercia. La maximización de la función Vc se lleva a cabo, a través de rotaciones sucesivas,
de dos en dos dimensiones cada vez, hasta que se alcanza la convergencia.
X 2
X
bis
b4is −
n
X
i
i
Vc =
n2
s
La matriz resultante B con elementos bis , tiene el mismo número de filas y columnas que la matriz inicial A.
43.9.
Configuración clasificada
Es la configuración final impresa en formato diferente. Cada dimensión se imprime ahora como una fila, con
los elementos en orden ascendente.
43.10.
Referencias
Greenstadt, J., The determination of the characteristic roots of a matrix by the Jacobi method, Mathematical
Methods for Digital Computers, eds. A. Ralston and H.S. Wilf, Wiley, New York, 1960.
Herman, H.H., Modern Factor Analysis, University of Chicago Press, Chicago, 1967.
Kaiser, H.F., Computer program for varimax rotation in factor analysis, Educational and Psychological
Measurement, 3, 1959.
Capı́tulo 44
Análisis discriminatorio
Notación
x =
k =
i, j
g
=
=
valores de variables
subı́ndice para el caso
subı́ndices para variables
superı́ndice para el grupo
q =
p =
subı́ndice para el paso
número de variables
w
=
valor del peso
xgk
yqg
=
=
vector de los elementos p correspondientes al caso k en el grupo g
vector con los valores de la media de las variables seleccionadas
g
=
en el paso q para el grupo g
número de casos en el grupo g
Wg
Iq
=
=
suma total de los pesos para el grupo g
subconjunto de ı́ndices para las variables seleccionadas en el paso q.
N
44.1.
Estadı́sticas univariadas
Estas estadı́sticas, ponderadas si ası́ se han especificado, se calculan para cada grupo y para cada variable
de análisis, usando la muestra básica. Se calcula la también la media para toda la muestra básica (media
total).
a) Media.
g
xgi =
N
X
wkg xgki
k=1
Wg
Nota: la media total se calcula con la fórmula analoga.
b) Desviación estándar.
sgi =
v
u Ng
uX
2
u
wg (xg )
u
t k=1 k ki
Wg
2
− (xgi )
346
Análisis discriminatorio
44.2.
Discriminación lineal entre 2 grupos
El procedimiento se basa en la función discriminatoria lineal de Fisher y la matriz de covariancia total
se usa para calcular los coeficientes de esta función. La clasificación de los casos se hace con los valores
de esta función y no con las distancias. El criterio aplicado para escoger la siguiente variable es la D2 de
Mahalanobis (distancia de Mahalanobis entre dos grupos). Después de cada paso, el programa produce la
función discriminatoria, la tabla de clasificación y el porcentaje de casos clasificados correctamente para la
muestra básica y para la muestra de prueba.
a) Función discriminatoria lineal. Denominemos la función discriminatoria calculada en el paso q
como
fq (x) =
X
bqi xi + aq
i∈Iq
Los coeficientes bqi de esta función para las variables i incluidas en el paso q corresponden a los
elementos del único vector propio de la matriz
(yq1 − yq2 )0 Tq−1
y el término constante se calcula asi:
1
aq = − (yq1 − yq2 )0 Tq−1 (yq1 + yq2 )
2
donde Tq es la matriz de covariancia total (calculada para casos extraidos de ambos grupos) de las
variables incluidas en el paso q, con los elementos
tij =
X
k
wk (xki − xi )(xkj − xj )
W1 + W2
b) Tabla de clasificación para la muestra básica.
Se asigna un caso:
al grupo 1 si fq (x) > 0 ,
al grupo 2 si fq (x) < 0 .
No se asigna un caso si fq (x) = 0 .
Porcentaje de casos correctamente clasificados se calcula como el cociente entre el número
de casos en la diagonal y el número total de casos en la tabla de clasificación.
c) Tabla de clasificación para la muestra de prueba.
Se construye de la misma manera que la tabla para la muestra básica (ver 2.b más atrás).
d) Criterio de selección de la siguiente variable. Para este propósito se usa la distancia de Mahalanobis entre los dos grupos. La variable escogida en el paso q es la que maximiza el valor de Dq2 .
Dq2 = (yq1 − yq2 )0 Tq−1 (yq1 − yq2 )
e) Asignación y valor de la función discriminatoria lineal para los casos. Se calculan y se
imprimen para el último paso o cuando éste precede a un decrecimiento del porcentaje de casos clasificados correctamente. El valor de la función se calcula de acuerdo con la fórmula descrita anteriormente
en el punto 2.a; en el cálculo se usan las variables retenidas en el paso. La asignación de casos a los
grupos se hace según lo descrito el punto 2.b anteriormente.
Se usan las mismas reglas de asignación y la misma formula para la muestra básica, las medias de
grupos, la muestra de prueba y la muestra anónima.
44.3 Discriminación lineal entre más de 2 grupos
44.3.
347
Discriminación lineal entre más de 2 grupos
El procedimiento de discriminación de 3 o más grupos no solamente utiliza la matriz de covariancia total
sino también la matriz de covariancia entre grupos. El criterio para escoger la siguiente variable a usar
aquı́ es la huella del producto de estas dos matrices (generalización de la distancia de Mahalanobis para dos
grupos). Después de escoger la nueva variable a entrar, se ejecuta el análisis factorial discriminatorio lineal y
el programa produce el poder discriminatorio total y el poder discriminatorio para los tres primeros factores.
Los casos se clasifican de acuerdo con las distancias a los centros de los grupos. En cada paso, el programa
calcula e imprime la tabla de clasificación y el porcentaje de casos clasificados correctamente para la muestra
básica y para la muestra de prueba.
a) Tabla de clasificación para la muestra básica. La distancia de un caso x al centro del grupo g
en el paso q se define como la función lineal
vyqg (x) = (yqg )0 Tq−1 (yqg − 2x)
donde Tq , como se describio en 2.a anteriormente, es la matriz de covariancia total (calculada para los
casos extraidos de todos los grupos) para las variables incluidas en el paso q, con los elementos
tij =
X
k
wk (xki − xi )(xkj − xj )
W
Un caso se asigna al grupo para el cual vyqg (x) tenga el valor más pequeño (la distancia más pequeña).
Porcentaje de casos correctamente clasificados se calcula como el cociente entre el número
de casos en la diagonal y el número total de casos en la tabla de clasificación.
b) Tabla de clasificación para la muestra de prueba.
Se construye de la misma manera que para la muestra básica (ver 3.a más atrás).
c) Criterio de selección de la siguiente variable. La variable escogida en el paso q es aquella que
maximiza el valor de la huella de la matriz Tq−1 Bq , donde Tq es la matriz de covariancia total usada
en el paso q (ver 3.a más atrás), y Bq es la matriz de covariancias entre grupos, con elementos
bij =
X
g
W g (yig − xi )(yjg − xj )
W
La siguiente parte del análisis (puntos 3.d - 3.h a continuación) se lleva a cabo en una de las siguientes
tres circunstancias:
cuando el paso precede a un decrecimiento del porcentaje de casos clasificados correctamente,
cuando el porcentaje de casos clasificados correctamente es igual a 100,
cuando es el ultimo paso.
d) Asignación y distancias de los casos en la muestra básica. Las distancias a cada grupo se
calculan como se describió en el punto 3.a anteriormente; las variables usadas en los cálculos son
aquellas retenidas en el paso. La asignación de casos a los grupos se lleva a cabo como se describió en
el punto 3.a anteriormente.
e) Análisis factorial discriminatorio. Se analiza la matriz Tq−1 Bq descrita en 3.c más atrás. Los
dos primeros vectores propios correspondientes a los dos valores propios más grandes de esta matriz
son los dos ejes factoriales discriminatorios. El poder discriminatorio de los factores se mide con los
correspondientes valores propios. Como el programa suministra el poder discriminatorio para los tres
primeros factores, la suma de los valores propios permite estimar el nivel de los valores propios restantes,
es decir, de aquellos que no se imprimen.
f ) Valores de factores discriminatorios para todos los casos y medias de grupos.
Para un caso, el valor del factor discriminatorio se calcula como el producto escalar del vector del
caso que contenga las variables retenidas en dicho paso con el vector propio correspondiente al factor.
348
Análisis discriminatorio
Notese que estos valores no se imprimen sino que se utilizan en una representación gráfica de los casos
en el espacio de los dos primeros factores.
Para una media de grupo, se calcula el valor del factor discriminatorio de la misma manera, reemplazando el vector del caso por el vector de media de grupo.
g) Asignación y distancias de los casos en la muestra de prueba. Las distancias a cada grupo se
calculan de la misma manera y la asignación de casos a los grupos se hace siguiendo las mismas reglas
que para la muestra básica (ver 3.d más atrás).
h) Asignación y distancias de los casos en la muestra anónima. Las distancias a cada grupo se
calculan de la misma manera y la asignación de casos a los grupos se hace siguiendo las mismas reglas
que para la muestra básica (ver 3.d más atrás).
44.4.
Referencias
Romeder, J.M., Méthodes et programmes d’analyse discriminante, Dunod, Paris, 1973.
Capı́tulo 45
Funciones de distribución y de Lorenz
Notación
pi
i
= valor del iésimo punto de separación
= subı́ndice para el punto de separación
s
N
= número de subintervalos
= número total de casos.
45.1.
Formula para los puntos de separación
El número de puntos de separación es inferior en una unidad al número solicitado de subintervalos, por ej.
la mediana implica dos subintervalos y un punto de separación.
pi = V (α) + β [V (α + 1) − V (α)]
donde V es un vector ordenado de datos, por ej. V (3) es el tercer componente en el vector,
i(N + 1)
α = entero
s
β=
i(N + 1)
−α
s
y entero(x) es el mayor entero que no exceda x.
45.2.
Puntos de separación de la función de distribución
Hay cuatro posibilidades:
Si un punto de separación es idénticamente igual a un valor y éste no está atado a ningún otro valor,
entonces el valor mismo es el punto de separación.
Si un punto de separación se presenta entre dos valores y los dos valores no son iguales, entonces el
punto de separación se determina utilizando la interpolación lineal ordinaria.
Si un punto de separación es idénticamente igual a un valor y dicho valor está atado a uno o más
valores, entonces el procedimiento involucra el cálculo de nuevos puntos medios. Sea k el valor, m
la frecuencia con la que ocurre y d la distancia mı́nima entre los items en el vector V. El intervalo
k ± mı́n(d, 1)/2 se divide en m partes y los puntos medios son calculados para éstos nuevos intervalos.
El punto de separación adecuado es el punto medio.
Si un punto de separación se presenta entre dos valores que son idénticos, el procedimiento involucra
el cálculo de nuevos puntos medios e interpolación lineal ordinaria. Sea k el valor, m la frecuencia con
350
Funciones de distribución y de Lorenz
la que el ocurre y d la distancia mı́nima entre los items en el vector V. El intervalo k ± mı́n(d, 1)/2
se divide en m partes y los puntos medios son calculados para éstos nuevos intervalos. Entonces la
interpolación lineal se lleva a cabo entre dos nuevos puntos medios adecuados.
45.3.
Puntos de separación de la función de Lorenz
Para determinar los puntos de separación en la función de Lorenz, los componentes del vector ordenado de
datos se suman y en cada paso el total acumulado se divide por el total general. Los puntos de separación
se calculan de la misma forma que se describe arriba.
45.4.
Curva de Lorenz
La función de Lorenz trazada contra la proporción de la población ordenada, da la curva de Lorenz que
siempre está contenida en el triángulo inferior del cuadrado unitario. El programa QUANTILE utiliza diez
subintervalos para generar la curva de Lorenz.
Note que los valores de la función de Lorenz son llamados “Fracción de riqueza” en la impresión efectuada
por la computadora.
45.5.
El coeficiente de Gini
El coeficiente de Gini, representa el doble del área entre la función de Lorenz y la diagonal trazada en el
cuadrado unitario. Toma valores entre cero y uno. Cero (0) indica “igualdad perfecta” - todos los valores de
los datos son iguales. La unidad (1) indica “desigualdad perfecta” - hay un valor diferente de cero.
El programa utiliza una aproximación:
s−1
Coeficiente de Gini = 1 −
1 2X
li
−
s s i=1
donde li es el iésimo punto de separación de la función de Lorenz.
Esta aproximación es más precisa cuando el número de puntos de separación aumenta; se recomienda que al
menos diez sean utilizados.
45.6.
Estadı́stica D de Kolmogorov-Smirnov
La prueba de Kolmogorov-Smirnov trata la similitud entre dos funciones acumulativas. Si dos distribuciones
acumulativas para dos muestras están muy separadas en cualquier punto, ésto sugiere que las muestras
provienen de poblaciones diferentes. La prueba se enfoca sobre la mayor diferencia entre las dos distribuciones.
Sean V1 y V2 los vectores ordenados para la primera y la segunda variable respectivamente, y X el vector de
códigos que aparecen en cualquiera de las dos distribuciones. El programa crea las dos funciones acumulativas
F1 (x) y F2 (x) respectivamente. Entonces busca la diferencia absoluta mayor entre las distribuciones,
D = máx(|F1 (x) − F2 (x)|)
e imprime:
x : el primer valor para la mayor diferencia en valor absoluto
f1
f2
: el valor de F1 asociado con x
: el valor de F2 asociado con x.
Si las N para V1 y V2 son iguales e inferiores a 40, el programa imprime la estadı́stica K igual a la diferencia
en frecuencias asociada a la mayor diferencia. Una tabla de valores crı́ticos de la estadı́stica K, denotada
45.7 Nota sobre los pesos
351
como KD , puede ser consultada para determinar la significación de la diferencia observada.
Si las N para V1 y V2 no son iguales o superiores a 40, el programa imprime las estadı́sticas siguientes:
Desviación no ajustada = D = |f1 − f2 |
r
N1 N2
Desviación ajustada = D
N1 + N2
donde N1 y N2 son iguales al número de casos en V1 y V2 respectivamente.
Ji-cuadrada aproximada = 4D2
N1 N2
N1 + N2
Nota: la significación de la desviación direccional máxima puede ser encontrada cuando se compara este valor
de Ji-cuadrada a una distribución Ji-cuadrada con dos grados de libertad.
45.7.
Nota sobre los pesos
Para los puntos de separación de la función de distribución, los puntos de separación de la función de Lorenz
y los coeficientes de Gini, los datos pueden ser ponderados con un entero. Si un peso es especificado, cada
caso se cuenta implı́citamente como “w” casos, donde “w” es el valor del peso para el caso correspondiente.
La prueba de Kolmogorov-Smirnov es siempre calculada para datos no ponderados.
Capı́tulo 46
Análisis factorial
Notación
x =
i =
valores de variables
subı́ndice para el caso
j, j 0 =
α =
subı́ndices para variables
subı́ndice para el factor
m =
I1 =
número de factores determinados/deseados
número de casos activos
J1 =
número de variables activas
w
W
valor del peso
suma total de los pesos para casos activos.
46.1.
=
=
Estadı́sticas univariadas
Estas estadı́sticas se calculan para todas las variables usadas en el análisis, es decir, variables activas y
variables pasivas, si las hay. Nótese que las variables se numeran nuevamente a partir de 1 (columna RNK).
Sólo los casos activos entran a los calculos.
a) Media.
xj =
I1
X
wi xij
i=1
W
b) Variancia (estimada).
N
N −1
2
sbj =
!" W
I1
X
i=1
wi x2ij −
I1
X
W2
c) Desviación estándar (estimada).
q
sbj = sbj 2
d) Coeficiente de variación (C. Var.).
Cj =
sbj
xj
i=1
wi xij
2
#
354
Análisis factorial
e) Total (suma de xj ).
I1
X
T otalj =
wi xij
i=1
f ) Asimetrı́a.
g1j =
g) Kurtosis.
g2j =
m3j
q
sb2j
sb2j
m4j
−3
(b
s2j )2
donde
m3j =
donde
I1
X
i=1
m4j =
wi (xij − xj )3
I1
X
i=1
W
wi (xij − xj )4
W
h) N ponderada. Número de casos activos si no se especifica ponderación, o número ponderado de casos
activos (suma de ponderaciones).
46.2.
Datos de entrada
Se imprimen los datos tanto para casos activos como para casos pasivos.
La primera columna de la tabla contiene los valores de la variable identificadora del caso (hasta 4 digitos). La
segunda columna (Coef) contiene el valor de la ponderación asignada a cada caso (wi ). La tercera columna
(PI) es igual a la suma ponderada de los valores de las variables activas para cada caso (totales ponderados
de fila).
Pi· =
J1
X
wi xij
j=1
La primera lı́nea contiene los primeros 4 caracteres del nombre de cada variable. La segunda lı́nea (PJ) es
igual a la suma ponderada de los valores de los casos activos para cada variable (totales ponderados de
columna).
P·j =
I1
X
wi xij
i=1
Nótese que el valor de “Coef” al comienzo de esta lı́nea es igual al número ponderado de casos activos y el
valor de “PI” es igual al total general (P ) de las variables activas para los casos activos.
P =
I1
X
i=1
Pi· =
J1
X
j=1
P·j =
I1 X
J1
X
wi xij
i=1 j=1
El resto de la tabla de entrada de datos contiene los valores (con una cifra decimal) de las variables activas
y pasivas.
46.3.
Matrices núcleo (matrices de relaciones)
Para cada tipo de análisis se calula y se imprime una matriz núcleo. Esta es una matriz de relaciones entre
variables. Nótese que para los listados los valores en la matriz están multiplicados por un factor cuyo valor
se imprime junto al tı́tulo de la matriz. Este factor es cero cuando algunos valores de la matriz exceden 5
caracteres (puede ser el caso de productos escalares o de matrices de covariancia).
46.4 Huella
355
Para el analisis de correspondencias, los elementos Cjj 0 de la matriz núcleo se calculan ası́:
C
jj 0
I1
X
1
(wi xij ) (wi xij 0 )
= p p
Pi·
P·j P·j 0 i=1
Para el analisis de productos escalares, los elementos SPjj 0 de la matriz núcleo se calculan ası́:
SPjj 0 =
I1
X
wi xij xij 0
i=1
Para el analisis de productos escalares normados, los elementos N SPjj 0 de la matriz núcleo se
calculan ası́:
I1
X
wi xij xij 0
i=1
N SPjj 0 = v
u I1
I1
X
u X
t
2
wi x2ij 0
wi xij
i=1
i=1
Para el analisis de covariancias, los elementos COVjj 0 de la matriz núcleo se calculan ası́:
COVjj 0 =
I1
X
i=1
wi (xij − xj ) (xij 0 − xj 0 )
W
Para el analisis de correlaciones, los elementos CORjj 0 de la matriz núcleo se calculan ası́:
I1
X
i=1
wi (xij − xj ) (xij 0 − xj 0 )
CORjj 0 = v
u I1
I1
uX
X
t
wi (xij − xj )2
wi (xij 0 − xj 0 )2
i=1
46.4.
i=1
Huella
La huella de la matriz núcleo se calcula como la suma de sus elementos en la diagonal. La huella también
es igual al total de los valores propios (inercia total). Nótese que para el análisis de correlaciones y para el
análisis de productos escalares normados la inercia total es igual al número de variables activas.
Huella =
J1
X
λα
α=1
46.5.
Valores y vectores propios
Se imprimen los valores propios y los vectores propios para los factores retenidos. Tiene el mismo significado
para cada tipo de análisis pero son de poco interés para el usuario.
Para el análisis de correspondencias, el programa imprime un valor propio y un vector propio más que el
número de factores determinado/deseado. Primero se imprime el factor para el valor propio trivial (siempre
igual a 1) y luego se ignora. Los factores restantes se numeran nuevamente (a partir de 1) en las tables de
casos/variables activos/pasivos.
356
Análisis factorial
46.6.
Tabla de valores propios
La tabla contiene todos los valores propios, simbolizados aquı́ por λα , calculados por el programa. Nótese
que en el análisis de correspondencias, el primer valor propio trivial (siempre 1) se imprime solamente en la
tabla y su valor se resta de la huella cuando se calcula el porcentaje en el punto 6.d más adelante.
a) NO. Número secuencial de valor propio, α, en orden ascendente.
b) ITER. Número de iteraciones usadas para calcular los vectores propios correspondientes. El valor cero
significa que el vector propio se obtuvo a la vez que el anterior (desde abajo).
c) Valor propio. Esta columna muestra una secuencia de valores propios, lambdas, cada uno correspondiente al factor α.
d) Porcentaje. Contribución del factor a la inercia total (en términos porcentuales).
τα =
λα
× 100
Huella
e) Cumul (porcentaje acumulativo). Contribución de los factores 1 a α a la inercia total (en términos
porcentuales).
Cumulα = τ1 + τ2 + · · · + τα
f ) Histograma de valores propios. Cada valor propio se representa mediante una lı́nea de asteriscos en
la cual la cantidad de asteriscos es proporcional al valor propio. El primer valor propio del histograma
siempre se representa con 60 asteriscos. El histograma permite un análisis visual de la disminición
relativa de valores propios para factores subsiguientes.
46.7.
Tabla de factores de variables activas
La tabla contiene las ordenadas de las variables activas en el espacio factorial, sus cosenos al cuadrado con
cada factor y sus contribuciones a cada factor. Adicionalmente, contiene la calidad de estas variables, sus
ponderaciones y sus inercias.
a) JPR. Número de variable para las variables activas (principales).
b) QLT. Se mide la calidad de representación de la variable en el espacio de m factores, para todo tipo
de analisis, con la suma de cosenos cuadrados (ver 7.f más adelante). Los valores más cercanos a 1
indican un nivel más alto de representación de la variable por los factores.
QLTj =
m
X
COS2α j
α=1
c) PESO. Valor de ponderación de la variable. Para todo tipo de analisis, se calcula como un cociente
entre el total de la variable y el total general (ver sección 2 atrás), multiplicado por 1000.
f·j =
P·j
× 1000
P
Nótese que la ponderación (PESO) impresa en la última lı́nea de la tabla es igual a:
- el total general para el análisis de correspondencias,
- el número ponderado de casos para otros tipos de análisis.
d) INR. Inercia correspondiente a la variable. Indica la parte de la inercia total relacionada con la variable
en el espacio de factores.
46.7 Tabla de factores de variables activas
357
Para el analisis de correspondencias, se calcula como el cociente entre la inercia de la variable y
la inercia total, multiplicado por 1000. Nótese que la inercia de la variable depende de la ponderación
de ésta y que el valor de huella usado no incluye el valor trivial del valor propio.
J1−1
X
f·j
Fα2 j
α=1
IN Rj =
Huella
× 1000
donde Fα j es la ordenada de la variable j que corresponde al factor α (ver 7.e más adelante).
Para el analisis de productos escalares y el analisis de covariancias, la inercia de la variable
no depende de la ponderación de ésta.
IN Rj =
J1
X
Fα2 j
α=1
× 1000
Huella
Para el analisis de productos escalares normados y el analisis of correlaciones, la inercia
de la variable sólo depende del número de variables activas.
IN Rj =
1
× 1000
J1
Nótese que la inercia (INR) impresa en la última lı́nea de la tabla es igual a 1000.
Las siguientes tres columnas se repiten para cada factor.
e) α#F . La ordenada de la variable en el espacio factorial, denominado aquı́ con Fα j .
f ) COS2. Coseno cuadrado del ángulo entre la variable y el factor. Es una medida de la “distancia” entre
la variable y el factor. Valores cercanos a 1 indican distancias más cortas al factor.
Para el analisis de correspondencias, se calcula ası́:
COS2α j =
Fα2 j
J1−1
X
Fα2 j
× 1000
α=1
Para el analisis de productos escalares y el analisis de covariancias,
COS2α j =
Fα2 j
J1
X
Fα2 j
× 1000
α=1
Para el analisis de productos escalares normados y el analisis of correlaciones,
COS2α j = Fα2 j × 1000
g) CPF. Contribución de la variable al factor.
Para el analisis de correspondencias,
CP Fα j =
f·j Fα2 j
× 1000
λα
Para todos los otros tipos de analisis,
CP Fα j =
Fα2 j
× 1000
λα
Nótese que la contribución (CPF) impresa en la última lı́nea de la tabla es igual a 1000.
358
Análisis factorial
46.8.
Tabla de factores de variables pasivas
La tabla contiene la misma información descrita en el punto 7 más atrás, pero para variables pasivas.
a) JSUP. Número de variable para las variables pasivas (suplementarias).
b) QLT. Calidad de representación de la variable en el espacio de m factores (ver 7.b atrás).
c) PESO. Valor de ponderación de la variable (ver 7.c atrás).
d) INR. Inercia correspondiente a la variable. Nótese que las variables pasivas no contribuyen a la inercia
total. De esta manera, la inercia aquı́ indica si la variable podrı́a jugar algún papel en el análisis si se
utilizara como variable activa. Se calcula de la misma forma que las variables activas en los respectivos
análisis (ver 7.d atrás).
La inercia (INR) impresa en la última lı́nea de la tabla es igual a la INR total sobre todas las variables
pasivas.
Las siguientes tres columnas se repiten para cada factor.
e) α#F . La ordenada de la variable en el espacio factorial, denominada aquı́ por Fα j .
f ) COS2. Coseno cuadrado del ángulo entre la variable y el factor. Se calcula en la misma forma que
para las variables activas en los análisis respectivos (ver 7.f atrás).
g) CPF. Contribución de la variable al factor. Nótese que las variables pasivas no participan en la
construcción del espacio factorial. Ası́, la contribución sólo indica si la variable podrı́a tener algún
papel en el análisis si se utilizara como variable activa. CPF se calcula de la misma manera que para
las variables activas en los análisis respectivos (ver 7.g atrás).
La contribución (CPF) impresa en la última lı́nea de la tabla es igual al CPF total sobre todas las
variables pasivas.
46.9.
Tabla de factores de casos activos
La tabla contiene las ordenadas de los casos activos en el espacio factorial, sus cosenos cuadrados con cada
factor y sus contribuciones a cada factor. Además, contiene la calidad de la representación de estos casos,
sus ponderaciones y sus inercias.
a) IPR. Valor de identificador de caso para los casos activos (principales).
b) QLT. Se mide la calidad de representación del caso en el espacio de m factores, para todos los tipos
de analisis, con la suma de cosenos cuadrados (ver 9.f más adelante). Valores cercanos a 1 indican
un nivel más alto de representación del caso por los factores.
QLTi =
m
X
COS2α i
α=1
c) PESO. Valor de ponderación del caso.
Para el analisis de correspondencias, se calcula como el cociente entre la suma (ponderada) de
variables activas para este caso y el total general (ver sección 2 atrás), multiplicado por 1000.
fi· =
Pi·
× 1000
P
Nótese que la ponderación (PESO) que se imprime en la última lı́nea de la tabla es igual al total
general.
Para todos los otros tipos de analisis,
fi· =
wi
× 1000
P
Nótese que la ponderación (PESO) que se imprime en la última lı́nea de la tabla es igual al número
ponderado de casos.
46.9 Tabla de factores de casos activos
359
d) INR. Inercia correspondiente al caso. Indica la parte de le inercia total relacionada con el caso en el
espacio de factores.
Para el analisis de correspondencias, se calcula como el cociente entre la inercia del caso y la
inercia total, multiplicado por 1000. Nótese que la inercia del caso depende de la ponderación del caso
y que el valor de huella usado aquı́ no incluye el valor trivial del valor propio.
fi·
J1−1
X
Fα2 i
α=1
IN Ri =
Huella
× 1000
Para todos los otros tipos de analisis,
IN Ri =
J1
X
wi
z2
W × Huella j=1 ij
!
× 1000
donde
zij =

xij


xij


 q PI1
i=1





2
para análisis de productos escalares
para análisis de productos escalares normados
wi xij / W
xij − xj
xij −xj
sj
para análisis de covariancias
para análisis de correlaciones
y sj es la desviación estándar de la muestra para la variable j.
Nótese que la inercia (INR) que se imprime en la última lı́nea de la tabla es igual a 1000.
Las siguientes tres columnas se repiten para cada factor.
e) α#F . La ordenada del caso en el espacio factorial, denominada aquı́ por Fα i .
f ) COS2. Coseno cuadrado del ángulo entre el caso y el factor. Es una medida de “distancia” entre caso
y factor. Los valores más cercanos a 1 indican distancias más cortas al factor.
Para el analisis de correspondencias, se calcula ası́:
COS2α i =
Fα2 i
× 1000
J1−1
X
Fα2 i
α=1
Para todos los otros tipos de analisis,
COS2α i =
Fα2 i
× 1000
J1
X
2
Fα i
α=1
g) CPF. Contribución del caso al factor.
Para el analisis de correspondencias,
CP Fα i =
fi· Fα2 i
× 1000
λα
Para todos los otros tipos de analisis,
CP Fα i =
wi Fα2 i
× 1000
W λα
Nótese que la contribución (CPF) que se imprime en la última lı́nea de la tabla es igual a 1000.
360
Análisis factorial
46.10.
Tabla de factores de casos pasivos
La tabla contiene la misma información que la descrita en el punto 9. más atrás, pero para los casos pasivos.
a) ISUP. Valor de identificador de caso para los casos pasivos (suplementarios).
b) QLT. Calidad de representación del caso en el espacio de m factores (ver 9.b atrás)
c) PESO. Valor de ponderación del caso (ver 9.c atrás).
d) INR. Inercia correspondiente al caso. Nótese que los casos pasivos no contribuyen a la inercia total.
Ası́, la inercia aquı́ indica si el caso podrı́a tener algún papel en el análisis si se usara como caso activo.
Se calcula de la misma manera que para los casos activos en los respectivos análisis (ver 9.d atrás).
La inercia (INR) que se imprime en la última lı́nea de la tabla es igual a la INR total sobre todos los
casos pasivos.
Las siguientes tres columnas se repiten para cada factor.
e) α#F . La ordenada del caso en el espacio factorial, denominada aquı́ por Fα i .
f ) COS2. Coseno cuadrado del ángulo entre el caso y el factor. Se calcula de la misma manera que los
casos activos en los respectivos análisis (ver 9.f atrás).
g) CPF. Contribución del caso al factor. Nótese que los casos pasivos no participan en la construcción
del espacio factorial. Ası́, la contribución indica solamante si el caso podrı́a tener algún papel en el
análisis si se hubiera usado como caso activo. CPF se calcula de la misma manera que los casos activos
en los análisis respectivos (ver 9.g atrás).
La contribución (CFP) impresa en la última lı́nea de la tabla es igual al CPF total de todos los casos
complementarios.
46.11.
Factores rotados
Sólo en análisis de correlaciones. Los factores de “variables” se pueden rotar cuando se haya terminado el
análisis factorial. El procedimiento Varimax que se utiliza aquı́ es el mismo usado en el programa CONFIG.
Nótese que los factores de “variables” para las variables activas se pueden tratar como una configuración de
J1 objetos en un espacio dimensional α.
46.12.
Referencias
Benzécri, J.-P. and F., Pratique de l’analyse de données, tome 1: Analyse des correspondances, exposé élémentaire, Dunod, Paris, 1984.
Iagolnitzer, E.R., Présentation des programmes MLIFxx d’analyses factorielles en composantes principales,
Informatique et sciences humaines, 26, 1975.
Capı́tulo 47
Regresión lineal
Notación
y
x
= valor de la variable dependiente
= valor de una variable independiente
i, j, l, m = subı́ndices para variables
p = número de predictores
k
47.1.
= subı́ndice para el caso
N
w
= número total de casos
= valor del peso multiplicado por
W
= suma total de los pesos.
N
W
Estadı́sticas univariadas
Estas estadı́sticas ponderadas son calculadas para todas las variables utilizadas en el análisis, es desir,
variables ficticias, variables independientes y la variable dependiente.
a) Promedio.
xi =
X
wk xik
k
N
b) Desviación estándar (estimada).
sbi =
v
X
2
u X
2
uN
w
x
(w
x
)
−
k ik
k ik
u
t
k
k
N (N − 1)
c) Coeficiente de variación (C.var.).
Ci =
47.2.
100 sbi
xi
Matriz de sumas totales de cuadrados y productos cruzados
Es calculada para todas las variables utilizadas en el análisis como sigue:
X
t.s.s.c.p. ij =
wk xik xjk
k
362
Regresión lineal
47.3.
Matriz de sumas de cuadrados residuales y productos cruzados
Esta matriz, llamada matriz de cuadrados y productos cruzados de puntajes de desviación, es calculada para
todas las variables utilizadas en el análisis como sigue:
X
X
wk xik
wk xjk
X
k
k
r.s.s.c.p. ij =
wk xik xjk −
N
k
47.4.
Matriz de correlación total
Los elementos de esta matriz son calculados directamente a partir de la matriz de la suma de cuadrados
residuales y productos cruzados. Note que si esta fórmula se escribe en todo detalle y si se multiplican por
N numerador y denominador, se trata de la fórmula convencional de la r de Pearson.
r.s.s.c.p. ij
rij = √
√
r.s.s.c.p. ii r.s.s.c.p. jj
47.5.
Matriz de correlación parcial
El ij ésimo elemento de esta matriz es la correlación parcial entre la variable i y la variable j, manteniendo
constantes ciertas variables especı́ficas. Las correlaciones parciales describen el grado de interrelación que
puede existir entre dos variables si se controla la variación en una o más variables. También describen la
correlación entre variables independientes que serı́an seleccionadas en una regresión por pasos.
a) Correlación entre xi y xj manteniendo constante xl (parciales de primer orden).
rij − ril rjl
q
rij· l = p
2
2
1 − ril
1 − rjl
donde rij , ril , rjl son los coeficientes de orden cero (coeficientes r de Pearson).
b) Correlación entre xi y xj manteniendo constantes xl y xm (parciales de segundo orden).
rij· l − rim· l rjm· l
q
rij· lm = p
2
2
1 − rim·
1 − rjm·
l
l
donde rij· l , rim· l , rjm· l son las parciales de primer orden.
Nota: el programa calcula las correlaciones parciales aumentando paso a paso a partir de los coeficientes
de orden cero pasando a los coeficientes de primer orden, después a los coeficientes de segundo orden,
etc.
47.6.
Matriz inversa
En el caso de una regresión estándar, ésta es la inversa de la matriz de correlación de las variables independientes y de la variable dependiente. Para una regresión por pasos, ésta es la inversa de la matriz de
correlaciones de las variables independientes en la ecuación final. El programa utiliza el método de eliminación
de Gauss para invertir.
47.7 Estadı́sticas de resumen del análisis
47.7.
363
Estadı́sticas de resumen del análisis
a) Error estándar de la estimación. Es la desviación estándar de los residuos.
vX
u
u
(yk − ybk )2
u
t k
Error estándar de estimación =
gl
donde
ybk =
gl =
valor proyectado de la variable dependiente para el k ésimo caso
grados de libertad del residuo (ver 7.f más abajo).
b) Cociente F para la regresión. Es la estadı́stica F para determinar la significación estadı́stica del
modelo considerado. Los grados de libertad son p y N − p − 1.
F =
R2 gl
p (1 − R2 )
donde R2 es igual a la fracción de la variancia explicada (ver 7.d más abajo).
c) Coeficiente de correlación múltiple. Es la correlación entre la variable dependiente y el valor
proyectado. Indica la fortaleza de la relación entre el criterio y la función lineal de los predictores y es
similar a un coeficiente simple de correlación de Pearson excepto que siempre es positivo.
√
R = R2
R no es impresa si el término constante ha sido forzado a tomar el valor cero.
d) Fracción de la variancia explicada. R2 puede ser interpretada como la proporción de la variación
en la variable dependiente, explicada por las variables explicativas. Llamado algunas veces el coeficiente
de determinación, es una medida de eficacia de la regresión lineal. Entre más grande sea, la ecuación
ajustada explicará mejor la variación en los datos.
X
(yk − ybk )2
k
R2 = 1 − X
k
2
(yk − y)
donde
ybk
y
=
=
valor proyectado de la variable dependiente para el k ésimo caso
media de la variable dependiente.
Al igual que R, R2 no es impresa si el término constante es forzado a tomar el valor cero.
e) Determinante de la matriz de correlación. Es el determinante de la matriz de correlación de
las variables predictoras. El valor del determinante de esta matriz, varı́a de cero a uno y es obtenido
mediante la suma de varios productos de sus elementos. Determinantes cuyos valores son cercanos a
cero, indican que algunas o todas las variables explicativas tienen un alto grado de correlación. Un
determinante igual a cero indica que se trata de una matriz singular que no tiene inverso.
f ) Grados de libertad de residuos.
Si la constante no está forzada a tomar el valor cero,
gl = N − p − 1
Si la constante está forzada a tomar el valor cero,
gl = N − p
364
Regresión lineal
g) Término constante.
X
A=y −
Bi xi
i
donde
47.8.
y
xi
=
=
promedio de la variable dependiente (ver 1.a arriba)
promedio de la iésima variable predictora (ver 1.a arriba)
Bi
=
coeficiente B de la iésima variable predictora (ver 8.a abajo).
Estadı́sticas de análisis para los predictores
a) B. Son los coeficientes de regresión parcial no estandarizada que son los indicados (en vez de las betas)
para utilizarse en una ecuación de proyección de valores primarios. Son sensibles a la escala de medida
de la variable predictora ası́ como a la variancia de la variable predictora.
Bi = βi
donde
sby
sbi
βi
= ponderación beta para el predictor i (ver 8.c abajo)
sby
sbi
= desviación estándar de la variable dependiente (ver 1.b arriba)
= desviación estándar de la variable predictora i (ver 1.b arriba).
b) Sigma B. Es el error estándar de B, una medida de fiabilidad del coeficiente.
Sigma Bi = (error estándar de la estimación)
r
cii
r.s.s.c.p. ii
donde cii es el iésimo elemento de la diagonal de la inversa de la matriz de correlación de los predictores
en la ecuación (ver sección 6 arriba).
c) Beta. Coeficientes de regresión que se llaman también los “coeficientes estandarizados de regresión
parcial” o “coeficientes estandarizados B”. Son independientes de la escala de medida. Las magnitudes
de los cuadrados de las betas indican las contribuciones relativas de las variables a la proyección.
−1
βi = R11
Ryi
donde
R11
Ryi
=
=
matriz de correlación de los predictores en la ecuación
vector columna de correlaciones de la variable dependiente y los
predictores indicada por el predictor i.
d) Sigma Beta. Es el error estándar del coeficiente beta, una medida de fiabilidad del coeficiente.
Sigma βi = sigma Bi
sbi
sby
e) r cuadrada parcial. Son las correlaciones parciales, al cuadrado, entre el predictor i y la variable
dependiente, y, eliminada la influencia de otras variables en la ecuación de regresión. El coeficiente
de correlación parcial al cuadrado, es una medida de que tanto la parte de variación en la variable
dependiente que no está explicada por otros predictores, está explicada por el predictor i.
2
ryi·
jl... =
2
2
Ry·
ijl... − Ry· jl...
2
1 − Ry·
jl...
47.9 Residuos
365
donde
2
Ry·
ijl...
=
R cuadrada múltiple con el predictor i
2
Ry·
jl...
=
R cuadrada múltiple sin el predictor i.
f ) r cuadrada marginal. Es el incremento de la variancia explicada, al añadir el predictor i a los otros
predictores ya incluidos en la ecuación de regresión.
2
2
ri2 marginal = Ry·
ijl... − Ry· jl...
g) Cociente t. Puede ser utilizado para probar si la hipótesis que β, o B, es igual a cero; es decir si el
predictor i no tiene una influencia lineal en la variable dependiente. Su significancia se puede determinar
de la tabla de t con N − p − 1 grados de libertad.
βi Bi
=
t = sigma βi
sigma Bi h) Coeficiente de covariancia. La tasa de covariancia de xi es el cuadrado del coeficiente de correlación
múltiple, R2 , de xi con las otras p − 1 variables independientes en la ecuación. Es una medida de la
intercorrelación de xi con los otros predictores.
Coeficiente de covariancia i = 1 −
1
cii
donde cii es el iésimo elemento de la diagonal del inverso de la matriz de correlación de los predictores
en la ecuación (ver sección 6 arriba).
47.9.
Residuos
Los residuos son la diferencia entre los valores observados de la variable dependiente y los valores calculados
por la ecuación de regresión.
ek = yk − ybk
La prueba para detectar la correlación serial, popularmente conocida como la estadı́stica d de Durbin-Watson
para autocorrelación de primer orden de residuos, se calcula ası́:
d=
N
X
(ek − ek−1 )2
k=2
N
X
e2k
k=1
47.10.
Nota sobre la regresión por pasos
La regresión por pasos incluye los predictores en el modelo paso a paso, comenzando con la variable independiente que está más correlacionada con y. Después del primer paso, el algoritmo selecciona a partir de
las variables independientes restantes, aquella que disminuye al máximo la variancia restante (no explicada)
de la variable dependiente, es decir, la variable cuya correlación parcial con y es más elevada. Entonces, el
programa hace una prueba parcial de F de inclusión para ver si la variable absorbe una cantidad significativa
de variación relativa, a aquella que ya ha sido absorbida por las variables que ya forman parte de la regresión.
El usuario puede especificar un valor F mı́nimo, para incluir cualquier variable; el programa evalúa si el valor
de F calculado en un paso dado, satisface el mı́nimo especificado y si lo satisface, incluye la variable en la
regresión. En forma similar, el programa decide a cada paso si cada variable incluida previamente, continua
a satisfacer el mı́nimo (también proporcionado por el usuario), y si no, la excluye.
Valor parcial de F para la variable i =
2
2
(Ry·
P i − Ry· P )(gl)
2
1 − Ry·
Pi
366
Regresión lineal
donde
2
Ry·
Pi
2
Ry·
P
=
R cuadrada múltiple para el conjunto (P ) de predictores
=
ya incluidos en la regresión, con el predictor i
R cuadrada múltiple para el conjunto (P ) de predictores
gl =
ya incluidos en la regresión
grados de libertad de los residuos.
En cualquier paso del procedimiento, los resultados son los mismos que habrı́a en una regresión estándar
utilizando el conjunto particular de variables; ası́, el último paso de una regresión por pasos muestra los
mismos coeficientes de una pasada normal utilizando las variables que “sobrevivieron” el procedimiento de
selección hecho paso a paso.
47.11.
Nota sobre la regresión descendente
La regresión descendente es similar a la regresión paso a paso, a excepción que el algoritmo comienza con
la inclusión de todas las variables independientes y después quita o añade nuevamente las variables, en la
forma de paso a paso.
47.12.
Nota sobre la regresión con intercepto cero
Cuando se utiliza el programa REGRESSN, es posible solicitar una intercepto cero, es decir, que la variable
dependiente sea cero cuando todas las variables independientes son cero.
Si una regresión a través del origen es especificada, todas las estadı́sticas a la excepción de aquellas citadas
de 1 a 4 arriba, están basadas sobre una media cero. El coeficiente de correlación múltiple y la fracción de
variancia explicada (artı́culos 7.c y 7.d) no son impresas. Las estadı́sticas que no están centradas con respecto
a la media pueden ser muy diferentes de lo que podrı́an serlo, si hubieran sido centradas; ası́, en una solución
por pasos, las variables pueden ser incluidas en la ecuación en un orden diferente del que ha sido hecho, si
una constante hubiera sido estimada.
En el programa REGRESSN una matriz con elementos
X
wk xik xjk
aij = sX k
X
wk x2ik
wk x2jk
k
k
es analizada en vez de R, la matriz de correlación.
Las B, los coeficientes de regresión parcial no estandarizados, se obtienen mediante
sX
X
wk x2ik
wk x2jk
Bi = βi
k
k
Capı́tulo 48
Escalamiento multidimensional
Notación
x = elemento de la configuración
i, j, l, m = subı́ndices para variables
48.1.
n
s
= número de variables
= subı́ndice para dimensión
t
= número de dimensiones.
Orden de los cálculos
Para un número dado de dimensiones, t, MDSCAL calcula la configuración de mı́nimo esfuerzo (“stress”)
utilizando un proceso iterativo. El programa comienza con una configuración inicial (suministrada por el
usuario o por programa) y continúa modificándola hasta que converge hacia la configuración que tenga el
mı́nimo esfuerzo.
48.2.
Configuración inicial
Si el usuario no proporciona una configuración de entrada, el programa genera una configuración arbitraria
tomando los primeros n puntos a partir de la lista a continuación (cada expresión entre paréntesis representa
un punto):
(1, 0, 0, . . . , 0),
(0, 2, 0, . . . , 0),
(0, 0, 3, . . . , 0),
..
.
(0, 0, 0, . . . , t),
(t + 1, 0, 0, . . . , 0),
(0, t + 2, 0, . . . , 0),
..
.
48.3.
Centrado y normalización de la configuración
Al principio de cada iteración, la configuración es centrada y normalizada.
Si xis denota el elemento en la iésima lı́nea y sésima columna de la configuración, entonces
368
Escalamiento multidimensional
xis centrada = xis − xs
xis normalizada =
donde
xs =
X
xis − xs
n.f.
xis
i
n
es la media de la dimensión s y
v
u
n
n.f. = u
t X X x2
is
i
s
es el factor de normalización.
Note que el total de la suma de cuadrados de los elementos de la configuración centrada y normalizada es
igual a n, el número de variables.
48.4.
Historia de los cálculos
Al término de cada iteración, las partidas de 4.a a 4.h abajo, son impresas. Esto crea un descriptivo secuencial
que, en general, es de interés solamente cuando se teme que la convergencia no sea completa. Sin embargo,
al final del descriptivo secuencial la razón para detenerse es impresa. Si el programa no se para porque un
mı́nimo ha sido alcanzado, aun ası́ puede ser cierto, que la solución alcanzada sea prácticamente igual al
mı́nimo que hubiera sido alcanzado después de unas cuantas iteraciones suplementarias - en particular, si el
esfuerzo es muy pequeño, que es generalmente el caso.
a) Stress (esfuerzo). La medida de esfuerzo tiene dos funciones. Primero, es una medida de que tan
bien la configuración calculada, semeja los datos de entrada. Segundo, es utilizada para decidir cómo
los puntos deberán ser desplazados en la nueva iteración. Hay dos fórmulas disponibles para calcular
el esfuerzo: SQDIST y SQDEV.
vXX
u
u
(dij − dbij )2
u
u i j
XX
Esfuerzo SQDIST = u
t
d2
ij
i
j
vX X
u
u
(dij − dbij )2
u
u i j
Esfuerzo SQDEV = u X X
t
(dij − d )2
i
j
donde
dij
dbij
=
=
d =
distancia entre las variables i y j en la configuración (ver 8.c abajo)
los números que minimizan el esfuerzo, sujetos a la condición que
las dij sean del mismo orden de rango que los datos de entrada (ver 8.d más abajo)
media de las dij .
b) SRAT. Coeficiente de esfuerzo. El usuario puede detener el procedimiento de escalamiento, especificando un coeficiente de esfuerzo a alcanzar. Para la primera iteración (iteración 0), su valor se fija a
0.800.
SRAT =
Esfuerzo actual
Esfuerzo anterior
48.4 Historia de los cálculos
369
c) SRATAV. Promedio de coeficiente de esfuerzo. Para la primera iteración su valor es igual a 0.800.
SRATAVactual = (SRATactual )0,33334 × (SRATAVanterior )0,66666
d) CAGRGL. Este es el coseno del ángulo entre el gradiente actual y el gradiente anterior.
XX
00
gis gis
CAGRGL = cos Θ = sX Xi
i
s
2
gis
s
sX X
i
00 2
(gis
)
s
donde
g
g 00
=
=
gradiente actual
gradiente anterior.
El gradiente inicial está fijado de acuerdo con la constante:
r
1
Inicial gis =
t
e) COSAV. Coseno promedio del ángulo entre los gradientes sucesivos. Este es una media ponderada.
Para la primera iteración, su valor se fija a cero.
COSAVactual = CAGRGLactual × COSAVW + COSAVanterior × (1,0 − COSAVW)
donde COSAVW es un factor de ponderación controlado por el usuario.
f ) ACSAV. Promedio del valor absoluto del coseno del ángulo entre gradientes sucesivos. Esta es una
media ponderada. Para la primera iteración, su valor es fijado a cero.
ACSAVactual = |CAGRGLactual | × ACSAVW + ACSAVanterior × (1,0 − ACSAVW)
donde ACSAVW es un factor de ponderación controlado por el usuario.
g) SFGR. Factor de escala del gradiente. Conforme los cálculos se llevan a cabo, el factor de escala de
los gradientes sucesivos disminuye. Una forma de detener el proceso de escalamiento es alcanzando un
factor de escala mı́nimo para el gradiente que ha sido proporcionado por el usuario.
s
1XX 2
SFGR =
g
n i s is
donde g es igual al gradiente actual.
h) STEP. Tamaño del paso. En la formula de tamaño del paso, las dos determinantes principales del
tamaño del paso siguiente, son el tamaño del paso inmediatamente anterior y el factor de ángulo. Los
tamaños de pasos utilizados no afectan la solución final pero afectan el número de iteraciones necesarias
para alcanzar una solución.
STEPactual = STEPanterior × f de ángulo × f de relajamiento × f de buena suerte
donde
factor (f) de ángulo = 4,0COSAV
1,4
factor (f) de relajamiento =
AB
A = 1 + (mı́n(1, SRATAV))5
B = 1 + ACSAV − |COSAV|
p
mı́n(1, SRAT)
factor (f) de buena suerte =
El tamaño del primer paso se calcula como sigue:
STEP = 50. × Esfuerzo × SFGR
370
Escalamiento multidimensional
48.5.
Esfuerzo para la configuración final
Esta es una iteración adicional utilizando el último valor de la columna del esfuerzo del descriptivo secuencial
(ver 4.a arriba). El Esfuerzo es una medida de que tan bien la configuración iguala los datos de entrada.
La interpretación del esfuerzo para la configuración final depende de la formula utilizada en los cálculos.
Note que la utilización de esfuerzo SQDEV rinde valores de esfuerzo substancialmente mayores para el
mismo grado de “bondad de ajuste”.
Para la modalidad clásica de utilizar MDSCAL, Kruskal y Carmone proporcionan el cuadro a continuación,
para un rango de valores de N (digamos de 10 a 30) y un rango de dimensión (digamos de 2 a 5):
Esfuerzo SQDIST
Pobre
Aceptable
Bueno
Excelente
“Perfecto”
48.6.
Esfuerzo SQDEV
20.0 %
10.0 %
5.0 %
2.5 %
0.0 %
40.0 %
20.0 %
10.0 %
5.0 %
0.0 %
Configuración final
En cada iteración la configuración siguiente se forma comenzando a partir de la configuración precedente y
desplazándose en dirección (negativa) del gradiente de esfuerzo, de una distancia igual al tamaño del paso.
STEP
(gradiente)
SFGR
Cada fila de la matriz de configuración final proporciona las coordenadas de una variable de la configuración.
La orientación de los ejes de referencia es arbitraria y por ello uno debe buscar los ejes que hayan sido
girados o inclusive ejes oblicuos que sean interpretados de inmediato. Si una distancia Euclideana ordinaria
se utilizó, es posible girar la configuración tal que sus ejes principales coincidan con los ejes cardinales. El
programa CONFIG puede ser utilizado para este propósito.
Nueva configuración = configuración precedente +
48.7.
Configuración clasificada
Es la configuración final presentada con cada dimensión clasificada - las coordenadas han sido nuevamente
ordenadas de pequeñas a grandes.
48.8.
Resumen
a) IPOINT, JPOINT. Estos son subı́ndices de las variables, (i, j), indicando a que par de variables se
refieren las tres estadı́sticas a continuación.
b) DATA. Para cada pareja de variables, es el ı́ndice de igualdad o diferencia proporcionado por el usuario
en la matriz de datos de entrada.
c) DIST. Es la distancia entre puntos en la configuración final.
Para la métrica - r de Minkowski,
dij =
"
X
s
r
|xis − xjs |
#1/r
En caso que r = 2, ésta se convierte en la distancia euclideana
s
X
(xis − xjs )2
dij =
s
48.9 Nota sobre ataduras en los datos de entrada
371
En caso que r = 1 ésta se convierte en la distancia de cuadra urbana (“city block”)
X
dij =
|xis − xjs |
s
d) DHAT. D-hats son los números que minimizan el esfuerzo, sujeto a la restricción que las d-hats tengan
el mismo rango de orden que los datos de entrada; son distancias “adecuadas”, estimadas a partir de
los datos de entrada.
Se obtienen a partir de:
XX
XX
dij y
dbij =
i
i
j
dbij ≥ dblm
j
si pij ≤ plm
o
pij ≥ plm
(similitudes)
(diferencias)
donde
dij
dbij
pij
48.9.
=
distancia en la configuración entre las variables i y j
=
una transformación monotónica de las pij
=
el ı́ndice de entrada de similitud o de diferencia entre las variables i y j.
Nota sobre ataduras en los datos de entrada
Las ataduras en los datos de entrada, es decir, los valores iguales en la matriz de datos de entrada, pueden
ser tratados de dos maneras, el usuario indicará su elección.
El primer enfoque, DIFFER, trata las ataduras en la matriz de entrada como una relación de orden indeterminado, que puede ser resuelta en forma arbitraria para disminuir la dimensión o el esfuerzo.
El segundo enfoque, EQUAL, trata las ataduras como una implicación de una relación de equi-valencia, que
(hasta donde es posible) es mantenida (inclusive si el esfuerzo es aumentado).
Si hay pocas ataduras, el enfoque seleccionado no tendrá mucha diferencia.
48.10.
Nota sobre los pesos
El programa permite la ponderación, pero no es una ponderación en el sentido usual de IDAMS. La ponderación MDSCAL puede ser utilizada para asignar una importancia diferente a los diferentes valores de los
datos, ésto es, asignar pesos a celdas de la matriz de datos de entrada. Este tipo de ponderación puede ser
utilizado, por ejemplo, para acomodar la variabilidad en la medida de los datos.
Si los pesos son utilizados,
vXX
u
u
wij (dij − dbij )2
u
u i j
XX
Esfuerzo SQDIST = u
t
wij d2ij
i
j
vX X
u
u
wij (dij − dbij )2
u
u i j
Esfuerzo SQDEV = u X X
t
wij (dij − d )2
i
donde
d=
XX
i
j
wij dij
j
XX
i
wij
j
y wij designa el valor en la celda ij de la matriz de pesos.
372
48.11.
Escalamiento multidimensional
References
Kruskal, J.B., Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis, Psychometrica, 3, 1964.
Kruskal, J.B., Nonmetric multidimensional scaling: a numerical method, Psychometrica, 29, 1964.
Capı́tulo 49
Análisis de clasificación múltiple
Notación
y
w
=
=
valor de la variable dependiente
valor del peso
k
i
=
=
subı́ndice para el caso
subı́ndice para el predictor
j
=
subı́ndice para categorı́a dentro del predictor
p
c
=
=
número de predictores
número de categorı́as que no están vacı́as para todos los predictores
aij
Nij
=
=
desviación ajustada de la j ésima categorı́a del predictor i (ver 2.c más abajo)
número de casos en la j ésima categorı́a del predictor i
N
W
=
=
número total de casos
suma total de los pesos
el subı́ndice ijk indica que el caso k corresponde a la j ésima categorı́a del predictor i.
49.1.
Estadı́sticas de la variable dependiente
a) Media. Media general de y.
y=
X
wk yk
k
W
b) Desviación estándar de y (estimada).
v
u
u
u
u
sby = t
N
N −1
!" W
c) Coeficiente de variación.
Cy =
100 sby
y
d) Suma de y.
Suma de y =
X
k
wk yk
X
k
wk yk2 −
X
W2
k
wk yk
2
#
374
Análisis de clasificación múltiple
e) Suma de y cuadrada.
Suma de y 2 =
X
wk yk2
k
f ) Suma de cuadrados total.
TSS =
X
k
wk (yk − y)2
g) Suma de cuadrados explicada.
ESS =
XX
i
aij
j
X
wijk yijk
k
h) Suma de cuadrados residual.
RSS = TSS − ESS
49.2.
Estadı́sticas de los predictores para análisis de clasificación
múltiple
a) Media de clase. Media de la variable dependiente para casos en la j ésima categorı́a del predictor i.
yij =
X
k
wijk yijk
X
wijk
k
b) Desviación no ajustada de la media general.
aij no ajustada = y ij − y
c) Coeficiente. Desviación ajustada aij de la media general. Este es el coeficiente de regresión para cada
categorı́a de cada predictor.
yk proyectado = y +
X
aijk
i
Los valores de aij son obtenidos por medio de un proceso iterativo que se detiene cuando
yk proyectado)2 alcanza el mı́nimo.
P
k (yk
−
d) Media ajustada de clase. Es una estimación de lo que la media habrı́a sido, si el grupo hubiera sido
exactamente igual a la población total en su distribución sobre toda clasificación de los predictores. Si
no hubiera correlación entre predictores, la media ajustada serı́a igual a la media de la clase.
yij ajustada = y + aij
e) Desviación estándar (estimada) de la variable dependiente para la j ésima categorı́a del predictor
i.
v
uX
X
2 X
u
2
wijk yijk
−
wijk yijk /
wijk
u
u
k
k
k
u
X
sbij = u
X
t
wijk −
wijk / Nij
k
k
49.2 Estadı́sticas de los predictores para análisis de clasificación múltiple
375
f ) Coeficiente de variación (C.var.).
Cij =
100 sbij
y ij
g) Desviación de la SS (Sum of Squares) no ajustada. Es la suma de cuadrados de las desviaciones
no ajustadas para el predictor i.
Ui =
X X
j
k
wijk
yij − y
2
donde y ij es igual a la media de y para la j ésima categorı́a del predictor i.
h) Desviación ajustada de la SS. Esta es la suma de cuadrados de las desviaciones ajustadas para el
predictor i.
Di =
X X
j
k
wijk
a2ij
i) Eta cuadrada para el predictor i. Eta cuadrada puede interpretarse como el porcentaje de la
variancia en la variable dependiente que puede ser explicada solamente por el predictor i.
ηi2 =
Ui
TSS
j) Eta para el predictor i. Indica la habilidad del predictor, utilizando las categorı́as dadas, para
explicar la variación en la variable dependiente.
q
ηi = ηi2
k) Eta cuadrada para el predictor i, ajustada para los grados de libertad.
ηi2 ajustada = 1 − A (1 − ηi2 )
donde A es el ajuste para los grados de libertad (ver 3.b más abajo).
l) Eta para el predictor i, ajustada.
ηi ajustada =
q
1 − A (1 − ηi2 )
m) Beta cuadrada para el predictor i. Beta cuadrada es la suma de cuadrados atribuida al predictor,
después de haber “mantenido otros predictores constantes”, relativa al total de la suma de cuadrados.
Esta expresión no está descrita en términos de porcentaje de la variancia explicada.
βi2 =
Di
TSS
n) Beta para el predictor i. Beta proporciona una medida de la habilidad del predictor para explicar
la variación en la variable dependiente después de haber la ajustado para la influencia de todos los
demás predictores. Los coeficientes Beta indican la importancia relativa de los predictores (entre más
alto sea el valor, mayor será la variación explicada por la beta correspondiente).
βi =
q
βi2
376
Análisis de clasificación múltiple
49.3.
Estadı́sticas del análisis para análisis de clasificación múltiple
a) R cuadrada múltiple no ajustada. Este es el coeficiente de correlación múltiple al cuadrado. Indica
la proporción actual de la variancia explicada por los predictores usados en el análisis.
R2 =
ESS
TSS
b) Ajuste por grados de libertad.
N −1
N −p−c−1
A=
c) R cuadrada múltiple ajustada. Proporciona una estimación de la correlación múltiple en la población,
a partir de la cual una muestra fue extraı́da. Note que es una estimación de la correlación múltiple
que serı́a obtenida si los mismos predictores, pero no necesariamente los mismos coeficientes, fueran
utilizados para la población.
R2 ajustada = 1 − A (1 − R2 )
d) R múltiple ajustada. Este es el coeficiente de correlación múltiple ajustado para los grados de
libertad. Es una estimación de la R que serı́a obtenida si los mismos predictores fueran aplicados a la
población.
p
R ajustada = 1 − A (1 − R2 )
49.4.
Estadı́sticas de resumen de residuos
El residuo para un caso k es rk = yk − yk proyectado.
a) Media.
r=
X
wk rk
k
W
b) Variancia (estimada).
sb2r
=
N
N −1
!" W
X
k
wk rk2 −
X
W2
k
wk rk
2
#
c) Asimetrı́a. La asimetrı́a de una distribución de residuos está medida por
!
!
m3
N
p
g1 =
N −2
sb2r sb2r
donde
m3 =
X
k
wk (rk − r)3
W
d) Kurtosis. La kurtosis de la distribución de residuos está medida por
!
!
N
m4
g2 =
−3
N −3
(b
s2r )2
donde
m4 =
X
k
wk (rk − r)4
W
49.5 Estadı́sticas de categorı́a de los predictores, para análisis de variancia de una entrada377
49.5.
Estadı́sticas de categorı́a de los predictores, para análisis de
variancia de una entrada
Para detalles, ver el capı́tulo “Análisis de variancia de una entrada”.
49.6.
Estadı́sticas del análisis, para análisis de variancia de una
entrada
Para detalles, ver el capı́tulo “Análisis de variancia de una entrada”.
Tenga en cuenta que el factor de ajuste A usado en MCA para el análisis de variancia de una entrada se
calcula de manera diferente que en el programa ONEWAY, o sea:
A=
49.7.
N −1
N −c
Referencias
Andrews, F.M., Morgan, J.N., Sonquist, J.A., and Klem, L., Multiple Classification Analysis, 2nd ed., Institute for Social Research, The University of Michigan, Ann Arbor, 1973.
Capı́tulo 50
Análisis multivariado de variancia
Notación
y
i, j
= valor de la variable dependiente o covariada
= subı́ndices para categorı́as de predictores
k
p
= subı́ndice para el caso
= número de variables independientes
dfh
dfe
= grados de libertad para la hipótesis
= grados de libertad para el error.
50.1.
Estadı́sticas generales
a) Medias de celda. Sea yijk la representación del valor de una variable dependiente o covariada para
el caso k en la subclase i, j de una clasificación de dos entradas.
y ij =
Nij
X
yijk
k=1
Nij
donde Nij es igual al número de casos en la clase i, j.
b) Base del diseño. La matriz de diseño se genera primero para cada factor de una matriz de diseño de
una entrada (una matriz Kf ) de acuerdo con el tipo de contraste especificado por el usuario para ese
factor. La matriz general de diseño K se obtiene a partir de las matrices de una entrada Kf tomando
el producto de Kronecker de las matrices.
La matriz de diseño siempre se imprime con las ecuaciones de efectos en las columnas, comenzando
con la matriz de efecto de la gran media en la primera columna.
c) Intercorrelaciones entre los coeficientes de las ecuaciones normales. La base del diseño se
pondera con los conteos de celda. El efecto de frecuencias desiguales es introducir correlaciones entre
las columnas de la matriz de diseño. Estas son esas correlaciones. Si las frecuencias de celda son iguales,
habrá unos (1) en la diagonal y ceros en el resto.
d) Solución de las ecuaciones normales. Los parámetros se estiman con mı́nimos cuadrados en la
forma
LX = (K 0 DK)−1 K 0 DY
donde
L
= la matriz de contraste que tiene como fila i los contrastes independientes
en los parámetros a ser estimados y probados
380
Análisis multivariado de variancia
X
=
parámetros a ser estimados
K
D
=
=
la matriz de diseño
una matriz diagonal con el número de casos en cada celda
Y
=
una matriz de medias de celda con columnas correspondientes a las variables.
Cuando se trata de un diseño ortogonal y de constrastes ortogonales, los contrastes tienen estimativos
independientes. Para frecuencias desiguales de celda, sin embargo, la K apropiado para diseños ortogonales ya no es ortogonal. Se requiere transformar K a la ortogonalidad en la métrica D. Esto se hace
poniendo
T = SK 0 D1/2
con T T 0 = T 0 T = I = SK 0 DKS 0
asi
K 0 D1/2 = S −1 T
y
(K 0 DK)−1 = S 0 S
y sustituyendo en la primera ecuación de arriba,
(S 0 )−1 LX = SK 0 DY
Esta última ecuación define un conjunto nuevo de parámetros que son funciones lineales de los contrastes, con la matriz SK 0 reemplazando K 0 . Estos parámetros son ortogonales.
S es la matriz producida con la ortogonalización de Gram-Schmidt de K en la métrica D y reduce las
filas de esta a longitud unitaria. S, y ası́ (S 0 )−1 , es triangular.
e) Partición de matrices. En un análisis univariado de variancia, cada caso tiene una variable independiente y; en análisis multivariado de variancia, cada caso tiene un vector y de variables dependientes.
El análogo multivariado de y 2 es el producto de matrices y 0 y y el análogo multivariado de una suma
de cuadrados es una suma de productos de matrices.
En un análisis multivariado, hay una matriz que corresponde a cada suma de cuadrados de un diseño
univariado. Las pruebas multivariadas dependen de particiones de la suma total de productos de
matrices, ası́ como las pruebas univariadas dependen de particiones de la suma total de cuadrados. Las
fórmulas para la suma total de productos, la suma de productos entre subclases y la suma de productos
dentro (intra) de subclases son
St = Y 0 Y
Sb = Y.0 DY.
Sw = Y 0 Y − Y.0 DY.
donde
Y
= la matriz N × p de datos primeros (N casos, p variables dependientes)
Y. = la matriz n × p de medias de celda (n celdas, p variables dependientes)
D = una matriz diagonal con el número de casos en cada celda.
La suma de productos entre subclases se particiona aún más de acuerdo con los efectos sobre el modelo.
f ) Matriz de correlación de errores. En un análisis multivariado de variancia, el término del error
es una matriz variancia-covariancia. Este es ese término de error reducido a una matriz de correlación.
La matriz de correlación se calcula usando Sw , la suma de productos internos o error interno.
−1
Re = s−1
e S w se
50.2 Cálculos para una prueba en un análisis multivariado
381
donde
Sw
s2e
=
=
la suma de productos dentro de subclases
las entradas diagonales de Sw .
Re es la matriz de coeficientes de correlación entre las variadas que estiman los valores de población.
Si el usuario ha especificado que la suma de cuadrados dentro de subclases se aumentó para formar el
término de error, el aumento tiene lugar antes de reducir la matriz a correlaciones.
g) Componentes principales de la matriz de correlación de errores. Este es un análisis estándar
de componentes principales de la matriz Re . Indica la estructura de factores de variables, encontrada
en la población bajo estudio. Los valores propios (o raı́ces) se imprimen debajo de las componentes.
h) Matriz de dispersión de errores. Es el término de error, una matriz variancia-covariancia para el
análisis. La matriz se ajusta para covariadas, si las hay. Cada elemento de la diagonal de la matriz es
exactamente el que aparecerı́a en una tabla de análisis convencional de variancia como el error interno
cuadrático medio de la variable.
Me =
Sw
dfe
donde
Sw
=
la suma de productos dentro de subclases
dfe
=
los grados de libertad del error, ajustados para aumento si eso se solicitó.
Si no hay aumento, los grados de libertad del error son iguales al número de casos menos el número
de celdas en el diseño.
i) Errores estándar de estimación. Corresponden a las raı́ces cuadradas de los elementos de la
diagonal de la matriz Me .
50.2.
Cálculos para una prueba en un análisis multivariado
Se repiten los cálculos para cada prueba solicitada por el usuario. No se imprimen los resultados de los
cálculos internos descritos más adelante bajo los puntos a) hasta d).
a) Matriz de suma de cuadrados debida a la hipótesis. La suma de cuadrados entre subclases
se divide de acuerdo con los varios efectos del modelo. Para probar una hipótesis dada, el programa
determina los estimativos ortogonales a probar y calcula la suma de cuadrados debidos a la hipótesis
(Sh ).
b) Sw e Sh reducidas a cuadrados medios y escaladas al espacio de correlación. La matriz de
cuadrados medios para la hipótesis, Mh , se calcula análogamente a los cuadrados medios para el error.
Mh =
Sh
dfh
donde
Sh
=
la matriz de suma de cuadrados debida a la hipótesis (ver atrás).
Los grados de libertad para la hipótesis dependen de la prueba solitada; para una prueba de efecto
principal A, donde el factor A tiene “a” niveles, los grados de libertad para la hipótesis deberı́an ser
a − 1.
382
Análisis multivariado de variancia
Mh es una matriz de los productos medios de las entre-subclases asociada con el efecto principal o la
hipótesis de interacción.
Ambas Me y Mh están escaladas al espacio de correlación:
−1
Re = ∆−1
e Me ∆e
−1
Ch = ∆−1
e Mh ∆e
donde
Re
=
la matriz de coeficientes de correlación entre las variables
que estiman valores de población
Ch
=
una matriz, la cual, aunque no es de correlación, presenta las variancias
y covariancias para las variables como han sido afectadas por el tratamiento
Me
Mh
=
=
cuadrados medios para el error
cuadrados medios para la hipótesis
∆e
=
una matriz diagonal que contiene los errores estándar de estimación.
La matriz Re se calcula dos veces, una vez como se describió en la sección “Matriz de correlación de
errores” y otra como se describió aquı́. Si no se han especificado covariadas, los resultados son idénticos
y no se imprime la matriz Re . Si se han especificado una o más covariadas, la segunda matriz Re
incorpora ajustes para covariadas.
c) Solución de la ecuación de determinante. El método usual de cálculo del criterio de la razón de
similitud de Wilk es de la ecuación de determinante
|Mh − λMe | = 0
La ecuación anterior se ha pre- e post-multiplicado por la matriz diagonal ∆−1
e
−1
|∆−1
e Mh ∆e − λRe | = 0
Sea
Re = F F 0
donde
F
= la matriz de coeficientes de componentes principales que satisface
F 0 F = ω, la matriz diagonal de valores propios de Re .
La segunda ecuación de detrimento se pre-multiplica por F −1 y se post-multiplica por su transpuesta
para dar
|(∆e F )−1 Mh ((∆e F )−1 )0 − λF −1 (F F 0 )(F −1 )0 | = 0
o
|(∆e F )−1 Mh ((∆e F )−1 )0 − λI| = 0
La última ecuación se resuelve para los valores λ.
d) Criterio de razón de similitud.
Λ=
−1
s Y
dfh
× λq
1+
dfe
q=1
donde
λq
= valores que no son cero en la última ecuación de la sección previa.
50.2 Cálculos para una prueba en un análisis multivariado
383
e) Cociente F para el crieterio de razón de similitud. El programa usa la aproximación F a los
puntos de porcentaje de la distribución nula de Λ.
F =
k(2dfe + dfh − p − 1) − p(dfh ) + 2
1 − Λ1/k
×
1/k
2p(dfh )
Λ
donde
k=
s
p2 (dfh )2 − 4
p2 + (dfh )2 − 5
Esta es una prueba multivariada de significancia del efecto para todas las variables dependientes simultaneamente.
f ) Grados de libertad para el cociente F.
p(dfh )
y
k(2dfe + dfh − p − 1) − p(dfh ) + 2
2
Si p = 1 o 2 y dfh = 1 o 2, k se pone a 1 en casos cuando p(dfh ) = 2.
g) Variancias canónicas de las componentes principales de la hipótesis. Estas son las lambdas
calculadas como se describió en la sección “Solución de la ecuación de determinante” atrás. Se ordenan
por magnitud descendente. El número de lambdas diferentes de cero para una ecuación dada es igual
a dfh (el número de grados de libertad asociado con Mh ), o p, el número de variables dependientes, el
que sea menor.
h) Coeficientes de las componentes principales de la hipótesis. La resolución de la ecuación
|(∆e F )−1 Mh ((∆e F )−1 )0 − λI| = 0
produce T , para lo cual
−1
−1 0
F −1 ∆−1
) = T λ T0
e Mh ∆e (F
Se puede escribir como
−1 0
0
−1
)T =λ
T 0 F −1 ∆−1
e Xh Xh ∆e (F
La ecuación anterior se considera como
∗
T 0 F −1 ∆−1
e X h = Sh
donde
Sh∗ (Sh∗ )0 = λ
y escrita en la forma habitual de la ecuación de factor, X = F S, es
∗
∆−1
e X h = F T Sh
El programa imprime los coeficientes F T de las componentes principales de la hipótesis.
i) Puntaje de las componentes de contraste para efectos estimados. Las filas de Sh∗ son los
conjuntos de puntajes de factor atribuibles a las hipótesis que tienen como variancias máximas las λi .
384
Análisis multivariado de variancia
j) Pruebas acumulativas de Bartlett en las raı́ces. Las pruebas se pueden usar para determinar
la dimensionalidad de la configuración. Las lambdas o las raı́ces se ordenan ascendentemente según
la magnitud. En las pruebas de Bartlett, se prueban primero todas las raı́ces. Después todas menos
la primera, después todas menos las dos primeras, y ası́ sucesivamente. La prueba de Ji cuadrada
suministra una prueba de significancia de la variancia para las raı́ces n − k después de aceptar las
primeras k raı́ces.
Primero se escalan las lambdas
λi normada =
dfh
× λi
dfe
y luego se calcula Ji cuadrada
χ2k+1
dfh + p + 1
= dfe + dfh −
2
s
X
!
ln(λi normada + 1)
i=k+1
donde
k
s
= número de raı́ces aceptadas (k = 0, 1, ..., s − 1)
= número de raı́ces.
El número de grados de libertad es
DF = (p − k)(g − k − 1)
donde g es igual al número de niveles de la hipótesis.
−1
k) Cocientes F para pruebas univariadas. Son los elementos de la diagonal de ∆−1
e Mh ∆e . El
cociente F para la variable y es exactamente el cociente F que se obtendrı́a para el efecto dado si se
hubiera hecho un análisis univariado con la variable y como la única variable dependiente.
50.3.
Análisis univariado
Si se ha especificado una sola variable dependiente, también se hacen los cálculos como se han descrito atrás.
Sin embargo, se toma ventaje de la simplificaciónn, es decir, la componente principal de la “matriz” de
correlación de errores se hace igual a uno y no se hace ningún cálculo.
El resultado de un análisis univariado de variancia es una tabla convencional de ANOVA con pequeñas
diferencias. Tiene una fila para la gran media pero no tiene una fila para el total. Generalmente, la gran
media no es interpretable. Para obtener la suma total de cuadrados, suma todas las sumas de cuadrados
excepto la suma de la gran media.
50.4.
Análisis de covariancia
Par la mayor parte, las fórmulas descritas no tienen en cuenta las covariadas. Si se han especificado una o
más covariadas, es la suma de productos de las matrices, Se e Sh que se han ajustado. Si hay q covariadas,
el programa comienza llevándolas con p variables dependientes. Hay una matriz (p × q)× (p × q) de suma de
productos del error, Se , y una matriz (p × q)× (p × q) Sh para cada hipótesis. Se calcula la matriz total St . Se
y Sh se parten en secciones correspondientes a las variables dependientes y covariadas. Se obtienen matrices
totales y de errores reducidas (p × p) y luego se obtiene, por resta, una matriz reducida para hipótesis.
Se calculan las matrices de correlación de errores y sus componentes principales después del ajuste a Se para
covariadas.
Capı́tulo 51
Análisis de variancia de una entrada
Notación
y
w
= valor de la variable dependiente
= valor del peso
k
i
= subı́ndice para el caso
= subı́ndice para la categorı́a en la variable de control
Ni
Wi
= número de casos en la categorı́a i
= suma de los pesos para la categorı́a i
N
= número total de casos
W
c
= suma total de los pesos
= número de categorı́as de código de la variable de control
con grados de libertad que no son cero.
51.1.
Estadı́sticas descriptivas para cada categorı́a de la variable
de control
a) Media.
yi =
X
wik yik
k
Wi
b) Desviación estándar (estimada).
v
u
u
u
u
sbi = t
Ni
Ni − 1
!" Wi
X
k
2
wik yik
−
c) Coeficiente de variación (C.var.).
Ci =
100 sbi
yi
d) Suma de y.
Suma yi =
X
k
wik yik
Wi2
X
k
wik yik
2
#
386
Análisis de variancia de una entrada
e) Porcentaje.
Suma yi
Porcentajei = X
Suma yi
i
f ) Suma de y cuadrada.
X
Suma yi2 =
2
wik yik
k
g) Total. El renglón de totales da las estadı́sticas a) a e) arriba calculadas para todos los casos, excepto
aquellas categorı́as codificadas con cero grados de libertad.
h) Grados de libertad para la categorı́a i.
gli = Wi (Ni − 1) / Ni
Categorı́as con cero grados de libertad no están incluidas en los cálculos de las estadı́sticas de resumen.
51.2.
Estadı́sticas del análisis de variancia
a) Suma de cuadrados total.
TSS =
XX
i
k
2
wik yik
−
X X
i
wik yik
k
W
2
b) Suma de cuadrados entre medias. Esta es llamada a veces la suma de cuadrados entre grupos.
BSS =
X
i
"
X
k
wik yik
X
wik
2
#
−
X X
i
wik yik
k
W
2
k
c) Suma de cuadrados dentro de grupos.
WSS = TSS − BSS
d) Eta cuadrada (“Etasq”). Esta medida puede ser interpretada como el porcentaje de variancia en
la variable dependiente que puede ser explicada por la variable de control. Varı́a de cero a uno.
η2 =
BSS
TSS
e) Eta. Es una medida de intensidad de la asociación entre la variable dependiente y la variable de control.
Varı́a de cero a uno.
r
BSS
η=
TSS
f ) Eta cuadrada ajustada. Eta cuadrada ajustada para los grados de libertad.
η 2 ajustada = 1 − A (1 − η 2 )
con el factor de ajuste
A=
W −1
W −c
51.2 Estadı́sticas del análisis de variancia
387
g) Eta ajustada.
η ajustada =
p
η 2 ajustada
h) Valor de F. El cociente F puede ser referido a la distribución F con c−1 y N −c grados de libertad. Un
cociente F significativo quiere decir que existen diferencias entre las medias, o probablemente efectos
entre los grupos.
F =
BSS/(c − 1)
WSS/(N − c)
El cociente F no se calcula si una variable de peso fue especificada.
Capı́tulo 52
Puntajes basados en el orden parcial
de casos
52.1.
Terminologı́a especial y definiciones
Sea un conjunto de elementos denotado por V = {a, b, c, . . . , } y una relación binaria definida en V denotada
por R.
a) Relación binaria. Una relación binaria R en V es tal que para cualesquiera dos elementos a, b ∈ V
aRb
Para una relación R en V existe una relación conversa R+ en V tal que
bR+ a
b) Relación reflexiva y antirreflexiva. Una relación R es reflexiva cuando
aRa
para todo a ∈ V
y R es antirreflexiva cuando
no(aRa)
para todo a ∈ V
c) Relación simétrica y antisimétrica. Una relación R es simétrica cuando R = R+ , esto es cuando
aRb ⇐⇒ bRa
para todo a, b ∈ V
y R es antisimétrica cuando no es simétrica para todo a 6= b.
d) Relación transitiva. Una relación R es transitiva cuando
aRb ∧ bRc =⇒ aRc
para todos a, b, c ∈ V
e) Relación de equivalencia. Una relación R definida en un conjunto de elementos V es una relación
de equivalencia cuando es:
reflexiva,
simétrica, y
transitiva.
Note que la relación comúnmente utilizada de “igualdad”, (=), definida en el conjunto de los números
reales es una relación de equivalencia.
390
Puntajes basados en el orden parcial de casos
f ) Relación de orden parcial estricto. Una relación R es un orden parcial estricto cuando satisface
las condiciones:
aRb y bRa no pueden ser satisfechas simultáneamente, y
R es transitiva.
Una relación de orden parcial estricto será notada de ahora en adelante por ≺ .
g) Conjunto parcialmente ordenado. Un conjunto V es un conjunto parcialmente ordenado si una
relación de orden parcial estricta “≺” es definida en él. Las propiedades fundamentales de un conjunto
parcialmente ordenado son:
a ≺ b ∧ b ≺ c =⇒ a ≺ c
para todos a, b, c ∈ V
a ≺ b y b ≺ a no pueden ser satisfechas simultáneamente.
h) Conjunto ordenado. Un conjunto V es un conjunto ordenado si hay dos relaciones “≈” y “≺”
definidas en él y que satisfacen los axiomas de orden:
para dos elementos cualquiera a, b ∈ V, una y sólo una de las relaciones a ≈ b, a ≺ b, b ≺ a es
satisfecha,
“≈” es una relación de equivalencia, y
“≺” es una relación transitiva.
En otras palabras, un conjunto ordenado es un conjunto parcialmente ordenado además de la relación
de equivalencia definida en él, y donde las condiciones “ni a ≺ b ni b ≺ a” y “a ≈ b” son equivalentes.
i) Subconjunto de elementos que dominan a un elemento a.
n
o
G(a) = g | g ∈ V; a ≺ g
j) Subconjunto de elementos dominados por un elemento a.
n
o
L(a) = l | l ∈ V; l ≺ a
k) Subconjunto de elementos comparables.
C(a) = G(a) ∪ L(a)
Note que G(a) ∩ L(a) = ∅.
l) Dominación estricta. Un elemento b domina estrictamente un elemento a si
a≺b
y
no(b ≺ a)
También se puede decir que “b es estrictamente mejor que a”, o que “a es estrictamente peor que b”.
52.2.
Cálculo de puntajes
Sea la lista de variables para ser utilizadas en el análisis notada por
{x1 , x2 , . . . , xi , . . . , xv }
y una lista de prioridades asociada a ella por
{p1 , p2 , . . . , pi , . . . , pv }.
Una relación de orden parcial construida en la base de esta colección de variables,
a ≺ b para cualquiera de los casos a y b
es equivalente a la condición
x1 (a) ≤ x1 (b), x2 (a) ≤ x2 (b), . . . , xv (a) ≤ xv (b)
52.3 Referencias
391
donde xi (a) y xi (b) indican el valor de la iésima variable para los casos a y b respectivamente.
Cuando se comparan dos casos, las variables cuya prioridad es la más elevada (valor de LEVEL más bajo)
se consideran primero. Si éstas determinan la relación de forma inequı́voca el procedimiento de comparación
termina. En caso de igualdad, la comparación continúa utilizando variables del nivel de prioridad siguiente.
Este procedimiento se repite hasta que la relación se determina en uno de los niveles de prioridad, o hasta
el final de la lista de variables.
Para cada caso a del conjunto analizado, el programa calcula:
N (a) =
número de casos que dominan estrictamente al caso a
N (a) =
N (a) =
número de casos equivalentes al caso a
número de casos estrictamente dominados por el caso a
y después uno (o dos) de los puntajes a continuación:
s1 (a) = S
N (a)
N (a) + N (a) + N (a)
r1 (a) = S − s1 (a)
s2 (a) = S
N (a) + N (a)
N (a) + N (a) + N (a)
r2 (a) = S − s2 (a)
s3 (a) = S
N (a)
N
r3 (a) = S
N (a) + N (a)
N
s4 (a) = S
N (a) + N (a)
N
r4 (a) = S
N (a)
N
donde
N
= número de casos en el conjunto analizado
S
= valor del factor de escala (ver el parámetro SCALE).
El parámetro ORDER selecciona los puntaje(s) como sigue:
ASEA
: r3 (a)
DEEA : s4 (a)
ASCA : r4 (a)
DESA
ASER
: s3 (a)
: s1 (a), r1 (a)
DESR
ASCR
: s1 (a), r1 (a)
: s2 (a), r2 (a)
DEER : s2 (a), r2 (a).
52.3.
Referencias
Debreu, G., Representation of a preference ordering by a numerical function, Decision Process, eds. R.M.
Thrall, C.A. Coombs and R.L. Davis, New York, 1954.
Hunya, P., A Ranking Procedure Based on Partially Ordered Sets, Internal paper, JATE, Szeged, 1976.
Capı́tulo 53
Correlación de Pearson
Notación
x, y
w
= valores de variables
= valor del peso
k
N
= subı́ndice para el caso
= número de casos válidos en x y y
W
= suma total de los pesos.
53.1.
Estadı́sticas pareadas
Están calculadas para las variables, tomadas por parejas (x, y) en el subconjunto de casos que tengan datos
válidos en x y y.
a) Suma ponderada ajustada. El número de casos, ponderados, con datos válidos en x y y.
b) Media de x.
X
x=
wk xk
k
W
Nota: la fórmula para la media de y es semejante.
c) Desviación estándar de x (estimada).
v
X
2
u
X
u
!" W
wk x2k −
wk xk #
u
u
N
k
k
sbx = t
N −1
W2
Nota: la fórmula para la desviación estándar de y es semejante.
d) Coeficiente de correlación. Momento producto r de Pearson.
X
X
X
W
wk xk yk −
wk xk
wk yk
k
k
k
rxy = v"
#"
#
u
X
2
X
X
X
u
2
2
2
t W
wk xk −
W
wk yk −
wk xk
wk yk
k
k
k
k
e) Prueba t. Esta estadı́stica se utiliza para probar la hipótesis que el coeficiente de correlación de la
población es cero.
√
r N −2
t= √
1 − r2
394
Correlación de Pearson
53.2.
Medias y desviaciones estándar no pareadas
Están calculadas variable por variable para todas las variables incluı́das en el análisis, utilizando las fórmulas
dadas en 1.a, 1.b y 1.c respectivamente, la diferencia en los resultados se debe en particular a la diferencia
de casos válidos.
a) Suma ponderada ajustada. El número de casos, ponderado, con datos válidos para x.
b) Media de x. Media de la variable x para todos los casos que tengan datos válidos para x.
c) Desviación estándar de x (estimada). La desviación estándar de la variable x para todos los casos
que tengan datos válidos para x.
53.3.
Ecuación de regresión para puntajes primarios
Calculada para todos los casos válidos para la pareja (x, y).
a) Coeficiente de regresión. Es el coeficiente no estandarizado de la regresión de y (variable dependiente) sobre x (variable independiente).
sby
Byx = rxy
sbx
b) Término constante.
A = y − Byx x;
53.4.
ecuación de regresión: y = Byx x + A
Matriz de correlación
Los elementos de esta matriz están calculados con base en la formula dada en 1.d arriba. Tenga en cuenta
que las desviaciones estándar que salen en la matriz de correlación, se calculan de acuerdo con la fórmula
dada en 1.c atrás (desviaciones estándar estimadas).
53.5.
Matriz de productos cruzados
Es una matriz cuadrada con los elementos siguientes:
X
CPxy =
wk xk yk
k
53.6.
Matriz de covariancia
Es la matriz que contiene los elementos a continuación:
COVxy = rxy sx sy
donde
sx =
v
u
u W X w x2 − X w x 2
u
k k
k k
t
k
k
W2
y sy se calcula de acuerdo con la fórmula análoga.
Nótese que la matriz de covariancia que produce PEARSON en un archivo no tiene elementos de la diagonal.
Para permitir su cálculo, las desviaciones estándar que produce esta matriz se calculan de acuerdo con la
fórmula anterior (desviaciones estándar no estimadas).
Capı́tulo 54
Ordenamiento de alternativas
Notación
i, j, l
m
=
=
subı́ndices para alternativas
número de alternativas
k
n
=
=
ı́ndice para el caso
número de casos
w
=
valor del peso.
54.1.
Manejo de los datos de entrada
Sea un conjunto de alternativas, A = {a1 , a2 , . . . , ai , . . . , am } y el conjunto de fuentes de información
(llamados de ahora en adelante evaluaciones) notado por E = {e1 , e2 , . . . , ek , . . . , en }.
En la práctica, los datos que proporcionan la información primaria sobre las relaciones preferenciales, pueden
presentarse de varias formas. El programa acepta, sin embargo, dos tipos básicos de datos: datos que representan una selección de alternativas y datos que representan una ordenación de alternativas. Todo otro tipo
de datos deberán ser transformados por el usuario antes de la ejecución del programa RANK.
a) Datos que representan una selección de alternativas. En este caso las evaluaciones representan
la selección de las alternativas preferidas y opcionalmente su orden de preferencia. En otras palabras,
todas las evaluaciones ek seleccionan un subconjunto Ak de A y opcionalmente ordenan sus elementos.
Por esta razón, Ak es un subconjunto de alternativas (ordenado, o desordenado), y las Ak constituyen
el dato individual primario:
o
n
Ak = aki1 , aki2 , . . . , akipk
donde
p
=
número máximo de alternativas que podı́an ser seleccionadas en una evaluación
pk
=
número de alternativas actualmente seleccionadas en la evaluación ek
y pk ≤ p < m .
b) Datos que representan una ordenación de alternativas por rangos. Las evaluaciones representan la ordenación de alternativas en todo el conjunto A ası́ como la atribución a cada una de ellas
de su número de rango. Formalmente, todas las evaluaciones ek dan un número de rango ρk (ai ) = ρki
para todas las alternativas. En este caso, los datos están proporcionados en la forma siguiente:
Pk = {ρk (a1 ), ρk (a2 ), . . . , ρk (am )}
396
Ordenamiento de alternativas
Note que una alternativa aki1 es “estrictamente preferida a” o “domina estrictamente” a otra alternativa
aki2 de acuerdo con los datos que provienen de la evaluación ek , si la primera tiene un rango superior
a la segunda. Igualmente, una alternativa aki1 “es preferida a” o “domina” otra alternativa aki2 de
acuerdo con los datos que provienen de la evaluación ek , si el rango de aki1 es al menos tan elevado
como el rango de aki2 . El valor “1” es considerado como el rango más elevado.
Solamente los datos descritos en el párrafo b) están dados en una forma que no requieren procesamiento
adicional. Los datos que figuran en párrafo a) son transformados a la forma de los del párrafo b). Esta
transformación hace una diferencia entre una preferencia estricta y una preferencia débil.
Cuando se trata de datos representando una selección de alternativas completamente ordenadas (preferencia
estricta), la regla de transformación, es la siguiente:
para ai ∈ Ak
ρk (ai1 ) = 1, ρk (ai2 ) = 2, . . . , ρk (aipk ) = pk
pk + 1 + m
ρk (ai ) =
2
para ai 6∈ Ak
Cuando se trata de datos que representan una selección desordenada de alternativas (preferencia débil), se
supone que todas las alternativas seleccionadas se encuentran al mismo nivel de preferencia. De acuerdo con
esta suposición, la regla de transformación es:
pk + 1
2
pk + 1 + m
ρk (ai ) =
2
para ai ∈ Ak
ρk (ai ) =
para ai 6∈ Ak
Como resultado de las trasformaciones definidas arriba, los datos de preferencia, (o prioridad en la selección)
toman para los pasos subsiguientes del análisis, la forma:


ρ11 ρ12 · · · ρ1i · · · ρ1m
 ρ21 ρ22 · · · ρ2i · · · ρ2m 


 ..
..
..
.. 
 .

.
.
.

P(n,m) = 
 ρk1 ρk2 · · · ρki · · · ρkm 


 .
..
..
.. 
 ..
.
.
. 
ρn1 ρn2 · · · ρni · · · ρnm
54.2.
Método basado en la lógica clásica
En este método, la matriz P se utiliza como si sus elementos fueran los datos iniciales del análisis. En lo que
se refiere al carácter estricto o débil de la relación de preferencia, debe notarse que la relación de preferencia
juega un papel solamente en los pasos que nos llevan a la matriz P. En los pasos subsiguientes del análisis, el
procedimiento está controlado por otros parámetros, tales como la diferencia de rangos para la concordancia
y la diferencia de rangos para la discordancia (ver abajo).
El procedimiento de ordenamiento basado en la lógica clásica, consiste de dos pasos mayores, a saber: a)
construcción de relaciones, y b) identificación de núcleos.
a) Construcción de relaciones. En este paso, dos relaciones “de trabajo” (la relación de concordancia
y la relación de discordancia) se construyen en primer lugar. Después, son utilizadas para construir
una relación final de dominación.
i) Las relaciones de concordancia y de discordancia se construyen a partir de la matriz
P(n,m) , y las reglas aplicadas en este proceso son esencialmente iguales para ambas relaciones.
Relación de concordancia. Se utilizan dos parámetros para crear una relación que refleje la
concordancia de la opinión colectiva que “ai es preferida a aj ”:
dc
=
pc
=
la diferencia de rangos para la concordancia (0 ≤ dc ≤ m − 1)
la proporción mı́nima de concordancia (0 ≤ pc < 1).
54.2 Método basado en la lógica clásica
397
La diferencia de rangos para concordancia, permite al usuario influir en la evaluación de datos
cuando construye las matrices de preferencias individuales
h
i
RCk (dc ) = rckij (dc )
donde i, j = 1, 2, . . . , m.
Los elementos de RCk (dc ), miden la dominación de ai sobre aj de acuerdo con la evaluación k, y
son definidos como sigue:
1 si ρkj − ρki ≥ dc
rckij (dc ) =
0 de otra forma.
La suma de estas matrices mide la dominación promedio de ai sobre aj y toma la forma de una
relación difusa descrita por la matriz
h
i
RC(dc ) = rcij (dc )
donde
rcij (dc ) =
X
k
wk rckij (dc )
X
wk
k
Note que mayores valores de dc nos llevan a reglas de construcción más rigurosas, ya que d1c < d2c
implica
rckij (d1c ) ≥ rckij (d2c )
y
rcij (d1c ) ≥ rcij (d2c )
Una proporción mı́nima de concordancia hace posible la transformación de una relación difusa
RC(dc ) en una relación no-difusa, llamada relación de concordancia, descrita por la matriz
h
i
RC(dc , pc ) = rcij (dc , pc )
los elementos de la cual están definidos como sigue:
1 si rcij (dc ) ≥ pc
rcij (dc , pc ) =
0 de otra forma.
La condición rcij (dc , pc ) = 1 significa que la opinión colectiva está de acuerdo con la expresión
“ai es preferida a aj ” al nivel (dc , pc ).
Nuevamente, es claro que al incrementar el valor de pc uno obtiene condiciones más estrictas de
concordancia.
Relación de discordancia. La construcción de la relación de discordancia sigue el mismo
camino que el que fue explicado para la concordancia. Los dos parámetros que controlan su
construcción son:
dd
=
pd
=
la diferencia de rangos para la discordancia (0 ≤ dd ≤ m − 1)
la proporción máxima de discordancia (0 ≤ pd ≤ 1).
Las relaciones individuales de discordancia se determinan primero en las matrices
h
i
RDk (dd ) = rdkij (dd )
donde i, j = 1, 2, . . . , m.
Los elementos de RDk (dd ), que miden la dominación de aj sobre ai de acuerdo a la evaluación k,
se definen como sigue:
1 si ρki − ρkj ≥ dd
rdkij (dd ) =
0 de otra forma.
La suma de éstas matrices mide la dominación promedio de aj sobre ai y tiene la forma de una
relación difusa descrita por la matriz
h
i
RD(dd ) = rdij (dd )
donde
rdij (dd ) =
X
k
wk rdkij (dd )
X
k
wk
398
Ordenamiento de alternativas
En lo que se refiere a la concordancia, el segundo parámetro (proporción máxima de discordancia),
permite al usuario transformar la relación difusa RD(dd ) en una relación no-difusa, llamada la
relación de discordancia, y que está descrita por la matriz
h
i
RD(dd , pd ) = rdij (dd , pd )
los elementos de la cual están definidos como sigue:
1 si rdij (dd ) > pd
rdij (dd , pd ) =
0 de otra forma.
La condición rdij (dd , pd ) = 1 significa que la opinión colectiva está en discordancia con la aserción
“ai es preferido a aj ”, es decir, que apoya a la expresión opuesta “aj es preferida a ai ”, al nivel
(dd , pd ). Esto puede ser interpretado como un “veto colectivo” contra la aserción “ai es preferida
a aj ”.
Note que mayores valores para dd y pd nos llevan a reglas de construcción menos rigurosas y por
tanto a condiciones más débiles de discordancia.
ii) La relación de dominación está compuesta de relaciones de concordancia y de discordancia.
La idea básica es que la expresión “ai es preferido a aj ” puede ser aceptada si la opinión colectiva
está en concordancia con ella, es decir, rcij (dc , pc ) = 1, y
no está en discordancia con ella, es decir, rdij (dd , pd ) = 0;
de otra forma esta expresión tiene que ser rechazada. Entonces, la relación de dominación, siendo
una función de cuatro parámetros, está descrita por la matriz R de m × m dimensiones
h
i
R = rij (dc , pc , dd , pd )
donde los elementos son obtenidos de acuerdo con la expresión
rij (dc , pc , dd , pd ) = mı́n rcij (dc , pc ), 1 − rdij (dd , pd )
rij es una función monotónicamente decreciente en los dos primeros parámetros, y creciente
monotónicamente en los dos últimos. Esto implica que:
incrementando las dc , pc y/o disminuyendo dd , pd , uno puede disminuir le número de conexiones en la relación de dominación, y
cambiando los parámetros en dirección opuesta uno puede crear más conexiones.
b) Identificación de núcleos. Los núcleos son subconjuntos de A (conjunto de alternativas) cuyos
elementos son alternativas no-dominadas. Una alternativa aj es no-dominada, sı́, y solo si
rij = 0 para todo i = 1, 2, . . . , m.
i) De acuerdo con este criterio, el núcleo del conjunto A (el núcleo de más alto nivel) es el subconjunto
n
o
C(A) = aj | aj ∈ A; rij = 0, i = 1, 2, . . . , m
Si C(A) = ∅ entonces todas las alternativas están dominadas.
Si C(A) = A entonces todas las alternativas no están dominadas.
ii) Para encontrar el núcleo siguiente, los elementos del núcleo precedente son eliminados primero
de la relación de dominación. Esto quiere decir que las filas y las columnas correspondientes son
eliminadas de la matriz relacional. La búsqueda de un nuevo núcleo se repite entonces en la
estructura reducida.
La aplicación sucesiva de i) e ii) crea una serie de núcleos Ac1 , Ac2 , . . . , Acq . Estos núcleos representan capas sucesivas de alternativas con rangos decrecientos en la estructura preferencial, mientras
que las alternativas pertenecientes al mismo núcleo se supone que tienen el mismo rango.
54.3.
Métodos basados en la lógica difusa: la relación de entrada
En el método de ordenamiento basado en la lógica difusa, la matriz P(n,m) se utiliza para construir: a)
relaciones preferenciales individuales, y b) relaciones de entrada (llamadas también “relaciones difusas”)
sobre el conjunto de alternativas A. En este contexto, el carácter estricto y débil de la relación de preferencia
juega un papel importante.
54.3 Métodos basados en la lógica difusa: la relación de entrada
399
a) Construcción de relaciones preferenciales individuales. Para cada evaluación ek una relación de
preferencia individual, que está dada implı́citamente en P, es transformada en una matriz de dimensión
m × m:
h
i
k
Rk = rij
donde i, j = 1, 2, . . . , m
en la cual
k
=
rij
1 si la expresión “ai es preferido a aj en la evaluación ek ” es cierta;
0 si la expresión es falsa.
Dependiendo del tipo de preferencia utilizado, la expresión “ai es preferido a aj en la evaluación ek ”
es equivalente a la desigualdad
ρki < ρkj
ρki ≤ ρkj
(preferencia estricta), o
(preferencia débil).
b) Construcción de la relación de entrada (relación difusa). La suma de las matrices de preferencia individual genera la matriz que representa una relación difusa en el conjunto de alternativas
A:
i
h
R = rij
donde
rij =
X
k
wk rij
k
X
wk
k
Cada elemento rij de R puede ser interpretado como la credibilidad de aserciones “ai es preferida a
aj ” en un sentido global, y sin referirse a una evaluación. Ası́, la siguiente interpretación general es
posible:
rij = 1
“ai es preferida a aj ” en todas las evaluaciones,
rij = 0
“ai es preferida a aj ” en ninguna de las evaluaciones,
0 < rij < 1 “ai es preferida a aj ” en una cierta porción de las evaluaciones.
c) Caracterı́sticas de la relación de entrada.
i) Difusion
no difuso :
difuso :
si rij = 0 o rij = 1 para todo i, j = 1, 2, . . . , m;
de otra forma.
ii) Simetrı́a
simétrico :
si rij = rji para todo i, j = 1, 2, . . . , m;
antisimétrico : si rij 6= 0 implica que rji = 0 para toda i 6= j;
asimétrico :
de otra forma.
iii) Reflexividad
reflexiva :
si rii = 1 para todo i = 1, 2, . . . , m;
antirreflexiva : si rii = 0 para todo i = 1, 2, . . . , m;
irreflexiva :
de otra forma.
iv) Tricotomia
tricótomo :
si rij + rji = 1 para todo i, j = 1, 2, . . . , m e i 6= j;
(normalizado)
atricótomo :
de otra forma.
(no normalizado)
400
Ordenamiento de alternativas
v) Índice de coherencia. Su valor, C, depende del orden de las filas y columnas en R, es decir,
en el orden de las alternativas en A, y −1 ≤ C ≤ 1.
X
(rij − rji )
i<j
C=X
(rij + rji )
i<j
El ı́ndice de coherencia absoluta es una modificación de C, independiente del orden. Su
valor, Ca , es una frontera superior para C y 0 ≤ Ca ≤ 1.
X
|rij − rji |
i<j
Ca = X
(rij + rji )
i<j
Los ı́ndices C y Ca son indicadores de la unanimidad en los datos de preferencia. La coherencia
completa se indica cuando C = 1, mientras que Ca = 0 indica una incoherencia total. El valor −1
para el ı́ndice C puede ser interpretado como un orden de alternativas opuesto al orden definido
por la relación difusa.
vi) Índice de intensidad. El ı́ndice I puede ser interpretado como un nivel de credibilidad promedio
de las expresiones “ai es preferida a aj ” o “aj es preferida a ai ”. En general, toma valores en
−1 ≤ I ≤ 2, mientras que en el caso de una preferencia estricta, toma valores en 0 ≤ I ≤ 1. En
caso que I = 1, ésto implica una relación normalizada (ver 3.c abajo) y significa que en todos los
datos de preferencia una de las expresiones arriba es válida para todas las parejas de alternativas.
X
(rij + rji )
i<j
I=
m(m − 1)/2
vii) Índice de dominación. Es también un ı́ndice que depende del orden, y toma valores en −1 ≤
D ≤ 1.
X
(rij − rji )
D=
i<j
m(m − 1)/2
Índice de dominación absoluta, en forma similar al ı́ndice de coherencia, se define como un
ı́ndice de dominación independiente del orden. Su valor, Da , es una frontera superior para D y
toma valores en 0 ≤ Da ≤ 1.
X
|rij − rji |
Da =
i<j
m(m − 1)/2
Los ı́ndices D y Da indican la diferencia promedio entre la credibilidad de las expresiones “ai es
preferida a aj ” y de sus expresiones opuestas “aj es preferida a ai ”.
Note que C, I, D y Ca , I, Da no son independientes entre ellos, a saber:
C ·I =D
y
Ca · I = Da
d) Matriz normalizada. Una matriz normalizada se obtiene a partir de la matriz R utilizando la
transformación siguiente:
0
rij
54.4.
=
(
rij
rij + rji
rij
si i 6= j y rij + rji 6= 0
de otra forma.
Método difuso-1: capas no dominadas
El método de ordenamiento basado en la lógica difusa supone una relación de preferencia difusa con una
función de pertenencia µ : A × A −→ [0, 1] en un conjunto dado A de alternativas. Esta función de pertenencia está representada por la matriz R (ver la sección 3 arriba). Los valores rij = µ(ai , aj ) deben de ser
54.4 Método difuso-1: capas no dominadas
401
interpretados como los grados en los cuales las preferencias expresadas por las aserciones “ai es preferida a
aj ” son ciertas.
Otra suposición es que:
en el caso de una preferencia débil, µ es reflexiva, es decir,
µ(ai , ai ) = rii = 1
para toda ai ∈ A
en el caso de preferencia estricta, µ es antirreflexiva, es decir,
µ(ai , ai ) = rii = 0
para toda ai ∈ A
El procedimiento del método difuso-1 busca un conjunto de alternativas no dominadas (notadas
como las alternativas ND), considerando dicho conjunto como el núcleo de alternativas de más alto nivel.
La razón es que las alternativas ND son: o equivalentes entre ellas, o no son comparables entre ellas sobre la
base de la relación de preferencia considerada, y no están dominadas en el sentido estricto por otras.
Para determinar un conjunto ND de alternativas difusas, dos relaciones difusas correspondientes a la relación
de preferencia R son definidas: una relación difusa de casi-equivalencia y una relación difusa de preferencia
estricta. Formalmente, están definidas como sigue:
relación difusa de casi-equivalencia Re :
Re = R ∩ R−1
relación difusa de preferencia estricta Rs :
Rs = R \ Re = R \ (R ∩ R−1 ) = R \ R−1
donde R−1 es la relación opuesta de la relación R.
Todavı́a más, las funciones de pertenencia siguientes están definidas para Re y Rs respectivamente:
µe (ai , aj ) = mı́n(rij , rji )
rij − rji cuando rij > rji
µs (ai , aj ) =
0
de otra forma.
Para una alternativa fija aj ∈ A, la función µs (aj , ai ) describe un conjunto difuso de alternativas que
están estrictamente dominadas por aj . El complemento de éste conjunto difuso, descrito por la función de
pertenencia 1 − µs (aj , ai ), es para una aj fija, el conjunto difuso de todas las alternativas que no están
estrictamente dominadas por aj . Entonces, la intersección de todos los complementos de conjuntos difusos
(sobre todas las aj ∈ A) representa el conjunto difuso de aquellas alternativas ai ∈ A que no están dominadas
estrictamente por cualquiera de las alternativas del conjunto A. Este conjunto se llama el conjunto difuso
µND de alternativas ND en el conjunto A. Ası́, de acuerdo con la definición de intersección
µND (ai ) = mı́n (1 − µs (aj , ai )) = 1 − máx µs (aj , ai )
aj ∈A
aj ∈A
El valor µND (ai ) representa el grado hasta el cual la alternativa ai no está estrictamente dominada por
cualquiera de las alternativas del conjunto A.
El núcleo de nivel más elevado de alternativas contiene aquellas alternativas ai que tienen el grado
más elevado de no-dominación o, en otras palabras, que dan un valor a µND (ai ) que es igual al valor:
M ND = máx µND (ai )
ai ∈A
El valor de M ND es llamado nivel de certeza correspondiente al núcleo definido por:
o
n
C(A) = ai | ai ∈ A; µND (ai ) = M ND
Los núcleos siguientes se construyen mediante una aplicación sucesiva del procedimiento descrito arriba. Los
elementos del núcleo inmediatamente anterior, son excluidos de la relación difusa, es decir, las filas y las
columnas correspondientes son excluidas de la matriz de relación difusa. Entonces, los cálculos se repiten en
la nueva estructura reducida.
402
Ordenamiento de alternativas
54.5.
Método difuso-2: rangos
La relación de entrada a éste método es la misma que para el método difuso-1, a saber: la matriz R que tiene
que ser reflexiva o antirreflexiva. Sin embargo la pregunta a la que tenemos que responder, es completamente
diferente.
El procedimiento del método difuso-2 busca los niveles de credibilidad, notados cjp , de las aserciones
“aj está exactamente en el pésimo lugar en la secuencia ordenada de alternativas en A”, denotada Tjp . Los
valores de las cjp forman una matriz M de dimensiones m × m que representan una función de pertenencia
difusa, en la cual las filas corresponden a las alternativas y las columnas a las posibles posiciones en la
secuencia 1, 2, . . . , m.
Para poder hacer posibles los cálculos de las cjp , éstas deben estar desglosadas en niveles de credibilidad
ya conocidos rij y por tanto las aserciones Tjp deben estar desglosadas en expresiones elementales con
niveles de credibilidad conocidos rij . Para ésto, añadiremos notaciones suplementarias. Note que para que
una alternativa aj se encuentre exactamente en el pésimo lugar significa que es preferida a m − p alternativas
y que está precedida por las p − 1 alternativas restantes. Cuando el subconjunto de alternativas después de
aj ha sido fijado, entonces
Ajm−p
Ajp−1
Aj
=
=
=
el subconjunto de aquellas alternativas sobre las cuales aj es preferida,
el subconjunto de alternativas que son preferidas a aj ,
el subconjunto A \ {aj }.
Obviamente,
Ajp−1 ∪ Ajm−p = Aj
Ajp−1 ∩ Ajm−p = ∅
y la expresión Tjp es equivalente a una secuencia de aserciones “aj es preferida a todos los elementos de
Ajm−p , y todos los elementos de Ajp−1 son preferidos a aj ”, conectados por el operador disyuntivo de lógica.
Todavı́a más, la aserción “aj es preferida a todos los elementos de Ajm−p ” es una conjunción de las expresiones
ya conocidas “aj es preferida a al ” con un nivel de credibilidad igual a rjl , para todos los elementos al de
Ajm−p .
Igualmente, la expresión “todos los elementos de Ajp−1 son preferidos a aj ” es una conjunción de las aserciones
ya conocidas “ai es preferida a aj ” con un nivel de credibilidad igual a rij , para todos los elementos al de
Ajm−p .
Si empleamos los operadores difusos correspondientes, los elementos de la matriz M pueden ser obtenidos
como sigue:
#
"
rjl , mı́n
rij
mı́n
mı́n
cjp = j máx
j
j
Am−p ⊆ Aj
al ∈Am−p
ai ∈Ap−1
El cálculo de los valores cjp se hace utilizando un procedimiento de optimización que genera una serie de
subconjuntos Ajm−p (manteniendo j y p fijos) incrementando monotónicamente en forma estricta los valores
de la función que tiene que ser maximizada en pasos sucesivos.
El programa proporciona dos formas de interpretar la matriz M.
Conjuntos difusos de rangos por alternativas.
Para cada alternativa aj , los valores de una función de pertenencia difusa muestran la credibilidad de tener
esta alternativa en el pésimo lugar (p = 1, 2, . . . , m). También, los rangos (lugares) más plausibles para cada
alternativa son listados.
Subconjuntos difusos de alternativas por rangos.
Para cada rango (lugar) p, los valores de una función difusa de pertenencia muestran la credibilidad de las
alternativas aj (j = 1, 2, . . . , m) de estar en ese lugar. También las alternativas más plausibles, candidatas
para ese puesto, son listadas.
54.6 Referencias
54.6.
403
Referencias
Dussaix, A.-M., Deux méthodes de détermination de priorités ou de choix, Partie 1: Fondements mathématiques, Document UNESCO/NS/ROU/624, UNESCO, Paris, 1984.
Jacquet-Lagrèze, E., Analyse d’opinions valuées et graphes de préférence, Mathématiques et sciences humaines, 33, 1971.
Jacquet-Lagrèze, E., L’agrégation des opinions individuelles, Informatique et sciences humaines, 4, 1969.
Kaufmann, A., Introduction à la théorie des sous-ensembles flous, Masson, Paris, 1975.
Orlovski, S.A., Decision-making with a fuzzy preference relation, Fuzzy Sets and Systems, Vol. 1, No 3, 1978.
Capı́tulo 55
Diagramas de dispersión
Notación
x
y
= valor de la variable que se va a trazar horizontalmente
= valor de la variable que se va a trazar verticalmente
w
k
= valor del peso
= subı́ndice del caso
N
= número total de casos
W
= suma total de los pesos.
55.1.
Estadı́sticas univariadas
Estas estadı́sticas que no son ponderadas se calculan para todas las variables indicadas en la pasada.
a) Media.
x=
X
xk
k
N
b) Desviación estándar.
sx =
55.2.
v
uX
u
x2k
u
t k
N
− x2
Estadı́sticas univariadas por parejas
Se calculan para el conjunto de casos que tienen datos válidos en x y y. Son estadı́sticas ponderadas si se
especifica una variable de peso.
a) Media.
x=
X
wk xk
k
W
Nota: la fórmula de la media de y es análoga.
406
Diagramas de dispersión
b) Desviación estándar.
sx =
v
uX
u
wk x2k
u
t k
− x2
W
Nota: la fórmula de la desviación estándar de y es análoga.
c) N. El número de casos, ponderado, con datos válidos en x y y.
55.3.
Estadı́sticas bivariadas
Están calculadas en el conjunto de casos con datos válidos en x y y.
a) Momento producto r de Pearson.
W
X
wk xk yk −
X
wk xk
X
wk yk
k
k
k
rxy = v"
#"
#
u
X
2
X
2
X
X
u
t W
wk x2k −
W
wk yk2 −
wk xk
wk yk
k
k
k
k
b) Estadı́sticas de regresión: constante A y coeficiente B.
A=
X
k
wk yk −
X
wk xk B
k
W
donde B es el coeficiente de regresión no estandarizado.
W
B=
X
k
wk xk yk −
W
X
k
X
k
wk x2k −
wk xk
X
k
X
k
wk xk
2
wk yk
La constante A y el coeficiente B se utilizan en la ecuación de regresión y = Bx + A para proyectar y
a partir de x.
Capı́tulo 56
Búsqueda de estructura
Notación
y
x
= valor de la variable dependiente
= frecuencia (ponderada) de la variable categórica dependiente
z
o valores (ponderados) de variables dependientes dicótomas
= valor de la covariada
w
= valor del peso
k
j
= subı́ndice para el caso
= subı́ndice para código de categorı́as de la variable dependiente
m
o subı́ndice para variables dicótomas dependientes
= número de códigos de la variable dependiente
g
o número de variables dicótomas dependientes
= subı́ndice de grupo; g = 1 indica toda la muestra
i
t
= subı́ndice de grupos finales
= número de grupos finales
Ng
Wg
= número de casos en el grupo g
= suma de pesos en el grupo g
Ni
Wi
= número de casos en el grupo final i
= suma de pesos en el grupo final i
N
W
= número total de casos
= suma total de pesos.
56.1.
Análisis de medias
Este método se puede usar cuando se analiza una variable dependiente (por intervalos o dicótoma) y varios
predictores. Busca crear grupos que permitan la mejor predicción de los valores de la variable dependiente
a partir del promedio de grupo. En otras palabras, los grupos creados deben suministrar las diferencias más
grandes entre medias de grupos. El criterio de división (variación explicada) se basa en las medias de grupos.
a) Estadı́sticas de huella. Son las estadı́sticas calculadas sobre toda la muestra (para g = 1) y sobre
divisiones tentativas de grupos padres ası́ como también para cada grupo que resulte de la mejor
división.
i) Suma (wt). Número de casos (Ng ) si no se ha especificado la variable de ponderación o número
de casos ponderado (Wg ) en el grupo g.
408
Búsqueda de estructura
ii) Med y. Valor medio de la variable dependiente y en el grupo g.
yg =
Ng
X
wk ygk
k=1
Wg
iii) Var y. Variancia de la variable dependiente y en el grupo g.
σy2g =
Ng
X
k=1
wk (ygk − yg )2
Wg −
Wg
Ng
iv) Variación. Suma de cuadrados de la variable dependiente (como en el análisis de variancia de
una entrada) en el grupo g.
Vg =
Ng
X
k=1
wk (ygk − yg )2
v) Var expl. La variación explicada se mide con la diferencia entre la variación en el grupo padre
y la suma de la variación en los dos grupos hijos. Suministra, para cada predictor, la cantidad de
variación explicada por la mejor división de este predictor, es decir, el valor más alto obtenido
sobre todas las posibles divisiones de este predictor.
Sean g1 y g2 dos subgrupos (grupos hijos) obtenidos en una división del grupo padre g, y Vg1 y
Vg2 sus variaciones respectivas. La variación explicada por esa división del grupo g se calcula ası́:
V Eg = Vg − (Vg1 + Vg2 )
Entonces, este valor se maximiza sobre todas las divisiones posibles del predictor.
vi) Variación explicada. Es el porcentaje de la variación total explicada por los grupos finales.
VE
VT
donde V E y V T son, respectivamente, la variación explicada por los grupos finales y la variación
total (ver 1.b adelante).
P orcentaje = 100
b) Análisis de una entrada de grupos finales. Son estadı́sticas de análisis de variancia de una entrada
calculadas para los grupos finales.
i) Variación explicada y GL. Es la cantidad de variación explicada por los grupos finales y los
grados de libertad correspondientes.
VE =VT −VN =VT −
t
X
Vi
i=1
GL = t − 1
ii) Variación total y GL. Variación total calculada para toda la muestra, es decir, para el grupo
1 y los correspondientes grados de libertad.
V T = V1
GL = W − 1
iii) Error and GL. Es la cantidad de variancia no explicada y los correspondientes grados de libertad.
VN =
t
X
Vi
i=1
GL = W − t
c) Tabla de resumen de separación. La tabla suministra valor medio de grupo, variancia y variación
de la variable dependiente en cada división ası́ como también la variación explicada por esa división
(ver 1.a atrás).
56.2 Análisis de regresión
409
d) Tabla de resumen de grupos finales. Esta tabla suministra valor medio, variancia y variación de
la variable dependiente para los grupos finales (ver 1.a atrás).
e) Porcentaje de variación explicada. El porcentaje de la variación total explicada por la mejor
división de cada grupo, se calcula ası́:
P orcentajeg = 100
V Eg
VT
Nótese que este valor es igual a cero para los grupos finales (indicados con un asterisco).
f ) Residuos. Los residuos son las diferencias entre el valor observado y el valor predicho de la variable
dependiente.
ek = yk − ybk
Como valor predicho, se asigna a un caso el valor medio de la variable dependiente para el grupo al
cual pertenece, es decir
56.2.
ybik = y i
Análisis de regresión
Este método se puede usar cuando se analiza una variable dependiente (por intervalos o dicótoma) con una
covariada y varios predictores. Busca crear grupos que permitan la mejor predicción de valores de la variable
dependiente a partir de la ecuación de regresión del grupo y el valor covariado. En otras palabras, los grupos
creados deben suministrar las diferencias más grandes en las lı́neas de regresión de grupo. El criterio de
división (variación explicada) se basa en la regresión de la variable dependiente sobre la covariada.
a) Estadı́sticas de huella. Son las estadı́sticas calculadas sobre toda la muestra (para g = 1) y sobre
divisiones tentativas de grupos padres ası́ como también para cada grupo que resulte de la mejor
división.
i) Suma (wt). Número de casos (Ng ) si no se ha especificado la variable de ponderación o número
de casos ponderados (Wg ) en el grupo g.
ii) Med y,z. Valor medio de la variable dependiente y y de la covariada z en el grupo g (ver 1.a.ii
atrás).
iii) Var y,z. Variancia de la variable dependiente y y de la covariada z en el grupo g (ver 1.a.iii
atrás).
iv) Pendiente. Es la pendiente de la variable dependiente y sobre la covariada z en el grupo g.
bg =
Ng
X
k=1
wk (ygk − y g )(zgk − z g )
Ng
X
k=1
wk (zgk − z g )2
v) Variación. Es el error o la suma residual de cuadrados al estimar la variable y por su regresión
sobre la covariada en el grupo g, es decir, una medida de la desviación alrededor de la lı́nea de
regresión.
Vg =
Ng
X
k=1
wk (ygk − y g )2 − bg ×
Ng
X
k=1
wk (ygk − yg )(zgk − z g )
donde bg es la pendiente de la lı́nea de regresión en el grupo g.
vi) Var expl. Variación explicada (VE). Ver 1.a.v atrás para información general y 2.a.v atrás para
detalles acerca de la V (variación) usada en el análisis de regresión.
vii) Variación explicada. Es el porcentaje de la variación total explicada por los grupos finales.
Ver 1.a.vi atrás y 2.b adelante.
410
Búsqueda de estructura
b) Análisis de una entrada de grupos finales. Son estadı́sticas resumen para los grupos finales. Ver
1.b. atrás para información general y 2.a.v y 2.a.vi atrás para detalles sobre las medidas de V y V E
usadas en el análisis de regresión.
c) Tabla de resumen de separación. La tabla suministra el valor medio de grupo, variancia y variación
de la variable dependiente en cada división ası́ como también la variación explicada por esa división.
También suministra el valor medio y variancia de la covariada. Ver 2.a atrás para fórmulas. Se calculan
las siguientes estadı́sticas de regresión para cada división:
i) Pendiente. Es la pendiente de la variable dependiente y sobre la covariada z en el grupo g (ver
2.a.iv atrás).
ii) Intercepto. Es el término constante en la ecuación de regresión.
ag = y g − b g z g
donde bg es la pendiente en el grupo g.
iii) Corr. Coeficiente r de la correlación de Pearson entre la variable dependiente y y la covariada z
en el grupo g.
rg =
Ng
X
k=1
wk (ygk − yg ) (zgk − z g )
q
σy2g σz2g
d) Tabla de resumen de grupos finales. Esta tabla suministra la misma información (a excepción de
la variación explicada) que la “Tabla de resumen de separación”, pero para los grupos finales.
e) Porcentaje de variación explicada. El porcentaje de la variación total explicada por la mejor
división para cada grupo (ver 1.e y 2.a.vi atrás).
f ) Residuos. Los residuos son las diferencias entre el valor observado y el valor predicho de la variable
dependiente.
ek = yk − ybk
Los valores predichos se calculan ası́:
ybik = ai + bi zik
donde ai y bi son coeficientes de regresión para el grupo final i.
56.3.
Análisis de Ji-cuadrada
Este método se puede usar cuando se analiza una variable dependiente (nominal u ordinal) o un conjunto de
variables dependientes dicótomas con varios predictores. Busca crear grupos que permitan la mejor predicción
de la categorı́a de la variable dependiente a partir de su distribución de grupo. En otras palabras, los grupos
creados deben suministrar las diferencias más grandes en las distribuciones de la variable dependiente. El
criterio de división (variación explicada) se calcula sobre la base de la distribución de frecuencias de la
variable dependiente. Nótese que las variables dependientes dicótomas múltiples se tratan como categorı́as
de una variable categórica.
a) Estadı́sticas de huella. Son las estadı́sticas calculadas sobre toda la muestra (para g = 1) y sobre
divisiones tentativas de grupos padres ası́ como también para cada grupo resultante de la mejor división.
i) Suma (wt). Número de casos (Ng ) si no se ha especificado la variable de ponderación o número
ponderado de casos (Wg ) en el grupo g.
ii) Variación. Es la entropı́a del grupo g, es decir, una medida del desorden en la distribución de
la variable dependiente.
Vg = −2
m
X
j=1
xjg· × ln
xjg·
x·g·
56.4 Referencias
411
donde
xjg· =
Ng
X
xjgk
k=1
x·g· =
m
X
xjg·
j=1
y xjgk es la “frecuencia” (codificada 0 o 1) del código j (o valor de la variable j) del caso k en
grupo g.
iii) Var expl. Variación explicada (VE). Ver 1.a.v atrás para información general y 3.a.ii atrás para
detalles sobre la V (variación) usada en el análisis de Ji-cuadrada.
iv) Variación explicada. Es el porcentaje de la variación total explicada por los grupos finales.
Ver 1.a.vi atrás y 3.b adelante.
b) Análisis de una entrada de grupos finales. Son estadı́sticas resumen para los grupos finales. Ver
1.b atrás para información general y 3.a.ii y 3.a.iii atrás para detalles sobre las medidas V y la V E
usadas en el análisis de Ji-cuadrada.
c) Tabla de resumen de separación. Esta tabla suministra la variación de la variable dependiente en
cada división ası́ como también la variación explicada por esa división. Ver 3.a.ii y 3.a.iii atrás para
las formulas.
d) Tabla de resumen de grupos finales. Esta tabla suministra la variación de la variable dependiente
para los grupos finales.
e) Porcentaje de variación explicada. El porcentaje de la variación total explicada por la mejor
división para cada grupo (ver 1.e atrás y 3.a.iii atrás).
f ) Distribución de porcentajes. Una tabla bivariada que muestra la distribución de porcentajes de la
variable dependiente para todos los grupos (Pjg ).
g) Residuos. Los residuos son las diferencias entre el valor observado y el valor predicho de la variable
dependiente.
Para el análisis con una variable categórica dependiente, los residuos se calculan para cada
categorı́a de la variable. Ası́, el número de residuos es igual al número de categorı́as.
ejk = xjk − x
bjik
Los valores observados, xjk , se crean como una serie de “variables ficticias”, codificadas 0 o 1.
Como valor predicho para la categorı́a j, se le asigna al caso un valor proporcional al número de casos
que están en esta categorı́a para el grupo al cual pertenece el caso, es decir:
x
bjik = Pji /100
Para el análisis con varias variables dependientes dicótomas, los residuos se calculan para cada
variable. Ası́, el número de residuos es igual al número de variables dependientes.
ejk = x0jk − x
bjik
Los valores observados se caculan ası́:
xjk
x0jk = m
X
xjk
j=1
Como valor predicho para la variable j, se le asigna al caso un valor proporcional al número de casos
que tengan valor 1 para esta variable en el grupo al cual pertenece el caso, es decir:
56.4.
x
bjik = Pji /100
Referencias
Morgan, J.N., Messenger, R.C., THAID A Sequential Analysis Program for the Analysis of Nominal Scale
Dependent Variables, Institute for Social Research, The University of Michigan, Ann Arbor, 1973.
Sonquist, J.A., Baker, E.L., Morgan, J.N., Searching for Structure, Revised ed., Institute for Social Research,
The University of Michigan, Ann Arbor, 1974.
Capı́tulo 57
Tablas univariadas y bivariadas
Notación
x =
valor de la variable de fila en tablas bivariadas
o valor de la variable en tablas univariadas
y
w
=
=
valor de la variable de columna en tablas bivariadas
valor del peso
k
=
subı́ndice para el caso
i =
j =
subı́ndice de la fila en tablas bivariadas
subı́ndice de la columna en tablas bivariadas
r
c
=
=
número de filas en tablas bivariadas
número de columnas en tablas bivariadas
fi·
f·j
=
=
frecuencia marginal de la fila i en una tabla bivariada
frecuencia marginal en la columna j de una tabla bivariada
N
=
número total de casos.
57.1.
Estadı́sticas univariadas
a) Wtnum. Número de la variable de ponderación, o cero si el peso no está especificado.
b) Wtsum. Número de casos si la variable de ponderación no está especificada, o número ponderado de
casos (suma de los pesos).
c) Moda. La primera categorı́a que contiene la frecuencia máxima.
d) Mediana. La mediana está calculada como un cuantil “n-tile” con dos subintervalos solicitados. Ver
el capı́tulo “Funciones de distribución y de Lorenz” para detalles.
e) Media.
X
wk xk
k
x= X
wk
k
f ) Variancia. Es un estimador insesgado de la variancia de la población.
sb2x =
N
N −1
!
X
k
wk (xk − x)2
X
k
wk
414
Tablas univariadas y bivariadas
g) Desviación estándar. Note que sbx no es en sı́ mismo un estimador insesgado de la desviación estándar
de la población.
sbx =
p
sb2x
h) Coeficiente de variación (C.var.).
Cx =
100 sbx
x
i) Asimetrı́a. La asimetrı́a de la distribución de x está medida por
g1 =
N
N −2
!
m3
p
2
sbx sb2x
!
donde m3 =
X
k
wk (xk − x)3
X
wk
k
Esta cifra es una medida de asimetrı́a. Distribuciones que son asimétricas hacia la derecha, es decir, la
cola se encuentra del lado derecho, tienen una medida de asimetrı́a positiva; distribuciones que tienen
una asimetrı́a cargada hacia la izquierda, tienen una medida de asimetrı́a negativa; una distribución
normal tiene asimetrı́a igual a cero.
j) Kurtosis. La kurtosis de la distribución de x está medida por
g2 =
N
N −3
!
m4
(b
s2x )2
!
− 3 donde m4 =
X
k
wk (xk − x)4
X
wk
k
La kurtosis mide el grado de picudez de una distribución. Una distribución normal tiene kurtosis igual a
cero. Una curva de punta aguda tiene una kurtosis positiva; las distribuciones de puntas menos agudas
que las de una distribución normal tienen una kurtosis negativa.
k) Cuantiles (n-tiles). Los puntos de separación de los n-tiles, se calculan de la misma forma que en el
programa QUANTILE.
57.2.
Estadı́sticas bivariadas
a) Ji-cuadrada. Ji-cuadrada es adecuada para probar la significación de las diferencias de las distribuciones entre grupos independientes.
χ2 =
X X (fij − Eij )2
Eij
i
j
donde
fij
= frecuencia observada en la celda ij
Eij
= frecuencia estimada (calculada) en la celda ij;
es el producto de la frecuencia de la fila i multiplicada
por la frecuencia en la columna j, dividida por el total N .
Para tablas de dos por dos, la χ2 se calcula de acuerdo con la formula siguiente:
χ2 =
N (|ad − bc| − N/2)2
(a + b)(c + d)(a + c)(b + d)
donde a, b, c, d representan las frecuencias en las cuatro celdas.
57.2 Estadı́sticas bivariadas
415
b) V de Cramer. La V de Cramer describe la fuerza de asociación en una muestra. Su valor se sitúa
entre cero, que refleja una independencia completa, y la unidad, indicando una dependencia total en
las cualidades.
s
χ2
V =
N (L − 1)
donde L = mı́n(r, c) .
c) Coeficiente de contingencia. Al igual que la V de Cramer, el coeficiente de contingencia se utiliza
para describir la fuerza de asociación en una muestra. Su lı́mite superior es una función del número de
categorı́as. El ı́ndice no puede alcanzar la unidad.
CC =
s
χ2
χ2
+N
d) Grados de libertad.
gl = (r − 1)(c − 1)
e) N ajustada. Es la N utilizada en los cálculos estadı́sticos, es decir, el número de casos con códigos
válidos. Será ponderada si una variable de peso ha sido especificada.
f ) S. S es igual al número de acuerdos en el orden, menos el número de desacuerdos en el orden. Para
una celda dada en una tabla, todos los casos en las celdas a la derecha y abajo están en acuerdo, todos
los casos a la izquierda y abajo están en desacuerdo. S es el numerador de la estadı́sticas tau y gama.
S=
r−1 X
c
X
i=1 j=1

fij 
r
X
c
X
h=i+1 l=j+1
fhl −
j−1
r
X
X
m=i+1 n=1

fmn 
donde fij , fhl y fmn son las frecuencias observadas en las celdas ij, hl y mn respectivamente.
g) Variancia de S. Es la variancia de S cuando hay ataduras. (Una atadura se presenta en los datos si
más de un caso aparece en una fila o en una columna dadas).
σs2
N (N − 1)(2N + 5) −
=
+
"
X
+
"
X
j
j
X
j
f·j (f·j − 1)(2f·j + 5) −
#"
f·j (f·j − 1)(f·j − 2)
18
X
i
X
i
#
fi· (fi· − 1)(2fi· + 5)
+
fi· (fi· − 1)(fi· − 2)
9N (N − 1)(N − 2)
#
#"
X
fi· (fi· − 1)
f·j (f·j − 1)
+
i
2N (N − 1)
h) Desviación estándar de S.
σs =
p
σs2
i) Desviación normal de S. Proporciona una prueba de significación de muestra grande para valores de
tau o gama con ataduras. El número menos uno en el numerador es una corrección para continuidad (si
S es negativa, el número uno es añadido). El número puede ser comparado a una tabla de distribución
normal. La prueba está condicionada por la distribución de ataduras.
Z=
S−1
σs
416
Tablas univariadas y bivariadas
j) Tau a. Tau a supone que no hay ataduras entre los datos, o que las ataduras, si las hay, representan
un “error de medida” que se refleja claramente a través de una disminución de intensidad de la relación
misma. Tau a tiene un rango que va de menos uno a más uno.
τa =
S
N (N − 1)
2
k) Tau b. Tau b es similar a tau-a, a excepción que las ataduras están permitidas, es decir, puede haber
más de un caso en una fila o columna dadas en la tabla bivariada. Tau b puede alcanzar la unidad
solamente cuando el número de filas es igual al número de columnas.
τb = s
S
N (N − 1)
− T1
2
N (N − 1)
− T2
2
donde
T1
=
hX
i
T2
=
hX
j
i
fi· (fi· − 1) / 2
i
f·j (f·j − 1) / 2
l) Tau c. Tau c es similar a Tau b exceptuando que si el número de filas no es igual al número de
columnas, tau b no puede alcanzar los valores más o menos la unidad, mientras que tau c puede
alcanzarlos.
τc =
S
1/2 N 2 [(L
− 1)/L]
donde L = mı́n(r, c).
m) Gama. La γ de Goodman-Kruskal es otra medida de asociación ampliamente usada que está relacionada estrechamente con la τ de Kendall. Puede variar de menos uno a más uno y puede ser calculada
aun cuando ataduras ocurren en los datos.
γ=
S
S+ + S−
donde
S
S+
S−
= S+ − S−
= número total de parejas en orden similar
= número total de parejas en orden diferente.
n) Ro de Spearman. Es el momento producto de correlación ordinaria de Pearson calculado sobre
los rangos. Varı́a de menos uno a más uno. La ro de Spearman calculada por el programa TABLES
incorpora una corrección para ataduras.
El factor de corrección, T , para un solo grupo de casos atados es:
T =
t3 − t
12
donde t es igual al número de casos atados en un rango dado, es decir, el número de casos en una fila
dada o en una columna dada.
La ro de Spearman se calcula
P 2 P 2 P 2
x + y − d
pP
ρs =
P 2
y
x2
2
57.2 Estadı́sticas bivariadas
417
donde
X
X
X
X
x2
=
y2
=
d2
=
N3 − N X
−
Tx
12
3
N −N X
−
Ty
12
X
(Xk − Yk )2
k
Tx
=
Ty
=
suma de las T para todas las columnas con más de un caso
Xk
Yk
=
=
rango del caso k en la variable fila
rango del caso k en la variable columna.
X
suma de las T para todas las filas con más de un caso
Note que cuando más de un caso ocurre en una fila (o columna) dada, el valor de las Xk (o las Yk ) para
casos atados, es el promedio de los rangos que hubieran sido asignados si no hubiera habido ataduras.
Por ejemplo, si hay 15 casos en la primera fila de una tabla, entonces a ésos 15 casos se les habrı́a
asignado un rango, es decir, valor de X de 8.
ñ) Lambda simétrica. Es una medida simétrica del poder de predicción; es adecuada cuando ni las filas
ni las columnas están especialmente designadas como las fuentes a partir de las cuales debe proyectarse
o ser conocidos en primer lugar. Lambda tiene un rango de cero a uno.
λsym =
X
máx fij +
j
i
X
j
máx fij − máx f·j − máx fi·
i
j
i
2N − máx f·j − máx fi·
j
i
donde
fij
máx fij
= frecuencia observada en la celda ij
= frecuencia máxima en la fila i
máx fij
= frecuencia máxima en la columna j
máx f·j
= frecuencia marginal máxima entre las j columnas
máx fi·
= frecuencia marginal máxima entre las i filas.
j
i
j
i
o) Lambda A, variable dependiente en fila. Esta lambda es adecuada cuando la variable de fila es
la variable dependiente. Es una medida de reducción proporcional en la probabilidad de error, cuando
se proyecta la variable fila, especificado por una categorı́a de columna. La lambda dependiente de fila
tiene un rango de cero a uno.
λrd =
X
j
máx fij − máx fi·
i
i
N − máx fi·
i
Vea más arriba la definición de los términos de esta fórmula.
p) Lambda B, variable dependiente en columna. Esta lambda es adecuada cuando la variable de la
columna es la variable dependiente. Toma valores en el intervalo cero a uno.
λcd =
X
i
máx fij − máx f·j
j
j
N − máx f·j
j
Vea más arriba la definición de los términos de esta fórmula.
418
Tablas univariadas y bivariadas
q) Estadı́sticas para medicina basada en evidencia (EBM). Se calculan para las tablas 2 x 2
donde la primera fila contiene las frecuencias de evento (a) y no-evento (b) para los casos en el grupo
experimental y la secunda fila contiene las frecuencias de evento (c) y no-evento (d) para los casos en
el grupo control.
Son calculadas las estadı́sticas siguientes:
Tasa de eventos en el grupo experimental
T EE = a/(a + b)
Tasa de eventos en el grupo control
T EC = c/(c + d)
Reducción absoluta del riesgo (Diferencia de riesgo)
RAR = |T EC − T EE|
Reducción relativa del riesgo
RRR = RAR/T EC
Número necesario a tratar
N N T = 1/RAR
Riesgo relativo (relación de riesgo)
RR = T EE/T EC
y su intervalo de confianza al 95 %
h
√ i
ICRR = exp ln(RR estimado) ± 1,96 T
donde la variancia estimada de ln(RR estimado) es
T =
d/c
b/a
+
a+b c+d
Razón de posibilidades (odds ratio)
RP = ad/bc
y su intervalo de confianza al 95 %
h
√ i
ICRP = exp ln(RP estimado) ± 1,96 V
donde la variancia estimada de ln(RP estimado) es
V =
1 1 1 1
+ + +
a
b
c d
r) Prueba exacta de Fisher. La prueba exacta de probabilidad de Fisher es una técnica no-paramétrica
muy útil para analizar datos discretos (que sean nominales o ordinales) a partir de dos muestras
independientes. Es utilizada cuando todos los casos de dos muestras aleatorias independientes caen en
una o en otra de dos categorı́as mutuamente exclusivas. La prueba determina si los dos grupos difieren
en la proporción en la cual se separan las dos clasificaciones.
La probabilidad de un resultado observado se calcula como sigue:
p=
(a + b)! (c + d)! (a + c)! (b + d)!
N ! a! b! c! d!
donde a, b, c, d representan la frecuencia en las cuatro celdas.
El programa TABLES calcula ambas probabilidades exactas relativas a una o dos colas, que son
llamadas “probabilidad de ocurrencia igual o extrema a la que fué observada” y “probabilidad de
ocurrencia extrema a la que fué observada en cualquier dirección” respectivamente.
57.2 Estadı́sticas bivariadas
419
s) Prueba de Mann-Whitney. La prueba U de Mann-Whitney puede ser utilizada para probar si dos
grupos independientes han sido seleccionados a partir de la misma población. Es la mejor alternativa
a la prueba paramétrica t cuando la medida es inferior al escalamiento por intervalos. En el programa
TABLES se requiere que la variable por fila sea la variable de agrupamiento dicotómica.
Sean
n1
n2
= número de casos en el grupo más pequeño de casos en los dos grupos
= número de casos en el segundo grupo
R1
R2
= suma de ordenaciones asignada al grupo con número de casos n1
= suma de ordenaciones asignada al grupo con número de casos n2 .
Entonces
U 1 = n1 n2 +
n1 (n1 + 1)
− R1
2
U 2 = n1 n2 +
n2 (n2 + 1)
− R2
2
y
U = mı́n(U1 , U2 )
Si hay más de 10 casos en cada grupo, el programa TABLES proporciona la aproximación Z (aproximación normal de U ) calculada como sigue:
Z= r
U − n1 n2 /2
n1 n2 (n1 + n2 + 1)
12
t) Prueba de rangos con signo de Wilcoxon. La prueba estadı́stica de Wilcoxon sirve para probar
la relación entre dos muestras y utiliza ambas informaciones, sobre la dirección y la magnitud relativa
de la diferencia entre parejas de variables.
La suma de rangos positivos, T + , se obtiene como sigue:
Las diferencias con signo dk = xk − yk se calculan para todos los casos.
Las diferencias dk son ordenadas con respecto al rango e independientemente de su signo. Los
casos en los cuales dk toma el valor cero son descartados. A las dk que están atadas, se les asigna
el promedio de los rangos atados.
A cada rango se le anexa el signo (+ o −) de la d que representan.
N 0 es el número de dk cuyo valor no es cero.
T + es la suma de las dk con signo positivo.
Si N 0 > 15, el programa calcula la aproximación Z (aproximación normal de T + ) como sigue:
Z=
T + − µT +
σT +
donde
µT + =
N 0 (N 0 + 1)
4
g
σT2 +
1X
N 0 (N 0 + 1) (2N 0 + 1)
−
nt (nt − 1) (nt − 2)
=
24
2 t=1
g
nt
=
=
y
número de grupos de diferentes rangos atados
número de rangos atados en el grupo t.
Note que la aproximación Z también está ajustada para los rangos atados. El uso de ésta, sin embargo,
no produce cambio alguno en la variancia cuando no hay ataduras.
420
Tablas univariadas y bivariadas
u) Prueba-t. El cociente t es adecuado para probar la diferencia entre dos medias independientes, es
decir, dos muestras independientes. La variancia está calculada en común.
t = s
yi − yh
ni + nh
+ nh s2h
ni + nh − 2
ni nh
ni s2i
donde
yi
yh
=
=
media de la variable de columna para casos en la fila i
media de la variable de columna para casos en la fila h
s2i
s2h
=
=
variancia de la muestra para la variable de columna para casos en la fila i
variancia de la muestra para la variable de columna para casos en la fila h.
Si se requieren las pruebas t, las desviaciones estándar de la muestra son calculadas para los casos en
cada fila como sigue:
si =
57.3.
sP
y2
− y 2i
ni
Nota sobre los pesos
Si se solicitan las estadı́sticas bivariadas y una variable de ponderación es especificada, se imprime una
indicación al respecto y las estadı́sticas se calculan utilizando los valores ponderados:
xk
x2k
=
=
wk xk
wk x2k
yk
yk2
=
=
N
=
fij
=
wk yk
wk y 2
X k
wk
k
la frecuencia ponderada en la celda ij.
Capı́tulo 58
Tipologı́a y clasificación ascendente
Notación
x
k
v
g, i, j
= subı́ndice para la variable
= subı́ndices para grupos
a
= número de variables activas (cuantitativas y cualitativas dicotomizadas)
p
t
= número de variables pasivas (cuantitativas y cualitativas dicotomizadas)
= número inicial de grupos
Ni
Nj
α
w
W
58.1.
= valores de variables
= subı́ndice para el caso
= número de casos en el grupo i ponderado si el peso del caso está especificado)
= número de casos en el grupo j (ponderado si el peso del caso está especificado)
= valor del peso de la variable
= valor del peso del caso
= suma total de los pesos del caso.
Tipos de variables utilizadas
El programa acepta variables cuantitativas y cualitativas (categóricas), estas últimas serán tratadas
como cuantitativas después de haber sido dicotomizadas en sus categorı́as respectivas, es decir, después
de la construcción de tantas variables dicotómicas (cero/uno) igual al número de categorı́as. Las variables
utilizadas por el programa pueden ser activas o pasivas. Las variables activas son aquellas sobre las cuales
la tipologı́a es construida. Las variables pasivas no participan en la construcción de la tipologı́a, pero el
programa imprime para estas las estadı́sticas principales dentro de los grupos de la tipologı́a.
Un conjunto de variables activas se denota aquı́, como Xa , y un conjunto de variables pasivas como Xp .
58.2.
Perfil de caso
El perfil del caso k es un vector Pk tal que
Pk = (xk1 , xk2 , . . . , xkv , . . . , xka ) = (xkv )
donde todas las xv ∈ Xa .
Si se requiere que las variables activas sean estandarizadas, el perfil de caso k se convierte en
x kv
Pk =
sv
donde sv es la desviación estándar de la variable xv (ver 7.b más abajo).
422
Tipologı́a y clasificación ascendente
58.3.
Perfil de grupo
El perfil del grupo i, conocido también como el barycentro de grupo, es un vector Pi tal que
Pi = (xi1 , xi2 , . . . , xiv , . . . , xia ) = (xiv )
y en caso de datos estandarizados se convierte en,
x iv
Pi =
sv
donde el numerador es la media de la variable xv de los casos que corresponden al grupo i y el denominador
es la desviación estándar de ésta variable.
58.4.
Distancias utilizadas
Hay tres tipos básicos de distancias utilizadas en este programa, que son la distancia en cuadra urbana
(“city block”), la distancia euclideana y la distancia Ji-cuadrada de Benzécri. Estas pueden ser utilizadas
para calcular las distancias entre dos casos, entre un caso y un grupo de casos y entre dos grupos de casos. A
continuación, estas distancias están definidas como distancias entre dos grupos (entre perfiles de dos grupos),
pero las otras distancias pueden ser obtenidas adaptando las formulas respectivas.
a) Distancia en cuadra urbana (“city block”).
dij = d(Pi , Pj ) =
a
X
v=1
αv |xiv − xjv |
a
X
αv
v=1
b) Distancia euclideana.
v
uX
u a
u
αv (xiv − xjv )2
u
u v=1
dij = d(Pi , Pj ) = u
a
u
X
t
α
v
v=1
c) Distancia Ji-cuadrada.
v
u a
uX 1 piv
pjv 2
−
dij = d(Pi , Pj ) = t
p
pi
pj
v=1 v
donde
pv =
t
X
xgv ,
pi =
g=1
piv =
xiv
t
a
XX
a
X
xiv ,
pj =
v=1
,
xgv
g=1 v=1
pjv =
a
X
xjv
v=1
xjv
t
a
XX
xgv
g=1 v=1
Todavı́a más, el programa proporciona la posibilidad de utilizar distancias “ponderadas”, llamadas
desplazamiento (displacement), que son definidas como sigue:
Dij = D(Pi , Pj ) =
2Ni Nj
dij
Ni + Nj
Note que el desplazamiento entre el perfil de dos casos es igual a su distancia ya que Ni = Nj = 1.
58.5 Construcción de una tipologı́a inicial
58.5.
423
Construcción de una tipologı́a inicial
a) Selección de la configuración inicial. Antes de comenzar el proceso de agregación de los casos, el
programa selecciona la configuración inicial, es decir, t perfiles iniciales de grupo, en una de las formas
siguientes:
los perfiles de casos de t casos escogidos al azar (con números aleatorios) constituyen la configuración de partida; para obtener la configuración inicial, los casos restantes se distribuyen en t
grupos como se describe más adelante;
los perfiles de casos de t casos escogidos por pasos constituyen la configuración de partida; para
obtener la configuración inicial, los casos restantes se distribuyen en t grupos como se describe
más adelante;
la configuración inicial es un conjunto de perfiles calculados para los casos distribuidos a lo largo
de las categorı́as de una variable clave;
la configuración inicial es un conjunto de perfiles de grupo proporcionados “a priori” por el usuario.
Cuando la construcción comienza a partir de t perfiles, el programa considera este conjunto de t
vectores, como un conjunto de t “casos de partida” y distribuye los casos restantes de acuerdo a la
distancia de cada uno de los casos de partida.
Notemos el conjunto de los t casos de partida por
o
n
Ppartida = Pk1 , Pk2 , . . . , Pkt
y la distancia entre grupos y/o casos i y j por D(Pi , Pj ).
Note que D(Pi , Pj ) puede ser cualquier distancia definida en sección 4 más arriba.
Para cada caso i 6∈ Ppartida el programa calcula
i
h
β = mı́n D(Pi , Pkj )
1≤j≤t
i
h
γ = mı́n D(Pk1 , Pk2 ), D(Pk1 , Pk3 ), . . . , D(Pkt−1 , Pkt )
Hay dos posibilidades:
β ≤ γ : el caso i queda asignado al grupo más cercano Pkj y el perfil de este grupo es calculado
nuevamente
Pkj = Pkj + Pi /2
β > γ : el caso i construye un nuevo grupo que es añadido al conjunto Ppartida , y los dos perfiles
más cercanos Pkj y Pkj0 se suman formando un nuevo grupo con el nuevo perfil
Pkj = Pkj + Pkj0 /2
Al final de este procedimiento, la configuración inicial es un conjunto de t perfiles
o
n
Pinicial = P1 , P2 , . . . , Pj , . . . , Pt
donde Pj es el perfil medio de todos los casos correspondientes al grupo j.
En esta etapa, el programa no toma en cuenta la ponderación de los casos, si ésta existe.
b) Estabilización de la configuración inicial. La configuración inicial es estabilizada por medio de
un proceso iterativo. En cada iteración, el programa redistribuye los casos entre los grupos iniciales
tomando en cuenta sus distancias de cada perfil de grupo.
Aquı́ también hay dos posibilidades:
cuando el caso i ∈ Pj y
h
i
D(Pi , Pj ) = mı́n D(Pi , Pg )
1≤g≤t
entonces el caso es mantenido en el grupo Pj ;
424
Tipologı́a y clasificación ascendente
cuando el caso i ∈ Pj pero
h
i
D(Pi , Pj 0 ) = mı́n D(Pi , Pg )
1≤g≤t
entonces el caso i es transferido del grupo Pj al grupo Pj 0 , y los perfiles de esos dos grupos son
calculados nuevamente como sigue:
Pj = (Nj Pj − Pi ) /(Nj − 1)
Pj 0 = (Nj 0 Pj 0 + Pi ) /(Nj 0 + 1)
Después de haber efectuado esta operación, el grupo Pj contiene Nj − 1 casos y el grupo Pj 0 contiene
Nj 0 + 1 casos.
Note que si los casos están ponderados, entonces:
Nj = Nj − wi
Nj 0 = Nj 0 + wi
Pi = wi Pi
en donde wi es igual al peso del caso i; Nj y Nj 0 son el número de casos ponderados en los grupos Pj
and Pj 0 respectivamente.
La estabilidad de los grupos está medida por el porcentaje de casos que quedan en el mismo grupo
entre dos iteraciones sucesivas.
El procedimiento se repite hasta que los grupos se estabilizan o hasta que el número de iteraciones
indicada por el usuario son efectuadas.
58.6.
Caracterı́sticas de distancias por grupos
a) N. Número de casos en cada grupo de la tipologı́a inicial.
b) Media. Distancia media para cada grupo, es decir, el promedio de las distancias del perfil de grupo
sobre todos los casos que partenecen a este grupo.
c) D.E. Desviación estándar de la distancia para cada grupo.
d) Clasificación de distancias. Distribución de casos en términos de frecuencia y porcentaje, a través
de 15 intervalos continuos que son diferentes para cada grupo.
e) Conteo total. Número total de casos que participan en la construcción de la tipologı́a inicial.
f ) Media. Distancia media total.
g) D.E. Desviación estándar total de la distancia.
h) Clasificación de distancias (lı́mites iguales para cada grupo). Igual que 6.d arriba, a la excepción que los 15 intervalos tienen el mismo espectro en todos los grupos.
58.7.
Estadı́sticas de resumen
Son calculadas para las variables cuantitativas y para las variables cualitativas activas.
a) Media. Media de las xv cuantitativas, tales que xv ∈ (Xa ∪ Xp ). Para las categorı́as de variables
cualitativas, es una proporción de casos en ésa categorı́a.
xv =
X
wk xkv
k
W
58.8 Descripción de la tipologı́a resultante
425
b) D.E. Desviación estándar.
sv =
v
2
u
u W X w x2 − X w x
u
k kv
k kv
t
k
k
W2
c) Peso. El valor de la ponderación calculada para cada variable es como sigue:
αv =
58.8.

0




1



 √








para variables cuantitativas pasivas
para variables cuantitativas activas
(c+1)/3
c
1
para categorı́as de una variable cualitativa activa, donde
c es igual al número de categorı́as con datos para ésta variable
para categorı́as de una variable cualitativa activa
si se usa la distancia Ji-cuadrada.
Descripción de la tipologı́a resultante
Al final de la construcción de la tipologı́a inicial, y también al final de cada paso de la clasificación ascendente,
todas las variables, es decir, activas y pasivas son evaluadas por una cantidad de variancia explicada. Es una
medida de poder discriminante de cada variable cuantitativa y de cada una de las categorı́as de las variables
cualitativas. Le sigue una descripción individual de todos los grupos de la tipologı́a.
a) Proporción de casos. Porcentaje multiplicado por 1000 de los casos que corresponden a cada grupo
de la tipologı́a.
b) Variancia explicada.
tg
X
i=1
VE(xv ) = X
k
2
Ni (xiv − xv )
wk (xkv − xv )2
× 1000
donde
tg
xiv
xv
= número de grupos en la tipologı́a
= media de la variable v en el grupo i
= media global de la variable v.
c) Media global.
Para variables cuantitativas, los valores medios como descrito en 7.a arriba.
Para cada categorı́a de las variables cualitativas, porcentaje de casos en esta categorı́a.
d) Estadı́sticas para cada grupo de la tipologı́a.
Para variables cuantitativas:
primera lı́nea: valores medios tal como están descritos en 7.a arriba;
segunda lı́nea: desviaciones estándar como están descritas en 7.b arriba.
Para cada categorı́a de las variables cualitativas:
primera lı́nea: porcentaje de casos de columna;
segunda lı́nea: porcentaje de casos de fila.
426
58.9.
Tipologı́a y clasificación ascendente
Resumen de la cantidad de variancia explicada por la tipologı́a
En forma similar a la descripción de la tipologı́a resultante, una tabla de resumen se imprime al final de la
construcción de la tipologı́a inicial y al final de cada paso de la clasificación ascendente.
a) Variables que explican el 80 % de la variancia. Presenta las variables con mayor poder discriminante - que, tomadas todas juntas - son responsables de la explicación de al menos el 80 % de la
variancia, junto con la cantidad de variancia explicada por cada una de ellas individualmente (ver 8.b
arriba).
b) Variancia explicada media por las variables activas.
VEactivas =
a
X
αv VE(xv )
v=1
a
X
αv
v=1
c) Variancia explicada media por todas las variables.
VEtodas =
a+p
X
αv VE(xv )
v=1
a+p
X
αv
v=1
d) Variancia explicada media por las variables que explican el 80 % de la variancia total.
Después de cada agrupamiento, el programa busca las variables que explican al menos el 80 % de la variancia total e imprime la variancia media explicada por ésas variables antes y después del agrupamiento
ası́ como el porcentaje de dichas variables.
58.10.
Clasificación jerárquica ascendente
Después de haber creado la tipologı́a inicial, el programa efectúa una serie de agrupamientos, reduciendo uno
por uno el número inicial de grupos hasta el número especificado por el usuario. A cada agrupamiento, el
programa selecciona los dos grupos más cercanos, es decir, dos grupos con la menor distancia o desplazamiento
(ver sección 4 arriba), y calcula el perfil para éste nuevo grupo.
a) Grupo i + j. Perfil del nuevo grupo, impreso hasta para 15 variables activas en orden descendiente
de su desviación (ver 10.d más abajo). Note que si hay menos de 15 variables activas, o menos de
15 variables con casos válidos en grupos agregados, el programa completa la lista utilizando variables
pasivas.
b) Grupo i. Perfil del grupo i, impreso para las mismas variables que están indicadas arriba.
c) Grupo j. Perfil del grupo j, impreso para las mismas variables que están indicadas arriba.
d) Desv. Valor absoluto de la diferencia entre perfiles de los grupos i y j, impreso para las mismas
variables que están indicadas arriba.
Desv(xv ) = |xiv − xjv |
e) Desviación ponderada. Desviación ponderada por el peso de la variable y por la desviación estándar,
impresa para las mismas variables que están indicadas arriba.
DesvP(xv ) = Desv(xv )
αv
sv
58.11 Referencias
58.11.
427
Referencias
Aimetti, J.P., SYSTIT: Programme de classification automatique, GSIE-CFRO, Paris, 1978.
Diday, E., Optimisation en classification automatique, RAIRO, Vol. 3, 1972.
Hall & Ball, A clustering technique for summerizing multivariate data, Behavioral Sciences, Vol. 12, No 2,
1967.
Apéndice
Mensajes de error de los programas
de IDAMS
Visión general
Se ha echo un esfuerzo para que los mensajes de error se expliquen por sı́ mismos. Este Apéndice esencialmente
describe el esquema de codificación utilizado para los mensajes de error.
Errores y advertencias
Los errores (E) siempre causan la terminación de la ejecución de programas de IDAMS; las advertencias
(W) alertan al usuario acerca de posibles anormalidades en los datos y/o proposiciones de control ası́ como
también, de una interpretación equivocada de los resultados. Los mensajes de error y de advertencia tienen
el formato siguiente:
***E* aaannn texto del mensaje de error
***W* aaannn texto del mensaje de advertencia
donde
nnn
es un número de tres dı́gitos, que empieza en 001 para las advertencias y en 101 para los errores;
aaa
indica de donde proviene el mensaje, según las reglas siguientes:
Mensajes de los programas: la primera letra del nombre del programa seguida de las dos consonantes siguientes del nombre del programa.
Mensajes de las subrutinas:
SYN
errores de sintaxis general;
RCD
errores y advertencias de sintaxis de Recode;
DTM
errores en datos y diccionario y advertencias acerca de los archivos de datos y diccionario;
SYS
errores y advertencias del Monitor;
FLM
errores y advertencias sobre el manejo de archivos.
430
Mensajes de error de los programas de IDAMS
Mensajes de error de ejecución que provienen de Fortran
Cuando se presentan errores durante la ejecución de un programa, Visual Fortran RTL arroja mensajes de
diagnóstico. Estos mensajes tienen el siguiente formato:
forrtl: severidad (número): texto
forrtl
severidad
número
texto
identifica la fuente como Visual Fortran RTL.
los niveles de severidad son: severo (debe corigirse), error (deberı́a corigirse), advertencia
(deberı́a investigarse), o info (sólo información).
es el número del mensaje, también el valor IOSTAT para proposiciones I/O (Entrada/Salida).
explica la causa del error.
Los mensajes de ejecución se explican por si mismo y por esta razón, no se listan aquı́.
Índice alfabético
agrupación de datos, 59, 97
análisis
basado en ordenamiento parcial de puntajes, 245,
389
de clasificación, 173, 293, 333, 421
de configuración, 179, 341
de correspondencias, 197, 353
de preferencias, 259, 395
de proximidades, 215, 367
de regresión, 205, 221, 361, 373
de segmentación binaria, 273, 407
de series de tiempo, 4, 323, 328
de variancia, 221, 239, 373, 385
discriminatorio, 185, 345
en componentes principales, 197, 353
factorial, 197, 353
análisis de variancia
multivariado, 231
análisis multivariado de variancia, 231
archivos
clasificación, 157
Datos, 5, 79
de datos, 12
de diccionario, 14
de matrices, 5, 16
del sistema, 80
permanentes, 80
del usuario, 79
Diccionario, 5, 79
especificación de, 23
intercalación, 157
jerárquicos, 12
Matriz, 79
nombre, 79
rectangulares, creación de, 57
Resultados, 79
Setup, 79
usados en WinIDAMS, 79
asimetrı́a, 354, 414
blancos
identificación, 112
recodificación por BUILD, 103
códigos
incorrectos/inválidos, especificación, 109
nombre de, 16
verificación, 89, 109
carpetas
en WinIDAMS, 80
por defecto, 80
casos
activos, 358
duplicados
eliminación con SUBSET, 163
tratamiento con MERGE, 151
eliminación, 129, 161, 165
excénticos
tratamiento por MCA, 226
tratamiento por SEARCH, 277
faltantes, tratamiento con MERGE, 150
fijación de número a procesar, 30
identificación con MERCHECK, 121
listado, 129, 145, 165
ordenamiento parcial, 245
pasivos, 360
selección de, 25
centrado de configuraciones, 179, 341
clasificación de alternativas, 259, 395
basada en la lógica clásica, 259, 396
basada en la lógica difusa, 259, 400, 402
clasificación de archivos, 157
clasificación de casos
basada en la lógica difusa, 174, 336
basada en repartición, 173, 174, 334, 336
jerárquica, 173, 174, 293, 337–339, 421
clasificación de objetos
basada en la lógica difusa, 174, 336
basada en repartición, 173, 174, 334, 336
jerárquica, 173, 174, 337, 338
clasificación jerárquica
ascendente, 174, 177, 293, 337, 421
basada en variables dicotómicas, 174, 177, 339
de casos, 293, 421
descendente, 174, 177, 338
por aglomeración, 174, 177, 337
por división, 174, 177, 338
cociente F, 223, 240, 387
coeficiente de Gini, 191, 350
coeficientes
B, 207, 254, 267, 364, 394, 406
beta, 207, 223, 364, 375
de contingencia, 281, 415
de correlación
múltiple, 207, 223, 363, 376
parcial, 207, 362
r de Pearson, 206, 253, 362, 393
de regresión, 207, 254, 267, 364, 394, 406
de variación, 361, 373, 375, 385, 414
eta, 223, 240, 375, 386
comandos de IDAMS
432
ÍNDICE ALFABÉTICO
$CHECK, 21
listado, 60, 145
$COMMENT, 22
no numéricos, edición, 103
$DATA, 22
numéricos
$DICT, 22
edición, 103
$FILES, 22
tratamiento de campos no numéricos, 13
$MATRIX, 22
reagrupamiento (ver agrupación), 97
$PRINT, 22
recodificación, 31, 59
$RECODE, 22
salvar datos recodificados, 165
$RUN, 23
transformación, 59, 165
$SETUP, 23
para recodificación, 31
comentario en el setup, 22
seguro con TRANS, 59
configuración
validación, 57, 58
análisis, 179, 341
verificación
centrado, 179, 341
de consistencia, 57, 59, 115
matriz de configuración, 179, 215, 295, 296, 341,
de intercalación, 57, 58
367
de orden de clasificación, 121, 161, 163
en entrada de CONFIG, 180
de valores, 57, 58, 109
en entrada de MDSCALE, 218
datos faltantes
en entrada de TYPOL, 296
asignación de códigos por Recode, 51
en salida de CONFIG, 180
códigos de, 13
en salida de MDSCALE, 217
declaración en el setup, 30
en salida de TYPOL, 295
definición, 13
normalización, 180, 341
eliminación por casos
proyección, 182
en PEARSON, 254
rotación varimax, 180, 343
en REGRESSN, 206
transformación, 180, 342
eliminación por pares
corrección
en PEARSON, 253
de datos, 57, 59, 88, 129
especificación en el diccionario, 15
de identificador de casos, 129
tratamiento con Recode, 34
Cramer (V de), 281, 306, 415
datos preferenciales
curva de Lorenz, 191, 350
selección de alternativas, 261
tipos de, 260
D de Sormer, 306
ddname, 23
dataset, definición en IDAMS, 11
modificación, 30
datasets
nombre por defecto, 30
construcción, 103
densidades,
318
copia, 161
desviación
estándar,
304, 345, 353, 361, 373, 374, 385,
importación, 89
393,
394,
405,
406, 414, 425
intercalación, 59, 149
determinación
de
prioridades,
259, 395
de diferente nivel, 59, 149
diagramas
de mismo nivel, 59, 149
agrupados, 320
preparación, 58
de caja y bigotes, 319
subdivisión, 60, 161
de dispersión, 198, 202, 267, 316
datos
tridimensional, 320
actualización, 129
diccionario
agrupación, 59, 97
archivos de, 5, 79
almacenamiento, 11
construcción, 86, 103
archivos de, 5, 79
correción, 86
conversión a modo binario, 13
descripción, 14
corrección, 57, 59, 88, 129
en el setup, 22
en el setup, 22
listado con LIST, 145
en IDAMS, 5
registros
entrada, 88
de códigos y nombres de categorı́as, 15
exportación, 90, 135
de tipo C, 15
formato DIF, 136
de tipo T, 15
formato libre, 90, 136
descriptor de diccionario, 14
formato, 11
descriptores de variables, 15
importación, 20, 89, 135
verificación, 86
formato DIF, 137
distancia
formato libre, 89, 137
ÍNDICE ALFABÉTICO
cuadra urbana, 176, 219, 297, 334, 371, 422
de Mahalanobis, 185, 346
euclideana, 176, 219, 297, 334, 370, 422
Ji-cuadrada, 297, 422
Durbin-Watson (estadı́stica de), 207, 365
factor de repetición en TABLES, 287
filtro, 25
colocación, 25
local, 25
en ONEWAY, 242
en QUANTILE, 194
ELECTRE (método de clasificación de alternativas),
en SCAT, 270
259, 396
en TABLES, 286
eliminación
principal, 25
de casos
reglas de codificación, 25
con CORRECT, 129
variables a usar, 26
con SUBSET, 161
variables alfabéticas., 26
con TRANS, 165
variables numéricas, 26
de casos duplicados con SUBSET, 163
variables R, 26
de variables
Fisher
con SUBSET, 161
prueba exacta de, 281, 418
con TRANS, 165
prueba F de, 207, 223, 240, 363, 387
esfuerzo en análisis de proximidades, 216, 368
frecuencias
estadı́sticas, cálculo de
bivariadas, 281, 305
bivariadas por TABLES, 281
univariadas, 281, 305
de residuos por MCA, 223
univariadas acumulativas, 281
para medicina basada en evidencia, 281
función
univariadas, 318
de distribución, 191, 349
interactivo, 304
de Lorenz, 191, 350
por AGGREG, 97, 98
discriminatoria lineal, 185, 346
por FACTOR, 198
funciones de Recode
por TABLES, 281
aritméticas, 37
exploración gráfica interactiva, 4, 313
lógicas, 45
exportación
de datos, 90, 135
gamma (estadı́stica), 281, 306, 416
de matrices, 135
Gini (coeficiente de), 191, 350
de tablas multidimensionales, 306
histogramas, 318
facilidades de análisis
análisis de componentes principales, 3, 197, 353 IDAMS
caracterı́sticas estándar, 5
análisis de configuración, 3, 179, 341
comandos, 21
análisis de conglomerados, 3, 173, 333
dataset, 11, 103
análisis de correspondencias, 3, 197, 353
construcción, 103
análisis de regresión, 3, 221, 373
exportación, 90
análisis de variancia, 3, 221, 373
importación, 89
análisis de variancia de una entrada, 3, 239, 385
datos
análisis discriminatorio, 3, 185, 345
exportación, 135
análisis factorial, 3, 197, 353
importación, 135
búsqueda de estructura, 4, 273, 407
diccionario, construcción, 103
clasificación jerárquica ascendente, 4, 293, 421
especificación de archivos, 23
correlación de Pearson, 4, 253, 393
GraphID, 4, 313
diagramas de dispersión, 4, 267, 405
matrices, 16
escalamiento multidimensional, 3, 215, 367
exportación, 135
exploración gráfica interactiva de datos, 4, 313
importación, 135
funciones de distribución y de Lorenz, 3, 191, 349
mensajes de error, 429
interactivo de series de tiempo, 4, 323
programas de, 2, 3
nubes de puntos, 4, 267, 405
proposiciones de control, 25, 61
ordenamiento de alternativas, 4, 259, 395
proposiciones de recodificación, 31, 61
puntajes basados en el orden parcial de casos, 3,
245, 389
setup, 21, 61
regresión lineal, 3, 205, 361
tablas multidimensionales, 4, 303
segmentación binaria, 4, 273, 407
TimeSID, 4, 323
tablas multidimensionales interactivas, 4, 303
identificador de caso
tablas univariadas y bivariadas, 4, 281, 413
corrección, 129
tipologia iterativa, 4, 293, 421
en LIST, 146
433
434
en MERGE (variables de emparejamiento), 154
importación
de datos, 20, 89, 135
de matrices, 135
impresión de resultados, 93
imprimir
tablas, 306
interacciones
construcción de una variable de combinación, 222
definición, 221
detección y tratamiento, 221
intercalación
de archivos, 157
de datasets, 59, 60, 149
de diferente nivel, 149
de mismo nivel, 149
Ji-cuadrada (prueba), 281, 306, 414
Kaiser (criterio de), 201
Kendall (taus de), 281, 306, 416
Kolmogorov-Smirnov (prueba de), 191, 350
kurtosis, 354, 414
lógica difusa
clasificación de alternativas, 259, 400, 402
clasificación de objetos, 174, 336
lambda (estadı́sticas), 281, 306, 417
lista de variables, reglas de codificación, 31
listado
de casos
con CORRECT, 129
con LIST, 145
con TRANS, 165
de datos con LIST, 60, 145
de diccionarios con LIST, 145
Lorenz
curva de, 191, 350
función de, 191, 350
Mahalanobis (distancia de), 185, 346
Man-Whitney (prueba de), 281, 419
manejo de datos
agrupación de datos, 2, 97
clasificación e intercalación de archivos, 2, 157
construcción de un dataset IDAMS, 2, 103
corrección de datos, 2, 129
importación o exportación de datos, 2, 135
intercalación de datasets, 2, 149
listado de datos, 2, 145
subdivisión de datasets, 2, 161
transformación de datos, 2, 165
verificación de códigos, 2, 109
verificación de consistencia, 2, 115
verificación de intercalación de datos, 2
verificación de intercalación de registros, 121
matriz
archivos de, 5, 16, 79
cuadrada, 17
descriptor, 17
ÍNDICE ALFABÉTICO
formato, 17
de configuración, 179, 215, 295, 296, 341, 367
en entrada de CONFIG, 180
en entrada de MDSCALE, 218
en entrada de TYPOL, 296
en salida de CONFIG, 180
en salida de MDSCALE, 217
en salida de TYPOL, 295
de correlación, 206, 254, 362, 394
en entrada de CLUSFIND, 175
en entrada de REGRESSN, 208
en salida de PEARSON, 255
en salida de REGRESSN, 207
de correlación parcial, 207, 362
de correlaciones, 355
de correspondencias, 355
de covariancia, 254, 394
en salida de PEARSON, 255
de covariancias, 355
de distancias, 180, 342
en salida de CONFIG, 180
de estadı́sticas, 281
de estadı́sticas bivariadas
en salida de TABLES, 284
de medidas de similitud/disimilitud, 173, 215,
334
en entrada de CLUSFIND, 175
en entrada de MDSCALE, 217
de productos cruzados, 207, 254, 361, 394
de productos escalares, 180, 342, 355
de relaciones, 197, 198, 260, 354, 399
en el setup, 22
exportación, 135
formato libre, 137
importación, 20, 135
formato libre, 137
inversa, 207, 362
programas que leen, 17, 18
programas que producen, 17, 18
proyección, 321
rectangular, 18
descriptor, 19
formato, 19
media, 304, 345, 353, 373, 374, 379, 385, 393, 394,
405, 413, 424
mensajes de error, 429
nombre
de códigos, 16
de variables, 15
normalización
de configuraciones, 180, 341
de la matriz de relaciones, 264, 400
nubes de puntos, 198, 202, 267, 316
palabras clave
estándar, 27
reglas de codificación, 29
tipos de, 28
parámetros
ÍNDICE ALFABÉTICO
colocación, 27
comunes, 30
BADDATA, 30
INFILE, 30
MAXCASES, 30
MDVALUES, 30
OUTFILE, 30
VARS, 31
WEIGHT, 30
formatos de especificación, 27
presentación en el Manual, 27
reglas de codificación, 29
valores por defecto, 28
Pearson (coeficiente r de), 206, 253, 362, 393
pesos, 30
ponderación de datos, 30
porcentajes
basados en el gran total, 281, 304
basados en totales de columna, 281, 304
basados en totales de fila, 281, 304
predictores, 221, 239, 273
preferencia
débil, 260
estricta, 260
programas
de análisis de datos, 3
de manejo de datos, 2
ejemplo de setup, 60
promedio, 333, 361
proposiciones de control
filtro, 25
parmetros, 27
reglas de codificación, 25
tı́tulo, 27
proposiciones de Recode, 31
asignación, 46
condicionales, 50
control, 48
definición/asignación, 50
verificación, 35, 165
proposiciones, ejemplo de setup, 60
proyección
de casos, 198, 267, 316
de variables, 198
prueba
de Durbin-Watson, 207, 365
de Kolmogorov-Smirnov, 191, 350
de Man-Whitney, 281, 419
de Wilcoxon, 281, 419
exacta de Fisher, 281, 418
F de Fisher, 223, 240, 387
Ji-cuadrada, 281, 306, 414
t de Student, 281, 420
puntajes
calculados por FACTOR, 198
calculados por POSCOR, 246
quantiles, 193, 283, 349, 414
reagrupamiento de datos con AGGREG, 97
435
Recode
constantes (tipos de), 35
expresiones, 36
aritméticas, 36
lógicas, 36
forma de proposiciones, 33
funciones aritméticas, 37
funciones lógicas, 45
iniciación de valores de variables, 34
lenguaje, elementos de, 35
operadores
aritméticos, 35
lógicos, 36
relacionales, 36
operandos básicos, 35
proposiciones, 46, 48
reglas de codificación, 33
restricciones, 54
tratamiento de datos faltantes, 34
variables V y R, 35
Recode, funciones aritméticas
ABS, 37
BRAC, 37
COMBINE, 38
COUNT, 39
LOG, 39
MAX, 40
MD1, MD2, 40
MEAN, 40
MIN, 40
NMISS, 41
NVALID, 41
RAND, 41
RECODE, 41
SELECT, 42
SQRT, 43
STD, 43
SUM, 43
TABLE, 43
TRUNC, 44
VAR, 45
Recode, funciones lógicas
EOF, 45
INLIST, 45
MDATA, 46
Recode, proposiciones
BRANCH, 48
CARRY, 51
CONTINUE, 48
DUMMY, 47
ENDFILE, 48
ERROR, 49
GO TO, 49
IF, 50
MDCODES, 51
NAME, 51
REJECT, 49
RELEASE, 49
RETURN, 49
436
SELECT, 47
recodificación
de blancos con BUILD, 103
de datos, 31, 59
salvar variables recodificadas, 165
registros
duplicados, identificación y corrección, 122
eliminados, tratamiento, 122
faltantes, detección y reemplazo, 122
identificación en MERCHECK, 121
inválidos, identificación y corrección, 122
regresión, 205, 361
con variables categóricas, 205, 221
con variables ficticias, 205, 221
lı́neas de, 318
lineal múltiple, 205, 361
por pasos, 205, 365
por pasos descendente, 205, 366
repartición
alrededor de medoides, 174, 177, 334, 336
basada en la lógica difusa, 174, 177, 336
residuos, 206, 221, 273, 376, 409–411
en salida de MCA, 224
en salida de REGRESSN, 208
en salida de SEARCH, 274
ro de Spearman, 281, 416
rotación varimax
de configuraciones, 180, 343
de factores, 198, 360
salvar
datos recodificados, 165
variables recodificadas, 165
segmentación binaria, 273, 407
selección
de casos, 25
de variables, 31
series de tiempo
análisis, 323, 328
autoregresión, 328
correlaciones, 328
espectro, 328
espectro cruzado, 328
estadı́sticas, 328
filtros de frecuencia, 329
proyección, 326
transformación, 327
setup
archivos de, 5, 79, 91
comentarios, 22
ejecución, 92
preparación, 91
Sormer (D de), 306
Spearman (ro de), 281, 416
Student (prueba t de), 207, 281, 365, 420
subdivisión de datasets, 60, 161
sumas de cuadrados, 207, 223, 240, 361, 374, 386
tı́tulo
colocación, 27
ÍNDICE ALFABÉTICO
reglas de codificación, 27
tablas
bivariadas, 281, 305, 413
de 3 y 4 entradas, 281
de contingencia, 281, 413
de estadı́sticas en salida de TABLES, 284
de factores, 198, 356
de frecuencias bivariadas, 281
de frecuencias univariadas, 281
de frecuencias univariadas acumulativas, 281
multidimensionales, 305
univariadas, 281, 305, 413
tau (estadı́sticas), 281, 306, 416
tipologı́a iterativa, 293, 421
transformación
de configuraciones, 180, 342
de datos, 59, 165
para recodificación, 31
seguro con TRANS, 59
de series de tiempo, 327
V de Cramer, 281, 306, 415
validación de datos, 57, 58
valores excéntricos
tratamiento por MCA, 226
tratamiento por SEARCH, 277
valores no numéricos, tratamiento, 30
valores propios, 355, 356
valores residuales, 206, 221, 273, 376, 409–411
en salida de MCA, 224
en salida de REGRESSN, 208
en salida de SEARCH, 274
variable
de clasificación producida por TYPOL, 295
de combinación, 222
de grupo, 187
de muestra, 187
variables
activas, 197, 293, 356, 421
agrupadas, 97
alfabéticas, 13
categóricas
en MCA, 221
en REGRESSN, 205, 211
nombres de códigos, 16
con decimales, 12
construidas por POSCOR, 246
cualitativas, nombres de códigos, 16
de control, 97, 221, 239
eliminación, 161, 165
ficticias
en MCA, 221
en REGRESSN, 205, 211
lista de, 31
colocación, 31
reglas de codificación, 31
localización en los registros, 15
nombre de, 15
asignación por Recode, 51
numéricas, 12
ÍNDICE ALFABÉTICO
corrección, 129
edición, 14, 103
tratamiento de campos no numéricos, 13
tratamiento por BUILD, reglas de, 103
pasivas, 197, 293, 358, 421
referencia a, 12
salvar variables recodificadas, 165
selección de, 31
suplementarias, 197
variancia, análisis de, 221, 239, 373, 385
varimax
rotación de configuraciones, 180, 343
rotación de factores, 198, 360
vectores propios, 355
verificación
de códigos con ayuda de registros C, 89, 109
de consistencia, 57, 59, 115
de intercalación de datos, 57, 58
de proposiciones Recode, 35, 91, 165
de valores de datos, 57, 58, 109
del orden de clasificación de datos, 121, 161, 163
Wilcoxon (prueba de), 281, 419
WinIDAMS
archivos, 79
carpetas, 80
personalización del ambiente, 83
437
Descargar