INFORME CARRERA: Ingeniería de Ciencias de la Computación
ASIGNATURA: ASIGNATURA: Algebra Lineal
NRO. PRÁCTICA: 1 TÍTULO PRÁCTICA: Ordenamiento, resumen y presentación de datos APELLIDOS Y Alvarez Flores Jonathan Andres NOMBRES Camacho Morales Alexander W ladimir Fecha de realización: 13/04/2017 Fecha de entrega: 20/04/2017 OBJETIVOS:
Identificar los diferentes diferentes tipos de variables que se se pueden encontrar en un conjunto de datos. datos. Ordenar y resumir resumir los datos a través través de la distribución de frecuencias. Conocer e interpretar diversos tipos de representaciones gráficas, valorar sus ventajas e inconvenientes, y seleccionar la más adecuada en cada caso según sea la finalidad que se pretenda. Utilizar R para ordenar, resumir y presentación de un conjunto de datos.
DESARROLLO MAR MA RCO TE RICO ICO Los principales conceptos que se introducen en este tem a son:
Población: es el colectivo cuya descripción es el objetivo final del análisis estadístico. Muestra: es un subconjunto representativo de la población sobre el que se obtiene la información empírica que constituye la masa de datos.
Estadística Descriptiva e Inferencia I nferencia Estadística: El análisis descriptivo puede realizarse con datos muéstrales o con censos poblacionales, mientras que la inferencia trabaja con la i nformación que proporcionan los datos muéstrales, para llegar a conclusiones acerca de la población. Tipos de datos: si la característica observada es cuantificable se genera una v ariable, cuando la característica es cualitativa se genera un atributo; si los datos están ref eridos al mismo instante de tiempo se denominan de corte transversal, pero si se observa el comportamiento de la característica en el tiempo se denominan series temporales. Si se analiza una sola variable o atributo los datos son unidimensionales, si son dos o m ás conjuntamente los datos son bidimensionales o multidimensionales. multidimensionales.
Distribución de frecuencias: es la técnica para resumir o tabular los datos. Representación gráfica de los datos: en particular el histograma y el polígono de frecuencias, por el interés que presentan como base empírica para la especificación especificación de un modelo teórico. Se hace referencia, asimismo, a otros tipos de gráficos como el diagrama de barras diagrama de sectores, éstos permiten explorar la distribución distribución de frecuencias de los datos e identificar las medidas de síntesis más adecuadas para su descripción.
PROCEDIMIENTO
Lea detenidamente las instrucciones y sígalas paso a paso. Realice una captura de pantalla de cada ejecución.
Argumente adecuadamente sus respuestas, para ello relacione los ejercicios con los conceptos y definiciones aprendidos.
¡Tomar en cuenta! -
Texto azul: sintaxis del código en R Texto en rojo: nombres v ariables o parámetros que se tienen que modificar TA – trabajo autónomo fuera del laboratorio
1. Se registran los ingresos anuales de 20 familias ecuatorianas. Los resultados se muestran en la tabla 1 y
los valores están en miles de dólares.
a) Introducir los datos de la variable “ingresos” en un v ector en R. b) Ejecutar el comando summary(ingresos ) y contestar a las preguntas:
¿Qué función tiene el comando summary? Muestra los datos estadísticos de medidas de tendencia.
¿Qué datos proporciona los resultados de este comando? El valor mínimo, Valor máximo, Media, Moda.
2. Importación de datos:
a) b)
Descargar del AVAC el archivo ejercicio.csv. y guárdelo en la carpeta del directorio de trabajo de R. Para importar los datos a R se utilizará el comando read.csv2, de acuerdo a la siguiente sintaxis: datos.alumnos<-read.csv2("cambiar_path_del_fichero/ejercicio.csv", dec=',') Tomar en cuenta que R utiliza / para especificar el path de directorios o ficheros en vez de \
utilizado por Windows. c)
Compruebe la estructura del fichero a través del comando: class(datos.alumnos)
Indique y explique el tipo de estructura que tienen los datos.
Lo que indica que los datos estan en filas y columnas y que contiene distintos tipos de datos. d)
Indicar la dimensión de los datos. Es decir, el número de datos y de variables del conjunto de datos. dim.datos<-dim(datos.alumnos). Guardar estos valores en dos variables: n.ind=dim.datos[ 1] y n.var=dim.datos[2]
e)
Investigue otras formas de importar datos en R (TA)
datos.txt <- read.delim("Direccion del archivo que se va a importar.txt", header = TRUE, sep = "\t") Web<"http://people.cst.cmich.edu/lee1c/spss/V16_materials/DataSets_v16/Diseaseoutbreak.txt" datosWeb1 <- read.table(Web) # o puede escribirse la dirección directamente dentro read.table(file = "ejemplo1.txt", header = TRUE, sep = "\t", dec = ".") library(foreign) dspss <- read.spss("DatosSPSS.sav", to.data.frame = T) stata <- read.dta("datosStata.dta")
3. Tipos de Variables a)
Enumere los nombres de variables que tienen los datos, para ello utilice el comando: names(datos.alumnos)
b)
Ejecute el comando: datos.alumnos$nombre_de_cualquie_variable ¿Qué resultado arrojó?
Arrojo los resultados correspondientes a los datos de la columna seleccionada en este caso edad c)
Ejecute directamente el nombre de cualquier variable en la ventana de comandos. Indique lo que sucedió. No arroja resultados y muestra un error ya que no hemos usado la referencia datos.alumno
d) Ahora ejecute el comando: attach(datos.alumnos) y vuelva a ejecutar el nombre de cualquier
variable en la ventana de comandos y explique que función realiza el comando attach. Nos muestra directamente los resultados la función de Attach separa las variables poniéndolas directamente en el workspace para que se puedan usar de manera mas fácil como si fueran variables. e)
Para
cada
variable
indique su tipo, para ello puede ayudarse del comando: class(nombre_de_la_variable) Explique ¿Por qué la variable tipo “Medio_transporte” es una variable cualitativa?¿Qué representan los valores de esta variable? El medio de transporte es cualitativa ya que todas las personas usan medios de transporte diferente y es de tipo Integer ya que un número representa a cada uno de los medios de transporte diferentes.
4. Distribución de frecuencias y gráficos – Variables Cualitativas:
a)
Ejecute el comando fabs1<-table(Lugar_residencia) y comando.
explique
qué
función realizó este
El comando fabs logró sacar la frecuencia absoluta de la v ariable indicada. b)
c)
Para obtener las frecuencias relativas basta con div idir las frecuencias absolutas para el núm ero total de datos. frel1<-fabs1/n.ind El porcentaje de frecuencias relativas se obtiene multiplicando por 100 las frecuencias relativas. frel1_percent<-frel1*100
d)
Ejecutar los comandos de la tabla e indicar el tipo de gráfico que se obtiene:
Sintaxis arp ot a s1, y a = Frecuenc as main="Gráfico de ....")
Tipo de Gráfico a so utas ,
Barras
barplot(frel1, ylab="Frecuencias main="Gráfico de ....") p ot re 1, frecuencias relativas")
relativas",
type= , ma n= Po gono e relativas", ylab="Frecuencias
Barras Polígono
otc art re 1, a e s=c zona_1 , zona_2 , zona_3", " zona_4","zona_5"), main="Grafico de ...")
Dispersión
pie(fabs1,col=rainbow(5), main="Grafico de .. .")
Pastel
Tabla 1. Sintaxis de gráficos
Guarde las imágenes e inclúyalas en el informe.
e)
Investigue las diferentes opciones que of recen los diferentes tipos de gráficos (TA).
stripchart(x)
boxplot(x)
f)
Realice este procedimiento con las variables: “Género” y “Medio_transporte”. Cambiando para cada caso los nombres de los v ariables que correspondan. (TA)
5. Distribución de frecuencias y gráficos – Variables Cuantitativas:
Variables Discretas a)
Obtenga la tabla de frecuencias absolutas y relativas de la variable “Miembros_familia”. Siga los mismos pasos que se realizaron en el caso de las variables cualitativas.
b) Para obtener la tabla de frecuencias acumuladas ejecute el siguiente: comando: facum.rel2
c) d)
Ejecute los comandos de Tabla 2, utilizando la tabla de frecuencias absolutas, relativas y acumuladas. Repita el procedimiento con la v ariable “Tiempo_viaje” (TA)
Variables Continuas Para trabajar con variables continuas en la mayoría de casos será necesario el uso de intervalos. a) Ejecute el comando: fabs3<-table(cut(Nota_acceso, breaks=7)) Explique qué función realiza el comando cut y para qué sirve el parámetro breaks.
Sirve para dividir los datos de la tabla en intervalos y el comando break da la amplitud del i nterval b)
Para encontrar la tabla de frecuencias relativas y frecuencias relativas acumuladas se debe ejecutar los comandos: frel3<-fabs3/n.ind y facum.rel3<-as.table(cumsum(frel3)) respectivamente.
c) Para graficar un histograma solo se debe ejecutar el comando: hist(Nota_acceso)
d)
Realizar este procedimiento para la variable: “Ingreso_mensual” (TA)
CONCLUSIONES: Mediante el manejo del programa R, podemos concluir que su uso es muy práctico y eficiente ya que permite leer un archivo lleno de datos y a su vez se encarga de informar que tipo de dato es y de igual manera saca los datos estadísticos de cada variable que se encuentre en dicho documento. Gracias a la función de graficar se pudo observar los distintos gráficos que se puede obtener en R, solo se debe introducir distintos comandos para poder ejecutar gráficos tales como barras, polígonos, histogramas entre otros que a la hora de estudiar los datos obtenidos son muy útiles. RECOMENDACIONES : Si se quiere borrar las variables declaradas antes se tiene que crear una copia de seguridad ya que luego se puede necesitar de nuevo Se recomienda que después de cada ejecución para obtener grafico se guarde la imagen mediante la herramienta exportar, donde te permite guardar la imagen en el lugar que se quiera, así se evitara perder el grafico obtenido.