lunes, 16 de julio de 2012

UNIDAD I, II Y III DE PROBAVILIDAD Y ESTADISTICA

I UNIDAD

LOS DATOS Y LA ESTADISTICA

ESTADÍSTICA PARA ADMINISTRACIÓN Y ECONOMÍA

Estadística: Es la ciencia de recolectar, organizar, presentar, analizar e interpretar datos para ayudar en una toma de decisiones más efectiva. Se presenta en dos formas:

·         Información numérica

Ej. Promedio de autos Ford vendidos por mes el año pasado.

·         En forma gráfica o en forma de enunciado.

Ej. Comparación de ganancias y perdidas de aerolíneas aéreas en un determinado periodo.

¿Para que se estudia la estadística?

  Para entender los gráficos, e información numérica que se presenta en todos lados.

  Las técnicas de estadísticas se utilizan para tomar decisiones que afectan nuestra vida diaria.

  El conocimiento de los métodos estadísticos ayudan a entender porque se toman ciertas decisiones.

Para poder tomar una decisión basada en información:

  Determinar si la información existente es adecuada

  Reunir la información adicional de tal forma que no haya resultados erróneos

  Resumir la información de forma útil e informativa

  Analizar la información disponible

  Sacar las conclusiones y sacar las deducciones necesarias

Tipos de Estadísticas

Estadística Descriptiva: Conjunto de métodos para organizar, resumir y presentar los datos de manera informativa.

·         Distribución de frecuencias: Técnicas estadísticas para organizar esta información de una forma significativa.

Estadística Inferencial: (inferencia estadística o estadística inductiva) Conjunto de métodos utilizados para saber algo acerca de una población, basándose en una muestra

·         Población: Conjunto de todos los posibles individuos, objetos o medidas de interés.

·         Muestra: una porción, o parte, de una población de interés.
 

Datos Estadísticos

Los datos estadísticos no son otra cosa que el producto de las observaciones efectuadas en las personas y objetos en los cuales se produce el fenómeno que queremos estudiar. Dicho en otras palabras, son los antecedentes (en cifras) necesarios para llegar al conocimiento de un hecho o para reducir las consecuencias de este.

Los datos estadísticos se pueden encontrar de forma no ordenada, por lo que es muy difícil en general, obtener conclusiones de los datos presentados de esta manera. Para poder obtener una precisa y rápida información con propósitos de descripción o análisis, estos deben organizarse de una manera sistemática; es decir, se requiere que los datos sean clasificados

Fuentes de datos Estadísticos

Los datos estadísticos necesarios para la comprensión de los hechos pueden obtenerse a través de fuentes primarias y fuentes secundarias.

Fuentes de datos primarias: es la persona o institución que ha recolectado directamente los datos.

Fuentes secundarias: son las publicaciones y trabajos hechos por personas o entidades que no han recolectado directamente la información.

Las fuentes primarias más confiables, son las efectuadas por oficinas gubernamentales encargadas de tal fin.

En la práctica, es aconsejable utilizar fuentes de datos primarias y en última instancia cuando estas no existan, usar estadísticas de fuentes secundarias. Con este último tipo no debemos pasar por alto que la calidad de las conclusiones estadísticas depende en grado sumo de la exactitud de los datos que se recaben. De anda serviría usar técnicas estadísticas precisas y refinadas para llegar a conclusiones valederas, si estas técnicas no son aplicadas a datos adecuados o confiables.

Cuando un investigador quiere obtener datos estadísticos relativo a un estudio que desea efectuar, puede elegir entre una fuente primaria o en su defecto, una secundaria. O recopilar los datos por sí mismo. La posibilidad mencionada en último término podrá deberse bien a la inexistencia de los datos o bien a que esto no se encuentran discriminados en la forma requerida.



 Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, clúster, entre otros.


Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen anova, series de tiempo y minería de datos.

II.- UNIDAD

ESTADISTICA DESCRIPTIVE: METODOS TABULARES Y GRAFICOS

Datos Cualitativos

Cuando los datos son cuantitativos, la diferencia entre ellos es de clase y no de cantidad.

Ejemplo:            

Si deseamos clasificar los estudiantes que cursan la materia de estadística I por su estado civil, observamos que pueden existir solteros, casados, divorciados, viudos.

Datos cuantitativos

 Cuando los valores de los datos representan diferentes magnitudes, decimos que son datos cuantitativos.

Ejemplo:

Se clasifican los estudiantes del Núcleo San Carlos de la UNESR de acuerdo a sus notas, observamos que los valores (nota) representan diferentes magnitudes.
 

Estadística Descriptiva

Tienen por objeto fundamental describir y analizar las características de un conjunto de datos, obteniéndose de esa manera conclusiones sobre las características de dicho conjunto y sobre las relaciones existentes con otras poblaciones, a fin de compararlas. No obstante puede no solo referirse a la observación de todos los elementos de una población (observación exhaustiva) sino también a la descripción de los elementos de una muestra (observación parcial).

En relación a la estadística descriptiva, Ernesto Rivas González dice; "Para el estudio de estas muestras, la estadística descriptiva nos provee de todos sus medidas; medidas que cuando quieran ser aplicadas al universo total, no tendrán la misma exactitud que tienen para la muestra, es decir al estimarse para el universo vendrá dada con cierto margen de error; esto significa que el valor de la medida calculada para la muestra, en el oscilará dentro de cierto límite de confianza, que casi siempre es de un 95 a 99% de los casos.


ANÁLISIS EXPLORATORIO DE DATOS: DIAGRAMA DE TALLOS Y HOJAS

Una técnica de recuento y ordenación de datos la constituye los diagramas de Tallos y Hojas. Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último dígito) y un "tallo" (los otros dígitos). Por ejemplo "31" sería dividido en "3" (tallo/ decena) y "1" (hoja/ unidad).
 Podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda distribución. 

35 38 32 28 30 29 27 19 48 40

39 24 24 34 26 41 29 48 28 22



De ella podemos elaborar sus diagramas de Tallos y Hojas y compararla con la anterior.
Los valores del "tallo" se escriben hacia abajo (vertical) y los valores "hoja" van a la derecha (horizontal) del los valores tallo. El "tallo" es usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo.

Ejemplo:
 que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de Tallos y Hojas:
Supongamos la siguiente distribución de frecuencias,



36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40



Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4.
A continuación efectuamos un recuento y vamos «añadiendo» cada hoja a su tallo.
Por último reordenamos las hojas y hemos terminado el diagrama
Los expertos dirán que dicha representación es un histograma y, en efecto, así es. Los diagramas de Tallos y Hojas además de ser fáciles de elaborar, presentan más información que los histogramas, como veremos más adelante.
Existe también el diagrama de doble tallo o tronco y hojas. En esta gráfica duplicamos el número de posiciones del tronco dividiendo por la mitad el intervalo que cubre a cada decena.


Con los mismos datos estableceremos el diagrama doble tallo y hoja:



: Tallo
Hojas
2
0 3 4 4 4
2
5 9
3
1 1 3 4
3
6 6 7 9 9
4
0 0 1
4
5




TABULACIÓN CRUZADA Y MEDIDAS DE DISPERCION

La tabulación cruzada es el proceso de creación de una tabla de contingencia desde la distribución de frecuencias multivariada de las variables estadísticas. Muy utilizada en la investigación de encuestas, la tabulación cruzada (o tabla cruzada, de forma abreviada) se suelen producir por una sería de paquetes estadísticos, entre ellos algunos que se especializan en la tarea. Frecuentemente se suelen incorporar ponderaciones de encuesta. Las tablas sin ponderar se pueden producir fácilmente por algunas hojas de cálculo y otras herramientas de inteligencia empresarial, conocidas comúnmente como tablas pivote (también conocidas como tablas dinámicas).

Definición y ejemplo

Definición:

Una pantalla de la matriz de las categorías de dos variables de escala nominal, que contiene recuentos de frecuencia del número de sujetos en cada categoría bivariada se llama tabla de tabulación cruzada o tabla de contingencia. En la tabla siguiente se muestran los géneros y el uso de las manos de una muestra poblacional de 12 individuos:

Muestra #
Género
Uso de las manos
1
Mujer
Diestra/o
2
Varón
Zurda/o
3
Varón
Diestra/o
4
Mujer
Diestra/o
5
Mujer
Diestra/o
6
Varón
Diestra/o
7
Varón
Zurda/o
8
Varón
Diestra/o
9
Mujer
Diestra/o
10
Mujer
Zurda/o
11
Varón
Diestra/o
12
Mujer
Diestra/o

La tabulación cruzada conduce hacia la siguiente tabla de contingencia:

Diestra/o
Zurda/o
Total
Mujeres
5
1
6
Varones
4
2
6
Total
9
3
12



Diagrama de dispersión



El tiempo de espera entre las erupciones y la duración de la erupción del géiser Old Faithful en el Parque Nacional Yellowstone, Wyoming, EE.UU. Este gráfico sugiere que por lo general hay dos "tipos" de erupciones: uno de corta espera y corta duración y otro de larga espera y larga duración.

Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos.

Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en el eje vertical.[1] Un diagrama de dispersión se llama también gráfico de dispersión.

Descripción

Se emplea cuando una variable está bajo el control del experimentador. Si existe un parámetro que se incrementa o disminuye de forma sistemática por el experimentador, se le denomina parámetro de control o variable independiente = eje de x y habitualmente se representa a lo largo del eje horizontal. La variable medida o dependiente = eje de y usualmente se representa a lo largo del eje vertical. Si no existe una variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos variables.

Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. La correlación puede ser positiva (aumento), negativa (descenso), o nula (las variables no están correlacionadas). Se puede dibujar una línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación entre las variables. Una ecuación para la correlación entre las variables puede ser determinada por procedimientos de ajuste. Para una correlación lineal, el procedimiento de ajuste es conocido como regresión lineal y garantiza una solución correcta en un tiempo finito.

Uno de los aspectos más poderosos de un gráfico de dispersión, sin embargo, es su capacidad para mostrar las relaciones no lineales entre las variables. Además, si los datos son representados por un modelo de mezcla de relaciones simples, estas relaciones son visualmente evidentes como patrones superpuestos.

El diagrama de dispersión es una de las herramientas básicas de control de calidad, que incluyen además el histograma, el diagrama de Pareto, la hoja de verificación, los gráficos de control, el diagrama de Ishikawa y el (diagrama de flujo).

III.- UNIDAD

ESTADISTICA DESCRIPTIVA: METODOS NUMERICOS

MEDIDAS DE LOCALIZACIÓN


  • Media muestral o promedio: El promedio de un conjunto de n mediciones x1, x2, …, xn es igual a la suma de sus valores dividido ente n; es decir,
  • Media muestral o promedio: Si en cambio tenemos frecuencias absolutas y observaciones la ecuación sería la siguiente: con Si los datos están agrupados en marcas de clase xi, se obtiene así:
  •  Media muestral o promedio: Ventajas e inconvenientes: Se expresa en las mismas unidades que la variable: En su cálculo intervienen todos los valores de la distribución: Es el centro de gravedad de toda la distribución: Es único. Su principal inconveniente es que se ve afectado por la presencia de valores atípicos
  •  La Mediana: Es el conjunto de datos x1, x2, …., xn que se encuentra en el punto medio, cuando se ordenan los valores de menor a mayor. Se la nota como Q2 o Med. Si el número de observaciones es impar n=2m+1, la mediana es el dato que se encuentra en el lugar m+1Si el número de observaciones es par n=2m, la mediana es el promedio de m y m+1
  • La Mediana: Si los datos están resumidos en una tabla de frecuencia se procede así: Ordene las observaciones de manera creciente con sus respectivas frecuencias acumuladas;  Calcule n/2 y redondee al entero más cercano, determine a qué dato pertenece, comparando el valor obtenido con el valor de la frecuencia acumulada que es igual o inmediatamente superior.
  •  La Mediana: Si los datos están resumidos en una tabla de frecuencia por clases se procede así: Establezca en qué intervalo está el valor mediano, se determina la primera clase cuya frecuencia sea mayor o igual a n/2 (clase mediana)Li-1 es el límite inferior de la clase medianaNi-1 es la frecuencia acumulada del intervalo inmediatamente anterior al intervalo de la mediana ni es la frecuencia absoluta de la clase mediana A es la longitud de la clase de la mediana
  • La Mediana Ventajas e inconvenientes: Es la medida más representativa en variables que admitan escala ordinal. Es fácil de calcular. En la mediana solo influyen los valores centrales y es sensible a la presencia de valores atípicos. En su determinación no intervienen todos los valores de la variable
  •  La moda: La Moda de un conjunto de datos es aquel valor que tiene la mayor frecuencia absoluta. Es fácil de calcular e interpretar, Es la única medida que puede calcularse en variables de tipo cualitativo: En su determinación no intervienen todos los valores de la distribución.


MEDIDAS DE VARIABILIDAD

Son intervalos que indican la dispersión de los datos en la escala de medición.

Responden la pregunta: ¿Dónde están diseminadas las puntuaciones o los valores obtenidos?

Las medidas de variabilidad más utilizadas son: amplitud (rango), desviación estándar y varianza.



AMPLITUD Exclusiva (RANGO)

Definición:

Es la medida de variabilidad más simple.

También llamado rango, es la diferencia entre la puntuación menor, e indica el número de unidades en la escala de medición que se necesitan para incluir los valores máximo y mínimo.



Ejemplo:

17, 18, 20, 20, 24, 28, 28, 30, 33

Rango: 33-17= 16

VARIANZA



Esta relacionada con el tamaño de la diferencia entre cada puntuación y la media aritmética de la distribución a que pertenece.

Es la desviación estándar elevada al cuadrado y se simboliza s y un 2 como potencia.

Es un concepto estadístico muy importante, ya que muchas de las pruebas cuantitativas se fundamentan en él.

Sin embargo, con fines descriptivos se utiliza preferentemente la desviación estándar.



DESVIACIÓN ESTÁNDAR O TÍPICA

Es el promedio de desviación de las puntuaciones con respecto a la media.

Esta medida se expresa en las unidades originales de medición de la distribución.

Cuanto mayor sea la dispersión de los datos alrededor de la media, mayor será la desviación estándar.

 Se simboliza con s o mediante la abreviatura DE.



MEDIDAS DE LOCALIZACIÓN RELATIVA Y DETECCIÓN DE VALORES ATÍPICOS

Valor z.  Se interpreta como el número de desviaciones estándar que dista un dato con respecto a la media.

Zi= xi – x-/s

Teorema de Chebyshev.  Cuando menos

(- 1/Z2)

 Los datos debe estar a menos de z desviaciones estandar de separación respecto de la media, siendo z cualquier valor mayor a 1.



ANÁLISIS EXPLORATORIO DE DATOS

El análisis exploratorio de datos definido por John W. Tukey (E.D.A.: Exploratory data analysis) es, básicamente, el tratamiento estadístico al que se someten las muestras recogidas durante un proceso de investigación en cualquier campo científico. Para mayor rapidez y precisión, todo el proceso suele realizarse por medios informáticos, con aplicaciones específicas para el tratamiento estadístico. Los E.D.A., no necesariamente, se llevan a cabo con una base de datos al uso, ni con una hoja de cálculo convencional; no obstante el programa SPSS y R (lenguaje de programación) son las aplicaciones más utilizadas, aunque no las únicas.

Por ejemplo, en el campo de la Arqueología el análisis técnico de una pieza puede ser simultáneo a la introducción de los datos, bien porque las fichas estén directamente informatizadas o, bien, porque se usen formularios en papel cuyos datos sean fáciles de introducir en el ordenador o computadora. Es posible, incluso, usar en la propia excavación, una serie de PDAs conectados en red inalámbrica instalada en el yacimiento arqueológico, que envíen numerosos datos de campo a una base de datos central que luego se usarán con fines diversos, entre ellos éste. Los pasos seguidos en el E. D. A. son básicamente dos:

  • Medición y descripción de los datos tecnológicos —tipológicos— y dimensiones, por medio de la Estadística descriptiva. Aquí tenemos, por un lado, las medidas de tendencia central (promedios que, en una sola cifra, resumen todos los valores de una muestra: media, mediana y moda son las más habituales) y, por otro, las medidas de dispersión (que calculan hasta qué punto la muestra se agrupa o no en torno a esos promedios). Dentro de este apartado, se ha de procurar, además, calibrar la confianza de las muestras a través de tres estadímetros básicos: la desviación estándar de la muestra, la curtosis y la asimetría.

La siguiente es una tabla de ejemplo:

383
383
383
383
1%
0,7%
0,7%
8,6%
142 mm
127 mm
94 mm
1025 g
29 mm
27 mm
12 mm
16 g
115 mm
98 mm
82 mm
1009 g
82 mm
60 mm
38 mm
236 g
75 mm
61 mm
39 mm
219 g
25 mm
18 mm
17 mm
207 g
77 mm
62 mm
39 mm
247 g
19 mm
14 mm
13 mm
167 g
25 %
23 %
33 %
68 %
376,84
198,67
170,96
27 838,44
0,53
0,53
0,48
1,32
0,47
0,83
0,43
2,44




Yacimiento 1⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎫

Yacimiento 2⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎫⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎫                      ⎬⎯⎯⎯⎯⎯⎯⎯

Yacimiento 3⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎭                      ⎬⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎭

Yacimiento 4⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎭



Resultados del análisis de mulivariante de conglomerados por el método de Ward efectuado en los ciertos tipos líticos, computando variables tecnológicas. Es un ejemplo real, en él se permite observar la similitud o disparidad de los yacimientos seleccionados en virtud de una serie de parámetros seleccionados por el investigador.

Los cálculos estadísticos orientan sobre la fiabilidad de las muestras usadas, aunque no son infalibles, e indican si los resultados obtenidos al calcular las pruebas inferenciales son aceptables, es lo que llamamos nivel de confianza (se debe procurar que éste nunca sea inferior al 95% = 0,95).


MEDIDAS DE ASOCIACIÓN ENTRE  VARIABLES

En epidemiología, las medidas de asociación tratan de estimar la magnitud con la que dos fenómenos se relacionan. Dicha asociación no implica necesariamente causalidad. Ejemplos de medidas de asociación son:


En estadística hay datos cualitativos y cuantitativos para las pruebas de 1, 2 y 3 o más variables. Típicos estadísticos de asociación son la regresión y la correlación, que a su vez se divide en datos cardinales y ordinales.

Ejemplos de estadísticos de asociación

Las tablas de contingencia y la matriz de correlación de tabulaciones cruzadas. Estos dos ejemplos de estadísticos miden asociaciones entre dos tablas de características con dos diferentes tratamientos y se pueden usan conjuntamente y son no, sino establecemos probabilidades.

Ejemplos de listas de datos asociados

En el Barómetro de opinión del CIS (España) la encuesta mensual da las prioridades de los problemas sociales principales del país y cuales le afectan más al encuestado. Los resultados son para 30 ítems que obviamente está en diferente orden: para el país y para la persona. El coeficiente de Spearman de correlación por rangos medirá la asociación entre el orden que existe en ambas listas, que ya tienen calculados el % y número de respuestas para cada tema de la lista.

La fórmula del estadístico es ρ de Spearman es igual 1 menos el cociente de 6 por la suma de desviaciones entre pares al cuadrado dividida por el número de casos multiplicado por número de casos al cuadrado menos uno.

MEDIDA PONDERADA Y MANEJO DE DATOS AGRUPADOS

Es una Medida de Central o Medida de Posición Central, que se determina en un conjunto de números al resultado de multiplicar cada uno de los números por un valor particular para cada uno de ellos, llamado su peso, y obteniendo a continuación la medida aritmética del conjunto formado por los productos anteriores. Se utiliza la media ponderada cuando no todos los elementos componentes de los que se pretende obtener la media tienen la misma importancia.

Un ejemplo es la obtención de la media ponderada de las notas de en la que se asigna distinta importancia (peso) a cada una de las pruebas de que consta el examen, entonces se multiplicaría cada nota por su correspondiente peso y el resultado obtenido se divide entre la suma de los pesos asignados.


Los DATOS AGRUPADOS son un conjunto de información con un patrón establecido de dichos datos para la facilitación del manejo de los mismos. Los datos se agrupan en clases con el fin de sintetizar, resumir, condensar o hacer que la información obtenida de una investigación sea manejable con mayor facilidad.
Para que sean datos agrupados tienes que contarlos y clasificarlos, por ejemplo cuantas personas había de la misma edad. (Siendo 20 personas).

10 12 13 13 13 13 13 14 15 15 16 16 17 17 18 18 18 20 20 20
Edad..........Frecuencia
10..................1
11..................0
12..................1
13..................5
14..................1
15..................2
16..................2
17..................2
18..................3
19..................0
20..................3
Total............20

o también los puedes agrupar (Serie agrupada) en clases, rangos, grupos o intervalos por ejemplo de 2 años para este caso (y siguen siendo 20)

Edad..........Frecuencia
10-12...............2
13-14...............6
15-16...............4
17-18...............5
19-20...............3
Total.............20