PRINCIPIOS DE DISEÑO EXPERIMENTAL: COMPARACIONES MÚLTIPLES

ISADORE NABI

SOBRE LOS TENSORES: SU INTERPRETACIÓN CONCEPTUAL

Como señala (Kaplan, 1985, pág. 297), cuando se introducen coordenadas curvilíneas los métodos matriciales ya no resultan adecuados para el análisis de las operaciones vectoriales fundamentales. El análisis deseado se puede llevar a cabo con la ayuda de las estructuras matemáticas conocidas como tensores.

Los tensores son el resultado de un producto tensorial denotado como A⨂B. Un producto tensorial generaliza la noción de producto cartesiano o producto directo A × B y de suma directa A⨁B para espacios de coordenadas curvilíneas conocidos como variedades (como por ejemplo, las variedades pseudo-riemannianas bajo la cual está modelada la Teoría General de la Relatividad); lo anterior se afirma porque si se verifican las propiedades de un tensor u operador tensorial se podrá verificar que se comporta como una suma, pero su resultado (el espacio o conjunto generado) se comporta como una multiplicación. Esto está relacionado con poder generalizar nociones geométricas (que a nivel de matrices de datos tiene implicaciones en poder medir las longitudes entre los datos –y todo lo que eso implica, ni más ni menos que la base de las mediciones de todo tipo-), como por ejemplo la ortogonalidad entre vectores para una gama más general de superficies entre muchísimas otras cuestiones; de hecho, una variedad generaliza el concepto de superficie. En el lenguaje de programación R, un array multidimensional es un tensor, es decir, el resultado de un producto tensorial entre vectores, mientras que una matriz es resultado de un producto cartesiano entre vectores y es por ello que los primeros se pueden concebir geométricamente como un cubo n-dimensional o una estructura cúbica de medición con n-coordenadas, que además pueden ser curvilíneas. Una matriz es un tensor de dos dimensiones o coordenadas lineales.

Un vector es una flecha que representa una cantidad con magnitud y dirección, en donde la longitud de la flecha es proporcional a la magnitud del vector y la orientación de la flecha revela la dirección del vector.

También se puede representar con vectores otras cosas, como áreas y volúmenes. Para hacer esto, se debe hacer a la longitud del vector una magnitud proporcional a la magnitud del área a calcular y la dirección del vector debe ser ortogonal a la superficie o región de la cual se desea estimar el área o volumen.

Los vectores base o vectores unitarios (cuando la base del espacio lineal es canónica, es decir, que cada vector que conforma la base está compuesto en su pertinente coordenada por la unidad y en el resto por ceros) tienen longitud 1. Estos vectores son los vectores directores del sistema de coordenadas (porque le dan dirección a cada uno de los ejes del plano, puesto que precisamente cada uno representa un eje).

Para encontrar los componentes de un vector (en el caso de un sistema de tres coordenadas, el componente x, el componente y, el componente z) se proyecta el vector sobre el eje que corresponde al componente a encontrar, por ejemplo, si se desea encontrar el componente x del vector, la proyección se realiza sobre X. Entre mayor sea el ángulo entre un vector y un eje de referencia (X,Y,Z), menor será la magnitud del componente correspondiente a dicho eje (este componente, en este ejemplo, puede ser x, o z); el inverso también es cierto. La magnitud de cualquier vector dentro del plano real o complejo puede determinarse como combinación lineal de los vectores base con el campo de los reales o los complejos, respectivamente. Esto implica que la magnitud de un vector (y por consiguiente de los componentes dentro del mismo, al ser una estructura lineal) puede expresarse como determinada cantidad de vectores unitarios (de longitud 1) de los diferentes ejes de coordenadas, en donde cada componente del vector se expresará unívocamente en una cantidad determinada de vectores unitarios del eje correspondiente a dicho componente.

Para generalizar los resultados anteriores a un vector de vectores A (que entre otras cosas permite agruparlos en una misma estructura matemática -por ello a nivel del programa R los arrays tienen contenido del mismo tipo y relacionado entre sí[1]-), se establece que dicho vector A tendrá los componentes A_X, A_Y, A_Z, que representan a los componentes X, Y y Z, respectivamente. Se requiere establecer un índice para cada vector (el índice es en este caso el subíndice) porque sólo existe un indicador direccional (es decir, un vector base) por componente (porque cada componente se corresponde con su respectivo eje).

Esto es lo que hace a los vectores ser tensores de rango 1, que tienen un índice o un vector base por componente. Bajo la misma lógica, los escalares pueden ser considerados tensores de rango cero, porque los escalares no tienen ningún indicador direccional (son una cantidad con magnitud, pero sin sentido) y, por consiguiente, no necesitan índice.

Los tensores son combinaciones entre componentes auxiliares de naturaleza diversa (parámetros, coeficientes, pendientes, que son en última instancia algún elemento de algún campo escalar o anillo) y componentes centrales (los miembros de la base del espacio vectorial o módulo, que expresan las variables fundamentales del sistema que se describe), que sirven para estimar de forma más robusta (en términos de precisión cuantitativa y especificidad cualitativa) las coordenadas de un sistema de referencia.

El número de índices de cada tensor será igual al número de vectores base por componente (en el caso de los tensores, los componentes y los vectores base no tienen necesariamente una relación uno-a-uno, por lo que a un componente le puede corresponder más de un vector base o vector director del sistema de coordenadas).

Considérense, por ejemplo, las fuerzas que actúan al interior de un objeto sólido cualquiera en un espacio de tres dimensiones. Este interior está segmentado en términos de superficies (que son regiones de dicho espacio a manera de planos) por los vectores base de tipo área X, Y, Z. Asúmase además que cada una de las fuerzas actúa en cada una de las regiones del espacio (esto no necesariamente es así, sólo se usa un ejemplo así para que sea más fácilmente capturable a la intuición; aunque lógico-formalmente sí es así, filosóficamente y en términos de las ciencias aplicadas no necesariamente). Lo anterior significa que, debido a la diferente dirección de los vectores base, la acción de dichas fuerzas tiene orientaciones diferentes según la región del espacio de la que se trate. Esto es así porque cada vector base tiene una dirección diferente (al menos si su dirección se estudia cuando está anclado al origen) y cada vector base determina la dirección de la acción de cada fuerza en la región del espacio que a dicho vector base le corresponde (una región -lo que de forma más general puede concebirse como una caracterización dentro de un sistema referencial- estudiada puede estar compuesta por subregiones bajo el efecto de fuerzas diferentes). Así, para poder caracterizar completamente las fuerzas que actúan dentro del objeto sólido (lo que equivale precisamente a caracterizar completamente al objeto sólido mismo -bajo las limitaciones que la teoría tiene frente a la práctica-), es necesario que cada fuerza pueda ser expresada en términos de todas las regiones del espacio en las que actúa (cada región se corresponde con un vector director o vector base), por lo que cada fuerza se debe vincular a la correspondiente cantidad regiones del sólido en las que actúa (se debe vincular a la correspondiente cantidad de vectores base a los que está asociada).

Así, los tensores permiten caracterizar completamente todas las fuerzas posibles y todas las regiones posibles sobre las que actúan tales fuerzas.

Los tensores permiten que todos los observadores en todos los sistemas de coordenadas de referencia (marco referencial, de ahora en adelante) puedan estar de acuerdo sobre las coordenadas establecidas. El acuerdo no consiste en un acuerdo sobre los vectores base (que pueden variar de un espacio a otro), tampoco en los componentes (que pueden variar según el campo escalar), sino en las combinaciones entre vectores base y componentes. La razón de lo anterior radica en que al aplicar una transformación sobre los vectores base (para pasar de un sistema referencial a otro de alguna forma equivalente), en el contexto de los tensores, la estructura algebraica resultante tendrá invariablemente una única dirección sin importar el marco referencial; por su parte, al transformar un componente se logran mantener las combinaciones entre componentes y vectores base para todos los observadores (i.e., para todos los marcos referenciales -cada observador está en un marco referencial-).

Por tanto, los tensores expresan matemáticamente (i.e., lógico-formalmente) la unidad a nivel del fenómeno (social o natural) de las fuerzas contrarias entre sí que lo componen, así como también la tensión que implica la lucha de tales fuerzas por imponerse la una a la otra durante el proceso evolutivo del fenómeno estudiado.

Como se señala en (Universidad de Granada, 2022), en el contexto de la estadística aplicada, un array es un tipo de dato estructurado que permite almacenar un conjunto de datos homogéneo, es decir, todos ellos del mismo tipo y relacionados. Cada uno de los elementos que componen un vector pueden ser de tipo simple como caracteres, entero o real, o de tipo compuesto o estructurado como son vectores, estructuras, listas.

A los datos almacenados en un array se les denomina elementos; al número de elementos de un array se les denomina tamaño o rango del vector; este rango puede determinarse de forma equivalente, en el caso de arrays multidimensionales (tensores), a través del número de ejes. Para acceder a los elementos individuales de un array se emplea un índice que será un número entero no negativo que indicará la posición del elemento dentro del array. Para referirse a una posición particular o elemento dentro del array, se especifica el nombre del array y el número de posición del elemento particular dentro del mismo, el índice.

Los arrays en gran parte se definen como las variables ordinarias, excepto en que cada array debe acompañarse de una especificación de tamaño (número de elementos). Para un array unidimensional, el tamaño se especifica con una expresión entera positiva encerrada entre paréntesis cuadrados. La expresión es normalmente una constante entera positiva.

En suma, cada dimensión de un tensor/array multidimensional (que, al ser en sí mismo una estructura de datos con las propiedades usuales de los números, es también un espacio vectorial, específicamente un espacio euclidiano) está compuesta por un número de filas y columnas especificado.

En la mayoría de los casos, los tensores se pueden considerar como matrices anidadas de valores que pueden tener cualquier número de dimensiones. Un tensor con una dimensión se puede considerar como un vector, un tensor con dos dimensiones como una matriz y un tensor con tres dimensiones se puede considerar como un paralelepípedo. El número de dimensiones que tiene un tensor se llama su rango y la longitud en cada dimensión describe su forma. El rango de un tensor es el número de índices necesarios para seleccionar de forma única cada elemento del tensor (TensorFlow, 2022). El rango también se conoce como “orden” o “grado”; como se señaló antes, otra forma de ver los tensores es como arrays multidimensionales (RStudio, 2022).

Como señala (Weisstein, 2022), formalmente hablando el rango de un tensor es el número total de índices contravariantes y covariantes de un tensor, relativos a los vectores contravariantes y covariantes, respectivamente. El rango R de un tensor es independiente del número de dimensiones N del espacio subyacente en el que el tensor se localice. Adicionalmente, se señala en la documentación R sobre el paquete ‘tensor’, que el producto tensorial de dos arrays es teóricamente un producto exterior de tales arrays colapsados en extensiones específicas al sumar a lo largo de las diagonales apropiadas. Por ejemplo, un producto matricial es el producto tensorial a lo largo de la segunda extensión de la primera matriz y la primera extensión de la segunda matriz.

Fuente: (java T point, 2022).
Fuente: (java T point, 2022).
Fuente: (java T point, 2022).
Fuente: (geeksforgeeks, 2022).
Fuente: (Patidar, 2019).
Fuente: (Paul, 2018).

En el modelo de datos multidimensional, los datos se organizan en una jerarquía que representa diferentes niveles de detalles. Un modelo multidimensional visualiza los datos en forma de cubo de datos. Un cubo de datos permite modelar y visualizar datos en múltiples dimensiones. Se define por dimensiones y hechos.

Las dimensiones son las perspectivas o entidades sobre las cuales una organización mantiene registros. Por ejemplo, una tienda puede crear un almacén de datos de ventas para mantener registros de las ventas de la tienda para la dimensión de tiempo, artículo y ubicación. Estas dimensiones permiten registro para realizar un seguimiento de las cosas, por ejemplo, las ventas mensuales de artículos y las ubicaciones en las que se vendieron los artículos. Cada dimensión tiene una tabla relacionada con ella, llamada tabla dimensional, que describe la dimensión con más detalle.

Referencias

Fleisch, D. A. (2012). What’s a tensor? Recuperado el 26 de Marzo de 2022, de Dan Fleisch: https://www.youtube.com/watch?v=f5liqUk0ZTw

geeksforgeeks. (26 de Marzo de 2022). Multidimensional Arrays in C / C++. Obtenido de geeksforgeeks.org: https://www.geeksforgeeks.org/multidimensional-arrays-c-cpp/

java T point. (Marzo de 25 de 2022). What is Multi-Dimensional Data Model? Obtenido de Data Warehouse: https://www.javatpoint.com/data-warehouse-what-is-multi-dimensional-data-model

Kaplan, W. (1985). CÁLCULO AVANZADO. MÉXICO, D.F.: COMPAÑÍA EDITORIAL CONTINENTAL, S.A. DE C.V., MÉXICO.

Patidar, P. (14 de Diciembre de 2019). Tensors — Representation of Data In Neural Networks. Obtenido de Medium: https://medium.com/mlait/tensors-representation-of-data-in-neural-networks-bbe8a711b93b

Paul, S. (12 de Septiembre de 2018). Investigating Tensors with PyTorch. Obtenido de DataCamp: https://www.datacamp.com/community/tutorials/investigating-tensors-pytorch

RStudio. (25 de Marzo de 2022). Tensors and operations. Obtenido de TensorFlow for R: https://tensorflow.rstudio.com/tutorials/advanced/customization/tensors-operations/

TensorFlow. (25 de Marzo de 2022). tf.rank. Obtenido de TensorFlow Core v2.8.0 : https://www.tensorflow.org/api_docs/python/tf/rank

Universidad de Granada. (25 de Marzo de 2022). Arrays y cadenas. Obtenido de Departamento de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada: https://ccia.ugr.es/~jfv/ed1/c/cdrom/cap5/f_cap52.htm.

Weisstein, E. W. (25 de Marzo de 2022). Tensor Rank. Obtenido de MathWorld – A Wolfram Web Resource: https://mathworld.wolfram.com/TensorRank.html


[1] Véase (Universidad de Granada, 2022).

SUPUESTOS DEL MODELO CLÁSICO DE REGRESIÓN LINEAL Y DE LOS MODELOS LINEALES GENERALIZADOS

isadore nabi

REFERENCIAS

Banerjee, A. (29 de Octubre de 2019). Intuition behind model fitting: Overfitting v/s Underfitting. Obtenido de Towards Data Science: https://towardsdatascience.com/intuition-behind-model-fitting-overfitting-v-s-underfitting-d308c21655c7

Bhuptani, R. (13 de Julio de 2020). Quora. Obtenido de What is the difference between linear regression and least squares?: https://www.quora.com/What-is-the-difference-between-linear-regression-and-least-squares

Cross Validated. (23 de Marzo de 2018). Will log transformation always mitigate heteroskedasticity? Obtenido de StackExchange: https://stats.stackexchange.com/questions/336315/will-log-transformation-always-mitigate-heteroskedasticity

Greene, W. (2012). Econometric Analysis (Séptima ed.). Harlow, Essex, England: Pearson Education Limited.

Guanga, A. (11 de Octubre de 2018). Machine Learning: Bias VS. Variance. Obtenido de Becoming Human: Artificial Intelligence Magazine: https://becominghuman.ai/machine-learning-bias-vs-variance-641f924e6c57

Gujarati, D., & Porter, D. (8 de Julio de 2010). Econometría (Quinta ed.). México, D.F.: McGrawHill Educación. Obtenido de Homocedasticidad.

McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (Segunda ed.). London: Chapman and Hall.

MIT Computer Science & Artificial Intelligence Lab. (6 de Mayo de 2021). Solving over- and under-determined sets of equations. Obtenido de Articles: http://people.csail.mit.edu/bkph/articles/Pseudo_Inverse.pdf

Nabi, I. (27 de Agosto de 2021). MODELOS LINEALES GENERALIZADOS. Obtenido de El Blog de Isadore Nabi: https://marxianstatistics.files.wordpress.com/2021/08/modelos-lineales-generalizados-isadore-nabi.pdf

Penn State University, Eberly College of Science. (2018). 10.4 – Multicollinearity. Obtenido de Lesson 10: Regression Pitfalls: https://online.stat.psu.edu/stat462/node/177/

Penn State University, Eberly College of Science. (24 de Mayo de 2021). Introduction to Generalized Linear Models. Obtenido de Analysis of Discrete Data: https://online.stat.psu.edu/stat504/lesson/6/6.1

Perezgonzalez, J. D. (3 de Marzo de 2015). Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing. frontiers in PSYCHOLOGY, VI(223), 1-11.

ResearchGate. (10 de Noviembre de 2014). How it can be possible to fit the four-parameter Fedlund model by only 3 PSD points? Obtenido de https://www.researchgate.net/post/How_it_can_be_possible_to_fit_the_four-parameter_Fedlund_model_by_only_3_PSD_points

ResearchGate. (28 de Septiembre de 2019). s there a rule for how many parameters I can fit to a model, depending on the number of data points I use for the fitting? Obtenido de https://www.researchgate.net/post/Is-there-a-rule-for-how-many-parameters-I-can-fit-to-a-model-depending-on-the-number-of-data-points-I-use-for-the-fitting

Salmerón Gómez, R., Blanco Izquierdo, V., & García García, C. (2016). Micronumerosidad aproximada y regresión lineal múltiple. Anales de ASEPUMA(24), 1-17. Obtenido de https://dialnet.unirioja.es/descarga/articulo/6004585.pdf

Simon Fraser University. (30 de Septiembre de 2011). THE CLASSICAL MODEL. Obtenido de http://www.sfu.ca/~dsignori/buec333/lecture%2010.pdf

StackExchange Cross Validated. (2 de Febrero de 2017). “Least Squares” and “Linear Regression”, are they synonyms? Obtenido de What is the difference between least squares and linear regression? Is it the same thing?: https://stats.stackexchange.com/questions/259525/least-squares-and-linear-regression-are-they-synonyms

Wikipedia. (18 de Marzo de 2021). Overdetermined system. Obtenido de Partial Differential Equations: https://en.wikipedia.org/wiki/Overdetermined_system

Zhao, J. (9 de Noviembre de 2017). More features than data points in linear regression? Obtenido de Medium: https://medium.com/@jennifer.zzz/more-features-than-data-points-in-linear-regression-5bcabba6883e

FUNDAMENTOS GENERALES DEL PROCESO DE ESTIMACIÓN Y PRUEBA DE HIPÓTESIS EN R STUDIO. PARTE II, CÓDIGO EN R STUDIO CON COMENTARIOS

ISADORE NABI

##ESTABLECER EL DIRECTORIO DE TRABAJO

setwd(“(…)”)

##LEER EL ARCHIVO DE DATOS. EN ESTE CASO, SUPÓNGASE QUE LOS DATOS SON DE UNA MUESTRA ALEATORIA DE 21 TIENDAS UBICADAS EN DIFERENTES PARTES DEL PAÍS Y A LAS CUALES SE LES REALIZÓ VARIOS ESTUDIOS. PARA ELLO SE MIDIERON ALGUNAS VARIABLES QUE SE PRESENTAN A CONTINUACIÓN

###- menor16= es un indicador de limpieza del lugar, a mayor número más limpio. 

###- ipc= es un indice de producto reparado con defecto, indica el % de producto que se pudo reparar y posteriormente comercializar.

###- ventas= la cantidad de productos vendidos en el último mes.

read.table(“estudios.txt”)

## CREAR EL ARCHIVO Y AGREGAR NOMBRES A LAS COLUMNAS

estudios = read.table(“estudios.txt”, col.names=c(“menor16″,”ipc”,”ventas”))

names(estudios)

nrow(estudios)

ncol(estudios)

dim(estudios)

## REVISAR LA ESTRUCTURA DEL ARCHIVO Y CALCULAR LA MEDIA, LA DESVIACIÓN ESTÁNDAR Y LOS CUANTILES PARA LAS VARIABLES DE ESTUDIO Y, ADICIONALMENTE, CONSTRÚYASE UN HISTOGRAMA DE FRECUENCIAS PARA LA VARIABLE “VENTAS”

str(estudios)

attach(estudios)

ventas

###Nota: la función “attach” sirve para adjuntar la base de datos a la ruta de búsqueda R. Esto significa que R busca en la base de datos al evaluar una variable, por lo que se puede acceder a los objetos de la base de datos simplemente dando sus nombres.

###Nota: Al poner el comando “attach”, la base de datos se adjunta a la dirección de búsqueda de R. Entonces ahora pueden llamarse las columnas de la base de datos por su nombre sin necesidad de hacer referencia a la base de datos ventas es una columna -i.e., una variable- de la tabla estudios). Así, al escribrlo, se imprime (i.e., se genera visualmente para la lectura ocular)

## CALCULAR LOS ESTADÍSTICOS POR VARIABLE Y EN CONJUNTO

mean(ventas)

sd(ventas)

var(ventas)

apply(estudios,2,mean)

apply(estudios,2,sd)

###Nota: la función “apply” sirve para aplicar otra función a las filas o columnas de una tabla de datos

###Nota: Si en “apply” se pone un “1” significa que aplicará la función indicada sobre las filas y si se pone un “2” sobre las columnas

## APLICAR LA FUNCIÓN “quantile”.

quantile(ventas) ###El cuantil de función genérica produce cuantiles de muestra correspondientes a las probabilidades dadas. La observación más pequeña corresponde a una probabilidad de 0 y la más grande a una probabilidad de 1.

apply(estudios,2,quantile)

###Nótese que para aplicar la función “apply” debe haberse primero “llamado” (i.e., escrito en una línea de código) antes la función que se aplicará (en este caso es la función “quantile”).

(qv = quantile(ventas,probs=c(0.025,0.975)))

###Aquí se está creando un vector de valores correspondientes a determinada probabilidad (las ventas, en este caso), que para este ejemplo son probabilidades de 0.025 y 0.975 de probabilidad, que expresan determinada proporción de la unidad de estudio que cumple con una determinada característica (que en este ejemplo esta proporción es el porcentaje de tiendas que tienen determinado nivel de ventas -donde la característica es el nivel de ventas-).

## GENERAR UN HISTOGRAMA DE FRECUENCIAS PARA LA COLUMNA “ventas”

hist(ventas)

abline(v=qv,col=2)

###Aquí se indica con “v” el conjunto de valores x para los cuales se graficará una línea. Como se remite a “qv” (que es un vector numérico de dos valores, 141 y 243) en el eje de las x, entonces graficará dos líneas color rojo (una en 141 y otra en 243).

###Aquí “col” es la sintaxis conocida como parte de los “parámetros gráficos” que sirve para especificar el color de las líneas

hist(ventas, breaks=7, col=”red”, xlab=”Ventas”, ylab=”Frecuencia”,

     main=”Gráfico

   Histograma de las ventas”)

detach(estudios)

###”breaks” es la indicación de cuántas particiones tendrá la gráfica (número de rectángulos, para este caso).

## GENERAR UNA DISTRIBUCIÓN N(35,4) CON NÚMEROS PSEUDOALEATORIOS PARA UN TAMAÑO DE MUESTRA n=1000

y = rnorm(1000,35,2)

hist(y)

qy = quantile(y,probs=c(0.025,0.975))

hist(y,freq=F)

abline(v=qy,col=2)

lines(density(y),col=2) #”lines” es una función genérica que toma coordenadas dadas de varias formas y une los puntos correspondientes con segmentos de línea.

## GENERAR UNA FUNCIÓN CON LAS VARIABLES n (CANTIDAD DE DATOS), m (MEDIA MUESTRAL) y  s (DESVIACIÓN ESTÁNDAR MUESTRAL) QUE ESTIME Y GRAFIQUE, ADEMÁS DE LOS CÁLCULOS DEL INCISO ANTERIOR, LA MEDIA.

plot.m = function(n,m,s) {

  y = rnorm(n,m,s)

  qy = quantile(y,probs=c(0.025,0.975))

  hist(y,freq=F)

  abline(v=qy,col=2)

  lines(density(y),col=2) ###Aquí se agrega una densidad teórica (una curva que dibuja una distribución de probabilidad -de masa o densidad- de referencia), la cual aparece en color rojo.

  mean(y)

}

## OBTENER UNA MUESTRA DE TAMAÑO n=10 DE N(100, 15^2)

plot.m(10000,100,15)

###Nótese que formalmente la distribución normal se caracteriza siempre por su media y varianza, aunque en la sintaxis “rnorm” de R se introduzca su media y la raíz de su varianza (la desviación estándar muestral)

##Generar mil repeticiones e ingresarlas en un vector. Compárense sus medias y desviaciones estándar.

n=10000; m=100;s=15

I = 1000 ###”I” son las iteraciones

medias = numeric(I)

for(i in 1:I)           {#”for” es un bucle (sintaxis usada usualmente para crear funciones personalizadas)

  sam=rnorm(n,m,s) ###Aquí se crea una variable llamada “sam” (de “sample”, i.e., muestra) que contiene una la distribución normal creada con números pseudoaleatorios.

  medias[i]=mean(sam)   } ###”sam” se almacena en la i-ésima posición la i-ésima media generada con “rnorm” que le corresponde dentro del vector numérico de iteraciones (el que contiene las medias de cada iteración) medias[i] (que contiene los elementos generados con la función “mean(sam)”).

###Un bucle es una interrupción repetida del flujo regular de un programa; pueden concebirse como órbitas (en el contexto de los sistemas dinámicos) computacionales. Un programa está diseñado para ejecutar cada línea ordenadamente (una a una) de forma secuencial 1,2,3,…,n. En la línea m el programa entiende que tiene que ejecutar todo lo que esté entre la línea n y la línea m y repetirlo, en orden secuencial, una cantidad x de veces. Entonces el flujo del programa sería, para el caso de un flujo regular  1,2,3,(4,5,…,m),(4,5,…,m),…*x,m+1,m+2,…,n.

## UTILIZAR LA VARIABLE “medias[i]” GENERADA EN EL INCISO ANTERIOR PARA DETERMINAR LA DESVIACIÓN ESTÁNDAR DE ESE CONJUNTO DE MEDIAS (ALMACENADO EN “medias[i]”) Y DETERMINAR SU EQUIVALENCIA CON EL ERROR ESTÁNDAR DE LA MEDIA (e.e.)

###Lo anterior evidentemente implica que se está construyendo sintéticamente (a través de bucles computacionales) lo que, por ejemplo, en un laboratorio botánico se registra a nivel de datos (como en el que Karl Pearson y Student hacían sus experimentos y los registraban estadísticamente) y luego se analiza en términos de los métodos de la estadística descriptiva e inferencial (puesto que a esos dominios pertenece el e.e.).

sd(medias)     ### desviación de la distribución de las medias

(ee = s/sqrt(n)  )### equivalencia teórica

## COMPARAR LA DISTRIBUCIÓN DE MEDIAS

m

mean(medias)

## GRAFICAR LA DISTRIBUCIÓN DE MEDIAS GENERADA EN EL INCISO ANTERIOR

hist(medias)

qm = quantile(medias,probs=c(0.025,0.975))

hist(medias,freq=F)

abline(v=qm,col=2)

lines(density(medias),col=2)

## GENERAR UN INTERVALO DE CONFIANZA CON UN NIVEL DE 0.95 PARA LA MEDIA DE LAS VARIABLES SUJETAS A ESTUDIO

attach(estudios)

### Percentil 0.975 de la distribución t-student para 95% de área bajo la curva

n = length(ventas) ###Cardinalidad o módulo del conjunto de datos

t = qt(0.975,n-1) ###valor t de la distribución t de student correspondiente a un nivel de probabilidad y n-1 gl

###Se denominan pruebas t porque todos los resultados de la prueba se basan en valores t. Los valores T son un ejemplo de lo que los estadísticos llaman estadísticas de prueba. Una estadística de prueba es un valor estandarizado que se calcula a partir de datos de muestra durante una prueba de hipótesis. El procedimiento que calcula la estadística de prueba compara sus datos con lo que se espera bajo la hipótesis nula (fuente: https://blog.minitab.com/en/adventures-in-statistics-2/understanding-t-tests-t-values-and-t-distributions).

###”qt” es la sintaxis que especifica un valor t determinado de la variable aleatoria de manera que la probabilidad de que esta variable sea menor o igual a este determinado valor t es igual a la probabilidad dada (que en la sintaxis de R se designa como p)

###Para más información véase https://marxianstatistics.com/2021/09/05/analisis-teorico-de-la-funcion-cuantil-en-r-studio/

###”n-1″ son los grados de libertad de la distribución t de student.

#### Error Estándar

ee = sd(ventas)/sqrt(n)

### Intervalo

mean(ventas)-t*ee

mean(ventas)+t*ee

mean(ventas)+c(-1,1)*t*ee ###c(-1,1) es un vector que se introduce artificialmente para poder construir el intervalo de confianza al 95% (u a otro nivel de confianza deseado) en una sola línea de código.

## ELABORAR UNA FUNCIÓN QUE PERMITA CONSTRUIR UN INTERVALO DE CONFIANZA AL P% DE NIVEL DE CONFIANZA PARA LA VARIABLE X

ic = function(x,p) {

  n = length(x)

  t = qt(p+((1-p)/2),n-1)

  ee = sd(x)/sqrt(n)

  mean(x)+c(-1,1)*t*ee

}

###Intervalo de 95% confianza para ventas

ic(ventas,0.95)

ic(ventas,0.99)

###El nivel de confianza hace que el intervalo de confianza sea más grande pues esto implica que los estadísticos de prueba (las versiones muestrales de los parámetros poblacionales) son más estadísticamente más robustos, por lo que su vecindario de aplicación es más amplio.

ic(ipc,0.95)

ic(menor16,0.95)

## REALIZAR LA PRUEBA DE HIPÓTESIS (PARA UNA MUESTRA) DENTRO DEL INTERVALO DE CONFIANZA GENERADO AL P% DE NIVEL DE CONFIANZA

t.test(ventas,mu=180) ###Por defecto, salvo que se cambie tal configuración, R realiza esta prueba a un nivel de confianza de 0.95.

### Realizando manualmente el cálculo anterior:

(t2=(mean(ventas)-180)/ee) ###Aquí se calcula el valor t por separado (puesto que la sintaxis “t.test” lo estima por defecto, como puede verificarse en la consola tras correr el código). Se denota con “t2” porque anteriormente se había definido en la línea de código 106 t = qt(0.975,n-1) para la construcción manual de los intervalos de confianza.

2*(1-pt(t2,20)) ###Aquí se calcula manualmente el valor p. Se multiplica por dos para tener la probabilidad acumulada total (considerando ambas colas) al valor t (t2, siendo más precisos) definido, pues esta es la definición de valor p. Esto se justifica por el hecho de la simetría geométrica de la distribución normal, la cual hace que la probabilidad acumulada (dentro de un intervalo de igual longitud) a un lado de la media sea igual a la acumulada (bajo la condición especificada antes) a la derecha de la media.

2*(pt(-t2,20)) ###Si el signo resultante de t fuese negativo. Además, 20 es debido a n-1 = 21-1 = 20.

###La sintaxis “pt” calcula el valor de la función de densidad acumulada (cdf) de la distribución t de Student dada una determinada variable aleatoria x y grados de libertad df (degrees of freedom, equivalente a gl en español), véase https://www.statology.org/working-with-the-student-t-distribution-in-r-dt-qt-pt-rt/

## CREAR UNA VARIABLE QUE PERMITA SEPARAR ESPACIALMENTE (AL INTERIOR DE LA GRÁFICA QUE LOS REPRESENTA) AQUELLOS ipc MENORES A UN VALOR h (h=117) DE AQUELLOS QUE SON IGUALES O MAYORES QUE h (h=117)

(ipc1 = 1*(ipc<17)+2*(ipc>=17))

ipc2=factor(ipc1,levels=c(1,2),labels=c(“uno”,”dos”))

plot(ipc2,ipc)

abline(h=17,col=2)

## GENERAR GRÁFICO DE DIAMENTE CON LOS INTERVALOS DE CONFIANZA AL 0.95 DE NdC CENTRADOS EN LAS MEDIAS DE CADA GRUPO CREADO ALREDEDOR DE 17 Y UN BOX-PLOT

library(gplots)

plotmeans(ventas~ipc2) ###Intervalos del 95% alrededor de la media (GRÁFICO DE DIMANTES)

boxplot(ventas~ipc2)

## REALIZAR LA PRUEBA DE HIPÓTESIS DE QUE LA MEDIA ES LA MISMA PARA LOS DOS GRUPOS GENERADOS ALREDEDOR DE h=17

(med = tapply(ventas,ipc1,mean))

(dev = tapply(ventas,ipc1,sd))

(var = tapply(ventas,ipc1,var))

(n   = table(ipc1))

dif=med[1]-med[2]

###La sintaxis “tapply” aplica una función a cada celda de una matriz irregular (una matriz es irregular si la cantidad de elementos de cada fila varía), es decir, a cada grupo (no vacío) de valores dados por una combinación única de los niveles de ciertos factores.

### PRUEBA DE HIPÓTESIS EN ESCENARIO 1: ASUMIENDO VARIANZAS IGUALES (SUPUESTO QUE EN ESCENARIOS REALES DEBERÁ VERIFICARSE CON ANTELACIÓN)

varpond= ((n[1]-1)*var[1] + (n[2]-1)*var[2])/(n[1]+n[2]-2) ###Aquí se usa una varianza muestral ponderada como medida más precisa (dado que el tamaño de los grupos difiere) de una varianza muestral común entre los dos grupos construidos alrededor de h=17

e.e=sqrt((varpond/n[1])+(varpond/n[2]))

dif/e.e

t.test(ventas~ipc1,var.equal=T)

t.test(ventas~ipc1)  #Por defecto la sintaxis “t.test” considera las varianzas iguales, por lo que en un escenario de diferentes varianzas deberá ajustarse esto como se muestra a continuación.

### PRUEBA DE HIPÓTESIS EN ESCENARIO 2: ASUMIENDO VARIANZAS DESIGUALES (AL IGUAL QUE ANTES, ESTO DEBE VERIFICARSE)

e.e2=sqrt((var[1]/n[1])+(var[2]/n[2]))

dif/e.e2

a=((var[1]/n[1]) + (var[2]/n[2]))^2

b=(((var[1]/n[1])^2)/(n[1]-1)) +(((var[2]/n[2])^2)/(n[2]-1))

(glmod=a/b)

t.test(ventas~ipc1,var.equal=F)

###Para aceptar o rechazar la hipótesis nula el intervalo debe contener al cero (porque la Ho afirma que la verdadera diferencia en las medias -i.e., su significancia estadística- es nula).

###Conceptualmente hablando, una diferencia estadísticamente significativa expresa una variación significativa en el patrón geométrico que describe al conjunto de datos. Véase https://marxianstatistics.com/2021/08/27/modelos-lineales-generalizados/. Lo que define si una determinada variación es significativa o no está condicionado por el contexto en que se realiza la investigación y la naturaleza misma del fenómeno estudiado.

## REALIZAR PRUEBA F PARA COMPARAR LA VARIANZA DE LOS GRUPOS Y LA PROBABILIDAD ASOCIADA

(razon.2 = var[1]/var[2]) ###Ratio de varianzas (asumiendo que las varianzas poblacionales son equivalentes a la unidad, en otro caso su estimación sería matemáticamente diferente; véase https://sphweb.bumc.bu.edu/otlt/mph-modules/bs/bs704_power/bs704_power_print.html y https://stattrek.com/online-calculator/f-distribution.aspx).

pf(razon.2,n[1]-1,n[2]-1) ###Al igual que “pt” (para el caso de la t de Student que compara medias de dos grupos o muestras), “pf” en el contexto de la prueba F (que compara la varianza de dos grupos o muestras) calcula la probabilidad acumulada que existe hasta determinado valor.

###La forma general mínima (más sintética) de la sintaxis “pf” es “pf(x, df1, df2)”, en donde “x” es el vector numérico (en este caso, de un elemento), df1 son los gl del numerador y df2 son los grados de libertad del denominador de la distribución F (cuya forma matemática puede verificarse en la documentación de R; véase https://stat.ethz.ch/R-manual/R-devel/library/stats/html/Fdist.html).

(2*pf(razon.2,n[1]-1,n[2]-1)) ###Aquí se calcula el valor p manualmente.

###Realizando de forma automatizada el procedimiento anterior:

var.test(ventas~ipc1)

detach(estudios)

###Para aceptar o rechazar la hipótesis nula el intervalo debe contener al 1 porque la Ho afirma que la varianza de ambas muestras es igual (lo que implica que su cociente o razón debe ser 1), lo que equivale a afirmar que la diferencia real entre desviaciones (la significancia estadística de esta diferencia) es nula.

## EN EL ESCENARIO DEL ANÁLISIS DE MUESTRAS PAREADAS, ANALIZAR LOS DATOS SOBRE EL EFECTO DE DOS DROGAS EN LAS HORAS DE SUEÑO DE UN GRUPO DE PACIENTES (CONTENIDOS EN EL ARCHIVO “sleep” DE R)

attach(sleep) ###”sleep” es un archivo de datos nativo de R, por ello puede “llamarse” sin especificaciones de algún tipo.

plot(extra ~ group)

plotmeans(extra ~ group,connect=F)  ###Intervalos del 95% alrededor de la media. El primer insumo (entrada) de la aplicación “plotmeans” es cualquier expresión simbólica que especifique la variable dependiente o de respuesta (continuo) y la variable independiente o de agrupación (factor). En el contexto de una función lineal, como la función “lm()” que es empleada por “plotmeans” para graficar (véase la documentación de R sobre “plotmeans”), sirve para separar la variable dependiente de la o las variables independientes, las cuales en este caso de aplicación son los factores o variables de agrupación (puesto que se está en el contexto de casos clínicos y, en este contexto, las variables independientes son las variables que sirven de criterio para determinar la forma de agrupación interna del conjunto de datos; este conjunto de datos contiene las observaciones relativas al efecto de dos drogas diferentes sobre las horas de sueño del conjunto de pacientes-).

A = sleep[sleep$group == 1,] ###El símbolo “$” sirve para acceder a una variable (columna) de la matriz de datos, en este caso la número 1 (por ello el “1”).

B = sleep[sleep$group == 2,]

plot(1:10,A$extra,type=”l”,col=”red”,ylim=c(-2,7),main=”Gráfico 1

Horas de sueño entre pacientes con el tratamiento A y B”,ylab=”Horas”,xlab=”Numero de paciente”,cex.main=0.8)

lines(B$extra,col=”blue”)

legend(1,6,legend=c(“A”,”B”),col=c(“red”,”blue”),lwd=1,box.col=”black”,cex=1)

t.test(A$extra,B$extra)

t.test(A$extra,B$extra,paired=T)

t.test(A$extra-B$extra,mu=0)

###Una variable de agrupación (también llamada variable de codificación, variable de grupo o simplemente variable) clasifica las observaciones dentro de los archivos de datos en categorías o grupos. Le dice al sistema informático (sea cual fuere) cómo el usuario ha clasificado los datos en grupos. Las variables de agrupación pueden ser categóricas, binarias o numéricas.

###Cuando se desea realizar un comando dentro del texto (en un contexto de formato Rmd) se utiliza así,por ejemplo se podría decir que la media del sueño extra es `r mean(sleep$extra)` y la cantidad de datos son `r length(sleep$extra)`

## ESTIMACIÓN DE LA POTENCIA DE UNA PRUEBA DE HIPÓTESIS (PROBABILIDAD BETA DE COMETER ERROR TIPO II)

library(pwr) ###”pwr” es una base de datos nativa de R

delta=3 ###Nivel de Resolución de la prueba. Para un valor beta (probabilidad de cometer error tipo II) establecido el nivel de resolución es la distancia mínima que se desea que la prueba sea capaz de detectar, es decir, que si existe una distancia entre los promedios tal que la prueba muy probablemente rechace la hipótesis nula Ho. Para el cálculo manual de la probabilidad beta véase el complemento de este documento (FUNDAMENTOS GENERALES DEL PROCESO DE ESTIMACIÓN Y PRUEBA DE HIPÓTESIS EN R STUDIO. PARTE I, TEORÍA ESTADÍSTICA)

s=10.2 ###Desviación estándar muestral

(d=delta/s) #Tamano del efecto.

pwr.t.test(n=NULL,d=d,power =0.9,type=”one.sample”)

## ESTIMAR CON EL VALOR ÓPTIMO PARA EL NIVEL DE RESOLUCIÓN, PARTIENDO DE n=40 Y MANTENIENDO LA POTENCIA DE 0.9

(potencia=pwr.t.test(n=40,d=NULL,power =0.9,type=”one.sample”))

potencia$d*s  #Delta

## GRAFICAR LAS DIFERENTES COMBINACIONES DE TAMAÑO DE MUESTRA Y NIVEL DE RESOLUCIÓN PARA UNA POTENCIA DE LA PRUEBA FIJA

s=10.2

deltas=seq(2,6,length=30)

n=numeric(30)

for(i in 1:30) {

  (d[i]=deltas[i]/s)

  w=pwr.t.test(n=NULL,d=d[i],power =0.9,type=”one.sample”)

  n[i]=w$n

}

plot(deltas,n,type=”l”)

## SUPÓNGASE QUE SE QUIERE PROBAR SI DOS GRUPOS PRESENTAN DIFERENCIAS ESTADÍSTICAMENTE SIGNIFICATIVAS EN LOS NIVELES PROMEDIO DE AMILASA, PARA LO CUAL SE CONSIDERA IMPORTANTE DETECTAR DIFERENCIAS DE 15 UNIDADES/ML O MÁS ENTRE LOS PROMEDIOS

s2p=290.9  ###Varianza ponderada de los dos grupos

(sp=sqrt(s2p)) ###Desviación estándar ponderada de los dos grupos

delta=15

(d=delta/sp)

pwr.t.test(n=NULL,d=d,power =0.9,type=”two.sample”)