Rank and trace are equal for a real symmetric idempotent matrix

Mathematical Odds & Ends

Proposition. Let $latex mathbf{X} in mathbb{R}^{n times n}$ be a matrix that is symmetric ($latex mathbf{X}^top = mathbf{X}$) and idempotent ($latex mathbf{X}^2 = mathbf{X}$). Then the rank of $latex mathbf{X}$ is equal to the trace of $latex mathbf{X}$. In fact, they are both equal to the sum of the eigenvalues of $latex mathbf{X}$.

The proof is relatively straightforward. Since $latex mathbf{X}$ is real and symmetric, it is orthogonally diagonalizable, i.e. there is an orthogonal matrix $latex mathbf{U}$ ($latex mathbf{U}^top mathbf{U} = mathbf{I}$) and a diagonal matrix $latex mathbf{D}$ such that $latex mathbf{D} = mathbf{UXU}^top$ (see here for proof).

Since $latex mathbf{X}$ is idempotent,

$latex begin{aligned} mathbf{X}^2 &= mathbf{X},
mathbf{U}^top mathbf{D}^2 mathbf{U} &= mathbf{U}^T mathbf{DU},
mathbf{D}^2 &= mathbf{D}. end{aligned}$

Since $latex mathbf{D}$ is a diagonal matrix, it implies that the entries on the diagonal must be zeros or ones. Thus, the number of ones on the diagonal (which is $latex text{rank}(mathbf{D})…

View original post 16 more words

Advertisement

Asymptotic distribution of the Pearson chi-square statistic

Imagen tomada de ResearchGate.

Statistical Odds & Ends

I recently learned of a fairly succinct proof for the asymptotic distribution of the Pearson chi-square statistic (from Chapter 9 of Reference 1), which I share below.

First, the set-up: Assume that we have $latex n$ independent trials, and each trial ends in one of $latex J$ possible outcomes, which we label (without loss of generality) as $latex 1, 2, dots, J$. Assume that for each trial, the probability of the outcome being $latex j$ is $latex p_j > 0$. Let $latex n_j$ denote that number of trials that result in outcome $latex j$, so that $latex sum_{j=1}^J n_j = n$. Pearson’s $latex chi^2$-statistic is defined as

$latex begin{aligned} chi^2 = sum_{text{cells}} dfrac{(text{obs} – text{exp})^2}{text{exp}} = sum_{j=1}^J dfrac{(n_j – np_j)^2}{np_j}. end{aligned}$

Theorem. As $latex n rightarrow infty$, $latex chi^2 stackrel{d}{rightarrow} chi_{J-1}^2$, where $latex stackrel{d}{rightarrow}$ denotes convergence in distribution.

Before proving the theorem, we prove a lemma that we will…

View original post 614 more words

General chi-square tests

Imagen tomada de Lifeder.

Statistical Odds & Ends

In this previous post, I wrote about the asymptotic distribution of the Pearson $latex chi^2$ statistic. Did you know that the Pearson $latex chi^2$ statistic (and the related hypothesis test) is actually a special case of a general class of $latex chi^2$ tests? In this post we describe the general $latex chi^2$ test. The presentation follows that in Chapters 23 and 24 of Ferguson (1996) (Reference 1). I’m leaving out the proofs, which can be found in the reference.

(Warning: This post is going to be pretty abstract! Nevertheless, I think it’s worth a post since I don’t think the idea is well-known.)

Let’s define some quantities. Let $latex Z_1, Z_2, dots in mathbb{R}^d$ be a sequence of random vectors whose distribution depends on a $latex k$-dimensional parameter $latex theta$ which lies in a parameter space $latex Theta$. $latex Theta$ is assumed to be a non-empty open subset…

View original post 696 more words

SOBRE LOS TENSORES: SU INTERPRETACIÓN CONCEPTUAL

Como señala (Kaplan, 1985, pág. 297), cuando se introducen coordenadas curvilíneas los métodos matriciales ya no resultan adecuados para el análisis de las operaciones vectoriales fundamentales. El análisis deseado se puede llevar a cabo con la ayuda de las estructuras matemáticas conocidas como tensores.

Los tensores son el resultado de un producto tensorial denotado como A⨂B. Un producto tensorial generaliza la noción de producto cartesiano o producto directo A × B y de suma directa A⨁B para espacios de coordenadas curvilíneas conocidos como variedades (como por ejemplo, las variedades pseudo-riemannianas bajo la cual está modelada la Teoría General de la Relatividad); lo anterior se afirma porque si se verifican las propiedades de un tensor u operador tensorial se podrá verificar que se comporta como una suma, pero su resultado (el espacio o conjunto generado) se comporta como una multiplicación. Esto está relacionado con poder generalizar nociones geométricas (que a nivel de matrices de datos tiene implicaciones en poder medir las longitudes entre los datos –y todo lo que eso implica, ni más ni menos que la base de las mediciones de todo tipo-), como por ejemplo la ortogonalidad entre vectores para una gama más general de superficies entre muchísimas otras cuestiones; de hecho, una variedad generaliza el concepto de superficie. En el lenguaje de programación R, un array multidimensional es un tensor, es decir, el resultado de un producto tensorial entre vectores, mientras que una matriz es resultado de un producto cartesiano entre vectores y es por ello que los primeros se pueden concebir geométricamente como un cubo n-dimensional o una estructura cúbica de medición con n-coordenadas, que además pueden ser curvilíneas. Una matriz es un tensor de dos dimensiones o coordenadas lineales.

Un vector es una flecha que representa una cantidad con magnitud y dirección, en donde la longitud de la flecha es proporcional a la magnitud del vector y la orientación de la flecha revela la dirección del vector.

También se puede representar con vectores otras cosas, como áreas y volúmenes. Para hacer esto, se debe hacer a la longitud del vector una magnitud proporcional a la magnitud del área a calcular y la dirección del vector debe ser ortogonal a la superficie o región de la cual se desea estimar el área o volumen.

Los vectores base o vectores unitarios (cuando la base del espacio lineal es canónica, es decir, que cada vector que conforma la base está compuesto en su pertinente coordenada por la unidad y en el resto por ceros) tienen longitud 1. Estos vectores son los vectores directores del sistema de coordenadas (porque le dan dirección a cada uno de los ejes del plano, puesto que precisamente cada uno representa un eje).

Para encontrar los componentes de un vector (en el caso de un sistema de tres coordenadas, el componente x, el componente y, el componente z) se proyecta el vector sobre el eje que corresponde al componente a encontrar, por ejemplo, si se desea encontrar el componente x del vector, la proyección se realiza sobre X. Entre mayor sea el ángulo entre un vector y un eje de referencia (X,Y,Z), menor será la magnitud del componente correspondiente a dicho eje (este componente, en este ejemplo, puede ser x, o z); el inverso también es cierto. La magnitud de cualquier vector dentro del plano real o complejo puede determinarse como combinación lineal de los vectores base con el campo de los reales o los complejos, respectivamente. Esto implica que la magnitud de un vector (y por consiguiente de los componentes dentro del mismo, al ser una estructura lineal) puede expresarse como determinada cantidad de vectores unitarios (de longitud 1) de los diferentes ejes de coordenadas, en donde cada componente del vector se expresará unívocamente en una cantidad determinada de vectores unitarios del eje correspondiente a dicho componente.

Para generalizar los resultados anteriores a un vector de vectores A (que entre otras cosas permite agruparlos en una misma estructura matemática -por ello a nivel del programa R los arrays tienen contenido del mismo tipo y relacionado entre sí[1]-), se establece que dicho vector A tendrá los componentes A_X, A_Y, A_Z, que representan a los componentes X, Y y Z, respectivamente. Se requiere establecer un índice para cada vector (el índice es en este caso el subíndice) porque sólo existe un indicador direccional (es decir, un vector base) por componente (porque cada componente se corresponde con su respectivo eje).

Esto es lo que hace a los vectores ser tensores de rango 1, que tienen un índice o un vector base por componente. Bajo la misma lógica, los escalares pueden ser considerados tensores de rango cero, porque los escalares no tienen ningún indicador direccional (son una cantidad con magnitud, pero sin sentido) y, por consiguiente, no necesitan índice.

Los tensores son combinaciones entre componentes auxiliares de naturaleza diversa (parámetros, coeficientes, pendientes, que son en última instancia algún elemento de algún campo escalar o anillo) y componentes centrales (los miembros de la base del espacio vectorial o módulo, que expresan las variables fundamentales del sistema que se describe), que sirven para estimar de forma más robusta (en términos de precisión cuantitativa y especificidad cualitativa) las coordenadas de un sistema de referencia.

El número de índices de cada tensor será igual al número de vectores base por componente (en el caso de los tensores, los componentes y los vectores base no tienen necesariamente una relación uno-a-uno, por lo que a un componente le puede corresponder más de un vector base o vector director del sistema de coordenadas).

Considérense, por ejemplo, las fuerzas que actúan al interior de un objeto sólido cualquiera en un espacio de tres dimensiones. Este interior está segmentado en términos de superficies (que son regiones de dicho espacio a manera de planos) por los vectores base de tipo área X, Y, Z. Asúmase además que cada una de las fuerzas actúa en cada una de las regiones del espacio (esto no necesariamente es así, sólo se usa un ejemplo así para que sea más fácilmente capturable a la intuición; aunque lógico-formalmente sí es así, filosóficamente y en términos de las ciencias aplicadas no necesariamente). Lo anterior significa que, debido a la diferente dirección de los vectores base, la acción de dichas fuerzas tiene orientaciones diferentes según la región del espacio de la que se trate. Esto es así porque cada vector base tiene una dirección diferente (al menos si su dirección se estudia cuando está anclado al origen) y cada vector base determina la dirección de la acción de cada fuerza en la región del espacio que a dicho vector base le corresponde (una región -lo que de forma más general puede concebirse como una caracterización dentro de un sistema referencial- estudiada puede estar compuesta por subregiones bajo el efecto de fuerzas diferentes). Así, para poder caracterizar completamente las fuerzas que actúan dentro del objeto sólido (lo que equivale precisamente a caracterizar completamente al objeto sólido mismo -bajo las limitaciones que la teoría tiene frente a la práctica-), es necesario que cada fuerza pueda ser expresada en términos de todas las regiones del espacio en las que actúa (cada región se corresponde con un vector director o vector base), por lo que cada fuerza se debe vincular a la correspondiente cantidad regiones del sólido en las que actúa (se debe vincular a la correspondiente cantidad de vectores base a los que está asociada).

Así, los tensores permiten caracterizar completamente todas las fuerzas posibles y todas las regiones posibles sobre las que actúan tales fuerzas.

Los tensores permiten que todos los observadores en todos los sistemas de coordenadas de referencia (marco referencial, de ahora en adelante) puedan estar de acuerdo sobre las coordenadas establecidas. El acuerdo no consiste en un acuerdo sobre los vectores base (que pueden variar de un espacio a otro), tampoco en los componentes (que pueden variar según el campo escalar), sino en las combinaciones entre vectores base y componentes. La razón de lo anterior radica en que al aplicar una transformación sobre los vectores base (para pasar de un sistema referencial a otro de alguna forma equivalente), en el contexto de los tensores, la estructura algebraica resultante tendrá invariablemente una única dirección sin importar el marco referencial; por su parte, al transformar un componente se logran mantener las combinaciones entre componentes y vectores base para todos los observadores (i.e., para todos los marcos referenciales -cada observador está en un marco referencial-).

Por tanto, los tensores expresan matemáticamente (i.e., lógico-formalmente) la unidad a nivel del fenómeno (social o natural) de las fuerzas contrarias entre sí que lo componen, así como también la tensión que implica la lucha de tales fuerzas por imponerse la una a la otra durante el proceso evolutivo del fenómeno estudiado.

Como se señala en (Universidad de Granada, 2022), en el contexto de la estadística aplicada, un array es un tipo de dato estructurado que permite almacenar un conjunto de datos homogéneo, es decir, todos ellos del mismo tipo y relacionados. Cada uno de los elementos que componen un vector pueden ser de tipo simple como caracteres, entero o real, o de tipo compuesto o estructurado como son vectores, estructuras, listas.

A los datos almacenados en un array se les denomina elementos; al número de elementos de un array se les denomina tamaño o rango del vector; este rango puede determinarse de forma equivalente, en el caso de arrays multidimensionales (tensores), a través del número de ejes. Para acceder a los elementos individuales de un array se emplea un índice que será un número entero no negativo que indicará la posición del elemento dentro del array. Para referirse a una posición particular o elemento dentro del array, se especifica el nombre del array y el número de posición del elemento particular dentro del mismo, el índice.

Los arrays en gran parte se definen como las variables ordinarias, excepto en que cada array debe acompañarse de una especificación de tamaño (número de elementos). Para un array unidimensional, el tamaño se especifica con una expresión entera positiva encerrada entre paréntesis cuadrados. La expresión es normalmente una constante entera positiva.

En suma, cada dimensión de un tensor/array multidimensional (que, al ser en sí mismo una estructura de datos con las propiedades usuales de los números, es también un espacio vectorial, específicamente un espacio euclidiano) está compuesta por un número de filas y columnas especificado.

En la mayoría de los casos, los tensores se pueden considerar como matrices anidadas de valores que pueden tener cualquier número de dimensiones. Un tensor con una dimensión se puede considerar como un vector, un tensor con dos dimensiones como una matriz y un tensor con tres dimensiones se puede considerar como un paralelepípedo. El número de dimensiones que tiene un tensor se llama su rango y la longitud en cada dimensión describe su forma. El rango de un tensor es el número de índices necesarios para seleccionar de forma única cada elemento del tensor (TensorFlow, 2022). El rango también se conoce como “orden” o “grado”; como se señaló antes, otra forma de ver los tensores es como arrays multidimensionales (RStudio, 2022).

Como señala (Weisstein, 2022), formalmente hablando el rango de un tensor es el número total de índices contravariantes y covariantes de un tensor, relativos a los vectores contravariantes y covariantes, respectivamente. El rango R de un tensor es independiente del número de dimensiones N del espacio subyacente en el que el tensor se localice. Adicionalmente, se señala en la documentación R sobre el paquete ‘tensor’, que el producto tensorial de dos arrays es teóricamente un producto exterior de tales arrays colapsados en extensiones específicas al sumar a lo largo de las diagonales apropiadas. Por ejemplo, un producto matricial es el producto tensorial a lo largo de la segunda extensión de la primera matriz y la primera extensión de la segunda matriz.

Fuente: (java T point, 2022).
Fuente: (java T point, 2022).
Fuente: (java T point, 2022).
Fuente: (geeksforgeeks, 2022).
Fuente: (Patidar, 2019).
Fuente: (Paul, 2018).

En el modelo de datos multidimensional, los datos se organizan en una jerarquía que representa diferentes niveles de detalles. Un modelo multidimensional visualiza los datos en forma de cubo de datos. Un cubo de datos permite modelar y visualizar datos en múltiples dimensiones. Se define por dimensiones y hechos.

Las dimensiones son las perspectivas o entidades sobre las cuales una organización mantiene registros. Por ejemplo, una tienda puede crear un almacén de datos de ventas para mantener registros de las ventas de la tienda para la dimensión de tiempo, artículo y ubicación. Estas dimensiones permiten registro para realizar un seguimiento de las cosas, por ejemplo, las ventas mensuales de artículos y las ubicaciones en las que se vendieron los artículos. Cada dimensión tiene una tabla relacionada con ella, llamada tabla dimensional, que describe la dimensión con más detalle.

Referencias

Fleisch, D. A. (2012). What’s a tensor? Recuperado el 26 de Marzo de 2022, de Dan Fleisch: https://www.youtube.com/watch?v=f5liqUk0ZTw

geeksforgeeks. (26 de Marzo de 2022). Multidimensional Arrays in C / C++. Obtenido de geeksforgeeks.org: https://www.geeksforgeeks.org/multidimensional-arrays-c-cpp/

java T point. (Marzo de 25 de 2022). What is Multi-Dimensional Data Model? Obtenido de Data Warehouse: https://www.javatpoint.com/data-warehouse-what-is-multi-dimensional-data-model

Kaplan, W. (1985). CÁLCULO AVANZADO. MÉXICO, D.F.: COMPAÑÍA EDITORIAL CONTINENTAL, S.A. DE C.V., MÉXICO.

Patidar, P. (14 de Diciembre de 2019). Tensors — Representation of Data In Neural Networks. Obtenido de Medium: https://medium.com/mlait/tensors-representation-of-data-in-neural-networks-bbe8a711b93b

Paul, S. (12 de Septiembre de 2018). Investigating Tensors with PyTorch. Obtenido de DataCamp: https://www.datacamp.com/community/tutorials/investigating-tensors-pytorch

RStudio. (25 de Marzo de 2022). Tensors and operations. Obtenido de TensorFlow for R: https://tensorflow.rstudio.com/tutorials/advanced/customization/tensors-operations/

TensorFlow. (25 de Marzo de 2022). tf.rank. Obtenido de TensorFlow Core v2.8.0 : https://www.tensorflow.org/api_docs/python/tf/rank

Universidad de Granada. (25 de Marzo de 2022). Arrays y cadenas. Obtenido de Departamento de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada: https://ccia.ugr.es/~jfv/ed1/c/cdrom/cap5/f_cap52.htm.

Weisstein, E. W. (25 de Marzo de 2022). Tensor Rank. Obtenido de MathWorld – A Wolfram Web Resource: https://mathworld.wolfram.com/TensorRank.html


[1] Véase (Universidad de Granada, 2022).

PROCESO DE SELECCIÓN DE VARIABLES EXPLICATIVAS EN MODELOS ESTADÍSTICOS

ISADORE NABI

# PROCESO DE SELECCIÓN DE VARIABLES EXPLICATIVAS
## Introducción: Sobre la necesidad de un proceso de selección de predictores
Usualmente se tiene interés en explicar los datos de la forma más simple, lo cual en el contexto de la teoría de las probabilidades (especialmente en la teoría bayesiana de probabilidades) se conoce como el *principio de parsimonia*, el cual está inspirado en el principio filosófico conocido como *navaja de Ockham*, la cual establece que en igualdad de condiciones la explicación más simple suele ser la más probable. El principio de parsimonia adopta diferentes formas según el área de estudio del análisis inferencial en el que se encuentre un investigador. Por ejemplo, una parametrización parsimoniosa es aquella que usa el número óptimo de parámetros para explicar el conjunto de datos de los que se dispone, pero "parsimonia" también puede referirse a modelos de regresión parsimoniosos, es decir, modelos que utilizan como criterio de optimización emplear la mínima cantidad de coeficientes de regresión para explicar una respuesta condicional Y. El principio de parsimonia, los procesos matemáticos de optimización regidos por el criterio de alcanzar un mínimo y la navaja de Ockham son un mismo tipo de lógica aplicado en escalas de la existencia (que podríamos llamar en general "materia", como lo hace Landau en sus curso de física teórica) cualitativamente diferentes. La historia de la Filosofía demuestra que el único sistema que podría ser aplicado así exitosamente es el sistema hegeliano (lo que obedece a que parcialmente sigue la lógica de la existencia misma, como han demostrado Marx, Engels, Lenin, Levins, Lewontin y el mismo Hegel en su extensa obra). ¿Cómo es posible la vinculación en distintas escalas cualitativas de la realidad del principio de la navaja de Ockham? A que todas esas ideas responden a la escuela filosófica de Ockham, que era la escuela nominalista. Retomando lo que señalan (Rosental & Iudin. Diccionario Filosófico, Editorial Tecolut, 1971. p.341; véase https://www.filosofia.org/enc/ros/nom.htm), el nominalismo fue una corriente de la filosofía medieval que consideraba (ya es una escuela extinta) que los conceptos generales tan sólo son nombres de los objetos singulares. Los nominalistas afirmaban que sólo poseen existencia real las cosas en sí, con sus cualidades individuales (es decir, las generalizaciones para ellos no tenían valor gnoseológico en sí mismas sino como recurso gnoseológico). Los nominalistas van más allá, planteando que las generalizaciones no sólo no existen con independencia de los objetos particulares (esta afirmación en correcta, lo que no es correcto es pensar que lo inverso sí es cierto), sino que ni siquiera reflejan las propiedades y cualidades de las cosas. El nominalisto se hallaba indisolublemente vinculado a las tendencias materialistas, ya que reconocía la prioridad de la cosa y el carácter secundario del concepto. Por supuesto, las generalizaciones aunque menos reales que los objetos particulares (y de ahí la sujeción de la teoría a la práctica en un concepto que las une conocido en la teoría marxista como *praxis*) no deja por ello de ser real en cuanto busca ser una representación aproximada (a largo plazo cada vez más aproximada a medida se desarrollan las fuerzas productivas) de la estructura general (interna y externa, métrica y topológica) común que tienen tales fenómenos naturales o sociales. Marx señaló que el nominalismo fue la primera expresión del materialismo de la Edad Media. Con todo, los nominalistas no comprendían que los conceptos generales reflejan cualidades reales de cosas que existen objetivamente y que las cosas singulares no pueden separarse de lo general, pues lo contienen en sí mismas (y esto no tiene un carácter únicamente marxista, sino que incluso el célebre formalista David Hilbert señaló, según la célebre biógrafa de matemáticos Constance Reid que "The art of doing mathematics consists in finding that special case which contains all the germs of generality"). Así, el defecto fundamental de la navaja de Ockham es el no considerar algún conjunto de restricciones que complementen al criterio de selección de la explicación basado en que sea la idea más simple. Como se señala en https://www.wikiwand.com/en/Occam%27s_razor, 
"En química, la navaja de Occam es a menudo una heurística importante al desarrollar un modelo de mecanismo de reacción (...) Aunque es útil como heurística en el desarrollo de modelos de mecanismos de reacción, se ha demostrado que falla como criterio para seleccionar entre algunos modelos publicados seleccionados (...) En este contexto, el propio Einstein expresó cautela cuando formuló la Restricción de Einstein: "Difícilmente se puede negar que el objetivo supremo de toda teoría es hacer que los elementos básicos irreductibles sean tan simples y tan pocos como sea posible sin tener que renunciar a la representación adecuada de un dato único de experiencia"."
La clave en la expresión anterior de Einstein es "sin tener que renunciar a...", lo que se cristaliza nítidamente en una frase que señala la fuente citada es atribuida a Einstein, pero no ha sido posible su verificación: "Todo debe mantenerse lo más simple posible, pero no lo más simple". Como se verifica en https://www.statisticshowto.com/parsimonious-model/, en general, existe un *trade-off* entre la bondad de ajuste de un modelo y la parsimonia: los modelos de baja parsimonia (es decir, modelos con muchos parámetros) tienden a tener un mejor ajuste que los modelos de alta parsimonia, por lo que es necesario buscar un equilibrio.

La parsimonia estadística es deseada porque un mínimo de coeficientes de regresión implica un mínimo de variables y un mínimo de estos implica un mínimo de variables explicativas, lo que puede ser útil en casos de que exista colinealidad entre las variables explicativas, así como también permite ahorrar tiempo y dinero en lo relativo a la inversión de recursos destinada al estudio, aunque no necesariamente garantice que en general (considerando el impacto posterior de las decisiones tomadas con base en el estudio y otros factores) se ahorre tiempo y dinero.

## Modelos Jerárquicos
Existen diferentes tipos de modelos jerárquicos. Los hay de diferente tipo, algunos más complejos que otros (complejidad a nivel teórico, matemático y computacional); ejemplos de tales modelos son las mixturas de probabilidad y se pueden estudiar en https://marxianstatistics.files.wordpress.com/2020/12/sobre-los-estimadores-de-bayes-el-analisis-de-grupos-y-las-mixturas-gaussianas-isadore-nabi.pdf. Aquí se tratará con modelos jerárquicos más simples, como los abordados en (Kutner, Nachtsheim, Neter & Li. p.294-305).

Como señalan los autores referidos en la p.294., los modelos de regresión polinomial tienen dos tipos básicos de usos: 1. Cuando la verdadera función de respuesta curvilínea es de hecho una función polinomial. 2. Cuando la verdadera función de respuesta curvilínea es desconocida (o compleja), pero una función polinomial es una buena aproximación a la función verdadera. El segundo tipo de uso, donde la función polinomial se emplea como una aproximación cuando se desconoce la forma de la verdadera función de respuesta curvilínea, es muy común. Puede verse como un enfoque no paramétrico para obtener información sobre la forma de la función que modela la variable de respuesta. Un peligro principal en el uso de modelos de regresión polinomial es que las extrapolaciones pueden ser peligrosas con estos modelos, especialmente en aquellos con términos de orden superior, es decir, en aquellos cuyas potencias sean iguales o mayores a 2. Los modelos de regresión polinomial pueden proporcionar buenos ajustes para los datos disponibles, pero pueden girar en direcciones inesperadas cuando se extrapolan más allá del rango de los datos.

Así, como señalan los autores referidos en la p.305, el uso de modelos polinomiales no está exento de inconvenientes. Estos modelos pueden ser más costosos en grados de libertad que los modelos no-lineales alternativos o los modelos lineales con variables transformadas. Otro inconveniente potencial es que puede existir  multicolinealidad grave incluso cuando las variables predictoras están centradas. Una alternativa al uso de variables centradas en la regresión polinomial es usar polinomios ortogonales. Los polinomios ortogonales están no-correlacionados, puesto que la ortogonalidad de sus términos implica independencia lineal entre los mismos. Algunos paquetes de computadora usan polinomios ortogonales en sus rutinas de regresión polinomial y presentan los resultados ajustados finales en términos tanto de los polinomios ortogonales como de los polinomios originales. Los polinomios ortogonales se discuten en textos especializados como (Drapper & Smith, Applied Linear Regression). A veces, se ajusta una función de respuesta cuadrática con el fin de establecer la linealidad de la función de respuesta cuando no se dispone de observaciones repetidas para probar directamente la linealidad de la función de respuesta.

## Caso de Aplicación
### 1. Conversión de Matriz de Datos a Marco de Datos
La base ´Vida.Rdata´ contiene datos para los 50 estados de los Estados Unidos. Estos datos son proporcionados por U.S. Bureau of the Census. Se busca establecer las relaciones que existen entre ciertas variables del Estado que se analice y la esperanza de vida. A continuación, se presenta una descripción de las variables que aparecen en la base en el orden en que
aparecen:

  + **esper**: esperanza de vida en años (1969-71). 
  + **pob**: población al 1 de Julio de 1975.
  + **ingre**: ingreso per capita (1974).
  + **analf**: porcentaje de la población analfabeta (1970).
  + **crim**: tasa de criminalidad por 100000 (1976).
  + **grad**: porcentaje de graduados de secundaria (1970).
  + **temp**: número promedio de días con temperatura mínima por debajo de los 32 grados (1931-1960) en la capital del estado.
  + **area**: extensión en millas cuadradas.

Debe comenzarse leyendo el archivo de datos pertinente mediante la sintaxis `load("Vida.Rdata")`. Si se observa la estructura de la base de datos, se verifica que es simplemente una matriz. Por tanto, si se utiliza la sintaxis `names(base)` no se obtiene información alguna, mientras que si se trata de llamar a alguna de las variables por su nombre, como por ejemplo `base$esper`, R informa de un error y lo mismo ocurre si se usa `attach(base)`. Esto sucede porque la estructura de datos invocada no está definida como un marco de datos o `data.frame`. Por ello, debe comenzarse por convertir dicha matriz de datos en un marco de datos o  `data.frame`y posteriormente puede verificarse si las sintaxis antes mencionadas son ahora operativas.

“`{r}
setwd(“C:/Users/User/Desktop/Carpeta de Estudio/Mis Códigos en R”)
load(“Vida.Rdata”)
names(base)
base=data.frame(base)
names(base)
“`

### 2. Obtención de todos los modelos posibles dado un determinado conjunto de variables dentro del marco de datos
Pueden obtenerse los $R^2$ ajustados de todos los modelos posibles con las 7 variables disponibles. Para hacerlo, puede construirse primero un objeto con todos los predictores y llamarlo **X** para posteriormente construir un objeto llamado **sel** aplicando la función `leaps` (perteneciente a la librería con el mismo nombre) de la siguiente forma: `sel=leaps(x,y, method="adjr2")`. Nótese que el objeto construido mediante la sintaxis `leaps`, es decir, **sel**, es una lista con 4 componentes cuyos nombres pueden obtenerse con la sintaxis `names(sel)`.  Así, puede llamarse a cada uno de tales componentes por separado usando el signo `$`, por ejemplo, `sel$which`. Antes de proceder a realizar los cálculos definidos antes, se estudiará a nivel general la sintaxis `leaps`.

La sintaxis `leaps` usa un algoritmo eficiente (parsimonioso) de ramificación y cota para realizar una búsqueda exhaustiva de los mejores subconjuntos de las variables contenidas en el marco de datos para predecir y realizar análisis de regresión lineal; este tipo de algoritmo, según https://www.wikiwand.com/en/Branch_and_bound, es un paradigma de diseño de algoritmos para problemas de optimización discreta y combinatoria, así como optimización matemática. Un algoritmo de ramificación y acotación consiste en una enumeración sistemática de soluciones candidatas mediante la búsqueda en el espacio de estados: se piensa que el conjunto de soluciones candidatas forma un árbol enraizado con el conjunto completo en la raíz; "si las cosas fuesen tal y como se presentan ante nuestros ojos, la ciencia entera sobraría" dijo Marx alguna vez. El algoritmo explora las ramas del árbol representado por los subconjuntos del conjunto de soluciones posibles al problema de optimización. Antes de enumerar las soluciones candidatas de una rama, el algoritmo sigue el siguiente proceso descarte de ramas: la rama se compara con los límites estimados superior e inferior de la solución óptima y se descarta (la rama en su conjunto) si no ella puede producir una solución mejor que la mejor encontrada hasta ahora por el algoritmo (véase https://cran.r-project.org/web/packages/leaps/leaps.pdf, p.1). Como se señala en la documentación antes citada, dado que el algoritmo devuelve el mejor modelo de cada tamaño (aquí se refiere a los modelos estadísticamente más robustos según un número de variables fijo que se considere) no importa si desea utilizar algún criterio de información (como el AIC, BIC, CIC o DIC). El algoritmo depende de una estimación eficiente de los límites superior e inferior de las regiones/ramas del espacio de búsqueda. Si no hay límites disponibles, el algoritmo degenera en una búsqueda exhaustiva.

A pesar de lo señalado relativo a que la búsqueda realiza por `leaps` es independiente de cualquier criterio de información utilizado, puede omitirse este hecho con la finalidad de que sea posible incorporar a esta práctica el estudio de los criterios de información. A continuación, se presenta una lista de los mejores modelos siguiendo el criterio de $R^2$ ajustado más alto, lo que se indica al interior de la sintaxis `leaps` mediante methods="adjr2".

“`
{r}
attach(base)
library(leaps)
X=cbind(pop,ingre,analf,crim,grad,temp,area)
sel=leaps(X,esper, method=”adjr2″)
sel
names(sel)
sel$adjr2
sel$which
sel$label
sel$size
“`

Adicionalmente, es posible construir una matriz, almacenarla bajo el nombre **mat** con el contenido de las filas `sel$which` y `sel$adjr2`, agregando un contador para identificar cada modelo mediante la sintaxis `cbind`. La estructura de datos **mat** contiene todos los diferentes modelos de regresión lineal (a diferentes tamaños de los mismos) mediante la sintaxis `leaps` para la base de datos utilizada.

“`{r}
k=nrow(sel$which)
k
mat=data.frame(cbind(n=1:k,sel$which,round(sel$adjr2,2)))
mat

head(mat[order(-mat$V9),],10)
“`

Así, puede construirse un subconjunto de **mat** que contenga sólo los modelos cuyo coeficiente de determinación ajustado sea mayor o igual que 0.68.

“`{r}
subcon=subset(mat,sel$adjr2>=0.68)
head(subcon[order(-subcon$V9),],10)
“`

Nótese que los cuatro modelos con el $R^2$ ajustado más alto son los modelos 28, 38, 39, y 40, cuyo tamaño oscila entre 4 o 5 variables explicativas; si se utiliza la sintaxis `print` es posible verificar que en las filas está el modelo como tal (si la variable se toma en consideración tiene asignado un "1", mientras que en caso contrario un "0"), mientras que en las columnas se localizan las posibles variables a utilizar.

### 3. Estadístico de Mallows
Como se puede verificar en https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/regression/supporting-topics/goodness-of-fit-statistics/what-is-mallows-cp/, el Estadístico $C_p$ de Mallows sirve como ayuda para elegir entre múltiple modelos de regresión. Este estadístico ayuda a alcanzar un equilibrio importante con el número de predictores en el modelo. El $C_p$ de Mallows compara la precisión y el sesgo del modelo completo con modelos que incluyen un subconjunto de los predictores. Por lo general, deben buscarse modelos donde el valor del $C_p$ de Mallows sea pequeño y esté cercano al número de predictores del modelo más la constante $p$. Un valor pequeño del $C_p$ de Mallows indica que el modelo es relativamente preciso (tiene una varianza pequeña) para estimar los coeficientes de regresión verdaderos y pronosticar futuras respuestas. Un valor del $C_p$ de Mallows que esté cerca del número de predictores más la constante indica que, relativamente, el modelo no presenta sesgo en la estimación de los verdaderos coeficientes de regresión y el pronóstico de respuestas futuras. Los modelos con falta de ajuste y sesgo tienen valores de $C_p$ de Mallows más grandes que p. A continuación se presenta un ejemplo.
#Figura 1: Ejemplo del uso del Estadístico de Mallows para evaluar un modelo #Fuente: https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/regression/supporting-topics/goodness-of-fit-statistics/what-is-mallows-cp/
Así, para el ejemplo aquí utilizado (que responde a la base de datos antes especificada) puede obtenerse el estadístico $C_p$ de Mallows para todos los modelos posibles con las 7 variables disponibles. Para ello puede usarse la función `leaps`; nótese que no es necesario indicarle a R que obtenga el estadístico de Mallows mediante la sintaxis `method=Cp` puesto que este método es el establecido por defecto en la programación de R, por lo que en el escenario en que no se indique un "method" en específico el programa utilizará por defecto el criterio del estadístico de Mallows.

“`{r}
sel = leaps(X,esper)
names(sel)
sel$Cp
“`

Complementariamente, puede construirse una nueva matriz **mat** que en lugar de los criterios `sel$which` y `sel$adjr2` siga los criterios `sel$which`, `sel$Cp` y `sel$size`, agregando al igual que antes un contador para identificar cada modelo. Esto implicará la sobreeescritura de la matriz **mat**. Pueden seleccionarse con antelación únicamente las filas de **mat** que se corresponden con los modelos seleccionados en el punto anterior y comparar la columna del $C_p$ con la columna $size$ que corresponde al número de coeficientes (p). En cada caso puede determinarse si el modelo es sesgado o no, sin perder de vista que un modelo es sesgado según el estadístico de Mallows si $C_p>p$. De lo anterior se desprende que se está buscando un conjunto de modelos insesgados para los cuales se verifica la condición $C_p<p$ antes mencionada.

“`{r}
mat=data.frame(cbind(1:k,sel$which,round(sel$Cp,2),sel$size))
colnames(mat)[9]<-“CP”
colnames(mat)[10]<-“p”
mat[c(28,38,39,40),]
“`

Como puede observarse, en todos los modelos arrojados por la sintaxis `leaps` cumplen con la condición antes especificada, por lo que es posible afirmar que, sobre todo respecto a los modelos 28, 38, 39 y 40, que son buenos candidatos para ser utilizados (los mejores modelos son los mismos cuatro que en el literal anterior).

### 4. Suma de Cuadrados Residuales de Predicción (PRESS)
####4.1. Aproximación Gráfica
Como se señala en (https://pj.freefaculty.org/guides/stat/Regression/RegressionDiagnostics/OlsHatMatrix.pdf, p.9), la PRESS no es otra cosa que el error de estimación correspondiente a un valor particular de la variable condicional $Y$; la estimación de PRESS a veces es útil como una medida resumida de la capacidad de un modelo para predecir nuevas observaciones. Las líneas de comando presentadas a continuación expresan la configuración de la función personalizada `plot.press`, que es una función empírica que se aproxima gráficamente a los PRESS mediante el siguiente procedimiento:

a) Crea un modelo solamente con la variable **ingre**.

b) Toma el Estado i-ésimo y crea otro modelo basado en los demás Estados (excepto el i-ésimo).

c) Grafica las dos líneas de regresión y marca la observación del Estado i-ésimo en rojo para que se observe como se diferencian las dos líneas a la altura del ingreso de ese Estado.

d) Estima el promedio de la esperanza de vida para el i-ésimo Estado usando las dos ecuaciones.

“`{r}
plot.press=function(i){
mod =lm(esper~ingre,base)
mod1=lm(esper ~ ingre,base[-i,])

plot(base$ingre,base$esper,pch=18,xlab=”ingreso”,ylab=”esperanza”)
points(base$ingre[i],base$esper[i],pch=18,col=2)
abline(mod)
abline(mod1,lty=2,col=2)
abline(v=base$ingre[i],col=4,lty=2)
legend(3000,max(esper),c(“completo”,paste(“falta el “,i,sep=””)),col=c(1,2),lty=c(1,2),bty=”n”)

yi=predict(mod,data.frame(ingre=base$ingre[i]))
yii=predict(mod1,data.frame(ingre=base$ingre[i]))
res=c(yi,yii)
names(res)=c(“y_i”,”y_i(i)”)
return(round(res,2))
}
“`

Así, puede usarse la función `plot.press` con diferentes estados, por ejemplo, con Alaska (i=2) o algún otro.

“`{r}
plot.press(2)
plot.press(15)
plot.press(10)
“`

#### 4.2.  Aproximación Inferencial vía Residuos Estandarizados
Como señala https://www.statisticshowto.com/what-is-a-standardized-residuals/, los residuos estandarizados permiten normalizar el conjunto de datos de estudio en el contexto del análisis de regresión y de la ejecución de pruebas de hipótesis chi-cuadrado $χ^2$. Un residuo estandarizado es una razón: la diferencia entre el valor observado y el valor esperado (condicional, a posteriori) sobre la desviación estándar del valor esperado en la prueba de chi-cuadrado.

Como se señala en https://online.stat.psu.edu/stat501/lesson/11/11.4, existen varias medidas para identificar valores extremos de X (observaciones de alto $leverage$ o $influencia$) y valores de Y inusuales (valores atípicos). Al intentar identificar valores atípicos, un problema que puede surgir es cuando existe un valor atípico potencial que influye en el modelo de regresión hasta tal punto que la función de regresión estimada se "arrastrada" hacia el valor atípico potencial, de modo que no se marca como un valor atípico utilizando el criterio usual de residuos estandarizados. Para abordar este problema, los residuos eliminados ofrecen un criterio alternativo para identificar valores atípicos. La idea básica de esto es eliminar las observaciones una a la vez, reajustando cada vez el modelo de regresión en las n – 1 observaciones restantes. Luego, se comparan los valores de respuesta observados con sus valores ajustados basados en los modelos con la i-ésima observación eliminada. Esto produce residuos eliminados (no estandarizados). La estandarización de los residuos eliminados produce residuos eliminados studentizados, como se verá teóricamente a continuación.

Formalmente, es un resultado conocido del álgebra lineal que $y=Xβ+ε$, en donde $X_{n×p}$, $\hat{β}=(X'X)^{-1}X-y$ y $\hat{y}=X\hat{β}=X(X'X)^{-1}X'y=Hy$, donde $H=X(X'X)^{-1}X'$ es la matriz conocida como *matriz sombrero*. Los residuos son $e=y-\hat{y}=y-Hy=(I-H)y$. Adicionalmente, se sabe que la varianza poblacional $σ^2$ es desconocida y puede estimarse mediante la suma de cuadrados medios del error $MSE$. Así, los residuos pueden ser expresados mediante la ecuación $e_i^*=\frac{e_i}{\sqrt{MSE}}$ y se conocen como *residuos semistudentizados*. Puesto que la varianza de los residuos depende tanto de $σ^2$ como de $X$, la varianza estimada es $\hat{V}(e_i)=MSE(1-h_{ii})$, donde $h_{ii}$ es el $i$-ésimo elemento de la diagonal principal de la matriz sombrero. Así, los residuos estandarizados, también conocidos como *residuos internamente studentizados*, tienen la forma $r_i=\frac{e_i}{\sqrt{MSE(1-h_{ii})}}$. Sin embargo, se sabe que es imposible que un residuo individual y el MSE (que es la varianza del conjunto de residuos) no estén correlacionados (existe dependencia lineal) y, por consiguiente, es imposible que $r_i$ siga una distribución t de Student. Lo anterior representa un impedimento para realizar pruebas de significancia estadística de los coeficientes de regresión, puesto que la distribución t es junto con la F los dos tipos de distribución más utilizados (y no sólo en el contexto de regresión) para realizar pruebas de hipótesis, dentro de las cuales las pruebas de significancia de coeficientes son un tipo de ellas. La solución a la problemática antes descrita consiste en eliminar la $i$-ésima observación, ajustar la función de regresión a las $n-1$ observaciones restantes y luego obtener nuevas $\hat{y}$'s que pueden ser denotadas como $\hat{y}_{i(i)}$. La diferencia $d_i=y_i-\hat{y}_{i(i)}$ es llamada *residuo eliminado*. Una expresión equivalente que no requiere recomputación es: $d_i=\frac{e_i}{1-h_{ii}}$.
Los residuos eliminados expresados de la forma anterior son la base para encontrar los residuos conocidos como *residuos eliminados studentizados* o *resiudos studentizados externamente*, los cuales adoptan la forma $t_i=\frac{d_i}{\sqrt{{\frac{MSE}{1-h_{ii}}}}}\sim{\sf t_{n-p-1}}$ o $t_i=\frac{e_i}{\sqrt{{{MSE(1-h_{ii})}}}}\sim{\sf t_{n-p-1}}$; véase https://stats.stackexchange.com/questions/99717/whats-the-difference-between-standardization-and-studentization/99723.

En lo que a la estimación de los diferentes tipos de residuos se refiere, debe comenzarse por obtener las **influencias** o **leverage** del modelo usando `hatvalues(mod)`; debe recordarse que las influencias son utilizadas para determinar que tanto impacto tiene una observación sobre los resultados de la regresión. Precisamente el análisis descriptivo anterior, en el que en una de las rectas de regresión (de las dos que aparecen en cada una de las cincuenta gráficas posibles) se omitía un Estado, tenía como finalidad verificar cuánto impactaba su ausencia (la del Estado sustraido) en la estimación realizada sobre la media condicional de $Y$. Al utilizar la sintaxis "mod=lm(esper~ingre,base)" se está planteando un modelo con la totalidad de Estados, del cual se calculan sus valores sombrero mediante la sintaxis `h = hatvalues(mod)`, sus residuos mediante `r=mod$res`, se estima el residuo de un modelo en el que no se considera el Estado i-ésimo en el análisis (en este caso Alaska) mediante `pred.r = r[2]/(1-h[2])` y, finalmente, la validez estadística de la estimación `pred.r = r[2]/(1-h[2])` se determina contrastándola con respecto al resultado de restarle a la media estimada $\hat{Y}_2$ (porque en este caso para Alaska, que ocupa la fila dos en la base de datos, que es una base de datos de corte transversal) la media estimada $\hat{Y}$ del modelo que no considera al i-ésimo Estado (aquí es Alaska).

“`{r}
mod=lm(esper~ingre,base)
h = hatvalues(mod)
r=mod$res
pred.r = r[2]/(1-h[2])
round(pred.r,2)

esper[2]-73.07

plot.press(2)
“`

Finalmente, puede obtenerse la Suma de Cuadrados Residuales de Predicción $PRESS$ utilizando los residuos eliminados globales (no únicamente para el Estado de Alaska) mediante la siguiente ecuación: $$PRESS=\sum{( \frac{r_i}{1-h_i}} )^2$$.

“`{r}
d=r/(1-h)
press=t(d)%*%d
round(press,2)
“`

### 5. Comparación de Modelos vía $PRESS$
Es posible comparar el modelo que únicamente contempla la variable ingreso **ingre** con el que se obtiene en un modelo que contenga en su lugar la cantidad de población del Estado **pop** y su tasa de criminalidad **crim**. Esto con el fin de verificar cuál de los dos modelos es más sensible a valores extremos de X al realizar estimaciones de la media condicional $\hat{Y}$ de la variable *esperanza de vida*.

“`{r}
mod=lm(esper~ingre,base)
r=mod$res
h=hatvalues(mod)
d=r/(1-h)
press=t(d)%*%d
round(press,2)
“`

“`{r}
mod2= lm(esper~pop+crim,base)
r=mod2$res
h=hatvalues(mod2)
d=r/(1-h)
press=t(d)%*%d
round(press,2)
“`

Se observa que el modelo `mod` es más sensible, puesto que su PRESS es más alto (89.32).

Debe decirse que la matriz "d" es conocida también como *matriz de Gramm*, por lo que su determinante es igual al producto de sí y su transpuesta, es decir, `t(d)%*%d`. Como se verifica en https://www.wikiwand.com/en/Gram_matrix, la matriz de Gramm cuyos elementos pertenecen a los reales tiene la característica de ser simétrica (matriz cuadrada que es igual a su transpuesta); la matriz de Gramm de cualquier base ortonormal (conjunto de vectores linealmente independientes que generan un espacio lineal -conocido como *span lineal*- denso dentro del espacio de referencia) es una matriz identidad.

El modelo anterior puede expandirse en predictores considerando ahora población **pop**, nivel de ingreso **ingre**, porcentaje de población analfebeta **analf** y la extensión en millas cuadradas **area** para explicar la esperanza de vida (medida en años).

“`{r}
mod0= lm(esper~pop+ingre+analf+area,base)
r=mod0$res
h=hatvalues(mod0)
d=r/(1-h)
press=t(d)%*%d
round(press,2)
“`

El modelo `mod0` es aún más sensible a los datos provistos por el Estado de Alaska que el modelo `mod` 

Así como se amplió la cantidad de variables en consideración al pasar del modelo `mod` al modelo `mod0`, también podría realizarse el procedimiento anterior para un modelo que considere la totalidad de las variables disponibles. Una forma para evitar escribir todas las variable en es usar un punto después de **~**, además de indicar de cuál base provienen los datos. De esta forma R entiende que debe considerar todas las variables de esa base como predictores, con excepción de la variable que se indica como respuesta.

“`{r}
mod_comp= lm(esper~., base)
r=mod_comp$res
h=hatvalues(mod_comp)
d=r/(1-h)
press=t(d)%*%d
round(press,2)
“`

Como se verifica de las pruebas antes realizadas, el modelo completo `mod_comp` tiene una $PRESS$ menor (más bajo) que el modelo que utiliza 4 predictores (*i.e.*, `mod0`) para explicar la media condicional de la esperanza de vida, lo que indica menor *leverage* en relación al Estado de Alaska.

### 6. Construcción Escalonada de Modelos de Predicción
#### 6.1. Aspectos Teóricos Generales
Como se conoce de los cursos de álgebra lineal, el mecanismo de *eliminación gaussiana* o *reducción de por filas*, es un proceso secuencial de *operaciones elementales entre filas* realizadas sobre la correspondiente matriz de coeficientes con la finalidad de estimar el rango de la matriz, el determinante de una matriz cuadrada y la inversa de una matriz invertible, en cuanto este mecanismo prepara las condiciones para resolver el sistema de ecuaciones; sobre los orígenes históricos de este mecanismo debe decirse que, como se señala en https://en.wikipedia.org/wiki/Gaussian_elimination, casos particulares de este método se conocían descubiertos por matemáticos chinos (sin prueba formal) en el año 179 de la era común C.E. (que es una forma no-cristiana de expresar la era que inicia en el año en que se supone nació Jesucristo).

Los mecanismos matemáticos anteriores, utilizados en el procedimiento estadístico de selección de los predictores de la media condicional de alguna variable de respuesta, se conocen como *regresión escalonada*. Como se señala en https://en.wikipedia.org/wiki/Stepwise_regression, la regresión escalonada es un método de ajuste de modelos de regresión en el que la elección de las variables predictivas se realiza mediante un procedimiento automático (...) En cada paso, se considera una variable para sumar o restar del conjunto de variables explicativas basado en algún criterio preespecificado. Por lo general, esto toma la forma de una secuencia hacia adelante, hacia atrás o combinada de pruebas F o pruebas t. La práctica frecuente de ajustar el modelo final seleccionado seguido de reportar estimaciones e intervalos de confianza sin ajustarlos para tener en cuenta el proceso de construcción del modelo ha llevado a llamadas a dejar de usar la construcción escalonada de modelos por completo (...) o al menos asegurarse de que en el modelo la incertidumbre se refleja correctamente (...) Las alternativas incluyen otras técnicas de selección de modelos, como $R^2$ ajustado, ek criterio de información de Akaike, el criterio de información bayesiano, el $C_p$ de Mallows, la $PRESS$ o la *tasa de falso descubrimiento*.

La construcción escalonada de un modelo puede suscitarse fundamentalmente de tres maneras:

1.*Selección hacia adelante*, que implica comenzar sin variables en el modelo, comprobar lo que ocurre al adicionar cada variable utilizando un criterio de ajuste del modelo elegido, agregando la variable (si la hubiese) cuya inclusión permita la mejora estadísticamente más significativa del ajuste y repetir este proceso hasta ningún predictor mejore el modelo de manera estadísticamente significativa. Véase https://www.analyticsvidhya.com/blog/2021/04/forward-feature-selection-and-its-implementation/

2. *Eliminación hacia atrás*, que implica comenzar con todas las variables candidatas, probar la eliminación de cada variable utilizando un criterio de ajuste del modelo elegido, eliminar la variable (si la hubiese) cuya pérdida produce el deterioro más insignificante estadísticamente del ajuste del modelo, y repetir este proceso hasta que no se pueden eliminar más variables sin una pérdida de ajuste estadísticamente insignificante. Véase https://www.analyticsvidhya.com/blog/2021/04/backward-feature-elimination-and-its-implementation/?utm_source=blog&utm_medium=Forward_Feature_Elimination.

3. *Eliminación bidireccional*, una combinación de 1 y 2, probando en cada paso las variables que se incluirán o excluirán.

#### 6.2. Método de Eliminación Hacia Atrás en R 
##### 6.2.1. Eliminación Hacia Atrás con Probabilidad F
Para eliminar variables secuencialmente se usa la función `drop1`, que proporciona el estadístico F correspondiente a la eliminación de una única variable explicativa; el estadístico F arrojado por esta sintaxis debe interpretarse como la probabilidad de materialización de la probabilidad de rechazar $H_0:β_1=B_2=⋯=B_i=0$ siendo esta verdadera. A causa de lo anterior, un valor F alto indica que la probabilidad de la materialización antes descrita es alta y, ante semejante riesgo, la decisión racional es fallar en rechazar $H_0$ sobre la significancia estadística nula global de los coeficientes de regresión. Fallar en rechazar $H_0$ implica que probabilísticamente hablando no existen consecuencias relevantes (a nivel de capacidad predictiva) si se elimina el modelo en cuestión, por lo que un F mayor que el nivel de significancia $α$ preestablecido (que es la probabilidad de cometer error tipo I, fijada por el investigador con base a la información histórica y a criterios de experto experimentado) significa que ese coeficiente de regresión no es estadísticamente relevante y puede eliminarse.

Puede escribirse el modelo completo (con los 7 predictores) y luego utilizar `drop1(mod,test="F")` para verificar cuál es la primera variable que se recomienda eliminar tras el proceso antes descrito. Como se adelantó, se deben eliminar aquellos predictores cuyo valor de probabilidad F sea más alto.  

“`{r}
mod3=lm(esper~., base)
moda=mod3
drop1(moda,test=”F”)
“`

Si se comparan los resultados de la sintaxis `drop1` con los de `summary`, se puede verificar que las probabilidades F y t coinciden. Esto sucede en este ejemplo porque no hay variables categóricas con más de 2 categorías; sin embargo, cuando se cuenta con variables categóricas con más de 2 categorías, no se debe usar `summary` porque en tal caso las probabilidades F y t no son equivalentes.

“`{r}
summary(moda)
“`

De los resultados anteriores se desprende que el primer predictor a ser eliminado es la variable **area**, pues tiene la probabilidad F más alta. Para materializar la eliminación se puede actualizar el modelo anterior mediante `moda=update(moda,.~.-area)`.

“`{r}
moda=update(moda,.~.-area)
drop1(moda,test=”F”)
“`

Y así puede continuarse hasta que, por ejemplo, todas las probabilidades sean menores a 0.15 (o a algún valor$α$ preestablecido de la forma antes descrita).

“`{r}
moda=update(moda,.~.-analf)
drop1(moda,test=”F”)
moda=update(moda,.~.-ingre)
drop1(moda,test=”F”)
“`

Finalmente, se obtiene que el modelo sugerido contempla las variables **pop**, **crim**, **grad** y **temp**.

##### 6.2.2. Eliminación Hacia Atrás con AIC
Adicionalmente, en lugar de usar el criterio de la probabilidad F se pueden usar criterios de información. Para usar el criterio de Akaike (AIC) simplemente no se indica nada en `test`, pues el AIC es el criterio por defecto que utiliza `drop1`. En este caso, la columna de AIC indica el valor del AIC que se obtendría si se elimina esa variable. Puesto que el objetivo es aumentar el AIC (porque eso haría al predictor candidato de ser eliminado), entonces se elimina la variable que más disminuye el AIC, generando luego un nuevo modelo (con las variables que menos disminuyen el AIC) que se compara con el modelo anterior, y así sucesivamente, hasta que la eliminación de cualquier variable aumenta el AIC con respecto al modelo anterior en lugar de disminuirlo, puesto que esta es la señal que en términos de robustez estadística del modelo no es recomendable eliminar más predictores.

“`{r}
moda=mod3
drop1(moda)
moda=update(moda,.~.-area)
drop1(moda)
moda=update(moda,.~.-analf)
drop1(moda)
moda=update(moda,.~.-ingre)
drop1(moda)
“`

El procedimiento antes descrito se puede realizar de forma automática con la sintaxis `step` mediante`step(mod)`. Tras ello, puede almacenarse el resultado en una estructura de datos (aquí llamada "mod4"#") y aplicar `summary` sobre dicho objeto.

“`{r}
mod4=step(mod3)
summary(mod4)
“`

##### 6.2.2. Eliminación Hacia Atrás con BIC
###### 6.2.2.1. Aspectos Teóricos Relevantes del BIC
Si en lugar del criterio AIC se desease utilizar el criterio bayesiano de información (BIC) se debe indicar en la sintaxis `step` mediante `k=log(n)`. Debe agregarse que, como se señala en (Bishop, Christopher M. Pattern Recognition and Machine Learning. 2006, p. 217), el criterio bayesiano de información penaliza la complejidad del modelo y es el criterio expuesto por Bishop en el lugar referido el que muestra la penalización que el BIC ejerce sobre la complejidad del modelo y que se conoce como *factor de Occam*. 

“`{r}
knitr::include_graphics(“FOTO4.JPG”)
“`

#Figura 2: Evaluación de la log-verosimilitud empleando parámetros optimizados #Fuente: Bishop, Christopher M. Pattern Recognition and Machine Learning. 2006, p. 216-17.
Debe decirse sobre el factor de Occam que, como puede verificarse en [David J. Spiegelhalter, Nicola G. Best, Bradley P. Carlin & Angelika Van Der Linde. Bayesian measures of model complexity and fit. Journal of Royal Statistical Society, Series B (Statistical Methodology); https://rss.onlinelibrary.wiley.com/doi/pdf/10.1111/1467-9868.00353] y en (van der Linde, Angelika. A Bayesian view of model complexity. Statistica Neerlandica xx, year xx-xx, special issue: All Models Are Wrong...; https://statmodeling.stat.columbia.edu/wp-content/uploads/2013/08/snavdlmc.pdf), no existe una definición analítica para el mismo, *i.e.*, una definición que pueda ser sustentada lógicamente desde algún marco teórico en congruencia clara y directa con un marco matemático autodemostrable dentro de teoría de conjuntos ZF-C (Zermelo-Fraenkel con Axioma de Elección) que la modele.

En este sentido, la investigación de Spiegelhalter et al es una de las investigaciones más importantes de al menos las últimas dos décadas a nivel de la teoría de las probabilidades y su importancia es aún mayor si el marco de referencia es únicamente la teoría bayesiana de probabilidades. En síntesis, los autores y autora de la investigación concluyen que la medida de complejidad bayesiana (que es la estructura matemática que aparece en la obra citada de Christopher Bishop) tiene como trasfondo común con el criterio DIC (que es la versión generalizada del AIC, de naturaleza teórica frecuentista, que tiene su propia penalización de la complejidad del modelo y por consiguiente su propia medición de dicha complejidad) la teoría de la información (rama de la teoría de las probabilidades que versa sobre las estructuras matemáticas que rigen la transmisión y el procesamiento de la información y se ocupa de la medición de la información y de la representación de la misma, así como también de la capacidad de los sistemas de comunicación para transmitir y procesar información; véase https://es.wikipedia.org/wiki/Teor%C3%ADa_de_la_informaci%C3%B3n), que el DIC y el BIC tienen una justificación lógica similar aunque el DIC tiene una campo de aplicación más amplio. Adicionalmente, se señala que la metodología de medición de complejidad bayesiana que ellos proponen es aplicable a toda la clase de modelos y que únicamente requiere de un trabajo analítico "despreciable" (p. 613) relativo a la configuración de un muestreo del tipo Monte Carlo basado en cadenas de Markov. Además, existe un problema señalado por los autores y autora relativo a que es difícil explicar si las diferencias entre los criterios de medición de complejidad del BIC y del DIC son realmente diferentes en términos estadísticos, puesto que es aún más difícil determinar el error del DIC en pruebas Monte Carlo (para ello se cita una investigación previa que señala esta dificultad). La publicación de este documento de investigación generó la apertura de un debate alrededor del mismo, que contó con la participación de S. Brooks (University of Cambridge), Jim Smith (University of Warwick), Aki Vehtari (Helsinki University of Technology), Martyn Plummer (International Agency of Research on Cancer, Lyon), Mervyn Stone (University College London), Christian P. Robert (Université Paris Dauphine) y D. M. Titterington (University of Glasgow), el mismísimo J. A. Nelder en persona (Impercial College of Science, Techonology and Medicine, London), Anthony Atkinson (London School of Economics and Political Science), A. P. David (University College London), José M. Bernardo (Universitat de València), Sujit K. Sahu (University of Southampton), Sylvia Richardson (Imperial College School of Medicine, London), Peter Green (University of Bristol), Kenneth P. Burnham (US Geological Survey and Colorado State University, Fort Collins), María Delorio (University of Oxford) y Christian P. Robert (Université Paris Dauphine), David Draper (University of California, Santa Cruz), Alan E. Gelfand (Duke University Durkham) y Matilde Travisani (University of Trieste), Jim Hodges (University of Minesota, Minneapolis), Youngjo Lee (Seoul National University), Xavier de Luna (Uméa University) y, finalmente, Xiao-Li Meng (Harvard University, University of Chicago); tremendo crossover, mucho mejor que *Crisis en Tierras Infinitas (1985-86)*... palabras mayores. Los posicionamientos de los autores y autoras participantes son diversas y profundas, sin embargo, se hará una recapitulación de aquellos que señalen debilidades la medición bayesiana de complejidad de un modelo estadístico.

Brooks (p. 616-18) plantea que la investigación (como casi toda buena investigación) deja preguntas abiertas, específicamente él señala que la ecuación 9 de la página 587 utiliza para calcular dicha complejidad el valor esperado, pero ¿por qué no la moda o la mediana?, ¿cuál es la justificación teórica de ello?, y de ello se deriva también ¿cómo se debe decidir entonces que el parámetro estimado debe ser la media, la moda o la mediana?, lo cual es relevante en cuanto podría conducir a diferencias importantes con el DIC; finalmente, ¿cómo se pueden ser comparables el análisis del modelo bajo el DIC con el análisis del modelo bajo las probabilidades posteriores (enfoque bayesiano) y por qué difieren?, ¿pueden ambas ser "correctas" de alguna manera significativa?

Por su parte, Jim Smith (p. 619-20) señala que no encontró errores técnicos (*i.e.*, matemáticos), pero que encontró cuatro problemas fundacionales. El primero que señala es que las implicaciones predictivas de todas las configuraciones del prior relativas a las variaciones en los ejemplos resueltos en la Sección 8 son increíbles (no en un sentido que podría considerarse positivo), puesto que según Smith no representan juicios de expertos cuidadosamente obtenidos, sino las opiniones de un usuario de software vacío. También señala que, al principio de la Sección 1, los autores afirman que quieren identificar modelos sucintos que parecen describir la información [¿acerca de valores de parámetros "verdaderos" incorrectos (ver Sección 2.2)?] en los datos con precisión, sin embargo, señala también que en un análisis bayesiano, la separación entre la información de los datos y el prior es artificial e inapropiada; señala que "Un análisis bayesiano en nombre de un experto en auditoría remota (Smith, 1996) podría requerir la selección de un prior que sea robusto dentro de una clase de creencias de diferentes expertos (por ejemplo, Pericchi y Walley (1991)). A veces, los prior predeterminados pueden justificarse para modelos simples. Incluso entonces, los modelos dentro de una clase de selección deben tener parametrizaciones compatibles: ver Moreno et al. (1998). Sin embargo, en los ejemplos en los que "el número de parámetros supera en número a las observaciones", afirman que sus enfoques de enfoque, es poco probable los prior predeterminados (por defecto) muestren alguna robustez (estadística). En particular, fuera del dominio de la estimación local vaga o de la estimación de la varianza de separación (discutida en la Sección 4), aparentemente los antecedentes por defecto pueden tener una fuerte influencia en las implicaciones del modelo y, por lo tanto, en la selección.", de lo cual se deriva una razonable insatisfacción ante la expresión la afirmación de los autores y autora sobre la baja probabilidad de que los prior muestren robustez.

Martyn Plummer (p. 621) señala lo que a su juicio son debilidades en la derivación heurística del DIC y de ello se deriva su señalamiento de sustento formal ;como señalan (Rosental & Iudin. Diccionario Filosófico. Editorial Tecolut, 1971. p. 215-216),
en términos históricos la palabra "heurística" proviene del griego εὑρίσκω, que significa "discuto". Es el arte de sostener una discusión y floreció sobre todo entre los sofistas de la antigua Grecia. Surgida como medio de buscar la verdad a través de la polémica, se escindió pronto en dialéctica y sofística. Sócrates, con su método, desarrolló la primera. En cambio, la sofística, tendiente sólo a alcanzar la victoria sobre el contrincante en la discusión, redujo la heurística a una suma de procedimientos que podían aplicarse con el mismo éxito tanto para demostrar una aseveración, cualquiera que fuese, como para refutarla. De ahí que ya Aristóteles no estableciera ninguna diferencia entre heurística y sofística. En la actualidad, al hablar de métodos heurísticos se hace referencia a una especie de atajos para las derivaciones rigurosas que implican mayor costo computacional, por lo que su carácter de verdad es siempre de corto plazo (provisional).

Mervyn Stone (p. 621) señala que la investigación de 2002 "bastante económico" en lo relativo a la *verdad fundamental* (véase https://marxianstatistics.files.wordpress.com/2020/12/sobre-los-estimadores-de-bayes-el-analisis-de-grupos-y-las-mixturas-gaussianas-isadore-nabi.pdf, p. 43-44), que si la sección 7.3 pudiera desarrollarse rigurosamente (puesto que le parece gnoseológicamente cuestionable el uso de $E_Y$), "(...) otra conexión (a través de la ecuación $(33)$) podría ser que $DIC ≈ −2A$. Pero, dado que la sección 7.3 invoca el supuesto de "buen modelo" y pequeños $|\hat{θ}-θ|$ para la expansión de la serie de Taylor (es decir, $n$ grande), tal conexión sería tan artificial como la de $A$ con el criterio de información de Akaike: ¿por qué no seguir con la forma prístina (hoy en día calculable) de $A$, que no necesita $n$ grande o verdad? , ¿y cuál acomoda la estimación de θ en el nivel de independencia de un modelo bayesiano jerárquico? Si la sensibilidad del logaritmo a probabilidades insignificantes es objetable, los bayesianos deberían estar felices de sustituirlo por una medida subjetivamente preferible de éxito predictivo." Es imposible cuestionar a Stone en cuanto a que, dado el enseñoramiento que en la teoría bayesiana de probabilidades tiene la escuela bayesiana subjetiva, el promedio del gremio bayesiano estaría filosóficamente satisfecha con renunciar a elementos objetivos (en este caso son requerimientos preestablecidos por la teoría del aprendizaje estadístico que condicionan la validez gnoseológica del modelo propuesto como un todo, como una muestra grande y/o una verdad fundamental) si representan un punto de discordia y pueden ser sustituidos por algún criterio de decisión que pueda ser determinado; que en paz descanse su alma https://www.ucl.ac.uk/statistics/sites/statistics/files/meryvn-stone-obituary.pdf.

Christian P. Robert y D. M. Titterington (p. 621) señalan que la estructura matemática planteada por los autores de la investigación para determinar la complejidad de un modelo desde la perspectiva bayesiana parecería hacer un uso duplicado (repetido en dos ocasiones) del conjunto de datos, la primera vez lo hacen para determinar la distribución posterior y la segunda para calcular la verosimilitud observada (o verosimilitud a priori, sin considerar información adicional). Este uso duplicado del conjunto de datos puede conducir a un sobreajuste del modelo; señalan que este tipo específico de problemática surgió antes en la investigación de (Aitkin, 1991).

Seguramente el invitado más célebre entre todos los que asistieron a este maravilloso coloquio académico fue John Nelder, padre de los modelos lineales generalizados. Antes de exponer su planteamiento, deben introducirse algunas cuestiones. En primer lugar, el *escape de amoníaco* en aplicaciones industriales es a lo que los autores se refieren (y se refirará Nelder) como *stack loss* (p. 609). En segundo lugar, la tabla 2 a la que se referirá Nelder es la siguiente:

“`{r}
knitr::include_graphics(“TABLA2.JPG”)
“`

#Figura 3: Tabla 2. Resultados de desviación para los datos de pérdida de amoníaco. #Fuente: Spiegelhalter, Best, Carlin & van der Linde. Bayesian measures of model complexity and fit, p. 610.
Así, Nelder (p. 622) señala: "Mi colega, el profesor Lee, ha planteado algunos puntos generales que conectan el tema de este artículo con nuestro trabajo sobre modelos lineales generalizados jerárquicos basados en la probabilidad. Quiero plantear un punto específico y dos generales. (a) El profesor Dodge ha demostrado que, de las 21 observaciones en el conjunto de datos de pérdida de amoníaco, ¡solo cinco no han sido declaradas como valores atípicos por alguien! Sin embargo, existe un modelo simple en el que ninguna observación aparece como un valor atípico. Es un modelo lineal generalizado con distribución gamma, log-link y predictor lineal x2 + log.x1 / Å log.x3 /: Esto da las siguientes entradas para la Tabla 2 en el documento: 98.3 92.6  6.2 104.5 (estoy en deuda con el Dr. Best por calcularlos). Es claramente mejor que los modelos existentes usados en la Tabla 2. (b) Este ejemplo ilustra mi primer punto general. Creo que ha pasado el tiempo en que bastaba con asumir un vínculo de identidad para los modelos y permitir que la distribución solo cambiara. Deberíamos tomar como nuestro conjunto de modelos de línea base al menos la clase de modeloos lineales generalizados definida por distribución, enlace y predictor lineal, con la elección de escalas para las covariables en el caso del predictor lineal. (c) Mi segundo punto general es que, para mí, no hay suficiente verificación de modelos en el artículo (supongo que el uso de tales técnicas no va en contra de las reglas bayesianas). Por ejemplo, si un conjunto de efectos aleatorios es suficientemente grande en número y el modelo postula que están distribuidos normalmente, sus estimaciones deben graficarse para ver si se parecen a una muestra de tal
distribución. Si parecen, por ejemplo, fuertemente bimodales, entonces el modelo debe revisarse." Que en paz descanse su alma.

Anthony Atkinson (p. 622) señala que dirige su participación al contexto de la regresión, concluyendo que este criterio de selección de modelos (el BIC planteado por los autores, que es el estimado mediante la sintaxis de R) es un primer paso, que necesita ser complementado
mediante pruebas de diagnóstico y gráficos. Para finalizar plantea que "Estos ejemplos muestran que la búsqueda hacia adelante es una herramienta extremadamente poderosa para este propósito. También requiere muchos ajustes del modelo a subconjuntos de datos. ¿Puede combinarse con los apreciables cálculos de los métodos de Monte Carlo de la cadena de Markov de los autores?" Que en paz descanse su alma.

A.P. Dawid plantea que el artículo debería haberse titulado "Medidas de la complejidad y el ajuste del modelo bayesiano", ya que según él son los modelos, no las medidas, los que son bayesianos. Una vez que se han especificado los ingredientes de un problema, cualquier pregunta relevante tiene una respuesta bayesiana única. La metodología bayesiana debe centrarse en cuestiones de especificación o en formas de calcular o aproximar la respuesta. No se requiere nada más (...) Un lugar donde un bayesiano podría querer una medida de la complejidad del modelo es como un sustituto de p en la aproximación del criterio de información de Bayes a la probabilidad marginal, por ejemplo, para modelos jerárquicos. Pero en tales casos, la definición del tamaño de muestra $n$ puede ser tan problemática como la de la dimensión del modelo $p$. Lo que necesitamos es un mejor sustituto del término completo $p⋅log(n)$". En línea con la gnoseología marxiana, lo adecuado parecería ser considerar que tanto los modelos como las medidas son bayesianos (o de otra escuela de filosofía de las probabilidades).

Las participaciones restantes son no tanto relativas a cuestiones metodológicas como a cuestiones filosóficas-fundacionales de la teoría bayesiana de las probabilidades y de la teoría de las probabilidades en general (puesto que el DIC, que es un criterio de información presentado por los mismos autores que presentan el BIC, no es bayesiano debido a que es una generalización del AIC -que es frecuentista-); de hecho, la transición de cuestiones metodológicas a filosóficas-fundacionales se expresa en el planteamiento de Dawid, quien aunque aborda cuestiones metodológicas lo hace con base en la lógica filosófica de que los modelos y no las medidas son los que pueden ser (o no) bayesianos. Por supuesto, estas últimas son las participaciones más importantes, sin embargo, abordalas escapa a los límites de esta investigación, por lo que para tan importante tarea se dedicará indudablemente un trabajo posterior.

###### 6.2.2.2. Ejecución de la Eliminación Hacia Atrás con el BIC

“`{r}
n = nrow(base)
mod5=step(mod3,k=log(n))
summary(mod5)
“`

#### 6.3. Método de Selección Hacia Adelante en R 

A propósito de lo señalado por Anthony Atkinson, para realizar un proceso de selección hacia adelante se puede usar la función `add1` inciando con un modelo que no contenga ninguna variable e indicando en `scope` cuales son todas las variables disponibles.  Ello se realiza de la siguiente forma: `add1(modb, scope=~pop + ingre + analf + crim + grad + temp + area)`.

“`{r}
mod6 = lm(esper~1,base)
modb=mod6
add1(modb, scope=~pop + ingre + analf + crim + grad + temp + area)
“`

En este caso se escoge agregar la variable que disminuya más el AIC. En este caso es **crim**. Se actualiza el modelo y se continúa hasta que todas tengan un AIC más bajo que el anterior: `modb=update(modb,.~.+crim)`.

“`{r}
modb=update(modb,.~.+crim)
add1(modb, scope=~pop + ingre + analf + crim + grad + temp + area)
modb=update(modb,.~.+grad)
add1(modb, scope=~pop + ingre + analf + crim + grad + temp + area)
modb=update(modb,.~.+temp)
add1(modb, scope=~pop + ingre + analf + crim + grad + temp + area)
modb=update(modb,.~.+pop)
add1(modb, scope=~pop + ingre + analf + crim + grad + temp + area)
“`

De forma similar se puede usar `step` para indicar `scope` (además de indicar `direction="forward"`) de la siguiente forma: `step(mod6,direction="forward",scope=~pop + ingre + analf + crim + grad + temp + area)`. `scope` "define la gama de modelos examinados en la búsqueda por pasos. Debe ser una fórmula única o una lista que contenga los componentes superior e inferior, ambas fórmulas. Consulte los detalles sobre cómo especificar las fórmulas y cómo se utilizan." (véase https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html).

En este caso, tiene la logica del modelo hacia adelante, se va ingresando las variables que reducen el AIC y luego quedan las que no estan en el modelo, osea las que incrementaria el AIC.

“`{r}
mod7=step(mod6,direction=”forward”,scope=~pop + ingre + analf + crim + grad + temp + area)
summary(mod7)
“`

ASPECTOS TEÓRICOS GENERALES SOBRE LA MATRIZ DE DISEÑO ESTRUCTURAL

ISADORE NABI

Como se señala en (Eppinger & Browning, 2012, págs. 2-4), la matriz de diseño estructural (DSM de ahora en adelante, por sus siglas en inglés) es una herramienta de modelado de redes que se utiliza para representar los elementos que componen un sistema y sus interacciones, destacando así la arquitectura del sistema (o estructura diseñada). DSM se adapta particularmente bien a aplicaciones en el desarrollo de sistemas de ingeniería complejos y, hasta la fecha, se ha utilizado principalmente en el área de gestión de ingeniería. Sin embargo, en el horizonte hay una gama mucho más amplia de aplicaciones de DSM que abordan problemas complejos en la gestión de la atención médica, los sistemas financieros, las políticas públicas, las ciencias naturales y los sistemas sociales. El DSM se representa como una matriz cuadrada N x N, que mapea las interacciones entre el conjunto de N elementos del sistema. DSM, una herramienta muy flexible, se ha utilizado para modelar muchos tipos de sistemas. Dependiendo del tipo de sistema que se modele, DSM puede representar varios tipos de arquitecturas. Por ejemplo, para modelar la arquitectura de un producto, los elementos de DSM serían los componentes del producto y las interacciones serían las interfaces entre los componentes (figura 1.1.a).

Fuente: (Eppinger & Browning, 2012, pág. 1).

Para modelar la arquitectura de una organización, los elementos de DSM serían las personas o equipos de la organización, y las interacciones podrían ser comunicaciones entre las personas (figura l.1.b). Para modelar una arquitectura de proceso, los elementos del DSM serían las actividades en el proceso, y las interacciones serían los flujos de información y/o materiales entre ellos (figura l.l.c). Los modelos DSM de diferentes tipos de arquitecturas pueden incluso combinarse para representar cómo se relacionan los diferentes dominios del sistema dentro de un sistema más grande (figura l.l.d). Por tanto, el DSM es una herramienta genérica para modelar cualquier tipo de arquitectura de sistema. En comparación con otros métodos de modelado de redes, el principal beneficio de DSM es la naturaleza gráfica del formato de visualización de la matriz. La matriz proporciona una representación muy compacta, fácilmente escalable y legible de forma intuitiva de la arquitectura de un sistema. La figura l.3.a muestra un modelo DSM simple de un sistema con ocho elementos, junto con su representación gráfica dirigida equivalente (dígrafo) en la figura 1.3.b.

Fuente: (Eppinger & Browning, 2012, pág. 4).

En comparación con otros métodos de modelado de redes, el principal beneficio de DSM es la naturaleza gráfica del formato de visualización de la matriz. La matriz proporciona una representación muy compacta, fácilmente escalable y legible de forma intuitiva de la arquitectura de un sistema. La figura l.3.a muestra un modelo DSM simple de un sistema con ocho elementos, junto con su representación equivalente como grafo dirigido (dígrafo) en la figura 1.3.b. En los estudios iniciales de DSM, a muchos les resulta fácil pensar que las celdas a lo largo de la diagonal de la matriz representan los elementos del sistema, análogos a los nodos en el modelo de dígrafo; sin embargo, es necesario mencionar que, para mantener el diagrama de matriz compacto, los nombres completos de los elementos a menudo se enumeran a la izquierda de las filas (y a veces también encima de las columnas) en lugar de en las celdas diagonales. También es fácil pensar que cada celda sobre la diagonal principal de la matriz puede tener entradas que ingresan desde sus lados izquierdo y derecho y salidas que salen desde arriba y abajo. Las fuentes y destinos de estas interacciones de entrada y salida se identifican mediante marcas en las celdas fuera de la diagonal (en la figura anterior expresadas con una letra X) análogas a los arcos direccionales en el modelo de dígrafo. Examinar cualquier fila de la matriz revela todas las entradas del elemento en esa fila (que son salidas de otros elementos).

Si se observa hacia abajo, cualquier columna de la matriz muestra todas las salidas del elemento en esa columna (que se convierten en entradas para otros elementos). En el ejemplo simple de DSM que se muestra en la figura 1.3.a, los ocho elementos del sistema están etiquetados de la A a la H, y hemos etiquetado tanto las filas como las columnas de la A a la H en consecuencia. Al leer la fila D, por ejemplo, vemos que el elemento D tiene entradas de los elementos A, B y F, representados por las marcas X en la fila D, columnas A, B y F. Al leer la columna F, vemos ese elemento F tiene salidas que van a los elementos B y D. Por lo tanto, la marca en la celda fuera de la diagonal [D, F] representa una interacción que es tanto una entrada como una salida dependiendo de si se toma la perspectiva de su proveedor (columna F) o su receptor (fila D). Es importante notar que muchos recursos de DSM usan la convención opuesta, la transposición de la matriz, con las entradas de un elemento mostradas en su columna y sus salidas mostradas en su fila. Las dos convenciones transmiten la misma información, y ambas se utilizan ampliamente debido a las diversas raíces de las herramientas basadas en matrices para los sistemas de modelado.

En este sentido, como se verifica en (IBM, 2021), en diversos escenarios aplicados puede existir más de una función discriminante[1], como se muestra a continuación.

Fuente: (IBM, 2021).

En general, como se verifica en (Zhao & Maclean, 2000, pág. 841), el análisis discriminante canónico (CDA, por nombre en inglés) es una técnica multivariante que se puede utilizar para determinar las relaciones entre una variable categórica y un grupo de variables independientes. Uno de los propósitos principales de CDA es separar clases (poblaciones) en un espacio discriminante de menor dimensión. En este contexto es que cuando existe más de una función discriminante (cada una de estas puede verse como un modelo de regresión lineal), un asterisco (*) como en este caso (para el caso del programa SaaS) u otro símbolo denotará la mayor correlación absoluta de cada variable con una de las funciones canónicas. Dentro de cada función, estas variables marcadas se ordenan por el tamaño de la correlación. Para el caso de la tabla presentada en la figura anterior, su lectura debe realizarse de la siguiente manera:

  1. “Nivel educativo” está más fuertemente correlacionado con la primera función y es la única variable más fuertemente correlacionada con esta función.
  2. Años con empresa actual, “Edad” en años, “Ingresos del hogar” en miles, “Años” en la dirección actual, “Retirado” y “Sexo” están más fuertemente correlacionados con la segunda función, aunque “Sexo” y “Jubilación” están más débilmente correlacionados que los otros. Las demás variables marcan esta función como función de “estabilidad”.
  3. “Número de personas en el hogar” y “Estado civil” están más fuertemente correlacionados con la tercera función discriminante, pero esta es una función sin utilidad, así que estos predictores son prácticamente inútiles.

REFERENCIAS

de la Fuente Fernández, S. (s.f.). Análisis Discriminante. Obtenido de Universidad Autónoma de Madrid: https://www.estadistica.net/Master-Econometria/Analisis_Discriminante.pdf

Eppinger, S. D., & Browning, T. R. (2012). Design Structure Matrix Methods and Applications. Cambridge, Massachusetts: MIT Press.

IBM. (2021). Análisis discriminante. Obtenido de SPSS Statistics: https://www.ibm.com/docs/es/spss-statistics/version-missing?topic=features-discriminant-analysis

IBM. (2021). Matriz de estructura. Obtenido de SaaS: https://www.ibm.com/docs/es/spss-modeler/SaaS?topic=customers-structure-matrix

Wikipedia. (23 de Junio de 2021). Linear classifier. Obtenido de Statistical classification: https://en.wikipedia.org/wiki/Linear_classifier

Zhao, G., & Maclean, A. L. (2000). A Comparison of Canonical Discriminant Analysis and Principal Component Analysis for Spectral Transformation. Photogrammetric Engineering & Remote Sensing, 841-847. Obtenido de https://www.asprs.org/wp-content/uploads/pers/2000journal/july/2000_jul_841-847.pdf

[1] Como se verifica en (de la Fuente Fernández, pág. 1), un discriminante es cada una de las variables independientes con las que se cuenta. Además, como se verifica en (IBM, 2021), una función discriminante es aquella que, mediante las diferentes combinaciones lineales de las variables predictoras, busca realizar la mejor discriminación posible entre los grupos. No debe olvidarse que, como se señala en (Wikipedia, 2021), En el campo del aprendizaje automático, el objetivo de la clasificación estadística es utilizar las características de un objeto para identificar a qué clase (o grupo) pertenece.

FUNDAMENTOS GENERALES DE LA PROGRAMACIÓN EN R STUDIO: UN ENFOQUE ESTADÍSTICO-MATEMÁTICO

ISADORE NABI

INTRODUCCIÓN A LOS ENSAYOS CLÍNICOS DESDE LA TEORÍA ESTADÍSTICA Y RSTUDIO: ASOCIACIÓN Y CORRELACIÓN DE PEARSON, SPEARMAN Y KENDALL

isadore NABI

### DISTRIBUCIÓN CHI-CUADRADO

###ORÍGENES HISTÓRICOS Y GENERALIDADES: https://marxianstatistics.com/2021/09/10/generalidades-sobre-la-prueba-chi-cuadrado/

###En su forma general, la distribución Chi-Cuadrado es una suma de los cuadrados de variables aleatorias N(media=0, varianza=1), véase https://mathworld.wolfram.com/Chi-SquaredDistribution.html.

###Se utiliza para describir la distribución de una suma de variables aleatorias al cuadrado. También se utiliza para probar la bondad de ajuste de una distribución de datos, si las series de datos son independientes y para estimar las confianzas que rodean la varianza y la desviación estándar de una variable aleatoria de una distribución normal.

### COEFICIENTES DE CORRELACIÓN

###Coeficiente de Correlación de Pearson (prueba paramétrica): https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient-statistical-guide.php, https://www.wikiwand.com/en/Pearson_correlation_coefficient.

###Coeficiente de Correlación de Spearman (prueba no-paramétrica): https://statistics.laerd.com/statistical-guides/spearmans-rank-order-correlation-statistical-guide.php, https://www.wikiwand.com/en/Spearman%27s_rank_correlation_coefficient, https://www.statstutor.ac.uk/resources/uploaded/spearmans.pdf.

###Coeficiente de Correlación de Kendall (prueba no-paramétrica): https://www.statisticshowto.com/kendalls-tau/, https://towardsdatascience.com/kendall-rank-correlation-explained-dee01d99c535, https://personal.utdallas.edu/~herve/Abdi-KendallCorrelation2007-pretty.pdf, https://www.wikiwand.com/en/Kendall_rank_correlation_coefficient.

####Como se verifica en su forma más general [véase Jeremy M. G. Taylor, Kendall’s and Spearman’s Correlation Coefficient in the Presence of a Blocking Variable, (Biometrics, Vol. 43, No. 2 (Jun., 1987), pp.409-416), p. 409], en presencia de “empates”, conocidos también como “observaciones vinculadas” (del inglés “ties”, que, como se verifica en http://www.statistics4u.com/fundstat_eng/dd_ties.html, significa en el contexto de las estadísticas de clasificación de orden -rank order statistics- la existencia de dos o más observaciones que tienen el mismo valor, por lo que imposibilita la asignación de números de rango únicos), es preferible utilizar el coeficiente de correlación de Spearman rho porque su varianza posee una forma más simple (relacionado con el costo computacional, puesto que la investigación de Jeremy Taylor emplea como herramienta de estadística experimental la metodología Monte Carlo, lo que puede verificarse en https://pdodds.w3.uvm.edu/files/papers/others/1987/taylor1987a.pdf).

### RIESGO RELATIVO

####Como se verifica en https://www.wikiwand.com/en/Odds_ratio, el riesgo relativo (diferente a la razón éxito/fracaso y a la razón de momios) es la proporción de éxito de un evento (o de fracaso) en términos del total de ocurrencias (éxitos más fracasos).

### RAZÓN ÉXITO/FRACASO

####Es el cociente entre el número de veces que ocurre un evento y el número de veces en que no ocurre.

####INTERPRETACIÓN: Para interpretar la razón de ataque/no ataque de forma más intuitiva se debe multiplicar dicha razón Ψ (psi) por el número de decenas necesarias Ξ (Xi) para que la razón tenga un dígito d^*∈N a la izquierda del “punto decimal” (en este caso de aplicación hipotético Ξ=1000), resultando así un escalar real υ=Ψ*Ξ (donde υ es la letra griega ípsilon) con parte entera que se interpreta como “Por cada Ξ elementos de la población de referencia bajo la condición especificada (en este caso, que tomó aspirina o que tomó un placebo) estará presente la característica (u ocurrirá el evento, según sea el caso) en (d^*+h) ocasiones, en donde h es el infinitesimal a la derecha del punto decimal (llamado así porque separa no sólo los enteros de los infinitesimales, sino que a su derecha se encuentra la casilla correspondiente justamente a algún número decimal).

### RAZÓN DE MOMIOS

####DEFÍNICIÓN: Es una medida utilizada en estudios epidemiológicos transversales y de casos y controles, así como en los metaanálisis. En términos formales, se define como la posibilidad que una condición de salud o enfermedad se presente en un grupo de población frente al riesgo que ocurra en otro. En epidemiología, la comparación suele realizarse entre grupos humanos que presentan condiciones de vida similares, con la diferencia que uno se encuentra expuesto a un factor de riesgo (mi) mientras que el otro carece de esta característica (mo). Por lo tanto, la razón de momios o de posibilidades es una medida de tamaño de efecto.

####Nótese que es un concepto, evidentemente, de naturaleza frecuentista.

####La razón de momios es el cociente entre las razones de ocurrencia/no-ocurrencia de los tratamientos experimentales estudiados (una razón por cada uno de los dos tratamientos experimentales sujetos de comparación).

### TAMAÑO DEL EFECTO

####Defínase tamaño del efecto como cualquier medida realizada sobre algún conjunto de características (que puede ser de un elemento) relativas a cualquier fenómeno, que es utilizada para abordar una pregunta de interés, según (Kelly y Preacher 2012, 140). Tal y como ellos señalan, la definición es más que una combinación de “efecto” y “tamaño” porque depende explícitamente de la pregunta de investigación que se aborde. Ello significa que lo que separa a un tamaño de efecto de un estadístico de prueba (o estimador) es la orientación de su uso, si responde una pregunta de investigación en específico entonces el estadístico (o parámetro) se convierte en un “tamaño de efecto” y si sólo es parte de un proceso global de predicción entonces es un estadístico (o parámetro) a secas, i.e., su distinción o, expresado en otros términos, la identificación de cuándo un estadístico (o parámetro) se convierte en un tamaño de efecto, es una cuestión puramente epistemológica, no matemática. Lo anterior simplemente implica que, dependiendo del tipo de pregunta que se desee responder el investigador, un estadístico (o parámetro) será un tamaño de efecto o simplemente un estadístico (o parámetro) sin más.

setwd(“C:/Users/User/Desktop/Carpeta de Estudio/Maestría Profesional en Estadística/Semestre II-2021/Métodos, Regresión y Diseño de Experimentos/2/Laboratorios/Laboratorio 2”)

## ESTIMAR EL COEFICIENTE DE CORRELACIÓN DE PEARSON ENTRE TEMPERATURA Y PORCENTAJE DE CONVERSIÓN

###CÁLCULO MANUAL DE LA COVARIANZA

prom.temp = mean(temperatura)

prom.conversion = mean(porcentaje.conversion)

sd.temp = sd(temperatura)

sd.conversion = sd(porcentaje.conversion)

n = nrow(vinilacion)

covarianza = sum((temperatura-prom.temp)*(porcentaje.conversion-prom.conversion))/(n-1)

covarianza

###La covarianza es una medida para indicar el grado en el que dos variables aleatorias cambian en conjunto (véase https://www.mygreatlearning.com/blog/covariance-vs-correlation/#differencebetweencorrelationandcovariance).

###CÁLCULO DE LA COVARIANZA DE FORMA AUTOMATIZADA

cov(temperatura,porcentaje.conversion)

###CÁLCULO MANUAL DEL COEFICIENTE DE CORRELACIÓN DE PEARSON

###Véase https://www.wikiwand.com/en/Pearson_correlation_coefficient (9 de septiembre de 2021).

coef.correlacion = covarianza/(sd.temp*sd.conversion)

coef.correlacion

###CÁLCULO AUTOMATIZADO DEL COEFICIENTE DE CORRELACIÓN DE PEARSON

cor(temperatura,porcentaje.conversion) ###Salvo que se especifique lo contrario (como puede verificarse en la librería de R), el coeficiente de correlación calculado por defecto será el de Pearson, sin embargo, se puede calcular también el coeficiente de Kendall (escribiendo “kendall” en la casilla “method” de la sintaxis “cor”) o el de Spearman (escribiendo “spearman” en la casilla “method” de la sintaxis “cor”).

cor(presion,porcentaje.conversion)

###VÍNCULO, SIMILITUDES Y DIFERENCIAS ENTRE CORRELACIÓN Y COVARIANZA

###El coeficiente de correlación está íntimamente vinculado con la covarianza. La covarianza es una medida de correlación y el coeficiente de correlación es también una forma de medir la correlación (que difiere según sea de Pearson, Kendall o Spearman).

###La covarianza indica la dirección de la relación lineal entre variables, mientras que el coeficiente de correlación mide no sólo la dirección sino además la fuerza de esa relación lineal entre variables.

###La covarianza puede ir de menos infinito a más infinito, mientras que el coeficiente de correlación oscila entre -1 y 1.

###La covarianza se ve afectada por los cambios de escala: si todos los valores de una variable se multiplican por una constante y todos los valores de otra variable se multiplican por una constante similar o diferente, entonces se cambia la covarianza. La correlación no se ve influenciada por el cambio de escala.

###La covarianza asume las unidades del producto de las unidades de las dos variables. La correlación es adimensional, es decir, es una medida libre de unidades de la relación entre variables.

###La covarianza de dos variables dependientes mide cuánto en cantidad real (es decir, cm, kg, litros) en promedio covarían. La correlación de dos variables dependientes mide la proporción de cuánto varían en promedio estas variables entre sí.

###La covarianza es cero en el caso de variables independientes (si una variable se mueve y la otra no) porque entonces las variables no necesariamente se mueven juntas (por el supuesto de ortogonalidad entre los vectores, que expresa geométricamente su independencia lineal). Los movimientos independientes no contribuyen a la correlación total. Por tanto, las variables completamente independientes tienen una correlación cero.

## CREAR UNA MATRIZ DE CORRELACIONES DE PEARSON Y DE SPEARMAN

####La vinilación de los glucósidos se presenta cuando se les agrega acetileno a alta presión y alta temperatura, en presencia de una base para producir éteres de monovinil.

###Los productos de monovinil éter son útiles en varios procesos industriales de síntesis.

###Interesa determinar qué condiciones producen una conversión máxima de metil glucósidos para diversos isómeros de monovinil.

cor(vinilacion) ###Pearson

cor(vinilacion, method=”spearman”) ###Spearman

## CREAR UNA MATRIZ DE VARIANZAS Y COVARIANZAS (LOCALIZADAS ESTAS ÚLTIMAS EN LA DIAGONAL PRINCIPAL DE LA MATRIZ)

cov(vinilacion)

## GENERAR GRÁFICOS DE DISPERSIÓN

plot(temperatura,porcentaje.conversion)

plot(porcentaje.conversion~temperatura)

mod = lm(porcentaje.conversion~temperatura)

abline(mod,col=2)

###La sintaxis “lm” es usada para realizar ajuste de modelos lineales (es decir, ajustar un conjunto de datos a la curva dibujada por un modelo lineal -i.e., una línea recta-, lo cual -si es estadísticamente robusto- implica validar que el conjunto de datos en cuestión posee un patrón de comportamiento geométrico lineal).

###La sintaxis “lm” puede utilizar para el ajuste el método de los mínimos cuadrados ponderados o el método de mínimos cuadrados ordinarios, en función de si la opción “weights” se llena con un vector numérico o con “NULL”, respectivamente).

### La casilla “weights” de la sintaxis “lm” expresa las ponderaciones a utilizar para realizar el proceso de ajuste (si las ponderaciones son iguales para todas las observaciones, entonces el método de mínimos cuadrados ponderados se transforma en el método de mínimos cuadrados ordinarios). Estas ponderaciones son, en términos computacionales, aquellas que minimizan la suma ponderada de los errores al cuadrado.

###Las ponderaciones no nulas pueden user usadas para indicar diferentes varianzas (con los valores de las ponderaciones siendo inversamente proporcionales a la varianza); o, equivalentemente, cuando los elementos del vector de ponderaciones son enteros positivos w_i, en donde cada respuesta y_i es la media de las w_j unidades observacionales ponderadas (incluyendo el caso de que hay w_i observaciones iguales a y_i y los datos se han resumido).

###Sin embargo, en el último caso, observe que no se utiliza la variación dentro del grupo. Por lo tanto, la estimación sigma y los grados de libertad residuales pueden ser subóptimos; en el caso de pesos de replicación, incluso incorrecto. Por lo tanto, los errores estándar y las tablas de análisis de varianza deben tratarse con cuidado.

###La estimación sigma se refiere a la sintaxis “sigma” que estima la desviación estándar de los errores (véase https://stat.ethz.ch/R-manual/R-devel/library/stats/html/sigma.html).

###Si la variable de respuesta (o dependiente) es una matriz, un modelo lineal se ajusta por separado mediante mínimos cuadrados a cada columna de la matriz.

###Cabe mencionar que “formula” (la primera entrada de la sintaxis “lm”) tiene un término de intersección implícito (recuérdese que toda ecuación de regresión tiene un intercepto B_0, que puede ser nulo). Para eliminar dicho término, debe usarse y ~ x – 1 o y ~ 0 + x.

plot(presion~porcentaje.conversion)

mod = lm(presion~porcentaje.conversion) ###Ajuste a la recta antes mencionado y guardado bajo el nombre “mod”.

abline(mod,col=2) ###Es crear una línea color rojo (col=2) en la gráfica generada (con la función “mod”)

## REALIZAR PRUEBA DE HIPÓTESIS PARA EL COEFICIENTE DE CORRELACIÓN

###Véase https://opentextbc.ca/introstatopenstax/chapter/testing-the-significance-of-the-correlation-coefficient/, https://online.stat.psu.edu/stat501/lesson/1/1.9,

###Para estar casi seguros (en relación al concepto de convergencia) Para asegurar que existe al menos una leve correlación entre dos variables (X,Y) se tiene que probar que el coeficiente de correlación poblacional (r) no es nulo.

###Para que la prueba de hipótesis tenga validez se debe verificar que la distribución de Y para cada X es normal y que sus valores han sido seleccionados aleatoriamente.

###Si se rechaza la hipótesis nula, no se asegura que haya una correlación muy alta.

###Si el valor p es menor que el nivel de significancia se rechaza la Ho de que el coeficiente de correlación entre Y y X es cero en términos de determinado nivel de significancia estadística.

###Evaluar la significancia estadística de un coeficiente de correlación puede contribuir a validar o refutar una investigación donde este se haya utilizado (siempre que se cuenten con los datos empleados en la investigación), por ejemplo, en el uso de modelos lineales de predicción.

###Se puede utilizar la distribución t con n-2 grados de libertad para probar la hipótesis.

###Como se observará a continuación, además de la forma estándar, también es posible calcular t como la diferencia entre el coeficiente de correlación.

###Si la probabilidad asociada a la hipótesis nula es casi cero, puede afirmarse a un nivel de confianza determinado de que la correlación es altamente significativa en términos estadísticos.

###FORMA MANUAL

ee = sqrt((1-coef.correlacion^2)/(n-2))

t.calculado = (coef.correlacion-0)/ee ###Aquí parece implicarse que el valor t puede calcularse como el cociente entre el coeficiente de correlación muestral menos el coeficiente de correlación poblacional sobre el error estándar de la media.

2*(1-pt(t.calculado,n-2))

###FORMA AUTOMATIZADA

cor.test(temperatura,porcentaje.conversion) ###El valor del coeficiente de correlación que se ha estipulado (que es cero) debe encontrarse dentro del intervalo de confianza al nivel de probabilidad pertinente para aceptar Ho y, caso contrario, rechazarla.

cor.test(temperatura,presion)

###Como se señala en https://marxianstatistics.com/2021/09/05/analisis-teorico-de-la-funcion-cuantil-en-r-studio/,&nbsp; calcula el valor umbral x por debajo del cual se encuentran las observaciones sobre el fenómeno de estudio en una proporción P de las ocasiones (nótese aquí una definición frecuentista de probabilidad), incluyendo el umbral en cuestión.

qt(0.975,6)

### EJEMPLO DE APROXIMACIÓN COMPUTACIONAL DE LA DISTRIBUCIÓN t DE STUDENT A LA DISTRIBUCIÓN NORMAL

###El intervalo de confianza se calcula realizando la transformación-z de Fisher (tanto con la función automatizada de R como con la función personalizada elaborada) como a nivel teórico), la cual se utiliza porque cuando la transformación se aplica al coeficiente de correlación muestral, la distribución muestral de la variable resultante es aproximadamente normal, lo que implica que posee una varianza que es estable sobre diferentes valores de la correlación verdadera subyacente (puede ampliarse más en https://en.wikipedia.org/wiki/Fisher_transformation).

coef.correlacion+c(-1,1)*qt(0.975,6)*ee ###Intervalo de confianza para el estadístico de prueba sujeto de hipótesis (el coeficiente de correlación, en este caso) distribuido como una distribución t de Student.

coef.correlacion+c(-1,1)*qnorm(0.975)*ee ###Intervalo de confianza para el estadístico de prueba sujeto de hipótesis (el coeficiente de correlación, en este caso) distribuido normalmente.

## CASO DE APLICACIÓN HIPOTÉTICO

###En un estudio sobre el metabolismo de una especie salvaje, un biólogo obtuvo índices de actividad y datos sobre tasas metabólicas para 20 animales observados en cautiverio.

rm(list=ls()) ###Remover todos los objetos de la lista

actividad <- read.csv(“actividad.csv”, sep = “,”, dec=”.”, header = T)

attach(actividad)

n=nrow(actividad)

str(actividad)####”str” es para ver qué tipo de dato es cada variable.

plot(Indice.actividad,Tasa.metabolica)

###Coeficiente de Correlación de Pearson

cor(Indice.actividad,Tasa.metabolica, method=”pearson”)

###Se rechaza la hipótesis nula de que la correlación de Pearson es 0.

###Coeficiente de correlación de Spearman

(corr = cor(Indice.actividad,Tasa.metabolica, method=”spearman”))

(t.s=corr*(sqrt((n-2)/(1-(corr^2)))))

(gl=n-2)

(1-pt(t.s,gl))*2

###Se rechaza la hipótesis nula de que la correlación de Spearman es 0.

###NOTA ADICIONAL:

###Ambas oscilan entre -1 y 1. El signo negativo denota la relacion inversa entre ambas. La correlacion de Pearson mide la relación lineal entre dos variables (correlacion 0 es independencia lineal, que los vectores son ortogonales). La correlación de Pearson es para variables numérica de razón y tiene el supuesto de normalidad en la distribución de los valores de los datos. Cuando los supuestos son altamente violados, lo mejor es usar una medida de correlación no-paramétrica, específicamente el coeficiente de Spearman. Sobre el coeficiente de Spearman se puede decir lo mismo en relación a la asociación. Así, valores de 0 indican correlación 0, pero no asegura que por ser cero las variables sean independientes (no es concluyente).

### TABLAS DE CONTINGENCIA Y PRUEBA DE INDEPENDENCIA

###Una tabla de contingencia es un arreglo para representar simultáneamente las cantidades de individuos y sus porcentajes que se presentan en cada celda al cruzar dos variables categóricas.

###En algunos casos una de las variables puede funcionar como respuesta y la otra como factor, pero en otros casos sólo interesa la relación entre ambas sin intentar explicar la dirección de la relación.

###CASO DE APLICACIÓN HIPOTÉTICO

###Un estudio de ensayos clínicos trataba de probar si la ingesta regular de aspirina reduce la mortalidad por enfermedades cardiovasculares. Los participantes en el estudio tomaron una aspirina o un placebo cada dos días. El estudio se hizo de tal forma que nadie sabía qué pastilla estaba tomando. La respuesta es que si presenta o no ataque cardiaco (2 niveles),

rm(list=ls())

aspirina = read.csv(“aspirina.csv”, sep = “,”, dec=”.”, header = T)

aspirina

str(aspirina)

attach(aspirina)

names(aspirina)

str(aspirina)

View(aspirina)

#### 1. Determinar las diferencias entre la proporción a la que ocurrió un ataque dependiendo de la pastilla que consumió. Identifique el porcentaje global en que presentó ataque y el porcentaje global en que no presentó.

e=tapply(aspirina$freq,list(ataque,pastilla),sum) ###Genera la estructura de la tabla con la que se trabajará (la base de datos organizada según el diseño experimental previamente realizado).

prop.table(e,2) ###Riesgo Relativo columna. Para verificar esto, contrástese lo expuesto al inicio de este documento con la documentación CRAN [accesible mediante la sintaxis “?prop.table”] para más detalles.

prop.table(e,1) ###Riesgo Relativo fila. Para verificar esto, contrástese lo expuesto al inicio de este documento con la documentación CRAN [accesible mediante la sintaxis “?prop.table”] para más detalles.

(et=addmargins(e)) ###Tabla de contingencia.

addmargins(prop.table(e)) ####Distribución porcentual completa.

###Si se asume que el tipo de pastilla no influye en el hecho de tener un ataque cardíaco, entonces, debería de haber igual porcentaje de ataques en la columna de médicos que tomaron aspirina que en la de los que tomaron placebo.

###Se obtiene el valor esperado de ataques y no ataques.

### Lo anterior se realiza bajo el supuesto de que hay un 1.3% de ataques en general y un 98.7% de no ataques.

#### 2. Usando los valores observados y esperados, calcular el valor de Chi-Cuadrado para determinar si existe dependencia entre ataque y pastilla?

###Al aplicar la distribución Chi cuadrado, que es una distribución continua, para representar un fenómeno discreto, como el número de casos en cada unos de los supuestos de la tabla de 2*2, existe un ligero fallo en la aproximación a la realidad. En números grandes, esta desviación es muy escasa, y puede desecharse, pero cuando las cantidades esperadas en alguna de las celdas son números pequeños- en general se toma como límite el que tengan menos de cinco elementos- la desviación puede ser más importante. Para evitarlo, Yates propuso en 1934 una corrección de los métodos empleados para hallar el Chi cuadrado, que mejora la concordancia entre los resultados del cálculo y la distribución Chi cuadrado. En el articulo anterior, correspondiente a Chi cuadrado,  el calculador expone, además de los resultados de Chi cuadrado, y las indicaciones para decidir, con arreglo a los límites de la distribución para cada uno de los errores alfa admitidos, el rechazar o no la hipótesis nula, una exposición de las frecuencias esperadas en cada una de las casillas de la tabla de contingencia, y la advertencia de que si alguna de ellas tiene un valor inferior a 5 debería emplearse la corrección de Yates. Fuente: https://www.samiuc.es/estadisticas-variables-binarias/valoracion-inicial-pruebas-diagnosticas/chi-cuadrado-correccion-yates/.

###Como se señala en [James E. Grizzle, Continuity Correction in the χ2-Test for 2 × 2 Tables, (The American Statistician, Oct., 1967, Vol. 21, No. 4 (Oct., 1967), pp. 28-32), p. 29-30], técnicamente hablando, la corrección de Yates hace que “(…) las probabilidades obtenidas bajo la distribución χ2 bajo la hipótesis nula converjan de forma más cercana con las probabilidades obtenidas bajo el supuesto de que el conjunto de datos fue generado por una muestra proveniente de la distribución hipergeométrica, i.e., generados bajo el supuesto que los dos márgenes de la tabla fueron fijados con antelación al muestreo.”

###Grizzle se refiere con “márgenes” a los totales de la tabla (véase https://www.tutorialspoint.com/how-to-create-a-contingency-table-with-sum-on-the-margins-from-an-r-data-frame). Además, la lógica de ello subyace en la misma definición matemática de la distribución hipergeométrica. Como se puede verificar en RStudio mediante la sintaxis “?rhyper”, la distribución hipergeométrica tiene la estructura matemática (distribución de probabilidad) p(x) = choose(m, x) choose(n, k-x)/choose(m+n, k), en donde m es el número de éxitos, n es el número de fracasos lo que ) y k es el tamaño de la muestra (tanto m, n y k son parámetros en función del conjunto de datos, evidentemente), con los primeros dos momentos definidos por E[X] = μ = k*p y la varianza se define como Var(X) = k p (1 – p) * (m+n-k)/(m+n-1). De lo anterior se deriva naturalmente que para realizar el análisis estocástico del fenómeno modelado con la distribución hipergeométrica es necesario conocer la cantidad de sujetos que representan los éxitos y los fracasos del experimento (en donde “éxito” y “fracaso” se define en función del planteamiento del experimento, lo cual a su vez obedece a múltiples factores) y ello implica que se debe conocer el total de los sujetos experimentales estudiados junto con su desglose en los términos binarios ya especificados.

###Lo mismo señalado por Grizzle se verifica (citando a Grizzle) en (Biometry, The Principles and Practice of Statistics in Biological Research, Robert E. Sokal & F. James Rohlf, Third Edition, p. 737), especificando que se vuelve innecesaria la corrección de Yates aún para muestras de 20 observaciones.

###Adicionalmente, merece mención el hecho que, como es sabido, la distribución binomial se utiliza con frecuencia para modelar el número de éxitos en una muestra de tamaño n extraída con reemplazo de una población de tamaño N. Sin embargo, si el muestreo se realiza sin reemplazo, las muestras extraídas no son independientes y, por lo tanto, la distribución resultante es una hipergeométrica; sin embargo, para N mucho más grande que n, la distribución binomial sigue siendo una buena aproximación y se usa ampliamente (véase https://www.wikiwand.com/en/Binomial_distribution).

###Grados de libertad correspondientes: número de filas menos 1 por número de columnas menos 1.

###Ho = Hay independencia entre el ataque y las pastillas.

(tabla.freq<-xtabs(freq~ataque+pastilla, data=aspirina))

###La tabla de frecuencias contiene tanto las frecuencias observadas como las esperadas.

###La frecuencia esperada es el conteo de observaciones que se espera en una celda, en promedio, si las variables son independientes.

###La frecuencia esperada de una variable se calcula como el producto entre el cociente [(Total de la Columna j)/(Total de Totales)]*(Total Fila i).

###PRUEBA CHI-CUADRADO AUTOMATIZADA

(prueba.chi<-chisq.test(tabla.freq,correct=F) ) ###La sintaxis “chisq.test” sirve para realizar la prueba de Chi-Cuadrado en tablas de contingencia y para realizar pruebas de bondad de ajuste.

names(prueba.chi)

###PRUEBA CHI-CUADRADO PASO A PASO

(esperado<-prueba.chi$expected) ###valores esperados

(observado<-prueba.chi$observed) ###valores observados

(cuadrados<-(esperado-observado)^2/esperado)

(chi<-sum(cuadrados))

1-pchisq(chi,1) ###Valor de p de la distribución Chi-Cuadrado (especificada mediante el conjunto de datos) calculado de forma no-automatizada.

###Si el valor p es mayor que el nivel de significancia se falla en rechazar Ho, si es menor se rechaza Ho.

###Se rechaza Ho con un nivel de significancia alfa de 0.05. Puesto que se tiene una probabilidad muy baja de cometer error tipo I, i.e., rechazar la hipótesis nula siendo falsa.

GENERALIDADES Y ORÍGENES HISTÓRICOS DE LA DISTRIBUCIÓN CHI-CUADRADO

ISADORE NABI

SOBRE LA CREACIÓN Y DESTRUCCIÓN DE VALOR EN LOS SISTEMAS DE ECONOMÍA POLÍTICA CAPITALISTA EN PARTICULAR Y EN LOS SISTEMAS ECONÓMICOS EN GENERAL (BORRADOR)

ISADORE NABI

REFERENCIAS

Alan. (25 de Julio de 2011). ENGLISH LENGUAGE & USAGE. Obtenido de Stack Exchange: https://english.stackexchange.com/questions/35508/difference-between-partly-and-partially#:~:text=Use%20partly%20when%20the%20%22in,it’s%20also%20%22partly%20closed%22.

Andrews, D. W. (1991). An Empirical Process Central Limit Theorem for Dependent Non-identically Distributed Random Variables . Journal of Multivariate Analysis, 187-203.

Berk, K. (1973). A CENTRAL LIMIT THEOREM FOR m-DEPENDENT RANDOM VARIABLES WITH UNBOUNDED m. The Annals of Probability, 1(2), 352-354.

Borisov, E. F., & Zhamin, V. A. (2009). Diccionario de Economía Política. (L. H. Juárez, Ed.) Nueva Guatemala de la Asunción, Guatemala, Guatemala: Tratados y Manuales Grijalbo.

Cockshott, P., & Cottrell, A. (2005). Robust correlations between prices and labor values. Cambridge Journal of Economics, 309-316.

Cockshott, P., Cottrell, A., & Valle Baeza, A. (2014). The Empirics of the Labour Theory of Value: Reply to Nitzan and Bichler. Investigación Económica, 115-134.

Cockshott, P., Cottrell, A., & Zachariah, D. (29 de Marzo de 2019). Against the Kliman theory. Recuperado el 22 de Marzo de 2021, de Paul Cockshott: http://paulcockshott.co.uk/publication-archive/Talks/politicaleconomy/Against%20the%20Kliman%20price%20theory.pdf

Dedecker, J., & Prieur, C. (2007). An empirical central limit theorem for dependent sequences. Stochastic Processes and their Applications, 117, 121-142.

Díaz, E., & Osuna, R. (2007). Indeterminacy in price–value correlation measures. Empirical Economics, 389-399.

Emmanuel, A. (1972). El Intercambio Desigual. Ensayo sobre los antagonismos en las relaciones económicas internacionales. México, D.F.: Sigloveintiuno editores, s.a.

Farjoun, E., & Marchover, M. (1983). Laws of Chaos. A Probabilistic Approach to Political Economy. Londres: Verso Editions and NLB.

fast.ai. (3 de Diciembre de 2017). How to calculate Weighted Mean Absolute Error (WMAE)? Obtenido de Forums: https://forums.fast.ai/t/how-to-calculate-weighted-mean-absolute-error-wmae/8575

Flaschel, P., & Semmler, W. (1985). The Dynamic Equalization of Profit Rates for Input-Output Models with Fixed Capital. En Varios, & W. Semmler (Ed.), Competition, Instability, and Nonlinear Cycles (págs. 1-34). New York: Springer-Verlag.

Flores Morador, F. (2013). Marx and the Moral Depreciation of Technology: Labor Value as Information. Social Science Research Network Electronic Journal, 1-16. Obtenido de https://internt.ht.lu.se/media/documents/project-778/Marx_and_the_moral_depreciation_of_technology.pdf

Fröhlich, N. (2012). Labour values, prices of production and the missing equalisation tendency of profit rates: evidence from the German economy. Cambridge Journal of Economics, 37(5), 1107-1126.

Glick, M., & Ehrbar, H. (1988). Profit Rate Equalization in the U.S. and Europe: An Econometric Investigation. European Journal of Political Economy, 179-201.

Gloria-Palermo, S. (2010). Introducing Formalism in Economics: The Growth Model of John von Neumann. Panoeconomicus, 153-172.

Godwin, H., & Zaremba, S. (1961). A Central Limit Theorem for Partly Dependent Variables. The Annals of Mathematical Statistics, 32(3), 677-686.

Guerrero, D. (Octubre-diciembre de 1997). UN MARX IMPOSIBLE: EL MARXISMO SIN TEORÍA LABORAL DEL VALOR. 57(222), 105-143.

Investopedia. (23 de Agosto de 2020). The Difference Between Standard Deviation and Average Deviation. Obtenido de Advanced Technical Analysis Concepts : https://www.investopedia.com/ask/answers/021215/what-difference-between-standard-deviation-and-average-deviation.asp

Kliman, A. (2002). The law of value and laws of statistics: sectoral values and prices in the US economy, 1977-97. Cambridge Journal of Economics, 299-311.

Kliman, A. (2005). Reply to Cockshott and Cottrell. Cambridge Journal of Economics, 317-323.

Kliman, A. (2014). What is spurious correlation? A reply to Díaz and Osuna. Journal of Post Keynesian Economics, 21(2), 345-356.

KO, M.-H., RYU, D.-H., KIM, T.-S., & CHOI, Y.-K. (2007). A CENTRAL LIMIT THEOREM FOR GENERAL WEIGHTED SUMS OF LNQD RANDOM VARIABLES AND ITS APPLICATION. ROCKY MOUNTAIN JOURNAL OF MATHEMATICS, 37(1), 259-268.

Kuhn, T. (2011). La Estructura de las Revoluciones Científicas. México, D.F.: Fondo de Cultura Económica.

Kuroki, R. (1985). The Equalizartion of the Rate of Profit Reconsidered. En W. Semmler, Competition, Instability, and Nonlinear Cycles (págs. 35-50). New York: Springer-Velag.

Landau, L. D., & Lifshitz, E. M. (1994). Curso de Física Teórica. Mecánica (Segunda edición corregida ed.). (E. L. Vázquez, Trad.) Barcelona: Reverté, S.A.

Leontief, W. (1986). Input-Output Economics. Oxford, United States: Oxford University Press.

Levins, R. (Diciembre de 1993). A Response to Orzack and Sober: Formal Analysis and the Fluidity of Science. The Quarterly Review of Biology, 68(4), 547-55.

LI, X.-p. (2015). A Central Limit Theorem for m-dependent Random Variables under Sublinear Expectations. Acta Mathematicae Applicatae Sinica, 31(2), 435-444. doi:10.1007/s10255-015-0477-1

Marquetti, A., & Foley, D. (25 de Marzo de 2021). Extended Penn World Tables. Obtenido de Extended Penn World Tables: Economic Growth Data assembled from the Penn World Tables and other sources : https://sites.google.com/a/newschool.edu/duncan-foley-homepage/home/EPWT

Marx, K. H. (1989). Contribución a la Crítica de la Economía Política. (M. Kuznetsov, Trad.) Moscú: Editorial Progreso.

Marx, K. H. (2010). El Capital (Vol. I). México, D.F.: Fondo de Cultura Económica.

Mindrila, D., & Balentyne, P. (2 de Febrero de 2021). Scatterplots and Correlation. Obtenido de University of West Georgia: https://www.westga.edu/academics/research/vrc/assets/docs/scatterplots_and_correlation_notes.pdf

Mora Osejo, L. (1 de Enero de 1992). Reseñas y Comentarios. John von Neumann and Modern Economics. Goodwin, Dore, Chakavarty. Cuadernos de Economía, 12(17), 215-221. Obtenido de https://revistas.unal.edu.co/index.php/ceconomia/article/view/19349/20301

Moseley, F. (2015). Money and Totality. Leiden, South Holland, Netherlands: BRILL.

Nabi, I. (2020). SOBRE LA LEY DE LA TENDENCIA DECRECIENTE DE LA TASA MEDIA DE GANANCIA. Raíces Unitarias y No Estacionariedad de las Series de Tiempo. Documento Inédito. Obtenido de https://marxianstatistics.files.wordpress.com/2020/12/analisis-del-uso-de-la-prueba-de-hipotesis-en-el-contexto-de-la-especificacion-optima-de-un-modelo-de-regresion-isadore-nabi-2.pdf

Nabi, I. (2021). Lecciones de Gnoseología Marxiana I. Documento Inédito. Obtenido de https://marxianstatistics.com/2021/04/09/lecciones-de-gnoseologia-marxiana-i-lessons-of-marxian-gnoseology-i/

NABI, I. (1 de Abril de 2021). SOBRE LA METODOLOGÍA DEL U.S. BUREAU OF ECONOMIC ANALYSIS PARA LA REDEFINICIÓN Y REASIGNACIÓN DE PRODUCTOS EN LA MATRIZ INSUMO-PRODUCTO DE ESTADOS UNIDOS. Obtenido de ECONOMÍA POLÍTICA: https://marxianstatistics.com/2021/04/01/sobre-la-metodologia-del-u-s-bureau-of-economic-analysis-para-la-redefinicion-y-reasignacion-de-productos-en-la-matriz-insumo-producto-de-estados-unidos/

NABI, I., & B.A., A. (1 de Abril de 2021). UNA METODOLOGÍA EMPÍRICA PARA LA DETERMINACIÓN DE LA MAGNITUD DE LAS INTERRELACIONES SECTORIALES DENTRO DE LA MATRIZ INSUMO-PRODUCTO DESDE LOS CUADROS DE PRODUCCIÓN Y USOS PARA EL CASO DE ESTADOS UNIDOS 1997-2019. Obtenido de EL BLOG DE ISADORE NABI: https://marxianstatistics.com/2021/04/01/una-metodologia-empirica-para-la-determinacion-de-la-magnitud-de-las-interrelaciones-sectoriales-dentro-de-la-matriz-insumo-producto-desde-los-cuadros-de-oferta-utilizacion-para-el-caso-de-estados-uni/

OECD. (25 de Septiembre de 2005). SCRAPPING. Obtenido de GLOSSARY OF STATISTICAL TERMS: https://stats.oecd.org/glossary/detail.asp?ID=2395

Parzen, E. (1957). A Central Limit Theorem for Multilinear Stochastic Processes. The Annals of Mathematical Statistics, 28(1), 252-256.

Pasinetti, L. (1984). Lecciones Sobre Teoría de la Producción. (L. Tormo, Trad.) México, D.F.: Fondo de Cultura Económica.

Real Academia Española. (18 de 03 de 2021). Diccionario de la lengua española. Obtenido de Edición del Tricentenario | Actualización 2020: https://dle.rae.es/transitar?m=form

Real Academia Española. (23 de Marzo de 2021). Diccionario de la lengua española. Obtenido de Edición Tricentenario | Actualización 2020: https://dle.rae.es/ecualizar?m=form

Rosental, M. M., & Iudin, P. F. (1971). DICCIONARIO FILOSÓFICO. San Salvador: Tecolut.

Rosental, M., & Iudin, P. (1971). Diccionario Filosófico. San Salvador: Tecolut.

Sánchez, C. (Diciembre de 2013). Inconsistencia de la teoría neoclásica: aplicación del análisis dimensional a la economía. ECONOMÍA HOY, 4-6. Obtenido de https://www.uca.edu.sv/economia/wp-content/uploads/012-ECONOMIA-HOY-A-DIC2013.pdf

Sánchez, C., & Ferràndez, M. N. (Octubre-diciembre de 2010). Valores, precios de producción y precios de mercado a partir de los datos de la economía española. Investigación Económica, 87-118. Obtenido de https://www.jstor.org/stable/42779601?seq=1

Sánchez, C., & Montibeler, E. E. (2015). La teoría del valor trabajo y los precios en China. Economia e Sociedade, 329-354.

StackExchange. (12 de Enero de 2014). Mean absolute deviation vs. standard deviation. Obtenido de Cross Validated: https://stats.stackexchange.com/questions/81986/mean-absolute-deviation-vs-standard-deviation

Steedman, I., & Tomkins, J. (1998). On measuring the deviation of prices from values. Cambridge Journal of Economics, 379-385.

U.S. Bureau of Economic Analysis. (1 de Abril de 2021). The Domestic Supply of Commodities by Industries (Millions of dollars). Obtenido de Input-Output Accounts Data | Data Files. Supply Tables – Domestic supply of commodities by industry ● 1997-2019: 15 Industries iTable, 71 Industries iTable: https://apps.bea.gov/iTable/iTable.cfm?reqid=52&step=102&isuri=1&table_list=3&aggregation=sum

U.S. Bureau of Economic Analysis. (1 de Abril de 2021). The Domestic Supply of Commodities by Industries (Millions of dollars). Obtenido de Input-Output Accounts Data | Supplemental Estimate Tables. After Redefinition Tables. Make Tables/After Redefinitions – Production of commodities by industry after redefinition of secondary production ● 1997-2019: 71 Industries iTable: https://apps.bea.gov/iTable/iTable.cfm?reqid=58&step=102&isuri=1&table_list=5&aggregation=sum

U.S. Bureau of Economic Analysis. (1 de Abril de 2021). The Use of Commodities by Industries. Obtenido de Input-Output Accounts Data | Data Files. Use Tables – Use of commodities by industry ● 1997-2019: 15 Industries iTable, 71 Industries iTable: https://apps.bea.gov/iTable/iTable.cfm?reqid=52&step=102&isuri=1&table_list=4&aggregation=sum

U.S. Bureau of Economic Analysis. (1 de Abril de 2021). The Use of Commodities by Industries. Obtenido de Input-Output Accounts Data | Supplemental Estimate Tables. After Redefinition Tables. Use Tables/After Redefinitions/Producer Value – Use of commodities by industry after reallocation of inputs ● 1997-2019: 71 Industries iTable: https://apps.bea.gov/iTable/iTable.cfm?reqid=58&step=102&isuri=1&table_list=6&aggregation=sum

Valle Baeza, A. (1978). Valor y Precios de Producción. Investigación Económica, 169-203.

Walras, L. (1954). Elements of Pure Economics or The Theory of Social Wealth. (W. Jaffé, Trad.) Homewood, Ilinois, Estados Unidos: Richard D. Irwin, Inc.

Wikipedia. (25 de Enero de 2021). Trabajo (física). Obtenido de Magnitudes termodinámicas: https://es.wikipedia.org/wiki/Trabajo_(f%C3%ADsica)

Wikipedia. (17 de Marzo de 2021). Work (physics). Obtenido de Energy (physics): https://en.wikipedia.org/wiki/Work_(physics)

Wooldridge, J. M. (2010). Introducción a la Econometría. Un Enfoque Moderno (Cuarta ed.). México, D.F.: Cengage Learning.

Zachariah, D. (Junio de 2006). Labour value and equalisation of profit rates: a multi-country study. Indian Development Review, 4, 1-20.