An unusual lottery result made the news recently: on October 1, 2022, the PCSO Grand Lotto in the Philippines, which draws six numbers from to at random, managed to draw the numbers (though the balls were actually drawn in the order ). In other words, they drew exactly six multiples of nine from to . […]
What are the odds?
Category: Estadística Matemática
Draft position for players in the NBA for the 2020-21 season
Imagen tomada de Reddit.
When the 2022 NBA draft happened almost a month ago, I thought to myself: do players picked earlier in the draft (i.e. higher-ranked) actually end up having better/longer careers?
If data wasn’t an issue, the way I would do it would be to look at players chosen in the draft lottery (top 60 picks) in the past 10/20 years. For each player, I would look at how many years he played in the NBA and see if there was a correlation between that and draft position. (Here, number of years in the NBA is a proxy for how successful an NBA career is. There are other possible ways to define success, e.g. minutes played, points scored.)
Unfortunately data is an issue, so I ended up looking at a related question: What are the draft positions of players currently in the NBA? If players picked earlier in the draft are more…
View original post 746 more words
Rank and trace are equal for a real symmetric idempotent matrix
Proposition. Let $latex mathbf{X} in mathbb{R}^{n times n}$ be a matrix that is symmetric ($latex mathbf{X}^top = mathbf{X}$) and idempotent ($latex mathbf{X}^2 = mathbf{X}$). Then the rank of $latex mathbf{X}$ is equal to the trace of $latex mathbf{X}$. In fact, they are both equal to the sum of the eigenvalues of $latex mathbf{X}$.
The proof is relatively straightforward. Since $latex mathbf{X}$ is real and symmetric, it is orthogonally diagonalizable, i.e. there is an orthogonal matrix $latex mathbf{U}$ ($latex mathbf{U}^top mathbf{U} = mathbf{I}$) and a diagonal matrix $latex mathbf{D}$ such that $latex mathbf{D} = mathbf{UXU}^top$ (see here for proof).
Since $latex mathbf{X}$ is idempotent,
$latex begin{aligned} mathbf{X}^2 &= mathbf{X},
mathbf{U}^top mathbf{D}^2 mathbf{U} &= mathbf{U}^T mathbf{DU},
mathbf{D}^2 &= mathbf{D}. end{aligned}$
Since $latex mathbf{D}$ is a diagonal matrix, it implies that the entries on the diagonal must be zeros or ones. Thus, the number of ones on the diagonal (which is $latex text{rank}(mathbf{D})…
View original post 16 more words
Asymptotic distribution of the Pearson chi-square statistic
Imagen tomada de ResearchGate.
I recently learned of a fairly succinct proof for the asymptotic distribution of the Pearson chi-square statistic (from Chapter 9 of Reference 1), which I share below.
First, the set-up: Assume that we have $latex n$ independent trials, and each trial ends in one of $latex J$ possible outcomes, which we label (without loss of generality) as $latex 1, 2, dots, J$. Assume that for each trial, the probability of the outcome being $latex j$ is $latex p_j > 0$. Let $latex n_j$ denote that number of trials that result in outcome $latex j$, so that $latex sum_{j=1}^J n_j = n$. Pearson’s $latex chi^2$-statistic is defined as
$latex begin{aligned} chi^2 = sum_{text{cells}} dfrac{(text{obs} – text{exp})^2}{text{exp}} = sum_{j=1}^J dfrac{(n_j – np_j)^2}{np_j}. end{aligned}$
Theorem. As $latex n rightarrow infty$, $latex chi^2 stackrel{d}{rightarrow} chi_{J-1}^2$, where $latex stackrel{d}{rightarrow}$ denotes convergence in distribution.
Before proving the theorem, we prove a lemma that we will…
View original post 614 more words
General chi-square tests
Imagen tomada de Lifeder.
In this previous post, I wrote about the asymptotic distribution of the Pearson $latex chi^2$ statistic. Did you know that the Pearson $latex chi^2$ statistic (and the related hypothesis test) is actually a special case of a general class of $latex chi^2$ tests? In this post we describe the general $latex chi^2$ test. The presentation follows that in Chapters 23 and 24 of Ferguson (1996) (Reference 1). I’m leaving out the proofs, which can be found in the reference.
(Warning: This post is going to be pretty abstract! Nevertheless, I think it’s worth a post since I don’t think the idea is well-known.)
Let’s define some quantities. Let $latex Z_1, Z_2, dots in mathbb{R}^d$ be a sequence of random vectors whose distribution depends on a $latex k$-dimensional parameter $latex theta$ which lies in a parameter space $latex Theta$. $latex Theta$ is assumed to be a non-empty open subset…
View original post 696 more words
GENERALIDADES SOBRE LA TEORÍA ESTADÍSTICA DE ENCUESTAS POR MUESTREO. PARTE II
MUESTREO SISTEMÁTICO
ISADORE NABI
Historia y Definición Conceptual (Ochoa, 2015):
El muestreo sistemático era muy popular en el pasado, antes de que la aparición de los ordenadores hiciese trivial un problema que siempre había dado muchos quebraderos de cabeza a los investigadores: elegir individuos de forma aleatoria dentro de una muestra. En la medida en que los ordenadores nos han facilitado la tarea de generar números aleatorios, este problema ha desaparecido.
También se sigue utilizando para seleccionar individuos a lo largo del tiempo. Por ejemplo, para estudiar la satisfacción de un servicio, podemos elegir sistemáticamente encuestar a 1 de cada n clientes que nos visitan. En estas circunstancias, en las que puede existir diferente varianza entre individuos en diferentes periodos de tiempo, el muestreo sistemático puede ser incluso más preciso que el muestreo aleatorio puro.
Es una técnica dentro de la categoría de muestreos probabilísticos – y que por lo tanto requiere tener un control preciso del marco muestral de individuos seleccionables junto con la probabilidad de que sean seleccionados – consistente en escoger un individuo inicial de forma aleatoria entre la población y, a continuación, seleccionar para la muestra a cada enésimo individuo disponible en el marco muestral.
El muestreo sistemático es un proceso muy simple y que sólo requiere la elección de un individuo al azar. El resto del proceso es trivial y rápido. Los resultados que obtenemos son representativos de la población, de forma similar al muestreo aleatorio simple, siempre y cuando no haya algún factor intrínseco en la forma en que los individuos están listados que haga que se reproduzcan ciertas características poblacionales cada cierto número de individuos. Este suceso es realmente poco frecuente.
Pasos (QuestionPro, 2022) y (QuestionPro, 2022):
- Es necesario desarrollar una audiencia estructural (muestra) definida para que el investigador comience a trabajar en el aspecto del muestreo.
- El investigador a cargo debe determinar el tamaño de la muestra ideal, es decir, cuántas personas de la población completa se van a elegir.
- La clave para obtener resultados precisos razonables y prácticos es tener una audiencia grande. Por ejemplo, si una ONG busca formar un muestreo sistemático de 500 voluntarios de una población de 5000, puede seleccionar a cada décima persona de la población (esto es básicamente de lo que se trata el muestreo sistemático).
- Una vez que se decida el número de tamaño de la muestra, se debe asignar un número a cada miembro de la muestra.
- Decide cuál será el intervalo de esta muestra. Este es básicamente la distancia estándar entre los elementos. Específicamente, el intervalo de muestreo (i) se calcula dividiendo el número de elementos en el marco de muestreo (N) por el tamaño de la muestra específica (n). El ejemplo mencionado anteriormente sugiere que el intervalo de muestra debe ser 10, que es el resultado de la división de 5000 (N= tamaño de la población) y 500 (N = tamaño de la muestra) (i) = N/n = 5000/500 = 10. El investigador debe seleccionar miembros que cumplan con este criterio. En este caso sería una persona de cada 10.
- Se debe elegir un número de manera aleatoria como miembro inicial (r) de la muestra, y este intervalo se agregará al número aleatorio para seguir agregando miembros tal que r, r+i, r+2i, r+3i, … (hasta agotar el marco de muestreo) serán elementos de la muestra.
Ventajas (QuestionPro, 2022):
- Es extremadamente simple y conveniente para los investigadores crear, conducir y analizar las muestras.
- Como no es necesario enumerar a cada miembro de la muestra, el muestreo sistemático es mejor para representar a una población de manera más rápida y sencilla.
- Las muestras creadas se basan en la selección de miembros libre de favoritismos.
- En los otros métodos de muestreo hay posibilidades de que los conglomerados creados sean altamente sesgados, y esto comúnmente no sucede en el muestreo sistemático, ya que los miembros se encuentran a una distancia fija el uno del otro.
- El factor de riesgo involucrado en este método de muestreo es extremadamente mínimo.
- En caso de que haya diversos miembros de una población, el muestreo sistemático puede ser beneficioso debido a la distribución uniforme de los miembros que son seleccionados para formar una muestra.
Referencias
Ochoa, C. (5 de Mayo de 2015). Muestreo probabilístico: muestreo sistemático. Obtenido de netquest: https://www.netquest.com/blog/es/blog/es/muestreo-sistematico
QuestionPro. (21 de Agosto de 2022). ¿Cómo realizar un muestreo sistemático? Obtenido de Investigación de Mercado: https://www.questionpro.com/blog/es/como-realizar-un-muestreo-sistematico/
QuestionPro. (21 de Agosto de 2022). Muestreo sistemático: fácil, sencillo y económico. Obtenido de Encuestas: https://www.questionpro.com/blog/es/muestreo-sistematico/