Données ordinales

Il existe plusieurs modèles différents qui peuvent être utilisés pour décrire la structure des données ordinales. Quatre grandes classes de modèles sont décrites ci-dessous, chacune définie pour une variable aléatoire Y {\displaystyle Y}

 Y

, avec des niveaux indexés par k = 1, 2, …, q {\displaystyle k = 1,2, \dots, q}

 {\displaystyle k = 1,2, \dots, q}

.

Notez que dans les définitions de modèle ci-dessous, les valeurs de μ k {\displaystyle\mu_{k}}

\ mu_{k}

et β{\displaystyle\mathbf{\beta}}

\mathbf{\beta}

ne seront pas les mêmes pour tous les modèles pour le même ensemble de données, mais la notation est utilisée pour comparer la structure des différents modèles.

Modèle de cotes proportionnellesdit

Le modèle le plus couramment utilisé pour les données ordinales est le modèle de cotes proportionnelles, défini par log ⁡= log == μ k +β T x {\displaystyle\log\left=\log\left=\mu_{k} +\mathbf{\beta}^{T}\mathbf{x} }

{\ displaystyle\log\left =\log\left =\mu_{k} +\mathbf{\beta}^{T}\mathbf{x}}

où les paramètres μ k {\displaystyle\mu_{k}}

\mu_{k}

décrivent la distribution de base des données ordinales, x {\displaystyle\mathbf{x}}

\mathbf{x}

sont les covariables et β {\displaystyle\mathbf{\beta}}

\mathbf{\beta}

sont les coefficients décrivant les effets des covariables.

Ce modèle peut être généralisé en définissant le modèle en utilisant μ k + β k T x {\displaystyle\mu_{k} +\mathbf{\beta}_{k}^{T}\mathbf{x} }

{\ displaystyle\mu_{k} +\mathbf{\beta}_{k}^{T}\mathbf{x}}

au lieu de μ k + β T x {\displaystyle\mu_{k} +\mathbf{\beta}^{T}\mathbf{x} }

{\ displaystyle\mu_{k} +\mathbf{\beta}^{T}\mathbf{x}}

, ce qui rendrait le modèle adapté aux données nominales (dans lesquelles les catégories n’ont pas d’ordre naturel) ainsi qu’aux données ordinales. Cependant, cette généralisation peut rendre beaucoup plus difficile l’ajustement du modèle aux données.

Modèle logit de la catégorie de baseline

Le modèle de la catégorie de base est défini par log ⁡= μ k + β k T x {\displaystyle\log\left=\mu_{k} +\mathbf{\beta}_{k}^{T}\mathbf{x} }

{\ displaystyle\log\left =\mu_{k} +\mathbf{\beta}_{k}^{T}\mathbf{x} }

Ce modèle n’impose pas d’ordre aux catégories et peut donc être appliqué aux données nominales ainsi qu’aux données ordinales.

Modèle de stéréotype ordonné

Le modèle de stéréotype ordonné est défini par log ⁡= μ k + kk β T x {\displaystyle\log\left=\mu_{k} +\phi_{k}\mathbf{\beta}^{T}\mathbf{x} }

{\ displaystyle\log\left = \mu_{k} +\phi _{k}\mathbf{\beta}^{T}\mathbf{x}}

où les paramètres du score sont contraints de telle sorte que 0 = ≤ 1 ≤ 2 2 ≤ ≤ ≤ q q = 1 {\displaystyle 0 = \phi_{1}\leq\phi_{2} \leq\dots\leq\phi_{q}=1}

{\ displaystyle 0 = \phi_{1}\leq\phi_{2}\leq\dots\leq\phi_{q}=1}

.

Il s’agit d’un modèle plus parcimonieux et plus spécialisé que le modèle logit de la catégorie de base : kk β{\displaystyle\phi_{k}\mathbf{\beta } }

{\ displaystyle\phi_{k}\mathbf{\beta}}

peut être considéré comme similaire à β k {\displaystyle\mathbf{\beta}_{k}}

{\ displaystyle\mathbf {\beta}_{k}}

.

Le modèle de stéréotype non ordonné a la même forme que le modèle de stéréotype ordonné, mais sans l’ordre imposé à kk{\displaystyle\phi_{k}}

\ phi_{k}

. Ce modèle peut être appliqué aux données nominales.

Notez que les partitions ajustées, ^^k{\displaystyle{\hat{\phi}}_{k}}

{\ displaystyle {\hat{\phi}}_{k}}

, indique à quel point il est facile de distinguer les différents niveaux de Y{\displaystyle Y}

 Y

. Si ≈^k ≈ ^^k-1 {\displaystyle {\hat{\phi}} _{k}\approx{\hat{\phi}} _{k-1}}

{\ displaystyle {\hat{\phi}} _{k}\approx{\hat{\phi}} _{k-1}}

cela indique alors que l’ensemble de données actuel pour les covariables x{\displaystyle\mathbf{x}}

 \mathbf{x}

ne fournit pas beaucoup d’informations pour distinguer les niveaux k {\displaystyle k}

k

et k-1 {\displaystyle k-1}

 k-1

, mais cela n’implique pas nécessairement que les valeurs réelles k {\displaystyle k}

k

et k-1 {\displaystyle k-1}

 k-1

sont éloignés les uns des autres. Et si les valeurs des covariables changent, alors pour ces nouvelles données, les scores ajustés ^ ^k {\displaystyle{\hat{\phi}}_{k}}

{\ displaystyle {\hat{\phi}}_{k}}

et ^^k−1 {\displaystyle{\hat{\phi}} _{k-1}}

{\ displaystyle {\hat{\phi}} _{k-1}}

peut-être alors être loin l’un de l’autre.

Catégories adjacentes logit modelEdit

Le modèle des catégories adjacentes est défini par log ⁡= μ k + β k T x {\displaystyle\log\left=\mu_{k} +\mathbf{\beta}_{k}^{T}\mathbf{x} }

{\ displaystyle\log\left =\mu_{k} +\mathbf{\beta}_{k}^{T}\mathbf{x}}

bien que la forme la plus courante, appelée dans Agresti (2010) « forme de cotes proportionnelles » soit définie par log ⁡= μ k + β T x {\displaystyle\log\left =\mu_{k} +\mathbf{\beta}^{T}\mathbf {x} }

{\ displaystyle\log\left =\mu_{k} +\mathbf{\beta}^{T}\mathbf{x}}

Ce modèle ne peut être appliqué qu’aux données ordinales, car la modélisation des probabilités de déplacements d’une catégorie à la catégorie suivante implique qu’un ordre de ces catégories existe.

Le modèle logit des catégories adjacentes peut être considéré comme un cas particulier du modèle logit des catégories de base, où β k = β(k−1) {\displaystyle\mathbf{\beta}_{k} = \mathbf{\beta}(k-1)}

{\ displaystyle\mathbf{\beta}_{k} =\mathbf{\beta}(k-1)}

. Le modèle logit des catégories adjacentes peut également être considéré comme un cas particulier du modèle de stéréotype ordonné, où kk ∝k-1 {\displaystyle\phi_{k}\propto k-1}

{\ displaystyle\phi _ {k}\propto k-1}

, c’est-à-dire que les distances entre les distancesk{\displaystyle\phi_{k}}

 \phi_{k}

sont définies à l’avance, plutôt que d’être estimées sur la base des données.

Comparaisons entre les modèleSdit

Le modèle de cotes proportionnelles a une structure très différente des trois autres modèles, ainsi qu’une signification sous-jacente différente. Notez que la taille de la catégorie de référence dans le modèle de cotes proportionnelles varie avec k {\displaystyle k}

k

, puisque Y ≤ k {\displaystyle Y\leq k}

 {\displaystyle Y \leq k}

est comparé à Y > k {\displaystyle Y > k}

 {\displaystyle Yk}

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

More: