A técnica de imputação aplicada a outliers (valores atípicos) envolve a substituição desses valores extremos por uma estimativa mais representativa do conjunto de dados, em vez de simplesmente removê-los. Isso é feito para preservar o tamanho da amostra e minimizar o impacto dos valores atípicos em análises estatísticas ou modelos de machine learning.
As técnicas de imputação mais comuns para outliers (ou a substituição por um valor mais "razoável", também chamada de "capado" ou "winsorização") incluem:
1. Winsorização (ou Caping)
A Winsorização é a técnica mais diretamente relacionada à substituição de outliers. Em vez de remover os valores, ela limita os valores extremos a um determinado percentil, substituindo o outlier pelo valor do limite definido.
Processo:
Identifica-se um limite inferior e um limite superior (geralmente baseados em percentis, como o percentil 5 e o percentil 95, ou Q1−1.5×IQR e Q3+1.5×IQR).
Todos os valores que caem abaixo do limite inferior são substituídos pelo valor do limite inferior.
Todos os valores que caem acima do limite superior são substituídos pelo valor do limite superior.
Vantagem: Reduz drasticamente a influência dos outliers sem perder os pontos de dados.
2. Imputação com Medidas de Tendência Central
Se os outliers são considerados erros de medição ou registro e não representações válidas da população, eles podem ser substituídos por uma estatística descritiva, assim como se faz com valores faltantes:
Imputação pela Mediana (Mediana): É o método mais robusto para imputar outliers, pois a mediana é menos sensível a valores extremos do que a média.
Imputação pela Média (M
e
ˊ
dia): Menos recomendada para a substituição de outliers, pois o próprio valor do outlier pode distorcer a média, resultando em um valor de imputação enviesado.
3. Imputação com Modelos Avançados
Quando há mais complexidade ou a necessidade de uma estimativa mais precisa, podem ser usados métodos de imputação que tratam o outlier como se fosse um valor ausente e o predizem com base nos outros dados.
Imputação Baseada em Modelos: Utiliza um modelo de regressão (como o algoritmo C&RT) ou outro método preditivo para estimar um valor mais provável para o outlier, utilizando as demais variáveis do conjunto de dados.
k-Vizinhos Mais Próximos (KNN): Substitui o outlier pela média ou mediana dos seus k vizinhos mais próximos (outras observações que são mais similares a ele no espaço multidimensional).
A escolha da técnica depende do contexto dos dados, da causa provável do outlier (se é erro de digitação ou um evento real, mas raro) e do objetivo da análise (se é descritiva, preditiva, etc.).
O vídeo Outliers (datos atípicos): Los datos que pueden arruinar (o salvar) tu análisis explica o que são outliers e por que nem sempre devem ser eliminados, fornecendo o contexto para decidir sobre o tratamento, como a imputação.
Nenhum comentário:
Postar um comentário