sexta-feira, 3 de outubro de 2025

Winsorização (ou Caping)

 A técnica de imputação aplicada a outliers (valores atípicos) envolve a substituição desses valores extremos por uma estimativa mais representativa do conjunto de dados, em vez de simplesmente removê-los. Isso é feito para preservar o tamanho da amostra e minimizar o impacto dos valores atípicos em análises estatísticas ou modelos de machine learning.


As técnicas de imputação mais comuns para outliers (ou a substituição por um valor mais "razoável", também chamada de "capado" ou "winsorização") incluem:


1. Winsorização (ou Caping)

A Winsorização é a técnica mais diretamente relacionada à substituição de outliers. Em vez de remover os valores, ela limita os valores extremos a um determinado percentil, substituindo o outlier pelo valor do limite definido.


Processo:


Identifica-se um limite inferior e um limite superior (geralmente baseados em percentis, como o percentil 5 e o percentil 95, ou Q1−1.5×IQR e Q3+1.5×IQR).


Todos os valores que caem abaixo do limite inferior são substituídos pelo valor do limite inferior.


Todos os valores que caem acima do limite superior são substituídos pelo valor do limite superior.


Vantagem: Reduz drasticamente a influência dos outliers sem perder os pontos de dados.


2. Imputação com Medidas de Tendência Central

Se os outliers são considerados erros de medição ou registro e não representações válidas da população, eles podem ser substituídos por uma estatística descritiva, assim como se faz com valores faltantes:


Imputação pela Mediana (Mediana): É o método mais robusto para imputar outliers, pois a mediana é menos sensível a valores extremos do que a média.


Imputação pela Média (M 

e

ˊ

 dia): Menos recomendada para a substituição de outliers, pois o próprio valor do outlier pode distorcer a média, resultando em um valor de imputação enviesado.


3. Imputação com Modelos Avançados

Quando há mais complexidade ou a necessidade de uma estimativa mais precisa, podem ser usados métodos de imputação que tratam o outlier como se fosse um valor ausente e o predizem com base nos outros dados.


Imputação Baseada em Modelos: Utiliza um modelo de regressão (como o algoritmo C&RT) ou outro método preditivo para estimar um valor mais provável para o outlier, utilizando as demais variáveis do conjunto de dados.


k-Vizinhos Mais Próximos (KNN): Substitui o outlier pela média ou mediana dos seus k vizinhos mais próximos (outras observações que são mais similares a ele no espaço multidimensional).


A escolha da técnica depende do contexto dos dados, da causa provável do outlier (se é erro de digitação ou um evento real, mas raro) e do objetivo da análise (se é descritiva, preditiva, etc.).


O vídeo Outliers (datos atípicos): Los datos que pueden arruinar (o salvar) tu análisis explica o que são outliers e por que nem sempre devem ser eliminados, fornecendo o contexto para decidir sobre o tratamento, como a imputação.

Aula 3/10

 

Pauta

- Ex. 7 ANOVA - Outliers - Seleção de Variáveis Preditoras

- Trabalhar nos exercícios teóricos. Quem quiser apresenta.

Exercícios e Seminário

           Exercícios e Seminário


Ilustração, modelo de exercício pratico


Fazer individualmente ou em duplas os exercicios praticos.

Exercicios teoricos individuais.

Seminario individual.

Whatsapp do Gabriel:  019-988-627-438

 

Enviar os exercícios e seminario para o e-mail da disciplina.
E-Mail da Disciplina:

biologia.inteligente.10@gmail.com

 

Colocar no Assunto do e-mail o Nome Completo tipo de exercício (pratico ou teórico) número do exercício ou seminário.

 

Seminário

Escolha um assunto entre os exercícios teóricos e práticos e elabore um seminário com 14 slides, em português, inglês ou espanhol.

 

Exercícios Teóricos Individuais

Tentar fazer em inglês

 

Exercício Teórico 1 

Elabore 7 slides sobre os assuntos:

- I Artificial: conceito, tipos, utilização

- I Artificial na Biologia e Ecologia

- Robótica

- Bots

De 4 a 6 slides.

Prazo: 17/10

 

Exercício Teórico 2

- Machine learning. Conceito, tipos

- Matriz de Confusão. Utilidade

- Exemplos práticos de aplicação de Machine learning

- De 8 a 12 slides.

DL: 24/10

 

 

Exercício Teórico 3

- Ciência de Dados, conceito, tipos e utilidade.

- Estatística Robusta Uni e Multivariada

- De 8 a 12 slides.

DL: 17/10

 

 Exercício Teórico 4 

- Gestão Sistêmica de Organizações: ONG, Laboratório, Projeto de Pesquisa ou Extensão, Instituto de Pesquisa, Empresa etc. Quais são (definição) e quem é responsável numa organização da gestão: Estratégica, Tática ou Operacional.

Vocês têm a melhor formação para gestão sistêmica, estudam os sistemas mais complexos, ecossistemas, fisiologia e anatomia de animais e plantas etc. DL: 24/10

 

 Exercício Teórico 5 

- Enumere e explique os parâmetros que são obtidos a partir da matriz de confusão na IAI Supervisionada para Classificação. Apresente um exemplo. De 8 a 12 slides.

DL: 24/10

 

 

 

 

 

 

Exercícios Praticos


Exercício Prático 1 – Resolva no Excel ou LO Calc. A distancia afeta a concertracao de As no biomonitor? Prazo: 29/8/2025



     Biomonitor Garcina gardineriana (folhas) para  As na Mata Atlântica




Dados para Importar:

Distan.

As

(m)

(mg/kg)

100

0,98??

200

0,95???

300

0,85

400

0,86

500

0,59

600

0,45

700

0,32

800

0,15

900

0,11

1000

0,09

 


Exercício Pratico 2.  Resolva no Excel ou LO Calc. A distancia afeta a concertracao de As no biomonitor? Agora com o outlier (dado fora de contexto, atipico). Prazo: 29/8/2025.

Dados para Importar:

Distan.

As

(m)

(mg/kg)

100

0,98??

200

0,95???

300

0,85

400

0,86

500

0,59

600

0,45

700

0,32

800

0,15

900

0,11

1000

0,09

 



1100

2,99

Outlier


Exercício Pratico 3 - Resolva com Regressão Robusta em SAS. A distancia afeta a concertracao de As no biomonitor? Agora com o outlier (dado fora de contexto, atipico). Prazo: 5/9/2025.


Distan.

As

(m)

(mg/kg)

100

0,98??

200

0,95???

300

0,85

400

0,86

500

0,59

600

0,45

700

0,32

800

0,15

900

0,11

1000

0,09

 



1100

2,99

Outlier


Arquivo de Resultados e Discussão

Clicar Aqui !!!


Outro arquivo com Resultados e Discussão

Clicar aqui !!!


Exercício Pratico 4. Regressão Multipla em Excel ou LOffice Calc, SAS (proc reg e robustreg) e Weka. Dead Line 10/9.


data bda;
input DBO ICobV ICArb Bcont Dis_Pl IBD_A;
cards;
1.604 89 60 11 9 90.??
0.385 90 61 10 8.9 91
0.216 91 62 9 9.1 92
0.303 90 59 10 8.8 89
1.961 20 12 81 0.2 20
0.782 21 14 79 0.3 22
0.57 22 15 78 0.25 23
2.187 22 12 77 0.2 24
0.764 59 35 41 6 60
0.273 60 32 40 6.5 61
1.883 64 33 38 5.8 63
0.581 62 32 37 5.6 62
0.18 79 50 21 8.2 80
0.007 80 49 20 7.8 79
2.028 80 48 18 8.2 81
2.431 79 47 21 7.7 78
0.216 92 61 9.1 9.5 23
;
/*
input DBO ICobV ICArb Bcont Dis_Pl IBD_A;
*/
proc robustreg;
model IBD_A = DBO ICobV ICArb Bcont Dis_Pl / diagnostics;
run;


Resultado do Ex. 4

Clicar Aqui !!!



Exercício Pratico 5 - aplicar IAIN para Redução de Dimensão no Exercício Pratico 4. DL: 19/9/2025


data biodiv;

input DBO ICobV ICArb Bcont Dis_Pl IBD_A;

datalines;

1.604 89 60 11 9 90.??

0.385 90 61 10 8.9 91

0.216 91 62 9 9.1 92

0.303 90 59 10 8.8 89

1.961 20 12 81 0.2 20

0.782 21 14 79 0.3 22

0.57 22 15 78 0.25 23

2.187 22 12 77 0.2 24

0.764 59 35 41 6 60

0.273 60 32 40 6.5 61

1.883 64 33 38 5.8 63

0.581 62 32 37 5.6 62

0.18 79 50 21 8.2 80

0.007 80 49 20 7.8 79

2.028 80 48 18 8.2 81

2.431 79 47 21 7.7 78

0.216 92 61 9.1 9.5 23

;

proc print;

run;


proc prinqual plots=(MDPref);

   transform identity(DBO ICobV ICArb Bcont Dis_Pl IBD_A);  

   ods select MDPrefPlot;

run;





Clicar Aqui


Ex. Pratico 6 - Procurar um banco de dados na Internet para aplicar Regressão Robusta e IA I Não S para Redução de Dimensão PCA-Biplot. DL: 3/10

Ex. Pratico 7 IAI Não Supervisionada para Agrupamentos e Distâncias Multivariados. DL: 10/10

 

Inteligência artificial indutiva não supervisionada (Machine Learning) para classificação  - Cluster analysis



Tipos de Machine Learning






Fonte de Dados Sebrae
https://www.isdel-sebrae.com/c%C3%B3pia-in%C3%ADcio-1

Cidade: Caxias do Sul








Tabela Excel dos Dados
 


Cidade

Regiao

Cid_reg

Habitantes

IDH

Rend_Cap

Cap_Empr

Teci_Emr

Gov_Descn

Org_Prod

Ins_Compet

Edu_Empr

Piracicaba

SE

Pir_SE

439

0,785

1,14

0,54

0,695

0,796

0,598

0,761

0,004

Sao_Car

SE

SC_SE

252

0,805

1,08

0,686

0,653

0,812

0,564

0,788

0,002

Sao_Jose

SE

SJ_SE

461

0,797

1,17

0,613

0,73

0,648

0,597

0,769

0,011

Mon_Clar

SE

MC_SE

409

0,77

0,65

0,481

0,651

0,696

0,549

0,666

0,124

Rondono

CO

Ron_CO

232

0,755

0,84

0,452

0,509

0,626

0,567

0,651

0

Anápolis

CO

Aná_CO

387

0,737

0,79

0,481

0,645

0,695

0,562

0,708

0

Camp_Gra

NE

CG_NE

410

0,72

0,63

0,458

0,565

0,683

0,571

0,59

0,584

Petroli

NE

Pet_NE

349

0,697

0,61

0,419

0,43

0,678

0,528

0,57

0,009

Rio_Bran

Norte

RB_Norte

407

0,727

0,74

0,342

0,47

0,663

0,486

0,503

0,0009

Boa_Vista

Norte

BV_Norte

399

0,752

0,79

0,338

0,458

0,538

0,502

0,585

0,082

Maringa

S

Mar_S

424

0,808

1,2

0,652

0,753

0,791

0,611

0,765

0,01

Cax_Sul

S

CS_S

347

0,75

0,95

0,446

0,715

0,654

0,559

0,715

0,046

 

 


 






  Inteligência artificial indutiva (Machine Learning) não supervisionada para classificação - Cluster analysis


Cluster e Dendrograma de todas as cidades, programa SAS: 

data cidades;

/* variaveis foram semaciondas por significancia com Robust Anova */

input Cid_reg $ IDH Rend_Cap Cap_Empr Teci_Emr Org_Prod Ins_Comp;

cards;

Pir_SE 0.785 1.14 0.54 0.695 0.598 0.761??

SC_SE 0.805 1.08 0.686 0.653 0.564 0.788

SJ_SE 0.797 1.17 0.613 0.73 0.597 0.769

MC_SE 0.77 0.65 0.481 0.651 0.549 0.666

Ron_CO 0.755 0.84 0.452 0.509 0.567 0.651

Ana_CO 0.737 0.79 0.481 0.645 0.562 0.708

CG_NE 0.72 0.63 0.458 0.565 0.571 0.59

Pet_NE 0.697 0.61 0.419 0.43 0.528 0.57

RB_Norte 0.727 0.74 0.342 0.47 0.486 0.503

BV_Norte 0.752 0.79 0.338 0.458 0.502 0.585

Mar_S 0.808 1.2 0.652 0.753 0.611 0.765

CS_S 0.75 0.95 0.446 0.715 0.559 0.715

;

proc print;

run;

proc cluster data=cidades outtree = arvore method = average;

var IDH Rend_Cap Cap_Empr Teci_Emr Org_Prod Ins_Comp;

id Cid_reg;

run;

PROC TREE DATA = arvore;

RUN;


Arquivo com Sumario Executivo para Download


Ex. Pratico 8 IAI Não Supervisionada para Agrupamentos e Distâncias Multivariados, seleção de variáveis preditoras e detecção de outliers. ANOVA, RobustANOVA, Box and Wisker Plot. DL: 17/10


DadosQualidade de Vida de Diferentes Categorias. Proximos a dados utilizados por Biologos e Ecologos, em problemas de pesquisa ou atividades nas empresas.


Programa SAS para ANOVA - Box Plot e Robust ANOVA


data QV;

input Categ $ IMC Movim Kcal;

datalines;

AT 20.2 53.7 28??

AT 21.3 54.8 2700

AT 19.3 49.6 2800

AT 21.1 52.3 2900

AT 24.1 30.3 2700

SEM 22.4 14.9 2600

SEM 21.9 17.8 2700

SEM 23.8 18.6 3200

SEM 24.1 15.1 3300

SE 27.3 2.5 2700

SE 23.4 4.3 2300

SE 25.2 2.3 2600

SE 26.4 2.6 3200

PR 26.2 4.1 2600

PR 24.2 2.1 2700

PR 25.4 1.9 2650

PR 21.1 20.0 2650

PR 25.2 3.1 2650

PR 24.8 2.0 2675

;

proc print; run;

/* input Categ $ IMC Movim Kcal; */

proc anova;

   class Categ;

   model IMC Movim Kcal = Categ;

   means  Categ / duncan lines;

run;


/*

input Categ $ IMC Movim Kcal;

*/

Title "Robust ANOVA ou NPANOVA ou Kuskal Wallis (um fator)";

proc npar1way wilcoxon dscf;

 class Categ;

 var IMC Movim Kcal;

run;



Detectando Outliers e Testando Significancia Estatistica

Arquivo para Dounload:

Clicar Aqui !!!


Observaçoes sem outliers (obs 5 e 17)

Obs

Obs  Sem Out

Categ

IMC

Movim

Kcal

1

1

AT

20,2

53,7

2859

2

2

AT

21,3

54,8

2700

3

3

AT

19,3

49,6

2800

4

4

AT

21,1

52,3

2900

6

5

SEM

22,4

14,9

2600

7

6

SEM

21,9

17,8

2700

8

7

SEM

23,8

18,6

3200

9

8

SEM

24,1

15,1

3300

10

9

SE

27,3

2,5

2700

11

10

SE

23,4

4,3

2300

12

11

SE

25,2

2,3

2600

13

12

SE

26,4

2,6

3200

14

13

PR

26,2

4,1

2600

15

14

PR

24,2

2,1

2700

16

15

PR

25,4

1,9

2650

18

16

PR

25,2

3,1

2650

19

17

PR

24,8

2

2675


Ir colocando resultados em Word

   

Dados em Planilha Eletrônica:


Categ

IMC

Movim

Kcal

AT

20,2

53,7

28??

AT

21,3

54,8

2700

AT

19,3

49,6

2800

AT

21,1

52,3

2900

AT

24,1

30,3

2700

SEM

22,4

14,9

2600

SEM

21,9

17,8

2700

SEM

23,8

18,6

3200

SEM

24,1

15,1

3300

SE

27,3

2,5

2700

SE

23,4

4,3

2300

SE

25,2

2,3

2600

SE

26,4

2,6

3200

PR

26,2

4,1

2600

PR

24,2

2,1

2700

PR

25,4

1,9

2650

PR

21,1

20

2650

PR

25,2

3,1

2650

PR

24,8

2

2675



Cluster sem equalização em com outliers

 

 

 

Gráfico Equalizado e eliminação de outliers

 

 

 

Cluster na situação ótima

 

 

Comparação dos dois Custers