segunda-feira, 27 de setembro de 2021

Machine Learning Não Supervisionado Data Crunching e Cluster Analysis

  Machine Learning Não Supervisionado

Data Crunching e Cluster Analysis


Videoaulas


Videoaula 1

Introdução à Estatística Multivariada e à Inteligência Artificial

https://youtu.be/AQdRiLq9lss




Videoaula 2

Data Crunching - Pivot Tables - Pivot ou Tabela Dinâmica em Excel (Calculo da Matriz de Médias Aritméticas)

https://youtu.be/vhHHc7VxgBk




Videoaula 3

Visual Analytics ou Cluster Analysis ou Elaboração do Dendrograma em Linguagem SAS na Nuvem ( SAS on Demand - Free) 


https://youtu.be/jkpbgtRNZ40











































- Pesquisar Data:
                      - Mining
                      - Crunching
                      - Analysis


  Tabela Dinâmica - Excel (Pivot Table ou Paivot ou "Pivot" forma de referenciar em empresas)

 e Cluster Analysis


Estatística Multivariada – Cluster Analysis

Vamos começar a “olhar” com a Estatística (algoritmos matemáticos), de forma multivariada.

Isso é muito familiar para a gente por que nosso cérebro (muito mais poderoso que qualquer computador, 55.000 computadores de ultima geração de 2021) enxerga de forma multivariada.

Como reconhecemos os objetos ou as pessoas, por somente um item? Por exemplo, como reconhecemos uma pessoa: sexo, altura, cor do cabelo, formato do rosto, timbre da voz, sotaque, perfume que utiliza (ou que não utiliza), etc.

Na verdade utilizamos todos esses dados e muitos mais simultaneamente, ou seja, nosso sistema de reconhecimento natural é multivariado (como a Estatística Multivariada).

Como nosso cérebro processa toda essa informação em frações de segundo não sabemos. A neurociência está quebrando cabeça com isso. Podemos perguntar para Nicolelis (o neurocientista que dizem ter a maior chance de conseguir um Premio Nobel para o Brasil).

O que podemos fazer com a matemática, estatística e computação é simular de alguma forma primitiva o funcionamento do cérebro.




Esse tipo de abordagem é utilizado nas áreas de Inteligencia de Negócios (BI), Sistemas de Informação ( Data Mining, Data Crunching, Decision Support Systems-DSS e Big-Small Data) e Pesquisa Cientifica



Também é utilizado numa área da Inteligência Artificial denominada Visual Analytics, vejamos o seguinte exemplo, como poderíamos enxergar em dimensão 78?










No exemplo a ser apresentado (arquivo de Excel para download), temos 4 categorias de pessoas: Atletas, Semi-atletas, Sedentários e Professores da ESALQ. Nessas pessoas foram medidas 3 variáveis, Índice de Massa Corporal, Quantos quilômetros corre ou anda por semana e Quilocalorias que Ingere por Dia (modelo trivariado, se tem mais do que uma já é multivariado).
Exemplo para Download:
Arquivo 2021 - Direito Compartilhado




Aqui apresentamos o nosso objetivo, elaborarmos um dendrograma, que é a representação gráfica da saída do procedimento Cluster Analysis do Programa SAS:






                         
                           Tabela Dinâmica
                              em   Excel
                             ( Pivot Table )

Podemos ver nesse exemplo que temos vários representantes de cada categoria, são exatamente 4 (ou quatro repetições de cada categoria)

Para aplicarmos Cluster Analysis devemos calcular previamente as medias aritméticas de cada categoria, para cada uma das 3 variáveis de resposta.






Vamos colocar a sequencia de passos para obtermos essas medias utilizando um recurso muito poderoso de bancos de dados do Excel (tal vez o mais poderoso):


 Tabela Dinâmica ou Pivot Table ou Pivot.


Passo 1 – Marcar o banco de dados original

Passo 2 – Entrar em Inserir e Depois em Tabela Dinâmica.






Passo 3 – Dar OK. Entraremos no Ambiente de Trabalho da Tabela Dinâmica:





Passo 4 – Clicar em Categorias “Cat.”(sem soltar o mouse, operação “Drag”) e arrastar as categorias para o local Rótulos de Linha.





Passo 5 – Arrastar as 3 variáveis observadas: IMC, Corr e Kcal para o local Somatória de Valores (Σ valores). Veja que o protótipo da Tabela Dinâmica, já está pronto, no canto superior esquerdo.



Passo 6 – O problema é que temos somatória dos valores e precisamos de medias aritméticas para entrar no Programa de 

Cluster Analysis do SAS. Como fazer para trocar 

somatória para medias?:


Veja que os dados são de soma, um IMC de 100, praticamente não existe ( 81,9 ; 100,7 ...)


·       Colocar o cursor na célula “soma de IMC

    ·   Pressionar o botão direito do mouse







    ·       Escolher a opção: “Configurações do Campo de Valor

    ·       Veja que está em “Soma”, clicar em “Média”. 





    Veja que agora temos Média de ICM para cada categoria.


    ·       Fazer mesma operação para Corr e Kcal.





    Fim do calculo das medias de cada categoria.


    Agora é somente copiar e colar no SAS.


    Programa SAS para Cluster Analysis dos Dados Calculados no Excel:

    data  pessoas;
    input cat $ imc corr kcal;
    cards;
    DADOS DO SAS DEPOIS DE APLICAR TABELA DINAMICA
    ;
    proc cluster data=pessoas outtree = arvore method = average;
    var imc corr kcal;
    id cat;
    run;
    PROC TREE DATA = arvore;
    RUN;




















    Equalizar - Escala de 0 - 100








    segunda-feira, 20 de setembro de 2021

    Aula 27/9/2021

    Link: 

    https://meet.google.com/cno-grvm-rhp

    Site Vídeos-Exercícios:

    https://sites.google.com/view/lce136-biologia-esalq-usp


    Pauta: 

    - Linkar Exercícios no Site da LCE 136

    - Conectar IA com Biologia - Ecologia:

               - Slides Conceitos - Cases

               - Projeto Cafeicultura Ecológica - Resiliência à Mudança Climática: MO Solo - Biodiversidade - Controle Biológico


    - Machine Learnig Não Supervisionado - Cluster Analysis e Data Crunching (Excel)


    - Resolver Exercício 1 como se fosse um aluno da disciplina (Teste  T de Student)

    - Resolver Exercício 2 idem (Regressão Linear Simples)




    Tipos de Machine Learnig

    Tipos de Machine Learnig 










    Aula 20/9/2021

     Link: https://meet.google.com/yfo-eqio-nhs




    Site para Vídeos:

    https://sites.google.com/view/lce136-biologia-esalq-usp


    Ultimo Vídeo - Semana passada:

    Assunto: IA para Biologia. Estagio e pós-graduação posso orientar todas as opções, na Ecologia Aplicada e Ciências Exatas. Tipos de IA, dedutiva, indutiva, machine learning. Assuntos para seminários – sementes para pesquisar. Exemplos de nossa equipe, para todos os tipos: Dedutiva: Robô de Educação Física Quântica. ML Superv. para Classificação: Identificação de Ratos – Ebola Brasileiro. Exemplos de Deep Learning: Classificação de Fazendas no Brasil por Gestão Ecológica e Mel de abelhas nativas e europeias, Fernanda apresentando esse assunto – Doutoranda CENA – Bióloga – Monitora da Disciplina.

    Data: 13/9/2021

    Link: https://youtu.be/dWWeucmTAO0


    Pauta:

    - Exemplo de Regressão Linear Simples em Excel e SAS

    Ver Machine Learning Supervisionado para Previsão



    - Resolver Exercício 1 - Excel

               - Como se o Gabriel (eu) fosse um aluno





    Exercícios Obrigatórios - Com isto e Seminário Nota Final >= 7

     Exercícios  Obrigatórios - Com isto e Seminário Nota Final >= 7


    Enviar os exercícios para o e-mail da disciplina.

    E-Mail da Disciplina:


    biologia.inteligente.10@gmail.com


    Colocar no Assunto do e-mail o Nome Completo e Numero do Exercício





    Exercício 1 Teórico:

    Em quais problemas da Biologia pode se utilizar Ciência de Dados (CD) e Inteligência Artificial (IA) e Bioinformática (B)? A CD, IA e B podem ajudar na empregabilidade e competitividade do Biólogo, são habilidades de mercado? Elaborar uma apresentação com no máximo 12 slides, mínimo 9.

    Dead Line: 13/9/2021

     

    Exercício 1 Pratico:

    Elabore (pesquise na Internet ou invente dados) um exemplo para aplicar teste T de Student, na área de biologia. Faça um gráfico para detectar outliers. Ou fazer um gráfico de uniformidade de processos Prazo: 6/9/2021.


    Exercício 2 Pratico: 

    Rode a ferramenta analítica Teste T de Student no exemplo do Exercício 1 Pratico. Prazo: 13/9/2021.


    Exercício 3 Pratico: Elabore um exemplo para aplicar Regressão Linear Simples em Excel. Prazo 4/10/2021


    Exercício 4 Pratico  - Criar um site para colocar seu curriculum, - marketing pessoal. Enviar link para o e-mail de exercícios.
    Prazo 4/10/2021

    Exercício 5 Pratico  - Criar um blog para colocar os exercícios obrigatórios da LCE 105. Ferramenta importante como habilidade de mercado para o Economista. Enviar link para o e-mail de exercícios.
    Prazo 4/10/2021


    Exercício 2 Teórico: Explique com analogia ao funcionamento do cérebro, sem matemática e estatística, como funcionam as redes neurais artificiais e o deep learnig, 4 a 6 slides. Prazo 27/9/2021








    Exercícios do Ano 2020 - Ano passado

    Exercício 2 Teórico:

    Em quais problemas da Biologia pode se utilizar Machine Learning (ML)? O ML pode ajudar na empregabilidade e competitividade do Biólogo, são habilidades de mercado? Elaborar uma apresentação com no máximo 7 slides, mínimo 4.

    Dead Line: 14/9/2020


    Exercício 1 Pratico:

    Crie um exemplo na área biológica para utilizar analise de regressão linear simples. Podem ser dados reais ou inventados. Rode esse exemplo no Excel. Interprete os resultados.

    Dead Line: 7/9/2020


    Exercício 2 Pratico: Instalaro Weka (machine learning) e se cadastra no SAS on demand (SAS estudio). Tudo gratuito.
    Dead Line: 7/9/2020

    Exercício 3 Pratico:

    Crie um exemplo na área biológica para utilizar Teste T de Student. Podem ser dados reais ou inventados. Rode esse exemplo no Excel. Interprete os resultados.

    Dead Line: 14/9/2020


    Exercício 4 Pratico:

    Crie um blog para colocar os exercícios da disciplina LCE0136. Eu (Gabriel) gosto do Blogger, mas pode ser outro.

    Dead Line: 14/9/2020


    Exercício 5 Pratico:

    Crie um exemplo para aplicar Machine Learning para Classificação. Rodar no Weka e checar resultados em SAS. Dead Line: 26/10/2020

    Exercício 6 Pratico:

    Crie um exemplo para aplicar Machine Learning para Previsão - Regressão. Rodar no Weka. Dead Line: 14/12/2020




    Machine Learning para Predição - Regressão - Biodiversidade Animal

      Machine Learning para Predição - Regressão - Biodiversidade Animal


    Videoaula:

     

    https://youtu.be/Thsnpu1cxr8










    Dados para Rodar no Weka
    Arquivo

    Autor: Gabriel Sarriés



    Variáveis Preditoras (Total = 5)

    DBO – Demanda Bioquímica de Oxigênio

    ICobV – Índice de Cobertura Vegetal

    ICArb – Índice de Cobertura Arbórea

    IBCont – Bioindicador de Contaminação (agrotóxicos)

    Dis_Pl – Distancia do plantio de grãos.










    Exemplo de Biomonitor





    Área de Cultivo de Grãos 

    Soja - Milho - Algodão - Trigo - Aveia



    Banco de Dados para Desenvolver Algoritmo de MLS para Previsão

    DBO

    ICobV

    ICArb

    Bcont

    Dis_Pl

    IBD_A

    1,604

    89

    60

    11

    9

    90

    0,385

    90

    61

    10

    8,9

    91

    0,216

    91

    62

    9

    9,1

    92

    0,303

    90

    59

    10

    8,8

    89

    1,961

    20

    12

    81

    0,2

    20

    0,782

    21

    14

    79

    0,3

    22

    0,57

    22

    15

    78

    0,25

    23

    2,187

    22

    12

    77

    0,2

    24

    0,764

    59

    35

    41

    6

    60

    0,273

    60

    32

    40

    6,5

    61

    1,883

    64

    33

    38

    5,8

    63

    0,581

    62

    32

    37

    5,6

    62

    0,18

    79

    50

    21

    8,2

    80

    0,007

    80

    49

    20

    7,8

    79

    2,028

    80

    48

    18

    8,2

    81

    2,431

    79

    47

    21

    7,7

    78




    Selecionou 3 Variaveis Preditoras


    Machine Learning Supervisionado para Predição - Regressão - Biodiversidade Animal



    Arquivo do Weka











    Resultado do Weka

    Linear Regression Model

    Ibd_A =

          0.2508 * ICob_V +
          0.1578 * ICArb +
         -0.4855 * BCont +
          1.147  * Dist_Pla +
         52.8115

    Resultado do Weka (MLS para Previsão)


     

    bd_A =

     

          0.2508 * ICob_V + Diferença com o Excel

          0.1578 * ICArb +  OK Excel

         -0.4855 * BCont +   OK Excel

          1.147  * Dist_Pla +    OK Excel

         52.8115



    Resultado do Excel 3 Variáveis Preditoras
    Para MLS Previsão foram 4




















    Material Complementar






    Arquivo excel para Download:



    Script do SAS Regressao Multipla

    data bda;
    input DBO ICobV ICArb Bcont Dis_Pl IBD_A;
    cards;
    1.604 89 60 11 9 90
    0.385 90 61 10 8.9 91
    0.216 91 62 9 9.1 92
    0.303 90 59 10 8.8 89
    1.961 20 12 81 0.2 20
    0.782 21 14 79 0.3 22
    0.57 22 15 78 0.25 23
    2.187 22 12 77 0.2 24
    0.764 59 35 41 6 60
    0.273 60 32 40 6.5 61
    1.883 64 33 38 5.8 63
    0.581 62 32 37 5.6 62
    0.18 79 50 21 8.2 80
    0.007 80 49 20 7.8 79
    2.028 80 48 18 8.2 81
    2.431 79 47 21 7.7 78
    ;
    /*
    input DBO ICobV ICArb Bcont Dis_Pl IBD_A;
    */
    proc reg;
    model IBD_A = DBO ICobV ICArb Bcont Dis_Pl;
    run;


    Saida do SAS


    Regressao Robusta Multipla
    Comando do SAS: 







    Arquivo para Weka (.arff)

    @RELATION biodiv_Animal

    @ATTRIBUTE dbo REAL

    @ATTRIBUTE  ICob_V REAL

    @ATTRIBUTE ICArb REAL

    @ATTRIBUTE BCont REAL

    @ATTRIBUTE Dist_Pla REAL

    @ATTRIBUTE Ibd_A REAL

    @DATA

    6.416555198,60,99,99,5,90
    1.538176272,61,98,99,6,91
    ...



































    Nenhum comentário:

    Postar um comentário