ÍNDICE DE CONTEÚDO
- Introdução ao Machine Learning: Conceitos Básicos
- Tarefas do Aprendizado de Máquina
- Datasets: O que são e para que servem no Aprendizado de Máquina
- Explorando os Datasets — Parte 1
- Estatística Descritiva — Parte 1
- Estatística Descritiva – Parte 2
- Pré-Processamento Dos Dados
- Limpeza Dos Dados
- Transformação De Dados
- Classificação X Regressão
- O Algoritmo Dos K Vizinhos Mais Próximos
- Regressão Linear – Parte 1
Oi, pessoal. Hoje daremos continuidade à nossa revisão matemática/estatística, necessária para nos entendermos melhor com os algoritmos de aprendizado de máquina. No artigo passado vimos sobre média aritmética, média ponderada, média quadrática, mediana, moda, ponto médio, frequência, quartis/percentis e desvio padrão. Hoje vamos aprender outras medidas.
Máximo e Mínimo
Uma medida usada para descobrir o valor máximo de uma sequência numérica. Em nosso exemplo {1,3,5,9} o valor máximo é 9 e o mínimo é 1. É fácil olhando assim, mas e se tivermos uma imensidão de dados? Você vai ficar lá olhando um por um? As chances de errar são grandes, por isso, deve-se calcular. Um número considerado máximo é aquele que é maior que todos os outros e, um número considerado como o mínimo é aquele que é o menor de todos. A maioria das linguagens de programação fornecem funções de máximo e mínimo para ser aplicada nos conjuntos de dados, portanto você não precisa se preocupar em implementá-las, mas se quiser, fica o desafio.
Média Geométrica
A média geométrica tem aplicações na geometria, computação gráfica e matemática financeira. Ela é muito utilizada em situações de aumentos sucessivos. Nesta equação os elementos da sequência são multiplicados e depois é calculada a raíz de m.
Em nosso exemplo fica da seguinte forma:
Esse valor pode ser interpretado como um aumento progressivo. Por exemplo, um produto que durante meses teve aumentos consecutivos, o aumento médio percentual ao final desse período pode ser calculado com a média geométrica. A média geométrica também é recomendada em casos em que os dados do dataset se comportam próximo a uma progressão geométrica ou que caracterizam um crescimento exponencial.
Média Harmônica
A média harmônica é usada em situações em que os dados são grandezas inversamente proporcionais, e muito utilizadas na avaliação de desempenho de algoritmos de machine learning.
Resolvendo para o nosso exemplo:
Amplitude
Com esta medida podemos verificar a dispersão dos dados em A unidades.
Em nosso exemplo a amplitude será A = 9 – 1 = 8, portanto, os dados estão dispersos em 8 unidades.
Diferença interquartil
Com esta medida é possível fazer uma análise inicial de outliers, aqueles valores que estão muito fora do padrão dos dados. Aqui nós verificamos a diferença entre os quartis. Em nosso exemplo os quartis são: Mínimo = 1, 25% = 2.5, 50% = 4, 75% = 6, Máximo = 9.
Em nosso exemplo: Q75% – Q25% = 6 – 2,5 = 3,5. Portanto, os dados variam em torno de 3.5 entre os quartis. Outiliers estão fora da diferença interquartil.
Limites Inferiores e Superiores
Se um valor do dataset estiver fora do limite superior ou inferior, então ele pode ser considerado um outlier, isto é, um ponto fora do padrão dos dados. No entanto, isto vai depender muito do problema que você está avaliando.
Em nosso caso:
Obviamente a minha sequência de exemplos não é uma das melhores para demonstrar essas equações. Vamos então usar uma sequência diferente e calcular tudo novamente. Considere então a seguinte sequência de dados: {200, 201, 200, 202, 203, 204, 205, 204, 204, 205, 202, 200, 200, 206, 207, 208, 209, 207, 207, 208}. Os valores que teremos são:
Média Aritmética = 204,10
Média Quadrática = 204,12
Média Geométrica = 353990056947
Média Harmônica = 204.0579
Mediana = 204
Moda = 200
Ponto Médio = 204,5
Mínimo = 200
Máximo = 209
Primeiro Quartil ou 25% = 201,75
Segundo Quartil ou 50% = 204
Terceiro Quartil ou 75% = 207
Diferencial interquartil = 5,25
Desvio Padrão = 3,007
Amplitude = 9
Limite Inferior = 193,875
Limite Superior = 199,125
Frequência =
200 201 202 203 204 205 206 207 208 209
4 1 2 1 3 2 1 3 2 1
Observe que agora os valores dos limites superior e inferior são mais coerentes. Agora, observe o que acontece se adicionarmos dois valores muito diferentes nessa sequência: {200,201,200,202,203,204,205,204,204, -1, 205,202,200,200,206,207,208,209,207,207,208, 1000}
Média Aritmética = 230,9545
Média Quadrática = 288.6732
Média Geométrica = 353990056947
Média Harmônica = -24.41762
Mediana = 204
Moda = 200
Ponto Médio = 499,5
Mínimo = -1
Máximo = 1000
Primeiro Quartil ou 25% = 201,2
Segundo Quartil ou 50% = 204
Terceiro Quartil ou 75% = 207
Diferencial interquartil = 5,25
Desvio Padrão = 3,007
Amplitude = 1001
Limite Inferior = 192,625
Limite Superior = 198,375
Frequencia =
-1 200 201 202 203 204 205 206 207 208 209 1000
1 4 1 2 1 3 2 1 3 2 1 1
O ponto médio mudou completamente, assim como outros valores.
Variância
Mede o quanto os dados estão variando.
Para a nossa sequência fica da seguinte forma:
O valor real menos o valor da média é o desvio. Com isso verificamos o quanto um dado está longe, isto é, o quão longe o valor está do valor esperado ou da média. Quanto maior o valor, mais os dados estão variando em relação à média. Se a variância for baixa, quer dizer que os dados estão próximos da media. Essa medida nos ajuda a tomar decisões, principalmente em áreas financeiras. A variância para a segunda sequência é 9.042105.
Coeficiente de Variação
Esta medida nos falara o quanto os dados da base variam em torno de uma certa porcentagem com relação à média
Exemplificando:
1.944 é a porcentagem que está variando. Para a segunda sequência é 0.01473302.
Conclusão
No próximo artigo vou trazer informações sobre distribuição dos dados e então, encerraremos com uma sheet cheat, isto é, uma imagem que tem um resumo de todas essas medidas. Sheet Cheats ajudam a gente a encontrar rapidamente o que precisamos quando temos dúvidas. Existem muitas delas espalhadas por ai sobre os mais diversos tipos de assuntos. Por hoje é só pessoal. Vejo vocês no próximo. Até.