FAVORITAR
FecharPlease login

Estatística Descritiva – Parte 2

Oi, pessoal. Hoje daremos continuidade à nossa revisão matemática/estatística, necessária para nos entendermos melhor com os algoritmos de aprendizado de máquina. No artigo passado vimos sobre média aritmética, média ponderada, média quadrática, mediana, moda, ponto médio, frequência, quartis/percentis e desvio padrão. Hoje vamos aprender outras medidas.

Máximo e Mínimo

Uma medida usada para descobrir o valor máximo de uma sequência numérica. Em nosso exemplo {1,3,5,9} o valor máximo é 9 e o mínimo é 1. É fácil olhando assim, mas e se tivermos uma imensidão de dados? Você vai ficar lá olhando um por um? As chances de errar são grandes, por isso, deve-se calcular. Um número considerado máximo é aquele que é maior que todos os outros e, um número considerado como o mínimo é aquele que é o menor de todos. A maioria das linguagens de programação fornecem funções de máximo e mínimo para ser aplicada nos conjuntos de dados, portanto você não precisa se preocupar em implementá-las, mas se quiser, fica o desafio.

Média Geométrica

A média geométrica tem aplicações na geometria, computação gráfica e matemática financeira. Ela é muito utilizada em situações de aumentos sucessivos. Nesta equação os elementos da sequência são multiplicados e depois é calculada a raíz de m.

Em nosso exemplo fica da seguinte forma: 

No dia 25 de Junho de 2024, ocorrerá o “Seminário de Sistemas Embarcados e IoT 2024“, no Holiday Inn Anhembi — Parque Anhembi, São Paulo–SP.

Garanta seu ingresso

Esse valor pode ser interpretado como um aumento progressivo. Por exemplo, um produto que durante meses teve aumentos consecutivos, o aumento médio percentual ao final desse período pode ser calculado com a média geométrica. A média geométrica também é recomendada em casos em que os dados do dataset se comportam próximo a uma progressão geométrica ou que caracterizam um crescimento exponencial.

Média Harmônica

A média harmônica é usada em situações em que os dados são grandezas inversamente proporcionais, e muito utilizadas na avaliação de desempenho de algoritmos de machine learning.

Resolvendo para o nosso exemplo:

Amplitude

Com esta medida podemos verificar a dispersão dos dados em A unidades.

Em nosso exemplo a amplitude será A = 9 – 1 = 8, portanto, os dados estão dispersos em 8 unidades.

Diferença interquartil

Com esta medida é possível fazer uma análise inicial de outliers, aqueles valores que estão muito fora do padrão dos dados. Aqui nós verificamos a diferença entre os quartis. Em nosso exemplo os quartis são: Mínimo = 1, 25% = 2.5, 50% = 4, 75% = 6, Máximo = 9.

Em nosso exemplo: Q75% – Q25% = 6 – 2,5 =  3,5. Portanto, os dados variam em torno de 3.5 entre os quartis. Outiliers estão fora da diferença interquartil.

Limites Inferiores e Superiores

Se um valor do dataset estiver fora do limite superior ou inferior, então ele pode ser considerado um outlier, isto é, um ponto fora do padrão dos dados. No entanto, isto vai depender muito do problema que você está avaliando.

Em nosso caso:

Obviamente a minha sequência de exemplos não é uma das melhores para demonstrar essas equações. Vamos então usar uma sequência diferente e calcular tudo novamente. Considere então a seguinte sequência de dados: {200, 201, 200, 202, 203, 204, 205, 204, 204, 205, 202, 200, 200, 206, 207, 208, 209, 207, 207, 208}. Os valores que teremos são: 

Média Aritmética = 204,10

Média Quadrática = 204,12

Média Geométrica = 353990056947

Média Harmônica = 204.0579

Mediana = 204

Moda = 200

Ponto Médio = 204,5

Mínimo = 200

Máximo = 209

Primeiro Quartil ou 25% = 201,75

Segundo Quartil ou 50% = 204

Terceiro Quartil ou 75% = 207

Diferencial interquartil = 5,25

Desvio Padrão = 3,007

Amplitude = 9

Limite Inferior = 193,875

Limite Superior = 199,125

Frequência = 

200 201 202 203 204 205 206 207 208 209

  4     1     2     1     3     2      1     3     2     1

Observe que agora os valores dos limites superior e inferior são mais coerentes. Agora, observe o que acontece se adicionarmos dois valores muito diferentes nessa sequência: {200,201,200,202,203,204,205,204,204, -1, 205,202,200,200,206,207,208,209,207,207,208, 1000}

Média Aritmética = 230,9545

Média Quadrática = 288.6732

Média Geométrica = 353990056947

Média Harmônica = -24.41762

Mediana = 204

Moda = 200

Ponto Médio = 499,5

Mínimo = -1

Máximo = 1000

Primeiro Quartil ou 25% = 201,2

Segundo Quartil ou 50% = 204

Terceiro Quartil ou 75% = 207

Diferencial interquartil = 5,25

Desvio Padrão = 3,007

Amplitude = 1001

Limite Inferior = 192,625

Limite Superior = 198,375

Frequencia = 

-1  200  201  202  203  204  205  206  207  208  209 1000

   1 4 1 2 1 3 2 1 3 2 1 1

O ponto médio mudou completamente, assim como outros valores. 

Variância

Mede o quanto os dados estão variando. 

Para a nossa sequência fica da seguinte forma:

O valor real menos o valor da média é o desvio. Com isso verificamos o quanto um dado está longe, isto é, o quão longe o valor está do valor esperado ou da média. Quanto maior o valor, mais os dados estão variando em relação à média. Se a variância for baixa, quer dizer que os dados estão próximos da media. Essa medida nos ajuda a tomar decisões, principalmente em áreas financeiras. A variância para a segunda sequência é 9.042105.

Coeficiente de Variação

Esta medida nos falara o quanto os dados da base variam em torno de uma certa porcentagem com relação à média

Exemplificando:

1.944 é a porcentagem que está variando. Para  a segunda sequência é 0.01473302.

Conclusão

No próximo artigo vou trazer informações sobre distribuição dos dados e então, encerraremos com uma sheet cheat, isto é, uma imagem que tem um resumo de todas essas medidas. Sheet Cheats ajudam a gente a encontrar rapidamente o que precisamos quando temos dúvidas. Existem muitas delas espalhadas por ai sobre os mais diversos tipos de assuntos. Por hoje é só pessoal. Vejo vocês no próximo. Até.

Outros artigos da série

<< Estatística Descritiva — Parte 1Pré-Processamento Dos Dados >>
Licença Creative Commons Esta obra está licenciada com uma Licença Creative Commons Atribuição-CompartilhaIgual 4.0 Internacional.
Comentários:
Notificações
Notificar
0 Comentários
Inline Feedbacks
View all comments
Home » Estatística Descritiva – Parte 2

EM DESTAQUE

WEBINARS

LEIA TAMBÉM

JUNTE-SE HOJE À COMUNIDADE EMBARCADOS

Talvez você goste:
Nenhum resultado encontrado.


Seminário de
Sistemas Embarcados e IoT 2024
 
Data: 25/06 | Local: Hotel Holiday Inn Anhembi, São Paulo-SP
 
GARANTA SEU INGRESSO

 
close-link