ÍNDICE DE CONTEÚDO
- Introdução ao Machine Learning: Conceitos Básicos
- Tarefas do Aprendizado de Máquina
- Datasets: O que são e para que servem no Aprendizado de Máquina
- Explorando os Datasets — Parte 1
- Estatística Descritiva — Parte 1
- Estatística Descritiva – Parte 2
- Pré-Processamento Dos Dados
- Limpeza Dos Dados
- Transformação De Dados
- Classificação X Regressão
- O Algoritmo Dos K Vizinhos Mais Próximos
- Regressão Linear – Parte 1
Oi pessoal! Neste artigo vamos começar a ver um pouco de formalidade matemática e revisar alguns conceitos básicos também. A estatística descritiva nos ajuda a descrever os dados a partir de algumas medidas que podemos calcular. Não entendeu? Então vem comigo pra gente entender melhor!
Notação Matemática
Para podermos aproveitar ao máximo nossa jornada nesta série de artigos, devemos nos acostumar com o formalismo matemático envolvido. Afinal, é provável que você vá ler artigos científicos por aí e, para não ficar muito perdida/o, seria legal se conseguisse ler esses artigos com mais facilidade, não é? A Tabela a seguir apresenta a notação matemática que utilizarei aqui, isto é, as definições matemáticas para os conceitos envolvidos. Por exemplo, quando você vir um “x”, você vai entender que esse “x” se refere ao espaço de instâncias e que, “xi” se refere a uma instância em particular. Do mesmo modo, quando vir um “y”, você vai saber que se trata de um atributo de saída (classe, rótulo, categoria, valor), enquanto que “yi” se refere a um atributo de saída específico. Sempre que tiver dúvidas, volte nesta tabela para consultar.
Cálculos Básicos
Vamos rever algumas coisas bem básicas que já aprendemos antes em nossa vida, mas agora com um olhar um pouco diferente. Tudo que será apresentado aqui será muito útil em nossa jornada.
Média aritmética
A média aritmética consiste em somar todos os números de uma sequência e dividir pelo total de números presentes. Na Equação a seguir, x é uma instância, m é o número total de instâncias do dataset e x barrado é o valor da média.
No caso do dataset flags, significa somar as 194 linhas e depois dividir o resultado da soma por 194. Imagine que temos a seguinte sequência de números {1, 5, 3, 9}, x é cada um desses números. Assim temos:
Agora imagine a seguinte sequência: {1, 100, 3, 9}.
Dessa forma temos:
Você acha que essa média está representando a realidade dos dados? Não, não está! Esse valor 100 está muito discrepante dos outros e, por isso, ele é chamado de outlier. Por este motivo, nem sempre a média aritmética pode ser considerada na análise. Fiquem muito atentos a esse tipo de situação. Agora, se os valores forem próximos (ou distribuídos simetricamente), como é o caso da primeira sequência, dai a média é um bom indicador do meio dos dados.
Média Ponderada
Na média ponderada, cada valor tem um peso, e ela é apresentada na Equação abaixo onde w é o valor do peso. (equacao-media-ponderada.png)
Um exemplo típico de média ponderada são as notas semestrais de uma disciplina. As notas variam de 0 a 100, 20% desses pontos são referentes a 2 trabalhos feitos em sala de aula, outros 20% para outros 2 trabalhos feitos em casa, e os 60% restantes são de duas avaliações. Cada trabalho e avaliação vale de 0 a 100. Exemplificando:
Nota do Aluno | |||
Ts1 | 0 a 100 | 10% | 50 |
Ts2 | 0 a 100 | 10% | 60 |
Tc1 | 0 a 100 | 10% | 70 |
Tc2 | 0 a 100 | 10% | 80 |
A1 | 0 a 100 | 30% | 90 |
A2 | 0 a 100 | 30% | 40 |
Temos que
Média Quadrática
É a raiz quadrada da média aritmética de uma quantidade finita de valores quadráticos, isto é: (equacao-media-quadratica.png)
No caso da sequência {1, 5, 3, 9} teremos:
Mediana
Mediana é o número central de uma lista de dados organizados de forma crescente ou decrescente. Por este motivo, para calcular a mediana, primeiro precisamos ordenar os dados crescentemente e depois fazer uma verificação, conforme mostra a Equação:
Por exemplo: {1, 5, 3, 9} é uma sequência que possui 4 números, portanto pode ser considerada “par”, isto é n é par, onde n é o total de números da sequência. Já a sequência {1,5,10,9,2} possui 5 números, portanto é considerada ímpar. O mesmo pode ser aplicado aos datasets, mas nesse caso, n é o número total de instâncias (linhas) do dataset. Re-ordenando os dados temos: {1, 3, 5, 9} e {1,2,5,9,10}. A mediana então vai ser igual ao valor do meio se n=ímpar, e se n=par deve ser feita a média dos dois valores do meio. Em nosso exemplo, os dois valores do meio são 3 e 5 para a primeira sequência e 5 e 9 para a segunda sequência. Desta forma, 4 é a mediana da primeira pois (3+5)/2=8/2=4, enquanto 7 é a mediana do segundo, pois (5+9)/2=14/2=7.
Moda
Corresponde ao valor que ocorre com maior frequência. Suponha a seguinte sequência numérica: {17, 18, 19, 20, 19, 19, 5, 6, 19}. A moda será igual a 19 pois o número 19 aparece mais vezes que todos os outros números.
Ponto Médio
É a soma entre o maior e o menor valor dividido por dois. Na sequência {1, 5, 3, 9} , o ponto médio será 9+1=10/2=5.
Quartis e percentis
Primeiro devemos ordenar os dados e somente depois calcular os percentis. Percentil refere-se a uma porcentagem dos dados, portanto, aqui cortamos os dados em diversos pedaços diferentes, enquanto que na média dividimos os dados em duas partes. Formalmente, o percentil é um valor (x) do conjunto de valores tal que uma porcentagem dos valores observados são menores que esse valor (x). O percentil 30 de um dataset é o valor para o qual 30% dos outros valores são menores ou iguais a ele. Como mencionado, primeiro devemos ordenar os dados e depois calcular o produto mp%, onde m é o número total de instâncias e p% o percentil. Então, verificamos se mp é um inteiro. Se isso for verdade, então arredondamos para o próximo inteiro e retornamos o valor dessa posição na sequência. Se isso não for verdade, consideramos mp% = k e retornamos a média entre os valores nas posições k e k + 1.
No Microsoft Excel é possível calcular os percentils através de uma função a qual retorna o k-ésimo percentil de valores em um intervalo. O exemplo dado no site oficial do microsoft excel é bem elucidativo: “Você pode usar esta função para estabelecer um limite de aceitação. Por exemplo, você pode decidir examinar candidatos com pontuação acima do 90º percentil.” Assim, ao usar a função você deve passar os valores (x) e o percentil que deve estar entre os valores 0 e 1. Por exemplo, o percentil 0.5 (50%) da sequência {1,3,5,9} é 4, enquanto o percentil 0.8 (80%) é 6,6. Aliás, todas as equações apresentadas aqui podem ser facilmente calculadas no Excel, e também usando qualquer outra linguagem de programação. Esta parte prática ficará para outro artigo.
Frequência
Mede a proporção de vezes em que um atributo assume um dado valor em um determinado conjunto de dados. Por exemplo, na sequência {1,3,5,9} a frequência é de 1 para 3, 1 para 5, 1 para 1 e 1 para 9, pois cada um desses números aparece uma única vez. Já se tivermos a seguinte sequência {3,5,3,5,1} a frequência será 2 para o número 3, 2 para 5 e 1 para 1. Resumindo, basta contarmos a quantidade de vezes em que cada elemento da sequência aparece.
Desvio padrão
É uma medida de dispersão dos dados em torno de média amostral. Portanto, o desvio padrão mede o quanto os dados se afastam da média. Um baixo desvio padrão indica que os pontos dos dados tendem a estar próximos da média ou do valor esperado, estando menos dispersos. Já um desvio padrão for alto indica que os pontos dos dados estão espalhados por uma ampla gama de valores e mais longe da média. Por fim, se o desvio padrão for igual a zero, então os valores do conjunto de dados são iguais à média, não há variação e, portanto, há uniformidade. O desvio padrão é dado pela seguinte Equação:
(equacao-desvio-padrao.png)
Considere a sequência {1,3,5,9}, vamos calcular o desvio padrão. Primeiro calcular a média:
Agora o restante:
Portanto, os dados estão a 2,96 distantes da média, não são dados uniformes, e é um valor abaixo da média. Suponha que essa sequência numérica seja algo medido em metros, dai, pode-se dizer que os valores estão a 2,96 metros distantes da média. Existem variações do desvio padrão, e você pode confirmar isso consultando as funções prontas em planilhas eletrônicas.
Conclusão
Para não ficar tudo muito nebuloso, vou terminando este artigo por aqui. No próximo artigo, darei continuidade aos cálculos estatísticos básicos que podemos operar em um dataset. Depois de vermos os conceitos, vamos testá-los com o R/Python. Em seguida, veremos qual a forma correta de pré-processar os dados. Te vejo lá.