Skip to content

Instantly share code, notes, and snippets.

@valeriabarros
Last active February 28, 2018 14:57
Show Gist options
  • Save valeriabarros/85155bb8637780873dc1c309d68dd2bd to your computer and use it in GitHub Desktop.
Save valeriabarros/85155bb8637780873dc1c309d68dd2bd to your computer and use it in GitHub Desktop.
Data Analytics
Ciclo Data Science -> Objetivo - Coleta de Dados - Análise Exploratória - Apresentação de dados.
Quantitativas (nominais ou categóricas)
Frequencia absoluta
Frequencia relativa %
Qualitativas (descritivas)
Discretas
Contínua
** Probabilidade pode ser atribuída usando intuição ou seguindo as regras:
Distribuições (regras) de probabilidade:
Distribuições Discretas
- binomial - problemas de classificação (score, etc)
dbinom(x=1, size=5, prob=0.2)
- poisson - cálculo de probabilidade em determinado espaço de tempo
dpois(x=1, lambda=5)
Distribuições Continuas
- exponencial - chance do acontecimento antes do intervalo de tempo (foco é o intervalo, não o acontecimento)
- normal - mais utilizada - formato de sino
valor tende a se concentar no meio
pnorm(170, mean = 180, sd = 10)
- t de Student - teste de hipótese
dt(x = 1, df = 5)
- qui-quadrado - teste de hipótese
- F de Snedecor - teste de várias hipóteses
** Como escolher a distruição para resolver o problema
* Se a ordem não importa, combinação.
permutations(v = dados, n=5, r=3, repeats.allowed = TRUE) //function of gtools
combn(x=dados, m=3) //function of utils
=> notebooks/python_notebooks_exemplos/distribuicoes_probabilidade.ipynb
@valeriabarros
Copy link
Author

valeriabarros commented Feb 28, 2018

Medidas de posição:
(mínimo, máximo, média)
Mediana -> nos dados ordenados, a mediana é o valor correspondente ao valor entre cada metade dos valores, se for mais de um, seria uma média do valor (Ex: Mediana: R$ 5000 | Amostra: 110 | Entende-se que 50% de 110 pessoas (55) recebem R$5000 ou mais de salário, e a outra metade recebe menos de R$5000 )
Moda -> valor mais frequente dentro da amostra
Percentil -> nos dados ordenados, o percentil é o valor correspondente a porcentagem na amostra. (Ex: Percentil: 5% com resultado 100, entende-se que 5% da amostra possui valor menor que 100)

  • 0.9
  • 0.8
  • 0.7
  • 0.6
    - 0.5 -> mediana é entre 0.5 e 0.4 (valores do meio), tendo resultado = 0.45, ou seja, 50% da amostra é maior que 0.45, e 50% é menor que 0.45
    - 0.4
    - percentil 4% = 0.4 -> Ou seja, 4% da amostra é menor do que 0.4
  • 0.3
  • 0.2
  • 0.1
  • 0.0

Quartis -> uso estatístico, que utiliza o percentil para diagnosticar valores em quadrantes: 25%, 50% e 75%.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment