Skip to content

Instantly share code, notes, and snippets.

@JhonatanHern
Last active September 17, 2019 19:09
Show Gist options
  • Save JhonatanHern/78dd79d8b2335af3a222570551fc922b to your computer and use it in GitHub Desktop.
Save JhonatanHern/78dd79d8b2335af3a222570551fc922b to your computer and use it in GitHub Desktop.
Clusterización:
Detección de grupos en datasets mediante distancias multidimensionales
Tipos de algoritmos para cálculo de distancia según tipo de variables:
------------------------------ Numérica (con números)
( (x11-x12)**2 + (x21-x22)**2 + ... + (xn1-xn2)**2 )**(1/2) # Euclideana
|x11-x12| + ... + |xn1-xn2| # Manhattan
( (x11-x12)**M + (x21-x22)**M + ... + (xn1-xn2)**M )**(1/M) # Minkowski
max( |x11-x12| , ... , |xn1-xn2| ) # Suprema
------------------------------ Nominal (variables con categorías no ordenables)
d(1,2)=(P-M)/P
P = # de categorias
M = # de coincidencias
------------------------------ Ordinal (variables con categorías que se pueden clasificar de menor a mayor)
xi = (Ri - 1) / (Mi - 1)
d(1,2) => Num(x1,x2)
------------------------------ Binaria
q=(i=1,j=1)
r=(i=1,j=0)
s=(i=0,j=1)
t=(i=0,j=0)
1 - ( q + t ) / ( q + r + s + t )# Simétrica
1 - ( q ) / ( q + r + s )# Asimétrica
------------------------------ Similaridad del Coseno
( x * y ) / ( || x || * || y || )
@JhonatanHern
Copy link
Author

JhonatanHern commented Sep 17, 2019

Para similaridad del coseno:
||x|| : [ R ] => R
|| [1,0,3] || = ( 1**2 + 0**2 + 3**2 )**(1/2)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment