rrblogdatascience/gist:32c85f3aa85b8f69d52c Secret

## gistfile1.sql
SELECT data.*, (madlib.closest_column(centroids, points)).column_id as cluster_id
FROM public.iris_data as data,
     (SELECT centroids
      FROM madlib.kmeanspp('iris_data', 'points',
                           <Parameters.K>,
                           <Parameters.distance function>,
                           <Parameters.aggregation method>,
                           <Parameters.max number of iterations>,
                           <Parameters.min frac reassigned >)) as centroids
ORDER BY data.pid
	SELECT data.*, (madlib.closest_column(centroids, points)).column_id as cluster_id
	FROM public.iris_data as data,
	(SELECT centroids
	FROM madlib.kmeanspp('iris_data', 'points',
	<Parameters.K>,
	<Parameters.distance function>,
	<Parameters.aggregation method>,
	<Parameters.max number of iterations>,
	<Parameters.min frac reassigned >)) as centroids
	ORDER BY data.pid