Paul Meinshausen PMeinshausen

## Correlation.sql
--Syntax (version 1.3)

SELECT * FROM Corr_Reduce(
  ON Corr_Map(
    ON {table_name | view_name | (query)}
    COLUMNPAIRS('col_name1:col_name2',
                '[col_index1:col_index2]',...)
                KEY_NAME ('key_name')
    )
    PARTITION BY key_name

## ConfusionMatrix.sql
--Syntax (version 1.1)
select * from ConfusionMatrix(
  ON {table_name|view_name|(query)} PARTITION BY <expect_column_name>
  EXPECTCOLUMN('expect_column_name')
  PREDICTCOLUMN('result_column_name')
);

## ApproximatePercentile.sql
--Syntax (ApproxPercentileMap version 1.1;
--ApproxPercentileReduce version 1.0)

--The synopsis below shows the syntax for invoking the approximate percentile function for
--a column of data, grouping the data by a different set of columns:

SELECT * FROM ApproxPercentileReduce(
  ON(
    SELECT * FROM ApproxPercentileMap(
      ON {table_name | view_name | (query)}

## ADC.sql
--Syntax (version 1.0)

--You call this function by combining a local row function followed by a partition function:

SELECT * FROM ApproxDCountReduce(
  ON(SELECT * FROM ApproxDCountMap(
      ON {table_name | view_name | (query)}
      COLUMNS ('column_name')
      [ERROR ('error_tolerance')]
      )

## nPath.sql
--Syntax (version 1.0)

SELECT [ALL | DISTINCT [ON (expression [, ...])]]
  * | expression [[AS] output_name] [, ...]
  FROM NPATH(on_clause1 [on_clause2 ... on_clausen]
    PARTITION BY expression [, ...]
    ORDER BY expression [ASC | DESC] [,...]
    MODE({OVERLAPPING | NONOVERLAPPING}) PATTERN('pattern_of_symbols')
    SYMBOLS(symbol_predicate AS symbol [, ...])
    [FILTER(filter_expression[, ...])]

## Sessionization.sql
--Syntax (version 1.2)

SELECT * FROM Sessionize(
  ON {table_name | view_name | (query)}
  PARTITION BY expression [, ...]
  ORDER BY order_by_columns
  TIMECOLUMN ('timestamp_column')
  TIMEOUT (session_timeout_value)
  [RAPIDFIRE (min_human_click_lag)]
  [EMITNULL]

## SAX_Multiple_Input_function.sql
--Syntax (Multiple Input function version 1.1)

SELECT * FROM SAX(
  ON {table_name | view_name | (query)} as input
  PARTITION BY partition_columns
  ORDER BY ordering_columns
  ON <(SELECT partition_column1, partition_column2, ...
              mean_value1 AS value_column1,
              mean_value2 AS value_column2, ...
      FROM Statistics_Table)> as meanstats

## SAX_Partition_function.sql
--Syntax (Partition function version 1.1)

SELECT * FROM SAX (
  ON {table_name | view_name | (query)}
  PARTITION BY partition_column
  ORDER BY ordering_columns
  VALUE_COLUMN_NAMES('value_column1', 'value_column2', ...)
  [PAA_SIZE('paa_size_value_column1', 'paa_size_value_column2', ...)]
  [MAX_PAA_SIZE('max_paa_value')]
  [ALPHABET_SIZE('alphabet_size_value_column1',

## Path_Summarizer.sql
--Syntax (version 1.1)

SELECT * FROM Path_Summarizer(
  ON {table_name|view_name|(query)}
  PARTITION BY expression [, ...]
  [CNT('count_column')]
  DELIMITER(',')
  SEQ('sequence-column')
  PARTITIONNAMES('partitionby-col-name' [, ...])
  HASH('true'|'false')

## Path_Start.sql
--Syntax (version 1.1)

SELECT * FROM Path_Start(
  ON table_name
  PARTITION BY expression [, ...]
  CNT('count-column')
  [DELIMITER(',')]
  PARENT('parent-column')
  PARTITIONNAMES('partitionby-col-name' [, ...])
  NODE('node-column')
	--Syntax (version 1.3)

	SELECT * FROM Corr_Reduce(
	ON Corr_Map(
	ON {table_name \| view_name \| (query)}
	COLUMNPAIRS('col_name1:col_name2',
	'[col_index1:col_index2]',...)
	KEY_NAME ('key_name')
	)
	PARTITION BY key_name
	--Syntax (version 1.1)
	select * from ConfusionMatrix(
	ON {table_name\|view_name\|(query)} PARTITION BY <expect_column_name>
	EXPECTCOLUMN('expect_column_name')
	PREDICTCOLUMN('result_column_name')
	);
	--Syntax (ApproxPercentileMap version 1.1;
	--ApproxPercentileReduce version 1.0)

	--The synopsis below shows the syntax for invoking the approximate percentile function for
	--a column of data, grouping the data by a different set of columns:

	SELECT * FROM ApproxPercentileReduce(
	ON(
	SELECT * FROM ApproxPercentileMap(
	ON {table_name \| view_name \| (query)}
	--Syntax (version 1.0)

	--You call this function by combining a local row function followed by a partition function:

	SELECT * FROM ApproxDCountReduce(
	ON(SELECT * FROM ApproxDCountMap(
	ON {table_name \| view_name \| (query)}
	COLUMNS ('column_name')
	[ERROR ('error_tolerance')]
	)
	--Syntax (version 1.0)

	SELECT [ALL \| DISTINCT [ON (expression [, ...])]]
	* \| expression [[AS] output_name] [, ...]
	FROM NPATH(on_clause1 [on_clause2 ... on_clausen]
	PARTITION BY expression [, ...]
	ORDER BY expression [ASC \| DESC] [,...]
	MODE({OVERLAPPING \| NONOVERLAPPING}) PATTERN('pattern_of_symbols')
	SYMBOLS(symbol_predicate AS symbol [, ...])
	[FILTER(filter_expression[, ...])]
	--Syntax (version 1.2)

	SELECT * FROM Sessionize(
	ON {table_name \| view_name \| (query)}
	PARTITION BY expression [, ...]
	ORDER BY order_by_columns
	TIMECOLUMN ('timestamp_column')
	TIMEOUT (session_timeout_value)
	[RAPIDFIRE (min_human_click_lag)]
	[EMITNULL]
	--Syntax (Multiple Input function version 1.1)

	SELECT * FROM SAX(
	ON {table_name \| view_name \| (query)} as input
	PARTITION BY partition_columns
	ORDER BY ordering_columns
	ON <(SELECT partition_column1, partition_column2, ...
	mean_value1 AS value_column1,
	mean_value2 AS value_column2, ...
	FROM Statistics_Table)> as meanstats
	--Syntax (Partition function version 1.1)

	SELECT * FROM SAX (
	ON {table_name \| view_name \| (query)}
	PARTITION BY partition_column
	ORDER BY ordering_columns
	VALUE_COLUMN_NAMES('value_column1', 'value_column2', ...)
	[PAA_SIZE('paa_size_value_column1', 'paa_size_value_column2', ...)]
	[MAX_PAA_SIZE('max_paa_value')]
	[ALPHABET_SIZE('alphabet_size_value_column1',
	--Syntax (version 1.1)

	SELECT * FROM Path_Summarizer(
	ON {table_name\|view_name\|(query)}
	PARTITION BY expression [, ...]
	[CNT('count_column')]
	DELIMITER(',')
	SEQ('sequence-column')
	PARTITIONNAMES('partitionby-col-name' [, ...])
	HASH('true'\|'false')
	--Syntax (version 1.1)

	SELECT * FROM Path_Start(
	ON table_name
	PARTITION BY expression [, ...]
	CNT('count-column')
	[DELIMITER(',')]
	PARENT('parent-column')
	PARTITIONNAMES('partitionby-col-name' [, ...])
	NODE('node-column')