jruizvar/remove_duplicates.hql

## remove_duplicates.hql
CREATE TABLE temp1 (anomes INT, cnpj STRING, feat0 STRING, feat1 STRING);

INSERT INTO temp1 VALUES
 (201901, '0', 'x', 'a'),
 (201901, '0', 'y', 'b'),
 (201901, '1', 'v', 'c'),
 (201901, '1', 'w', 'd'),
 (201902, '0', 'x', 'a'),
 (201902, '0', 'x', 'a'),
 (201902, '1', 'y', 'b'),
 (201902, '1', 'y', 'b');

CREATE TABLE temp2 (cnpj STRING, feat0 STRING, feat1 STRING)
PARTITIONED BY (anomes INT);

INSERT INTO temp2 PARTITION(anomes=201901)
SELECT cnpj, feat0, feat1
FROM (
  SELECT *, row_number() OVER (PARTITION BY cnpj) AS rnk
  FROM temp1
  WHERE anomes=201901
) t0
WHERE rnk=1;

INSERT INTO temp2 PARTITION(anomes=201902)
SELECT cnpj, feat0, feat1
FROM (
  SELECT *, row_number() OVER (PARTITION BY cnpj) AS rnk
  FROM temp1
  WHERE anomes=201902
) t0
WHERE rnk=1;
	CREATE TABLE temp1 (anomes INT, cnpj STRING, feat0 STRING, feat1 STRING);

	INSERT INTO temp1 VALUES
	(201901, '0', 'x', 'a'),
	(201901, '0', 'y', 'b'),
	(201901, '1', 'v', 'c'),
	(201901, '1', 'w', 'd'),
	(201902, '0', 'x', 'a'),
	(201902, '0', 'x', 'a'),
	(201902, '1', 'y', 'b'),
	(201902, '1', 'y', 'b');

	CREATE TABLE temp2 (cnpj STRING, feat0 STRING, feat1 STRING)
	PARTITIONED BY (anomes INT);

	INSERT INTO temp2 PARTITION(anomes=201901)
	SELECT cnpj, feat0, feat1
	FROM (
	SELECT *, row_number() OVER (PARTITION BY cnpj) AS rnk
	FROM temp1
	WHERE anomes=201901
	) t0
	WHERE rnk=1;

	INSERT INTO temp2 PARTITION(anomes=201902)
	SELECT cnpj, feat0, feat1
	FROM (
	SELECT *, row_number() OVER (PARTITION BY cnpj) AS rnk
	FROM temp1
	WHERE anomes=201902
	) t0
	WHERE rnk=1;