yifeihuang/pairs.py

## pairs.py
from pyspark.sql import functions as f
from pyspark.sql import types as t
from pyspark.sql import Window as w
import numpy as np
from graphframes import GraphFrame

keep_cols = ['source', 'name', 'description', 'manufacturer', 'price',
              'name_swRemoved', 'description_swRemoved', 'manufacturer_swRemoved',
             'name_swRemoved_tfidf', 'description_swRemoved_tfidf', 'manufacturer_swRemoved_tfidf',
             'name_encoding', 'description_encoding']

LARGEST_BLOCK = 100

node = blocking_df.select(f.col('uid').alias('id'), *keep_cols)
keep_pairs = blocking_df.select(f.explode('blocking_keys').alias('blocking_key'), 'uid')\
  .groupBy('blocking_key')\
  .agg(
    f.count('uid').alias('block_size'),
    f.collect_set('uid').alias('uid'),
  )\
  .filter(f.col('block_size').between(2,LARGEST_BLOCK))\
  .select('blocking_key', f.explode('uid').alias('uid'))

left = keep_pairs.withColumnRenamed('uid', 'src')
right = keep_pairs.withColumnRenamed('uid', 'dst')

candidate_pairs = left.join(right, ['blocking_key'], 'inner')\
  .filter(f.col('src') < f.col('dst'))\
  .select('src', 'dst')\
  .distinct()

g = GraphFrame(node, candidate_pairs)
	from pyspark.sql import functions as f
	from pyspark.sql import types as t
	from pyspark.sql import Window as w
	import numpy as np
	from graphframes import GraphFrame

	keep_cols = ['source', 'name', 'description', 'manufacturer', 'price',
	'name_swRemoved', 'description_swRemoved', 'manufacturer_swRemoved',
	'name_swRemoved_tfidf', 'description_swRemoved_tfidf', 'manufacturer_swRemoved_tfidf',
	'name_encoding', 'description_encoding']

	LARGEST_BLOCK = 100

	node = blocking_df.select(f.col('uid').alias('id'), *keep_cols)
	keep_pairs = blocking_df.select(f.explode('blocking_keys').alias('blocking_key'), 'uid')\
	.groupBy('blocking_key')\
	.agg(
	f.count('uid').alias('block_size'),
	f.collect_set('uid').alias('uid'),
	)\
	.filter(f.col('block_size').between(2,LARGEST_BLOCK))\
	.select('blocking_key', f.explode('uid').alias('uid'))

	left = keep_pairs.withColumnRenamed('uid', 'src')
	right = keep_pairs.withColumnRenamed('uid', 'dst')

	candidate_pairs = left.join(right, ['blocking_key'], 'inner')\
	.filter(f.col('src') < f.col('dst'))\
	.select('src', 'dst')\
	.distinct()

	g = GraphFrame(node, candidate_pairs)