natekupp/dataproc_spark_operator.py

## dataproc_spark_operator.py
class DataProcSparkOperator(BaseOperator):
    """
    Start a Cloud DataProc cluster, run a Spark job, then shut down the Spark cluster.
    """
    template_fields = ['arguments']
    ui_color = '#0273d4'

    @apply_defaults
    def __init__(
            self,
            main_jar=None,
            main_class=None,
            arguments=None,
            archives=None,
            files=None,
            labels=None,
            dataproc_cluster=None,
            dataproc_spark_properties=None,
            dataproc_spark_jars=None,
            project_id=None,
            dataproc_cluster_properties=None,
            gcp_conn_id='google_cloud_default',
            delegate_to=None,
            allowed_envs=Environment.ALL,
            *args,
            **kwargs):
        super(DataProcSparkOperator, self).__init__(*args, **kwargs)
        dataproc_properties = DEFAULT_SPARK_DATAPROC_PROPERTIES.copy()
        if dataproc_spark_properties:
            dataproc_properties.update(dataproc_spark_properties)

        self.project_id = project_id
        self.gcp_conn_id = gcp_conn_id
        self.delegate_to = delegate_to
        self.main_jar = main_jar
        self.main_class = main_class
        self.arguments = arguments
        self.archives = archives
        self.files = files
        self.labels = labels
        self.dataproc_cluster = dataproc_cluster
        self.dataproc_properties = dataproc_properties
        self.dataproc_jars = dataproc_spark_jars
        self.dataproc_cluster_properties = dataproc_cluster_properties
        self.allowed_envs = allowed_envs

    @limit_by_environment
    def execute(self, context):
        # Create a cluster if requested
        cluster_hook = None
        cluster_created = False
        if self.dataproc_cluster_properties is not None:
            # Ensure cluster name exists, create a random one if not
            if self.dataproc_cluster is None:
                curr_time_millis = int(round(time.time() * 1000))
                self.dataproc_cluster = 'dp-%s-%d' % (uuid.uuid4().hex, curr_time_millis)

            self.dataproc_cluster_properties['cluster_name'] = self.dataproc_cluster
            cluster_hook = DataProcClusterHook(
                project_id=self.project_id,
                gcp_conn_id=self.gcp_conn_id,
                delegate_to=self.delegate_to
            )
            cluster_created = cluster_hook.create_cluster(**self.dataproc_cluster_properties)

        # Run job on cluster
        try:
            hook = DataProcHook(gcp_conn_id=self.gcp_conn_id,
                                delegate_to=self.delegate_to,
                                project_id=self.project_id)
            job = hook.create_job_template(self.project_id,
                                           self.task_id,
                                           self.dataproc_cluster,
                                           "sparkJob",
                                           self.dataproc_properties)

            job.set_main(self.main_jar, self.main_class)
            job.add_args(self.arguments)
            job.add_jar_file_uris(self.dataproc_jars)
            job.add_archive_uris(self.archives)
            job.add_file_uris(self.files)
            labels = self.labels

            def sanitize(l):
                return re.sub('[^a-z0-9-]', '-', l.lower())[:63]

            if labels is None:
                labels = {
                    'task-id': sanitize(self.task_id),
                    'dag-id': sanitize(self.dag_id),
                }
            job.add_labels(labels)

            logging.info("Submitting job: \n{}".format(job.pretty()))
            hook.submit(job.build())

        except Exception, e:
            logging.error("job submission failed %s", e)
            raise

        finally:
            # Tear down cluster when we're done
            if cluster_created:
                cluster_hook.delete_cluster(self.dataproc_cluster)
	class DataProcSparkOperator(BaseOperator):
	"""
	Start a Cloud DataProc cluster, run a Spark job, then shut down the Spark cluster.
	"""
	template_fields = ['arguments']
	ui_color = '#0273d4'

	@apply_defaults
	def __init__(
	self,
	main_jar=None,
	main_class=None,
	arguments=None,
	archives=None,
	files=None,
	labels=None,
	dataproc_cluster=None,
	dataproc_spark_properties=None,
	dataproc_spark_jars=None,
	project_id=None,
	dataproc_cluster_properties=None,
	gcp_conn_id='google_cloud_default',
	delegate_to=None,
	allowed_envs=Environment.ALL,
	*args,
	**kwargs):
	super(DataProcSparkOperator, self).__init__(args, *kwargs)
	dataproc_properties = DEFAULT_SPARK_DATAPROC_PROPERTIES.copy()
	if dataproc_spark_properties:
	dataproc_properties.update(dataproc_spark_properties)

	self.project_id = project_id
	self.gcp_conn_id = gcp_conn_id
	self.delegate_to = delegate_to
	self.main_jar = main_jar
	self.main_class = main_class
	self.arguments = arguments
	self.archives = archives
	self.files = files
	self.labels = labels
	self.dataproc_cluster = dataproc_cluster
	self.dataproc_properties = dataproc_properties
	self.dataproc_jars = dataproc_spark_jars
	self.dataproc_cluster_properties = dataproc_cluster_properties
	self.allowed_envs = allowed_envs

	@limit_by_environment
	def execute(self, context):
	# Create a cluster if requested
	cluster_hook = None
	cluster_created = False
	if self.dataproc_cluster_properties is not None:
	# Ensure cluster name exists, create a random one if not
	if self.dataproc_cluster is None:
	curr_time_millis = int(round(time.time() * 1000))
	self.dataproc_cluster = 'dp-%s-%d' % (uuid.uuid4().hex, curr_time_millis)

	self.dataproc_cluster_properties['cluster_name'] = self.dataproc_cluster
	cluster_hook = DataProcClusterHook(
	project_id=self.project_id,
	gcp_conn_id=self.gcp_conn_id,
	delegate_to=self.delegate_to
	)
	cluster_created = cluster_hook.create_cluster(**self.dataproc_cluster_properties)

	# Run job on cluster
	try:
	hook = DataProcHook(gcp_conn_id=self.gcp_conn_id,
	delegate_to=self.delegate_to,
	project_id=self.project_id)
	job = hook.create_job_template(self.project_id,
	self.task_id,
	self.dataproc_cluster,
	"sparkJob",
	self.dataproc_properties)

	job.set_main(self.main_jar, self.main_class)
	job.add_args(self.arguments)
	job.add_jar_file_uris(self.dataproc_jars)
	job.add_archive_uris(self.archives)
	job.add_file_uris(self.files)
	labels = self.labels

	def sanitize(l):
	return re.sub('[^a-z0-9-]', '-', l.lower())[:63]

	if labels is None:
	labels = {
	'task-id': sanitize(self.task_id),
	'dag-id': sanitize(self.dag_id),
	}
	job.add_labels(labels)

	logging.info("Submitting job: \n{}".format(job.pretty()))
	hook.submit(job.build())

	except Exception, e:
	logging.error("job submission failed %s", e)
	raise

	finally:
	# Tear down cluster when we're done
	if cluster_created:
	cluster_hook.delete_cluster(self.dataproc_cluster)