garystafford/deltastreamer_artists_1x.sh

## deltastreamer_artists_1x.sh
export DATA_LAKE_BUCKET="<your_data_lake_bucket_name>"

# artworks data, MoR table type, 1x bulk insert
spark-submit \
    --jars /usr/lib/spark/jars/spark-avro.jar,/usr/lib/hudi/hudi-utilities-bundle.jar \
    --conf spark.sql.catalogImplementation=hive \
    --class org.apache.hudi.utilities.deltastreamer.HoodieDeltaStreamer /usr/lib/hudi/hudi-utilities-bundle.jar \
    --table-type MERGE_ON_READ \
    --source-ordering-field __source_ts_ms \
    --props "s3://${DATA_LAKE_BUCKET}/hudi/deltastreamer_artworks_apicurio_mor.properties" \
    --source-class org.apache.hudi.utilities.sources.AvroDFSSource \
    --target-base-path "s3://${DATA_LAKE_BUCKET}/moma/artworks_mor/" \
    --target-table moma_mor.artworks \
    --schemaprovider-class org.apache.hudi.utilities.schema.SchemaRegistryProvider \
    --enable-sync \
    --op BULK_INSERT \
    --filter-dupes
	export DATA_LAKE_BUCKET="<your_data_lake_bucket_name>"

	# artworks data, MoR table type, 1x bulk insert
	spark-submit \
	--jars /usr/lib/spark/jars/spark-avro.jar,/usr/lib/hudi/hudi-utilities-bundle.jar \
	--conf spark.sql.catalogImplementation=hive \
	--class org.apache.hudi.utilities.deltastreamer.HoodieDeltaStreamer /usr/lib/hudi/hudi-utilities-bundle.jar \
	--table-type MERGE_ON_READ \
	--source-ordering-field __source_ts_ms \
	--props "s3://${DATA_LAKE_BUCKET}/hudi/deltastreamer_artworks_apicurio_mor.properties" \
	--source-class org.apache.hudi.utilities.sources.AvroDFSSource \
	--target-base-path "s3://${DATA_LAKE_BUCKET}/moma/artworks_mor/" \
	--target-table moma_mor.artworks \
	--schemaprovider-class org.apache.hudi.utilities.schema.SchemaRegistryProvider \
	--enable-sync \
	--op BULK_INSERT \
	--filter-dupes