Andrew Otto ottomata

## paimon_mediawiki_demo.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                ottomata
                / paimon_mediawiki_demo.md
            
            
              Created
              May 3, 2024 16:04
            
              
                Apache Paimon + MediaWIki demo
              
          
    Apache Paimon + MediaWiki demo

Screen Recording:
https://vimeo.com/942403540?share=copy
Setup


## _setup.sh
cd ~/
mkdir flink-sql-libs
cd flink-sql-libs/

wget https://repo1.maven.org/maven2/org/apache/flink/flink-connector-kafka/1.17.2/flink-connector-kafka-1.17.2.jar
wget https://repo1.maven.org/maven2/org/apache/kafka/kafka-clients/3.4.0/kafka-clients-3.4.0.jar
# Only need this if querying WMF event streams.
# https://wikitech.wikimedia.org/wiki/Event_Platform/Stream_Processing/Flink_Catalog#Creating_Tables
# wget https://archiva.wikimedia.org/repository/releases/org/wikimedia/eventutilities-flink/1.3.3/eventutilities-flink-1.3.3-jar-with-dependencies.jar

## output.txt
spark3-submit  --class org.wikimedia.analytics.refinery.job.refine.tool.EvolveHiveTable ./refinery-job/target/refinery-job-0.2.28-SNAPSHOT-shaded.jar --table=event.mediawiki_page_change_v1 --schema_uri=/mediawiki/page/change/latest --dry_run=true

24/01/02 21:49:53 INFO DataFrameToHive: Found difference in schemas for Hive table otto.mw_page_change0
Table schema:
root
-- _schema: string (nullable = true)
-- changelog_kind: string (nullable = true)
-- comment: string (nullable = true)
-- created_redirect_page: struct (nullable = true)
    |-- is_redirect: boolean (nullable = true)

## pyflink_output_tag_reuse_fail_word_count_example.py

import argparse
import logging
import sys

from pyflink.common import WatermarkStrategy, Encoder, Types
from pyflink.datastream import StreamExecutionEnvironment, RuntimeExecutionMode, ProcessFunction, OutputTag
from pyflink.datastream.connectors.file_system import FileSource, StreamFormat, FileSink, OutputFileConfig, RollingPolicy


## pyflink_sideout_fail_word_count_example.py

import argparse
import logging
import sys

from pyflink.common import WatermarkStrategy, Encoder, Types
from pyflink.datastream import StreamExecutionEnvironment, RuntimeExecutionMode, ProcessFunction, OutputTag
from pyflink.datastream.connectors.file_system import FileSource, StreamFormat, FileSink, OutputFileConfig, RollingPolicy


## Dockerfile
FROM docker-registry.wikimedia.org/flink:1.16.0-37


# add python script
USER root
RUN mkdir -p /srv/flink_app && ls
ADD python_demo.py /srv/flink_app/python_demo.py
USER flink


## schema_classes.py
# flake8: noqa

# This file is autogenerated by /metadata-ingestion/scripts/avro_codegen.py
# Do not modify manually!

# pylint: skip-file
# fmt: off

# The SchemaFromJSONData method only exists in avro-python3, but is called make_avsc_object in avro.
# We can use this fact to detect conflicts between the two packages. Pip won't detect those conflicts

## 0_flink_sql_enrich_demo.sh
# Need to download flink-connector-kafka-1.15.2.jar and kafka-clients-2.4.1.jar
./bin/sql-client.sh -i flink_sql_init.sql  -pyfs get_revision_content_udf.py -pyexec /home/otto/pyflink_udf2/bin/python3 -pyclientexec /home/otto/pyflink_udf2/bin/python3 -j /home/otto/flink-connector-kafka-1.15.2.jar -j /home/otto/kafka-clients-2.4.1.jar

## enrich.sql


CREATE TEMPORARY TABLE mediawiki_page_change (
  `wiki_id` STRING,
  `meta` ROW<domain STRING>,
  `page_change_kind` STRING,
  `page` ROW<page_id BIGINT, page_title STRING>,
  `revision` ROW<rev_id BIGINT, content_slots MAP<string, ROW<slot_role STRING, content_format STRING, content_body STRING>>>
) WITH (
  'connector' = 'kafka',

## jsonschema-tools-diff.js
// Quick and hacky script that will use dyff to show the diff between
// Any modified materialized schema version and its previous version.
//
// Defaults to using https://github.com/homeport/dyff, so install that first.
// This could be cleaned up and incorporated into jsonschema-tools itself, and
// then shown in CI.
//

jsonschema_tools = require('@wikimedia/jsonschema-tools');
const _                     = require('lodash');
	cd ~/
	mkdir flink-sql-libs
	cd flink-sql-libs/

	wget https://repo1.maven.org/maven2/org/apache/flink/flink-connector-kafka/1.17.2/flink-connector-kafka-1.17.2.jar
	wget https://repo1.maven.org/maven2/org/apache/kafka/kafka-clients/3.4.0/kafka-clients-3.4.0.jar
	# Only need this if querying WMF event streams.
	# https://wikitech.wikimedia.org/wiki/Event_Platform/Stream_Processing/Flink_Catalog#Creating_Tables
	# wget https://archiva.wikimedia.org/repository/releases/org/wikimedia/eventutilities-flink/1.3.3/eventutilities-flink-1.3.3-jar-with-dependencies.jar
	spark3-submit --class org.wikimedia.analytics.refinery.job.refine.tool.EvolveHiveTable ./refinery-job/target/refinery-job-0.2.28-SNAPSHOT-shaded.jar --table=event.mediawiki_page_change_v1 --schema_uri=/mediawiki/page/change/latest --dry_run=true

	24/01/02 21:49:53 INFO DataFrameToHive: Found difference in schemas for Hive table otto.mw_page_change0
	Table schema:
	root
	-- _schema: string (nullable = true)
	-- changelog_kind: string (nullable = true)
	-- comment: string (nullable = true)
	-- created_redirect_page: struct (nullable = true)
	\|-- is_redirect: boolean (nullable = true)

	import argparse
	import logging
	import sys

	from pyflink.common import WatermarkStrategy, Encoder, Types
	from pyflink.datastream import StreamExecutionEnvironment, RuntimeExecutionMode, ProcessFunction, OutputTag
	from pyflink.datastream.connectors.file_system import FileSource, StreamFormat, FileSink, OutputFileConfig, RollingPolicy
	FROM docker-registry.wikimedia.org/flink:1.16.0-37


	# add python script
	USER root
	RUN mkdir -p /srv/flink_app && ls
	ADD python_demo.py /srv/flink_app/python_demo.py
	USER flink
	# flake8: noqa

	# This file is autogenerated by /metadata-ingestion/scripts/avro_codegen.py
	# Do not modify manually!

	# pylint: skip-file
	# fmt: off

	# The SchemaFromJSONData method only exists in avro-python3, but is called make_avsc_object in avro.
	# We can use this fact to detect conflicts between the two packages. Pip won't detect those conflicts
	# Need to download flink-connector-kafka-1.15.2.jar and kafka-clients-2.4.1.jar
	./bin/sql-client.sh -i flink_sql_init.sql -pyfs get_revision_content_udf.py -pyexec /home/otto/pyflink_udf2/bin/python3 -pyclientexec /home/otto/pyflink_udf2/bin/python3 -j /home/otto/flink-connector-kafka-1.15.2.jar -j /home/otto/kafka-clients-2.4.1.jar


	CREATE TEMPORARY TABLE mediawiki_page_change (
	`wiki_id` STRING,
	`meta` ROW<domain STRING>,
	`page_change_kind` STRING,
	`page` ROW<page_id BIGINT, page_title STRING>,
	`revision` ROW<rev_id BIGINT, content_slots MAP<string, ROW<slot_role STRING, content_format STRING, content_body STRING>>>
	) WITH (
	'connector' = 'kafka',
	// Quick and hacky script that will use dyff to show the diff between
	// Any modified materialized schema version and its previous version.
	//
	// Defaults to using https://github.com/homeport/dyff, so install that first.
	// This could be cleaned up and incorporated into jsonschema-tools itself, and
	// then shown in CI.
	//

	jsonschema_tools = require('@wikimedia/jsonschema-tools');
	const _ = require('lodash');