chidakiyo/bq-df_dogrun.txt

## bq-df_dogrun.txt
## #bq_sushi & dataflow DOGRUN

### #bq_sushi の始まり

BigQuery Analyticsの読書会

六本木のまっちゃんという寿司屋で打ち上げが行われた

### QA

- UDFをpythonでかけるようになりませんか
  - 今の所予定がない
  - CをコンパイルしてUDFで動かすことができる

- resource exceededが出るのが辛い
  - 次のq4で解決するようになる(order by で出ないようになるはず)
  - order byで　exceededがでるのは一つのノードに集中するから、それを分散させる予定。

- apache beamのいろいろな言語をサポートしているけど、そのプライオリティはどの様になっているか（開発するときのプライオリティは？）
  - 基本的にはどの言語も公平に開発されている
  - javaが最初に開発されてその2年後にpythonが開発されたのでそのへんがありそう
  - まだGoのように新しい言語はパーフェクトではないが同等に動くように努力はしている

- たくさんの機能を利用したいときにはjavaを利用するのが良いのか
  - 1年後にはもう少し差が埋まっているだろう。現状はjavaが一番機能が多い。
  - いまはpythonでもstreamingができるのでgapは埋まっているはず
  - 次のクオータではpython3も動くように鳴る

- いつgoのexperimental外れる？
  - はっきりは言えない

- scala, kotlinサポートはどう？
  - scalaはspotifyのライブラリを使えば良い
  - kotlinは残念ながらまだソリューションはない
    - お客さんでkotlinを利用している人はいる

- javaの有償化で、今後はどう考えるか
  - 現状はgoogleがjavaをサポートするので安心して、でも将来はpythonに移行する可能性もゼロではない

- bqが安くて驚いてる。今後も頑張ってください。
  -

- bqmlのモデルをgcsをexportできるように鳴るのか
  - ml.waitsという機能ですでに利用できるようになっている
  - ドキュメントにもすでに乗っているよ
  - pythonのpandas形式でできる
  - 一度exportすればpythonでも動かせる

< ここちょっと聞き漏らし >

- 今後なにが提供されるか。ランダムフォレストとか。
  - 特定のお客さんにランダムフォレストなどを試してもらっている。

- 任意のDocker Imageで実行できるように鳴るのはいつ頃？
  - 一応カスタムコンテナを利用できるようにする予定はあるけど、具体的にいつとは言えない？

- ポータビリティフレームワークと関係だったりします？
  - 関係ある

- 中小企業向けにslotを減らして安価なflat-rateを提供してほしい。
  - お客様からそういう要望があるが、スピードが遅くなってしまうのでなんのためのフラットレート？となってしまうので今は考えていない。
  - デフォルトでは2000スロット、非常の多くのリソースが確保されている。スロットを減らしても良いexperienceであってほしいと思っている。この辺は改善を目指しており、妥協はしたくない。

- 東京リージョンを利用するときにロケーションを指定せずにクエリしたい
  - いいニュース！それもう先週にできてるよ！

- BQ Geo viz と datastudioの連携は考えている？
  - 具体的なロードマップはないけど、Datastudioがgio vizに対応することはあるかも

- bqmlをtfのように可視化する予定は？
  - tfと全く同じということはないと思うが要望があるのは理解しているので現在頑張っている

- スケジュールクエリがnew uiに対応していない
  - 今はできない、いつかは言えないが対応はしている

- dataflowをプリエンプティブルvmで動かしたい
  - アナウンスできる内容ではないが、取り組んではいる

- shuffle vmは日本で使えるようになる予定は？
  - 明日の朝を楽しみにしてて

- whth句で1つのテーブルを何度もスキャンしていますが、これは1度しか課金されないですよね？
  - BQに関しては一度だけです。

- patitionfieldを利用したテーブルでもpartition_timeをりようできるようにしてほしい（エイリアスのような）、マイグレーションコストが高いので
  - （とばす）

- UDFをプロジェクト単位で保存できるようにしてほしい。
  - 取り組んではいますが時期は言えない

- テーブル名とカラム名にマルチバイトを使いたい
  - このリクエストを聞いたのは初めてだが、サポートできない理由がない
  - Datastudioでリネームするてもあるよ

- csvのファイルの取り込み時に日付/時間のフォーマットオプションを指定したい
  - フェデレーテッドクエリを使うという方法がある
  - いまロードのオペレーションを良いものにしようとする取り組みを行っている。
  - viewのなかでパースするという方法はあるかもしれないですね。（stringとして入れておいて）

- orcファイルでのロードで決めたカラム名でロードしたいけどできないか。
  - まだ今後数ヶ月でEAPとなるものだけど、orcに対してフェデレーテッドクエリ使う or viewを使うというので対応できるのではないか。

- group by rollup で cube というファイルがほしいができるか
  - 今のところないですが、リクエストがたくさん来るときには考えたい

- リクエストはどこに投げればいい？
  - BQのpublic bug trackerを利用すればいい

< ここちょっと聞き漏らし>

- マネージドでサーバレスな方向にいくが、最終的にVMでやらなくてはならないことはどのへんが残るのか。
  - トランスフォームするものはworkerそれ以外はバックエンドに流れてい
  - 明日のセッションでそのへん説明するのでぜひ来てください。（ワーカー、バックエンド）

- BQのシャッフルと同じか？
  - 共通している部分は多いが、コード的には共有している部分はあるが異なるものと考えてもらって良い。
	## #bq_sushi & dataflow DOGRUN

	### #bq_sushi の始まり

	BigQuery Analyticsの読書会

	六本木のまっちゃんという寿司屋で打ち上げが行われた

	### QA

	- UDFをpythonでかけるようになりませんか
	- 今の所予定がない
	- CをコンパイルしてUDFで動かすことができる

	- resource exceededが出るのが辛い
	- 次のq4で解決するようになる(order by で出ないようになるはず)
	- order byで　exceededがでるのは一つのノードに集中するから、それを分散させる予定。

	- apache beamのいろいろな言語をサポートしているけど、そのプライオリティはどの様になっているか（開発するときのプライオリティは？）
	- 基本的にはどの言語も公平に開発されている
	- javaが最初に開発されてその2年後にpythonが開発されたのでそのへんがありそう
	- まだGoのように新しい言語はパーフェクトではないが同等に動くように努力はしている

	- たくさんの機能を利用したいときにはjavaを利用するのが良いのか
	- 1年後にはもう少し差が埋まっているだろう。現状はjavaが一番機能が多い。
	- いまはpythonでもstreamingができるのでgapは埋まっているはず
	- 次のクオータではpython3も動くように鳴る

	- いつgoのexperimental外れる？
	- はっきりは言えない

	- scala, kotlinサポートはどう？
	- scalaはspotifyのライブラリを使えば良い
	- kotlinは残念ながらまだソリューションはない
	- お客さんでkotlinを利用している人はいる

	- javaの有償化で、今後はどう考えるか
	- 現状はgoogleがjavaをサポートするので安心して、でも将来はpythonに移行する可能性もゼロではない

	- bqが安くて驚いてる。今後も頑張ってください。
	-

	- bqmlのモデルをgcsをexportできるように鳴るのか
	- ml.waitsという機能ですでに利用できるようになっている
	- ドキュメントにもすでに乗っているよ
	- pythonのpandas形式でできる
	- 一度exportすればpythonでも動かせる

	< ここちょっと聞き漏らし >

	- 今後なにが提供されるか。ランダムフォレストとか。
	- 特定のお客さんにランダムフォレストなどを試してもらっている。

	- 任意のDocker Imageで実行できるように鳴るのはいつ頃？
	- 一応カスタムコンテナを利用できるようにする予定はあるけど、具体的にいつとは言えない？

	- ポータビリティフレームワークと関係だったりします？
	- 関係ある

	- 中小企業向けにslotを減らして安価なflat-rateを提供してほしい。
	- お客様からそういう要望があるが、スピードが遅くなってしまうのでなんのためのフラットレート？となってしまうので今は考えていない。
	- デフォルトでは2000スロット、非常の多くのリソースが確保されている。スロットを減らしても良いexperienceであってほしいと思っている。この辺は改善を目指しており、妥協はしたくない。

	- 東京リージョンを利用するときにロケーションを指定せずにクエリしたい
	- いいニュース！それもう先週にできてるよ！

	- BQ Geo viz と datastudioの連携は考えている？
	- 具体的なロードマップはないけど、Datastudioがgio vizに対応することはあるかも

	- bqmlをtfのように可視化する予定は？
	- tfと全く同じということはないと思うが要望があるのは理解しているので現在頑張っている

	- スケジュールクエリがnew uiに対応していない
	- 今はできない、いつかは言えないが対応はしている

	- dataflowをプリエンプティブルvmで動かしたい
	- アナウンスできる内容ではないが、取り組んではいる

	- shuffle vmは日本で使えるようになる予定は？
	- 明日の朝を楽しみにしてて

	- whth句で1つのテーブルを何度もスキャンしていますが、これは1度しか課金されないですよね？
	- BQに関しては一度だけです。

	- patitionfieldを利用したテーブルでもpartition_timeをりようできるようにしてほしい（エイリアスのような）、マイグレーションコストが高いので
	- （とばす）

	- UDFをプロジェクト単位で保存できるようにしてほしい。
	- 取り組んではいますが時期は言えない

	- テーブル名とカラム名にマルチバイトを使いたい
	- このリクエストを聞いたのは初めてだが、サポートできない理由がない
	- Datastudioでリネームするてもあるよ

	- csvのファイルの取り込み時に日付/時間のフォーマットオプションを指定したい
	- フェデレーテッドクエリを使うという方法がある
	- いまロードのオペレーションを良いものにしようとする取り組みを行っている。
	- viewのなかでパースするという方法はあるかもしれないですね。（stringとして入れておいて）

	- orcファイルでのロードで決めたカラム名でロードしたいけどできないか。
	- まだ今後数ヶ月でEAPとなるものだけど、orcに対してフェデレーテッドクエリ使う or viewを使うというので対応できるのではないか。

	- group by rollup で cube というファイルがほしいができるか
	- 今のところないですが、リクエストがたくさん来るときには考えたい

	- リクエストはどこに投げればいい？
	- BQのpublic bug trackerを利用すればいい

	< ここちょっと聞き漏らし>

	- マネージドでサーバレスな方向にいくが、最終的にVMでやらなくてはならないことはどのへんが残るのか。
	- トランスフォームするものはworkerそれ以外はバックエンドに流れてい
	- 明日のセッションでそのへん説明するのでぜひ来てください。（ワーカー、バックエンド）

	- BQのシャッフルと同じか？
	- 共通している部分は多いが、コード的には共有している部分はあるが異なるものと考えてもらって良い。