今天是spark summit 2015 第一天, 总体感觉: 人山人海, Data遍地
(人多, 大家都在聊data这个data那个). 具体的schedule 见这里https://spark-summit.org/2015/schedule/, 我主要听Developer Track. 记录一些见闻
这种会议开场基本上都是广告, 最感兴趣的是databricks发布的cloud产品和timeful的的talkA Tale of a Data-Driven Culture
- 就是去年的databricks cloud
- 去年还仅仅演示了Spark Streaming的功能, 今年功能比较全面, 包含:
- notebook支持很多语言, markdown, sql, R, python, interactive coding && visualization, 从演示来看, 体验非常好
- ML方面支持model server 一行代码发布, 之前是DataScientist做好模型交给Engineer 做一个在线server, 现在基本不需要engineer 介入(好悲伤要失业了)
- 结构很有意思, 直接注册databricks account然后配置AWS Account, 然后databricks负责按需启动spark cluster 支持计算, 因此你的费用就是databricks 费用 + AWS instance的费用, 貌似不便宜
- cloudera 早就集成了spark 发行
- Hortonworks 做了一个开源的zepplin
- 主要讲如何构建Data-driven的文化
-
构建Data-driven, 大家想到的第一件事就是hire more SQL monkeys
-
这种做法不scale, 而且Loop 非常长:
产品提出想法 -> SQL monkey 跑数据, 出报表 -> 跟产品解释 -> 产品又提出想法 -> SQL monkey 跑数据 ........
-
最终结果就是SQL monkey 不耐烦, 事情不了了之
-
事情的本质在于
- Most in your company want ** Answer ** from your data
- Most are capable of finding answers from data, ** GIVEN The Right Tool **
- ** Your Goal is to find that tool that minimize friction to data **
- 全员
SQL monkey
- 数据部门专注做工具, 方便PM等使用
- 速度速度速度, 降低迭代成本, Fail fast
最后贴几张拍的PPT