[聚會 #5 – 18 July @ 2pm] D3.js: the Core Concepts by Zero Cho

Data visualization with D3.js by Zero Cho
Data visualization with D3.js by Zero Cho

主題介紹

D3 早就已經是網頁資料視覺化的標準配備,幾年前還在前公司服務的時候, Sales Director 有天神秘兮兮地靠過來,喜孜孜地跟我們分享他在客戶那邊聽到的成功訣竅,就是公司產品做 charting 的時候可以使用 D3… XD

很可惜地,當初負責前端設計的工程師比較鍾意有商業支援的 highcharts ,錯失了實作 D3 的機會。

這次,爛熟 graph 的 Zero 繼上次聊完 routing 演算法後,這次跟我們分享 D3 的實作經驗,人真是太好了!

聚會議程

2pm – 2:30pm: Let’s do: d3.js: the Core Concepts
d3.js is a famous data visualization library. All the power of d3.js comes from its simplistic syntax and data binding. This talk will guide you through d3’s core concepts and its core function: data transformation. We will then use a network topology editor to showcase d3’s dynamic capability.

2:30pm – 3:30pm: Networking and side project time.

Zero Cho – Software Engineer at Twitter

Zero Cho

上次 Zero 在讀書肚的分享:[聚會 #2 – 紀錄] Routing OpenStreetMap – by Zero Cho

時間

18 July @ 2pm

地點

Taulia: 201 Mission St #900, San Francisco, CA 94105

參加方式

請愛用 Facebook 活動連結報名:

https://www.facebook.com/events/659584477511003/

[聚會 #4 – 紀錄] 0 to Kaggle in 30 minutes – by Ming Tsai and You-Cyuan Jhang

10304502_10153311050208400_8182449893298095470_n

多謝工研院美西分院的贊助,這次 data science 的讀書肚 meetup 才能順利舉辦。

0 to Kaggle in 30 minutes

就算很多人聽過資料科學家的究極競技場 Kaggle ,也不一定人人都下場競技過,Ming Tsai 跟 You-Cyuan Jhang 這次的 talk 把資料科學的:

  • data preparation
  • training set/test set split
  • model training using just PostgreSQL, SQL, and Madlib
  • Kaggle result submission
  • … 等

的所有步驟清楚地介紹與 Demo,我想聽完這次 talk ,大家都可以下場玩玩。

Ming Tsai 與 You-Cyuan Jhang 目前在找挑戰 deep learning 的夥伴,請有興趣的一起加入打怪。

Youtube 影片檔

投影片

[聚會 #4 – 20 June @ 2pm] 0 to Kaggle in 30 minutes – by Ming Tsai and You-Cyuan Jhang

主題介紹

Kaggle 是資料科學家(data scientist)的終極競技場,每天都有世界上各地的資料科學家把自己精心準備的 model 送上來競賽,爭奪各地企業或研究機構所提供的題目與獎金。

如果我跟你說只要你會 SQL 語法,再加上一點點工具的幫助,30 分鐘內,你就能夠上場較勁,那該有多好?

期待 Ming 跟 You-Cyuan 把這入場卷教給我們。

聚會議程

2pm – 2:30pm: Introduction to Kaggle with SQL, using Hawq and Madlib.

2:30pm – 3:30pm: Networking and side project time.

Ming Tsai – Sr. Data Engineer at Silicon Valley Data Science

Ming

 

You-Cyuan Jhang – Senior Data Science Engineer at Castlight Health

You-Cyuan Jhang

時間

20 June (Sat) @ 2pm

地點

2870 Zanker Rd, San Jose, California 95134 (北美工研院)

參加方式

請愛用 Facebook 活動連結報名:

https://www.facebook.com/events/846922662028117/

[聚會 #3 – 記錄] Apache Mesos and Apache Spark – by Tim Chen and Chu-Cheng Hsieh

謝謝大家上禮拜六的參加,以下是上禮拜 meetup 紀錄。

Modern Techniques in Big Data Science

Chu-Cheng Hsieh 的 talk 是我看過把大資料分析(與工具)講得最淺顯易懂的,不僅輕鬆帶過 map/reduce/flat 等基礎的 map/reduce 概念,從過去的 hadoop,pig,到現在的 Spark,鉅細彌遺地講述了這些工具演化的歷史原因,還透露了他面試的問題以及回答的技巧(疑!?),請想要複習的朋友,服用以下的影片紀錄 + 投影片:

影片

投影片

 

Note: Yelp 有自己出品的 mrjob (https://github.com/Yelp/mrjob),完全是 python based 的,有興趣可以玩玩看。

 

Introduction to Apache Mesos

如果你的 data center 的單位還是 VM ,你怎麼處理有些 VM 的 usage 只有 2% (只裝了一個測試用的 MySQL)的浪費?如果你的 data center 每季成長的幅度是 3 萬台,你怎麼設計這個複雜的管理系統,讓所有需要計算資源的工程師,都順利拿到資源?Mesos 就用 linux container 的方式刻出一個完美的 data center OS。

Note: Unplugged 以後,Tim 還分享了她如何從身為 Apache 專案 PMC 中,拿到很多創投贊助意願,以及 entrepreneur in residence 的機會。

影片

投影片

 

Side Projects

Ming 的三個 Side Project ,歡迎有興趣的人參加:

  1. pinemango https://pinemango.com/
  2. 教授百分百 http://bravoprofessor.com
  3. CouchMED https://couchmed.com/

[聚會 #3 – 16 May @ 2pm] Apache Mesos and Apache Spark – by Tim Chen and Chu-Cheng Hsieh

主題介紹

這個月是我們讀書肚的阿帕契(Apache)月,跟李蒨蓉沒有關係,是我們要介紹兩個最近紅透半邊天的 Apache Project:分散式/海量資料運算的 Apache Spark ,與 data center 專用的 Operation System,Apache Mesos

身為矽谷軟體工程師,談到 Big Data Analysis ,Machine Learning,或 Parallelism,你不能不知道當今 Yahoo,eBay,Neflix 爭相採用的 Apache Spark,談到 Data Center 的自動化或是 Resource Management ,你不能不知道現下 Airbnb,Twitter,Apple 趨之若鶩的 Apache Mesos

這次,讀書肚一次帶給你。

聚會議程

Apache Spark(2:15 pm to 2:45 pm)

Modern Techniques in Big Data Science

Apache Spark is becoming one of the most gossiping and the state-of-the-art framework to conduct data analysis on Hadoop platform. in this talk. I will discuss why PIG is fading out and why Java is not suitable for the big data analysis these days. Next, I will start with explaining the basic idea/motivation behind big data analysis (in my perspective), followed by explaining operations like “map, reduce, fold, join, etc.” and wrapped up with real world examples, including page rank calculation and clustering data sets.

Chu-Cheng Hsieh – Applied Researcher at eBay

Chu-Cheng Hsieh - Applied Researcher at eBay

Apache Mesos(2:45 pm to 3:15pm)

Introduction to Apache Mesos

Come learn how Apache Mesos, an open source distributed cluster
manager, can allow Twitter to have only three full-time SREs to manage
10s of thousands of nodes running in their datacenters and achieve
high utilization.

Timothy Chen – Distributed Systems Engineer

Timothy Chen - Distributed Systems Engineer

時間

16 May @ 2pm

地點

超級感謝 Salesforce 的 Benjamin Tsai 大力幫忙喬場地,我們這次在 Salesforce Rincon Center 一樓的 Cafe / meeting room 空間舉行,確切地點請點我看地圖

到達 Rincon Center 後請來電通知 Winston (四一五,四零一,五一三五),因為門是鎖住的,我們必須要過去接你進來。

請在下圖這個門這邊打給我:

Salesforce

遠道而來到朋友們,Rincon Center 地下室也有停車場,收費 10 元。

參加方式

請愛用 Facebook Event Page 參加,因為要控制人數,所以請想來的人按下『參加』喔:

https://www.facebook.com/events/387598671435364/

[聚會 #2 – 紀錄] Routing OpenStreetMap – by Zero Cho

抱歉,這禮拜超級給他忙的!上禮拜日舉辦的 meetup ,週五晚上才有時間來寫一下紀錄。

首先,感謝在 Twitter的 Zero 分享,這次參加的人數比上次多了一倍 XD,請笑納 meetup 的投影片:

//speakerdeck.com/assets/embed.js

沒有到現場的朋友們,也可以觀看當天的影片,Zero 真的把很繁雜的地圖演算法,講解得非常簡單有趣(亞特蘭大治安這麼差嗎?)

#3 聚會暫定在 5/16 2pm ,在舊金山市區舉行,除了有趣的講題以外,我們也會在流程上做出一些調整,讓大家能夠更容易了解彼此的背景與目前在碰的技術或是專案。

我們下次見了 😉

[聚會 #1 記錄] Microservice Architecture 101 – by Ko-Chih Wu

請享用昨天的投影片

昨天非常感謝大家參加讀書肚的第一次聚會,藉由 Microservice 這個題目,大家分享了大公司 Apple,Twitter,eBay 在軟體架構上抉擇,以及最近業界 startup 在成長中所選用的架構與技術。

這種軟體架構型的工具很多,我們接下來也會一一討論類似像 Docker 的 Container ,Chef 的 Provision System,以及像 Mesos 這種資料中心的作業系統這樣。

經過了一次的 iteration ,請大家在接下來的 Talk 中朝這個方向出發:

  1. 聚會之前先分享 Slide 或是相關網路文章,讓大家可以事先準備
  2. 可以先搜集 QA ,讓主講人可以直接在 Talk 中切入大家有興趣的部分
  3. Talk 的方向請儘量以 case study 的方式進行,著重在技術(採用或是實作)的取捨

下次由 Jacky 與 Zero 分享 graph 相關的工具,演算法,與實做。