[聚會 #4 – 紀錄] 0 to Kaggle in 30 minutes – by Ming Tsai and You-Cyuan Jhang

10304502_10153311050208400_8182449893298095470_n

多謝工研院美西分院的贊助,這次 data science 的讀書肚 meetup 才能順利舉辦。

0 to Kaggle in 30 minutes

就算很多人聽過資料科學家的究極競技場 Kaggle ,也不一定人人都下場競技過,Ming Tsai 跟 You-Cyuan Jhang 這次的 talk 把資料科學的:

  • data preparation
  • training set/test set split
  • model training using just PostgreSQL, SQL, and Madlib
  • Kaggle result submission
  • … 等

的所有步驟清楚地介紹與 Demo,我想聽完這次 talk ,大家都可以下場玩玩。

Ming Tsai 與 You-Cyuan Jhang 目前在找挑戰 deep learning 的夥伴,請有興趣的一起加入打怪。

Youtube 影片檔

投影片

[聚會 #4 – 20 June @ 2pm] 0 to Kaggle in 30 minutes – by Ming Tsai and You-Cyuan Jhang

主題介紹

Kaggle 是資料科學家(data scientist)的終極競技場,每天都有世界上各地的資料科學家把自己精心準備的 model 送上來競賽,爭奪各地企業或研究機構所提供的題目與獎金。

如果我跟你說只要你會 SQL 語法,再加上一點點工具的幫助,30 分鐘內,你就能夠上場較勁,那該有多好?

期待 Ming 跟 You-Cyuan 把這入場卷教給我們。

聚會議程

2pm – 2:30pm: Introduction to Kaggle with SQL, using Hawq and Madlib.

2:30pm – 3:30pm: Networking and side project time.

Ming Tsai – Sr. Data Engineer at Silicon Valley Data Science

Ming

 

You-Cyuan Jhang – Senior Data Science Engineer at Castlight Health

You-Cyuan Jhang

時間

20 June (Sat) @ 2pm

地點

2870 Zanker Rd, San Jose, California 95134 (北美工研院)

參加方式

請愛用 Facebook 活動連結報名:

https://www.facebook.com/events/846922662028117/

[聚會 #3 – 記錄] Apache Mesos and Apache Spark – by Tim Chen and Chu-Cheng Hsieh

謝謝大家上禮拜六的參加,以下是上禮拜 meetup 紀錄。

Modern Techniques in Big Data Science

Chu-Cheng Hsieh 的 talk 是我看過把大資料分析(與工具)講得最淺顯易懂的,不僅輕鬆帶過 map/reduce/flat 等基礎的 map/reduce 概念,從過去的 hadoop,pig,到現在的 Spark,鉅細彌遺地講述了這些工具演化的歷史原因,還透露了他面試的問題以及回答的技巧(疑!?),請想要複習的朋友,服用以下的影片紀錄 + 投影片:

影片

投影片

 

Note: Yelp 有自己出品的 mrjob (https://github.com/Yelp/mrjob),完全是 python based 的,有興趣可以玩玩看。

 

Introduction to Apache Mesos

如果你的 data center 的單位還是 VM ,你怎麼處理有些 VM 的 usage 只有 2% (只裝了一個測試用的 MySQL)的浪費?如果你的 data center 每季成長的幅度是 3 萬台,你怎麼設計這個複雜的管理系統,讓所有需要計算資源的工程師,都順利拿到資源?Mesos 就用 linux container 的方式刻出一個完美的 data center OS。

Note: Unplugged 以後,Tim 還分享了她如何從身為 Apache 專案 PMC 中,拿到很多創投贊助意願,以及 entrepreneur in residence 的機會。

影片

投影片

 

Side Projects

Ming 的三個 Side Project ,歡迎有興趣的人參加:

  1. pinemango https://pinemango.com/
  2. 教授百分百 http://bravoprofessor.com
  3. CouchMED https://couchmed.com/

[聚會 #3 – 16 May @ 2pm] Apache Mesos and Apache Spark – by Tim Chen and Chu-Cheng Hsieh

主題介紹

這個月是我們讀書肚的阿帕契(Apache)月,跟李蒨蓉沒有關係,是我們要介紹兩個最近紅透半邊天的 Apache Project:分散式/海量資料運算的 Apache Spark ,與 data center 專用的 Operation System,Apache Mesos

身為矽谷軟體工程師,談到 Big Data Analysis ,Machine Learning,或 Parallelism,你不能不知道當今 Yahoo,eBay,Neflix 爭相採用的 Apache Spark,談到 Data Center 的自動化或是 Resource Management ,你不能不知道現下 Airbnb,Twitter,Apple 趨之若鶩的 Apache Mesos

這次,讀書肚一次帶給你。

聚會議程

Apache Spark(2:15 pm to 2:45 pm)

Modern Techniques in Big Data Science

Apache Spark is becoming one of the most gossiping and the state-of-the-art framework to conduct data analysis on Hadoop platform. in this talk. I will discuss why PIG is fading out and why Java is not suitable for the big data analysis these days. Next, I will start with explaining the basic idea/motivation behind big data analysis (in my perspective), followed by explaining operations like “map, reduce, fold, join, etc.” and wrapped up with real world examples, including page rank calculation and clustering data sets.

Chu-Cheng Hsieh – Applied Researcher at eBay

Chu-Cheng Hsieh - Applied Researcher at eBay

Apache Mesos(2:45 pm to 3:15pm)

Introduction to Apache Mesos

Come learn how Apache Mesos, an open source distributed cluster
manager, can allow Twitter to have only three full-time SREs to manage
10s of thousands of nodes running in their datacenters and achieve
high utilization.

Timothy Chen – Distributed Systems Engineer

Timothy Chen - Distributed Systems Engineer

時間

16 May @ 2pm

地點

超級感謝 Salesforce 的 Benjamin Tsai 大力幫忙喬場地,我們這次在 Salesforce Rincon Center 一樓的 Cafe / meeting room 空間舉行,確切地點請點我看地圖

到達 Rincon Center 後請來電通知 Winston (四一五,四零一,五一三五),因為門是鎖住的,我們必須要過去接你進來。

請在下圖這個門這邊打給我:

Salesforce

遠道而來到朋友們,Rincon Center 地下室也有停車場,收費 10 元。

參加方式

請愛用 Facebook Event Page 參加,因為要控制人數,所以請想來的人按下『參加』喔:

https://www.facebook.com/events/387598671435364/

[聚會 #2 – 紀錄] Routing OpenStreetMap – by Zero Cho

抱歉,這禮拜超級給他忙的!上禮拜日舉辦的 meetup ,週五晚上才有時間來寫一下紀錄。

首先,感謝在 Twitter的 Zero 分享,這次參加的人數比上次多了一倍 XD,請笑納 meetup 的投影片:

//speakerdeck.com/assets/embed.js

沒有到現場的朋友們,也可以觀看當天的影片,Zero 真的把很繁雜的地圖演算法,講解得非常簡單有趣(亞特蘭大治安這麼差嗎?)

#3 聚會暫定在 5/16 2pm ,在舊金山市區舉行,除了有趣的講題以外,我們也會在流程上做出一些調整,讓大家能夠更容易了解彼此的背景與目前在碰的技術或是專案。

我們下次見了 😉

[聚會 #2 – 12 Apr @ 2pm] Routing OpenStreetMap – by Zero Cho

主題介紹

Routing OpenStreetMap

為了防止邪惡的企業勢力摧毀地球,開放社群們的勇者自 2004 年以來,磨著 OpenStreetMap 這把劍,對抗 Google 的 Google Maps (儘管我很愛用 XD),Microsoft 的 Bing Maps ,Yahoo 的 Yahoo Maps,與 Apple MacOS/iOS 上面的 Maps,圖的就是一個不屬於任何財團,跟 Wikipedia 一樣大家都可以貢獻的世界地圖 App。

這次,讀書肚很榮幸邀請到在 Twitter 的 Zero Cho 跟我們分享他在 OpenStreetMap 上面開發 routing 所使用的演算法,資料庫,與 API。

預設大綱

  • A quick recap on Graph
  • How is routing done?
  • How do we improve it?
  • Moving to neo4j
  • QA

時間:

12 April (Sun) 2PM

地點:

848 San Ramon Ave Sunnyvale, CA 94085
(Startup團隊:Hibiki 的巢穴,大感激Hibiki 願意出借場地)

講者介紹

Zero Cho
Zero Cho

Zero Cho,剛從 Georgia Tech 畢業,由亞特蘭大搬到加州開始在 Twitter 上班的新生活。

工作上是作為改善網站測試系統、佈署流程的工程師,但平時也喜歡研究各種資訊領域相關科技、做做手機程式開發等等。

預習文件下載

RoutingOSM – 投影片

另外,請大家申請加入我們的 Facebook Group

[聚會 #1 記錄] Microservice Architecture 101 – by Ko-Chih Wu

請享用昨天的投影片

昨天非常感謝大家參加讀書肚的第一次聚會,藉由 Microservice 這個題目,大家分享了大公司 Apple,Twitter,eBay 在軟體架構上抉擇,以及最近業界 startup 在成長中所選用的架構與技術。

這種軟體架構型的工具很多,我們接下來也會一一討論類似像 Docker 的 Container ,Chef 的 Provision System,以及像 Mesos 這種資料中心的作業系統這樣。

經過了一次的 iteration ,請大家在接下來的 Talk 中朝這個方向出發:

  1. 聚會之前先分享 Slide 或是相關網路文章,讓大家可以事先準備
  2. 可以先搜集 QA ,讓主講人可以直接在 Talk 中切入大家有興趣的部分
  3. Talk 的方向請儘量以 case study 的方式進行,著重在技術(採用或是實作)的取捨

下次由 Jacky 與 Zero 分享 graph 相關的工具,演算法,與實做。

[聚會 #1 – 14 Mar @ 2pm] Microservice Architecture 101 – by Ko-Chih Wu

主題介紹

Microservice Architecture 101

Microservice architecture is gaining popularity in the community, as large scale websites, such as Netflix and Amazon, adopted this paradigm and achieved better scalability. In this talk, we will cover issues with monolithic approach, how microservice architecture addresses those issues, and how it works in the real world.

預設大綱

  • Issues with monolithic approach
  • Why should I care about it
  • What is microservice
  • Sample application
  • Things to watch for

時間:

14 March (Sat) 2PM

地點:

848 San Ramon Ave Sunnyvale, CA 94085
(Startup團隊:Hibiki 的巢穴,大感激Hibiki 願意出借場地)

講者介紹

灣區林志炫 - Ko-Chih Wu
灣區林志炫 – Ko-Chih Wu

Ko-Chih Wu,號稱灣區林志炫,除了有酷似林志炫的外表與歌聲以外,還是宅宅工程界的佼佼者。

Ko-Chih 原在台灣諸多新創公司中擔任後端程式設計師,在 2013 年時由新創公司 Taulia 直接贊助 H1B 簽證的方式直接遠渡重洋,降落矽谷,目前在 Taulia 中擔任 Team Lead。

Ko-Chih 同時也是技術社群的熱衷參與者。