Dosudo deep learning newsletter #3

We are Dosudo 矽谷軟體工程師 Deep learning 讀書會.  Welcome to join our biweekly meeting and here is our website.  also check out our Deep Learning 線上聚會紀錄

Upcoming event:

Dosudo deep learning #7  – on August 26   17:00 (PDT time)

A.  Deep learning highlight 

  1. 最後一屆ImageNet大規模視覺識別大賽(ILSVRC2017) 

a1

最後一屆ImageNet大規模視覺識別大賽(ILSVRC2017) 順利落幕, 而WebVision圖像大賽會是 … 

Editor:     林之昫、 HubertLin 

2. Review: Neuroscience-Inspired Artificial   Intelligence

a2DeepMind 發表在Neuron journal的review文章. 整理的很好值得一看, 詳述為甚麼人工智慧的未來是神經科學 …..

Editor:     George.Wu

 

3. Reading Wikipedia to Answer Open-Domain Question

a3Facebook AI Research 公佈了他們目前 QA 最新的研究 Reading Wikipedia to Answer Open-Domain Question …..

Editor:     Howard Lo

 

4. Learned in Translation: Contextualized Word Vectors

a4

Transfer learning 讓Natual Language Processing 的tasks 明顯的效能提升 …..

Editor:     Howard Lo

5. Optimizing the Latent Space of Generative Networks (GLO)

a5

FAIR此次發表新的架構 GLO (Generative Latent Optimization),解決了saddle point optimization 問題

Editor:     Hubert Lin

 

B.  Hot deep learning news and materials

每一期的deep learning Newsletter 我們都將會收集深度學習領域最新最熱門的新聞,  以及整理業界及學界值得關注的研究或應用. 同時也會分享網路上非常實用的資源.

Date:  2017. 08.19

1.  DeepMind 最新的blog 揭示了具想像力(Imagination)的強化學習Agent 及兩篇paper

2.  Intel 推出全球第一款USB格式的神經網路處理器NCS

3.  Google 宣佈成立孵化器LaunchpadStudio 支援AI創業公司

4.  最新AI技術能從 2D影像產生3D物體

5.  微軟開發出機器閱讀理解系統的通用遷移學習方法SynNet

6.  Facebook 的人工智慧研究院用GAN發展的聊天機械人沒有失控

7.  Facebook 開源人工智慧平台 CommAI 可測試及訓練AI

8.  CMU開源即時多人關鍵點偵測系統OpenPose

9.  Heroes of deep learning 系列訪談,吳恩達訪問深度學習大師們

10. Google聯手MIT研發演算法在手機拍照前模仿攝影師自動幫你修圖


C. 
Deep learning big event

螢幕快照 2017-07-29 上午9.46.06

Editor:   George.Wu

深度學習的三大巨頭之一, Facebook人工智慧研究院(FAIR, Facebook AI Research)院長, 卷積神經網路之父Yann LeCun 在上個月來台展開為期三天的參訪, 在台灣大學, 交通大學及成功大學給演講. 為了一睹國際大師的風采報名人數很早就爆滿並需要加開演講廳及數間教室進行現場同步直播. 這次演講的題目是 Deep learning and the Path to AI. 深度學習以及AI的未來.  Yann LeCun 從深度學習的緣起及發展史開始講到現今發展AI將會遭遇的困難及未來AI系統的架構.

在上一期的Newsletter #2中 Yann LeCun 先從Deep learning及CNN的緣由開始談起, 以及CNN的一些milestones 及有名的應用, 一直到未來AI的架構及可能遇到的問題.   Newsletter #3繼續介紹Yann LeCun的演講內容, 包括unsupervised learning, adversarial training(GAN), 以及目前在Video prediction上的進展, 最後並談到未來的AL system 應該會是怎麼樣.

8. Inferring the state of the world from text:  Entity NN

This slideshow requires JavaScript.

前面談到了如何建立AI system 的world simulation 物理規則, 譬如PhysNet能模擬物體掉落的機制及軌跡. 那如何透過文字去建立world simulator呢? 就是如何從人的文字, 對話等去了解真正發生的事. 這問題就更複雜了因為本身語言系統就比較複雜可以用截然不同的語句形容一樣的事, 或者句子非常接近但意思天差地別. 記憶問題是自然語言裡比較基礎的問題, 因為常用的Recurrent network 的記憶會在經歷很久的訓練後遺忘之前的記憶(之前訓練學習到的事物). 所以我們必須為神經網路設計特別的記憶機制, 就像人類大腦的hippocampus(海馬迴)一樣. 除了著名的LSTM (Long-short Term Memory) 之外, 譬如DeepMind於2016年發表了記憶增強式的神經網路 (memory-augmented network), 也被稱為可微分神經網路(differentiable neural computer). 它不但能像一般的神經網路一樣透過訓練緩慢地學習, 也能像計算機一樣透過一個controlled輸入, 寫入及儲存記憶. 其他像2014年發展的Memory network, stacked-augmented recurrent neural net, neural turing machine也都有異曲同工之妙引入了記憶的機制.

9. unsupervised learning

This slideshow requires JavaScript.

Unsupervised learning (非監督式學習) 一直是近代深度學習的熱門發展方向, 也很多實驗室在影像及影片處理嘗試導入unsupervised learning的概念, 希望之後不需要以人工標記影像或影片的方式處理數據. 在這裡Yann 引入能量模型非監督是學習的概念, 將學習過程看成以energy function 定義的曲面上逼近的過程. energy function 又被稱為contrast function, 意義是低點是資料點所在處. 並提出有一些策略可以繪出這能量曲面譬如將資料點附近的平面拉低, 其他地方拉高, 譬如像max likelihood, 或者可以嘗試將資料點附近曲面gradient能到最低, 而curvature到最高, 譬如score matching方法. 其實energy-based的方法不只出現在深度學習模型上, 只要有定義lose function或目標函數都可以用能量模型去解釋. 它主要影響了模型的泛化能力, 只是在unsupervised learning因為沒有明確的目標, 所以如何定義適合於unsupervised learning的energy function就是一大挑戰.

10. adversarial training

This slideshow requires JavaScript.

提到GAN (Generative Adversarial Networks) 更是深度學習中最火熱的研究方法. adversarial training 可以用之前提到能量模型的方式去解釋. 以prediction來說, 有時候很難給予適當的lose function 去進行準確的預測因為大部分模型或現象都包含著不確定性, 舉例來說用手指頂著筆在桌上放下, 很難預測筆會正確往哪個方向倒, 只能知道它的大概趨勢或mainfold. 所以GAN利用兩個神經網路共學習, G(Generator) 產生出預測的sample譬如圖像, 而和一般學習不一樣的GAN並非給出明確的lose function去校正generator, 而透過另外一個神經網路D (Discriminator) 去修正能量曲面進行預測. GAN採用的 adversarial training方式在很多領域都展現很好的效果. 譬如最常見的DCGAN (Deep Convolution GAN) 就廣泛被用在generate images, 無論是室內, 風景, 寵物, 動畫角色等等. 而Yann 之前發表的EBGAN(Energy-based generative adversarial network) 是基於能量模型的GAN, 大大降低了生成圖片的隨機性, 並增加了圖像的流暢性. 主要的改量在於EBGAN將Discriminator改能了結合Encoder及Decoder的神經網路Auto-encoder. 

11. video prediction with adversarial training and semantic segmentation

This slideshow requires JavaScript.

影片上的prediction 也可透過adversarial training的方法能正確的預測出後幾幅的畫面. Yann之前就使用multiscale convent encoder-decoder 結合了數個generator 對不同的size 對下幾幅進行prediction. 而在影片的semantic segmentation上也有很好的表現, 在Yann展示的成果中, 結合了之前的multiscale convent encoder-decoder 以及auto-regressive model 可以正確地對行車影片做 semantic segmentation, 以及9 frames之後的預測, 當車轉向時,預測也是會正確朝向方向轉.

12. style transfer with adversarial auto encoder

This slideshow requires JavaScript.

Style transfer 也是很常見的深度學習的應用, 譬如將圖像或照片套上某訓練過後的藝術風格. 而當使用adversarial learning, 或者之前的adversarial auto-encoders時, 還可以生成Style transfer 的interpolation, 也可以用在2D 或3D的avatar generation上.

13. Aligning fugue AI with human values

This slideshow requires JavaScript.

在演講的最後, Yann 強調的一件事就是, 人類從自然的身上學習到很多人工智慧的概念. 但AI的未來並不是完全的複製自然, 而是要去瞭解自然的規則, 去了解透過演化有哪些值得進步的地方, 或者本身就會受其限制. 舉例來說人類曾經仿造了鳥類的翅膀形狀的飛行器想學鳥類飛行, 但最後人類飛上的天空的方式來自於對自然定律的了解而非一昧的仿造.

7 thoughts on “Dosudo deep learning newsletter #3”

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s