中文原创国产AV,爆乳美女一区二区

“清華人工智能論壇”—芮勇博士《人工智能趨勢之四化》

　發(fā)布于：2016-06-15 14:47　　　瀏覽：

導讀：2016年6月6日，清華人工智能論壇在清華園成功舉辦，清華大學副校長薛其坤院士與張鈸院士、馬少平、張長水教授等來自清華大學人工智能領(lǐng)域的多位權(quán)威專家、芮勇、王小川、張連毅等杰出清華校友企業(yè)代表，和學術(shù)界、產(chǎn)業(yè)界、資本界等社會各界近500多人相聚清華園，縱論人工智能。本屆論壇充分展現(xiàn)出了清華大學在人工智能領(lǐng)域強大、領(lǐng)先的學術(shù)、產(chǎn)業(yè)實力，與客觀務(wù)實、創(chuàng)新進取的風貌，引發(fā)了人工智能界的廣泛關(guān)注與轟動。

本文內(nèi)容選自微軟亞洲研究院常務(wù)副院長芮勇博士于本屆論壇上所做的題為《人工智能趨勢之四化》的演講。他認為未來人工智能的發(fā)展趨勢是大數(shù)據(jù)化、自適應(yīng)化、可穿戴化和增強化，演講全文如下：
我為什么取這個題目呢？什么叫人工智能趨勢之四化。因為到這個時候大家都很困惑，起一個稍微應(yīng)景的題目。今年是“人工智能”這個詞被造出來的第61年，61年前沒有，這個詞最開始出現(xiàn)是在1956年。

四化，第一個是人工智能的大數(shù)據(jù)化，這么多人類產(chǎn)生各種數(shù)據(jù)，讓它訓練機器，使得機器有更多的智能。第二個希望人工智能能夠自適應(yīng)化。第三個，越來越多可穿戴化，我們戴手表也好，甚至穿的衣服上每一根線。第四個就是人和人工智能的關(guān)系到底是什么？我個人覺得人工智能是一個很強的工具，為人類增強服務(wù)，還談不到跟我們?nèi)祟愊鄬梗沁€很遙遠。接下來我會給大家一一介紹這“四化”，因為我來自微軟，所以我對微軟的項目比較熟，我就用微軟的幾個項目給大家作一個簡單的介紹。

第一個是人工智能的大數(shù)據(jù)化。首先為大家介紹一下微軟認知服務(wù)，它是把微軟過去20幾年做的人工智能分支的好的技術(shù)，包括計算機視覺、語音、語言、知識和搜索的一些好的技術(shù)放在認知服務(wù)上去，這樣有什么好處呢？可能另外一家公司，或者在座的一些朋友，你想開發(fā)一個APP的時候，不用再重新開發(fā)，直接調(diào)用就成了�，F(xiàn)在是五個大類，包括大概二十幾個小類。

到底什么是微軟認知服務(wù)，為了給大家一個感性的概念，我給大家展示下幻燈片，這是去年（大概一年多以前）How-Old.net，這是個很好玩的一個游戲，但是這款游戲你要知道首先人臉在什么地方，其次它的性別是男是女，還有其次，他看上去今天多大了，不是年齡的估計，是顏齡的估計。因為有了這么一些很好的API，人工智能的API，在此基礎(chǔ)上進行程序調(diào)用，這個就寫出來了。這是一個很好的例子，站在API的基礎(chǔ)上寫出更好的APP。也有很多人上傳了很多圖片，包括靠你們左邊的，這是奧巴馬一家的圖片，當然這里面最高興的肯定是奧巴馬的太太，因為看上去只有三十幾歲，雖然她的歲數(shù)可能比這個大一點，但是顏齡比較低，比較年輕。靠右邊的其實是四十年前微軟剛成立的時候的一張圖片，今天微軟全球有11萬多名員工，但是剛成立的時候就是11個員工，連秘書加在一起，11個員工�？孔笙陆情L得比較英俊的小伙子就是比爾·蓋茨，看著就像23歲，其實他也就是23歲。微軟大家知道，其實是有兩個，一個是比爾·蓋茨，靠左下角，另外一個是保羅·艾倫，他的顏齡看上去有50多歲。除了人臉我們知道他的性別、顏齡。其實我們也很想知道，我們?nèi)祟愐彩且粯樱憧瓷先ソ裉煜才吩趺礃�？你是高興還是憤怒？還是有點困了？其實在去年年底的時候我們發(fā)布了第二個版本，就是可以把人類的一些情感也能估計出來，調(diào)用幾個API你就知道這個小孩是有一些吃驚。我們其實一直是有這么一個愿景，希望讓計算機能夠看到外面的世界。

      在2011年以前，深度學習沒有被引入計算機視覺之前，其實我們可以看到錯誤率大概在百分之二十幾，這是全球排第一的，一直到2012年的時候，深度學習被第一次引入計算機視覺，這個時候錯誤率大幅下降，到了百分之十幾，之后的幾年降到了10%以內(nèi)，比如像2014年前后。有一個斯坦福的博士生覺得，深度學習把錯誤率降低了不少，我如果是一個人來參加這么一個分類的比賽，我的錯誤率會是多少？大家不要小看一千類的物體分類，其實不簡單，為什么不簡單？我如果告訴大家這一千類物體里面有120種狗，你就知道這有多難了。我自己可能只認識四五種狗，吉娃娃等等，要把這120種都區(qū)分對不是容易的事。這名斯坦福的學生把自己關(guān)在一個屋子里訓練，他做了一個比賽，他的錯誤率達到5.1%，這就非常非常不簡單，我相信在座的各位，我們加在一起也達不到5.1%的錯誤率。直到去年年底的時候，我們做了一個很深的深度人工神經(jīng)元網(wǎng)絡(luò)，到152層，我們把錯誤率降到3.57%，這已經(jīng)超過了很多人的水平。
       2012年的時候，深度學習剛引入計算機視覺是八層，有人說是九層，其實有一層是隱含層，其實是八層。到2014年的時候，到了19。具體算法不聊太多，但是有一些思路上的東西，不是說從上一層直接連到下一層，而是跳過去。隔幾層以后再往下走，有一點像人的神經(jīng)元的連接一樣，規(guī)定是每一層單個連下去，有的時候會往前跳一下。因為這個新的結(jié)構(gòu)就使得去年我們在2015年ImageNet三個主要項目都拿到冠軍，而且要比第二名高出很多，這是新算法帶來的好處。除了我們讓計算機能夠看到一個圖片是屬于某一類的，比這個更難一點的是說，比如說他知道這個圖片里面有一只貓，更難的是說你知不知道那個貓在什么地方？不僅僅告訴你這里面有一只貓，我告訴你這只貓在圖片的左上角。所以物體檢測是比物體分類更難的事情。我想給大家看一下下面這個，比物體檢測再難一點的就是像素級別的物體分割，因為我們知道一個圖片有很多像素級別，每個像素是屬于這只貓，還是屬于這只貓邊上的草，每一個都要分類，這是更難的事情，從圖片分類到物體檢測，到像素級的物體分割，今天已經(jīng)可以做到這樣的程度。
       剛才說了那么多，為什么計算機視覺能夠做分類、做物體檢測、做像素級的物體分割？是因為我們?nèi)祟惿闪撕芏嗟臄?shù)據(jù)，這些數(shù)據(jù)被拿來訓練計算機，它才能夠有一定的智能，所以這是第一類叫做大數(shù)據(jù)化。第二類，其實我們很想讓人工智能有一定的自適應(yīng)性，比如說我給大家舉兩個例子，在座的可能有一半的人會經(jīng)常自拍，一些年輕的女士們經(jīng)常會自拍，拍的時候你下意識地要想一想，現(xiàn)在的光線是不是足夠亮？后面是不是有很亮的玻璃，比如在那兒拍，如果有很亮的玻璃，玻璃是看到了，但我的臉是黑的，每次自拍要操心一些事情。我們可不可以用人工智能的方法，寫出來一個有智能的API，讓人工智能的APP，讓這個APP去操心這些事情，不要讓用戶去操心這些事情。我們就做了一個微軟自拍，我們沒有投入任何的錢，一分錢都沒有投入，一個月下載量到了一百萬，完全是口口相傳，大家要感興趣的話，待會兒也可以去搜一下。它能做很多的東西，不僅僅是智能降噪、自然美顏等等。其實他知道你的年齡和性別，比如你是一位年輕的女士的話，它會給你美顏美得很好，甚至把你的嘴唇再修紅一點。但是如果是我拍的話，它知道我已經(jīng)很老了，沒有必要把我弄得那么漂亮，弄得漂亮我反而會不高興，所以我拍下來的是我本身的樣子。所有這些很智能的東西都已經(jīng)在這個APP里面，因為他知道外面的光線是什么樣、外面的噪聲是什么樣、這個用戶是男是女、是什么樣的年齡。
       大家可以去AppStore下載試試看，我自我感覺好像比市面上的要好一些，讓你操心的東西少一些。
       第二個，我想給大家舉一個例子是自適應(yīng)的人工智能。有一個很有意思的APP，我們叫做實時翻譯器。這是怎么來的呢？1966年的時候，在美國有一個連續(xù)的電影，叫《星際迷航》，我相信在座的可能也有不少朋友都看過這部電影。有很多《星際迷航》的影迷，每次電影出來，就把電影票買到了，在電影院前等著看�！缎请H迷航》是講不同的星迷去不同的星球探索。不用去另外一個星球，我們就在地球上去另外一個國家，其實你遇到的問題就是你語言可能不通，你怎么跟那個國家的人進行交流？當時在電影里面有一個，這邊這兩個人手里抓著一個東西，任何語言它都可以進行實時翻譯，不管你和來自另外一個星球的人講什么語言，它都可以進行翻譯。當然，這是一個科幻，但是我們這些做研發(fā)的人總是想把科幻變成現(xiàn)實。所以七八年以前我們就有一個項目，說有沒有辦法我們能夠做出一個系統(tǒng)，使得兩個說不同語言的人可以實時交互？這個是七八年以前開始做，大概在四五年以前（2010年）的時候就有了這么一個系統(tǒng)，在我們內(nèi)部進行了展示，2012年的時候，在二十一世紀的時候，我記得是在天津大禮堂，Rick Rashid這位老先生不會說中文，只會說英文，他當時是在天津大禮堂講，講著講著突然聽眾們發(fā)現(xiàn)他怎么會說中文了？因為就是實時的翻譯出現(xiàn)了，以他的方式用中文跟觀眾進行交互。2015年的時候我們把這項技術(shù)加到Skype里，今天這個技術(shù)已經(jīng)在skype上。如果想做到這件事情，我下邊會講具體的技術(shù)怎么做，在我講具體的技術(shù)之前，網(wǎng)上有一段小視頻，這是一個美國的攝影師在中國待了十來年，是一個背包客，走了三萬五千英里的路，經(jīng)常拍圖片、視頻。所以去每個地方都沒法跟當?shù)厝私涣�，有了這個以后，他的生活變得更加簡單一點。

很好的一個系統(tǒng)，但是如果為了做到這一點，必須有四個技術(shù)要做得非常非常好。哪四個技術(shù)呢？比如說小川只會說法語，他看起來像一個法國人，我只會說中文，我怎么跟小川進行交流呢？第一步，我的中文的音頻系統(tǒng)要被實時翻譯成中文的文字，并且要非常非常準。第二步，因為我跟他是日常的對話，不是在讀課文，我會一會兒嗯、啊等等，有的字會重復兩遍，或者說錯幾個字，第二個，要把說嗯、啊這些地方做翻譯，第三步被翻譯之后，很不錯的中文的文字已經(jīng)出來了，要實時把它翻譯成法文的文字，這個大家知道也很不容易。你去很多中餐館或者是一些中文和英文的翻譯，就看出來很多很多的笑話。第三步也是很難。第四步，我現(xiàn)在不是已經(jīng)有法文的文字出來了嗎？小川只能看見，聽不見，必須以我的發(fā)音的方式說出來這個法文，他能聽見，這四個缺一不可，并且這四個，你若是每一個只做到90%的正確率，系統(tǒng)是沒法用的，0.9×0.9×0.9×0.9，你算一下，很小了。時間關(guān)系我就不具體展開深度學習怎么做這件事情，但是我想請大家聽一段簡短的音頻，我特意選了這段音頻，因為這段音頻是一個中文和英文都有的，放在一起的。這個女士只會說英文，但是你們聽聽她說中文是不是也像她在說話。

其實她不會說中文，但是你合成出來她說中文就跟她說英文是一樣的，你知道這是同一個人在說話，就像我一會兒說英文，一會兒說中文，你覺得是我一個人在說話，其實可以做到這種水平，讓他說不同的語言是同一個人說出來的。這是我想說的第二個，叫做自適應(yīng)化。
第三個是人工智能的可穿戴化，我也想給大家舉兩個例子。剛才長水展示幾張圖片，其實你現(xiàn)在給計算機看幾張圖片，它會生成一些自然語言的文字，剛才我和小川在下面討論，他們也做了類似的系統(tǒng)。但是我們想一想，如果真的有一天我們的自然語言技術(shù)，我們的計算機視覺技術(shù)可以做到這么好，讓計算機看到這幅圖片以后，它會說一名男子正騰空而起，表演滑板。

除了剛才這個可穿戴設(shè)備以外，最近一個大家看到的微軟的設(shè)備就是Hololens，在網(wǎng)上有很多視頻，大家可以看，我請大家看這個視頻，這還不是一個產(chǎn)品，這還是在研究院內(nèi)部做的一個技術(shù)原形，挺有意思的，比如張老師在他的辦公室，他很忙，說不定沒有時間四個小時都坐在我們這個會議室，我們有沒有辦法把張老師放在這個座位上？

       四個柱子上都是有攝像頭的。他女兒在另外一個房間。兩個不同物理空間的人可以在同一個空間進行交互。這是第三個，我叫它可穿戴化。
       第四個，我叫它人和人工智能的關(guān)系。我特別同意張老師下午的演講，其實今天這個人工智能和人不是誰PK誰的問題。很形象、很發(fā)散的、很神來一筆的、很抽象的、很藝術(shù)的在這邊，計算機比我們強的是它的存儲功能很強、記憶能力很強。所以它是一個很好的左邊半個大腦的補充，我們?nèi)祟惛鼜姷臇|西，我們有意識、我們有想象力，我們有很多計算機不能理解的東西。其實今后的10年、20年不是人對抗機器的問題，而是人加上機器，使得我們?nèi)烁鼌柡Α?br /> 本次論壇由清華校友人工智能聯(lián)盟、清華靈云人工智能研究中心、北京捷通華聲科技股份有限公司等承辦。

       謝謝大家！

       靈云平臺更多信息：www.hcicloud.com">www.hcicloud.com
       體驗靈云客服機器人：010-82826886-8898

狼友视频首页入口|日韩无码精品视频|久久性爱香蕉视频|性生生活大片91|亚洲一码二码在线|欧美在线无码一区|舌l子伦熟妇qv

新聞資訊NEWS

“清華人工智能論壇”—芮勇博士《人工智能趨勢之四化》