狼友视频首页入口|日韩无码精品视频|久久性爱香蕉视频|性生生活大片91|亚洲一码二码在线|欧美在线无码一区|舌l子伦熟妇qv

北京捷通華聲科技股份有限公司——全方位人工智能技術(shù)與服務(wù)提供商

新聞資訊NEWS

北京捷通華聲科技股份有限公司——全方位人工智能技術(shù)與服務(wù)提供商

“清華人工智能論壇”—芮勇博士《人工智能趨勢之四化》

 發(fā)布于:2016-06-15 14:47   瀏覽:
導讀:2016年6月6日,清華人工智能論壇在清華園成功舉辦,清華大學副校長薛其坤院士與張鈸院士、馬少平、張長水教授等來自清華大學人工智能領(lǐng)域的多位權(quán)威專家、芮勇、王小川、張連毅等杰出清華校友企業(yè)代表,和學術(shù)界、產(chǎn)業(yè)界、資本界等社會各界近500多人相聚清華園,縱論人工智能。本屆論壇充分展現(xiàn)出了清華大學在人工智能領(lǐng)域強大、領(lǐng)先的學術(shù)、產(chǎn)業(yè)實力,與客觀務(wù)實、創(chuàng)新進取的風貌,引發(fā)了人工智能界的廣泛關(guān)注與轟動。
        本文內(nèi)容選自微軟亞洲研究院常務(wù)副院長芮勇博士于本屆論壇上所做的題為《人工智能趨勢之四化》的演講。他認為未來人工智能的發(fā)展趨勢是大數(shù)據(jù)化、自適應(yīng)化、可穿戴化和增強化,演講全文如下:
       我為什么取這個題目呢?什么叫人工智能趨勢之四化。因為到這個時候大家都很困惑,起一個稍微應(yīng)景的題目。今年是“人工智能”這個詞被造出來的第61年,61年前沒有,這個詞最開始出現(xiàn)是在1956年。
       四化,第一個是人工智能的大數(shù)據(jù)化,這么多人類產(chǎn)生各種數(shù)據(jù),讓它訓練機器,使得機器有更多的智能。第二個希望人工智能能夠自適應(yīng)化。第三個,越來越多可穿戴化,我們戴手表也好,甚至穿的衣服上每一根線。第四個就是人和人工智能的關(guān)系到底是什么?我個人覺得人工智能是一個很強的工具,為人類增強服務(wù),還談不到跟我們?nèi)祟愊鄬梗沁很遙遠。接下來我會給大家一一介紹這“四化”,因為我來自微軟,所以我對微軟的項目比較熟,我就用微軟的幾個項目給大家作一個簡單的介紹。
       第一個是人工智能的大數(shù)據(jù)化。首先為大家介紹一下微軟認知服務(wù),它是把微軟過去20幾年做的人工智能分支的好的技術(shù),包括計算機視覺、語音、語言、知識和搜索的一些好的技術(shù)放在認知服務(wù)上去,這樣有什么好處呢?可能另外一家公司,或者在座的一些朋友,你想開發(fā)一個APP的時候,不用再重新開發(fā),直接調(diào)用就成了,F(xiàn)在是五個大類,包括大概二十幾個小類。
      到底什么是微軟認知服務(wù),為了給大家一個感性的概念,我給大家展示下幻燈片,這是去年(大概一年多以前)How-Old.net,這是個很好玩的一個游戲,但是這款游戲你要知道首先人臉在什么地方,其次它的性別是男是女,還有其次,他看上去今天多大了,不是年齡的估計,是顏齡的估計。因為有了這么一些很好的API,人工智能的API,在此基礎(chǔ)上進行程序調(diào)用,這個就寫出來了。這是一個很好的例子,站在API的基礎(chǔ)上寫出更好的APP。也有很多人上傳了很多圖片,包括靠你們左邊的,這是奧巴馬一家的圖片,當然這里面最高興的肯定是奧巴馬的太太,因為看上去只有三十幾歲,雖然她的歲數(shù)可能比這個大一點,但是顏齡比較低,比較年輕。靠右邊的其實是四十年前微軟剛成立的時候的一張圖片,今天微軟全球有11萬多名員工,但是剛成立的時候就是11個員工,連秘書加在一起,11個員工?孔笙陆情L得比較英俊的小伙子就是比爾·蓋茨,看著就像23歲,其實他也就是23歲。微軟大家知道,其實是有兩個,一個是比爾·蓋茨,靠左下角,另外一個是保羅·艾倫,他的顏齡看上去有50多歲。除了人臉我們知道他的性別、顏齡。其實我們也很想知道,我們?nèi)祟愐彩且粯樱憧瓷先ソ裉煜才吩趺礃?你是高興還是憤怒?還是有點困了?其實在去年年底的時候我們發(fā)布了第二個版本,就是可以把人類的一些情感也能估計出來,調(diào)用幾個API你就知道這個小孩是有一些吃驚。我們其實一直是有這么一個愿景,希望讓計算機能夠看到外面的世界。
      在2011年以前,深度學習沒有被引入計算機視覺之前,其實我們可以看到錯誤率大概在百分之二十幾,這是全球排第一的,一直到2012年的時候,深度學習被第一次引入計算機視覺,這個時候錯誤率大幅下降,到了百分之十幾,之后的幾年降到了10%以內(nèi),比如像2014年前后。有一個斯坦福的博士生覺得,深度學習把錯誤率降低了不少,我如果是一個人來參加這么一個分類的比賽,我的錯誤率會是多少?大家不要小看一千類的物體分類,其實不簡單,為什么不簡單?我如果告訴大家這一千類物體里面有120種狗,你就知道這有多難了。我自己可能只認識四五種狗,吉娃娃等等,要把這120種都區(qū)分對不是容易的事。這名斯坦福的學生把自己關(guān)在一個屋子里訓練,他做了一個比賽,他的錯誤率達到5.1%,這就非常非常不簡單,我相信在座的各位,我們加在一起也達不到5.1%的錯誤率。直到去年年底的時候,我們做了一個很深的深度人工神經(jīng)元網(wǎng)絡(luò),到152層,我們把錯誤率降到3.57%,這已經(jīng)超過了很多人的水平。 
       2012年的時候,深度學習剛引入計算機視覺是八層,有人說是九層,其實有一層是隱含層,其實是八層。到2014年的時候,到了19。具體算法不聊太多,但是有一些思路上的東西,不是說從上一層直接連到下一層,而是跳過去。隔幾層以后再往下走,有一點像人的神經(jīng)元的連接一樣,規(guī)定是每一層單個連下去,有的時候會往前跳一下。因為這個新的結(jié)構(gòu)就使得去年我們在2015年ImageNet三個主要項目都拿到冠軍,而且要比第二名高出很多,這是新算法帶來的好處。除了我們讓計算機能夠看到一個圖片是屬于某一類的,比這個更難一點的是說,比如說他知道這個圖片里面有一只貓,更難的是說你知不知道那個貓在什么地方?不僅僅告訴你這里面有一只貓,我告訴你這只貓在圖片的左上角。所以物體檢測是比物體分類更難的事情。我想給大家看一下下面這個,比物體檢測再難一點的就是像素級別的物體分割,因為我們知道一個圖片有很多像素級別,每個像素是屬于這只貓,還是屬于這只貓邊上的草,每一個都要分類,這是更難的事情,從圖片分類到物體檢測,到像素級的物體分割,今天已經(jīng)可以做到這樣的程度。 
       剛才說了那么多,為什么計算機視覺能夠做分類、做物體檢測、做像素級的物體分割?是因為我們?nèi)祟惿闪撕芏嗟臄?shù)據(jù),這些數(shù)據(jù)被拿來訓練計算機,它才能夠有一定的智能,所以這是第一類叫做大數(shù)據(jù)化。第二類,其實我們很想讓人工智能有一定的自適應(yīng)性,比如說我給大家舉兩個例子,在座的可能有一半的人會經(jīng)常自拍,一些年輕的女士們經(jīng)常會自拍,拍的時候你下意識地要想一想,現(xiàn)在的光線是不是足夠亮?后面是不是有很亮的玻璃,比如在那兒拍,如果有很亮的玻璃,玻璃是看到了,但我的臉是黑的,每次自拍要操心一些事情。我們可不可以用人工智能的方法,寫出來一個有智能的API,讓人工智能的APP,讓這個APP去操心這些事情,不要讓用戶去操心這些事情。我們就做了一個微軟自拍,我們沒有投入任何的錢,一分錢都沒有投入,一個月下載量到了一百萬,完全是口口相傳,大家要感興趣的話,待會兒也可以去搜一下。它能做很多的東西,不僅僅是智能降噪、自然美顏等等。其實他知道你的年齡和性別,比如你是一位年輕的女士的話,它會給你美顏美得很好,甚至把你的嘴唇再修紅一點。但是如果是我拍的話,它知道我已經(jīng)很老了,沒有必要把我弄得那么漂亮,弄得漂亮我反而會不高興,所以我拍下來的是我本身的樣子。所有這些很智能的東西都已經(jīng)在這個APP里面,因為他知道外面的光線是什么樣、外面的噪聲是什么樣、這個用戶是男是女、是什么樣的年齡。 
       大家可以去AppStore下載試試看,我自我感覺好像比市面上的要好一些,讓你操心的東西少一些。 
       第二個,我想給大家舉一個例子是自適應(yīng)的人工智能。有一個很有意思的APP,我們叫做實時翻譯器。這是怎么來的呢?1966年的時候,在美國有一個連續(xù)的電影,叫《星際迷航》,我相信在座的可能也有不少朋友都看過這部電影。有很多《星際迷航》的影迷,每次電影出來,就把電影票買到了,在電影院前等著看!缎请H迷航》是講不同的星迷去不同的星球探索。不用去另外一個星球,我們就在地球上去另外一個國家,其實你遇到的問題就是你語言可能不通,你怎么跟那個國家的人進行交流?當時在電影里面有一個,這邊這兩個人手里抓著一個東西,任何語言它都可以進行實時翻譯,不管你和來自另外一個星球的人講什么語言,它都可以進行翻譯。當然,這是一個科幻,但是我們這些做研發(fā)的人總是想把科幻變成現(xiàn)實。所以七八年以前我們就有一個項目,說有沒有辦法我們能夠做出一個系統(tǒng),使得兩個說不同語言的人可以實時交互?這個是七八年以前開始做,大概在四五年以前(2010年)的時候就有了這么一個系統(tǒng),在我們內(nèi)部進行了展示,2012年的時候,在二十一世紀的時候,我記得是在天津大禮堂,Rick Rashid這位老先生不會說中文,只會說英文,他當時是在天津大禮堂講,講著講著突然聽眾們發(fā)現(xiàn)他怎么會說中文了?因為就是實時的翻譯出現(xiàn)了,以他的方式用中文跟觀眾進行交互。2015年的時候我們把這項技術(shù)加到Skype里,今天這個技術(shù)已經(jīng)在skype上。如果想做到這件事情,我下邊會講具體的技術(shù)怎么做,在我講具體的技術(shù)之前,網(wǎng)上有一段小視頻,這是一個美國的攝影師在中國待了十來年,是一個背包客,走了三萬五千英里的路,經(jīng)常拍圖片、視頻。所以去每個地方都沒法跟當?shù)厝私涣,有了這個以后,他的生活變得更加簡單一點。
       很好的一個系統(tǒng),但是如果為了做到這一點,必須有四個技術(shù)要做得非常非常好。哪四個技術(shù)呢?比如說小川只會說法語,他看起來像一個法國人,我只會說中文,我怎么跟小川進行交流呢?第一步,我的中文的音頻系統(tǒng)要被實時翻譯成中文的文字,并且要非常非常準。第二步,因為我跟他是日常的對話,不是在讀課文,我會一會兒嗯、啊等等,有的字會重復兩遍,或者說錯幾個字,第二個,要把說嗯、啊這些地方做翻譯,第三步被翻譯之后,很不錯的中文的文字已經(jīng)出來了,要實時把它翻譯成法文的文字,這個大家知道也很不容易。你去很多中餐館或者是一些中文和英文的翻譯,就看出來很多很多的笑話。第三步也是很難。第四步,我現(xiàn)在不是已經(jīng)有法文的文字出來了嗎?小川只能看見,聽不見,必須以我的發(fā)音的方式說出來這個法文,他能聽見,這四個缺一不可,并且這四個,你若是每一個只做到90%的正確率,系統(tǒng)是沒法用的,0.9×0.9×0.9×0.9,你算一下,很小了。時間關(guān)系我就不具體展開深度學習怎么做這件事情,但是我想請大家聽一段簡短的音頻,我特意選了這段音頻,因為這段音頻是一個中文和英文都有的,放在一起的。這個女士只會說英文,但是你們聽聽她說中文是不是也像她在說話。
       其實她不會說中文,但是你合成出來她說中文就跟她說英文是一樣的,你知道這是同一個人在說話,就像我一會兒說英文,一會兒說中文,你覺得是我一個人在說話,其實可以做到這種水平,讓他說不同的語言是同一個人說出來的。這是我想說的第二個,叫做自適應(yīng)化。
       第三個是人工智能的可穿戴化,我也想給大家舉兩個例子。剛才長水展示幾張圖片,其實你現(xiàn)在給計算機看幾張圖片,它會生成一些自然語言的文字,剛才我和小川在下面討論,他們也做了類似的系統(tǒng)。但是我們想一想,如果真的有一天我們的自然語言技術(shù),我們的計算機視覺技術(shù)可以做到這么好,讓計算機看到這幅圖片以后,它會說一名男子正騰空而起,表演滑板。
      除了剛才這個可穿戴設(shè)備以外,最近一個大家看到的微軟的設(shè)備就是Hololens,在網(wǎng)上有很多視頻,大家可以看,我請大家看這個視頻,這還不是一個產(chǎn)品,這還是在研究院內(nèi)部做的一個技術(shù)原形,挺有意思的,比如張老師在他的辦公室,他很忙,說不定沒有時間四個小時都坐在我們這個會議室,我們有沒有辦法把張老師放在這個座位上?
       四個柱子上都是有攝像頭的。他女兒在另外一個房間。兩個不同物理空間的人可以在同一個空間進行交互。這是第三個,我叫它可穿戴化。
       第四個,我叫它人和人工智能的關(guān)系。我特別同意張老師下午的演講,其實今天這個人工智能和人不是誰PK誰的問題。很形象、很發(fā)散的、很神來一筆的、很抽象的、很藝術(shù)的在這邊,計算機比我們強的是它的存儲功能很強、記憶能力很強。所以它是一個很好的左邊半個大腦的補充,我們?nèi)祟惛鼜姷臇|西,我們有意識、我們有想象力,我們有很多計算機不能理解的東西。其實今后的10年、20年不是人對抗機器的問題,而是人加上機器,使得我們?nèi)烁鼌柡Α?br /> 本次論壇由清華校友人工智能聯(lián)盟、清華靈云人工智能研究中心、北京捷通華聲科技股份有限公司等承辦。
 
       謝謝大家!
      
       靈云平臺更多信息:
www.hcicloud.com">www.hcicloud.com
       體驗靈云客服機器人:010-82826886-8898