阿里開發(fā)AI謠言粉碎機(jī) 謠言識別準(zhǔn)確率達(dá)81% 判斷一個(gè)新聞?wù)婕僦恍枞?還可識別論文是否抄襲全球AI 人才分布情況[圖]

AI 2019-04-01 01:40

昨天，一篇《為拯救爸媽朋友圈，達(dá)摩院造了“謠言粉碎機(jī)”》的文章，在朋友圈刷屏，引來一片鼓掌叫好：“這下終于不用費(fèi)勁勸導(dǎo)爸媽了！”

文章說的是，阿里巴巴達(dá)摩院的科學(xué)家，造了一個(gè)謠言粉碎機(jī)，這是一個(gè)算法模型，可以識別真假新聞，未來也能應(yīng)用在各大領(lǐng)域。

這是怎樣一種算法？準(zhǔn)確率高嗎？真的可以終結(jié)謠言？記者聯(lián)系到了正在大洋彼岸的“謠言粉碎機(jī)”的創(chuàng)造者李泉志。

“粉碎機(jī)”的前生功能

是為記者提供可靠線索

《速轉(zhuǎn)！科學(xué)家發(fā)現(xiàn)：一味中藥48小時(shí)可殺死60%癌細(xì)胞!》《晚上喝白開水的朋友，再不看就晚了！》《專家說了，這樣?xùn)|西千萬別吃！》……

你有沒有收到過父母發(fā)來的這些“關(guān)懷”？又有多少次是抱著“算了算了，你開心就好”的心態(tài)結(jié)束話題？

“不能保證百分之百準(zhǔn)確，但基本可以判斷是否為謠言。”李泉志，達(dá)摩院NLP團(tuán)隊(duì)的核心成員之一，畢業(yè)于清華大學(xué)，后在美國獲得自然語言理解方向的博士學(xué)位，目前在達(dá)摩院的西雅圖辦公室工作。

在加入達(dá)摩院前，他曾是路透社重要的“情報(bào)官”：通過機(jī)器篩選成千上萬的網(wǎng)絡(luò)信息，為數(shù)千位一線記者提供可靠線索。

“AI謠言粉碎機(jī)”就是借助自然語言實(shí)現(xiàn)的。在剛剛結(jié)束的SemEval（自然語言處理領(lǐng)域的國際權(quán)威比賽，由國際計(jì)算語言學(xué)學(xué)會舉辦）全球語義測試中，“AI謠言粉碎機(jī)”創(chuàng)造了假新聞識別準(zhǔn)確率的新紀(jì)錄，達(dá)到了前所未有的81%。

判斷一個(gè)新聞?wù)婕?/p>

要分三個(gè)步驟

“AI謠言粉碎機(jī)”要怎么去判斷是否為謠言呢？李泉志說，分三步——

首先，該模型會找到最初的信息源，分析用戶畫像，包括：專業(yè)領(lǐng)域，此前傳播或轉(zhuǎn)發(fā)過什么，是個(gè)人還是機(jī)構(gòu)，注冊時(shí)間，活躍規(guī)律等，來判斷發(fā)布者是否“可靠”。最后根據(jù)不同態(tài)度的人群比例、各自的信譽(yù)度等信息，計(jì)算出此新聞的可信度。

第二步，尋找網(wǎng)上所有的信息源，看看鏈接的域名，是否來自可信網(wǎng)站，比如新華社、政府醫(yī)藥管理局等。

第三步，將正文里關(guān)鍵的論證提煉為知識點(diǎn)，與知識圖譜里的權(quán)威知識庫做匹配驗(yàn)證。如果毫無聯(lián)系、自相矛盾，減分。

李泉志解釋，“AI謠言粉碎機(jī)”會考慮一部分人類的想法，更多的則是 AI的運(yùn)用。人工智能有很多人類比不了的地方，比如當(dāng)一個(gè)流言在社交網(wǎng)站上傳播很快的時(shí)候，我們很難去判斷真假，不知道誰接收到了，是出于什么原因轉(zhuǎn)發(fā)，不同的人對此的評價(jià)是什么，而這些AI可以做到。“假如來一個(gè)流言，人可以通過網(wǎng)站去查證，但是AI可以快速把科學(xué)研究、新聞拉出來，加上后臺知識庫的對比，做一個(gè)驗(yàn)證。人腦中有基本判斷，但是沒有大型的知識庫。”李泉志說。

就拿“AI謠言粉碎機(jī)”的訓(xùn)練樣本來說，就要分至少兩個(gè)層面：首先拿底層的2億條信息，幾百萬條新聞，訓(xùn)練語言樣本；再將模型進(jìn)行謠言的真實(shí)性訓(xùn)練。“是一個(gè)復(fù)雜且費(fèi)時(shí)的過程。”李泉志表示。

誰制造謠言，論文是否抄襲

未來粉碎機(jī)還有更多功能

其實(shí)，要建這樣一個(gè)數(shù)據(jù)模型，并不容易。李泉志坦言，他在前一家公司就開始研究，到如今，也還需繼續(xù)完善。他們有一個(gè)小團(tuán)隊(duì)專門在研究這一技術(shù)，因?yàn)椋傮w來說這不是一個(gè)單獨(dú)能列出來的技術(shù)，是自然語言所有技術(shù)的綜合。

目前，該模型也并未應(yīng)用于阿里巴巴的任何業(yè)務(wù)中，李泉志坦言，數(shù)據(jù)模型需要不斷被“訓(xùn)練”，也需要得到社會的認(rèn)同，而這些，都不是短時(shí)間內(nèi)能解決的。

可以想象的是，“AI謠言粉碎機(jī)”未來將被應(yīng)用的多個(gè)場合。

比如，可以識別論文是否為抄襲，用技術(shù)從個(gè)人的寫作風(fēng)格、方法論、主題等多維度去判斷是否為抄襲。過去有人說某年輕作家后期的作品由人代筆，以后用AI就能分析得出結(jié)論。

另一方面，可以協(xié)助警方找到真正謠言的制造者。通過AI去追蹤傳播路徑，從傳播路徑中，將傳播分解，可以發(fā)現(xiàn)規(guī)律，比如傳播了哪些用戶，用戶是什么反應(yīng)，是簡單的轉(zhuǎn)發(fā)，還是贊成、反對，還是進(jìn)行了二次加工？

“當(dāng)然，該模型也還是需要更多的語言訓(xùn)練。比如有些用戶轉(zhuǎn)發(fā)時(shí)，說的是反話、諷刺，有些是隱喻，不知是否是真實(shí)的情緒表達(dá)，這些作為機(jī)器很難對此做出判斷，但是通過大量的訓(xùn)練，是可以實(shí)現(xiàn)的。”李泉志表示，他和團(tuán)隊(duì)會繼續(xù)研究該模型。

目前，全球人工智能人才約30萬人。其中產(chǎn)業(yè)人才約20萬人，大部分分布在各國AI產(chǎn)業(yè)的公司和科技巨頭中；學(xué)術(shù)及儲備人才約10萬人，分布在全球367所高校中。據(jù)統(tǒng)計(jì)，截止至2017年6月，全球人工智能初創(chuàng)企業(yè)共計(jì)2617家。美國占據(jù)1078家居首，中國以592家企業(yè)排名第二，其后分別是英國，以色列，加拿大等國家。其中，美國1078家人工智能企業(yè)約有78700名員工，中國592家公司中約有39200位員工，約為美國的50%。

目前，全球共有367所具有人工智能研究方向的高校，AI領(lǐng)域的人才數(shù)量約有10萬人。其中，有6000多名AI領(lǐng)域的學(xué)者，以及7萬余名AI相關(guān)專業(yè)在讀碩博研究生以及其他。每年AI相關(guān)領(lǐng)域碩博畢業(yè)生約2萬名。在這367所高校中，美國擁有168所，占據(jù)全球的45.7%，獨(dú)占鰲頭，加拿大、中國、印度、英國位于第二梯隊(duì)。

人工智能領(lǐng)域?qū)W術(shù)能力排在世界前20的學(xué)校中，美國占據(jù)14所；排名的前八個(gè)席位都為美國所占據(jù)。雄厚的學(xué)術(shù)研究實(shí)力，幫助美國在人工智能領(lǐng)域取得了首屈一指的地位。而其他國家，在學(xué)術(shù)能力上與美國差距巨大，如何發(fā)展AI教育，是值得思考的問題。

人工智能領(lǐng)域20所頂級高校

序號	學(xué)校名稱	國家	頂級學(xué)者數(shù)量	頂會論文數(shù)量
1	卡耐基梅隆大學(xué)	美國	111	638
2	加州大學(xué)伯克利分校	美國	48	285.1
3	華盛頓大學(xué)	美國	45	262.5
4	麻省理工學(xué)院	美國	48	235.2
5	斯坦福大學(xué)	美國	40	226.9
6	康奈爾大學(xué)	美國	46	212.8
7	佐治亞理工學(xué)院	美國	53	208.5
8	賓夕法尼亞大學(xué)	美國	29	184.4
9	多倫多大學(xué)	加拿大	39	164.1
10	伊利諾伊大學(xué)香檳分校	美國	44	161.6
11	南加州大學(xué)	美國	32	161.3
12	北京大學(xué)	中國	69	154.9
13	愛丁堡大學(xué)	英國	47	151.2
14	東京大學(xué)	日本	40	145.2
15	密歇根大學(xué)	美國	32	135.2
16	清華大學(xué)	中國	45	132.1
17	香港科技大學(xué)	中國	29	126.1
18	馬薩諸塞大學(xué)阿默斯特分校	美國	36	122.4
19	馬里蘭大學(xué)	美國	26	112.6
20	新加坡國立大學(xué)	新加坡	33	102.3

注：

1.頂尖學(xué)者數(shù)目是指2006-2017年間在人工智能領(lǐng)域頂級會議上發(fā)表至少一篇論文的學(xué)者數(shù)目

2.頂會論文數(shù)目是指2006-2017年間該校學(xué)者在人工智能頂級會議上發(fā)表的論文總數(shù)目，論文數(shù)目由論文合作人數(shù)調(diào)整得出。頂級會議是指AI領(lǐng)域的最高國際學(xué)術(shù)會議，也是全世界科學(xué)家參與和關(guān)注最多的會議。

從國別來看，AI產(chǎn)業(yè)人才主要分布在美國、中國及其他國家的企業(yè)中。以在初創(chuàng)企業(yè)工作的AI人才為例來看。截至2017年6月，全球人工智能初創(chuàng)企業(yè)共計(jì)2617家。美國占據(jù)1078家居首，中國以592家企業(yè)排名第二，其后分別是英國，以色列，加拿大等國家。其中，美國1078家人工智能初創(chuàng)企業(yè)約有78700名員工，中國592家公司中約有39200位員工，只有美國的50%。美國人工智能初創(chuàng)企業(yè)主要以1-10人和10-50人的團(tuán)隊(duì)為主，這種小型團(tuán)隊(duì)共759個(gè)，占據(jù)全美的70.41%，是美國AI初創(chuàng)公司的主力軍；中國人工智能初創(chuàng)企業(yè)主要是10-50人的團(tuán)隊(duì)，總量384個(gè)，占據(jù)全國的64.86%?？梢哉f，美國的小型創(chuàng)業(yè)團(tuán)隊(duì)規(guī)模比中國小。在需要同等技術(shù)的情況下，美國團(tuán)隊(duì)的平均能力和可創(chuàng)造價(jià)值高于中國團(tuán)隊(duì)。

人工智能企業(yè)擁有數(shù)量TOP5