學(xué)習(xí)啦>新聞資訊>職場(chǎng)>

企業(yè)大數(shù)據(jù)挖掘?yàn)閱T工構(gòu)建職場(chǎng)知識(shí)圖譜

時(shí)間: 學(xué)良775 分享

  微軟亞洲研究院有一位大名鼎鼎的個(gè)人助理,昵稱EDI(音同Eddie),從幫助員工預(yù)訂會(huì)議室到更新梳理公司內(nèi)部“八卦”信息,隨叫隨到全年無(wú)休;不僅如此,EDI對(duì)員工們的喜好也堪稱了如指掌,知道你最喜歡什么時(shí)候、最常在哪里開(kāi)會(huì),也知道你最關(guān)心哪些新聞。下面是有企業(yè)大數(shù)據(jù)挖掘 為員工構(gòu)建職場(chǎng)知識(shí)圖譜,歡迎參閱。

  企業(yè)大數(shù)據(jù)挖掘 為員工構(gòu)建職場(chǎng)知識(shí)圖譜

  職場(chǎng)知識(shí)圖譜

  EDI為何如此聰明?一方面,EDI擁有精準(zhǔn)的自然語(yǔ)言理解和對(duì)話能力;另一方面,利用深度學(xué)習(xí)和社交網(wǎng)絡(luò)融合等前沿技術(shù),EDI為每個(gè)用戶構(gòu)建了一張關(guān)于他們的職場(chǎng)知識(shí)圖譜。本文首先介紹如何構(gòu)建用戶的職場(chǎng)信息圖譜,這是EDI個(gè)人助理的“大腦”,后續(xù)文章將介紹如何賦予EDI自然語(yǔ)言理解和對(duì)話能力,讓它能為主人愉快地工作,歡迎有興趣的讀者繼續(xù)關(guān)注。

  “The more it has, the more it’s him.” 在英劇《黑鏡》第二季第一集當(dāng)中,女主人公通過(guò)和機(jī)器人對(duì)話的方式懷念自己逝去的男友。借助大數(shù)據(jù)的力量,這個(gè)機(jī)器人能夠從主人公男友的社交網(wǎng)絡(luò)甚至私人郵件中抽取和整合他的個(gè)人信息、關(guān)系網(wǎng)絡(luò)和語(yǔ)言習(xí)慣,構(gòu)建屬于這位男生的個(gè)性化知識(shí)圖譜,從而實(shí)現(xiàn)對(duì)他惟妙惟肖的模仿——如上圖臺(tái)詞所說(shuō),系統(tǒng)抓取到的信息越多,機(jī)器人模仿的語(yǔ)言行為就越和他本人相似。

  若說(shuō)《黑鏡》里的機(jī)器人是基于關(guān)于用戶的全方位知識(shí)圖譜,那么,本文要介紹的EDI 則專注于用戶的一個(gè)側(cè)面,即用戶的職場(chǎng)知識(shí)圖譜。

  在一個(gè)機(jī)構(gòu)里,我們把員工的職場(chǎng)知識(shí)圖譜叫做EDI Graph(Enterprise Deep Intelligence Graph),圖譜內(nèi)的信息包括員工的部門、技能、項(xiàng)目、文檔、時(shí)間、會(huì)議室和辦公室等,其中每條信息又有各自豐富的屬性,信息與信息之間也存在豐富的關(guān)聯(lián);這些信息的來(lái)源主要分為企業(yè)內(nèi)部數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)兩部分,其中,企業(yè)內(nèi)部數(shù)據(jù)主要包括內(nèi)部網(wǎng)頁(yè)、文檔、會(huì)議記錄、員工基本資料等數(shù)據(jù),互聯(lián)網(wǎng)數(shù)據(jù)則主要包括維基百科、學(xué)術(shù)論文、LinkedIn等公開(kāi)數(shù)據(jù)。如何將來(lái)自公司內(nèi)部、社交網(wǎng)絡(luò)、Web等不同來(lái)源的異構(gòu)數(shù)據(jù)進(jìn)行梳理和融合、構(gòu)成一張完整的職場(chǎng)知識(shí)圖譜,這是構(gòu)建EDI Graph的關(guān)鍵技術(shù)。只要有了圖譜,就能構(gòu)建EDI Bot,讓這個(gè)昵稱為EDI的機(jī)器人擁有“大腦”,能進(jìn)行理解和分析,了解每個(gè)員工的專長(zhǎng)以及從事的工作內(nèi)容,成為員工貼心的個(gè)人助理。

  與《黑鏡》里的機(jī)器人相似,EDI也是知道信息越多就越能了解人以及人與人之間的關(guān)系,越接近員工的工作知己。

  信息融合

  “EDI, where is BJW1?”

  對(duì)于同一件事,人們往往會(huì)有不同的表達(dá),這是人與機(jī)器的一大不同。舉例:“BJW1”是英文“北京微軟西1號(hào)樓“的簡(jiǎn)稱,但人們?cè)诓煌榫诚驴赡苓€有其他表達(dá)方式,比如“BJW-1”、“Beijing West 1”、“Microsoft Tower 1,Beijing,China”以及“微軟1號(hào)樓”等,這些表達(dá)上的差異無(wú)法用簡(jiǎn)單的字符串匹配或縮寫匹配的方式來(lái)完成相似度的計(jì)算。那么,EDI該如何知曉它們所指的其實(shí)是同一個(gè)地點(diǎn)呢?

  我們的做法是將這些千變?nèi)f化的表達(dá)看作不同的語(yǔ)言,通過(guò)機(jī)器翻譯技術(shù),找到詞與詞之間具有的某種翻譯關(guān)系,從而實(shí)現(xiàn)相似詞語(yǔ)的融合。

  首先,利用種子規(guī)則,找到信息中高準(zhǔn)確度的種子節(jié)點(diǎn)對(duì),利用種子節(jié)點(diǎn)對(duì)中屬性的不同表達(dá),構(gòu)建平行語(yǔ)料庫(kù)。之后,使用深度學(xué)習(xí)技術(shù)構(gòu)建翻譯模型,完成不同信息源之間的屬性“翻譯”。通過(guò)機(jī)器翻譯,不僅能計(jì)算簡(jiǎn)單字符串匹配無(wú)法計(jì)算的相似表達(dá),甚至還能計(jì)算不同語(yǔ)言中同一表達(dá)的相似度,讓EDI 能夠吸收消化更多更廣泛的信息來(lái)源,對(duì)用戶的表達(dá)做出更準(zhǔn)確的判斷。

  “Hi EDI, schedule a meeting with David now.”

  得到不同表達(dá)的相似度之后,如何精準(zhǔn)對(duì)應(yīng)也是一門學(xué)問(wèn)。例如,只要給個(gè)人助理EDI發(fā)送一條非常簡(jiǎn)潔的信息“幫我和David訂個(gè)會(huì)議室”,EDI就能幫助員工準(zhǔn)確預(yù)訂好會(huì)議室。然而只要打開(kāi)微軟員工目錄,就會(huì)發(fā)現(xiàn)名為David的員工大約有兩千名,EDI如何分辨他們并從中確定要和用戶開(kāi)會(huì)那個(gè)David究竟是哪一個(gè)呢?要知道,這兩千位名為David的員工,有些位于同一部門,甚至職務(wù)也都相同,這時(shí),單單通過(guò)機(jī)器翻譯得到的屬性相似度,可能無(wú)法做出正確的對(duì)應(yīng)。

  精確匹配的突破口在于不同David的職場(chǎng)知識(shí)圖譜,其網(wǎng)絡(luò)結(jié)構(gòu)也是不同的,我們使用協(xié)同訓(xùn)練(Co-Training)的方法,迭代地進(jìn)行圖結(jié)構(gòu)信息的匹配。在每一輪迭代中,首先利用當(dāng)前已匹配的實(shí)體對(duì),更新神經(jīng)網(wǎng)絡(luò)翻譯模型,并利用更新后的模型完成屬性間的相似度計(jì)算;同時(shí),根據(jù)當(dāng)前已匹配節(jié)點(diǎn)計(jì)算待匹配節(jié)點(diǎn)的公共相鄰節(jié)點(diǎn)對(duì),通過(guò)結(jié)合屬性匹配和圖結(jié)構(gòu),可以得到新的匹配集合,如此迭代直到收斂。

  簡(jiǎn)單說(shuō),EDI能將職場(chǎng)知識(shí)圖譜中同一個(gè)David的信息融合到一起,把不同的David放在各自節(jié)點(diǎn)上,然后通過(guò)參會(huì)歷史、項(xiàng)目合作、內(nèi)部的匯報(bào)關(guān)系等等,了解公司同事之間的遠(yuǎn)近,從而鎖定用戶真正想找的David,完成用戶交給的安排會(huì)議并預(yù)訂會(huì)議室的任務(wù)。

  信息分析與理解

  《黑鏡》中的機(jī)器人系統(tǒng)對(duì)主人公男友在社交網(wǎng)絡(luò)上的電郵、照片、視頻甚至聊天記錄進(jìn)行了深入的分析和學(xué)習(xí),從而實(shí)現(xiàn)對(duì)其惟妙惟肖的模仿。同樣,EDI在掌握豐富的信息之后,也需要進(jìn)一步分析和理解這些數(shù)據(jù),才能深入了解企業(yè)中的每一個(gè)員工。

  在一個(gè)企業(yè)中為員工構(gòu)建職場(chǎng)知識(shí)圖譜,最為基本也最為重要的一點(diǎn),就是構(gòu)建出每位員工的工作內(nèi)容時(shí)間線,通過(guò)時(shí)間線我們就可以了解到“who,when,what”,即:誰(shuí),在何時(shí),做過(guò)什么事情。

  有了這些結(jié)構(gòu)化的知識(shí),如果想知道誰(shuí)在做Cortana相關(guān)的項(xiàng)目,只需要問(wèn)“Who is working on Cortana?”,EDI就能給出你想要的答案。這對(duì)構(gòu)建企業(yè)智能應(yīng)用具有極為重要的意義。

  順帶指出,項(xiàng)目名稱的抽取也不簡(jiǎn)單。我們無(wú)法通過(guò)簡(jiǎn)單地標(biāo)注數(shù)據(jù)、訓(xùn)練模型或是基于規(guī)則的方法來(lái)進(jìn)行抽取,因?yàn)椴煌袠I(yè)、不同領(lǐng)域?qū)τ陧?xiàng)目的表述可能千變?nèi)f化,那么EDI是如何抽取出工作內(nèi)容以及相關(guān)項(xiàng)目的名稱呢?

  我們認(rèn)為,項(xiàng)目的名稱都是語(yǔ)義完整的短語(yǔ)——例如,在“微軟亞洲研究院在丹棱街5號(hào)”這句話里,“微軟亞洲研究院”就是一個(gè)語(yǔ)意完整的短語(yǔ)——于是,我們先從企業(yè)內(nèi)部的數(shù)據(jù)抽取出語(yǔ)意完整的短語(yǔ),再?gòu)倪@些短語(yǔ)中劃分出項(xiàng)目的名稱。在微軟內(nèi)部,各種文檔、網(wǎng)頁(yè)等總量在千萬(wàn)這個(gè)數(shù)量級(jí),而統(tǒng)計(jì)規(guī)則例如互信息、熵等,在數(shù)據(jù)量較大的時(shí)候可以有效地完成對(duì)短語(yǔ)的切分。因此,我們?cè)谶f歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network)模型中通過(guò)后驗(yàn)正則化(Posterior Regularization)引入互信息、熵等統(tǒng)計(jì)量定義的偏序切分規(guī)則,在完成短語(yǔ)劃分的同時(shí),得到其對(duì)應(yīng)的語(yǔ)意向量表示,最后通過(guò)度量語(yǔ)意信息來(lái)判斷其是否是一個(gè)項(xiàng)目的名稱。

  小結(jié)

  有了基于企業(yè)內(nèi)部和互聯(lián)網(wǎng)大數(shù)據(jù)構(gòu)建員工的職場(chǎng)知識(shí)圖譜EDI Graph,就能讓機(jī)器人個(gè)人助理EDI Bot擁有聰明的“大腦”,為用戶提供貼心的服務(wù)。我們將在后續(xù)的文章具體介紹EDI Graph怎么被運(yùn)用到機(jī)器人的工作場(chǎng)景中,以及怎樣通過(guò)平臺(tái)讓機(jī)器人獲得與人進(jìn)行自然語(yǔ)言對(duì)話的能力,敬請(qǐng)關(guān)注,也歡迎你就這一題目分享自己的見(jiàn)解和經(jīng)驗(yàn)。

  【大數(shù)據(jù)挖掘組】

  微軟亞洲研究院大數(shù)據(jù)挖掘組致力于從大數(shù)據(jù)中挖掘信息構(gòu)建海量知識(shí)圖譜,以提高人工智能應(yīng)用中的知識(shí)推理和自然語(yǔ)言理解能力。大數(shù)據(jù)挖掘組的研究方向包括數(shù)據(jù)挖掘、大數(shù)據(jù)、深度學(xué)習(xí)、自然語(yǔ)言處理、智能聊天機(jī)器人等。十多年來(lái),該組成員的研究成果對(duì)微軟的許多重要產(chǎn)品及應(yīng)用產(chǎn)生了深刻影響,包括人立方、微軟學(xué)術(shù)搜索、讀心機(jī)器人、微軟知識(shí)圖譜(Satori)、智能聊天機(jī)器人開(kāi)發(fā)平臺(tái)等。

  大數(shù)據(jù)挖掘組現(xiàn)招聘實(shí)習(xí)生,工作內(nèi)容涉及機(jī)器學(xué)習(xí)、大數(shù)據(jù)挖掘、自然語(yǔ)言處理等領(lǐng)域,工程和研究均可,根據(jù)個(gè)人興趣和能力確定工作內(nèi)容。要求編程能力較強(qiáng);有一定的溝通能力,有責(zé)任心;對(duì)機(jī)器學(xué)習(xí)、大數(shù)據(jù)挖掘、自然語(yǔ)言處理有熱情和興趣; 高質(zhì)量的完成工作;半年以上實(shí)習(xí)期。
猜你喜歡:

1.企業(yè)文化管理

2.企業(yè)勵(lì)志名言名句大全

3.鼓勵(lì)企業(yè)發(fā)展名言100句

企業(yè)大數(shù)據(jù)挖掘?yàn)閱T工構(gòu)建職場(chǎng)知識(shí)圖譜

微軟亞洲研究院有一位大名鼎鼎的個(gè)人助理,昵稱EDI(音同Eddie),從幫助員工預(yù)訂會(huì)議室到更新梳理公司內(nèi)部八卦信息,隨叫隨到全年無(wú)休;不僅如此,EDI對(duì)員工們的喜好也堪稱了如指掌,知道你最喜歡什么時(shí)候、最常在哪里開(kāi)會(huì),也知道你最關(guān)
推薦度:
點(diǎn)擊下載文檔文檔為doc格式
2653626