NEC日前宣佈,運用人工智慧(AI)發(fā)現(xiàn)混雜於巨量資料中複數(shù)規(guī)則的「異種混合機械學(xué)習(xí)」技術(shù)為基礎(chǔ),開發(fā)出更為強化的「分散版異種混合機械學(xué)習(xí)」技術(shù),這項技術(shù)能從超大規(guī)模資料中,以分散的運算系統(tǒng)產(chǎn)生預(yù)測模型。
 |
人工智慧(AI)「異種混合機械學(xué)習(xí)」強化版,為先前速度的110倍。 |
所謂的「異種混合機械學(xué)習(xí)」,是藉由巨量資料的分析與預(yù)測,再加上星期幾、天氣如何等條件,自動發(fā)現(xiàn)其中「資料的狀況分類」與「變數(shù)的組合」的技術(shù)。
過往,資料的範(fàn)例數(shù)量達到數(shù)千萬件以上、大於一臺電腦搭載記憶體容量的超大規(guī)模資料,要將其進行分析時,會另外再將資料分割後進行分析。另外,即使搭載高性能CPU(核心數(shù)增加等狀況)也有所極限,因此該如何改善大規(guī)模的資料分析效能,就是目前面臨的課題。
這次NEC所開發(fā)的技術(shù)「分散版異種混合機械學(xué)習(xí)」,是讓分散開來的不同電腦,各自進行異種混合機械學(xué)習(xí)的分析時,能夠同時將全體整合起來,只要增加電腦數(shù)量,龐大的資料也能不受限制的產(chǎn)生預(yù)測模型。舉例來說,大型金融機構(gòu)的結(jié)餘預(yù)測,或是大型電信業(yè)者的客戶解約數(shù)量預(yù)測,像這樣有數(shù)千萬件相關(guān)事例的超大規(guī)模資料,也能運用這次的新技術(shù)來進行分析。
由新技術(shù)來進行實證實驗的結(jié)果,與舊技術(shù)相比,AI的學(xué)習(xí)速度約提昇為原本的110倍,預(yù)測精準(zhǔn)度也提升了17%。NEC已在美國的Spark Summit 2016(6/6~6/8於美國舊金山),以及Hadoop Summit San Jose 2016(6/28~6/30於美國聖荷西)當(dāng)中,發(fā)表本技術(shù)相關(guān)內(nèi)容。此外,NEC針對本技術(shù)會持續(xù)更進一步開發(fā)研究,目標(biāo)在2018年3月將技術(shù)實用化。 (編輯部陳復(fù)霞整理)
技術(shù)背景
針對巨量資料迅速進行分析,在預(yù)測未來情形時也有所幫助,現(xiàn)在對如此技術(shù)的期待日益提升。NEC至今持續(xù)獨家開發(fā)並強化「異種混合機械學(xué)習(xí)」,這項AI技術(shù)能夠高度精確地進行巨量資料分析。
透過「異種混合機械學(xué)習(xí)」技術(shù),使資源可以有效運用,包含能源、水、食材的需求預(yù)測,為提昇物流管理效率的庫存需求預(yù)測,強化零售店舖管理的商品需求預(yù)測等情形,都能進行高精準(zhǔn)度且大規(guī)模的預(yù)測。
另一方面,「異種混合機械學(xué)習(xí)」技術(shù)發(fā)展到現(xiàn)階段,在運用超大規(guī)模資料學(xué)習(xí)時,會受到電腦記憶體容量、CPU 核心數(shù)限制等性能上的侷限,是目前面臨的課題。
這次所開發(fā)的「分散版異種混合機械學(xué)習(xí)」,是在分散的運算系統(tǒng)上能夠執(zhí)行異種混合機械學(xué)習(xí),即使資料事例數(shù)量有數(shù)千萬件以上的超大規(guī)模資料,只需增加電腦的數(shù)量,就能夠不受限制地藉由本技術(shù)來產(chǎn)生預(yù)測模型。
技術(shù)特色
1.開發(fā)出可適用於分散運算系統(tǒng)的演算法(手法)
開發(fā)出的分散版異種混合機械學(xué)習(xí)演算法,能同時使複數(shù)的電腦協(xié)作,從預(yù)測模型中學(xué)習(xí)。本演算法會將預(yù)測模型資訊(依據(jù)資料狀況分類與變數(shù)組合的資訊)與統(tǒng)合各個預(yù)測模型資訊後適用於獨創(chuàng)演算法的部份,由這兩者讓電腦們各自獨立學(xué)習(xí)後全體整合運用,產(chǎn)生高度精準(zhǔn)的預(yù)測模型。
2.開發(fā)出可在分散運算基礎(chǔ)Apache Spark上運行的軟體
作為分散運算系統(tǒng)基礎(chǔ)之一的Apache Spark,NEC開發(fā)出可在此系統(tǒng)基礎(chǔ)上運行分散版異種混合機械學(xué)習(xí)演算法的軟體。
本軟體會將所有分析對象的資料,分散配置給不同電腦的記憶體,之後不需再次分配或進行讀取,就能運行分散版異種混合機械學(xué)習(xí)演算法。藉由這樣的方式,與分析對象資料的通信或存取硬碟次數(shù),並不會因為電腦數(shù)量而隨之增加,更能發(fā)揮Spark的優(yōu)勢,在分散的不同記憶體上發(fā)揮最大的運算效能,因而能夠高速運行演算法。