企業(yè)「養(yǎng)」數(shù)據(jù)的六大要點(diǎn)
?
人工智能因大數(shù)據(jù)而重生,但制約人工智能在各領(lǐng)域?qū)崿F(xiàn)更廣泛應(yīng)用的,并不是演算法不夠先進(jìn),而是缺乏高品質(zhì)的數(shù)據(jù)。若想開發(fā)最先進(jìn)的機(jī)器學(xué)習(xí)技術(shù),能否獲得高品質(zhì)的訓(xùn)練數(shù)據(jù)極為關(guān)鍵,如何啟動(dòng)是大部分企業(yè)的一個(gè)難題。
?
對(duì)于從事機(jī)器學(xué)習(xí)研究的初創(chuàng)公司來(lái)說(shuō),起步時(shí)數(shù)據(jù)十分有限,難以建立起高品質(zhì)的大數(shù)據(jù)資源。甚至有些企業(yè)在聘請(qǐng)數(shù)據(jù)科學(xué)團(tuán)隊(duì)、購(gòu)置昂貴的設(shè)備之后,才知道還未制訂“養(yǎng)數(shù)據(jù)”的策略。
?
數(shù)據(jù)來(lái)源的選擇必定與商業(yè)模式相關(guān),我的經(jīng)驗(yàn)是,從小問(wèn)題入手,弄清楚問(wèn)題的本質(zhì),往往是選擇數(shù)據(jù)和演算法的前提。每家公司的數(shù)據(jù)獲取策略不盡相同,但回想這么多年我在阿里也算面對(duì)了不少類似的困難,拋磚引玉與大家分享幾點(diǎn):
?
1. 要從零開始創(chuàng)建好的專有數(shù)據(jù)集。
幾乎永遠(yuǎn)意味著,要預(yù)先投入大量人力收集數(shù)據(jù)。但更痛苦的是,在業(yè)務(wù)變化的同時(shí),數(shù)據(jù)結(jié)構(gòu)也需要時(shí)時(shí)更新,正如前輩所說(shuō):“數(shù)據(jù)集成的同時(shí)已經(jīng)在斷裂?!?/p>
?
2. 即使表面上擁有很多數(shù)據(jù),但在運(yùn)用機(jī)器學(xué)習(xí)時(shí),仍會(huì)發(fā)現(xiàn)數(shù)據(jù)量不足。
你需要的數(shù)據(jù)量與你試圖解決的問(wèn)題緊密相關(guān)。
?
3. 數(shù)據(jù)的收集、處理、運(yùn)用,短期來(lái)說(shuō)肯定是越貼近業(yè)務(wù)越有效率。
從長(zhǎng)遠(yuǎn)看并不利于數(shù)據(jù)的標(biāo)準(zhǔn)化及重復(fù)使用,將導(dǎo)致開發(fā)周期變得漫長(zhǎng)。我的經(jīng)驗(yàn)是,起點(diǎn)可以從最小化應(yīng)用做閉環(huán),基于眾多應(yīng)用做長(zhǎng)線規(guī)劃。
?
4. 確保早期創(chuàng)造的應(yīng)用有足夠的吸引力,讓業(yè)務(wù)方及使用者甘愿交出他們的數(shù)據(jù)。
讓大數(shù)據(jù)落地,除了關(guān)乎技術(shù)問(wèn)題,亦系于業(yè)務(wù)方及個(gè)人的意愿是否足夠,只有互利互惠,才有長(zhǎng)久合作。
?
5. 在大范圍使用大數(shù)據(jù)之前,必須嚴(yán)肅地面對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)和品質(zhì)問(wèn)題,否則后果堪憂。
數(shù)據(jù)驅(qū)動(dòng)型企業(yè)必須明白,數(shù)據(jù)品質(zhì)是全部員工的責(zé)任,并不僅僅是技術(shù)問(wèn)題。
?
6. 大數(shù)據(jù)安全是一個(gè)命門,數(shù)據(jù)越多,責(zé)任越大。
有時(shí)候會(huì)超出你的想象,原以為很安全的數(shù)據(jù),拼合其他數(shù)據(jù)之后,可能成為機(jī)密級(jí)別。
?
我曾經(jīng)對(duì)朋友說(shuō),我在阿里的數(shù)據(jù)治理過(guò)程可謂九死一生,很多人聽了不明白,看到上面的內(nèi)容,再設(shè)想我要面對(duì)幾十個(gè)不同業(yè)務(wù)方的情境,你可能就了解了吧。
?
出自:《數(shù)據(jù)的商戰(zhàn)策略》/天下雜志出版社(本文經(jīng)編修)