隨著各企業(yè)組織收集越來(lái)越龐大而多樣的數(shù)據(jù)集,對(duì)技術(shù)優(yōu)良的數(shù)據(jù)科學(xué)家的需求將持續(xù)升高。《哈佛商業(yè)評(píng)論》將這種工作稱為「21世紀(jì)最誘人的職位空缺」。
可惜,這個(gè)職務(wù)的日常實(shí)際狀況,并不符合經(jīng)過(guò)浪漫美化的說(shuō)法。
從2012年起,我的同事和我開(kāi)始仔細(xì)檢視數(shù)據(jù)科學(xué)家的親身經(jīng)驗(yàn)。在斯坦福大學(xué),我對(duì)25家企業(yè)的數(shù)據(jù)分析師進(jìn)行35次訪談,這些企業(yè)涵蓋各種行業(yè),包括醫(yī)療保健、零售、營(yíng)銷和金融。之后,我又和另外200-300位分析師談話。我們發(fā)現(xiàn),這些分析師的時(shí)間大多花在運(yùn)用各種方式來(lái)處理數(shù)據(jù),包括探索數(shù)據(jù)、架構(gòu)數(shù)據(jù),以及建立數(shù)據(jù)環(huán)境。
換句話說(shuō),他們的時(shí)間大多花在把數(shù)據(jù)轉(zhuǎn)化為可用形式,而非尋找數(shù)據(jù)蘊(yùn)含的意義。
沒(méi)錯(cuò),這起源于分析法的正向改變。盡管企業(yè)曾經(jīng)緊密掌控?cái)?shù)據(jù)倉(cāng)儲(chǔ),但它們現(xiàn)在轉(zhuǎn)向較為靈活的分析環(huán)境,因?yàn)槠髽I(yè)渴望采取數(shù)據(jù)導(dǎo)向的決策方式,因此需要不同類型的工作。如今,數(shù)據(jù)質(zhì)量不再是一項(xiàng)根本的事實(shí),而是取決于分析工作的目標(biāo)。探索式分析法和可視化,都要求分析師動(dòng)態(tài)存取不同形式的不同數(shù)據(jù)源。
問(wèn)題在于,大部分組織不是為了這個(gè)目的而設(shè)立。在傳統(tǒng)的數(shù)據(jù)倉(cāng)儲(chǔ)環(huán)境中,當(dāng)數(shù)據(jù)被加載倉(cāng)儲(chǔ)時(shí),信息科技團(tuán)隊(duì)會(huì)架構(gòu)數(shù)據(jù)和設(shè)計(jì)綱要,然后主要負(fù)責(zé)確保嚴(yán)守的數(shù)據(jù)質(zhì)量規(guī)則。雖然這種預(yù)先設(shè)計(jì)和架構(gòu)很昂貴,但多年來(lái)一直運(yùn)作得相當(dāng)好。不過(guò),隨著企業(yè)處理的數(shù)據(jù)集越來(lái)越龐大和復(fù)雜,這種管理數(shù)據(jù)的舊方式并不實(shí)際。
為跟上腳步,大部分企業(yè)組織目前會(huì)視需要來(lái)儲(chǔ)存原始數(shù)據(jù)和設(shè)計(jì)架構(gòu),在使用數(shù)據(jù)時(shí)、而非加載數(shù)據(jù)時(shí),才設(shè)計(jì)綱要和不同數(shù)據(jù)集之間的關(guān)系。這種變動(dòng),不僅讓數(shù)據(jù)分析師擁有更大的彈性,來(lái)尋找非預(yù)期的見(jiàn)解,同時(shí)也將耗費(fèi)時(shí)間的探索、架構(gòu)和整理的責(zé)任,完全放在數(shù)據(jù)分析師身上。
我們?cè)?012年對(duì)數(shù)據(jù)分析師所作的研究調(diào)查中,將數(shù)據(jù)科學(xué)的流程分為五個(gè)高端工作:探索、爭(zhēng)論、描繪概況、建立模型和產(chǎn)生報(bào)告。大部分的分析和可視化工具,都把焦點(diǎn)放在這個(gè)工作流程的最后兩個(gè)階段??上?,大部分?jǐn)?shù)據(jù)分析師的時(shí)間都花在前三個(gè)階段。
前三個(gè)階段的工作包括:尋找與特定分析工作相關(guān)的數(shù)據(jù)、格式化和驗(yàn)證數(shù)據(jù)以符合數(shù)據(jù)庫(kù)和可視化工具的需求、判斷數(shù)據(jù)是否有質(zhì)量問(wèn)題,以及了解數(shù)據(jù)中各種不同領(lǐng)域的特性。在這些階段,數(shù)據(jù)科學(xué)家會(huì)遇到許多挑戰(zhàn),例如,有些數(shù)據(jù)集可能會(huì)有遺漏和錯(cuò)誤的值,或是有極端值。這些工作往往需要以Python和Perl等「腳本」程序語(yǔ)言,來(lái)撰寫(xiě)不同尋常的程序,或是使用微軟Excel等工具進(jìn)行廣泛的手動(dòng)編輯。但如果沒(méi)有發(fā)現(xiàn)數(shù)據(jù)有問(wèn)題,這可能造成之前所作的假設(shè)是錯(cuò)誤的或誤導(dǎo)的;有40%的業(yè)務(wù)計(jì)劃未能達(dá)到目標(biāo)成效,主要原因就是數(shù)據(jù)質(zhì)量不佳。
因此,杰出數(shù)據(jù)科學(xué)家的技能通常都浪費(fèi)掉了,因?yàn)樗麄兠τ趶氖碌碗A的數(shù)據(jù)整理工作,或者當(dāng)他們無(wú)法快速存取自己需要的數(shù)據(jù)時(shí),他們也無(wú)法好好發(fā)揮才能。這造成重大的瓶頸,當(dāng)數(shù)據(jù)從 Hadoop等數(shù)據(jù)儲(chǔ)存庫(kù),轉(zhuǎn)移到能產(chǎn)生更好見(jiàn)解的分析工具時(shí),拖慢了數(shù)據(jù)流動(dòng)的速度。在數(shù)據(jù)倉(cāng)儲(chǔ)和分析項(xiàng)目中,數(shù)據(jù)整理和準(zhǔn)備工作,可能要花50-80%的開(kāi)發(fā)時(shí)間和成本。
企業(yè)沒(méi)有解決這些問(wèn)題,反而經(jīng)常擴(kuò)大需要數(shù)據(jù)科學(xué)家注意的數(shù)據(jù)量。通過(guò)活動(dòng)和系統(tǒng)日志、第三方應(yīng)用程序編程接口和供貨商、其他可公開(kāi)取得的數(shù)據(jù),企業(yè)能夠取得越來(lái)越龐大和多樣的數(shù)據(jù)源。但若沒(méi)有設(shè)立適當(dāng)?shù)南到y(tǒng),操控處理數(shù)據(jù)所導(dǎo)致的超高成本,將會(huì)讓大部分?jǐn)?shù)據(jù)靜靜躺在「數(shù)據(jù)湖」中,無(wú)法使用。
此外,若是讓數(shù)據(jù)分析成為許多部門的核心業(yè)務(wù)功能,技能良好的分析師和信息人員就無(wú)法進(jìn)行分析工作,而必須把大半的時(shí)間,用來(lái)協(xié)助其他人通過(guò)低階程序設(shè)計(jì)去取得他們需要的數(shù)據(jù)。
根據(jù)研究暨顧問(wèn)機(jī)構(gòu)顧能公司(Gartner),在2014年,有64%的大型企業(yè)準(zhǔn)備實(shí)施大數(shù)據(jù)項(xiàng)目,但85%的《財(cái)星》雜志五百大企業(yè)將無(wú)法成功實(shí)施。罪魁禍?zhǔn)讘?yīng)該是這些耗時(shí)的數(shù)據(jù)準(zhǔn)備作業(yè)。它們不僅束縛了數(shù)據(jù)科學(xué)家,讓他們無(wú)法充分發(fā)揮,而且大幅降低大數(shù)據(jù)計(jì)劃成功的機(jī)率。
如果我們期望充分運(yùn)用大數(shù)據(jù),就需要提升數(shù)據(jù)準(zhǔn)備作業(yè),擺脫目前構(gòu)成整個(gè)流程的手動(dòng)、累贅作業(yè)。數(shù)據(jù)科學(xué)家必須能夠更靈活地轉(zhuǎn)換數(shù)據(jù),而不只是手動(dòng)準(zhǔn)備數(shù)據(jù)以便進(jìn)行分析。各領(lǐng)域的專家必須要能夠探索不同數(shù)據(jù)集之間的更深刻關(guān)系,而不是讓程序設(shè)計(jì)師或數(shù)據(jù)分析師長(zhǎng)時(shí)間參與,結(jié)果稀釋了數(shù)據(jù)。
最后一點(diǎn)是,分析數(shù)據(jù)的目標(biāo)不只是取得見(jiàn)解,還有改進(jìn)業(yè)務(wù)流程。成功的分析可以促成產(chǎn)品和營(yíng)運(yùn)的進(jìn)步,為組織帶來(lái)價(jià)值,但前提是,負(fù)責(zé)處理數(shù)據(jù)的人員要能花更多時(shí)間尋找見(jiàn)解。如果我們希望數(shù)據(jù)分析擴(kuò)展的速度,能像儲(chǔ)存和處理數(shù)據(jù)的技術(shù)進(jìn)展的那么快,就必須要讓數(shù)據(jù)科學(xué)家的生活變得更加有趣。