水務企業(yè)大數(shù)據(jù)中心建設之數(shù)據(jù)入倉
全康環(huán)保:2019年以來,深水集團、杭州水務集團、重慶水務集團、蘇州水務集團、鄭州供水等眾多大、中型水務企業(yè)相繼啟動了數(shù)據(jù)治理和大數(shù)據(jù)中心建設項目,水務行業(yè)如此密集地開展數(shù)據(jù)治理和數(shù)據(jù)中心建設,智慧水務的建設重心逐步發(fā)展變化:由建設營收、GIS、SCADA等MIS系統(tǒng)為主的業(yè)務數(shù)據(jù)化,逐步轉(zhuǎn)變至以數(shù)據(jù)治理和大數(shù)據(jù)為主的數(shù)據(jù)業(yè)務化;由偏向于數(shù)據(jù)的生產(chǎn)轉(zhuǎn)為更注重數(shù)據(jù)資源的管理和數(shù)據(jù)資產(chǎn)化,水務行業(yè)數(shù)字化轉(zhuǎn)型迎來新的發(fā)展階段。
圖1 數(shù)據(jù)治理及大數(shù)據(jù)中心建設是熱點
在杭州水務集團、鄭州供水、蘇州水務集團、江蘇中法水務等多家水務企業(yè)的數(shù)據(jù)治理及大數(shù)據(jù)中心建設工作中,數(shù)據(jù)倉庫建模方法論是一致的,但由于水務行業(yè)特性、業(yè)務場景的不同,在不同的水務企業(yè),基于大數(shù)據(jù)的數(shù)據(jù)倉庫建設無法按照統(tǒng)一的項目流程、開發(fā)模式進行,更多的是需要根據(jù)具體的業(yè)務場景結(jié)合新的技術體系進行靈活調(diào)整,以滿足水務企業(yè)的實際情況和具體需求。
圖2 某水務集團數(shù)據(jù)倉庫工作歷程
在實際數(shù)據(jù)倉庫建設中,考慮到底層建設的工作量大,過程時間長,內(nèi)容比較抽象、不易理解等特點,我們先對水務企業(yè)現(xiàn)有的數(shù)據(jù)資源進行盤點和評估,科普大數(shù)據(jù)中心建設知識,梳理各條業(yè)務線的大數(shù)據(jù)應用場景,確定數(shù)據(jù)入倉的范圍,挑選各部門需求程度最高的大數(shù)據(jù)應用場景進行優(yōu)先建設,一方面能快速看到數(shù)據(jù)倉庫建設成果,另一方面也可以及時發(fā)現(xiàn)和調(diào)整建設過程中出現(xiàn)的問題,總結(jié)經(jīng)驗,為其他大數(shù)據(jù)應用場景建設打下基礎,提高數(shù)據(jù)倉庫建設效率,降低成本。
在數(shù)據(jù)倉庫建設過程中,各水務企業(yè)數(shù)據(jù)倉庫建設流程也會有所區(qū)別,但主要流程和重點環(huán)節(jié)基本一致,主要流程和重點環(huán)節(jié)介紹如下:
圖3 數(shù)據(jù)入倉流程圖
一、元數(shù)據(jù)采集:制定出各信息化系統(tǒng)的元數(shù)據(jù)清單
根據(jù)前期的需求調(diào)研,確定本次入倉的信息化系統(tǒng),并向系統(tǒng)維護人員收集系統(tǒng)操作手冊、數(shù)據(jù)字典等文檔以及系統(tǒng)數(shù)據(jù)庫相關信息。通過數(shù)據(jù)采集工具對各系統(tǒng)數(shù)據(jù)庫的表和字段進行采集,結(jié)合各系統(tǒng)文檔,確定數(shù)據(jù)庫中所有表和字段的中文含義及字段的數(shù)據(jù)類型,形成元數(shù)據(jù)清單。
以營銷管理系統(tǒng)數(shù)據(jù)入倉為例,需要明確哪張表是客戶表,哪張是收費表,以及表中每個字段的中文含義。有些系統(tǒng)文檔由于沒有及時更新,與現(xiàn)有系統(tǒng)數(shù)據(jù)有不一致情況,則需要信息管理部門與系統(tǒng)開發(fā)廠家支持,獲取比較準確的元數(shù)據(jù)清單。
圖4 數(shù)據(jù)采集范圍
二、數(shù)據(jù)篩選:在元數(shù)據(jù)清單基礎上篩選出需要入倉的數(shù)據(jù),制定入倉清單
針對元數(shù)據(jù)清單進行進一步的數(shù)據(jù)篩選,去除臨時表和空表等無用表,確定核心數(shù)據(jù)表和維度表,提供給信息管理部門進行確認,形成最終入倉的數(shù)據(jù)表清單。
經(jīng)過第一步元數(shù)據(jù)采集,形成元數(shù)據(jù)清單的過程,可以比較容易的識別出臨時表和空表,重點放在空表是否確實為無用表上即可。
三、數(shù)據(jù)入倉:根據(jù)各數(shù)據(jù)表實際情況,制定出入倉方案,通過專用ETL工具將數(shù)據(jù)抽取至鏡像數(shù)據(jù)倉庫
根據(jù)待入倉的數(shù)據(jù)表清單,以及每張表的實際情況,制定出源數(shù)據(jù)和鏡像數(shù)據(jù)倉庫表之間的字段的映射關系,確定出每張表的入倉策略和抽取規(guī)則,是實時抽取還是定時抽取,是全量出抽取還是增量抽取,將規(guī)則配置入ETL工具,執(zhí)行數(shù)據(jù)入倉。
將數(shù)據(jù)匯入鏡像數(shù)據(jù)倉庫時,因為數(shù)據(jù)通常來自多個系統(tǒng)多個數(shù)據(jù)庫最終進入同一倉庫中,鏡像數(shù)據(jù)倉庫對于數(shù)據(jù)表的命名有專門的原則和規(guī)范,與源數(shù)據(jù)庫的表名會有所不同,需要將表名之間的映射關系做好記錄,同時制定好每張表的同步規(guī)則,如考慮業(yè)務系統(tǒng)晚上使用較少,數(shù)據(jù)同步時間一般放在晚上,錯峰同步;
以營銷管理系統(tǒng)為例,系統(tǒng)中的組織機構表、客戶表等數(shù)據(jù)不多、變化較小的表可以全量同步,而像抄表數(shù)據(jù)、收費數(shù)據(jù)等數(shù)據(jù)量較大的表可以使用增量同步。
四、數(shù)據(jù)質(zhì)量檢查:制定數(shù)據(jù)質(zhì)量檢查規(guī)則,定時進行數(shù)據(jù)質(zhì)量檢核,提升企業(yè)數(shù)據(jù)質(zhì)量
根據(jù)元數(shù)據(jù)清單以及業(yè)務含義,定義出數(shù)據(jù)質(zhì)量檢查規(guī)范、評分標準、及每個字段檢查規(guī)則,如戶號是否唯一,手機號是否為11位數(shù)字,身份證號是否為國家規(guī)定的15位和18位規(guī)則,抄表讀數(shù)是否為合理的數(shù)字范圍等。
經(jīng)過數(shù)據(jù)質(zhì)量檢核清洗,形成數(shù)據(jù)質(zhì)量報告,并將報告結(jié)果和未通過檢核的明細記錄反饋至源系統(tǒng),形成閉環(huán),PDCA持續(xù)提升源數(shù)據(jù)庫的數(shù)據(jù)質(zhì)量。通過數(shù)據(jù)質(zhì)量檢核的數(shù)據(jù),進入標準化數(shù)據(jù)倉庫,供主數(shù)據(jù)管理和數(shù)據(jù)集市使用。
五、建立數(shù)據(jù)集市:從業(yè)務角度對入倉數(shù)據(jù)進行梳理,制定數(shù)據(jù)資產(chǎn)目錄以及主數(shù)據(jù)和業(yè)務模型等數(shù)據(jù)標準,最終形成數(shù)據(jù)集市
對數(shù)據(jù)入倉清單進行專題數(shù)據(jù)識別,劃分數(shù)據(jù)分類與主題,形成數(shù)據(jù)資產(chǎn)目錄,制定出主數(shù)據(jù)和業(yè)務模型等相關數(shù)據(jù)標準。
制定數(shù)據(jù)資產(chǎn)目錄主要是為了讓非技術人員了解企業(yè)有哪些數(shù)據(jù),因此在制定過程中一般從業(yè)務角度進行分類制定,方便業(yè)務人員理解。制定數(shù)據(jù)標準時,一方面需要考慮與現(xiàn)有系統(tǒng)的兼容性,另一方面應重點考慮未來的擴展性和統(tǒng)一性,方便企業(yè)對數(shù)據(jù)的應用,也為新系統(tǒng)建設提供指導。
六、數(shù)據(jù)應用:建設數(shù)據(jù)倉庫最終是為了更好的應用數(shù)據(jù),充分發(fā)揮數(shù)據(jù)在生產(chǎn)運營、營銷客服、管理管控中的最大價值
通過數(shù)據(jù)倉庫,水務企業(yè)可以拆掉“煙囪”,打破各系統(tǒng)中的數(shù)據(jù)壁壘,實現(xiàn)真正全面數(shù)據(jù)共享,同時也讓水務企業(yè)的分析統(tǒng)計維度獲得全面的提高,為企業(yè)管理帶來新的視角和手段。
數(shù)據(jù)共享不僅讓水務企業(yè)內(nèi)部與外部、部門與部門間的數(shù)據(jù)獲取與共享更方便更快速,也讓每一位員工能夠獲取更全面的信息,提高工作效率,如客服人員不再只能查詢營銷管理系統(tǒng)內(nèi)的用戶信息,還能知道用戶所屬的二次加壓泵房的工作狀態(tài)、最近一次水箱清洗的時間、最近一次水質(zhì)檢查結(jié)果、附近管網(wǎng)情況、是否有搶修停水情況發(fā)生、當天附近是否還有其他用戶來電反應相同事件、用水由哪幾個水廠提供、附近是否有工作人員可以快速上門、用水由哪幾個水廠提供等,真正實現(xiàn)從水源到龍頭的管理。
同時通過基于AI算法的客戶畫像功能,可以識別出更多客戶特征,方便業(yè)務人員為客戶提供更為精細化有針對性的服務,如獨居老人關懷、重點用戶識別、異常用水分析、工作質(zhì)量分析、客戶服務分析等,支撐精準服務、個性化和主動服務,持續(xù)提升客戶體驗和獲得感。
隨著《關于加快推進國有企業(yè)數(shù)字化轉(zhuǎn)型工作的通知》、《關于加快構建全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導意見》等眾多利好政策的推出,數(shù)據(jù)作為重要的生產(chǎn)要素將逐步成為水務企業(yè)的經(jīng)營理念――憑數(shù)據(jù)工作、憑數(shù)據(jù)決策、憑數(shù)據(jù)指揮。
聲明:素材來源于網(wǎng)絡如有侵權聯(lián)系刪除。