北祥資訊 線上電台

使用海量資料最佳的五個方法

還記得在海量資料(Big Data)時代之前是什麼樣的生活?這個詞已經成為一個被廣泛使用的商業詞彙,而有時很難去想像,海量資料其實是個相對較新的現象。
毫無疑問,數據是一種資產 – 但不是在資料量龐大到您無法承受時。在資訊時代中,您最有用的資料可能也是您最大的敗筆,假如您不知道如何適當的使用它。所以我們要如何處理我們的資料呢?

考慮到這些實際的情況:

  • 醫療保健行業花費約2千5百億美元在每年的醫療保健欺詐上。到2016年,可能每年會增長到超過4千億。美國的醫療健保部門,利用海量資料來創新,實現更有的效率和好的服務品質,預計每一年可以創造超過3千億美元的價值。
  • 一家全球領先的金融服務公司,因為一個內賊交易員損失20億美元,讓公司幾乎面臨即將破產的危機。現在金融機構公司有很多數據在員工的手中,如何透過海量資料,幫助他們預防防止外部欺詐(包括客戶,賬戶持有人或保單持有人)和內部員工有關的事件損失。
  • 在歐洲政府,使用海量資料在運營效率上的改善,可省下超過一千億歐元(約一千四百九十億美元)。但不包括使用海量資料去降低欺詐及錯誤和提高稅收的徵收。
  • 零售商因無法預測客戶的喜好而先準備庫存來滿足客戶的需求,因此錯過了930億美元的銷售額。如果零售商利用海量資料,將可以增加60%以上提高運營利潤率。
  • 在電信行業全球約有六十億的用戶,每年以兩位數的速度增長,並希望透過海量資料來提供獨特地,客製化地,因地域性提供最佳行銷商品給客戶。

隨著高風險成本與高報酬,市場已經準備好迎接海量資料解決方案

IBM研究機構最近與牛津大學賽德商學院合作,有份研究報告最佳的五個方法來使用海量資料(the top five ways to get started with big data)。依據研究結果,歸類統計出大量資料採用總共分為四個階段:訓練Educate、探索Explore、參與 Engage、執行Execute。參照圖一:大資料採用階段。

圖1/ The four phases of big data adoption

只有6%的人已經在執行海量資料計劃,有24%的人目前處於知識建立與市場的觀察,有47%是制定策略,將尋求盡快購買;並有22%的人是在資訊的收集階段。如果您尚未開始著手您的海量資料策略,但您的競爭對手可能已經開始採用海量資料。其實最難的是搞清楚如何在哪裡如何開始著手。

使用海量資料最佳的五個方法

IBM 列出五個高價值的案例做為您使用海量資料的第一步:

  1. 大量資料採用階段
    海量資料探索步驟:藉由尋找、視覺化和了解海量資料,可協助改善自訂決策。第一步結合海量資料可找出您既有的資料並存取資料及使用海量資料來做支援決策。
  2. 從360度看客戶:從內部與外部的資訊資源來延伸既有客戶的觀點。
    徹底的了解客戶,得知客戶通常在哪邊買東西,客戶可能會買那些其他的商品。然而這需要公司應用內部與外部資源來評估客戶的喜好,透過關鍵的決策來幫助公司建立與客戶之間的關係。
    最近IBM商業價值研究學院報導實際上使用海量資料的案例,建議企業先專注在那些能夠確實了解並預測客戶未來行為的分析海量資料。在這案例中,醫療產業中的病人、政府機關人員或是製造供應商,都能被廣泛定義為客戶。
    除此之外,這些分析可提供洞悉客戶的行為,全方位了解客戶,是為了要讓面對客戶的員工與客戶間關係更緊密。企業要有預測的概念,讓員工變成專業的銷售員,透過訓練有素的員工,將對的資訊提供給客戶,建立與客戶之間信賴關係,達成成功銷售,例如:解決客戶的問題、垂直銷售、交叉銷售更多的產品。要達成這個結果,企業必須快速地從沒有資料到取得特定客戶所需要的資料。
    InfoSphere Data Explorer 整合IBM Master Data Management(MDM)從應用程式和儲存庫包含CRM、ECM、供應鏈、訂單存貨系統、和email等等,提供一個整合的介面來檢視客戶資訊,而不需要在登入不同的系統來操作。
    這個介面,員工可以看到客戶基本資訊,買哪些產品、目前支援甚麼專案、關於他們公司有甚麼新聞、最近的轉變…等等。從InfoSphere BigInsights和IBM Stream、IBM Cognos business intelligence和IBM SPSS等產品,分析的內容。員工可以透過與客戶互動透過客製化的內容。藉由這樣的此互動,員工可以提供正確的答案給客戶而且也可以增加垂直銷售的機會。
    在螢幕的中心顯示關於客戶正在觀看的產品或其他實體的及時動態更新。通過應用程序分析的情況下,從InfoSphere BigInsights、InfoSphere Streams、IBM Cognos BI和IBM SPSS產品內的分析資料,也能呈現分析結果並將其視覺化。這使員工與客戶更有互動,並提供客製化的商品銷售。通過這樣做,他們可以快速提供正確的答案,同時也增加垂直銷售的機會。
    圖2/ Information about a customer as viewed in an appliction built with the InfoSphere Data Explorer Application Builder, leveraging InfoSphere Master Data Management for a trusted view of customer data
    如圖2中,利用主數據管理可以確保在所有的組織中的各個系統的數據的準確性和可靠性。這種一致性將確保通過的InfoSphere Data Explorer Application Builder,將包含有關實體一致和準確的數據。InfoSphere Explorer提供商業用戶完整的介面,可看到應用程式中的資料並結合其他結構化和非結構化數據的相關內容。
  3. 資安與智慧化的延伸:降低風險、偵探詐欺、即時監控網路資訊安全。
    • 3.1 增強智慧與監控的洞悉力:組織可在分析即時資料和靜態資料中,找到關聯性與潛在的規則,這種近乎即時地洞悉,可在災害尚未嚴重發生時立即發現更甚至能拯救生命。
    • 3.2 即時網路攻擊的預測與減少:可預測及減少日漸增加的攻擊次數,包含犯罪攻擊、間諜、電腦入侵和主要的犯罪詐欺。
    • 3.3 犯罪偵測與預防:分析行動數據資料,例如:紀錄、社群媒體等資料,可以提供執法者從廣大的數據中找到潛在犯罪威脅並收集證據,而不是等待犯罪產生。他們可以防堵即將發生的事以及主動緝拿罪犯。依照情境,組織同樣地需要資訊安全/ 智慧化平台:如駭客的資料、追蹤系統、監測系統或是資訊安全資訊與事件管理平台。
    今天,這些平台可存取多樣項的資料,結構化資料(交易性的資料、資料庫資料、網路、防火牆、與其他)。平台上的資料能被自身的資料庫或是倉庫有效地儲存及管理。然而,這些系統無法處理新的資料型態與逐漸成長的海量資料,因此需要分析即時串流資料(Streaming data)或是非結構化資料型態。
    海量資料科技像是資料串流(InfoSphere Streams)或是企業級Apache Hadoop分析平台(InfoSphere BigInsights),皆能藉由如電話通聯記錄、紀錄、行動裝置、Twitter資料、Facebook 貼文、email、POS系統監測、紀錄位置的感應器、影片、音訊、以及其他機器所產生的資料等未結構化的資料或串流資料(streaming data)中,強化傳統資訊安全和智能化分析的平台。
    圖3/ Building deeper security insights from broader data sets
  4. 流程的分析:蒐集多元性資料來改善商業結果與流程的效率。
    如今,像是感應器、電表、GPS裝置等電腦與網路裝置所產生的機器資料(Machine Data)量正日漸增加與成長,而這個趨勢也成為海量資料解決方案中的一環。龐大的動態與靜態的新的資料量和資料型態,需要複雜的分析與從不同型態的資料取得關聯性,同時也需要視覺化的呈現在資料型態和產業與應用程式上。
    組織在處理決策時通常忽視這些龐大的資料。藉由整合機器資料(machine data)以及既有的企業資料在程序分析上,組織可以:
    • 得到即時的資料、客戶體驗和客戶交易行為。
    • 主動地規劃流程上的效率。
    • 異常辨識與調查。
    • 監控點和點基礎架構以及主動避免服務的降級或是中斷。
    圖4/ Operations analysis combines machine and enterprise data for rich insight
    圖片4. 您可有龐大資料量、不同的格式、資料型態,甚至根本不相容資料,但透過Hadoop Distributed File System(HDFS). 您可擁有串流資料streaming data. InfoSphere BigInsight 搭配machine data 加速器可用來得到和處理Machine data的龐大資料量,提供深入的業務洞察力,藉此,Machine data可以使其他企業資料例如客戶或是產品資訊互相產生關聯性。
    整合機器與商業資料後,以視覺化呈現,您即可將這些資料提供給相關的商業決策者,他們即可盡快回應這些改變與事件。
  5. 最後一個方法:優化資料倉儲,建立既有資料的基礎架構,並結合海量資料的科技來增加價值。這並不是取代您現有的資料,而是設計能將既有的資料倉儲達到最佳化的方法。
    資料倉儲:整合海量資料。
    優化資料倉儲來自兩個基礎需求。第一是需要整合多元的資料量來提供商業的洞悉力。企業想要分析多型態的資料,但傳統的資料倉儲並不適合用來分析多型態資料,中繼的資料倉儲庫意味著企業必須忽視這些有價值的資料。
    除此之外,組織需要降低延遲率以便在幾小時或是幾分鐘內得到立即的資訊,而不是幾周或是幾個月。最後,組織需要透過查詢才能取得資料。
    第二個是優化資料倉儲的基礎設備。今日的資料倉儲內的資料量可以達到海量資料等級,這會增加資料倉儲的工作負載量。資料倉儲設備也許不昂貴,但是您您如果試著儲存與分析環境周邊的任何事情,效能將會受到影響和成本將會增加。 以下三種優化資料庫的方式:
    圖5
    1. 預先的處理程序界接:使用企業級的Hadoop(InfoSphere BigInsights) ,在決定將那些資料放進資料倉儲內之前,需先具備資料放置區或是卸貨區。使用InfoSphere Data Explorer可先做初步的探索,再決定哪些資料您想要使用在更深入的分析與儲存。這不是必要,但這個地方可讓企業先把資料放在於此。
      Stream computing 串流運算(InfoSphere Stream)可使用在處理即時要素和分析串流資料,而不是先將資料儲存,決定將哪些資料存放在HDFS 或是資料倉處理。在一些個案中,資料不需要被儲存;而是可被及時的處理並採取行動,這可減少儲存量在資料倉儲中。藉由連結卸載區,資料可以在放入資料倉儲前先被整理、轉換。
    2. 發現/分析:這個途徑是透過Streaming computing串流運算的來分析動態資料,讓企業有能力分析之前已放在資料倉儲的資料,因此優化資料庫和分析新的型態資料。不同資料型態可以匯入資料倉儲的資料,可運用更深入的分析來洞悉商業。除此之外,Streaming computing串流運算可作為分析過濾器找到高價值的資料,然後存儲在Infophere BigInsight或資料倉儲中。
    3. 可查詢的數據存儲:在這種方法中,透過使用資訊整合和工具庫,可將應用程式資料庫中的較不常存取或老舊的資料卸載。這有助於將企業較不常接觸的數據,用低成本存儲方式儲存,還可同時使用InfoSphere BigInsights中的查詢或BI工具維持這些資料取得的便利性。InfoSphere Data Explorer 可以用來查看和瀏覽所有已存儲在BigInsights中的InfoSphere數據。

IBM Big Data Platform

在白皮書的五個海量資料(Big Data)使用方法提供當公司導入Big Data之初的經驗與方法。IBM海量資料平台可以在轉型中扮演整合角色。

海量資料使用案例可以提供一個完整的資訊技術從單一的挑戰伴隨著大量的、多元的快速增加的資料。這不是一個單一產品的解決方案。IBM海量資料平台幫助企業減少導入海量資料的專案成本,提供高ROI的預先整合的要素。除此之外,別出心裁的服務可提供預先的部署。您可以從小的測試環境開始,之後部署於其他您要採用海量資料的環境。讓我們一同踏上海量資料的旅程!!


資料參考來源:


comments powered by Disqus
TOP