使用數位發明實現資料大眾化

燃煤、石油和人類潛能是工業革命期間三個最具衍生性的資產。 這些資產創建了公司、移動了市場版塊,最終改變了國家/地區。 在數位經濟時代裡,創新有三個同樣重要的資產:資料、裝置和人類潛能。 這些資產都擁有巨大的創新潛力。 針對當今時代中的任何創新成就,資料就是新的石油。

在每一家公司中,都有可用來尋找並滿足客戶需求的資料。 可惜的是,開採可用來推動創新的資料是一件既耗成本又費時的程序,因此可能會錯過了需求,也無法建立解決方案。 資料大眾化可以解決此問題。

什麼是資料大眾化? 這是指將資料交給正確人員以推動創新的一個程序。 此一大眾化的程序可以透過數種形式發生,但通常會包括內嵌或整合原始資料、資料的集中、共用資料,以及保護資料安全等的解決方案。 在進行資料大眾化時,公司的專家們可以運用資料來產生及測試各種假設。 在許多情況下,雲端採用小組可以只使用資料以客戶理解的方式進行打造來快速滿足客戶需求。

將資料大眾化的方法

將資料大眾化的方式有很多種,但大部分都包含了收集、集中、管理及共用資料的方法。 下列各節會對其中一些方法加以描述。 在為客戶的假設建立解決方案時,應該評定是否要將資料大眾化、所涉及的範圍為何,以及所要採取的方式。

將資料大眾化的程式顯示下列程式:控管、集中、收集和共用資料。

共用資料

當您以客戶理解的方式進行建置時,客戶的需求就會引導解決方案。 如果需求是資料,則解決方案要讓客戶能在無需 IT 人員支援的情況下,直接對資料進行詢問、分析和報告。

許多成功的創新都是從將資料傳遞給客戶的最簡可行產品 (MVP) 開始。 所謂 MVP 是指只提供客戶剛好夠用功能的產品版本。 該版本會顯示產品的可能潛力,藉以收集客戶的意見反應。 在此指引模型中,員工為資料取用者。 而該員工會使用資料來協助客戶。 每次與客戶進行手動支援時,就可以測試並驗證各項假設。 通常,這是一種符合成本效益的做法,可在投入大量的整合解決方案之前,先測試有關客戶關注焦點的假設。

直接與資料取用者共用資料的主要工具包括自助式報表,或使用 Power BI 之類工具來內嵌於其他體驗之中的資料。

注意

在共用資料之前,請確定您已詳讀下列各節。 共用資料可能會需要管理才能提供資料所需的保護。 此外,如果資料跨越了多個雲端,則可能需要先予以集中化。 如果資料位於應用程式內部,則必須加以收集才能進行共用。

管理資料

共用資料可以快速產生一個可用來與客戶交談的最簡可行產品。 不過,若要將共用的資料轉換成有用且有實際效用的知識,則需要做得更多。

透過資料共用完成假設驗證之後,下一個開發階段通常是資料管理。

資料控管是一個涵蓋廣泛的主題,在雲端採用架構的範圍之外,可以自行構成一個專屬的架構。

當您驗證了客戶假設之後,接著就要考慮資料控管的數個層面。 例如:

  • 共用的資料是否具敏感性?在公開共用之前,應該將資料加以分類,以保護客戶與公司的各種利益。
  • 如果是敏感性資料,是否已具備安全性保護? 保護敏感性資料是資料大眾化的必要條件。 保護資料解決方案中所討論的範例工作負載,已提供了一些保護資料的參考做法。
  • 資料是否已編入目錄? 識別共用資料的本質有助於長期資料管理。 記錄資料的工具 (例如 Azure 資料目錄),可以適度簡化在雲端中執行此項作業的程序。 有關資料註釋資料來源文件的指引可以加速此一作業程序。

當資料大眾化是客戶所關注假設中的重點時,請務必在發行計畫中納入共用資料的控管。 此一做法可以保護客戶、資料取用者,以及公司。

集中資料

資料集中可以產生更有意義的報告,請確保相同的資料提供給整個組織使用,同時增加您的 ROI。 當資料分散於整個 IT 環境之中時,創新的機會可能會相當受限、昂貴且費時。 雲端提供了集中資料的新商機。 當需要以客戶理解的方式來集中多個資料來源時,雲端可以加速對假設進行測試。

警告

資料集中代表了任何創新程序中的風險所在。 當資料集中的內容為尖端技術,而不是客戶價值的來源時,建議您延遲集中化,直到完成客戶假設驗證為止。

當您進行集中化時,會需要一個適當的資料存放區來集中資料。 在雲端中建立資料倉儲會是個不錯的做法。 這是一個可調整的選項,可當作您所有資料的集中位置。 這種類型的解決方案已在線上分析處理 (OLAP) 或巨量資料選項中提供使用。

OLAP 以及巨量資料解決方案其參考架構可協助您選擇 Azure 中最適當的集中式解決方案。 如果需要用到混合式解決方案,則擴充內部部署資料的參考架構也有助於加速解決方案開發作業。

重要

針對某些客戶的需求和解決方案,一個簡單的方法可能就已足夠。 雲端架構師應該要挑戰小組,要求其考慮低成本的解決方案來驗證客戶假設,特別是在早期開發的階段。 本節中所蒐集資料會針對您的情況建議不同解決方案並加以討論。

收集資料

資料收集的兩個主要形式為「整合」與「內嵌」。

整合:使用傳統的資料移動技巧,將位於現有資料存放區中的資料整合到集中式資料存放區。 這在涉及多重雲端資料儲存體的案例中特別常見。 這些技術涉及從現有資料存放區中擷取資料,然後將資料載入中央資料存放區。 在這個程序的某個時間點,通常會將資料轉換成在中央存放區內更具可用性且相關的資料。

雲端式工具已將這些技巧轉換為依使用次數付費的工具,以降低進入資料收集和集中處理的障礙。 如 Azure 資料庫移轉服務以及 Azure Data Factory 等工具就是兩個例子。 具有 OLAP 資料存放區的 Data Factory其參考架構,就是一個這類解決方案的例子。

擷取:某些資料並不位於現有的資料存放區中。 當這類暫時性資料為創新的主要來源時,您會想要考慮使用其他替代方法。 您可以在多種現有來源中找到暫時性資料,例如應用程式、API、資料流、IoT 裝置、區塊鏈、應用程式快取、媒體內容,或甚至是在一般檔案之中。

您可以將這些不同形式資料整合至 OLAP 或巨量資料解決方案的中央資料存放區內。 不過,針對「組建-測量-學習」週期的早期反覆運算,線上交易式處理 (OLTP) 解決方案可能就足以驗證客戶假設。 OLTP 解決方案並非任何報告案例的最佳選項。 但是,當您以客戶理解的方式進行建置時,將重點放在客戶需求會比技術工具的決策更加重要。 客戶假設經過大規模驗證之後,可能會需要更為合適的平台。 有關 OLTP 資料存放區的參考架構,可協助您判斷最適合您解決方案的資料存放區。

虛擬化:資料的整合與內嵌有時可能會減緩創新速度。 當已有資料虛擬化的解決方案可供使用時,則表示這可能會是個較為合理的方法。 內嵌與整合兩者都可以複製儲存體和開發的需求、新增資料延遲、增加受攻擊面的區域、觸發品質的問題,以及增加控管的工作量。 資料虛擬化是一種較為當代化的替代方案,會將原始資料保留於單一位置中,然後建立來源資料的傳遞或快取查詢。

SQL Server 2017 及 Azure SQL 資料倉儲均支援 PolyBase,這是 Azure 中最常用的資料虛擬化方法。

後續步驟

完成資料大眾化的策略之後,接下來要做的是評估應用程式開發的方法。