<form id="zrxvn"></form>
    <noframes id="zrxvn"><address id="zrxvn"></address>
    新聞 資訊 金融 知識 財經 理財 科技 金融 經濟 產品 系統 連接 科技 聚焦
    首頁 > 新聞 > 熱點 > > 正文

    巨杉湖倉一體技術解讀|流式計算實現秒級數據入湖

    2022-09-19 16:40:20來源:壹點網
    SequoiaDB從「多模數據湖」、「實時數據湖」發展到「湖倉一體」架構,為客戶提供「數據核心」所需的全量數據存儲,實時對客服務,及基于統一數據源的分析能力,充分激活客戶的離線數據。當中,數據入湖的時效性直接影響整體數據應用效果,巨杉數據庫通過對接業界主流的Flink,Spark和Storm等主流的流式框架,實現實時生產數據的高速入湖,原汁原味的將數據保留在巨杉數據庫中。SequoiaDB是巨杉數據庫通過10年的不斷迭代,從多模數據湖架構演進出來的“湖倉一體”架構產品。SequoiaDB的“湖倉一體”結合了數據湖與數據倉庫,是一個融合的基礎設施環境,支持從原始數據到精煉數據的整個過程,并最終提供優化后的數據以供消費。

    秒級數據入湖

    從客戶的結構化數據需求出發,巨杉眾多的金融客戶著眼于盤活海量的歷史存量數據,并同時卸載發生在傳統Oracle/DB2上的業務。因此,巨杉依托自研的SequoiaDB分布式數據庫,形成了歷史數據平臺的方案。從業務的角度出發,SequoiaDB通過高性能的連接器,對接包括Flink,Spark和Storm等主流的流式框架,實現實時生產數據的高速入湖,原汁原味的將數據保留在巨杉數據庫中。這里起到的作用有點像數倉模型中的ODS層,但巨杉又利用其分布式數據庫高并發訪問的能力,可以直接對外提供實時數據訪問服務。

    鑒于SequoiaDB多副本高可用的特性,很多用戶實際上把巨杉數據庫作為全系統數據的全量最終存儲。在部署實踐里,前端操作型數據庫產生的數據變更在通過ogg/CDC等工具抽取后,通過批量的方式load到巨杉數據庫中;或是加載到以kafka為代表的各類消息隊列,再通過流式引擎寫入巨杉數據庫中。流式和批量數據匯總加工整合即可對外提供服務,根據業務需要,實時入湖的數據從業務實際發生到在巨杉中提供訪問服務時延在秒級。

    上圖有兩個核心技術點需要關注。一是數據入庫鏈路,從架構中可以很清晰的看到通過流和批兩條數據鏈路,這是當前比較成熟的一個典型的Lambda架構。為了盡可能的高效接收來自不同數據源的數據,SequoiaDB開發了Spark connector和Flink connector等多種通用數據格式的解析器,打通實現了高可靠的數據鏈路,支持增刪改各類操作,并在客戶場景中解決exactly once數據入庫問題。

    其次是隨著巨杉數據庫在業務系統的深入,很多用戶發現把數據從取出,做ETL,加載到DW層再做完各類統計分析匯總時,會存在以下問題:

    1.時延較高,無法滿足實時分析的需求

    2.搬遷復制數據成本高,數據要在不同條件下保存多份,還要開發大量的工具

    3.傳統數倉模型不能很好的適應業務變更,需要的專業技能門檻也很高

    所以部分客戶開始跟巨杉一起探討直接在海量數據湖上做數據轉換和分析的可能,也就形成了現在巨杉數據庫的“湖倉一體”架構。

    流式數據加工

    針對客戶提出的流式數據加工處理,以及未來越來越多的實時分析場景,SequoiaDB在結合Spark Streaming和對接Flink后,提供簡單易用的數據加載工具和列存的數據加載功能。SequoiaDB還開發了行存數據到列存數據的自動化轉換工具,客戶只需要基于需求簡單配置需要轉換分析的表,就可以實現實時增量數據同步轉換,極大的方便簡化數據加工師和分析師的工作??偟膩碚f,客戶可以在一個SequoiaDB平臺實現低延時的數據入庫,高并發的即時數據查詢,幾乎透明的行列數據轉換,以及高性能的數據加工分析能力。

    結語

    SequoiaDB通過對接業界主流的流式框架,實現了多源數據的快速入湖。未來,巨杉數據庫將繼續不斷創新,打造更加安全、穩定、可靠的數據庫系統,持續助力金融行業客戶信息化創新,釋放全量數據價值。

    關鍵詞:

    推薦內容

    熱點
    39熱文一周熱點
    看免费三级片

    <form id="zrxvn"></form>
      <noframes id="zrxvn"><address id="zrxvn"></address>