如何理解Flink關系型API

這篇文章給大家介紹如何理解Flink關系型API，內容非常詳細，感興趣的小伙伴們可以參考借鑒，希望對大家能有所幫助。

創(chuàng)新互聯(lián)是一家專注于網站設計制作、成都網站制作與策劃設計,臨猗網站建設哪家好?創(chuàng)新互聯(lián)做網站,專注于網站建設十余年,網設計領域的專業(yè)建站公司;建站業(yè)務涵蓋:臨猗等地區(qū)。臨猗做網站價格咨詢:028-86922220

在接觸關系型API之前，用戶通常會采用DataStream、DataSet API來編寫Flink程序，它們都提供了豐富的處理能力，以DataStream為例，它有如下這些優(yōu)點：

富有表現(xiàn)力的流處理，包括但不限于：轉換數(shù)據(jù)，更新狀態(tài)，定義窗口、聚合，事件時間語義，有狀態(tài)且保證正確性等；
高度自定義的窗口邏輯：分配器、觸發(fā)器、逐出器以及允許延遲等；
提升與外部系統(tǒng)連接能力的異步I/O接口；
ProcessFunction給予用戶訪問時間戳和定時器等低層級的操作能力；

但它同時也存在一些使用壁壘導致它并不適合所有用戶：

寫DataStream程序并非總是很容易：流處理技術發(fā)展很快，一些概念層出不窮，比如，時間、狀態(tài)、窗口等；
需要特殊的知識與技巧：持續(xù)的流計算應用需要特殊的要求以及Java/Scala的編程經驗；

用戶希望更專注于他們的業(yè)務邏輯，于是Flink提供了更具表達能力的API——關系型API。關系型API有很多好處：

它是聲明式的，用戶只需告知它們想要的，系統(tǒng)決定如何計算，用戶不必指定具體的實現(xiàn)細節(jié)；
查詢可被高效地優(yōu)化和執(zhí)行，相比之下底層API中的UDF則難于優(yōu)化且需要人工調優(yōu)；
大眾（尤其是數(shù)據(jù)分析領域的從業(yè)者）對SQL的了解和熟悉程度要遠高于特定的編程語言；

關系型API其實是Table API和SQL API的統(tǒng)稱：

Table API：為Java&Scala SDK提供類似于LINQ（語言集成查詢）模式的API（自0.9.0版本開始）
SQL API：支持標準SQL（自1.1.0版本開始）

關系型API作為一個統(tǒng)一的API層，既能夠做到在Batch模式的表上進行可終止地查詢并生成有限的結果集，同時也能做到在Streaming模式的表上持續(xù)地運行并生產結果流，并且在兩種模式的表上的查詢具有相同的語法跟語義。這其中最重要的概念是Table，Table與DataSet、DataStream緊密結合，DataSet和DataStream都可以很容易地轉換成Table，同樣轉換回來也很方便。下面的代碼段展示了采用關系型API編寫Flink程序的示例：

val tEnv = TableEnvironment.getTableEnvironment(env)
//配置數(shù)據(jù)源
val customerSource = CsvTableSource.builder()
 .path("/path/to/customer_data.csv")
 .field("name", Types.STRING).field("prefs", Types.STRING)
 .build()

//將數(shù)據(jù)源注冊為一個Table
tEnv.registerTableSource(”cust", customerSource)

//定義你的table程序（在一個Flink程序中Table API和SQL API可以混用）
val table = tEnv.scan("cust").select('name.lowerCase(), myParser('prefs))
val table = tEnv.sql("SELECT LOWER(name), myParser(prefs) FROM cust")

//轉換為DataStraem
val ds: DataStream[Customer] = table.toDataStream[Customer]

關系型API架構在基礎的DataStream、DataSet API之上，其整體層次關系如下圖所示：

如何理解Flink關系型API

它們提供等價的特性集合，并且可以在同一個程序中混合使用，兩者都與Flink的core API緊密集成。從上圖來看，上層有兩種API，而其下有兩個基礎（DataSet、DataStream）API作為后端。那這是否意味著實現(xiàn)時的四種組合的轉換路徑呢？其實，F(xiàn)link并沒有自己去實現(xiàn)轉換、SQL的解析、執(zhí)行計劃的生成、優(yōu)化等操作，它將一些“不擅長”的任務轉交給了Apache Calcite。整體架構如下圖：

如何理解Flink關系型API

Apache Calcite是一個SQL解析與查詢優(yōu)化框架（這個定義是從Flink關注的視角來看，Calcite官方的定義為動態(tài)的數(shù)據(jù)管理框架），目前已被許多項目選擇用來解析并優(yōu)化SQL查詢，比如：Drill、Hive、Kylin等。

我們來對上面的架構圖進行解讀。從中上部我們看到，可以從DataSet、DataStream以及Table Source等多種渠道來創(chuàng)建Table，Table相關的一些信息比如schema、數(shù)據(jù)字段及類型等信息統(tǒng)一被注冊并存放到Calcite Catalog中。這些信息將為Table & SQL API提供元數(shù)據(jù)。接著往下看，Table API跟SQL構建的查詢將被翻譯成共同的邏輯計劃表示，邏輯計劃將作為Calcite優(yōu)化器的輸入。優(yōu)化器結合邏輯計劃以及特定的后端（DataSet、DataStream）規(guī)則進行翻譯和優(yōu)化，隨之產生不同的計劃。計劃將通過代碼生成器，生成特定的后端程序。后端程序的執(zhí)行將返回DataSet或DataStream。

這個架構圖展示了Flink關系型API的整體架構，也是后續(xù)我們分析這個模塊的基礎。

關于如何理解Flink關系型API就分享到這里了，希望以上內容可以對大家有一定的幫助，可以學到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

分享標題：如何理解Flink關系型API
網站路徑：http://www.chinadenli.net/article42/gocphc.html

成都網站建設公司_創(chuàng)新互聯(lián)，為您提供移動網站建設、網站設計、品牌網站制作、手機網站建設、虛擬主機、企業(yè)建站

聲明：本網站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

如何理解Flink關系型API