Loading...

博客

1909, 2018

如何在EsgynDB中使用機器學習庫

機器學習(ML)庫正變得越來越流行,現在有各種各樣的這類庫 - 維基百科中提及了49個。 這些機器學習庫需要龐大的數據,通常此類數據是存儲在關系型數據庫中的業務數據,比如存放在EsgynDB或以其他形式存儲在Hadoop數據湖中。 簡單的集成 - JDBC和HDFS 有多種方法連接機器學習庫和EsgynDB。 其中一種方法是使用JDBC,這是大多數軟件包支持的方法。 用戶在他們選擇的系統上運行機器學習代碼并通過JDBC讀取數據。 如果要傳輸大量數據,可以通過多個并行連接讀取。 某些系統可以通過將SQL查詢拆分為多個實例來解決此問題。 例如,Spark jdbcRDD允許查詢的參數化,再結合salted EsgynDB表能更高效的工作: Apache Spark將使用non-overlapping值范圍啟動此查詢的多個實例。 相反地從機器學習庫到EsgynDB的結果集數據,通??山?[閱讀更多]

203, 2018

使用UPSERT語句,將Apache?Kafka數據導入Trafodion表

Apache?Kafka簡介 Kafka是一個流處理服務平臺。其中,生產者(Producers)向主題(Topic)中發布消息,消費者(Consumers)讀取并處理發布到主題中的消息。Kafka的主題是已發布消息的日志副本集合,這些日志都具有時間戳??梢遠災魈飩蟹智?,以增加存儲容量并提高并行度。 如圖1所示,向同一個主題發布消息的不同生產者進程可以: a) 將消息寫入特定的分區(藍色箭頭);或 b) 允許Kafka在可用的分區間均衡地分發/加載消息(橙色箭頭)。 此外,Kafka的各個副本作為一個已發布的消息,僅出現在一個分區中。 從消費者的角度看,消費者可以屬于一個消費者組(consumer group),也可以不屬于任何消費者組。如果不屬于任何消費者組,則所有訂閱了主題的消費者都能夠讀取發布在主題中的某一條消息(如圖1中的黑色箭頭c所示)。 如果屬于消費者組,則該組中的各消費者將 [閱讀更多]

1302, 2018

EsgynDB支持與ORC的緊密集成

Apache Hadoop?生態系統的優勢之一就是能夠整合不同的技術,解決各種大數據問題。要實現良好的整合,就要注意易用性以及數據交換的速度和效率。 EsgynDB?是Esgyn公司的web-scale企業級SQL-on- Apache Hadoop?解決方案,現已支持與Apache ORC?文件的緊密集成。在本文中,我將介紹結合EsgynDB和ORC文件所帶來的好處,然后探討該集成解決的兩個重要用例。 EsgynDB?是基于Apache TrafodionTM(正在孵化)的高可擴展SQL引擎。Apache TrafodionTM是高可擴展的企業級數據庫引擎,HP在2014年將其開源。Apache TrafodionTM承載了聯機事務處理和數據倉庫20多年的研發成果,具有非常成熟的查詢優化和運行時技術。 所有的數據庫引擎都依賴于存儲表的存儲引擎層。自2015年誕生以來,EsgynDB就使 [閱讀更多]

902, 2018

針對MPP數據庫數據傾斜問題的技術——Skew Buster

Skew Buster是一種針對MPP數據庫運行時數據傾斜引起的性能問題的技術,可以保證在復雜查詢的任意階段,中間數據都可以平均分布,充分利用MPP系統的多節點的并發處理能力。 Skew Buster簡介 當今隨著信息技術,人工智能,和網絡技術的不斷發展,企業在生產經營過程中產生的歷史數據非常容易就達到上百T,甚至P級別,因此依賴單機的scale up能力已經無法滿足。MPP數據庫能夠線性地橫向擴展,因而可以隨著數據量的增加而不斷擴容(scale out),相對于單機,SMP或者Share Disk方案,MPP是最適用于大數據時代的數據倉庫解決構架。大多數的數據庫軟件廠商都提供基于MPP構架的數據倉庫產品,用于為用戶建立企業級數據倉庫EDW(Enterprise Data Warehouse)。但在實踐中, MPP構架的share nothing設計也存在一些其構架自身所帶來的獨特挑戰。 [閱讀更多]

902, 2018

簡述Trafodion DCS工作流程及原理

DCS是Data Connectivity Service即數據連接服務的簡稱,是Trafodion非常重要的組成部分,它接收連接請求,并合理分配連接請求,借助Zookeeper完成HA的功能。 簡介 最近越來越多的人在Trafodion社區問到關于DCS的一些問題,我在這里給大家統一介紹一下這個Trafodion的重要組成部分。DCS是Data Connectivity Service即數據連接服務的簡稱。Trafodion數據連接服務層提供了數據連接的分配和管理,主要涉及DCSMaster、DCSServer、 MXOSRVR、以及Zookeeper四大部分。本文將從對這幾個組件的基本工作流程原理進行簡單介紹。 如下圖所示,數據連接服務層是連接數據庫驅動和SQ引擎層的橋梁,是數據庫引擎對外提供服務的唯一方式。從圖中我們看到數據連接服務層支持了三種驅動的連接,JDBC、ODBC、及AD [閱讀更多]

1605, 2017

EsgynDB是唯一運行整個TPC-DS基準測試的SQL-on-Hadoop解決方案

評估數據庫BI/分析工作負載的最佳基準是TPC-DS。EsgynDB已與Apache ORC深度集成并優化了性能,雖然處理TPC-DS型工作負載的結果還有待提高,但目前的結果還是較為可觀。 在處理運營型工作負載領域,目前EsgynDB還未棋逢對手。在進行TPC-DC測試時,EsgynDB使用Hive(利用Tez引擎)與ORC進行性能對比。 TPC-DS基準測試的數據量是10TB。EsgynDB能夠執行全部的99個TPC-DS查詢,而Hive只能執行65個查詢。   b EsgynDB的速度是Hive的5倍。EsgynDB完成99個查詢的時間甚至短于Hive完成65個查詢的時間。 值得注意的是,這些測試是在8節點和12節點的系統上運行的。如果后者性能是前者性能的1.5倍,那么EsgynDB能達到線性擴展的要求。EsgynDB的結果是1.4倍,已非常接近線性擴展的要求。這表明隨著集 [閱讀更多]

3110, 2016

Apache Zeppelin在Apache Trafodion上的可視化——已更新

介紹 Apache Trafodion(正在孵化)和EsgynDB(Esgyn的商業版)支持數據可視化工具(例如,Apache Zeppelin和Tableau),具有標準JDBC/ODBC連接。本文重點介紹如何實現Apache Zeppelin在Trafodion上的可視化。 Apache Zeppelin基于web,數據專家可以通過該工具進行大規模數據挖掘和可視化的協作。大規模數據分析的工作流包括多個步驟,例如數據獲取、預處理、可視化……。通過Zeppelin,用戶可以在不同的執行塊/段中創建這些步驟。這一套步驟/工作流稱為Notebook。各段由解釋器進行處理。Zeppelin具有幾個默認的解釋器。我們可以使用shell解釋器、PostgreSQL解釋器或JDBC解釋器實現Trafodion或EsgynDB與Zepplin的集成。 架構 Zeppelin UI(客戶端)連接到Zep [閱讀更多]

807, 2016

不斷成熟的Hadoop生態系統依然存在不足之處

不斷成熟的Hadoop生態系統依然存在不足之處 最近,隨著Hortonworks宣布推出由Apache HAWQ支持的Hortonworks HDB,Hortonworks和Hadoop周圍的生態系統也不斷發展。Hadoop已有10年的歷史,雖然其相關性常常遭受質疑,但依然是很多全球性企業Big Data項目的關鍵基礎。 隨著基礎技術的不斷發展,自主創新起著至關重要的作用,客戶和開發人員不得不自行解決各種問題。但這樣的嘗試需要進行昂貴的實驗,可能會使客戶受挫。Hortonworks提供受支持的互補開源軟件,幫助客戶和開發人員。但是客戶在決定使用這些產品之前,必須先考慮一些關鍵的問題:不管使用何種技術,都要大量投資于培訓、技能獲取、圍繞技術構建工具基礎設施,以及設計、調優和運營工作。這些投資不僅限于初步的部署階段,在未來跨項目、跨工作負載的部署中也要進行此類投資。只有這樣,技術才能產生回報。 [閱讀更多]

807, 2016

選擇合適的SQL引擎替代MapReduce作業

眾望所歸的新趨勢 目前的趨勢是擺脫MapReduce,降低構建和維護MapReduce作業的復雜度并提高性能,同時利用現有的IT資源。至于如何擺脫MapReduce、如何替代MapReduce作業、使用怎樣的工作負載,這些問題都是戰略性的決策。同時,要考慮Hadoop可以發揮怎樣的戰略性作用,使企業通過數據獲得利潤。 由于要訪問存儲在HDFS的數據,就要使用MapReduce中的鍵,因此MapReduce是Big Data項目至關重要的組件。這意味著,只有數據專家和編寫MapReduce作業的數據工程師才有權訪問數據。同時,由于不斷在攝取新的數據,因此需要一直修改MapReduce作業。這是一項較大的維護費用。 MapReduce阻礙了Hadoop數據以及使用數據的用戶和應用程序,從而影響了Hadoop的ROI。 觀看網絡研討會 選擇MapReduce的替代方案不只是技術決策 使用Big [閱讀更多]

3006, 2016

使用Docker容器安裝Apache Trafodion

使用Docker容器安裝Apache Trafodion 我們很高興地推出Apache Trafodion 2.0(正在孵化)Docker。現在,全球的開發人員都可以快捷地在Linux上安裝單節點的Apache Trafodion。 通過Apache Trafodion和EsgynDB(Esgyn的商業版),您可以使用SQL-on-Hadoop,減少或消除MapReduce對數據的訪問和處理。與其他的SQL引擎相比,Apache Trafodion的成熟性較高,可以運行運營型、分析型、事務型混合工作負載。您無需進行數據的遷移或復制,就可從Hadoop獲取更多價值。您可以提供各種用例,包括企業數據湖、運營型數據存儲、卸載RDBMS、卸載ETL、企業文檔管理。 我們很高興發布了Apache Trafodion Docker鏡像,滿足了Apache Trafodion社區的需求。 下載Apach [閱讀更多]

903, 2016

管理日志、IoT和事件數據的設計模式

管理日志、IoT和事件數據的設計模式 Trafodion在IoT(物聯網)空間、電信和網絡安全中的一個常見應用場景是用一個非常大的單表,記錄實時事件。用戶希望快速攝取新數據,查詢數據,并清理過時的數據。 對于這種情況,我們一般建議客戶使用一種設計模式。該模式包含三個要素:Salting、分塊和Stripe合并。 Salting 第一個要素是salting,在集群中平均分布數據。通過salting 不僅平均分布全部數據,而且在集群中的所有節點均勻分布熱(最新)數據。Salting基于哈希散列,運用哈希散列函數計算每一行的 region 號。一般情況下,這是基于運營型查詢中使用的一列或多列,比如客戶id或設備id。 Trafodion自動管理salt。計算哈希散列函數,并自動對Salt列執行條件判斷。SQL的Insert、Select和Delete語句不需要任何特殊的操作。 數據均勻分布之后, [閱讀更多]

2402, 2016

EsgynDB Manager

EsgynDB Manager 簡介 EsgynDB Manager 是一款適用于EsgynDB的基于Web的企業管理工具,它允許數據庫管理員: 監控Esgyn節點和Esgyn服務的運行狀態。 監控集群或節點的關鍵系統、HBase和EsgynDB的各項運行時指標。 監控并管理(取消)EsgynDB查詢。 查看詳細的編譯時和運行時查詢統計信息,包括可視和文本解釋計劃。 生成系統資源使用情況的電子郵件或HTTP警報。 查看數據庫對象及其屬性(包括權限和對象關系)。 監控活躍的EsgynDB會話和用戶。 通過查詢工作臺(Query Workbench)執行臨時查詢,生成解釋計劃,以便調整查詢。 EsgynDB Manager體系架構 EsgynDB Manager部署在EsgynDB集群的主節點或管理節點上。 DB Manager作為嵌入式jetty webserver。無需安裝額外的包。 [閱讀更多]

1902, 2016

其他RDBMS到Trafodion的數據遷移

本文介紹了如何將數據從現有的RDBMS遷移到Trafodion數據庫。從其它的RDBMS或外部數據源向Trafodion集群中導入大量的重要數據,可以通過下面兩步完美實現: 在Trafodion集群中,將數據從源頭導入Hive表。使用下列方法之一: 在Trafodion系統中,使用一個類似Apache SqoopTM的工具,將數據從遠程的RDBMS(例如,MySQL或Oracle)遷移到Hive表。更多信息,請參閱使用Sqoop將數據導入Hive。 在Trafodion集群中,將需要導入Trafodion的數據復制到HDFS。使用Hive外部表,使這些數據能從Hive中看到。更多信息,請參閱創建Hive外部表。 使用Trafodion的LOAD語句,將數據從Hive導入Trafodion表。更多信息,請參閱使用Bulk Load將數據加載到Trafodion表。 使用Sqoop將數據導入H [閱讀更多]

802, 2016

跨集群事務管理器

提供真正的Hadoop分布式跨集群事務管理器 目前,Hadoop廣泛應用于BI和分析工作負載。HBase在Hadoop上提供低延遲的NoSQL Big Table解決方案,托管運營型工作負載。但是,HBase內建的原子操作不適用于具有復合操作的工作負載。隨著事務型SQL-on-HBase解決方案的出現,Hadoop生態系統使企業能夠在Hadoop上全面運行各種事務型工作負載。這種轉變將帶來以下好處: 在軟件和專有硬件方面,降低成本。 為需要處理動態變化的應用程序提供schema靈活性。 增強Hadoop的彈性擴展,滿足Big Data的高容量和速度。 集成Hadoop平臺上的半結構化和非結構化數據,獲得更多的業務價值。 對于從運營型系統遷移到Hadoop用于分析的數據,消除數據的延遲、重復和同步。 將工作負載轉移到可擴展的架構,減少對重要的運營型系統(托管運營型、歷史、外部Big Dat [閱讀更多]

2201, 2016

Trafodion + Kafka = Trafka

Apache Kafka的Apache Trafodion消費者 本文介紹了如何實現Apache Trafodion與Apache Kafka的無縫結合。我們展示了Trafodion如何輕松地獲取數據,如何結合不同的開源組件,從而使用 Apache Kafka、?Trafodion、 HBase 和Hadoop創建近實時的流式處理工作流。 如何實現各組件的結合? 什么是Kafka?Kafka是一個分布式、分區、多復本的日志提交服務。Kafka維護按類區分的消息,稱為主題(topic)。生產者(producer)向Kafka的主題發布消息。消費者(consumer)訂閱主題,接收發布到這些主題的消息。一個主題就是一個類別或者一個可訂閱的條目名稱。對每個主題來說,Kafka維護的是一個分區日志(partitioned log)??突Ф絲刂平⒎⒉嫉僥母齜智?。 Kafka集群包含一個或多個服務 [閱讀更多]

1401, 2016

Apache Trafodion 1.3 發布

Apache Trafodion(正在孵化)宣布完成了Apache孵化器項目的第一個版本。Trafodion 1.3 修復了多種bug,增加了新功能、改進了Apache Trafodion頁面。點擊此處或查看版本說明。 這3個月內,有很多新的貢獻者和代碼提交者參與了Trafodion項目。該項目的社區正在日益壯大,致力于構建開源的、分布式、全量ACID的Hadoop生態系統數據庫。Trafodion歡迎更多貢獻者的加入。關于詳細信息,請參閱//trafodion.incubator.apache.org。 祝賀Apache Trafodion的項目團隊實現了本次的重大成果! [閱讀更多]

501, 2016

Hibernate的Trafodion方言

對象-關系映射(ORM)提供了一個框架,應用程序可以使用一個對象范例,查詢并操作數據庫中的數據。該框架以多種語言實現,封裝了數據操作所需的代碼。這樣,您無需了解SQL,即可使用一個對象訪問數據,該對象隱藏了每個數據庫查詢語言的變化。 假設有以下的Employees表: Id Name Address Department Salary 1 John Milpitas, CA Engineer $ 100,000 2 Tom Cupertino, CA Support $ 80,000 3 James Sunnyvale, CA Pubs $ 70,000 4 Mike San Jose, CA Marketing $ 95,000 5 Maya Fremont, CA Sales Rep $ 80,000 以下示例在Employees表中檢索可獲得的ID、Name和Salary列: S [閱讀更多]

912, 2015

雙活的運營型SQL-on-Hadoop工作負載

周二,Esgyn發布了EsgynDB企業版2.0,新增了多種功能的支持。本文介紹了跨數據中心的全面雙活事務支持。對于跨多行、表和/或服務器的事務,Hadoop生態系統支持在異地、各集群或表中復制關鍵的運營型業務數據。該功能支持異地的高可用集群,因此對關鍵數據是非常重要的。如果由于自然災害、同城狀況、人為錯誤導致集群offline,則可以立即啟用另一個peer集群,并實現零事務丟失。 通過雙活配置,集群不會在無災難時閑置,而是和其他的EsgynDB集群一樣處理運營型工作負載。也就是說,不存在“熱備”的概念,節省了無謂的空間、時間、電力和人力,用戶可用同時從兩個數據中心獲取價值。EsgynDB企業版2.0的跨數據中心雙活擴展了讀/寫工作負載,提供了災難恢復零事務丟失機制。 EsgynDB企業版2.0支持以下兩種跨數據中心的配置: 單Master (圖 1): 應用程序只在一個集群上進行更新 [閱讀更多]

810, 2015

如何造就一流的數據庫?

相比于其他的SQL-on-Hadoop解決方案,Trafodion具有怎樣的優勢?“在Hadoop上運行運營型工作負載”一文中,我指出了Trafodion專注于運營型工作負載(OLTP、ODS)。本文介紹了Trafodion和其他SQL-on-Hadoop解決方案在技術上的差異。 本文中,我探討了造就一流數據庫的四個關鍵要素,介紹了Trafodion是如何實現這些要素的。您可以將Trafodion與其他數據庫做一個對比。 時間、金錢、人才 Oracle、SQL Server、DB2、Teradata等各種優秀的RDBMS付出了數十年的努力、投入了數百萬美元、擁有眾多數據庫的人才,致力于構建數據庫引擎。而Trafodion的鼻祖是Tandem的NonStop SQL/MX,并直接繼承了NonStop SQL/MX的分支Neoview(超過3億美元的投資以及超過20年的研發投入)。 我們的數 [閱讀更多]

2109, 2015

在Hadoop上運行運營型工作負載

相比于Oracle、IBM DB2、Microsoft SQL Server、Informix、MySQL、PostgreSQL、Teradata等關系型數據庫以及Impala、Tez、Hive、Drill、Presto等SQL-on-Hadoop解決方案,Apache TrafodionTM(正在孵化)具有怎樣的優勢? Apache Trafodion是一流的數據庫,與上述的關系型數據庫并駕齊驅。每個數據庫的功能和性能都不相同。如果您要從一個數據庫技術轉移到另一個數據庫技術,會遇到很多挑戰(除非您只使用ANSI SQL功能)。但是,如果您在Trafodion上開發新的應用程序,就會發現Trafodion支持數據庫通常需要的所有功能。 而與其他的SQL-on-Hadoop技術相比,Trafodion具有更強大的數據庫引擎,支持更多功能。只是Trafodion在目前優化的工作負載類型方面有所 [閱讀更多]

2007, 2015

我們的淵源

Esgyn公司是高科技行業的新星,我們的使命是創建并培育Apache? Hadoop生態系統中的企業級事務型和運營型SQL。但是有很多公司都在解決SQL-on-Hadoop的問題,我們的優勢是什么?本文中,我就這個話題展開了討論。 Esgyn和普通的初創公司有所不同,我們已經創建了一個產品并將其開源(正在孵化的Apache Trafodion數據庫管理系統)。另外,我們已經擁有一支具有凝聚力的30人團隊,有些員工在關系型數據庫領域已共事27年。 我們在數據庫領域的淵源可以追溯到天騰電腦公司(Tandem Computer)的天騰數據庫團隊(Tandem Database Group)。這個團隊的成員包括Jim Gray、Don Slutz、Franco Putzolu等杰出的數據庫先驅,他們共同開發了行業內第一個高性能、線性擴展、可容錯的SQL引擎——NonStop? SQL。Esgyn經 [閱讀更多]