HybridDB for PostgreSQL

Greenplum Database をベースとするオンライン MPP データウェアハウスサービス

HybridDB for PostgreSQL は、オープンソースの Greenplum Database をベースとするオンライン MPP (大規模な並列処理) データウェアハウスサービスです。

HybridDB for PostgreSQL は、マシン動作中におけるスケールアップ機能とパフォーマンスモニタリング機能を提供しており、MPP クラスターの運用と管理 (O&M) に伴う複雑な作業は不要です。このため、データベース管理者、開発者、データアナリストは、開発に専念し、生産性を向上することができます。

メリット

優れたパフォーマンス
HybridDB for PostgreSQL では、行と列のストアを併用して使用できます。列ストアの OLAP 分析は、行ストアの OLAP 分析よりも格段に高速です。
OSS へのデータのインポートは並列処理されるため、パフォーマンスのボトルネックが発生しません。
高い操作性
豊富な OLAP SQL 構文と関数、および数多くの Oracle 互換の関数に対応しています。BI ソフトウェアを直接、HybridDB for PostgreSQL 用に展開できます。
HybridDB for PostgreSQL と ApsaraDB for RDS を連携することで、OLTP+OLAP (HTAP) 分析が実現可能です。
安定性と信頼性
分散データベースの ACID トランザクションをサポートしています。すべてのデータが 2 つのノード上にコピーとして同期されます。また、セグメント、サーバー、キャビネットの三元保護による分散デプロイメント機能を備えており、データインフラストラクチャのセキュリティを確保しています。
分散デプロイ機能、およびセグメント、サーバー、キャビネットの保護機能を備えており、重要なデータインフラストラクチャのセキュリティを確保しています。
柔軟なスケーラビリティ
CPU、メモリ、ストレージ容量を拡張することで OLAP パフォーマンスが向上し、数百 TB のデータを処理できるようになります。
OSS データに対する操作が可能です。オフラインデータには OSS を利用することで、空き容量等を気にすることなく保存できます。OSS に保存したデータは、HybridDB for PostgreSQL から分析可能です。また、External Tables に基づいたデータ圧縮機能と組み合わせて利用することで、ストレージコストを大幅に削減できます。

特徴

  • 分散化

    ACID 準拠の分散データベース。


    分散 MPP (大規模な並列処理) アーキテクチャを採用。


    セグメントの増加に合わせて、ストレージおよびコンピューティング能力を拡張可能。


    OLAP コンピューティング効率を最大限に発揮。


    分散 SQL OLAP 統計およびウィンドウ関数。


    PL/pgSQL および PL/JAVA ストアドプロシージャ。

  • 機械学習と分析

    SQL に基づく MADlib 機械学習。


    OpenGIS 国際標準に適合した地理情報のハイブリッド分析。


    JSON 内のデータ型分析。


    HyperLogLog アルゴリズム分析。

  • Data Integration

    PostgreSQL/Greenplum JDBC ドライバーを基盤とする一般的な ETL ツールでサポート。


    MySQL ユーザーは、rds_dbsync コマンドを使用することで、増分同期を実行可能。


    OSS External Tables に基づく標準 SQL 構文のデータクエリ。


    OSS External Tables はデータ圧縮に対応しており、ストレージコストを削減可能。

  • セキュリティ

    最大 1,000 個のサーバー IP アドレスをホワイトリストに設定可能。


    ネットワークをリアルタイムでモニタリングし、DDoS 攻撃から保護。

  • ハイブリッド分析

    SQL 構文で GIS データのリアルタイム分析をサポートしており、IoT デバイスの LBS 情報やインターネット上の統計情報に役立ちます。


    JSON、XML などのオープンなデータ形式の読み取り、およびあいまいな文字列のリアルタイム分析をサポートしており、金融機関、政府機関、企業がメッセージデータ処理とあいまい検索を実施するのに役立ちます。

利用イメージ

  • プログラム開発工程の共通化
  • IoT 分析 (JSON と GIS)
  • カーディナリティ推定 (HyperLogLog)
  • OLTP と OLAP
プログラム開発工程の共通化

プログラム開発工程の共通化

プログラムを開発する際、オンプレミス環境とクラウド環境を切り替えながら、MPP システムアプリケーションを開発できます。たとえば、オンプレ環境で Greenplum Database を使用していれば、クラウド側で HybridDB for PostgreSQL を使用することで、開発環境の切り替えができます。

これにより、開発したアプリケーションは、オンプレとクラウドの両方のプラットフォームで実行することができます。また、オンプレミスとクラウドのスキーマは、PostgreSQL 汎用ドライバー経由で接続でき、同じアーキテクチャの多くのプラットフォームによる連携が容易になります。ハイブリッドクラウドのデータウェアハウス開発プラットフォームを簡単に構築でき、オンプレミスとクラウドのプラットフォームを考慮する必要はありません。

IoT 分析 (JSON と GIS)

IoT 分析 (JSON と GIS)

HybridDB for PostgreSQL および PostgreSQL には、いずれも OpenGIS 準拠の空間データベースエンジン PostGIS が組み込まれており、リアルタイムの位置探索とルート計画が可能です。PostGIS は、ArcGIS、Intergraph、QGIS をサポートします。アプリケーション内で単純な SQL 構文を GIS 関数と共に使用し、複雑な空間地理データモデル (2D および 3D 処理をサポート) を処理できます。

HybridDB for PostgreSQL の包括的なデータ OLAP 機能により、地理情報に基づく大規模データ分析を実行して、IoT、モバイルインターネット、ロジスティック配送、スマートシティ、LBS、O2O ビジネスシステムなどに関する判断が容易にできます。

カーディナリティ推定 (HyperLogLog)

カーディナリティ推定 (HyperLogLog)

カーディナリティ推定は、ビッグデータに対する一般的なプロセスです。カーディナリティ推定時に発生する問題は、主にメモリ使用量、データマージ後の処理です。Page PV と VU 計算はいずれも、この要求カテゴリに分類されます。

SQL は、COUNT DISTINCT を実行します。HyperLogLog では、カーディナリティ推定のパフォーマンスが 20 ~ 100 倍向上し、誤差は約 2% です。このため、高い精度の演算が要求されないビジネスシナリオで使用でき、サーバーの演算負荷を減少できます。これにより、サーバーの計算負荷およびコストが大幅に減少します。

OLTP と OLAP

OLTP と OLAP

ユーザーはさまざまなオプションを使用して、Greenplum ベースのデータウェアハウスを HybridDB for PostgreSQL にインポートできます。また、MPP クラスターの複雑な O&M を考慮する必要もありません。その上、可用性の高いソリューションが用意されているため、データベース管理者、開発者、データアナリストは生産性を向上し、コアバリューを生み出すことに集中できます。

RDS は、MySQL、SQL Server、PostgreSQL をサポートしています。RDS は、MySQL、SQL Server、PostgreSQL をサポートしています。HybridDB for PostgreSQL と組み合わせることで、クラウド上で OLTP データベースと OLAP データベースを統合し、トランザクション処理とデータ分析を並行して実行するデータベースプラットフォームを構築できます。

よくある質問

1. RDS、HybridDB for PostgreSQL、E-MapReduce の特徴を教えてください。

ベースとするデータベースデータ処理方法特徴
Greenplum DatabaseOLAP (オンライン分析処理)
データウェアハウス
必要に応じてストレージを拡張します。MPP (大規模な並列処理) データウェアハウスとストレージのパフォーマンスは、向上します。複雑な SQL クエリを数秒または数ミリ秒以内に解決できます。
MySQL/PostgreSQL/SQL ServerOLTP (オンライントランザクション処理) データベースさまざまなデータベースエンジンをサポートします。また、トランザクションに基づいたリアルタイム処理 - CRUD 機能 (作成、取得、更新、削除) をサポートします。2 TB 未満のオンラインデータに対応しています。
Hadoop、Apache Spark、HBase、Presto、Storm大量のデータを高速処理するビッグデータ処理のためのソリューション数分のうちに Hadoop クラスターを起動して、ビッグデータの分析などができます。よって、アプリケーションのデータ集約型タスクと、複雑なビッグデータの処理が簡素化されます。

2. HybridDB for PostgreSQL をサポートしている ETL ツールは、どれですか。

HybridDB for PostgreSQL は、オープンソースの Greenplum Database を基盤としています。また、標準的なインターフェイスである JDBC と ODBC を採用しています。したがって、Greenplum と PostgreSQL をサポートする ETL ツールは、HybridDB もサポートしています。

3. HybridDB for PostgreSQL と、HybridDB for PostgreSQL のベースである Greenplum Database の違いは何ですか。

• HybridDB for PostgreSQL は、JSON、HyperLogLog、oss_ext External Tables などの拡張機能をサポートしていますが、オープンソースの Greenplum Database ではサポートしていません。

• HybridDB for PostgreSQL はクラウドコンピューティングサービスであり、コンソールから簡単に設定できます。データウェアハウスのデプロイや拡張、その他の複雑な設定をする必要がありません。

• HybridDB for PostgreSQL は、Alibaba Cloud ApsaraDB の一元管理プラットフォーム上に構築されており、superuser 権限には制限が設けられています。

4. HybridDB for PostgreSQL 用に購入したストレージ容量は、すべて使用できますか。

はい。使用可能です。HybridDB では、追加一時ファイルスペースが予約されており、このスペースが、購入済みのリソースを占有することはありません。

5. HybridDB for PostgreSQL のノードタイプと Greenplum Database のセグメントとの間にどのような関係がありますか。

• ノードは、1 つまたは複数のセグメントで構成されています。ノードタイプのコア、メモリ、ディスクスペースは、実際に使用可能なスペースを示します。たとえば、4 コア/32 GB メモリ/2 TB HDD のノードタイプでは、それぞれが 1 コア/8 GB メモリ/0.5 TB HDD を備えた 4 つのセグメントがノードに含まれます。

• たとえば、4 コア、32 GB メモリ、2 TB HDD のノードタイプの場合、このノードには、1 コア、8 GB メモリ、0.5 TB HDD の 4 セグメント構成となります。それに対して、ネイティブ Greenplum Database の場合、4 コア、32 GB メモリ、2 TB HDD のプライマリセグメントと、4 コア、32 GB メモリ、2 TB HDD のミラーセグメント構成となります。言い換えると、同じ設定の Greenplum Database クラスターを構築する場合は、8 コア/64 GB メモリ/4 TB HDD 以上 (およびクラスター用の追加一時ファイルスペース) の物理リソースを用意します。

• ノード内のすべてのセグメントは、同じサーバーに割り当てられています。スペックの高いノードは、ネットワーク切り替えの削減とパフォーマンスの改善に役立ちます。多くのコンピューティングリソースが必要な場合は、ハイスペックのノードを選択することをお勧めします。ハイスペックのノードを購入するには、サポートセンターに問い合わせるか、チケットを起票してお申し込みください。

6. HybridDB のストレージ容量は、どの程度まで拡張できますか。

要件に応じて、コンピューティングおよびストレージのリソースの設定として 2048 コア/16 TB メモリ/1024 TB HDD 以上を提供しています。コア数が非常に多いノードを購入するには、サポートセンターに問い合わせるか、コンソールで「チケット」を提出してお申し込みください。