Professional-Data-Engineer日本語試験無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版) 認定」

GoogleCloudのデータパイプライン用に非常に大きなテキストファイル用のストレージを設計しています。 ANSISQLクエリをサポートする必要があります。また、Googleが推奨する方法を使用して、入力場所からの圧縮と並列ロードをサポートする必要があります。あなたは何をするべきか?

GoogleCloudの10TBデータベースの一部である2つのリレーショナルテーブルのストレージを設計しています。水平方向にスケーリングするトランザクションをサポートする必要があります。また、非キー列の範囲クエリのデータを最適化する必要があります。あなたは何をするべきか?

アプリケーションイベントをPub/Subトピックにパブリッシュするパイプラインを設計しています。分析のために結果をBigQueryに読み込む前に、1時間間隔でイベントを集計する必要があります。ソリューションは、大量のイベントを処理してBigQueryに読み込むことができるように、スケーラブルである必要があります。あなたは何をするべきか?

次の要件を持つ新しいプロジェクトのデータベースを選択する必要があります。
*完全に管理
*自動的にスケールアップすることができます
*トランザクションの一貫性
*最大6TBまでスケールアップ可能
* SQLを使用してクエリを実行できます
どのデータベースを選択しますか?

あなたの組織には、プロジェクト A とプロジェクト B という 2 つの Google Cloud プロジェクトがあります。プロジェクト A には、機密ソースからデータを受け取る Pub/Sub トピックがあります。プロジェクト A のリソースのみがそのトピックのデータにアクセスできる必要があります。プロジェクト B および将来のプロジェクトがプロジェクト A トピック内のデータにアクセスできないようにしたいと考えています。あなたは何をするべきか?

解説: (GoShiken メンバーにのみ表示されます)
MJTelcoが1日あたりの取り込みに関心を持っているレコードストリームを考えると、GoogleBigQueryのコストが増加することを懸念しています。 MJTelcoは、設計ソリューションを提供するように依頼します。それらには、tracking_tableと呼ばれる単一の大きなデータテーブルが必要です。さらに、毎日のイベントの詳細な分析を実行しながら、毎日のクエリのコストを最小限に抑えたいと考えています。また、ストリーミング取り込みを使用したいと考えています。あなたは何をするべきか?

Cloud Dataprocクラスターを使用する場合、____プロキシを介して接続するようにブラウザーを構成することにより、YARNWebインターフェースにアクセスできます。

解説: (GoShiken メンバーにのみ表示されます)
BigQuery に保存されている顧客データを暗号化したいと考えています。テーブルに保存されているデータに対して、ユーザー向けの暗号化削除を実装する必要があります。カスタム ソリューションを回避するために、Google Cloud のネイティブ機能を採用したいと考えています。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
ウェブサーバーは、クリック イベントをメッセージとして Pub/Sub トピックに送信します。ウェブサーバーは、クリックが発生した時刻を示すイベント タイムスタンプ属性をメッセージに含めます。サブスクリプションを通じてこの Pub/Sub トピックから読み取り、いくつかの変換を適用し、その結果を広告部門が使用するために別の Pub/Sub トピックに書き込む Dataflow ストリーミング ジョブがあります。広告部門は、対応するクリックの発生から 30 秒以内に各メッセージを受信する必要がありますが、メッセージの受信が遅れていると報告されています。Dataflow ジョブのシステム ラグは約 5 秒で、データの鮮度は約 40 秒です。いくつかのメッセージを調べると、イベント タイムスタンプと公開時刻のラグは 1 秒以内であることがわかります。問題は何ですか。また、何をすべきですか。

解説: (GoShiken メンバーにのみ表示されます)
特定のテーブルの BigQuery データを 1 日に複数回確認する必要があります。クエリを実行している基になるテーブルのサイズは数ペタバイトですが、データをフィルタリングして、ダウンストリーム ユーザーに単純な集計を提供したいと考えています。クエリをより迅速に実行し、最新の分析情報をより迅速に取得したいと考えています。あなたは何をするべきか?

解説: (GoShiken メンバーにのみ表示されます)
ユーザーのブログ投稿の件名ラベルを自動的に生成するアプリケーションをGoogleCloudで開発しています。この機能をすばやく追加するという競争圧力があり、追加の開発者リソースはありません。チームの誰も機械学習の経験がありません。あなたは何をするべきか?

あなたはほぼ3年前に新しいゲームアプリを立ち上げました。前日のログファイルを、テーブル名の形式がLOGS_yyyymmddの別のGoogleBigQueryテーブルにアップロードしています。テーブルワイルドカード関数を使用して、すべての時間範囲の日次および月次レポートを生成しています。最近、長い日付範囲をカバーする一部のクエリが1,000テーブルの制限を超えており、失敗していることがわかりました。この問題をどのように解決できますか?

あなたは広告会社で働いており、広告ブロックでのクリック率を予測するためのSparkMLモデルを開発しました。オンプレミスのデータセンターですべてを開発してきましたが、現在、会社はGoogleCloudに移行しています。データセンターはBigQueryに移行されます。 Spark MLモデルを定期的に再トレーニングするため、既存のトレーニングパイプラインをGoogleCloudに移行する必要があります。あなたは何をするべきか?

解説: (GoShiken メンバーにのみ表示されます)
ニューラルネットワークモデルのトレーニングには数日かかります。トレーニング速度を上げたい。あなたは何ができますか?

世界中に分散されたオークション アプリケーションでは、ユーザーがアイテムに入札できます。時々、ユーザーがほぼ同時に同じ入札を行い、異なるアプリケーション サーバーがそれらの入札を処理することがあります。各入札イベントには、アイテム、金額、ユーザー、およびタイムスタンプが含まれます。これらの入札イベントをリアルタイムで 1 つの場所に集めて、どのユーザーが最初に入札したかを判断したいとします。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
オンプレミスのデータセンター内とクラウド内に、複数の異なる非構造化データ ソースがあります。データは、Apache Parquet や CSV など、さまざまな形式です。このデータを Cloud Storage で一元管理したいと考えています。独自の暗号化キーを使用できるように、データ用のオブジェクト シンクを設定する必要があります。GUI ベースのソリューションを使用したいと考えています。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
Flowlogisticは、主要な分析システムとしてGoogle BigQueryを使用したいと考えていますが、BigQueryに移行できないApacheHadoopおよびSparkワークロードがまだあります。 Flowlogisticは、両方のワークロードに共通のデータを保存する方法を知りません。彼らは何をすべきですか?

米国リージョンにあるすべてのデータを使用して、Google Cloud 上の BigQuery にリレーショナル データを保存して分析します。また、米国リージョンの Microsoft Azure とアマゾン ウェブ サービス (AWS) にもさまざまなオブジェクト ストアがあります。データの移動をできるだけ少なくして、BigQuery 内のすべてのデータを毎日クエリしたいと考えています。あなたは何をするべきか?

解説: (GoShiken メンバーにのみ表示されます)
あなたは、Dataflow を使用して Cloud Storage から BigQuery にデータを処理するアーキテクチャを設計しています。
ネットワーク チームは、パイプラインで使用する共有 VPC ネットワークとサブネットワークを提供しました。
共有 VPC ネットワーク上でパイプラインのデプロイを有効にする必要があります。あなたは何をするべきか?

解説: (GoShiken メンバーにのみ表示されます)