Professional-Data-Engineer日本語試験無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版) 認定」

あなたは BigQuery 管理者で、Looker などのツールでアドホック クエリやダウンストリーム レポートを実行するデータ コンシューマーのチームをサポートしています。すべてのデータとユーザーは、単一の組織プロジェクトにまとめられています。最近、クエリ結果が遅くなっていることに気付き、どこで速度低下が発生しているかをトラブルシューティングしたいと考えています。ユーザーがジョブを実行すると、ジョブのキューイングまたはスロットの競合が発生し、結果へのアクセスが遅くなるのではないかと考えています。クエリ ジョブの情報を調査し、パフォーマンスが影響を受けている場所を特定する必要があります。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
次のソースのうち、BigQuery にデータをロードできないのはどれですか。

解説: (GoShiken メンバーにのみ表示されます)
ワークフローを使用して、1 KB の JSON レスポンスを返す API を呼び出し、このレスポンスに複雑なビジネス ロジックを適用し、ロジックが完了するまで待機してから、Cloud Storage ファイルから BigQuery への読み込みを実行します。ワークフローの標準ライブラリには、複雑なロジックを実行するのに十分な機能がないため、代わりに Python の標準ライブラリを使用します。ワークフローを最適化して、シンプルさと実行速度を実現したいと考えています。どうすればよいでしょうか。

スケーラブルな方法でデータを収集する必要がある新しいアプリケーションを構築しています。データは一日中アプリケーションから継続的に到着し、年末までに 1 日あたり約 150 GB の JSON データを生成することが予想されます。要件は次のとおりです。
生産者と消費者の分離
取り込まれた生のデータを無期限に保存するための、スペースとコスト効率に優れたストレージ ほぼリアルタイムの SQL クエリ SQ でクエリされる少なくとも 2 年間の履歴データを保持する これらの要件を満たすには、どのパイプラインを使用する必要がありますか?

あるオンライン証券会社では、大量の取引を処理するアーキテクチャが必要です。ジョブをトリガーする安全なキューイング システムを作成する必要があります。ジョブは Google Cloud で実行され、会社の Python API を使用して取引を実行します。ソリューションを効率的に実装する必要があります。何をすべきでしょうか?

チームの共有テーブルを単一のデータセットに保存して、さまざまなアナリストがデータに簡単にアクセスできるようにしたいと考えています。このデータはアナリストが読み取り可能だが変更できないようにしたいと考えています。同時に、同じプロジェクト内にアナリストに個別のワークスペースを提供し、アナリストが独自に使用するテーブルを作成して保存できるようにし、他のアナリストがテーブルにアクセスできないようにしたいと考えています。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
Pll (個人識別情報) データが含まれる可能性のあるファイルを Cloud Storage に、そして最終的には BigQuery にストリーミングするティールライム予測エンジンを構築しています。名前とメール アドレスは結合キーとしてよく使用されるため、機密データがマスクされていても参照整合性が維持されるようにする必要があります。権限のない個人が Pll データにアクセスできないようにするには、Cloud Data Loss Prevention API (DLP API) をどのように使用すればよいですか。

大規模なオンプレミスデータウェアハウスをBigQueryに移行する計画を立てています。現在、データはベンダー固有の独自形式で保存されています。このデータをBigQueryに一括移行する必要があります。どうすればよいでしょうか?

解説: (GoShiken メンバーにのみ表示されます)
開発チームと外部チームは、プロジェクト閲覧者の Identity and Access Management (1AM) ロールを「Visualization」というフォルダに割り当てています。開発チームは Cloud Storage と BigQuery の両方からデータを読み取れるようにしたいのですが、外部チームは BigQuery からのデータのみを読み取れるようにしたいとします。どうすればよいでしょうか?

BigQuery からのデータのエクスポートに関する次の記述のうち、誤っているものはどれですか。

解説: (GoShiken メンバーにのみ表示されます)
Google Cloud Bigtable は、各行に 1 つの値をインデックスします。この値は _______ と呼ばれます。

解説: (GoShiken メンバーにのみ表示されます)
BigQuery、Cloud Dataflow、Cloud Dataproc でデータ パイプラインを実行しています。ヘルス チェックを実行してその動作を監視し、パイプラインが失敗した場合はパイプラインを管理しているチームに通知する必要があります。また、複数のプロジェクトにまたがって作業できる必要があります。プラットフォームの機能のマネージド プロダクトを使用することを希望しています。どうすればよいでしょうか。

会社では、WHILECARD テーブルを使用して、類似した名前を持つ複数のテーブル間でデータをクエリしています。SQL ステートメントは現在、次のエラーで失敗しています。
# 構文エラー: 文の終わりを期待しましたが、[4:11] で "-" を取得しました
年齢を選択
から
bigquery パブリックデータ.noaa_gsod.gsod
どこ
年齢 != 99
AND_TABLE_SUFFIX = '1929'
注文する
年齢 DESC
どのテーブル名を使用すると、SQL ステートメントが正しく機能しますか?

ストリーミング Cloud Dataflow パイプラインを運用しています。エンジニアは、異なるウィンドウ アルゴリズムとトリガー戦略を備えた新しいバージョンのパイプラインを持っています。実行中のパイプラインを新しいバージョンに更新したいと考えています。更新中にデータが失われないようにする必要があります。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
Google の Dataflow SDK を使用して、以下に示すような顧客データを分析する予定です。プロジェクトの要件は、データ ソースから顧客名のみを抽出し、出力 PCollection に書き込むことです。
トム、555 X 通り
ティム、553 Yストリート
サム、111 Z ストリート
上記のデータ処理要件に最適な操作はどれですか?

解説: (GoShiken メンバーにのみ表示されます)
あるオンライン小売業者は、現在のアプリケーションを Google App Engine 上に構築しました。同社の新しい取り組みでは、顧客がアプリケーションを介して直接取引できるようにアプリケーションを拡張することが義務付けられています。
ショッピング取引を管理し、ビジネス インテリジェンス (BI) ツールを使用して複数のデータセットから結合されたデータを分析する必要があります。この目的のために、単一のデータベースのみを使用したいと考えています。どの Google Cloud データベースを選択すればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
Firebase Analytics と Google BigQuery の無料統合を有効にしました。Firebase は、app_events_YYYYMMDD 形式で BigQuery に毎日新しいテーブルを自動的に作成するようになりました。レガシー SQL で過去 30 日間のすべてのテーブルをクエリするとします。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
あなたは、それぞれ優先順位と予算が異なる複数の事業部門を持つ大企業の BI 責任者です。プロジェクトごとに 2,000 の同時オンデマンド スロットの割り当てで、BigQuery のオンデマンド料金を使用しています。組織のユーザーがクエリを実行するためのスロットを取得できないことがあるため、これを修正する必要があります。アカウントに新しいプロジェクトを導入することは避けたいと考えています。
何をすべきでしょうか?

解説: (GoShiken メンバーにのみ表示されます)
Cloud Bigtable スキーマの行キーを設計する際の一般的な推奨事項は何ですか?

解説: (GoShiken メンバーにのみ表示されます)