Professional-Data-Engineer日本語試験無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版) 認定」

地震データを分析するシステムを設計しています。抽出、変換、ロード(ETL)プロセスは、Apache Hadoop クラスター上で一連の MapReduce ジョブとして実行されます。ETL プロセスでは、一部のステップの計算コストが高いため、データセットの処理に数日かかります。その後、センサーのキャリブレーション手順が省略されていることが判明しました。将来的にセンサーのキャリブレーションを体系的に実行するために、ETL プロセスをどのように変更すればよいでしょうか。

Google Cloud で推奨エンジンを使用するアプリケーションを開発しています。ソリューションでは、過去の視聴に基づいて新しい動画を顧客に表示する必要があります。ソリューションでは、顧客が視聴した動画内のエンティティのラベルを生成する必要があります。設計では、数 TB のデータに基づいて、他の顧客の好みのデータに基づいて非常に高速にフィルタリングの提案を提供できる必要があります。どうすればよいでしょうか。

Google Dataproc で使用するサービス アカウントに必要な最小限の権限は何ですか?

解説: (GoShiken メンバーにのみ表示されます)
Pub/Sub トピックから読み取る Apache Beam 処理パイプラインを設計しました。トピックのメッセージ保持期間は 1 日で、Cloud Storage バケットに書き込みます。RPO が 15 分であるリージョン停止が発生した場合にデータ損失を防ぐには、バケットの場所と処理戦略を選択する必要があります。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
会社では、カンマ区切り値 (CSV) ファイルを Google BigQuery にロードしています。データは完全に正常にインポートされましたが、インポートされたデータはソース ファイルとバイト単位で一致していません。この問題の原因として最も可能性が高いのは何でしょうか。

Cloud Datastore を使用して、車両のテレメトリ データをリアルタイムで取り込むことにしました。コストを抑えながら、長期的なデータの増加に対応できるストレージ システムを構築したいと考えています。また、ポイントインタイム (PIT) リカバリを実行できるように、または別の環境で Cloud Datastore のデータのコピーをクローンできるように、定期的にデータのスナップショットを作成したいと考えています。これらのスナップショットを長期間アーカイブしたいと考えています。これを実現するには、どの 2 つの方法がありますか。回答を 2 つ選択してください。

BigQuery で非正規化データ構造を使用する 2 つの利点は何ですか?

解説: (GoShiken メンバーにのみ表示されます)
外部の顧客が、データベースから毎日データをダンプして提供します。データは、カンマ区切り値 (CSV) ファイルとして Google Cloud Storage GCS に流れ込みます。このデータを Google BigQuery で分析したいのですが、データに形式が誤っている行や破損している行が含まれている可能性があります。このパイプラインをどのように構築すればよいでしょうか。

Dataflow パイプラインを使用して注文データをストリーミングし、集計結果を Memorystore に書き込みます。Basic Tier の Memorystore for Redis インスタンスをプロビジョニングしました。4 GB の容量で、40 のクライアントが読み取り専用アクセスに使用します。読み取り専用クライアントの数は数百に大幅に増加すると予想されており、需要に対応できる必要があります。読み取りおよび書き込みアクセスの可用性が影響を受けないようにし、変更を迅速にデプロイできるようにする必要があります。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
SQL パイプラインを作成する必要があります。パイプラインは、2 時間ごとに BigQuery テーブルで集計 SOL 変換を実行し、その結果を別の既存の BigQuery テーブルに追加します。エラーが発生した場合に再試行するようにパイプラインを構成する必要があります。パイプラインが 3 回連続して失敗した場合に電子メール通知を送信するようにします。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
オンプレミスの Apache Hadoop クラスタで何千もの Apache Spark ジョブが実行されています。ジョブを Google Cloud に移行したいと考えています。長期間稼働する Hadoop クラスタを自分で管理するのではなく、マネージド サービスを使用してジョブを実行したいと考えています。スケジュールが厳しく、コードの変更を最小限に抑えたいと考えています。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
ニューラル ネットワークにカテゴリ特徴のカテゴリ間の関係を学習させるにはどうすればよいでしょうか?

解説: (GoShiken メンバーにのみ表示されます)
すべての Google Cloud Bigtable クライアント リクエストはフロントエンド サーバーを経由して Cloud Bigtable ノードに送信されます。

解説: (GoShiken メンバーにのみ表示されます)