Professional-Data-Engineer日本語試験無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版) 認定」

あなたの会社は独自のシステムを使用して、6時間ごとにクラウドのデータ取り込みサービスに在庫データを送信しています。送信されるデータには、いくつかのフィールドのペイロードと送信のタイムスタンプが含まれます。送信について懸念がある場合、システムはデータを再送信します。データを最も効率的に重複排除するにはどうすればよいですか?

あなたのチームはあなたの会社でETLを開発し維持する責任があります。入力データのエラーが原因でDataflowジョブの1つが失敗しているため、パイプラインの信頼性を向上させる必要があります(失敗したすべてのデータを再処理できるようにするなど)。
あなたは何をするべきか?

現在、SQL ベースのツールを使用して、BigQuery に保存されているデータを視覚化しています。データの視覚化には、外部結合と分析関数を使用する必要があります。視覚化は、4 時間以上前のデータに基づいている必要があります。ビジネス ユーザーからは、視覚化の生成が遅すぎるという苦情が寄せられています。データ準備パイプラインのメンテナンス オーバーヘッドを最小限に抑えながら、視覚化クエリのパフォーマンスを改善したいと考えています。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
BigQueryとDataStudioを使用して、大量の集計データを表示する顧客向けのダッシュボードを設計しています
a。大量の同時ユーザーが予想されます。最小の遅延で迅速な視覚化を提供するには、タイダッシュボードを最適化する必要があります。あなたは何をするべきか?

外部の顧客は、データベースからのデータの毎日のダンプを提供します。データは、カンマ区切り値(CSV)ファイルとしてGoogle Cloud StorageGCSに流れ込みます。このデータをGoogleBigQueryで分析したいのですが、データの行が正しくフォーマットされていないか、破損している可能性があります。このパイプラインをどのように構築する必要がありますか?

Dataflow にバッチ パイプラインをデプロイしています。このパイプラインは、Cloud Storage からデータを読み取り、データを変換してから、BigQuory に書き込みます。セキュリティ チームは、Google Cloud で組織的な制約を有効にし、すべての Compute Engine インスタンスで内部 IP アドレスのみを使用し、外部 IP アドレスを使用しないように要求しています。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
バッチ予測ではなくオンライン予測を使用することの特徴の2つは何ですか?

解説: (GoShiken メンバーにのみ表示されます)
Dataflowはバッチデータパイプラインまたはストリーミングデータパイプラインを処理しますか?

解説: (GoShiken メンバーにのみ表示されます)
あなたの会社は厳しく規制された業界にいます。要件の1つは、個々のユーザーが自分の仕事を行うために必要な最小限の情報にのみアクセスできるようにすることです。この要件をGoogleBigQueryで適用する必要があります。どの3つのアプローチを取ることができますか? (3つ選択してください。)

正解:A,B,F 解答を投票する
Dataflow でストリーミング パイプラインを実行しており、データの到着時にホッピング ウィンドウを使用してデータをグループ化しています。一部のデータが遅れて到着しているにもかかわらず、遅れたデータとしてマークされていないため、ダウンストリームでの集計が不正確になっていることに気づきました。適切なウィンドウで遅延データをキャプチャできるソリューションを見つける必要があります。あなたは何をするべきか?

解説: (GoShiken メンバーにのみ表示されます)
組織サンプルに関する情報のデータベースを使用して、将来の組織サンプルを正常または変異として分類する必要があります。組織サンプルを分類するための教師なし異常検出方法を評価しています。この方法をサポートする2つの特性はどれですか? (2つ選択してください。)

解説: (GoShiken メンバーにのみ表示されます)
あなたは自動車メーカーで働いており、Google Cloud Pub / Subを使用してデータパイプラインを設定して異常なセンサーイベントをキャプチャしました。 Cloud Pub / Subでプッシュサブスクリプションを使用しており、作成したカスタムHTTPSエンドポイントを呼び出して、これらの異常なイベントが発生したときにアクションを実行します。カスタムHTTPSエンドポイントは、膨大な量の重複メッセージを取得し続けます。これらの重複メッセージの最も可能性の高い原因は何ですか?

Cloud Storage には、データ サイエンス チームがモデルで使用したいさまざまなファイルがあります。現時点では、ユーザーには Cloud Storage 内のデータを探索、クレンジング、検証する方法がありません。あなたは、データ サイエンス チームが Cloud Storage 内のデータを迅速にクレンジングして探索するために使用できるローコード ソリューションを探しています。あなたは何をするべきか?

解説: (GoShiken メンバーにのみ表示されます)
インフラストラクチャには、一連の YouTube チャンネルが含まれています。YouTube チャンネルのデータを分析のために Google Cloud に送信するプロセスを作成するというタスクが与えられています。世界中のマーケティング チームが最新の YouTube チャンネル ログ データに対して ANSI SQL やその他のタイプの分析を実行できるソリューションを設計したいと考えています。Google Cloud へのログ データ転送をどのように設定すればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)