Professional-Data-Engineer日本語試験無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版) 認定」

すべての Google Cloud Bigtable クライアント リクエストはフロントエンド サーバーを経由して Cloud Bigtable ノードに送信されます。

解説: (GoShiken メンバーにのみ表示されます)
世界中の何百万ものデバイスから IoT センサー データを収集し、そのデータを BigQuery に保存しています。アクセス パターンは、次のクエリを使用して location_id と device_version で区切られた最近のデータに基づいています。

コストとパフォーマンスを考慮してクエリを最適化したい場合、データをどのように構造化すればよいでしょうか?

BigQuery を集中分析プラットフォームとして使用しています。新しいデータが毎日読み込まれ、ETL パイプラインが元のデータを変更して最終ユーザー向けに準備します。この ETL パイプラインは定期的に変更され、エラーが発生する可能性がありますが、エラーが 2 週間後にのみ検出されることもあります。これらのエラーから回復する方法を提供する必要があり、バックアップはストレージ コストに合わせて最適化する必要があります。BigQuery でデータをどのように整理し、バックアップをどのように保存すればよいでしょうか。

データ ウェアハウスを Google Cloud に移行し、オンプレミスのデータセンターを廃止します。これは会社の優先事項であるため、クラウドへの初期データ ロード用に帯域幅が利用可能になることはわかっています。転送されるファイルの数は多くありませんが、各ファイルは 90 GB です。さらに、トランザクション システムで Google Cloud のウェアハウスをリアルタイムで継続的に更新する必要があります。データを移行し、ウェアハウスへの書き込みが継続されるようにするには、どのようなツールを使用すればよいでしょうか。

どの Google Cloud Platform サービスが Hadoop with Hive の代替になりますか?

解説: (GoShiken メンバーにのみ表示されます)
あなたは経済コンサルティング会社で働いており、企業が経済動向をリアルタイムで把握できるよう支援しています。分析の一環として、Google BigQuery を使用して、顧客データと、パン、ガソリン、牛乳など、最もよく売れている 100 種類の商品の平均価格を相関させています。これらの商品の平均価格は 30 分ごとに更新されます。このデータを最新の状態に保ち、BigQuery 内の他のデータとできるだけ低コストで組み合わせられるようにしたいと考えています。どうすればよいでしょうか。

ある運送会社では、リアルタイムで Apache Kafka ストリームに送信されるライブの荷物追跡データがあり、その後 BigQuery に読み込まれます。会社のアナリストは、荷物のライフサイクルにおける地理空間の傾向を分析するために、BigQuery で追跡データをクエリしたいと考えています。テーブルは、もともと取り込み日付によるパーティション分割を使用して作成されました。時間が経つにつれて、クエリの処理時間が増加しました。BigQuery でのクエリ パフォーマンスを向上させる変更を実装する必要があります。どうすればよいでしょうか。

時系列トランザクション データをコピーするデータ パイプラインを作成し、データ サイエンス チームが BigQuery 内からクエリを実行して分析できるようにする必要があります。1 時間ごとに、数千のトランザクションが新しいステータスで更新されます。初期データセットのサイズは 1.5 PB で、1 日あたり 3 TB ずつ増加します。データは高度に構造化されており、データ サイエンス チームはこのデータに基づいて機械学習モデルを構築します。データ サイエンス チームのパフォーマンスと使いやすさを最大化したいと考えています。採用すべき 2 つの戦略はどれですか。2 つの回答を選択してください。

あなたは画像認識分野のニッチな製品に取り組んでいます。あなたのチームは、チームが実装したカスタム C++ TensorFlow オペレーションが中心となるモデルを開発しました。これらのオペレーションはメインのトレーニング ループ内で使用され、大規模な行列乗算を実行します。現在、モデルのトレーニングには数日かかります。Google Cloud のアクセラレータを使用して、この時間を大幅に短縮し、コストを低く抑えたいと考えています。どうすればよいですか?

ETL パイプラインを管理しています。Dataflow で実行されているストリーミング パイプラインが受信データの処理に時間がかかり、出力の遅延を引き起こしていることに気づきました。また、パイプライン グラフが Dataflow によって自動的に最適化され、1 つのステップに統合されていることにも気付きました。潜在的なボトルネックが発生している場所を特定したいと考えています。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
Cloud Dataproc クラスタを使用する場合、ブラウザを ____ プロキシ経由で接続するように構成することで、YARN ウェブ インターフェースにアクセスできます。

解説: (GoShiken メンバーにのみ表示されます)
データが 30 分以上受信されたときにセンサーからの平均ノイズ レベルを検出する必要がありますが、15 分間データが受信されないとウィンドウは終了します。
何をすべきでしょうか?

解説: (GoShiken メンバーにのみ表示されます)
Google Dataproc で使用するサービス アカウントに必要な最小限の権限は何ですか?

解説: (GoShiken メンバーにのみ表示されます)
次のどれがスパースベクトルの値の例ですか? (回答を 2 つ選択してください。)

解説: (GoShiken メンバーにのみ表示されます)