DP-100日本語試験無料問題集「Microsoft Designing and Implementing a Data Science Solution on Azure (DP-100日本語版) 認定」

クラスAの100個のサンプルとクラスBの10,000個のサンプルを含むデータセットで分類モデルを作成します。クラスBのバリエーションは非常に大きくなっています。
不均衡を解決する必要があります。
どの方法を使用する必要がありますか?

モデルをトレーニングするには、Azure Machine Learning コンピューティング リソースを作成します。コンピューティング リソースは次のように構成されます。
最小ノード数: 2
最大ノード数: 4
最小ノード数を減らし、最大ノード数を次の値まで増やす必要があります。
最小ノード数: 0
最大ノード数: 8
コンピューティング リソースを再構成する必要があります。
この目標を達成するために考えられる 3 つの方法は何ですか? それぞれの正解は完全な解決策を示します。
注: 正しく選択するたびに 1 ポイントの価値があります。

正解:C,D,E 解答を投票する
解説: (GoShiken メンバーにのみ表示されます)
Azure MachineLearningワークスペースを作成します。
DataDriftDetectorクラスを使用して、ベースラインデータセットと後続のターゲットデータセット間のデータドリフトを検出する必要があります。
コードセグメントをどのように完成させる必要がありますか?回答するには、回答エリアで適切なオプションを選択してください。
注:正しい選択はそれぞれ1ポイントの価値があります。
正解:

Explanation:

Box 1: create_from_datasets
The create_from_datasets method creates a new DataDriftDetector object from a baseline tabular dataset and a target time series dataset.
Box 2: backfill
The backfill method runs a backfill job over a given specified start and end date.
Syntax: backfill(start_date, end_date, compute_target=None, create_compute_target=False) Reference:
https://docs.microsoft.com/en-us/python/api/azureml-datadrift/azureml.datadrift.datadriftdetector(class)
Azure Machine Learning ワークスペースを管理します。
ワークスペース内のノートブックを使用して対話的にトレーニングする MLflow モデルを試します。 MLflow を使用して、Azure Machine Learning で実験の辞書型成果物をログに記録する必要があります。 どの構文を使用すればよいですか?

注:この質問は、同じシナリオを提示する一連の質問の一部です。シリーズの各質問には、指定された目標を満たす可能性のある独自のソリューションが含まれています。一部の質問セットには複数の正しい解決策がある場合がありますが、他の質問セットには正しい解決策がない場合があります。
このセクションの質問に回答した後は、その質問に戻ることはできません。その結果、これらの質問はレビュー画面に表示されません。
IT部門は、次のAzureリソースグループとリソースを作成します。

IT部門は、Azure Machine Learningワークスペースにaks-clusterという名前のAzure Kubernetes Service(AKS)ベースの推論コンピューティングターゲットを作成します。 GPUを搭載したMicrosoft Surface Bookコンピュータを使用しています。 Python 3.6とVisual Studio Codeがインストールされています。
ディープニューラルネットワーク(DNN)モデルをトレーニングし、損失と精度のメトリックをログに記録するスクリプトを実行する必要があります。
ソリューション:Azure ML SDKをSurface Bookにインストールします。 Pythonコードを実行してワークスペースに接続します。 aks-cluster計算ターゲットで実験としてトレーニングスクリプトを実行します。
ソリューションは目標を達成していますか?

解説: (GoShiken メンバーにのみ表示されます)
機械学習モデルを使用してインテリジェントなソリューションを構築しています。
環境は、次の要件をサポートする必要があります。
*データサイエンティストはクラウド環境でノートブックを作成する必要があります
*データサイエンティストは、機械学習パイプラインで自動機能エンジニアリングとモデル構築を使用する必要があります。
*動的なワーカー割り当てでSparkインスタンスを使用して再トレーニングするには、ノートブックをデプロイする必要があります。
*ノートブックは、ローカルでバージョン管理できるようにエクスポート可能である必要があります。
環境を作成する必要があります。
どの4つのアクションを順番に実行する必要がありますか?回答するには、適切なアクションをアクションのリストから回答領域に移動し、正しい順序で配置します。
正解:

Explanation:

Step 1: Create an Azure HDInsight cluster to include the Apache Spark Mlib library Step 2: Install Microsot Machine Learning for Apache Spark You install AzureML on your Azure HDInsight cluster.
Microsoft Machine Learning for Apache Spark (MMLSpark) provides a number of deep learning and data science tools for Apache Spark, including seamless integration of Spark Machine Learning pipelines with Microsoft Cognitive Toolkit (CNTK) and OpenCV, enabling you to quickly create powerful, highly-scalable predictive and analytical models for large image and text datasets.
Step 3: Create and execute the Zeppelin notebooks on the cluster
Step 4: When the cluster is ready, export Zeppelin notebooks to a local environment.
Notebooks must be exportable to be version controlled locally.
References:
https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-zeppelin-notebook
https://azuremlbuild.blob.core.windows.net/pysparkapi/intro.html
Azure MachineLearningワークスペースを使用しています。モデルテスト用の環境と本番用の環境をセットアップします。
テストの計算ターゲットは、コストと展開の労力を最小限に抑える必要があります。本番環境のコンピューティングターゲットは、高速な応答時間、デプロイされたサービスの自動スケーリングを提供し、リアルタイムの推論をサポートする必要があります。
モデルのテストと本番用にコンピューティングターゲットを構成する必要があります。
どの計算ターゲットを使用する必要がありますか?回答するには、回答エリアで適切なオプションを選択してください。
注:正しい選択はそれぞれ1ポイントの価値があります。
正解:

Explanation:

Box 1: Local web service
The Local web service compute target is used for testing/debugging. Use it for limited testing and troubleshooting. Hardware acceleration depends on use of libraries in the local system.
Box 2: Azure Kubernetes Service (AKS)
Azure Kubernetes Service (AKS) is used for Real-time inference.
Recommended for production workloads.
Use it for high-scale production deployments. Provides fast response time and autoscaling of the deployed service Reference:
https://docs.microsoft.com/en-us/azure/machine-learning/concept-compute-target
テスト要件に従って、データを分割する方法を特定する必要があります。
どのプロパティを選択する必要がありますか?回答するには、回答エリアで適切なオプションを選択してください。
注: 正しい選択ごとに 1 ポイントの価値があります。
正解:

Explanation:


Scenario: Testing
You must produce multiple partitions of a dataset based on sampling using the Partition and Sample module in Azure Machine Learning Studio.
Box 1: Assign to folds
Use Assign to folds option when you want to divide the dataset into subsets of the data. This option is also useful when you want to create a custom number of folds for cross-validation, or to split rows into several groups.
Not Head: Use Head mode to get only the first n rows. This option is useful if you want to test a pipeline on a small number of rows, and don't need the data to be balanced or sampled in any way.
Not Sampling: The Sampling option supports simple random sampling or stratified random sampling. This is useful if you want to create a smaller representative sample dataset for testing.
Box 2: Partition evenly
Specify the partitioner method: Indicate how you want data to be apportioned to each partition, using these options:
Partition evenly: Use this option to place an equal number of rows in each partition. To specify the number of output partitions, type a whole number in the Specify number of folds to split evenly into text box.
Reference:
https://docs.microsoft.com/en-us/azure/machine-learning/algorithm-module-reference/partition-and-sample
Azure Machine LearningStudioで多重線形回帰モデルを作成しています。
いくつかの独立変数は高度に相関しています。
すべてのデータに対して効果的な特徴エンジニアリングを実行するための適切な方法を選択する必要があります。
順番に実行する必要がある3つのアクションはどれですか?回答するには、適切なアクションをアクションのリストから回答領域に移動し、正しい順序に並べます。
正解:

Explanation:

Step 1: Use the Filter Based Feature Selection module
Filter Based Feature Selection identifies the features in a dataset with the greatest predictive power.
The module outputs a dataset that contains the best feature columns, as ranked by predictive power. It also outputs the names of the features and their scores from the selected metric.
Step 2: Build a counting transform
A counting transform creates a transformation that turns count tables into features, so that you can apply the transformation to multiple datasets.
Step 3: Test the hypothesis using t-Test
References:
https://docs.microsoft.com/bs-latn-ba/azure/machine-learning/studio-module-reference/filter-based-feature- selection
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/build-counting-transform
Azure Machine Learning Studioの2クラスニューラルネットワークモジュールを使用して、バイナリ分類モデルを構築します。 Tune Model Hyperparametersモジュールを使用して、モデルの精度を調整します。
Tune Model Hyperparametersモジュールを使用して、調整する必要があるハイパーパラメーターを選択する必要があります。
どの2つのハイパーパラメーターを使用する必要がありますか?それぞれの正解はソリューションの一部を示しています。
注:それぞれの正しい選択には1ポイントの価値があります。

解説: (GoShiken メンバーにのみ表示されます)
近くの気象観測所からデータを収集します。次のデータを含む Weather_df という名前の pandas データフレームがあります。

データは、正午と午前 0 時に 12 時間ごとに収集されます。
自動機械学習を使用して、今後 7 日間の気温を予測する時系列モデルを作成する予定です。トレーニングの最初のラウンドでは、最大 50 の異なるモデルをトレーニングする必要があります。
これらのモデルをトレーニングするには、Azure Machine Learning SDK を使用して自動機械学習実験を実行する必要があります。
自動機械学習の実行を構成する必要があります。
AutoMLConfig 定義をどのように完成させる必要がありますか?回答するには、回答エリアで適切なオプションを選択してください。
注: 正しい選択ごとに 1 ポイントの価値があります。
正解:

Explanation:


Box 1: forcasting
Task: The type of task to run. Values can be 'classification', 'regression', or 'forecasting' depending on the type of automated ML problem to solve.
Box 2: temperature
The training data to be used within the experiment. It should contain both training features and a label column (optionally a sample weights column).
Box 3: observation_time
time_column_name: The name of the time column. This parameter is required when forecasting to specify the datetime column in the input data used for building the time series and inferring its frequency. This setting is being deprecated. Please use forecasting_parameters instead.
Box 4: 7
"predicts temperature over the next seven days"
max_horizon: The desired maximum forecast horizon in units of time-series frequency. The default value is 1.
Units are based on the time interval of your training data, e.g., monthly, weekly that the forecaster should predict out. When task type is forecasting, this parameter is required.
Box 5: 50
"For the initial round of training, you want to train a maximum of 50 different models." Iterations: The total number of different algorithm and parameter combinations to test during an automated ML experiment.
Reference:
https://docs.microsoft.com/en-us/python/api/azureml-train-automl-client/azureml.train.automl.automlconfig.
automlconfig
デザイナーを使用して新しいAzure Machine Learningパイプラインを作成しています。
パイプラインは、Webサイトで公開されているコンマ区切り値(CSV)ファイルのデータを使用してモデルをトレーニングする必要があります。このファイルのデータセットを作成していません。
最小限の管理作業で、CSVファイルからデザイナーパイプラインにデータを取り込む必要があります。
Designerのどのモジュールをパイプラインに追加する必要がありますか?

解説: (GoShiken メンバーにのみ表示されます)