DP-203 Deutsch試験無料問題集「Microsoft Data Engineering on Microsoft Azure (DP-203 Deutsch Version) 認定」

Sie entwerfen eine Dimensionstabelle für ein Data Warehouse. Die Tabelle verfolgt den Wert der Dimensionsattribute im Laufe der Zeit und bewahrt den Verlauf der Daten, indem neue Zeilen hinzugefügt werden, wenn sich die Daten ändern.
Welche Art von sich langsam ändernder Dimension (SCD) sollte verwendet werden?

解説: (GoShiken メンバーにのみ表示されます)
Sie verfügen über eine Azure Data Factory-Pipeline, die in der folgenden Abbildung dargestellt ist.

Das Ausführungsprotokoll für den ersten Pipeline-Lauf wird in der folgenden Abbildung gezeigt.

Das Ausführungsprotokoll für den zweiten Pipeline-Lauf wird in der folgenden Abbildung gezeigt.

Wählen Sie für jede der folgenden Aussagen Ja aus, wenn die Aussage wahr ist. Andernfalls wählen Sie Nein. HINWEIS: Jede richtige Auswahl ist einen Punkt wert.
正解:

Explanation:
Sie müssen die lokalen Datenquellen und Azure Synapse Analytics integrieren. Die Lösung muss die Datenintegrationsanforderungen erfüllen.
Welche Art von Integration Runtime sollten Sie verwenden?

Sie verfügen über einen Azure Data Lake Storage Gen2-Container, der 100 TB Daten enthält.
Sie müssen sicherstellen, dass die Daten im Container für Lese-Workloads in einer sekundären Region verfügbar sind, wenn in der primären Region ein Ausfall auftritt. Die Lösung muss die Kosten minimieren.
Welche Art von Datenredundanz sollten Sie verwenden?

解説: (GoShiken メンバーにのみ表示されます)
Sie erstellen ein neues Notebook in Azure Databricks, das R als primäre Sprache, aber auch Scale und SOL unterstützt. Welchen Schalter sollten Sie verwenden, um zwischen den Sprachen zu wechseln?

解説: (GoShiken メンバーにのみ表示されます)
Sie verfügen über einen dedizierten Azure Synapse Analytics-SQL-Pool.
Sie planen, eine Faktentabelle mit dem Namen „Table1“ zu erstellen, die einen gruppierten Columnstore-Index enthält.
Sie müssen die Datenkomprimierung und Abfrageleistung für Tabelle1 optimieren.
Wie viele Zeilen muss Tabelle1 mindestens enthalten, bevor Sie Partitionen erstellen?

Sie verfügen über eine Microsoft SQL Server-Datenbank, die ein drittes Normalformschema verwendet.
Sie planen, die Daten in der Datenbank in ein Sternschema in einem dedizierten SQI-Pool von Azure Synapse Analytics zu migrieren.
Sie müssen die Dimensionstabellen entwerfen. Die Lösung muss Lesevorgänge optimieren.
Was sollten Sie in die Lösung einbeziehen? Um zu antworten, wählen Sie die entsprechenden Optionen im Antwortbereich aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.
正解:

Explanation:

Box 1: Denormalize to a second normal form
Denormalization is the process of transforming higher normal forms to lower normal forms via storing the join of higher normal form relations as a base relation. Denormalization increases the performance in data retrieval at cost of bringing update anomalies to a database.
Box 2: New identity columns
The collapsing relations strategy can be used in this step to collapse classification entities into component entities to obtain #at dimension tables with single-part keys that connect directly to the fact table. The single- part key is a surrogate key generated to ensure it remains unique over time.
Example:

Note: A surrogate key on a table is a column with a unique identifier for each row. The key is not generated from the table data. Data modelers like to create surrogate keys on their tables when they design data warehouse models. You can use the IDENTITY property to achieve this goal simply and effectively without affecting load performance.
Reference:
https://www.mssqltips.com/sqlservertip/5614/explore-the-role-of-normal-forms-in-dimensional-modeling/
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/sql-data-warehouse-tables- identity
Sie haben einen Trigger in Azure Data Factory wie in der folgenden Abbildung gezeigt konfiguriert.

Verwenden Sie die Dropdown-Menüs, um die Antwortmöglichkeit auszuwählen, die jede Aussage basierend auf den in der Grafik dargestellten Informationen vervollständigt.
正解:

Explanation:
Sie verfügen über ein Azure Data Lake Storage Gen2-Konto, das eine JSON-Datei für Kunden enthält. Die Datei enthält zwei Attribute namens FirstName und LastName.
Sie müssen die Daten mithilfe von Azure Databricks aus der JSON-Datei in eine Azure Synapse Analytics-Tabelle kopieren.
Es muss eine neue Spalte erstellt werden, die die Werte „FirstName“ und „LastName“ verkettet.
Sie erstellen folgende Komponenten:
* Eine Zieltabelle in Azure Synapse
* Ein Azure Blob Storage-Container
* Ein Dienstleiter
Welche fünf Aktionen sollten Sie als Nächstes in diesem Databricks-Notizbuch nacheinander ausführen? Um zu antworten, verschieben Sie die entsprechenden Aktionen aus der Aktionsliste in den Antwortbereich und ordnen Sie sie in der richtigen Reihenfolge an.
正解:

Explanation:
1) mount onto DBFS
2) read into data frame
3) transform data frame
4) specify temporary folder
5) write the results to table in in Azure Synapse
https://docs.databricks.com/data/data-sources/azure/azure-datalake-gen2.html https://docs.microsoft.com/en-us
/azure/databricks/scenarios/databricks-extract-load-sql-data-warehouse
Sie verfügen über ein Azure-Abonnement, das ein Azure Data Lake Storage Gen2-Konto mit dem Namen „storage1“ enthält.
Storage1 enthält einen Container namens Container1. Container1 enthält ein Verzeichnis namens Verzeichnis1. Verzeichnis1 enthält eine Datei mit dem Namen Datei1.
Sie verfügen über einen Azure Active Directory-Benutzer (Azure AD) mit dem Namen „Benutzer1“, dem die Rolle „Storage Blob Data Reader“ für „Storage1“ zugewiesen ist.
Sie müssen sicherstellen, dass Benutzer1 Daten an Datei1 anhängen kann. Die Lösung muss das Prinzip der geringsten Rechte nutzen.
Welche Berechtigungen sollten Sie erteilen? Um zu antworten, ziehen Sie die entsprechenden Berechtigungen auf die richtigen Ressourcen.
Jede Berechtigung kann einmal, mehrmals oder überhaupt nicht verwendet werden. Möglicherweise müssen Sie die Trennleiste zwischen den Fenstern ziehen oder scrollen, um den Inhalt anzuzeigen.
正解:

Explanation:
Box 1: Execute
If you are granting permissions by using only ACLs (no Azure RBAC), then to grant a security principal read or write access to a file, you'll need to give the security principal Execute permissions to the root folder of the container, and to each folder in the hierarchy of folders that lead to the file.
Box 2: Execute
On Directory: Execute (X): Required to traverse the child items of a directory Box 3: Write On file: Write (W): Can write or append to a file.
Reference:
https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-access-control
Sie verfügen über einen dedizierten Azure Synapse Analytics-SQL-Pool mit dem Namen Pool1.
Schwimmbad! enthält zwei Tabellen mit den Namen SalesFact_Stagmg und SalesFact. Beide Tabellen verfügen über eine entsprechende Anzahl an Partitionen, die alle Daten enthalten.
Sie müssen Daten von SalesFact_Staging nach SalesFact laden, indem Sie eine Partition wechseln.
Was sollten Sie beim Ausführen der alter TABLE-Anweisung angeben?

Sie müssen versionierte Änderungen an den Integrationspipelines implementieren. Die Lösung muss die Datenintegrationsanforderungen erfüllen.
In welcher Reihenfolge sollten Sie die Aktionen ausführen? Um zu antworten, verschieben Sie alle Aktionen aus der Aktionsliste in den Antwortbereich und ordnen Sie sie in der richtigen Reihenfolge an.
正解:

Explanation:

Scenario: Identify a process to ensure that changes to the ingestion and transformation activities can be version-controlled and developed independently by multiple data engineers.
Step 1: Create a repository and a main branch
You need a Git repository in Azure Pipelines, TFS, or GitHub with your app.
Step 2: Create a feature branch
Step 3: Create a pull request
Step 4: Merge changes
Merge feature branches into the main branch using pull requests.
Step 5: Publish changes
Reference:
https://docs.microsoft.com/en-us/azure/devops/pipelines/repos/pipeline-options-for-git
Sie verfügen über einen dedizierten Azure Synapse Analytics-SQL-Pool.
Sie müssen eine Tabelle mit dem Namen FactInternetSales erstellen, die eine große Faktentabelle in einem dimensionalen Modell darstellt.
FactInternetSales wird 100 Millionen Zeilen und zwei Spalten mit den Namen SalesAmount und OrderQuantity enthalten.
Auf FactInternetSales ausgeführte Abfragen aggregieren die Werte in SalesAmount und OrderQuantity aus dem letzten Jahr für ein bestimmtes Produkt. Die Lösung muss die Datengröße und die Ausführungszeit der Abfrage minimieren.
Wie soll der Code vervollständigt werden? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.
正解:

Explanation:
Box 1: (CLUSTERED COLUMNSTORE INDEX
CLUSTERED COLUMNSTORE INDEX
Columnstore indexes are the standard for storing and querying large data warehousing fact tables. This index uses column-based data storage and query processing to achieve gains up to 10 times the query performance in your data warehouse over traditional row-oriented storage. You can also achieve gains up to 10 times the data compression over the uncompressed data size. Beginning with SQL Server 2016 (13.x) SP1, columnstore indexes enable operational analytics: the ability to run performant real-time analytics on a transactional workload.
Note: Clustered columnstore index
A clustered columnstore index is the physical storage for the entire table.

To reduce fragmentation of the column segments and improve performance, the columnstore index might store some data temporarily into a clustered index called a deltastore and a B-tree list of IDs for deleted rows.
The deltastore operations are handled behind the scenes. To return the correct query results, the clustered columnstore index combines query results from both the columnstore and the deltastore.
Box 2: HASH([ProductKey])
A hash distributed table distributes rows based on the value in the distribution column. A hash distributed table is designed to achieve high performance for queries on large tables.
Choose a distribution column with data that distributes evenly
Reference: https://docs.microsoft.com/en-us/sql/relational-databases/indexes/columnstore-indexes-overview
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/sql-data-warehouse-tables- overview
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/sql-data-warehouse-tables- distribute
Sie verfügen über einen dedizierten Azure Synapse Analytics-SQL-Pool mit dem Namen pool1.
Sie planen, ein Sternschema in pool1 zu implementieren und mithilfe des folgenden Codes eine neue Tabelle mit dem Namen „DimCustomer“ zu erstellen.

Sie müssen sicherstellen, dass DimCustomer über die erforderlichen Spalten verfügt, um eine sich langsam ändernde Dimension (SCD) vom Typ 2 zu unterstützen. Welche zwei Spalten sollten Sie hinzufügen? Jede richtige Antwort stellt einen Teil der Lösung dar.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Hinweis: Diese Frage ist Teil einer Reihe von Fragen, die dasselbe Szenario darstellen. Jede Frage in der Reihe enthält eine einzigartige Lösung, die die angegebenen Ziele erreichen könnte. Für einige Fragensätze gibt es möglicherweise mehr als eine richtige Lösung, während für andere möglicherweise keine richtige Lösung vorhanden ist.
Nachdem Sie eine Frage in diesem Abschnitt beantwortet haben, können Sie NICHT mehr darauf zurückkommen. Daher werden diese Fragen nicht im Überprüfungsbildschirm angezeigt.
Sie entwerfen eine Azure Stream Analytics-Lösung, die Twitter-Daten analysiert.
Sie müssen die Tweets in jedem 10-Sekunden-Fenster zählen. Die Lösung muss sicherstellen, dass jeder Tweet nur einmal gezählt wird.
Lösung: Sie verwenden ein Hopping-Fenster mit einer Hop-Größe von 5 Sekunden und einer Fenstergröße von 10 Sekunden.
Erfüllt dies das Ziel?

解説: (GoShiken メンバーにのみ表示されます)