Professional Data Engineer 模擬問題集（2021.03.02） : Cloud Smog

Google Cloud Certified - Professional Data Engineer

Written by E.G -

on 3月 2, 2021

※ 他の問題集は「タグ：Professional Data Engineer の模擬問題集」から一覧いただけます。

この模擬問題集は「Professional Data Engineer Practice Exam (2021.03.02)」の回答・参考リンクを改定した日本語版の模擬問題集です。

Google Cloud 認定資格 – Professional Data Engineer – 模擬問題集（全 50問）

Question 1

バッチ予測ではなくオンライン予測を使用することの特徴どれでしょうか？（回答を 2つ選択してください）

A. ジョブ内の大量のデータインスタンスを処理し、より複雑なモデルを実行するように最適化されています。
B. 予測値は応答メッセージで返されます。
C. 予測値は指定した Google CloudStorage の場所にある出力ファイルに書き込まれます。
D. 予測値を提供する待ち時間を最小限に抑えるように最適化されています。

Correct Answer: B、D

オンライン予測：
– 予測値を提供する待ち時間を最小限に抑えるように最適化されています。
– 予測値は応答メッセージで返されます。
バッチ予測：
– ジョブ内の大量のインスタンスを処理し、より複雑なモデルを実行するために最適化されています。
– 予測値は指定したGoogle Cloud Storage の場所にある出力ファイルに書き込まれます。

Reference contents:
– 予測の概要 > バッチ予測 vs オンライン予測 | AI Platform Prediction

Question 2

特定の基準が満たされていることに基づいてウィンドウのコンテンツを出力するタイミングを決定する Google Cloud Dataflow の概念はどれでしょうか？

A. セッション
B. 出力基準
C. ウィンドウズ
D. トリガー

Correct Answer: D

トリガーは特定のキーとウィンドウの要素が出力されるタイミングを制御します。要素が到着すると、それらはウィンドウ変換とそれに関連付けられたWindowFn によって 1つ以上のウィンドウに入れられ、Windows の内容が出力されるべきかどうかを判断するために関連付けられたトリガーに渡されます。

Reference contents:
– Trigger (Google Cloud Dataflow SDK 1.9.1 API)

Question 3

Google Cloud Bigtable スキーマの行キーを設計する際の一般的な推奨事項はどれでしょうか？

A. 行キー内に複数の時系列値を含めます。
B. 行を8ビット整数として保持します。
C. 行キーを適度に短くします。
D. フィールドで許可されている限り、行キーを保持します。

Correct Answer: C

一般的な目安は行キーを適度に短く保つことです。長い行のキーは追加のメモリとストレージを消費し、Google CloudBigtable サーバーからの応答の取得にかかる時間を増やします。

Reference contents:
– スキーマの設計 > 行キーの選択 | Cloud Bigtable ドキュメント

Question 4

Google Cloud Bigtable のHBase シェルの正しい説明文はどれでしょうか？

A. HBase シェルは表の作成や削除などの管理タスクを実行する GUI ベースのインターフェイスです。
B. HBase シェルは表の作成や削除などの管理タスクを実行するコマンドラインツールです。
C. HBase シェルはハイパーバイザーベースのシェルで新しい仮想化インスタンスの作成や削除などの管理タスクを実行します。
D. HBase シェルは Google Cloud Bigtable インスタンスへのアクセス権を付与するためのユーザーアカウント管理機能のみを実行するコマンドラインツールです。

Correct Answer: B

HBase シェルは表の作成や削除などの管理作業を行うコマンドラインツールです。Java 用 Google Cloud Bigtable HBase クライアントを利用することでHBase シェルを利用して Google Cloud Bigtable に接続することが可能になります。

Reference contents:
– Cloud Bigtable 用 HBase シェルのインストール

Question 5

Google Cloud Bigtable インスタンスのSSD ストレージとHDD ストレージを切り替えるために推奨される操作はどれでしょうか？

A. 3番目のインスタンスを作成し、バッチジョブを介して 2つのストレージタイプのデータを同期します。
B. 既存のインスタンスからデータをエクスポートし、新しいインスタンスにデータをインポートする。
C. 1つがHDDでもう 1つがSDDである並列インスタンスを実行します。
D. 選択は最終的なものであり、同じストレージタイプを使用して再開する必要があります。

Correct Answer: B

Reference contents:
– SSD ストレージか HDD ストレージかの選択 > SSD ストレージと HDD ストレージの切り替え

Question 6

Google Cloud Bigtableノードに障害が発生した場合、____ 。

A. すべてのデータが失われます
B. データが失われることはありません。
C. 時間ディメンションが失われます。
D. 最後のトランザクションが失われます

Correct Answer: B

Google Cloud Bigtable テーブルはタブレットと呼ばれる連続した行のブロックに分割され、クエリのワークロードのバランスを取るのに役立ちます。タブレットは Google のファイルシステムである Colossus にSSTable 形式で保存されます。各タブレットは特定の Google Cloud Bigtable ノードに関連付けられています。データが Google Cloud Bigtable ノード自体に保存されることはありません。各ノードにはColossus に保存されているタブレットのセットへのポインターがあります。
結果：実際のデータはコピーされないため、あるノードから別のノードへのタブレットのリバランスは非常に高速です。 Google Cloud Bigtable は各ノードのポインタを更新するだけです。メタデータのみを代替ノードに移行する必要があるため、Google Cloud Bigtable ノードの障害からの回復は非常に高速です。
Google Cloud Bigtableノードに障害が発生しても、データが失われることはありません。

Reference contents:
– Cloud Bigtable の概要 | Cloud Bigtable ドキュメント

Question 7

projects.regions.cluster.create 操作を使用して新しい Google Cloud Dataproc クラスタを作成する場合は次の 4つの値が必要です。
プロジェクト、リージョン、名前、____ が必要です。

A. ゾーン
B. ノード
C. ラベル
D. タイプ

Correct Answer: A

projects.regions.clusters.create 操作を使用して新しいクラスタを作成するときは少なくとも 4つの値を指定する必要があります。
– クラスタが作成されるプロジェクト
– 使用する地域
– クラスタの名前
– クラスタが作成されるゾーン
これらの最小要件を超えて、さらに多くの詳細を指定できます。たとえば、ワーカーの数、プリエンプティブコンピューターを使用するかどうかネットワーク設定を指定することもできます。

Reference contents:
– Python 用の Cloud クライアントライブラリの使用 > Dataproc クラスタを作成する | Dataproc ドキュメント

Question 8

Google BigQuery ソースを持つパイプラインをローカルマシンで実行すると、引き続きアクセス許可拒否エラーが発生します。
この原因は何でしょうか？

A. gcloud は Google BigQuery リソースにアクセスできません。
B. ローカルマシンから Google BigQuery にアクセスすることはできません。
C. マシンに gcloud がありません。
D. パイプラインはローカルで実行できません。

Correct Answer: A

DirectPipelineRunner を使用して Google Cloud Dataflow ソースからの読み込みまたは Google Cloud Dataflow シンクへの書き込みを行う場合は、gcloud 実行ファイルで設定した Google Cloud Platform アカウントが対応するソース/シンクにアクセスする必要があります。

Reference contents:
– DirectPipelineRunner (Google Cloud Dataflow SDK 1.9.1 API)

Question 9

Google Cloud Dataproc クラスタを使用する場合はブラウザを設定して _____ プロキシを介して接続することでYARN Web インターフェースにアクセスすることができます。

A. HTTPS
B. VPN
C. SOCKS
D. HTTP

Correct Answer: C

Google Cloud Dataproc クラスタを使用する場合は SOCKS プロキシを使用するようにブラウザを設定してください。SOCKS プロキシは Google Cloud Dataproc クラスタ向けのデータをSSHトンネルを介してルーティングします。

Reference contents:
– クラスタウェブインターフェース > 使用可能なインターフェース | Dataproc ドキュメント

Question 10

Google Cloud Bigtable スキーマを設計する場合は ______________ をお勧めします。

A. NoSQL の概念に基づくスキーマ設計を避けること。
B. リレーショナルデータベースの設計に基づいたスキーマ設計を作成すること。
C. 行全体でアトミックを必要とするスキーマ設計を避けること。
D. 行全体でアトミックを必要とするスキーマ設計を作成すること。

Correct Answer: C

すべての操作は行レベルではアトミックです。例えば、テーブル内の 2つの行を更新した場合、一方の行は正常に更新され、もう一方の行は更新に失敗する可能性があります。行間のアトミックを必要とするスキーマ設計は避けてください。

Reference contents:
– スキーマの設計 #行キーの選択 | Cloud Bigtable ドキュメント

Question 11

Google Cloud Bigtable にデータを保存する場合は保存するデータの推奨最小量はどれくらいでしょうか？

A. 500 TB
B. 1 GB
C. 1 TB
D. 500 GB

Correct Answer: C

Google Cloud Bigtable はリレーショナルデータベースではありません。SQL クエリ、結合、複数行トランザクションをサポートしていません。1 TB 未満のデータには適していません。

Reference contents:
– Cloud Bigtable の概要 > ストレージとデータベースに関するその他のオプション | Cloud Bigtable ドキュメント

Question 12

Google Cloud Dataproc 閲覧者はどのようなアクションを実行できるでしょうか？

A. Submit a job.
B. Create a cluster.
C. Delete a cluster.
D. List the jobs.

Correct Answer: D

Google Cloud Dataproc 閲覧者はその役割に基づいてアクションが制限されています。ビューアはクラスタの一覧表示、クラスタの詳細の取得、ジョブの一覧表示、ジョブの詳細の取得、操作の一覧表示、操作の詳細の取得のみを行うことができます。

Reference contents:
– Dataproc の権限と IAM の役割 > IAM の役割と Dataproc のオペレーションの概要 | Dataproc ドキュメント

Question 13

データがパイプラインに入ってきた時間を基づいて無制限のデータソースのデータを1時間ごとに集計するにはどの Google Cloud Dataflow/Beam 機能を使うべきでしょうか？

A. 1時間ごとの透かし
B. イベントタイムトリガー
C. 遅延を許可する方法
D. 処理時間トリガー

Correct Answer: D

データを収集してウィンドウにグループ化する場合、Beamはトリガーを使用して、各ウィンドウの集計結果をいつ出力するかを決定します。処理時間トリガー。これらのトリガーは、データ要素がパイプラインの任意の段階で処理される処理時間に作用します。
イベントタイムトリガー。これらのトリガーは各データ要素のタイムスタンプで示されるように、イベント時間で動作します。 Beamsのデフォルトのトリガーは、イベント時間ベースです。

Reference contents:
– Apache Beam Programming Guide > 9. Triggers | Apache Beam Programming Guide

Question 14

Hadoop with Hive の代わりとなる GoogleCloud Platform プロダクトはどれでしょうか？

A. Google Cloud Dataflow
B. Google Cloud Bigtable
C. Google BigQuery
D. Google Cloud Datastore

Correct Answer: C

Apache Hiveはデータの要約、クエリ、および分析を提供するためにApache Hadoop 上に構築されたデータウェアハウスソフトウェアプロジェクトです。
Google BigQuery はエンタープライズデータウェアハウスです。

Reference contents:
– Apache Hive – Wikipedia

Question 15

Google Cloud Bigtable のパフォーマンスが低下する正当な理由ではないのはどれでしょうか？

A. ワークロードは Google Cloud Bigtable には適切ではありません。
B. テーブルのスキーマが正しく設計されていません。
C. Google Cloud Bigtable クラスタのノード数が多すぎます。
D. ネットワーク接続に問題があります。

Correct Answer: C

Google Cloud Bigtable クラスタに十分なノードがありません。Google Cloud Bigtable クラスタに負荷がかかっている場合はノードを追加することでパフォーマンスを向上させることができます。監視ツールを使用してクラスタに過負荷がかかっているかどうかを確認してください。

Reference contents:
– Cloud Bigtable のパフォーマンスについて

Question 16

Google Cloud Bigtable で時系列データにホットスポットが発生しないようにする方法はどれでしょうか？

A. フィールドプロモーション
B. ランダム化
C. ソルティング
D. ハッシュ

Correct Answer: A

デフォルトではフィールドプロモーションを使用します。フィールドプロモーションはほぼすべてのケースでホットスポットを回避し、クエリを容易にする行キーの設計を容易にする傾向があります。

Reference contents:
– 時系列データ用のスキーマ設計 > 行キーのホットスポット化を回避する | Cloud Bigtable ドキュメント

Question 17

Google Cloud Dataflow プログラムをローカルで実行するために使用できる Java SDK クラスはどれでしょうか？

A. LocalRunner
B. DirectPipelineRunner
C. MachineRunner
D. LocalPipelineRunner

Correct Answer: B

DirectPipelineRunner を使用すると最適化せずにパイプラインで操作を直接実行できます。小規模なローカル実行とテストに役立ちます。

Reference contents:
– DirectPipelineRunner (Google Cloud Dataflow SDK 1.9.1 API)

Question 18

Google BigQuery によって処理される行数を減らすために使用できる方法はどれでしょうか？

A. テーブルを複数のテーブルに分割し、データをパーティションに配置します。
B. テーブルを複数のテーブルに分割し、データをパーティションに配置して LIMIT 句を使用します。
C. LIMIT 句を使用してデータをパーティションに配置します。
D. LIMIT 句を使用してテーブルを複数のテーブルに分割します。

Correct Answer: A

テーブルを複数のテーブルに分割した場合（例えば、1日ごとに 1つのテーブルなど）、特定のテーブル（特定の日など）のデータにクエリを限定することができます。より良い方法はデータを日ごとに区切ることができる限り、分割されたテーブルを使用することです。LIMIT 句を使用しても Google BigQuery はテーブル全体を処理します。

Reference contents:
– パーティション分割テーブルの概要 | BigQuery

Question 19

次のうち、ハイパーパラメータの例はどれでしょうか？（回答を 2つ選択してください）

A. 隠れレイヤの数
B. 各隠れレイヤのノード数
C. バイアス
D. ウェイト

Correct Answer: A、B

モデルパラメータが既存のデータを使用したトレーニングによって調整される変数である場合はハイパーパラメータはトレーニングプロセス自体に関する変数です。たとえば、ディープニューラルネットワークの設定の一部は入力レイヤと出力レイヤの間で使用するノードの「隠れ」レイヤの数と各層が使用するノードの数を決定することです。これらの変数はトレーニングデータに直接関係していません。これらは構成変数です。もう 1つの違いはトレーニングジョブ中にパラメータが変更されるのに対し、ハイパーパラメータは通常、ジョブ中に一定であるということです。
重みとバイアスはトレーニングプロセス中に調整される変数であるため、ハイパーパラメータではありません。

Reference contents:
– ハイパーパラメータ調整の概要 | AI Platform Training

Question 20

次のうち、特徴エンジニアリング手法はどれですか？（回答を 2つ選択してください）

A. 隠れた特徴レイヤ
B. 特徴の優先順位付け
C. 特徴の列を交差させたもの
D. 連続特徴のバケット化

Correct Answer: C、D

効果的なモデルを学習するには適切な特徴列のセットを選択して作成することが重要です。
バケット化は連続する特徴の全範囲を連続するビン/バケットのセットに分割し、その値がどのバケットに分類されるかに応じて元の数値特徴を（カテゴリ特徴として）バケット IDに変換するプロセスです。
各基本機能列を個別に使用するだけでは、データを説明するのに十分でない場合があります。異なる特徴の組み合わせの違いを学ぶために交差した特徴列をモデルに追加できます。

Question 21

Google Compute Engine アカウントでパイプラインジョブを実行するために必要な IAM の役割は次のうちどれでしょうか？

A. dataflow.worker
B. dataflow.compute
C. dataflow.developer
D. dataflow.viewer

Correct Answer: A

dataflow.worker の役割は Google Compute Engine サービスアカウントが Google Cloud Dataflow パイプラインの作業単位を実行するために必要な権限を提供します。

Reference contents:
– Cloud Dataflow アクセス制御ガイド

Question 22

Google Cloud Bigtable のストレージとしてHDD を選択するための有効な使用例ではないものは次のうちどれでしょうか？

A. 少なくとも 10 TBのデータを保存する必要があります。
B. 少ない行数のランダムな読み取りを頻繁に実行するのではなく、スキャンと書き込みを使用してバッチワークロードを主に実行します。
C. Google BigQuery と統合する必要があります。
D. データを使用してユーザー向けまたは遅延の影響を受けやすいアプリケーションをバックアップすることはありません。

Correct Answer: C

たとえば、多数のリモートセンシング装置の広範な履歴データを保存し、そのデータを使用して日次レポートを生成する場合はHDD ストレージのコスト削減はパフォーマンスのトレードオフを正当化する可能性があります。一方、データを使用してリアルタイムダッシュボードを表示する場合はHDD ストレージの読み取りを使用することはおそらく意味がありません。この場合は読み取りははるかに頻繁になり、HDD ストレージでは読み取りがはるかに遅くなります。

Reference contents:
– SSD ストレージか HDD ストレージかの選択 #HDD ストレージのユースケース | Cloud Bigtable ドキュメント

Question 23

次のうち、Google Cloud Dataflow がサポートしている 3つの主要なトリガーのうち、1つではないものはどれでしょうか？

A. バイト単位の要素サイズに基づいてトリガーを設定します。
B. 他のトリガーを組み合わせたトリガーを設定します。
C. 要素数に基づくトリガーを設定します。
D. 時間に基づくトリガーを設定します。

Correct Answer: A

Google Cloud Dataflowがサポートするトリガーには主に 3つの種類があります。
1.時間ベースのトリガー。
2.データ駆動型トリガー。ウィンドウが特定の数のデータ要素を受信したときにウィンドウから結果を出力するトリガーを設定できます。
3.複合トリガー。これらのトリガーは複数の時間ベースまたはデータ駆動型のトリガーを論理的な方法で組み合わせます

Reference contents:
– Dataflow > トリガー

Question 24

基本ロールを使用して不可能なのは次のうちどれですか？

A.ユーザーに Google BigQuery へのアクセス権と所有者に Google Compute Engine インスタンスへのアクセス権を付与します。
B.プロジェクト内のすべてのデータセットに対するUser A 所有者アクセスとUser B エディターアクセスを許可します。
C.プロジェクト内のすべてのデータセットを表示するためのアクセス権をユーザーに付与しますが、それらに対してクエリを実行することはできません。
D.プロジェクト内のすべてのデータセットに対してGroupA 所有者アクセスとGroupB エディターアクセスを付与します。

Correct Answer: C

基本ロールは所有者、編集者、ビューアのアクセス権をユーザーやグループに与えるために使用できますがデータアクセスのパーミッションとジョブ実行のパーミッションを分離するために使用することはできません。

Reference contents:
– 事前定義ロールと権限 > BigQuery の権限と事前定義された IAM のロール | BigQuery

Question 25

Google Cloud Dataflow パイプラインについて、次のうち当てはまらないものはどれでしょうか？

A. Google Cloud Dataflow パイプラインは Google Cloud Dataflow に関連付けられており、他のランナーで実行することはできません。
B. Google Cloud Dataflow パイプラインは他の Google Cloud サービスからのデータを消費できます。
C. Google Cloud Dataflow パイプラインはJava でプログラムできます。
D. Google Cloud Dataflow パイプラインは統合プログラミングモデルを使用しているため、ストリーミングデータソースとバッチデータソースの両方で機能します。

Correct Answer: A

Google Cloud Dataflow パイプラインはApache Beam SDK を使用して構築されているため、Spark やFlink などの代替ランタイムでも実行できます。

Reference contents:
– Dataflow

Question 26

Google Cloud Dataflow のパイプラインについて、次のうち当てはまらないものはどれでしょうか？

A. パイプラインは一連の操作です。
B. パイプラインはデータ処理ジョブを表します。
C. パイプラインはステップの有向グラフを表します。
D. パイプラインはインスタンス間でデータを共有できます。

Correct Answer: D

パイプライン内のデータおよびトランスフォームはそのパイプラインに固有のものであり、そのパイプラインが所有しています。プログラムで複数のパイプラインを作成することはできますがパイプラインはデータやトランスフォームを共有することはできません。

Reference contents:
– Dataflow > パイプライン

Question 27

Google Cloud Dataproc がサポートしている職種は次のうちどれでしょうか？（回答を 3つ選択してください）

A. Hive
B. Pig
C. YARN
D. Spark

Correct Answer: A、B、D

Google Cloud Dataproc はSpark、Spark SQL、PySpark、MapReduce、Hive、Pig ジョブなど最も一般的なジョブタイプの多くにすぐに使用できるエンドツーエンドのサポートを提供します。

Reference contents:
– Dataproc に関するよくある質問 > どのようなタイプのジョブを実行できますか？ | Dataproc ドキュメント

Question 28

レガシー SQLと標準 SQL に関する次の説明のうち、正しくないものはどれでしょうか？

A. 標準 SQL は Google BigQuery で推奨されるクエリ言語です。
B. レガシー SQL でクエリを作成する場合は標準 SQLでクエリを実行しようとするとエラーが発生する可能性があります。
C. 2つのクエリ言語の違いの 1つは完全修飾テーブル名（関連するプロジェクト名を含むテーブル名）を指定する方法です。
D. データセットごとにクエリ言語を設定する必要があり、デフォルトは標準 SQL です。

Correct Answer: D

データセットごとにクエリ言語を設定する必要はありません。クエリを実行するたびに設定され、デフォルトのクエリ言語はレガシー SQL です。
Google BigQuery 2.0がリリースされて以来、標準 SQL が推奨されるクエリ言語となっています。
レガシー SQLではプロジェクト修飾名を使用してテーブルをクエリするには、区切り文字としてコロン（：）を使用します。標準 SQL では代わりにピリオドを使用します。2つのクエリ言語（プロジェクト修飾テーブル名など）の構文の違いにより、レガシー SQL でクエリを作成する場合、標準 SQL で実行しようとするとエラーが発生する可能性があります。

Reference contents:
– 標準 SQL への移行 | BigQuery

Question 29

ワイド＆ディープラーニングモデルに関する次の記述のうち、正しいのはどれでしょうか？（回答は 2つ選択してください）

A. ワイドモデルは暗記に使用され、ディープモデルは一般化に使用されます。
B. ワイドモデルとディープモデルの適切な使用法はレコメンダーシステムです。
C. ワイドモデルは一般化に使用され、ディープモデルは暗記に使用されます。
D. ワイドモデルとディープモデルの適切な使用法は、小規模な線形回帰問題です。

Correct Answer: A、B

暗記と一般化の力を組み合わせることで人間のようにコンピュータに学習を教えることができるでしょうか？それは簡単ではありません。
答える質問ですがディープニューラルネットワーク（一般化用）と一緒に広い線形モデル（暗記用）を共同でトレーニングすることで両方の長所を組み合わせて一歩近づけることができます。Google ではこれをワイド＆ディープラーニングと呼んでいます。これはレコメンダーシステム、検索、ランク付けの問題など入力がまばらな一般的な大規模な回帰および分類の問題（可能な特徴値が多数あるカテゴリ特徴）に役立ちます。

Reference contents:
– ワイド＆ディープ組み込みアルゴリズムを使用したトレーニング
– Wide & Deep Learning: Better Together with TensorFlow
– TensorFlowのWide & Deep Learningを直感的に理解する

Question 30

Google Cloud Bigtable アクセス制御に関して正しくない説明は次のうちどれでしょうか？

A. IAM の役割を使用してプロジェクト内のすべてのテーブルではなく、プロジェクト内の 1つのテーブルのみへのアクセスをユーザーに許可することはできません。
B. プロジェクト内の 1つのテーブルのみへのアクセスをユーザーに許可するにはそのテーブルの Bigtable 編集者ロールをユーザーに付与します。
C. アクセス制御はプロジェクトレベルでのみ構成できます。
D. プロジェクト内の 1つのテーブルのみへのアクセスをユーザーに許可するにはアプリケーションを介してアクセスを構成する必要があります。

Correct Answer: B

Google Cloud Bigtable ではプロジェクトレベルでアクセス制御を設定することができます。例えば、以下のような権限を付与することができます。
– プロジェクト内の任意のテーブルに対する読み取り権限（ただし書き込みは不可）をユーザーに許可する
– プロジェクト内の任意のテーブルに対する読み取り/書き込み権限（ただしインスタンスの管理は不可）をユーザーに許可する。
– プロジェクト内の任意のテーブルに対する読み取り/書き込み権限と、インスタンスを管理する権限をユーザーに許可する。

Reference contents:
– アクセス制御 | Cloud Bigtable ドキュメント

Question 31

これらのうち、スパースベクトルの値の例はどれですか？（回答は 2つ選択してください）

A. [0, 5, 0, 0, 0, 0]
B. [0, 0, 0, 1, 0, 0, 1]
C. [0, 1]
D. [1, 0, 0, 0, 0, 0, 0]

Correct Answer: C、D

線形モデルのカテゴリ特徴は通常、各可能な値が対応するインデックスまたはID を持つ疎なベクトルに変換されます。
例えば、目の色が 3つしかない場合は「eye_color」を長さ 3のベクトルとして表現することができます。「brown」は [1, 0, 0]、「blue」は [0, 1, 0]、「green」は [0, 0, 1] になります。これらのベクトルは可能な値の集合が非常に大きい場合（すべての英単語のように）多くのゼロを持つ非常に長いベクトルになる可能性があるため、「スパース」と呼ばれています。
[0, 0, 0, 1, 0, 0, 1] は 1が 2つ入っているのでスパースベクトルではありません。スパースベクトルは 1つの 1だけを含んでいます。
[0, 5, 0, 0, 0, 0] は 5が入っているのでスパースベクトルではありません。スパースベクトルは 0と 1だけを含む。

Reference contents:
– Estimatorを使用して線形モデルを構築する

Question 32

パーティション分割テーブルにデータを入れる方法としてサポートされていないものはどれでしょうか？

A. 毎日別々のファイルに既存のデータがある場合はパーティション分割テーブルを作成して各ファイルを適切なパーティションにアップロードします。
B. クエリを実行して既存のテーブルから特定の日のレコードを取得して宛先テーブルについて、その日で終わるパーティション分割テーブルを「$YYYYMMDD」の形式で指定します。
C. パーティション分割テーブルを作成して新しいレコードを毎日ストリーミングします。
D. ORDER BY クエリを使用してテーブルの行を時系列に並べてからテーブルのタイプを「Partitioned」に変更します。

Correct Answer: D

既存のテーブルをパーティショニングテーブルに変更することはできません。最初からパーティショニングされたテーブルを作成する必要があります。次に、毎日データをストリーミングしてデータを適切なパーティションに自動的に配置するか、テーブル名の末尾にある「$YYYYMMDD」を使用して特定のパーティションにデータを読み込むことができます。

Reference contents:
– パーティション分割テーブルの概要 | BigQuery

Question 33

Google Cloud Dataproc クラスタインスタンス上でカスタマイズする方法ではないのはどれでしょうか？

A. 初期化アクションを設定します。
B. クラスタのプロパティを使用して設定ファイルを変更します。
C. Google Cloud Deployment Manager を使用してクラスタを構成します。
D. マスターノードにログインしてから変更を行います。

Correct Answer: C

Google Cloud Console でクラスタの横にあるSSH ボタンをクリックするとクラスタのマスターノードにアクセスできます。
Google Cloud SDK の dataprocコマンドの –propertiesオプションを簡単に使用してクラスタの作成時に多くの一般的な構成ファイルを変更できます。
Google Cloud Dataproc クラスタを作成するときにクラスタのセットアップ直後に Google Cloud Dataproc が Google Cloud Dataproc クラスタ内のすべてのノードで実行する実行可能ファイルやスクリプトで初期化アクションを指定できます。

Reference contents:
– クラスタプロパティ | Dataproc ドキュメント
– 初期化アクション | Dataproc ドキュメント

Question 34

トレーニングデータセットから学習するときにニューラルネットワークによって調整される数値はどれですか？（回答を 2つの選択してください）

A. ウェイト
B. バイアス
C. 継続的な機能
D. 入力値

Correct Answer: A、B

ニューラルネットワークは、基本的な数学で実装された単純なメカニズムです。従来のプログラミングモデルとニューラルネットワークの唯一の違いはトレーニングデータセットから学習することにより、コンピューターにパラメータ（重みとバイアス）を決定させることです。

Reference contents:
– Understanding neural networks with TensorFlow Playground
– TensorFlowとMLサービスの2016年の布教活動報告
– TensorFlow Playground でわかるニューラルネットワーク
– TensorFlow Playgroundはニューラルネットを理解するのにおススメ
– TensorFlow Playgroundでディープラーニングを直感的に理解しよう

Question 35

Google BigQuery Web UI から実行できる操作は次のうちどれでしょうか？

A. SQL 形式でファイルをアップロードします。
B. ネストされた繰り返しフィールドを使用してデータを読み込みします。
C. 20 MBのファイルをアップロードします。
D. ワイルドカードを使用して複数のファイルをアップロードします。

Correct Answer: B

Web UI を使用して入れ子になったフィールドや繰り返しフィールドを持つデータを読み込むことができます。
Web UI を使用して次のことはできません。
– サイズが 10 MB を超えるファイルをアップロードする。
– 複数のファイルを同時にアップロードする。
– SQL形式のファイルをアップロードする。
上記の 3つの操作はすべて bq コマンドを使用して実行することができます。

Reference contents:
– データの読み込みの概要 | BigQuery

Question 36

Google Cloud Dataproc クラスタにプリエンプティブルワーカーを追加する際に適用されるルールはどれでしょうか？（回答は 2つ選択してください）

A. プリエンプティブルワーカーは永続的なディスクを使用することができません。
B. プリエンプティブルワーカーはデータを保存できません。
C. プリエンプティブルワーカーが再生された場合は代替のワーカーを手動で追加する必要があります。
D. Google Cloud Dataproc クラスタにはプリエンプティブルワーカーのみを持つことはできません。

Correct Answer: B、D

Google Cloud Dataproc クラスタでプリエンプティブルワーカーを使用する場合は次のルールが適用されます。
– 処理のみプリエンプティブはいつでも再利用できるため、プリエンプティブルワーカーはデータを保存しません。 Google Cloud Dataproc クラスタに追加されたプリエンプティブルは処理ノードとしてのみ機能します。
-プリエンプティブのみのクラスタがすべてのワーカーを失うことがないようにするため、Google CloudDataprocはプリエンプティブのみのクラスタを作成できません。
-永続ディスクサイズデフォルトではすべてのプリエンプティブルワーカーは 100 GBまたはプライマリワーカーのブートディスクサイズのいずれか小さい方で作成されます。このディスクスペースはデータのローカルキャッシュに使用され、HDFS では使用できません。
管理対象グループは容量が許す限り、再利用によって失われたワーカーを自動的に再追加します。

Reference contents:
– プリエンプティブル VM | Dataproc ドキュメント

Question 37

これらのソースのうち、どのソースから Google BigQuery にデータを読み込めないものはどれでしょうか？

A. ファイルのアップロード
B. Google Drive
C. Google Cloud Storage
D. Google Cloud SQL

Correct Answer: D

ファイルのアップロード、Google Cloud Storage、Google ドライブ、Google Cloud Bigtable から Google BigQuery にデータを読み込むことができます。
Google Cloud SQL から直接 Google BigQuery にデータを読み込むことはできません。Google Cloud SQL から Google BigQuery にデータを取得する 1つの方法は Google Cloud SQL から Google Cloud Storage にデータをエクスポートし、そこからデータを読み込むことです。

Reference contents:
– データの読み込みの概要 | BigQuery

Question 38

Google BigQuery からのデータのエクスポートに関するこれらの説明のうち、間違っているものはどれでしょうか？

A. 1 GB以上のデータをエクスポートするにはエクスポート先のファイル名にワイルドカードを入れる必要があります。
B. サポートされているエクスポート先は Google Cloud Storage のみです。
C. データはJSON またはAvro 形式でのみエクスポートできます。
D. 利用可能な圧縮オプションはGZIP のみです。

Correct Answer: C

データはCSV、JSON、Avro 形式でエクスポートできます。ネストされたデータまたは繰り返されるデータをエクスポートする場合はCSV 形式はサポートされていません。

Reference contents:
– テーブルデータのエクスポート | BigQuery

Question 39

Google BigQuery キャッシングに関するこれらの説明のうち正しいものはどれでしょうか？

A. デフォルトではクエリの結果はキャッシュされません。
B. Google BigQuery はクエリの結果を 48時間キャッシュします。
C. クエリ結果は保存先のテーブルを指定してもキャッシュされます。
D. クエリの結果をキャッシュから取得するクエリには料金はかかりません。

Correct Answer: D

クエリ結果がキャッシュされた結果テーブルから取得された場合はクエリの料金は発生しません。Google BigQuery はクエリ結果を 48 時間ではなく 24 時間キャッシュします。クエリの結果は宛先テーブルを指定した場合など、特定の条件下を除いて常にキャッシュされます。

Reference contents:
– キャッシュに保存されているクエリ結果を使用する > クエリのキャッシュの例外| BigQuery

Question 40

Google Cloud Dataproc クラスタ内の仮想マシンがジョブを実行できるようにするために使用するサービスアカウントにどの役割を割り当てるべきでしょうか？

A. dataproc.worker
B. dataproc.viewer
C. dataproc.runner
D. dataproc.editor

Correct Answer: A

Google Cloud Dataprocで使用されるサービスアカウントには Google Cloud Dataproc/dataproc.worker の役割が必要です。（または dataproc.worker の役割によって付与されたすべての権限が必要です）

Reference contents:
– サービスアカウント | Dataproc ドキュメント

Question 41

Google Cloud Bigtable クラスタの内の特定のノードで不均衡な数の読み取りや書き込みを引き起こす可能性が高い行キーはどれでしょうか？（回答を 2つ選択してください）

A. 連続した数字 ID
B. タイムスタンプの後にマシン識別子を続けたもの
C. 連続しない数字 ID
D. タイムスタンプの後に識別子を続けたもの

Correct Answer: A、B

行キーの最初の要素としてタイムスタンプを使用すると、様々な問題が発生する可能性があります。
簡単に言うと時系列の行キーにタイムスタンプが含まれている場合はすべての書き込みは 1つのノードをターゲットにしてそのノードを埋めてからクラスタ内の次のノードに移動し、ホットスポットが発生します。システムがアプリケーションの各ユーザに数字のIDを割り当てているとします。そのユーザーの数字 IDをテーブルの行キーとして使用したいと思うかもしれません。しかし、新しいユーザーはアクティブなユーザーである可能性が高いため、このアプローチではトラフィックの大部分を少数のノードに押し付けることになります。

Reference contents:
– 時系列データ用のスキーマ設計 > 行キーのホットスポット化を回避する | Cloud Bigtable ドキュメント | Cloud Bigtable ドキュメント
– スキーマの設計 | Cloud Bigtable ドキュメント

Question 42

Google Cloud Machine Learning Engine がサポートしているソフトウェアライブラリはどれでしょうか？

A. Theano and TensorFlow
B. Theano and Torch
C. TensorFlow
D. TensorFlow and Torch

Correct Answer: C

Google Cloud ML Engine は主に 2つのことを行います。
– クラウドで TensorFlow トレーニングアプリケーションを実行することにより、機械学習モデルを大規模にトレーニングできます。
– これらのトレーニング済みモデルをクラウドでホストして、新しいデータに関する予測を取得できるようにします。

Reference contents:
– AI Platform の概要

Question 43

Google BigQuery によって処理される列の数を減らすために使用できるSQL 構文はどれでしょうか？

A. BETWEEN
B. WHERE
C. SELECT
D. LIMIT

Correct Answer: C

SELECT ではテーブル全体ではなく特定の列にクエリを実行できます。LIMIT、BETWEEN、WHERE 句を使用しても Google BigQuery で処理される列の数は減りません。

Reference contents:
– Google Cloud Platform 用リリースチェックリスト > アーキテクチャの設計と開発のチェックリスト | ドキュメント

Question 44

その列のすべての可能な値がわからない場合にカテゴリ列を設定するために使用できる TensorFlow 関数はどれでしょうか？

A. categorical_column_with_vocabulary_list
B. categorical_column_with_hash_bucket
C. categorical_column_with_unknown_values
D. sparse_column_with_keys

Correct Answer: B

列のすべての可能な機能値のセットがわかっていて、それらの数が少ない場合は categorical_column_with_vocabulary_list を使用できます。リスト内の各キーには 0から始まる自動増分IDが割り当てられます。
可能な値のセットを事前に知らない場合はどうしますか？問題ありません。代わりにcategorical_column_with_hash_bucket を使用できます。トレーニングで遭遇すると機能列の職業で可能な各値が整数 IDにハッシュされます。

Reference contents:
– tf.feature_column.categorical_column_with_hash_bucket

Question 45

機械学習データセットをトレーニングデータとテストデータに分割する必要があるのはなぜでしょうか？

A. 2つの異なる機能のセットを試すことができます。
B. モデルが訓練データ以上に一般化されていることを確認するため。
C. コードの中でユニットテストを作成できるようにするため。
D. 1つのデータセットをワイドモデルに使用し、もう1つをディープモデルに使用できます。

Correct Answer: B

トレーニングデータで予測モデルを評価する際の欠点は、モデルが新しい見えないデータにどれだけうまく一般化されているかを通知しないことです。見えないテストデータセットでの精度ではなく、トレーニングデータセットでの精度のために選択されたモデルは見えないテストデータセットでの精度が低くなる可能性が非常に高くなります。その理由はモデルがそれほど一般化されていないためです。トレーニングデータセットの構造に特化しています。これは過剰適合と呼ばれます。

Reference contents:
– A Simple Intuition for Overfitting, or Why Testing on Training Data is a Bad Idea – MachineLearningMastery.com

Question 46

地震データを分析するシステムを設計します。
抽出、変換、読み込み（ETL）プロセスはApache Hadoop クラスタで一連のMapReduce ジョブとして実行されます。一部のステップは計算コストが高いため、ETL プロセスはデータセットの処理に数日かかります。次にセンサーのキャリブレーション手順が省略されていることがわかります。
将来、センサーのキャリブレーションを体系的に実行するにはETL プロセスをどのように変更する必要がありますか？

A. transformMapReduce ジョブを修正して他のことをする前にセンサーキャリブレーションを適用するようにします。
B. 生データにセンサーキャリブレーションを適用するために新しいMapReduce ジョブを導入し、他のすべてのMapReduce ジョブがこの後にチェーン化されるようにします。
C. センサーキャリブレーションデータをETLプロセスの出力に追加し、すべてのユーザーが自分でセンサーキャリブレーションを適用する必要があることを文書化します。
D. 最後のMapReduce ジョブから出力されたデータの分散をキャリブレーション要因に基づいて予測するためのアルゴリズムをシミュレーションを通じて開発し、すべてのデータに補正を適用します。

Correct Answer: B

Question 47

複数の部署があり、それぞれが異なる優先順位と予算を持っている大企業でのBI 責任者です。
Google BigQuery のオンデマンド料金を使用し、プロジェクトごとに 2Kの同時オンデマンドスロットを割り当てます。組織のユーザーがクエリを実行するためのスロットを取得できないことがあり、これを修正する必要があります。アカウントに新しいプロジェクトを導入することは避けたいと考えています。
どうすればよいでしょうか？

A. バッチ Google BigQuery クエリをインタラクティブな Google BigQuery クエリに変換します。
B. 2Kのオンデマンドのプロジェクトごとの割り当てを克服するために追加のプロジェクトを作成します。
C. 定額料金に切り替えてプロジェクトの階層優先モデルを確立します。
D.Google Cloud コンソールの[クォータ] ページでプロジェクトごとの同時スロットの量を増やします。

Correct Answer: C

Reference contents:
– Busting 12 myths about BigQuery
– BigQuery に関する１２の誤解の真相を明らかにする

Question 48

オンライン販売機能を Google Home などのさまざまな在宅アシスタントと統合したいと考えている小売業者です。
顧客の音声コマンドを解釈し、バックエンドシステムに注文を出す必要があります。
どのソリューションを選択すべきでしょうか？

A. Google Cloud Speech-to-Text API
B. Google Cloud Natural Language API
C. Dialogflow Enterprise Edition
D. Google Cloud AutoML Natural Language

Correct Answer: C

Question 49

Google Cloud でデータパイプラインを構築しています。
機械学習プロセスの因果的方法を使用してデータを準備する必要があります。ロジスティック回帰モデルをサポートする必要があります。また、実値のままでなければならず、取り除くことができない null 値を監視して調整する必要があります。
どうすればよいでしょうか？

A. Google Cloud Dataprep を使用してサンプルソースデータの null 値を見つけます。Google Cloud Dataprocジョブを使用してすべての null を none に変換します。
B. Google Cloud Dataprep を使用してサンプルソースデータの null 値を見つけます。Google Cloud Dataprep ジョブを使用してすべての null を 0 に変換します。
C. Google Cloud Dataflow を使用してサンプルソースデータの null 値を見つけます。Google Cloud Dataprep ジョブを使用してすべての null を none に変換します。
D. Google Cloud Dataflow を使用して、サンプルソースデータの null 値を見つけます。カスタムスクリプトを使用して、すべての null を 0 に変換します。

Correct Answer: B

Question 50

服のリコメンドモデルを構築しています。
ユーザーのファッションの好みは時間の経過とともに変化する可能性が高いことがわかっているため、データパイプラインを構築して新しいデータが利用可能になったときにモデルにストリーミングします。
このデータをどのように使用してモデルをトレーニングするべきででしょうか？

A. 新しいデータのみでモデルを継続的に再トレーニングします。
B. 既存のデータと新しいデータの組み合わせでモデルを継続的に再トレーニングします。
C. 新しいデータをテストセットとして使用しながら既存のデータをトレーニングします。
D. 既存のデータをテストセットとして使用しながら新しいデータをトレーニングします。

Correct Answer: B

Professional Data Engineer 模擬問題集（2021.03.02）

Question 1

Question 2

Question 3

Question 4

Question 5

Question 6

Question 7

Question 8

Question 9

Question 10

Question 11

Question 12

Question 13

Question 14

Question 15

Question 16

Question 17

Question 18

Question 19

Question 20

Question 21

Question 22

Question 23

Question 24

Question 25

Question 26

Question 27

Question 28

Question 29

Question 30

Question 31

Question 32

Question 33

Question 34

Question 35

Question 36

Question 37

Question 38

Question 39

Question 40

Question 41

Question 42

Question 43

Question 44

Question 45

Question 46

Question 47

Question 48

Question 49

Question 50

関連する Professional Data Engineer 模擬問題集