Professional Data Engineer 模擬問題集（2021.03.01） : Cloud Smog

Google Cloud Certified - Professional Data Engineer

Written by E.G -

on 3月 1, 2021

※ 他の問題集は「タグ：Professional Data Engineer の模擬問題集」から一覧いただけます。

この模擬問題集は「Professional Data Engineer Practice Exam (2021.03.01)」の回答・参考リンクを改定した日本語版の模擬問題集です。

Google Cloud 認定資格 – Professional Data Engineer – 模擬問題集（全 50問）

Question 1

データサイエンティストが Google BigQuery ML モデルを作成し、予測値を提供するための ML パイプラインを作成するように依頼されました。
REST API アプリケーションでは各ユーザー ID の予測値を 100 ミリ秒以下のレイテンシで提供する必要があり、予測値を生成するために次のクエリを使用します。

SELECT predicted_label, user_id FROM ML.PREDICT (MODEL ‘dataset.model', table user_features)

Google BigQuery ML パイプラインはどのように作成すればよいのでしょうか？

A. クエリに WHERE クエリを追加し、アプリケーションサービスアカウントに Google BigQuery データビューアの役割を付与します。
B. 指定されたクエリを使用して承認済みのビューを作成します。ビューを含むデータセットをアプリケーションサービスアカウントと共有します。
C. BigQueryIO を使用して Google Cloud Dataflow パイプラインを作成して、クエリから結果を読み取ります。アプリケーションサービスアカウントに dataflow.worker のロール（Dataflow ワーカー）を付与します。
D. BigQueryIO を使用して Google Cloud Dataflow パイプラインを作成し、クエリから全ユーザーの予測を読み取ります。BigtableIO を使用して Google Cloud Bigtable に結果を書き込みます。アプリケーションが Google Cloud Bigtable から個々のユーザーの予測を読み取れるように、アプリケーションサービスアカウントに bigtable.reader のロールを付与します。

Correct Answer: D

Question 2

配送会社はリアルタイムでApache Kafka ストリームに送信されるライブの荷物追跡データを持っています。
これを Google BigQuery に読み込みしており、会社のアナリストはパッケージのライフサイクルにおける地理空間トレンドを分析するために Google BigQuery で追跡データをクエリしたいと考えています。このテーブルは元々、取り込み（DATE）のパーティションで作成されており、時間の経過とともにクエリの処理時間が増加しました。Google BigQuery でクエリのパフォーマンスを向上させる変更を実装する必要があります。
どうすればいいのでしょうか？

A. Google BigQuery の取り込み DATE 列にクラスタリングを実装します。
B. Google BigQuery で荷物追跡 ID 列にクラスタリングを実装します。
C. 古いデータを Google Cloud Storage ファイルに階層化し、拡張テーブルを活用します。
D. パッケージの配達日にデータパーティションを使用してテーブルを再作成します。

Correct Answer: B

Question 3

ETL ジョブを移行して Google BigQuery で実行した後、移行したジョブの出力が元のジョブの出力と同じであることを確認する必要があります。
元のジョブの出力を含むテーブルを読み込み、その内容と移行後のジョブの出力を比較して、同一であることを示したいと考えています。テーブルには比較のためにそれらを結合できるような主キー列が含まれていません。
どうすればよいでしょうか？

A. RAND() 関数を使用してテーブルからランダムなサンプルを選択し、サンプルを比較します。
B. HASH() 関数を使用してテーブルからランダムなサンプルを選択し、サンプルを比較します。
C. Google Cloud Dataproc クラスタと Google BigQuery Hadoop コネクタを使用して各テーブルからデータを読み取り、並べ替え後にテーブルの非タイムスタンプ列からハッシュを計算します。各テーブルのハッシュを比較します。
D. OVER() 関数を使用して層化ランダムサンプルを作成し、各テーブルの同等のサンプルを比較します。

Correct Answer: C

Question 4

すべての Google Cloud Bigtable クライアントリクエストは Google Cloud Bigtable ノードに送信される ____ に、フロントエンドサーバーを通過します。

A. 前
B. 場合
C. 後

Correct Answer: A

Google Cloud Bigtable アーキテクチャではすべてのクライアント要求はフロントエンドサーバーを経由してから Google Cloud Bigtable ノードに送信されます。
ノードは Google Cloud Bigtable クラスタに編成され、クラスタのコンテナである Google Cloud Bigtable インスタンスに属します。クラスタ内の各ノードは、クラスタへのリクエストのサブセットを処理します。クラスタにノードを追加するとクラスタが処理できる同時リクエストの数を増やしたり、クラスタ全体の最大スループットを上げることができます。

Reference contents:
– Cloud Bigtable の概要 | Cloud Bigtable ドキュメント

Question 5

外部の顧客がデータベースから毎日データのダンプを提供しています。
データはCSV ファイルとして Google Cloud Storage に流しています。このデータを Google BigQuery で分析したいと考えていますがデータには誤ったフォーマットの行や破損した行が含まれている可能性があります。
このパイプラインはどのように構築すればよいのでしょうか？

A. フェデレーションされたデータソースを使用して SQL クエリでデータを確認します。
B. Google Stackdriver で Google BigQuery Monitoring を有効にしてアラートを作成します。
C. gcloud CLI を使用して Google BigQuery にデータをインポートして max_bad_records を 0 に設定します。
D. Google Cloud Dataflow バッチパイプラインを実行して Google BigQuery にデータをインポートし、分析のためにエラーを別の配信不能テーブルにpush します。

Correct Answer: D

Reference contents:
– Cloud Storage からの CSV データの読み込み | BigQuery

Question 6

オンライン小売業者は現在のアプリケーションを Google App Engine で構築しています。
オンライン小売業者の新しい取り組みではアプリケーションを拡張して顧客がアプリケーションを利用してして直接取引できるようにする必要があります。ビジネスインテリジェンス（BI）ツールを使用してショッピングトランザクションを管理し、複数のデータセットから組み合わせたデータを分析する必要があります。この目的のために単一のデータベースのみを使用したいと考えています。
どの Google Cloud データベースを選択すべきでしょうか？

A. Google BigQuery
B. Google Cloud SQL
C. Google Cloud Bigtable
D. Google Cloud Datastore

Correct Answer: B

Reference contents:
– Looker ビジネスインテリジェンスプラットフォーム

Question 7

会社ではユーザーレベルのデータを含むテーブルを含む Google BigQuery データセットを管理しています。
ユーザーレベルのデータへのアクセスを制御し、このデータの集約を他の Google Cloud プロジェクトに公開したいと考えています。さらに全体的なストレージコストを最小限に抑え、他のプロジェクトの分析コストをそれらのプロジェクトに割り当てる必要があります。
どうすればよいのでしょうか？

A. 集計結果を提供する承認済みビューを作成して共有します。
B. 集計結果を提供する新しいデータセットとビューを作成して共有します。
C. 集計結果を含む新しいデータセットとテーブルを作成して共有します。
D. データセットにIAM で data.Viewe のロールを作成して共有を有効にします。

Correct Answer: A

Reference contents:
– 承認済みビューの作成 | BigQuery
– テーブルへのアクセス制御の概要 #承認済みビューとの比較 | BigQuery
– 事前定義ロールと権限 | BigQuery

Question 8

組織が GCP の利用を拡大するにつれ、多くのチームが独自のプロジェクトを作成し始めています。
プロジェクトはさまざまな展開段階やターゲットとなる対象者に対応するために、さらに数を増やしていきます。各プロジェクトには固有のアクセス制御構成が必要で中央のIT チームはすべてのプロジェクトへのアクセス権を持つ必要があります。さらに Google Cloud Storage バケットや Google BigQuery データセットからのデータはアドホックな方法で他のプロジェクトで使用するために共有する必要があります。ポリシーの数を最小限に抑えてアクセス制御管理を簡素化したいと考えています。
どのステップを取るべきでしょうか？（回答を 2つ選択してください）

A. Google Cloud Deployment Manager を使用してアクセスのプロビジョニングを自動化します。
B. リソース階層を導入してアクセス制御ポリシーの継承を活用します。
C. 様々なチームに対して明確なグループを作成して Cloud IAM ポリシーでグループを指定します。
D. Google Cloud Storage バケットと Google BigQuery データセットのデータを共有する場合のみ、サービスアカウントを使用します。
E. Google Cloud Storage バケットまたは Google BigQuery データセットごとに、アクセスが必要なプロジェクトを決定します。これらのプロジェクトへのアクセス権を持つすべてのアクティブなメンバーを探してすべてのユーザーにアクセスを許可するための Cloud IAM ポリシーを作成します。

Correct Answer: A、C

Question 9

ビジネスオーナーは銀行取引のデータベースを提供しています。
各行にはユーザーID、取引タイプ、取引場所、取引金額が記載されており、データに適用できる機械学習の種類を調査するように求められます。
機械学習アプリケーションを使うことがでしょうか？（回答を 3つ選択してください）

A. どの取引が不正である可能性が最も高いかを判断するための教師あり学習。
B. どの取引が不正である可能性が最も高いかを判断するための教師なし学習。
C. 機能の類似性に基づいてトランザクションを N個のカテゴリに分割するためのクラスタリング。
D. 教師あり学習で取引の場所を予測する。
E. 取引場所を予測するための強化学習。
F. 取引場所を予測するための教師なし学習。

Correct Answer: B、C、D

Question 10

デフォルトで Google Cloud Dataflow が無制限のデータセットに適用するウィンドウ動作は次のうちどれでしょうか？

A. 100 MBのデータごとのウィンドウ
B. 単一のグローバルウィンドウ
C. 1分ごとのウィンドウ
D. 10分ごとのウィンドウ

Correct Answer: B

Google Cloud Dataflow のデフォルトのウィンドウ動作は PCollection のすべての要素を単一のグローバルウィンドウに割り当てることです。

Reference contents:
– PCollection | Cloud Dataflow

Question 11

会社のデータアナリストはプロジェクト内で複数の GCP プロダクトを使用して作業できるようにするためにプロジェクト内で IAM Owner の役割を割り当てられています。
会社ではすべての Google BigQuery データアクセスログを 6ヶ月間保持する必要があり、社内の監査担当者のみがすべてのプロジェクトのデータアクセスログにアクセスできるようにする必要があります。
どうすればよいのでしょうか？

A. 各データアナリストのプロジェクトでデータアクセスログを有効にします。Cloud IAM ロールを介して Stackdriver Logging へのアクセスを制限します。
B. データアクセスログをプロジェクトレベルのエクスポートシンクを介して、データアナリストのプロジェクト内の Google Cloud Storage バケットにエクスポートします。Google Cloud Storage バケットへのアクセスを制限します。
C. 監査ログ用に新しく作成されたプロジェクトでプロジェクトレベルのエクスポートシンクを介してデータアクセスログを Google Cloud Storage バケットにエクスポートします。エクスポートしたログを持つプロジェクトへのアクセスを制限します。
D. 監査ログ用に新規作成されたプロジェクトの Google Cloud Storage バケットに集約されたエクスポートシンクを介してデータアクセスログをエクスポートします。エクスポートしたログを含むプロジェクトへのアクセスを制限します。

Correct Answer: D

Reference contents:
– 監査ロギングの役割の構成 #シナリオ: 外部監査者 | Cloud IAM ドキュメント
– 集約シンク | Cloud Logging

Question 12

Google Cloud Dataflow はバッチデータパイプラインまたはストリーミングデータパイプラインを処理していますか？

A. バッチデータパイプラインのみ。
B. バッチデータとストリーミングデータの両方のパイプライン。
C. ストリーミングデータパイプラインのみ
D. 上記のいずれもありません。

Correct Answer: B

Google Cloud Dataflow は統一された処理モデルでストリーミングとバッチデータパイプラインの両方を実行できます。

Reference contents:
– Dataflow

Question 13

組織内の各アナリティクスチームはそれぞれのプロジェクトで Google BigQuery ジョブを実行しています。
各チームがそれぞれのプロジェクト内でスロットの使用状況を監視できるようにしたいとします。
どうすればよいでしょうか？

A. Google BigQuery 指標 query/scanned_bytes に基づいて Stackdriver Monitoring ダッシュボードを作成します。
B. Google BigQuery 指標 slots/allocated_for_project に基づいて Stackdriver Monitoring ダッシュボードを作成します。
C. プロジェクトごとにログエクスポートを作成して Google BigQuery ジョブ実行ログをキャプチャし、totalSlotMs に基づいてカスタム指標を作成し、カスタム指標に基づいて Stackdriver Monitoring ダッシュボードを作成します。
D. 組織レベルで集計ログエクスポートを作成して Google BigQuery ジョブ実行ログをキャプチャして totalSlotMs に基づいてカスタム指標を作成し、カスタム指標に基づいて Stackdriver Monitoring ダッシュボードを作成します。

Correct Answer: B

Reference contents:
– Google Cloud ブログ：BigQuery スロットの使用状況を分析する実践的な手法
– BigQuery Reservations のモニタリング | Cloud Monitoring
– Google Cloud metrics | Cloud Monitoring

Question 14

この問題については Flowlogistic のケーススタディを参照してください。
Flowlogistic はリアルタイムの在庫追跡システムを展開しています。
トラッキングデバイスはすべてのパッケージ追跡メッセージを送信してそのメッセージはApache Kafka クラスタの代わりに単一の Google Cloud Pub/Sub トピックに送られます。サブスクライバーアプリケーションは、リアルタイムレポート用にメッセージを処理し、履歴分析のために GoogleBigQuery に保存します。パッケージデータを長期にわたって分析できるようにする必要があります。
どのアプローチを取るべきでしょうか？

A. 受信時にGoogleCloud Pub/Sub サブスクライバーアプリケーションの各メッセージにタイムスタンプを添付します。
B. Google Cloud Pub/Sub に送信されるときに各パブリッシャーデバイスからの送信メッセージにタイムスタンプとパッケージ ID を添付します。
C. Google BigQuery のNOW() 関数を使用してイベントの時間を記録します。
D. Google Cloud Pub/Sub から自動生成されたタイムスタンプを使用してデータの順序付けを行います。。

Correct Answer: B

Question 15

この問題については Flowlogistic のケーススタディを参照してください。
Flowlogistic は Google BigQuery をプライマリ分析システムとして使用したいと考えていますがApache Hadoop とSpark のワークロードが残っており、Google BigQuery に移行することができません。
Flowlogistic は両方のワークロードに共通するデータを保存する方法を知りません。
どうすればいいのでしょうか？

A. Google BigQuery の共通データをパーティショニングされたテーブルとして保存します。
B. 共通データを Google BigQuery に格納し、承認済みビューを公開します。
C. Avro としてエンコードされた共通データを Google Cloud Storage に格納します。
D. 共通データを Google Cloud Dataproc クラスタ用のHDFS ストレージに格納します。

Correct Answer: B

Reference contents:
– BigQueryと上手に付き合う4つのTips | google-cloud-jp

Question 16

この問題については Flowlogistic のケーススタディを参照してください。
Flowlogistic のCEOは営業チームが現場でより良い情報を得られるように顧客ベースについて迅速な洞察を得たいと考えています。
このチームはあまり技術的ではないので Google BigQuery レポートの作成を簡単にするために可視化ツールを購入しました。しかし、テーブル内のすべてのデータに圧倒され、必要なデータを見つけようとしてクエリに多くの費用を費やしています。この問題を最も費用対効果の高い方法で解決したいと考えています。
何をすべきでしょうか？

A. 仮想化のために Google スプレッドシートに書き出します。
B. 必要な列だけを追加したテーブルを作成します。
C. テーブルにビューを作成して仮想化ツールに表示します。
D. 適切な列にIDとアクセス管理（IAM）のロールを作成し、それらのロールのみがクエリに表示されるようにします。

Correct Answer: C

Question 17

この問題については Flowlogistic のケーススタディを参照してください。
Flowlogistic の経営陣は現在のApache Kafka サーバーではリアルタイム在庫追跡システムのデータ量を処理できないと判断しました。
GCP 上に独自のトラッキングソフトウェアを供給する新しいシステムを構築する必要があります。このシステムはさまざまなグローバルソースからデータを取り込み、リアルタイムで処理とクエリを行い、データを確実に保存することができなければなりません。
GCP プロダクトのどの組み合わせを選択すればよいでしょうか？

A. Google Cloud Pub/Sub、Google Cloud Dataflow、Google Cloud Storage
B. Google Cloud Pub/Sub、Google Cloud Dataflow、Local SSD
C. Google Cloud Pub/Sub、Google Cloud SQL、Google Cloud Storage
D. Google Cloud Load Balancing、Google Cloud Dataflow、Google Cloud Storage
E. Google Cloud Dataflow、Google Cloud SQL、Google Cloud Storage

Correct Answer: A

Question 19

天気アプリは 15分ごとにデータベースにクエリを実行して現在の気温を取得します。
フロントエンドは Google App Engine を利用しており、何百万ものユーザーにサービスを提供しています。
データベース障害に対応するためにフロントエンドをどのように設計する必要がありますか？

A. コマンドを実行してデータベースサーバを再起動します。
B. 指数的なバックオフを使用して 15分を上限に問い合わせを再試行します。
C. データの古さを最小限に抑えるためにオンラインに戻るまで 1秒ごとにクエリを再試行します。
D. データベースがオンラインに戻るまでクエリの頻度を1時間に1回に減らします。

Correct Answer: B

Question 18

最高のパフォーマンスを実現するために Google Compute Engine インスタンスと Google Cloud Bigtable インスタンスの推奨ゾーンは何でしょうか？

A. Google Compute Engine インスタンスを Google Cloud Bigtable インスタンスから最も遠いゾーンに配置します。
B. Google Compute Engine インスタンスと Google Cloud Bigtable インスタンスの両方を異なるゾーンに配置します。
C. Google Compute Engine インスタンスと Google Cloud Bigtable インスタンスの両方を同じゾーンに配置します。
D. Google Cloud Bigtable インスタンスをデータのすべてのコンシューマーと同じゾーンに配置します。

Correct Answer: C

最高のパフォーマンスを得るには Google Cloud Bigtable インスタンスと同じゾーンに Google Compute Engine インスタンスを作成することをお勧めします。同じゾーンにインスタンスを作成できない場合は、同じゾーン内の別のゾーンにインスタンスを作成する必要があります。たとえば Google Cloud Bigtable インスタンスが us-central1-b にある場合、インスタンスを us-central1-f に作成できます。この変更により、Google Cloud Bigtable リクエストごとに数ミリ秒の追加のレイテンシが発生する可能性があります。Google Cloud Bigtable インスタンスとは異なるリージョンに Google Compute Engine インスタンスを作成しないことをお勧めします。これにより、各 Google Cloud Bigtable リクエストに数百ミリ秒のレイテンシが追加される可能性があります。

Reference contents:
– Cloud Bigtable OAuth スコープ | Cloud Bigtable ドキュメント

Question 20

この問題については MJTelco のケーススタディを参照してください。
MJTelco が1日あたりの取り込みに関心を持っているレコードストリームを考えると Google BigQuery のコストが増加することを懸念しています。
MJTelco は設計ソリューションを提供するように依頼します。それらには tracking_table と呼ばれる単一の大きなデータテーブルが必要です。さらに毎日のイベントの詳細な分析を実行しながら毎日のクエリのコストを最小限に抑えたいと考えています。また、ストリーミング取り込みを使用したいと考えています。
何をするべきでしょうか？

A. tracking_table というテーブルを作成してDATE 列を含めます。
B. tracking_table というパーティショニングされたテーブルを作成してTIMESTAMP 列を含めます。
C. tracking_table_YYYYMMDD のパターンに従って、各日のシャードテーブルを作成します。
D. tracking_table というテーブルを作成してその日を表すTIMESTAMP 列を含めます。

Correct Answer: B

Question 21

Google Cloud Bigtable は各行の単一の値にインデックスを付けます。この値は＿＿＿と呼ばれています。

A. プライマリキー
B. 一意のキー
C. 行キー
D. マスターキー

Correct Answer: C

Google Cloud Bigtable は人口がまばらなテーブルで数十億行と数千列に拡張できるため、テラバイトまたはペタバイトのデータを保存できます。各行の単一の値にインデックスが付けられます。この値は行キーと呼ばれます。

Reference contents:
– Cloud Bigtable の概要 | Cloud Bigtable ドキュメント

Question 22

Google Cloud Bigtable は _________ を保存するための推奨オプションですか？

A. 非常に高いレイテンシで大量のマルチキーデータ
B. 非常に低いレイテンシで大量のマルチキーデータ
C. 非常に低いレイテンシで大量のシングルキーデータ
D. 非常に高いレイテンシで大量のシングルキーデータ

Correct Answer: C

Google Cloud Bigtable は数十億行、数千列のテーブルにスケールすることができ、テラバイト、あるいはペタバイトのデータを保存することができます。各行の 1つの値がインデックス化されており、この値が行キーと呼ばれています。Google Cloud Bigtable は非常に大量のシングルキーデータを非常に低いレイテンシで保存するのに最適です。低レイテンシで高い読み書きスループットをサポートしており、MapReduce 操作に理想的なデータソースです。

Reference contents:
– Cloud Bigtable の概要 | Cloud Bigtable ドキュメント

Question 23

Google Cloud Bigtable は Google の _____ ビッグデータデータベースサービスです。

A. リレーショナル
B. MySQL
C. NoSQL
D. SQL Server

Correct Answer: C

Google Cloud Bigtable は Google の NoSQL ビッグデータデータベースサービスです。Google が検索、アナリティクス、マップ、Gmail などのサービスで使用しているのと同じデータベースです。モノのインターネット（IoT）、ユーザー分析、財務データ分析など、低レイテンシーでスループットが高い要件に利用されています。

Reference contents:
– Cloud Bigtable: NoSQL データベースサービス

Question 24

Google Cloud Dataproc は＿＿＿の課金で実際に使用したものに対してのみ課金します。

A. 秒単位
B. 分単位
C. 週単位
D. 時間単位

Correct Answer: A

Google Cloud Dataproc の利点の 1つはその低コストです。Google Cloud Dataproc は秒単位の課金と 1分の最小請求対象期間で実際に使用したものに対して課金します。

Reference contents:
– Dataproc とは | Dataproc ドキュメント

Question 25

Google Cloud Dataproc クラスタには多くの構成ファイルが含まれています。
これらのファイルを更新するには –properties オプションを使用する必要があります。
このオプション書式は file_prefix:property= _____ です。

A. details
B. value
C. null
D. id

Correct Answer: B

ファイルとプロパティの更新を簡単にするために -propertiesコマンドは特別な形式を使用して、構成ファイルと更新する必要のあるファイル内のプロパティと値を指定します。
形式は次のとおりです。
file_prefix: property = value

Reference contents:
– クラスタプロパティ > 書式設定 | Dataproc ドキュメント

Question 26

Google Cloud Dataproc はマネージド Apache ＿＿＿ / Apache Hadoop サービスです。

A. Blaze
B. Spark
C. Fire
D. Ignite

Correct Answer: B

Google Cloud Dataproc は Apache Spark / Apache Hadoop サービスであり、バッチ処理、クエリ、ストリーミング、機械学習にオープンソースのデータツールを使用できます。

Reference contents:
– Dataproc ドキュメント

Question 27

業界の政府規制により、特定の種類のデータへのアクセスの監査可能な記録を維持しなければならないことが義務付けられています。
期限切れのログがすべて正しくアーカイブする場合、その義務の対象となるデータはどこに保管すべきでしょうか？

A. ユーザーが提供する暗号鍵で Google Cloud Storage 上で暗号化します。承認された各ユーザーには個別の復号鍵が与えられます。
B. 権限を与えられた担当者のみが閲覧可能な Google BigQuery データセットで監査可能性を提供するためにデータアクセスログを使用します。
C. Google Cloud SQL で各ユーザーに個別のデータベースユーザー名が付与されます。Google Cloud SQL Admin のアクティビティログが監査可能性を提供するために使用します。
D. Google Cloud Storage バケットでバケットへのリンクを提供する前にユーザー情報を収集し、アクセスをログに記録する Google App Engine サービスのみがアクセス可能なバケットにします。

Correct Answer: B

Question 28

ニューラルネットワークにカテゴリ間の関係性をカテゴリ特徴量で学習させるにはどうすればいいのでしょうか？

A. マルチホット列を作成します。
B. ワンホット列を作成します。
C. ハッシュバケットを作成します。
D. 埋め込み列を作成します。

Correct Answer: D

ワンホットエンコーディングには 2つの問題があります。まず、次元が高いため、連続フィーチャのように1つの値だけではなく、多くの値または次元があります。これにより、特に機能に非常に多くのカテゴリがある場合、計算に時間がかかります。2番目の問題はカテゴリ間の関係がエンコードされないことです。それらは互いに完全に独立しているため、ネットワークにはどれが互いに類似しているかを知る方法がありません。これらの問題は両方とも、埋め込み列でカテゴリ特徴を表すことで解決できます。
考え方は各カテゴリにはたとえば 5つの値を含む小さなベクトルがあるということです。ただし、ワンホットベクトルとは異なり、値は通常 0ではありません。値は重みであり、ニューラルネットワークの基本機能に使用される重みと同様です。違いは各カテゴリに重みのセット（この場合は 5つ）があることです。
埋め込みベクトルの各値はカテゴリの特徴と考えることができます。したがって、2つのカテゴリが互いに非常に類似している場合はそれらの埋め込みベクトルも非常に類似している必要があります。

Reference contents:
– Introduction to Google AI Platform Course
– ワイド＆ディープ組み込みアルゴリズムを使用したトレーニング #追加の特徴列 | AI Platform Training

Question 29

Google BigQuery テーブルの特定のパーティションをどのようにクエリすればよいでしょうか？

A. WHERE 句でDAY 列を使用してください。
B. EXTRACT (DAY) クエリを使用します。
C. WHERE 句で _PARTITIONTIME 疑似列を使用します。
D. WHERE 句で DATEBETWEEN を使用します。

Correct Answer: C

パーティション化されたテーブルには、テーブルに読み込みされたデータの日付ベースのタイムスタンプを含む _PARTITIONTIME という名前の疑似列が含まれます。クエリを特定のパーティション（2017年1月1日と2日など）に制限するには次のようクエリを使用します。
WHERE _PARTITIONTIME BETWEEN TIMESTAMP（ ‘2017-01-01’）と TIMESTAMP（ ‘2017-01-02’）

Reference contents:
– パーティション分割テーブルの概要 | BigQuery
– パーティション分割テーブルのクエリ > _PARTITIONTIME 疑似列

Question 30

データセットに生年月日、国、収入の個々の人と列を含む行が含まれている場合、連続している列とカテゴリ列はいくつになるでしょうか？

A. 1つの連続的なものと2つのカテゴリなもの
B. 3つのカテゴリ
C. 3つの連続
D. 連続的なものが2つ、カテゴリなものが1つ

Correct Answer: D

カラムはカテゴリ列と連続列の 2種類に分けることができます。
列の値が有限集合内のカテゴリのいずれかにしかならない場合、列はカテゴリと呼ばれます。例えば、人の出身国（米国、インド、日本など）や教育レベル（高校、大学など）はカテゴリ列です。カラムの値が連続的な範囲内の任意の数値である場合、カラムは連続的と呼ばれます。例えば、ある人のキャピタルゲイン（例：$14,084）は連続列です。
生年月日と所得は連続列で国はカテゴリ列です。バケット化を使用して、出生年および/または所得をカテゴリの特徴に変えることができますが、生の列は連続しています。

Question 31

最近の株価履歴から特定の銘柄の価格を予測する機械学習モデルを作成したい場合はどのタイプの推定量を使用する必要がありますか？

A. 教師なし学習
B. リグレッサー
C. 分類
D. クラスタリング

Correct Answer: B

回帰は連続的な数値変数をモデル化および予測するための教師あり学習タスクです。例えば、不動産価格、株価の動き、学生のテストスコアの予測などがあります。分類はカテゴリ変数をモデル化および予測するための教師あり学習タスクです。例としては従業員の解約、電子メールスパム、金融詐欺、学生の手紙の成績の予測などがあります。クラスタリングはデータセット内の固有の構造に基づいて、観測値の自然なグループ（クラスタ）を見つけるための教師なし学習タスクです。例としては顧客のセグメンテーション、eコマースでの類似アイテムのグループ化、ソーシャルネットワーク分析などがあります。

Reference contents:
– Modern Machine Learning Algorithms: Strengths and Weaknesses

Question 32

Google Cloud Bigtable に依存するパフォーマンステストを実行している場合は以下の 1つを除くすべての選択肢が推奨される手順です。
従うべき推奨されないステップはどれですか？

A. 本番インスタンスは使用しない。
B. テストを少なくとも 10分間実行します。
C. テストする前に重い事前テストを数分間実行します。
D. 少なくとも 300 GBのデータを使用します。

Correct Answer: A

Google Cloud Bigtable に依存するパフォーマンステストを実行する場合は以下の手順に従ってテストを計画して実行してください。
本番用インスタンスを使用します。開発インスタンスでは負荷がかかったときに本番インスタンスがどのようにパフォーマンスを発揮するかを正確に把握することはできません。
最低でも 300 GBのデータを使用します。Google Cloud Bigtable は 1 TB 以上のデータで最高のパフォーマンスを発揮します。しかし、3ノードのクラスタでのパフォーマンステストでは 300 GBのデータで十分な結果が得られます。大規模なクラスタでは 1ノードあたり 100 GB のデータを使用してください。
テストを行う前に数分間、重い事前テストを実行します。このステップにより、Google Cloud Bigtable が観測したアクセスパターンに基づいてノード間でデータのバランスをとることができます。
少なくとも 10分間テストを実行します。このステップにより、Google Cloud Bigtable はデータをさらに最適化し、ディスクからの読み取りとメモリからのキャッシュされた読み取りのテストを確実に行うことができます。

Reference contents:
– Cloud Bigtable のパフォーマンスについて

Question 33

コンピュータのWeb ブラウザから Google Cloud Dataproc クラスタに安全に Web トラフィックデータを転送するには _____ を使用する必要があります。

A. VPN 接続
B. 特別なブラウザ
C. SSH トンネル
D. FTP 接続

Correct Answer: C

ウェブインターフェースに接続するには SSH トンネルを使用してマスターノードへの安全な接続を作成することをお勧めします。

Reference contents:
– クラスタウェブインターフェース > ウェブインターフェースへの接続

Question 34

この問題については MJTelco のケーススタディを参照してください。
MJTelco はデータを共有するためのカスタムインターフェイスを構築しています。
これらには次の要件があります。
– ペタバイトスケールのデータセットに対して集計を行うこと。
– 非常に速い応答時間（ミリ秒）で特定の時間範囲の行をスキャンすること。
Google Cloud Platform プロダクトのどの組み合わせを推奨しますか？

A. Google Cloud Datastore と Google Cloud Bigtable
B. Google Cloud Bigtable と Google Cloud SQL
C. Google BigQuery と Google Cloud Bigtable
D. Google BigQuery と Google Cloud Storage

Correct Answer: C

Question 35

この問題については MJTelco のケーススタディを参照してください。
MJTelco では過去 2年間のレコードの履歴分析を可能にするスキーマを Google Bigtable で作成する必要があります。
着信する各レコードは 15分ごとに送信され、デバイスの一意の識別子とデータレコードが含まれます。最も一般的なクエリは特定の日の特定のデバイスのすべてのデータに対するクエリです。
どのスキーマを使用する必要がありますか？

A.
- 行キー：date#device_id Column
- データ：data_point
B.
- 行キー：date Column
- データ：device_id, data_point
C.
- 行キー：device_id Column
- データ：date, data_point
D.
- 行キー：data_point Column
- データ：device_id, date
E.
- 行キー：date#data_point Column
- データ：device_id

Correct Answer: D

Reference contents:
– スキーマの設計 | Cloud Bigtable ドキュメント

Question 36

この問題については MJTelco のケーススタディを参照してください。
MJTelco の Google Cloud Dataflow パイプラインは 5万台のインストールからデータの受信を開始する準備が整いました。
Google Cloud Dataflow が必要に応じて計算能力をスケールアップできるようにしたいと思います。
どの Google Cloud Dataflow パイプライン構成設定を更新するべきでしょうか？

A. ゾーン
B. ワーカーの数
C. ワーカーあたりのディスクサイズ
D. ワーカーの最大数

Correct Answer: A

Reference contents:
– パイプラインのデプロイ > ロケーション

Question 37

Google Cloud Dataproc クラスタのスケーリングには通常、＿＿＿＿＿＿が含まれます。

A. ワーカーノードの数を増減すること
B. マスターノードの数を増減すること
C. メモリを移動して単一ノードでより多くのアプリケーションを実行すること
D. 未使用のノードからアプリケーションを定期的に削除すること

Correct Answer: A

Google Cloud Dataprocクラスタを作成した後、クラスタでジョブが実行されている場合でもクラスタ内のワーカーノードの数をいつでも増減することでクラスタをスケーリングできます。Google Cloud Dataproc クラスタは通常、次のようにスケーリングされます。
1）作業者の数を増やして、ジョブの実行を高速化します。
2）コストを節約するために労働者の数を減らす。
3）ノードの数を増やして利用可能なHadoop分散ファイルシステム（HDFS）ストレージを拡張する。

Reference contents:
– クラスタのスケーリング | Dataproc ドキュメント

Question 38

人間の顔が含まれているかどうかについてそれぞれラベルが付けられた画像のデータセットがあります。
このラベル付きデータセットを使用して画像内の人間の顔を認識するニューラルネットワークを作成するにはどのアプローチが最も効果的でしょうか？

A. K 平均法クラスタリングを使用して、ピクセル内の顔を検出します。
B. 特徴エンジニアリングを使用して、目、鼻、口の機能を入力データに追加します。
C. 複数の隠れ層を持つニューラルネットワークを作成してディープラーニングを使用し、顔の特徴を自動的に検出します。
D. 入力層がピクセル、隠れ層、出力層が2つのカテゴリを持つニューラルネットワークを構築します。

Correct Answer: C

従来の機械学習は 1つの入力層と 1つの出力層からなる浅いネットに依存しており、その間には最大でも 1つの隠蔽層があります。（入力と出力を含む）3つ以上の層は「深い」学習とみなされます。つまり、ディープは厳密に定義された専門用語であり、2つ以上の隠れ層を意味します。
深層学習ネットワークでは、ノードの各層は、前の層の出力に基づいて、異なる特徴のセットに基づいて学習します。ニューラルネットに進むほど、前の層の特徴を集約して再結合するため、ノードが認識できる特徴は複雑になります。なぜなら、線などの低レベルの特徴を検出する前の隠れ層を使用して、これらの特徴を「構築」することができないからです。このように、生の画像データを用いて特徴付けを行うことは困難です。
K 平均法クラスタリングはラベル付けされていないデータを分類するために使用される教師なし学習法です。

Reference contents:
– Neural Networks: Structure | Machine Learning Crash Course

Question 39

「person」という列の中に「city」というネストされた列を含むテーブルがあるとします。
Google BigQuery で次のクエリを送信しようとするとエラーが発生します。

SELECT person FROM `project1.example.table1` WHERE city =" London

エラーをどのように修正しますか？

A. WHERE 句の前に「, UNNEST(person)」を追加します。
B.「person」を「person.city」に変更します。
C.「person」を「city.person」に変更します。
D. WHERE 句の前に「, UNNEST(city)」を追加します。

Correct Answer: A

person.city 列にアクセスするには「 UNNEST(person)」を実行し、カンマを使用してtable1に結合する必要があります。

Reference contents:
– 標準 SQL への移行 > ネストした繰り返しの結果 | BigQuery

Question 40

Google Cloud Bigtable 用の ______ を使用すると Google Cloud Dataflow パイプラインで Google Cloud Bigtable を使用できます。

A. Google Cloud Dataflow コネクタ
B. Google Cloud Dataflow SDK
C. Google BigQuery API
D. Google BigQuery Data Transfer Service

Correct Answer: A

Google Cloud Bigtable 用の Google Cloud Dataflow コネクタを使用すると Google Cloud Dataflow パイプラインで Google Cloud Bigtable を使用できます。コネクタはバッチ操作とストリーミング操作の両方に使用できます。

Reference contents:
– Cloud Bigtable 用の Dataflow コネクタ | Cloud Bigtable ドキュメント

Question 41

Google Cloud Machine Learning Engine のカスタム階層ではどのタイプのクラスタノードの数を指定できますか？

A. ワーカー
B. マスター、ワーカー、パラメーターサーバー
C. ワーカーとパラメーターサーバー
D. パラメータサーバー

Correct Answer: C

カスタム階層はスケール階層ではなく、独自のクラスタ仕様を使用できるようにします。この層を使用する場合は次のガイドラインに従って処理クラスタを構成するための値を設定します。
TrainingInput.masterType を設定して、マスターノードに使用するマシンのタイプを指定する必要があります。
TrainingInput.workerCountを設定して、使用するワーカーの数を指定できます。TrainingInput.parameterServerCountを設定して、使用するパラメーターサーバーの数を指定できます。
マスターノードのマシンのタイプを指定できますが、複数のマスターノードを指定することはできません。

Reference contents:
– トレーニングの概要 | AI Platform Training
– マシンタイプ、スケール階層の指定 | AI Platform Training

Question 42

Google Cloud Dataflow SDK はどのApache サービスに移行されたでしょうか？

A. Apache Spark
B. Apache Hadoop
C. Apache Kafka
D. Apache Beam

Correct Answer: D

Google Cloud Dataflow SDK は Google に従って、Apache Beam に移行されています。

Reference contents:
– Dataflow ドキュメント

Question 43

組織のマーケティングチームは顧客データセットのセグメントの定期的な更新を提供します。
マーケティングチームから Google BigQuery で更新する必要のある 100万件のレコードを含むCSV ファイルが提供されました。Google BigQuery でUPDATE ステートメントを使用するとquotaExceeded エラーが発生します。
何をするべきでしょうか？

A. Google BigQuery UPDATE DML ステートメントの制限内に収まるように毎日更新されるレコードの数を減らします。
B. Google Cloud Platform Console のクォータ管理セクションで Google BigQuery UPDATEDML ステートメントの制限を増やします。
C. Google Cloud Storage でソースのCSV ファイルをより小さなCSV ファイルに分割し、Google BigQuery ジョブごとの Google BigQuery UPDATE DML ステートメントの数を減らします。
D. CSV ファイルから新しい Google BigQuery テーブルに新しいレコードをインポートします。新しいレコードを既存のレコードとマージし、結果を新しい Google BigQuery テーブルに書き込む Google BigQuery ジョブを作成します。

Correct Answer: D

Reference contents:
– Google Cloud ブログ：BigQuery 特集: データ操作（DML）
– データ操作言語の構文 #MERGE ステートメント | BigQuery
– 割り当てと上限 > ストリーミング挿入 | BigQuery

Question 44

YARNResourceManager およびHDFSNameNode インターフェースは Google Cloud Dataproc クラスタ＿＿＿＿＿で使用できます。

A. アプリケーションノード
B. 条件付きノード
C. マスターノード
D. ワーカーノード

Correct Answer: C

YARNResourceManager およびHDFSNameNode インターフェースは Google Cloud Dataproc クラスタマスターノードで使用できます。クラスタ master-host-name は Google Cloud Dataproc クラスタの名前の後に「 -m」が接尾語として付きます。
たとえば、クラスタの名前が「my-cluster」の場合、master-host-nameは「my-cluster-m」になります。

Reference contents:
– クラスタウェブインターフェース #使用可能なインターフェース

Question 45

テーブルの最初の 3列のみに対する読み取り権限をユーザーに付与するにはどのアクセス制御方法を使用するべきででしょうか？

A. 基本ロール
B. 事前定義ロール
C. 承認済みビュー
D. テーブルの最初の 3列だけにアクセス権を与えることはできません。

Correct Answer: C

承認済みのビューを使用すると特定のユーザやグループに対してそのユーザに基礎となるテーブルへの読み取りアクセス権を与えずに、クエリ結果を共有することができます。権限付きビューはビューによってクエリされたテーブルを含まないデータセットにのみ作成することができます。
権限付きビューを作成する際にはビューのSQL クエリを使用して、ユーザに表示させたい行と列のみにアクセスを制限します。

Reference contents:
– 承認済みのビューの作成 | BigQuery

Question 46

Google Cloud Machine Learning Engine を使用して自分のコンピュータで TensorFlow トレーニングジョブを実行するにはコマンドは何から始まるでしょうか？

A. gcloud ml-engine local train
B. gcloud ml-engine jobs submit training
C. gcloud ml-engine jobs submit training local
D. Google Cloud ML Engine を使用して自分のコンピューターで TensorFlow プログラムを実行することはできません。

Correct Answer: A

gcloud ml-engine local train：Google Cloud ML Engine トレーニングジョブをローカルで実行します。
このコマンドはライブのGoogle Cloud ML Engineトレーニングジョブと同様の環境で指定されたモジュールを実行します。これは分散モデルをテストする場合に特に有用で Google Cloud ML Engineのクラスタ構成と適切に相互作用しているかどうかを検証することができます。

Reference contents:
– gcloud ml-engine local train | Cloud SDK ドキュメント

Question 47

Google BigQuery の操作に対して課金されるのはどれでしょうか？

A.ストレージ、クエリ、ストリーミングインポート
B.ストレージ、クエリ、ファイルからのデータの読み込み。
C.ストレージ、クエリ、データエクスポート
D.クエリとストリーミングインポート

Correct Answer: A

Google はストレージ、クエリ、ストリーミングインポートに対して料金を請求します。ファイルからのデータの読み込みとデータのエクスポートは無料の操作です。

Reference contents:
– 料金 | BigQuery

Question 48

Google Cloud Dataproc で利用するサービスアカウントに必要な最低限の権限は何でしょうか？

A. Google Cloud Storage に対して実行、Google Cloud Logging に対して書き込み。
B. Google Cloud Storage に対して書き込み、Google Cloud Logging に対して読み込み。
C. Google Cloud Storage に対して実行、Google Cloud Logging に対して実行。
D. Google Cloud Storage の対して読み取りと書き込み、Google Cloud Logging に対して書き込み。

Correct Answer: D

サービスアカウントは仮想マシンインスタンスで実行されているアプリケーションを他の Google Cloud Platform サービスに対して認証します。たとえば、Google Cloud Storage でファイルを読み書きするアプリケーションを作成する場合は最初に Google Cloud Storage API に対して認証する必要があります。少なくとも、Google Cloud Dataproc で使用されるサービスアカウントには Google Cloud Storage の読み取りと書き込み、および Google Cloud Logging への書き込みの権限が必要です。

Reference contents:
– サービスアカウント | Dataproc ドキュメント

Question 49

Google BigQuery でテーブルを非正規化するために使用できる2つの方法はどれでしょうか？

A.
- 1) テーブルを複数のテーブルに分割します。
- 2) パーティションテーブルを使用します。
B.
- 1) テーブルを 1つのテーブルに結合します。
- 2) ネストされた繰り返しフィールドを使用します。
C.
- 1) パーティションテーブルを使用します。
- 2) テーブルを 1つのテーブルに結合します。
D.
- 1) ネストされた繰り返しフィールドを使用します。
- 2) パーティションテーブルを使用します。

Correct Answer: B

データを非正規化する従来の方法ではフラットなテーブル構造にファクトをすべてのディメンジョンと一緒に書き込むだけです。たとえば、販売取引を扱っている場合は個々のファクトをレコードに書き込み、注文や顧客情報などのディメンジョンを付随させます。
データを非正規化するもう 1つの方法は Google BigQuery ネイティブサポートのJSON またはAvro 入力データの入れ子構造と繰り返し構造を利用します。入れ子構造と繰り返し構造を使用してレコードを表現することで基礎となるデータをより自然に表現することができます。販売注文の場合、JSON 構造の外側の部分には注文と顧客情報が含まれ、構造の内側の部分には注文の個々の行項目が含まれ、これらは入れ子になった繰り返し要素として表現されます。

Reference contents:
– データウェアハウス使用者のための BigQuery > 非正規化 | Solutions

Question 50

Google BigQuery で非正規化されたデータ構造を使用するメリットどれでしょうか？（回答を 2つ選択してください）

A. 処理されるデータの量を減らし、必要なストレージの量を減らします。
B. クエリ速度を上げ、クエリを簡単にします。
C. 必要なストレージの量を減らし、クエリ速度を上げます。
D. 処理されるデータの量を減らし、クエリ速度を上げます。

Correct Answer: B

非正規化は大きなテーブルでJOIN を実行すると Google BigQuery のパフォーマンスが低下するため、数十億行のテーブルのクエリ速度を向上させますが、非正規化されたデータ構造ではすべてのデータが 1つのテーブルに結合されているため、JOIN を使用する必要はありません。非正規化ではJOIN クエリを使用する必要がないため、クエリも簡単になります。非正規化は冗長データを作成するため、処理されるデータの量と必要なストレージの量を増やします。

Reference contents:
– データウェアハウス使用者のための BigQuery > 非正規化 | Solutions

Professional Data Engineer 模擬問題集（2021.03.01）

Question 1

Question 2

Question 3

Question 4

Question 5

Question 6

Question 7

Question 8

Question 9

Question 10

Question 11

Question 12

Question 13

Question 14

Question 15

Question 16

Question 17

Question 19

Question 18

Question 20

Question 21

Question 22

Question 23

Question 24

Question 25

Question 26

Question 27

Question 28

Question 29

Question 30

Question 31

Question 32

Question 33

Question 34

Question 35

Question 36

Question 37

Question 38

Question 39

Question 40

Question 41

Question 42

Question 43

Question 44

Question 45

Question 46

Question 47

Question 48

Question 49

Question 50

関連する Professional Data Engineer 模擬問題集