※ 他の問題集は「タグ:Professional Data Engineer の模擬問題集」から一覧いただけます。
この模擬問題集は「Professional Data Engineer Practice Exam (2021.03.01)」の回答・参考リンクを改定した日本語版の模擬問題集です。
Google Cloud 認定資格 – Professional Data Engineer – 模擬問題集(全 50問)
Question 1
データサイエンティストが Google BigQuery ML モデルを作成し、予測値を提供するための ML パイプラインを作成するように依頼されました。
REST API アプリケーションでは各ユーザー ID の予測値を 100 ミリ秒以下のレイテンシで提供する必要があり、予測値を生成するために次のクエリを使用します。
SELECT predicted_label, user_id FROM ML.PREDICT (MODEL ‘dataset.model', table user_features)
Google BigQuery ML パイプラインはどのように作成すればよいのでしょうか?
- A. クエリに WHERE クエリを追加し、アプリケーション サービス アカウントに Google BigQuery データ ビューアの役割を付与します。
- B. 指定されたクエリを使用して承認済みのビューを作成します。ビューを含むデータセットをアプリケーション サービス アカウントと共有します。
- C. BigQueryIO を使用して Google Cloud Dataflow パイプラインを作成して、クエリから結果を読み取ります。アプリケーション サービス アカウントに dataflow.worker のロール(Dataflow ワーカー)を付与します。
- D. BigQueryIO を使用して Google Cloud Dataflow パイプラインを作成し、クエリから全ユーザーの予測を読み取ります。BigtableIO を使用して Google Cloud Bigtable に結果を書き込みます。アプリケーションが Google Cloud Bigtable から個々のユーザーの予測を読み取れるように、アプリケーション サービス アカウントに bigtable.reader のロールを付与します。
Correct Answer: D
Question 2
配送会社はリアルタイムでApache Kafka ストリームに送信されるライブの荷物追跡データを持っています。
これを Google BigQuery に読み込みしており、会社のアナリストはパッケージのライフサイクルにおける地理空間トレンドを分析するために Google BigQuery で追跡データをクエリしたいと考えています。このテーブルは元々、取り込み(DATE)のパーティションで作成されており、時間の経過とともにクエリの処理時間が増加しました。Google BigQuery でクエリのパフォーマンスを向上させる変更を実装する必要があります。
どうすればいいのでしょうか?
- A. Google BigQuery の取り込み DATE 列にクラスタリングを実装します。
- B. Google BigQuery で荷物追跡 ID 列にクラスタリングを実装します。
- C. 古いデータを Google Cloud Storage ファイルに階層化し、拡張テーブルを活用します。
- D. パッケージの配達日にデータ パーティションを使用してテーブルを再作成します。
Correct Answer: B
Question 3
ETL ジョブを移行して Google BigQuery で実行した後、移行したジョブの出力が元のジョブの出力と同じであることを確認する必要があります。
元のジョブの出力を含むテーブルを読み込み、その内容と移行後のジョブの出力を比較して、同一であることを示したいと考えています。テーブルには比較のためにそれらを結合できるような主キー列が含まれていません。
どうすればよいでしょうか?
- A. RAND() 関数を使用してテーブルからランダムなサンプルを選択し、サンプルを比較します。
- B. HASH() 関数を使用してテーブルからランダムなサンプルを選択し、サンプルを比較します。
- C. Google Cloud Dataproc クラスタと Google BigQuery Hadoop コネクタを使用して各テーブルからデータを読み取り、並べ替え後にテーブルの非タイムスタンプ列からハッシュを計算します。各テーブルのハッシュを比較します。
- D. OVER() 関数を使用して層化ランダムサンプルを作成し、各テーブルの同等のサンプルを比較します。