Professional Data Engineer 模擬問題集（2021.01.20） : Cloud Smog

Google Cloud Certified - Professional Data Engineer

Written by E.G -

on 1月 20, 2021

※ 他の問題集は「タグ：Professional Data Engineer の模擬問題集」から一覧いただけます。

Google Cloud 認定資格 – Professional Data Engineer – 模擬問題集（全 50問）

Question 1

特定の日に雨が降るかどうかを予測するモデルを構築しています。
何千もの入力特徴があり、モデルの精度への影響を最小限に抑えながらいくつかの特徴を削除することでトレーニング速度を改善できるかどうかを確認したいと考えています。
何をするべきでしょうか？

A. 出力ラベルとの相関性が高い機能を削除します。
B. 相互依存性の高い特徴を 1つの代表的な特徴に結合します。
C. 各特徴を個別にフィードする代わりに 3つのバッチでそれらの値を平均します。
D. トレーニングレコードの 50％を超える値がnull である機能を削除します。

Correct Answer: B

Question 2

スケーラブルな方法でデータを収集する必要がある新しいアプリケーションを構築しています。
データは一日中アプリケーションから継続的に届き、年末までに一日あたり約 150 GBのJSON データを生成すると予想されます。
顧客の要件は以下の通りです。
– 生産者と消費者の分離
– 取り込んだ生のデータを無期限に保存するためのストレージとコストパーフォーマンスが良いストレージ
– ほぼリアルタイムのSQL クエリ
– 少なくとも2年分の履歴データを保持し、これをSQL でクエリすること。
これらの要件を満たすためにはどのパイプラインを使用すべきでしょうか？

A. API を提供するアプリケーションを作成します。API をポーリングし、データをgzip 形式のJSON ファイルとして Google Cloud Storag eに書き込むツールを作成します。
B. Google Cloud SQL データベースに書き込んでデータを保存するアプリケーションを作成します。データベースの定期的なエクスポートを設定して Google Cloud Storage に書き込み、Google BigQuery に読み込みます。
C. Google Cloud Pub/Sub にイベントを公開するアプリケーションを作成して Google Cloud Dataproc でSpark ジョブを作成してJSON データをAvro 形式に変換し、永続ディスクのHDFS に保存します。
D. Google Cloud Pub/Sub にイベントを公開するアプリケーションを作成して JSON イベントペイロードを Avro に変換する Google Cloud Dataflow パイプラインを作成し、データを Google Cloud Storage と Google BigQuery に書き込むます。

Correct Answer: A

Question 3

新しいデータパイプラインを構築して 2つの異なるタイプのアプリケーション（ジョブジェネレータとジョブ実行者）間でデータを共有します。
ソリューションは使用量の増加に対応するように拡張でき、既存のアプリケーションのパフォーマンスに悪影響を与えることなく、新しいアプリケーションの追加に対応する必要があります。
何をするべきでしょうか？

A. Google App Engine を使用してAPI を作成してアプリケーションとメッセージを送受信します。
B. Google Cloud Pub/Sub トピックを使用してジョブをパブリッシュしてサブスクリプションを使用してジョブを実行します。
C. Google Cloud SQL でテーブルを作成してジョブ情報を含む行を挿入および削除します。
D. Google Cloud Spanner でテーブルを作成してジョブ情報を含む行を挿入および削除します。

Correct Answer: A

Reference contents:
– Mail API でメールを送受信する

Question 4

データフィードを受け取る消費者と金融市場のデータを共有するためのアプリケーションを構築しています
データは市場からリアルタイムで収集され、消費者は次の方法でデータを受け取ります。
-リアルタイムのイベントストリーム
-リアルタイムストリームおよび履歴データへのANSISQL アクセス
-バッチ履歴エクスポート
どのソリューションを使用する必要がありますか？

A. Google Cloud Dataflow、Google Cloud SQL、Google Cloud Spanner
B. Google Cloud Pub/Sub、Google Cloud Storage、Google BigQuery
C. Google Cloud Dataproc、Google Cloud Dataflow、Google BigQuery
D. Google Cloud Pub/Sub、Google Cloud Dataproc、Google Cloud SQL

Correct Answer: A

Question 5

会社は新しいリアルタイムデータウェハウスを構築しており、Google BigQuery ストリーミングインサートを使用する予定です。
データの各行に一意のID とイベントのタイムスタンプがありますがデータが 1度だけ送信されるという保証がされていません。データをインタラクティブクエリするときに重複が含まれないようにする必要があります。
どのクエリタイプを使用する必要がありますか？

A. タイムスタンプ列にORDERBY DESK を含め、LIMIT を 1に制限します。
B. 一意のID 列とタイムスタンプ列にGROUP BY を使用し、値にSUM を使用します。
C. WHERE LAG IS NOT NULL と一緒に一意のIDによるPARTITION でLAG ウィンドウ関数を使用します。
D. 行が 1に等しいWHERE 句とともに、一意のID によるPARTITION でROW_NUMBER ウィンドウ関数を使用します。

Correct Answer: D

Question 6

何百万ものIoT（Internet-of-Things）デバイスから提出された遠隔測定データを処理するためにNoSQL データベースを利用しています。
データ量は年間 100 TB で増加しており、各データエントリには約 100の属性があります。データ処理パイプラインには原子性/一貫性/分離性/耐久性（ACID）は必要ありませんが高可用性と低レイテンシが求められ、個々のフィールドに対してクエリを実行してデータを分析する必要があります。
要件を満たすデータベースはどれでしょうか？（回答を 3つ選択してください）

A. Redis
B. HBase
C. MySQL
D. MongoDB
E. Cassandra
F. HDFS with Hive

Correct Answer: B、D、F

Question 7

住宅価格を予測するモデルを作成しています。
予算の制約があるため、リソースに制約のある単一の仮想マシンで実行する必要があります。
どの学習アルゴリズムを使用しますか？

A. 線形回帰（予測）
B. ロジスティック回帰（分類）
C. 反復性ニューラルネットワーク（RNN）
D. フィードフォワードニューラルネットワーク

Correct Answer: A

Reference contents:
– 線形回帰とは何か
– 未来の数値を予測する！？AIの回帰分析を徹底解説！ | AI入門ブログ
– 機械学習でボストンの住宅価格を予測する

Question 8

Google Cloud で新しいパイプラインを作成してIoT データを Google Cloud Pub/Sub から Google Cloud Dataflow を介して Google BigQuery にストリーミングします。
データをプレビューしているときにデータの約 2%が破損していることに気付きました。この破損データをフィルタリングするには Google Cloud Dataflow パイプラインを変更する必要があります。
どうすればよいでしょうか？

A. 要素が破損している場合にブール値を返すSideInput を追加します。
B. Google Cloud Dataflow に ParDo 変換を追加して破損した要素を破棄します。
C. Google Cloud Dataflow に Partition 変換を追加して有効なデータと破損データを分離します。
D. Google Cloud Dataflow で CoGroupByKey 変換を追加して有効なデータをすべてまとめてグループ化し、残りのデータを破棄します。

Correct Answer: B

Question 9

顧客は倉庫内の温度データを世界中で収集するために 10,000台の新しくIoT デバイスの導入を検討しています。
これらの非常に大規模なデータセットをリアルタイムで処理、保存、分析する必要があります。
何をすべきでしょうか？

A. Google Cloud Datastore にデータを送信して Google BigQuery にエクスポートします。
B. データを Google Cloud Pub/Sub に送信して Google Cloud Pub/Sub を Google Cloud Dataflow にストリーム配信し、Google BigQuery にデータを格納します。
C. データを Google Cloud Storage に送信して必要に応じて Google Cloud Dataproc でApache Hadoop クラスタを起動して分析します。
D. ログをバッチで Google Cloud Storage にエクスポートして必要に応じて Google Cloud SQL インスタンスを起動し、Google Cloud Storage からデータをインポートして分析します。

Correct Answer: B

Question 10

メディアストリーミングサービスであるモバイルアプリケーションに新しいストレージシステムを導入することになりました。
検討した結果 Google Cloud Datastore が最適だと判断しました。複数のプロパティを持つエンティティがあり、その中には複数の値を持つものもあります。
例えば、エンティティ「Movie」では、プロパティ「actors」とプロパティ「tag」には複数の値がありますが、プロパティ「date released」にはありません。一般的なクエリでは actor=<actorname> のあるすべてのMovie をdate_released で並べ替えるか、tag=Comedy のあるすべてのMovie をdate_released で並べ替えます。
どのようにしてインデックスの数の組み合わせが爆発的に増えるのを避けるべきでしょうか？

A. 次のようにインデックス設定でインデックスを手動で設定します。
Indexes:
-kind: Movie
Properties:
-name: actors
name date_released
-kind: Movie
Properties:
-name: tags
name: date_released
B. 次のようにインデックス設定でインデックスを手動で設定します。
Indexes:
-kind: Movie
Properties:
-name: actors
-name: date_published
C. 次のようにエンティティオプションを設定します。
exclude_from_indexes = ‘˜actors, tags”
D. 次のようにエンティティオプションを設定します。
exclude_from_indexes = “˜date_published”

Correct Answer: A

Question 11

Google Compute Engine VM インスタンス上にMariaDB SQL データベースをデプロイしており、監視とアラートを設定する必要があります。
最小限の開発作業でMariaDB からネットワーク接続、ディスク I/O、レプリケーション状態などのメトリクスを収集し、ダッシュボードやアラートに Stackdriver を使用したいと思います。
何をすべきでしょうか？

A. OpenCensus エージェントをインストールして Stackdriver エクスポーターを使用してカスタムメトリック収集アプリケーションを作成します。
B.ヘルスチェックを使用してMariaDB インスタンスをインスタンスグループに配置します。
C. Stackdriver Logging エージェントをインストールして MariaDB ログを読み取るようにfluentdin_tail プラグインを構成します。
D. Stackdriver エージェントをインストールして MySQL プラグインを構成します。

Correct Answer: C

Question 12

e コマース会社のショッピングカート放棄システムを設計しています。
このシステムは以下のルールに基づいてユーザーにメッセージを送信します。
– サイトでのユーザーによる 1時間の対話なし
– バスケットに 30ドル以上の商品を追加
– 取引が未完了
Google Cloud Dataflow を使用してデータを処理してメッセージを送信するかどうかを決定します。
パイプラインはどのように設計すべきでしょうか？

A. 60分間の固定時間ウィンドウを使用します。
B. 60分間のスライドタイムウィンドウを使用します。
C. 60分間のギャップタイムを持つセッションウィンドウを使用します。
D. 60分の遅延時間を持つ時間ベースのトリガーを持つグローバルウィンドウを使用します。

Correct Answer: C

Question 13

次の条件を満たすクラウドネイティブの履歴データ処理システムを設計しています。
– 分析対象のデータがCSV、Avro、PDF 形式であり、Google Cloud Dataproc、Google BigQuery、Google Compute Engine などの複数の分析ツールからアクセスされる。
– ストリーミングデータパイプラインは毎日新しいデータを保存される。
– パフォーマンスはソリューションの要素ではない。
– ソリューションの設計では可用性を最大化する必要がある。
このソリューションのデータストレージはどのように設計すべきでしょうか？

A. 高可用性を持つ Google Cloud Dataproc クラスタを作成します。データをHDFS に保存し、必要に応じて分析を行います。
B. データを Google BigQuery に保存します。Google Cloud Dataproc と Google Compute Engine の Google BigQuery コネクタを使用してデータにアクセスします。
C. データを Google Cloud Storage Regional バケットに保存します。Google Cloud Dataproc、Google BigQuery、Google Compute Engine を使用してバケットに直接アクセスします。
D. データを Google Cloud Storage Multi-Regional バケットに保存します。Google Cloud Dataproc、Google BigQuery、Google Compute Engine を使用して直接データにアクセスします。

Correct Answer: C

Question 14

データ処理パイプラインを設計しています。
パイプラインは負荷の増加に応じて自動的にスケーリングできる必要があります。メッセージは少なくとも1回処理する必要があり、1時間以内に注文する必要があります。
ソリューションをどのように設計するべきでしょうか？

A. メッセージの取り込みにApache Kafka を使用してストリーミング分析に Google Cloud Dataproc を使用します。
B. メッセージの取り込みにApache Kafka を使用してストリーミング分析に Google Cloud Dataflow を使用します。
C. メッセージの取り込みに Google Cloud Pub/Sub を使用してストリーミング分析に Google Cloud Dataproc を使用します。
D. メッセージの取り込みに Google Cloud Pub/Sub を使用してストリーミング分析に Google Cloud Dataflow を使用します。

Correct Answer: C

Question 15

Google Cloud Pub/Sub からのデータを Google BigQuery の静的参照データで強化するApacheBeam パイプラインを設計しています。
参照データは単一のワーカーのメモリに収まるほど小さいものです。パイプラインは分析のために強化された結果を Google BigQuery に書き込む必要があります。
このパイプラインはどのジョブタイプとトランスフォームを使用するべきでしょうか？

A. バッチジョブ、PubsubIO、副入力パターン
B. ストリーミングジョブ、PubsubIO、JdbcIO、副入力パターン
C. ストリーミングジョブ、PubsubIO、BigQuery I/O、副入力パターン
D. ストリーミングジョブ、PubsubIO、BigQuery I/O、副入力パターン

Correct Answer: A

Question 16

Google Cloud にデータパイプラインをデプロイする一環として 20 TBのテキストファイル用のストレージを設計しています。
入力データはCSV 形式です。複数のエンジンを使用して Google Cloud Storage のデータをクエリする複数のユーザーの集計値をクエリするコストを最小限に抑える必要があります。
どのストレージサービスとスキーマ設計を使用するべきですしょうか？

A. ストレージに Google Cloud Bigtable を使用します。Google Compute Engine インスタンスにHBase シェルをインストールして Google Cloud Bigtable データをクエリします。
B. ストレージに Google Cloud Bigtable を使用します。クエリ用に Google BigQuery の永続テーブルとしてリンクします。
C. ストレージに Google Cloud Storage を使用します。クエリ用の Google BigQuery で永続テーブルとしてリンクします。
D. ストレージに Google Cloud Storage を使用します。クエリ用の Google BigQuery で一時的なテーブルとしてリンクします。

Correct Answer: A

Question 17

Google Cloud に 10TB のデータベースの一部である 2つのリレーショナルテーブルのストレージを設計しています。
水平方向にスケールするトランザクションのサポートと非キー列の範囲クエリのデータを最適化したいと考えています。
どうすればよいでしょうか？

A. ストレージに Google Cloud SQL を使用します。セカンダリインデックスを追加してクエリパターンをサポートします。
B. ストレージに Google Cloud SQL を使用します。Google Cloud Dataflow を使用してクエリパターンをサポートするためにデータを変換します。
C. ストレージに Google Cloud Spanner を使用します。クエリパターンをサポートするためにセカンダリインデックスを追加します。
D. ストレージに Google Cloud Spanner を使用します。Google Cloud Dataflow を使用してクエリパターンをサポートするためにデータを変換します。

Correct Answer: C

Question 18

Google Cloud でデータパイプライン用に非常に大きなテキストファイル用のストレージを設計しています。
ANSI SQL クエリをサポートしたいと考えています。また、Google のベストプラクティスに従って、入力場所からの圧縮と並列ロードをサポートする必要があります。
何をするべきでしょうか？

A. Google Cloud Dataflow を使用してテキストファイルを圧縮されたAvro に変換します。ストレージとクエリには Google BigQuery を使用します。
B. Google Cloud Dataflow を使用してテキストファイルを圧縮されたAvro に変換します。クエリは Google Cloud Storage と Google BigQuery 永続的なリンクテーブルを使用します。
C.グリッドコンピューティングツールを使用してテキストファイルをgzip に圧縮します。ストレージとクエリは Google BigQuery を使用します。
D.グリッドコンピューティングツールを使用してテキストファイルをgzip に圧縮します。Google Cloud Storage を使用してクエリ用に Google Cloud Bigtable にインポートします。

Correct Answer: D

Question 19

ユーザーが何を食べたいかを予測する機械学習ベースの食品注文サービスのデータベーススキーマを設計しています。
保存する必要がある情報のいくつかは次になります。
– ユーザープロファイル：ユーザーが好きなものと嫌いなもの
– ユーザーアカウント情報：名前、住所、希望する食事時間
– 注文情報：注文がいつ、どこから、誰に行われたか
データベースは商品のすべてのトランザクションデータを格納するために使用され、データスキーマを最適化する必要があります。
どの Google Cloud Platform プロダクトを使うべきでしょうか？

A. Google BigQuery
B. Google Cloud SQL
C. Google Cloud Bigtable
D. Google Cloud Datastore

Correct Answer: A

Question 20

Google Cloud Dataflow SDK を使用してソフトウェアアプリケーションを開発しており、条件付きのfor ループやその他の複雑なプログラミング構造を使用して分岐パイプラインを作成したいと考えています。
データ処理操作に使用されるコンポーネントはどれでしょうか？

A. PCollection
B. 変換
C. パイプライン
D. シンク API

Correct Answer: B

Google Cloud では Google Cloud Dataflow SDKが変換コンポーネントを提供しています。データの処理動作を担当します。条件付きやフォーループなどの複雑なプログラミング構造を利用して分岐パイプラインを作成することができます。

Reference contents:
– Cloud Dataflow プログラミングモデル

Question 21

ユーザーのブログ投稿の件名ラベルを自動的に生成するアプリケーションを Google Cloud で開発しています。
この機能を迅速に追加しなければならないという競争上のプレッシャーがあり、追加の開発者リソースがありません。また、チームに機械学習の経験者がいません。
何をするべきでしょうか？

A. アプリケーションから Google Cloud Natural Language API を呼び出します。生成されたエンティティ分析をラベルとして処理します。
B. アプリケーションから Google Cloud Natural Language API を呼び出します。生成されたセンチメント分析をラベルとして処理します。
C. TensorFlow を使用してテキスト分類モデルを構築およびトレーニングします。Google Cloud Machine Learning Engine を使用してモデルをデプロイしてアプリケーションからモデルを呼び出し、結果をラベルとして処理します。
D. TensorFlow を使用してテキスト分類モデルを構築およびトレーニングします。Google Kubernetes Engine クラスタを使用してモデルをデプロイしてアプリケーションからモデルを呼び出し、結果をラベルとして処理します。

Correct Answer: A

Question 22

Google Cloud でレコメンデーションエンジンを使用したアプリケーションを開発しています。
ソリューションでは過去の視聴に基づいて新しい動画を顧客に表示する必要があります。ソリューションでは顧客が視聴した動画に含まれるエンティティのラベルを生成する必要があります。設計では数 TBのデータに関する他の顧客の好みからのデータに基づいて、非常に高速なフィルタリングの提案を提供できる必要があります。
何をすべきでしょうか？

A. Spark MLlib を用いて複雑な分類モデルを構築してラベルの生成と結果のフィルタリングします。Google Cloud Dataproc を使用してモデルをデプロイしてアプリケーションからモデルを呼び出す。
B. Spark MLlib で 1つの分類モデルを構築してトレーニングしてラベルを生成します。Spark MLlib で 2番目の分類モデルを構築してトレーニングして顧客の好みに合わせて結果をフィルタリングします。Google Cloud Dataproc を使用してモデルをデプロイしてアプリケーションからモデルを呼び出す。
C. Google Cloud Video Intelligence API を呼び出してラベルを生成するアプリケーションを構築します。Google Cloud Bigtable にデータを保存して予測されたラベルをフィルタリングしてユーザーの表示履歴に一致させ、設定を生成します。
D. Google Cloud Video Intelligence API を呼び出してラベルを生成するアプリケーションを構築します。Google Cloud SQL にデータを保存して予測されたラベルを結合してフィルタリングし、ユーザーの表示履歴と一致させて設定を生成します。

Correct Answer: C

Question 23

データパイプラインにセキュリティのベストプラクティスを実装しています。
現在、プロジェクトオーナーとして手動でジョブを実行しています。Google Cloud Storage から非公開情報を含む夜間のバッチファイルを取得して Google Cloud Dataproc クラスタでSparkScala ジョブを使用して処理し、結果を Google BigQuery に保存します。
このワークロードを安全に実行するにはどうすればよいでしょうか？

A. Google Cloud Storage バケットを制限して自分だけがファイルを表示できるようにします。
B. プロジェクト所有者の役割をサービスアカウントに付与してそれを使用してジョブを実行します。
C. バッチファイルの読み取りと Google BigQuery への書き込みが可能なサービスアカウントを使用します。
D. Google Cloud Dataproc クラスタのプロジェクト閲覧者ロールを持つユーザーアカウントを使用してバッチファイルを読み取り、Google BigQuery に書き込みます。

Correct Answer: B

Question 24

スケジュールに従って実行する必要のあるいくつかのバッチジョブを実装しています。
これらのジョブには特定の順序で実行しなければならない相互に依存した多くのステップがあります。ジョブの一部にはシェルスクリプトの実行、Hadoop ジョブの実行、Google BigQuery でのクエリの実行が含まれます。ジョブの実行時間は数分から数時間に及ぶことが予想され、ステップが失敗した場合は一定回数再試行する必要があります。
これらのジョブの実行を管理するにはどのサービスを使うべきでしょうか？

A. Google Cloud Scheduler
B. Google Cloud Dataflow
C. Google Cloud Functions
D. Google Cloud Composer

Correct Answer: A

Question 25

内部ITアプリケーションの 1つと Google BigQuery を統合しているため、ユーザーはアプリケーションのインターフェースから Google BigQuery にクエリを実行できます。
個々のユーザーに Google BigQuery への認証を行わせず、データセットへのアクセスを許可したりする必要はありませんがIT アプリケーションから Google BigQuery に安全にアクセスする必要があります。
どうすればよいでしょうか？

A. ユーザーのためのグループを作成し、それらのグループにデータセットへのアクセスを許可します。
B. シングルサインオン（SSO）プラットフォームと統合し、クエリ要求とともに各ユーザーの資格情報を渡します。
C. サービスアカウントを作成し、そのアカウントにデータセットへのアクセスを許可します。データセットにアクセスするにはサービスアカウントの秘密鍵を使用します。
D. ダミーユーザを作成し、そのユーザにデータセットへのアクセスを許可します。そのユーザーのユーザー名とパスワードをファイルシステム上のファイルに保存し、それらの資格情報を使用して Google BigQuery データセットにアクセスします。

Correct Answer: C

Question 26

Google Cloud Dataproc クラスタを管理しています。
クラスタで進行中の作業を失うことなく、コストを最小限に抑えながらジョブをより高速に実行する必要があります。
何をするべきでしょうか？

A. プリエンプティブルでないワーカーを増やしてクラスタサイズを増やします。
B. プリエンプティブルワーカーノードを使用してクラスタサイズを増やし、強制的に廃止するように構成します。
C. プリエンプティブルワーカーノードでクラスタサイズを増やし、Google Stackdriver を使用してスクリプトをトリガーして作業を維持します。
D. プリエンプティブルワーカーノードを使用してクラスタサイズを増やし、正常なデコミッションを使用するようにノードを構成します。

Correct Answer: D

Reference contents:
– Dataproc の高度な柔軟性モード | Dataproc ドキュメント
– クラスタのスケーリング > 正常なデコミッション | Dataproc ドキュメント

Question 27

データウェアハウスを Google BigQuery に移行しています。
すべてのデータをデータセットのテーブルに移行しており、組織の複数のユーザーがデータを使用することになります。チームメンバーシップに基づいて特定のテーブルのみを表示する必要があります。
ユーザーの権限はどのように設定する必要がありますか？

A. 各テーブルのテーブルレベルでのユーザー/グループデータ閲覧者のアクセス権を割り当てます。
B. データが存在する同じデータセット内の各チーム用のSQL ビューを作成し、SQL ビューにユーザー/グループデータ閲覧者のアクセス権を割り当てます。
C. データが存在する同じデータセット内の各チーム用に認可されたビューを作成して認可されたビューにユーザー/グループデータ閲覧者のアクセス権を割り当てます。
D. 各チーム用に作成されたデータセットに、各チーム用に認可されたビューを作成します。データが存在するデータセットに認可されたビューのデータ閲覧者のアクセス権を割り当て、許可されたビューが存在するデータセットにユーザー/グループのデータ閲覧者のアクセス権を割り当てます。

Correct Answer: C

Question 28

Google Cloud Dataflow ストリーミングパイプラインを運用しています。
パイプラインは Google Cloud Pub/Sub サブスクリプションソースからのイベントをウィンドウ内で集約し、得られた結果の集約を Google Cloud Storage バケットにシンクします。ソースは一貫したスループットを持っています。パイプラインがデータを処理しているかどうかを確認するために Google Stackdriver でパイプラインの動作に関するアラートを監視したいと考えています。
どの Stackdriver アラートを作成すべきでしょうか？

A. ソースのsubscription/num_undelivered_messages の減少と宛先のinstance/storage/used_bytes の変化率の増加に基づくアラート。
B. ソースのsubscription/num_undelivered_messages の増加と宛先の instance/storage/used_bytes の変化率の減少に基づくアラート。
C. ソースのinstance/storage/used_bytes の減少と宛先のsubscription/num_undelivered_messages の変化率の増加に基づくアラート。
D. ソースのinstance/storage/used_bytes の増加と宛先のsubscription/num_undelivered_messages の変化率の減少に基づくアラート。

Correct Answer: B

Question 29

ストリーミングの Google Cloud Dataflow パイプラインを運用しています。
エンジニアが新しいバージョンのパイプラインを開発しており、ウィンドウのアルゴリズムやトリガー戦略が変更されています。実行中のパイプラインを新しいバージョンへの更新と更新中にデータが失われないようにしたいと考えています。
どうすればよいでしょうか？

A. 既存のジョブ名に –jobName を設定した –update オプションを渡して Google Cloud Dataflow パイプラインを機内で更新します。
B. 新しい一意のジョブ名に –jobName を設定した –update オプションを渡して Google Cloud Dataflow パイプラインのフライトを更新します。
C. Cancel オプションを指定して Google Cloud Dataflow パイプラインを停止します。更新したコードで新しい Google Cloud Dataflow ジョブを作成します。
D. [Drain] オプションを使用して Google Cloud Dataflow パイプラインを停止します。更新されたコードを使用して新しい Google Cloud Dataflow ジョブを作成します。

Correct Answer: A

Reference contents:
– 既存のパイプラインの更新 | Cloud Dataflow

Question 30

現在使用しているオンプレミスのApache Hadoop デプロイメントをクラウドに移行することを計画しています。
長時間稼働するバッチジョブのためにデプロイメントが耐障害性とコスト効率に優れていることを確認する必要があり、マネージドサービスを使用したいと考えています。
どうすればよいでしょうか？

A. Google Cloud Dataproc クラスタをデプロイします。標準の永続ディスクと 50％のプリエンプティブルワーカーを使用します。データを Google Cloud Storage に保存してスクリプトの参照をhdfs:// からgs:// に変更します。
B. Google Cloud Dataproc クラスタをデプロイします。SSD 永続ディスクと 50％のプリエンプティブルワーカーを使用します。データを Google Cloud Storage に保存してスクリプトの参照をhdfs:// からgs:// に変更します。
C. 標準インスタンスを使用して 10ノードの Google Compute Engine インスタンスグループにHadoop とSpark をインストールします。Google Cloud Storage コネクタをインストールしてデータを Google Cloud Storage に保存します。スクリプトの参照をhdfs:// からgs:// に変更します。
D. プリエンプティブルインスタンスを含む 10ノードのGoogle Compute Engine インスタンスグループにHadoop とSpark をインストールします。データをHDFS に保存してスクリプトの参照をhdfs:// からgs:// に変更します。

Correct Answer: A

Question 31

Google Cloud Dataflow SDK を使用して以下のような顧客データを分析しようとしています。
プロジェクトの要件はデータソースから顧客名のみを抽出して PCollection 出力に書き込むことです。
– Tom,555 X street
– Tim,553 Y street
– Sam, 111 Z street
上記のデータ処理要件に最も適した操作はどれでしょうか？

A. ParDo
B. Sink API
C. Source API
D. Data extraction

Correct Answer: A

Google Cloud Dataflow SDK ではParDo を使用してPCollection 内の各要素の顧客名のみを抽出できます。

Reference contents:
– ParDo による並列処理

Question 32

Apache Hadoop クラスタで実行する会社のETL パイプラインの作成を担当しています。
パイプラインにはいくつかのチェックポイントとパイプラインの分割が必要になります。
パイプラインを記述するにはどの方法を使用するべきでしょうか？

A. Pig を使用したPigLatin
B. Hive を使用したHiveQL
C. MapReduce を使用したJava
D. MapReduce を使用したPython

Correct Answer: D

Question 33

Google Cloud Dataflow でパイプラインを実行しており、Google Cloud Pub/Sub トピックからメッセージを受信し、その結果をEUの Google BigQuery データセットに書き込みます。
現在、パイプラインはeurope-west4 にあり、最大 3人のワーカー（インスタンスタイプ：n1-standard-1）がいます。ピーク時には 3人のワーカーが最大のCPU 使用率になっているのにパイプラインがタイムリーにレコードを処理するのに負荷していることに気付きました。
パイプラインのパフォーマンスを向上させるためにどのようなアクションを取ることができるでしょうか？(回答を 2つ選んでください)

A. ワーカーの最大数を増やします。
B. Google Cloud Dataflow ワーカーにより高性能なインスタンスタイプを使用します。
C. Google Cloud Dataflow パイプラインのゾーンをus-central1 で実行するように変更します。
D. 新しいデータのバッファとして機能する一時テーブルを Google Cloud Bigtable に作成します。パイプラインに新しいステップを作成して最初にこのテーブルに書き込むようにし、次に Google Cloud Bigtable から Google BigQuery に書き込むための新しいパイプラインを作成します。
E. 新しいデータのバッファとして機能する一時的なテーブルを Google Cloud Spanner に作成します。パイプラインに新しいステップを作成して最初にこのテーブルに書き込みを行い、その後、Google Cloud Spanner から Google BigQuery に書き込むための新しいパイプラインを作成します。

Correct Answer: B、E

Question 34

Google Cloud のデータパイプライン用にに Google Cloud Pub/Sub からGoogle BigQuery にJSON メッセージを書き込んで変換するサービスを検討しています。
サービスコストを最小限に抑え、最小限の手動介入でサイズが変化する入力データ量を監視して対応したいと考えています。
何をすべきでしょうか？

A. Google Cloud Dataproc を使用して変換を実行してクラスタのCPU 使用率を監視します。コマンドラインを使用してクラスタ内のワーカーノードの数を変更します。
B. Google Cloud Dataproc を使用して変換を実行します。診断コマンドを使用して操作可能な出力アーカイブを生成します。ボトルネックを特定し、クラスタリソースを調整します。
C. Google Cloud Dataflow を使用して変換を実行して Stackdriver を使用してジョブシステムの遅延を監視します。ワーカーインスタンスにはデフォルトの自動スケーリング設定を使用します。
D. Google Cloud Dataflow を使用して変換を実行してジョブのサンプリングの合計実行時間を監視します。必要に応じてデフォルト以外の Google Compute Engine マシンタイプを使用するようにジョブを設定します。

Correct Answer: B

Question 35

スパム分類器をトレーニングしています。
トレーニングデータを過剰適合させていることに気づきました。
この問題を解決するために実行できるアクションはどれでしょうか？（回答を 3つ選択してください）

A. より多くのトレーニング例を得ます。
B. トレーニング例の数を減らします。
C. より小さな特徴量のセットを使用します。
D. より大きな特徴量を使用します。
E. 正則化パラメータを増やすします。
F. 正則化パラメータを減少させます。

Correct Answer: A、D、F

Question 36

データウェアハウスとして Google BigQuery を使用しています。
ユーザーは次のシンプルなクエリを実行してもいつも非常に遅く実行されていると報告がされています。

SELECT country, state, city FROM [myproject:mydataset.mytable] GROUP BY country

クエリのプランを確認するとStage:1 のRead セクションに以下のような出力が表示されます。
このクエリの遅延の最も可能性の高い原因は何ですか？

A. ユーザーがシステム内で同時に実行しているクエリが多すぎます。
B. [myproject：mydataset.mytable] テーブルのパーティションが多すぎます。
C. [myproject：mydataset.mytable] テーブルのstate またはcity 列にNULL 値が多すぎます。
D. [myproject：mydataset.mytable] テーブルのほとんどの行のcountry 列の値が同じであるため、データの偏りが発生します。

Correct Answer: A

Question 37

画像認識ドメインのニッチな製品に取り組んでいます。
チームが実装したC++ のカスタムオペレーションの TensorFlow: ops によって支配されるモデルを開発しました。これらの処理はメインのトレーニングループの中で使用され、大規模な行列の乗算を実行しています。現在、モデルをトレーニングするのに数日かかります。Google Cloud でアクセラレータを使用してトレーニング時間を大幅に短縮し、コストを低く抑えたいと考えています。
どうすればいいのでしょうか？

A. コードに追加の調整を加えることなく、Google Cloud TPU を使用します。
B. カスタムオペレーションにGPU カーネルサポートを実装した後、Google Cloud TPU を使用します。
C. カスタムオペレーションにGPU カーネルサポートを導入した後、Google Cloud GPU を使用します。
D. CPU を使用したままでモデルをトレーニングするクラスタのサイズを大きくします。

Correct Answer: B

Question 38

プライベートなユーザーデータに関わる機密性の高いプロジェクトに取り組んでいます。
GCP にプロジェクトを立ち上げて社内で作業を行っています。外部コンサルタントがプロジェクトの Google Cloud Dataflow パイプラインでの複雑な変換のコーディングをサポートする予定です。
ユーザーのプライバシーをどのように維持するべきでしょうか？

A. 外部コンサルタントにプロジェクト閲覧者の役割を付与します。
B. 外部コンサルタントにプロジェクトでの Google Cloud Dataflow Developer の役割を付与します。
C. サービスアカウントを作成します。外部コンサルタントがサービスアカウントを使用してログオンできるようにします。
D. 外部コンサルタントが別のプロジェクトで作業するためにデータの匿名化されたサンプルを作成します。

Correct Answer: C

Question 39

Google Data Studio 360 で大規模なチーム用の新しいレポートを作成します。
このレポートではデータソースとして Google BigQuery を使用しています。スタッフが自分のリージョンに関連付けられたデータのみを表示できるようにすることが会社のポリシーのため、地域ごとにテーブルを作成して入力します。データにはリージョンアクセスポリシーを実施する必要があります。
どのようなアクションを行うべきでしょうか？（回答を 2つ選択してください）

A. すべてのテーブルがグローバルデータセットに含まれていることを確認します。
B. 各テーブルがリージョンのデータセットに含まれていることを確認します。
C. 各テーブルの設定を調整して、関連するリージョンベースのセキュリティグループ閲覧者へのアクセスを許可します。
D. 各ビューの設定を調整して関連するリージョンベースのセキュリティグループ閲覧者へのアクセスを許可します。
E. 各データセットの設定を調整して関連するリージョンベースのセキュリティグループ閲覧者へのアクセスを許可します。

Correct Answer: B、D

Question 40

Google Data Studio 360 で大規模なチームの重要なレポートを作成します。
レポートではデータソースとして Google BigQuery を使用しています。可視化に 1時間未満のデータが表示されていないことがわかります。
何をするべきでしょうか？

A. レポート設定を編集してキャッシングを無効にします。
B. テーブルの詳細を編集することで Google BigQuery でのキャッシュを無効にします。
C. 可視化を表示しているブラウザタブを更新します。
D. 過去 1時間分のブラウザ履歴をクリアして仮想化を表示しているタブを再読み込みします。

Correct Answer: A

Reference contents:
– データの更新頻度を管理する – データポータルのヘルプ

Question 41

現在、us-east リージョンのデータセンターに単一のオンプレミス Kafka クラスタで世界中のIoT デバイスからのメッセージのグローバルな取り込みを行っています。
世界中の大部分ではインターネット接続が不十分であるため、メッセージがエッジでバッチ処理され、一度にすべて受信されてしまいKafka クラスタへの負荷が急増することがあります。これは管理が難しくなり、法外なコストが発生します。
Google ベストプラクティスのクラウドネイティブアーキテクチャは何でしょうか？

A. メッセージを保存および送信するためのセンサーデバイスとしての Edge TPUs を採用します。
B. 受信メッセージの処理をスケーリングするためにKafka クラスタに接続された Google Cloud Dataflow を採用します。
C. Google Cloud Pub/Sub に接続されたIoT ゲートウェイで Google Cloud Dataflow でGoogle Cloud Pub/Sub からのメッセージを読み込んで処理します。
D. us-east の Google Compute Engine で仮想化されたKafka クラスタをGoogle Cloud Load Balancing で世界中のデバイスに接続します。

Correct Answer: C

Question 42

Google Cloud Datastore を使用して車両のテレメトリデータをリアルタイムでで取り込むことにしました。
コストを抑えつつ、長期的なデータの増加を考慮したストレージシステムを構築したいと考えています。また、定期的にデータのスナップショットを作成してポイントインタイム（PIT）リカバリを作成したり、別の環境で Google Cloud Datastore 用にデータのコピーを複製したりできるようにしたいと考えています。そしてこれらのスナップショットを長期間アーカイブする必要があります。
これらを達成できる方法はどれでしょうか？（回答を 2つ選択してください）

A. マネージドエクスポートを使用して Google Cloud Storage Nearline または Coldline クラスを使用して Google Cloud Storage バケットにデータを保存します。
B. マネージドエクスポートを使用してそのエクスポート用に予約された一意の名前空間の下にある別のプロジェクトの Google Cloud Datastore にインポートします。
C. マネージドエクスポートを使用してそのエクスポート専用に作成された Google BigQuery テーブルにデータをインポートし、一時的なエクスポートファイルを削除します。
D. Google Cloud Datastore クライアントライブラリを使用して、すべてのエンティティを読み込むアプリケーションを作成します。各エンティティを Google BigQuery ストリーミングでのインポートを行い、Google BigQuery テーブルの行として扱います。各エクスポートにエクスポートタイムスタンプを割り当て、各行の追加列として添付します。エクスポートタイムスタンプカラムを使用して、Google BigQuery テーブルがパーティショニングされていることを確認します。
E. Google Cloud Datastore クライアントライブラリを使用して、すべてのエンティティを読み込むアプリケーションを作成します。エクスポートしたデータをJSON ファイルにフォーマットします。Google Cloud Source Repositories にデータを保存する前に圧縮を適用します。

Correct Answer: C、E

Question 43

3つの診療所の数百人の患者をカバーするためのパイロットプロジェクトとして、患者記録のデータベースを設計しました。
設計では単一のデータベーステーブルを使用してすべての患者とその訪問を表し、自己結合を使用してレポートを生成しました。サーバーリソースの使用率は 50%でしたがそれ以来はプロジェクトの範囲は拡大しました。データベースには 100倍以上の患者レコードを保存しなければならなくなりました。レポートの実行に時間がかかりすぎたり、計算リソースが不足してエラーが発生したりするため、レポートを実行することができなくなりました。
データベースの設計をどのように調整すべきでしょうか？

A. データベースサーバの容量（メモリとディスク容量）を200の順に追加します。
B. 日付範囲に基づいてテーブルを小さいテーブルに分割し、事前に指定した日付範囲のレポートのみを生成します。
C. マスター患者記録テーブルを患者テーブルと訪問テーブルに正規化して自己結合を避けるために他の必要なテーブルを作成します。
D. .各診療所に 1つずつ、テーブルを小さなテーブルに分割します。小さいテーブルのペアに対してクエリを実行して連結レポートに共用体を使用します。

Correct Answer: C

Question 44

適切に設計された行キーを使用して Google Cloud Bigtable にデータを書き込むデータパイプラインがあります。
パイプラインを監視して Google Cloud Bigtable クラスタのサイズをいつ増やすかを決定する必要があります。
これを達成するために実行できるアクションはどれでしょうか？（回答を 2つ選択してください）

A. Key Visualizer メトリックを確認します。Read pressure index 指標が長時間 100 以上になっている場合は Google Cloud Bigtable クラスタのサイズを増やします。
B. Key Visualizer メトリックを確認します。Write pressure index 指標が長時間 100 以上になっている場合は Google Cloud Bigtable クラスタのサイズを増やします。
C. 書き込み操作のレイテンシ時間を監視します。書き込みのレイテンシが持続的に増加する場合は Google CloudBigtable クラスタのサイズを増やします。
D. ストレージ使用率を監視します。使用率が最大容量の 70％を超えて増加した場合は Google Cloud Bigtable クラスタのサイズを増やします。
E. 読み取り操作の待ち時間を監視します。読み取り操作の Google Cloud Bigtable クラスタのサイズを大きくすると100ミリ秒以上かかります。

Correct Answer: A、C

Reference contents:
– Key Visualizer の概要 | Cloud Bigtable ドキュメント
– Cloud Bigtable のモニタリング > CPU 使用率とディスク使用量について | Cloud Bigtable ドキュメント

Question 45

時系列メトリックを集計して Google Cloud Bigtable に書き込む Google Cloud Dataflow ジョブを含むデータパイプラインがあります。
このデータは組織全体で数千人のユーザーが使用するダッシュボードにフィードしています。同時使用ユーザーの追加をサポートし、データの書き込みに必要な時間を短縮する必要があります。
どのようなアクションを行うべきでしょうか？（回答を 2つ選択してください）

A. ローカル実行を使用するように Google Cloud Dataflow パイプラインを構成します。
B. PipelineOptions でmaxNumWorkers を設定して Google Cloud Dataflow ワーカーの最大数を増やします。
C. Google Cloud Bigtable クラスタのノード数を増やします。
D. Google Cloud Bigtable に書き込む前にFlatten 変換を使用するように Google Cloud Dataflow パイプラインを変更します。
E. Google Cloud Bigtable に書き込む前に Google Cloud Dataflow パイプラインを変更してCoGroupByKey 変換を使用します。

Correct Answer: D、E

Reference contents:
– How to build an ETL pipeline with Apache Beam on Google Cloud Dataflow

Question 46

Google BigQuery にデータが保存されおり、Google BigQuery データセットのデータは高可用性である必要があります。
このデータのストレージ、バックアップ、およびリカバリ戦略を定義し、コストを最小限に抑える必要があります。
Google BigQuery のテーブルはどのように構成するべきでしょうか？

A. Google BigQuery データセットをリージョナルに設定します。緊急時にはポイントインタイムスナップショットを使用してデータを回復します。
B. Google BigQuery データセットをリージョナルに設定します。スケジュールされたクエリを作成してバックアップの時刻が接尾辞として付いたテーブルにデータのコピーを作成します。緊急の場合はテーブルのバックアップコピーを使用してください。
C. Google BigQuery データセットをマルチリージョンに設定します。緊急時にはポイントインタイムスナップショットを使用してデータを回復します。
D. Google BigQuery データセットをマルチリージョンに設定します。スケジュールされたクエリを作成してバックアップの時刻が接尾辞として付いたテーブルにデータのコピーを作成します。緊急の場合はテーブルのバックアップコピーを使用してください。

Correct Answer: B

Question 47

キャンセルしたい仕事があります。
これはストリーミングパイプラインで処理中のデータが処理されて出力に書き込まれるようにしたいと考えています。
Google Cloud Dataflow モニタリングコンソールでパイプラインジョブを停止するために使用できるコマンドはどれでしょうか？

A. キャンセル
B. ドレイン
C. 停止
D. 完了

Correct Answer: B

Drain オプションを使用してジョブを停止すると Dataflow サービスにジョブを現在の状態で終了するように指示します。ジョブは入力ソースからの新しいデータの取り込みをすぐに停止しますが Dataflow サービスは既存のリソース（ワーカーインスタンスなど）を保持してパイプラインでのバッファーされたデータの処理と書き込みを完了します。

Reference contents:
– 実行中のパイプラインの停止 | Cloud Dataflow

Question 48

ペタバイトのアナリティクスデータがあり、そのためのストレージと処理プラットフォームを設計する必要があります。
Google Cloud のデータに対してデータウェアハウス形式のアナリティクスを実行し、データセットを他のクラウドプロバイダーのバッチ分析ツールのファイルとして公開できる必要があります。
何をすべきでしょうか？

A. データセット全体を Google BigQuery に保存して処理します。
B. データセット全体を Google CloudBigtable に保存して処理します。
C. データセット全体を Google BigQuery に保存してデータの圧縮コピーを Google Cloud Storage バケットに保存します。
D. ウォームデータをファイルとして Google Cloud Storage に保存してアクティブデータを Google BigQuery に保存します。この比率をウォーム 80％、アクティブ 20％として維持します。

Correct Answer: D

Question 49

タイムスタンプ列とID 列のWHERE 句を使用して Google BigQuery テーブルをフィルタリングするクエリがあります。
bq query の -dry_run を使用するとタイムスタンプとID のフィルタがデータ全体のごく一部を選択している場合でもクエリがテーブルのフルスキャンをトリガーされます。既存のSQL クエリへの変更を最小限に抑えて Google BigQuery によってスキャンされるデータの量を減らしたいと考えています。
何をするべきでしょうか？

A. ID ごとに個別のテーブルを作成します。
B. LIMIT キーワードを使用して返される行数を減らします。
C. パーティショニング列とクラスタリング列を使用してテーブルを再作成します。
D. bq クエリ –maximum_bytes_billed フラグを使用して請求されるバイト数を制限します。

Correct Answer: B

Question 50

50,000個のセンサーからの分単位のデータを Google BigQuery テーブルに挿入する必要があります。
データ量の大幅な増加が予想され、集計された傾向をリアルタイムで分析するには、取り込みから1分以内にデータを利用できるようにする必要があります。
どうすればよいのでしょうか？

A. bq loadを使用して 60秒ごとにセンサーデータのバッチをロードします。
B. Google Cloud Dataflow パイプラインを使用してデータを Google BigQuery テーブルにストリーミングします。
C. INSERT ステートメントを使用して 60秒ごとにデータのバッチを挿入します。
D. MERGE ステートメントを使用して 60秒ごとにバッチで更新を適用します。

Correct Answer: C

Categories:

Google Cloud Platform

Tags:

Professional Data Engineer

Comments are closed