Professional Data Engineer 模擬問題集（2019-05-16）（日本語訳） : Cloud Smog

Google Cloud Certified - Professional Data Engineer

Written by E.G -

on 10月 26, 2020

※ 他の問題集は「タグ：Professional Data Engineer の模擬問題集」から一覧いただけます。

オリジナルの問題集（英語）を日本語訳にした模擬問題集になります。

Google Cloud 認定資格 – Professional Data Engineer 模擬問題集（67問）

v2019-05-16

QUESTION 1

会社は規制に厳格な業界です。
要件の1つは、個々のユーザーが最小限の情報だけにアクセスできるようにすることです。
この要件をGoogle BigQuery で実施したいと考えています。
どのアプローチをとることができますか？（回答は3つ）

A. 特定のテーブルへの書き込みを無効にします。
B. 役割によるテーブルへのアクセスを制限します。
C. データが常に暗号化されていることを確認します。
D. Google BigQuery API アクセスを承認されたユーザーを制限します。
E. 複数のテーブルまたはデータベースにまたがってデータを分離します。
F. Google Stackdriver Logging でGoogle Cloud Audit Logging を使用してポリシー違反を特定します。

Correct Answer: B D F

Reference: https://cloud.google.com/logging/docs/audit/

QUESTION 2

あなたはEC のバスケット廃棄システムを設計しています。
システムは、次のルールに基づいてユーザーにメッセージを送信します。

サイトでのユーザーが1時間操作しなかった場合。
バスケットに$30 以上の商品を追加した場合。
取引が完了していない場合。

Google Cloud Dataflow を使ってデータを処理し、メッセージを送信するかどうかを決定します。
パイプラインをどのように設計しますか?

A. 60分の固定時間ウィンドウを使用します。。
B. 60分のスライディングタイムウィンドウを使用します。。
C. ギャップ時間が60分のセッション単位ウィンドウを使用します。
D. 単一グローバルウィンドウを使用し、時間ベースのトリガーで60分の遅延を指定します。

Correct Answer: D

Reference:

QUESTION 3

会社は多数の異なるクライアントのデータ処理を処理します。
各クライアントは、Google BigQuery それぞれ独自の分析ツールを使いたいと考えており、Google BigQuery を使って直接クエリにアクセスできるようにしたいと考えております。
クライアントが互いのデータを見ることができないようにデータを保護する必要があります。
データへの適切なアクセスを保証する必要があります。
どのステップを行うべきでしょうか？（回答は3つ）

A. データを異なるパーティションにロードします。
B. クライアントごとに異なるデータセットにデータをロードする。
C. 各クライアントのGoogle BigQuery データセットを別のテーブルに配置します。
D. クライアントのデータセットを承認されたユーザーに制限します。
E. サービスアカウントのみにデータセットへのアクセスを許可します。
F. 各クライアントのユーザーにCloud Identity and Access Management（Cloud IAM）の役割を使用します。

Correct Answer: B D F

Reference: https://cloud.google.com/bigquery/docs/access-control

QUESTION 4

Google Cloud Platform 上で実行されるPOS アプリケーションでと支払いのトランザクションを処理しようとしています。
ユーザーベースは急激に増加する可能性がありますが、インフラストラクチャの拡張を管理したくありません。
どのGoogle Cloud Platform プロダクトを使用しますか？

A. Google Cloud SQL
B. Google BigQuery
C. Google Cloud Bigtable
D. Google Cloud Datastore

Correct Answer: A

Reference: https://cloud.google.com/sql/docs/quotas

QUESTION 5

組織サンプルに関する情報のデータベースを使用して、将来の組織サンプルを正常または変異型に分類します。
組織サンプルを分類するための教師なし異常検出方法を評価しています。
どの方法がこの方法をサポートしていますか？（回答は2つ）

A. 正常サンプルと比較して突然変異の発生は非常に少ない。
B. データベースには、正常なサンプルと変異したサンプルの両方がほぼ同じ頻度で存在します。
C. 将来の突然変異は、データベース内の突然変異サンプルとは異なる特徴を持つことが予想されます。
D. 将来の突然変異は、データベース中の突然変異試料と同様の特徴をもつと予想されます。
E. サンプルが変異していて、データベース内で正常なラベルがすでに存在します。

Correct Answer: B C

QUESTION 6

Google BigQuery では、への投稿を毎分1万件の割合でほぼリアルタイムで記録し、分析する必要があります。
まず、個々の投稿にストリーミングインサート（Stream Inserts）を使用するようにアプリケーションを設計します。アプリケーションではストリーミングインサートの直後にデータ集約を実行します。ストリーミングインサート後のクエリは強い一貫性がなく、クエリからのレポートは実行中のデータを見逃す可能性があります。
アプリケーション設計をどのように調整しますか？

A. 2分ごとに累積データをロードするようにアプリケーションを書き直します。
B. ストリーミングインサートコードを個々のメッセージのバッチロードに変換します。
C. 元のメッセージをGoogle Cloud SQL にロードし、ストリーミングインサートを介してGoogle BigQuery に1時間ごとにテーブルをエクスポートします。
D. ストリーミングインサート後のデータ可用性の平均待ち時間を見積もり、常に2倍の時間待ってからクエリを実行します。

Correct Answer: A

Reference: https://qiita.com/t-yotsu/items/76df0115117b3801afd8

QUESTION 7

スタートアップではセキュリティポリシーを公式実装したことがありません。
現在、全社員がGoogle BigQuery に保存されているデータセットにアクセスできる状態になっています。
全社員は適切と思われるサービスを自由に使用でき、ユースケース（使用例）は文書化されていません。そしてデータウェアハウスを保護するように依頼されました。
アクセスしたユーザーがが何をやっていることを発見する必要があります。
最初に何をすべきですか？

A. Google Stackdriver の監査ログを使用してデータアクセスを確認してください。
B. 各テーブルのCloud Identity and Access Management（Cloud IAM）ポリシーを取得します。
C. Google Stackdriver Monitoring を使用して、Google BigQuery クエリスロットの使用状況を確認します。
D. Google Cloud Billing API を使用して、倉庫の請求先アカウントを確認します。

Correct Answer: C

Reference:
https://cloud.google.com/bigquery/docs/monitoring
https://www.thagomizer.com/blog/2017/02/23/monitoring-bigquery-with-stackdriver.html

QUESTION 8

会社は、30ノードのApache Hadoop クラスタをクラウドに移行しようとしています。作成済みのHadoop ジョブを再利用し、クラスタの管理を可能な限り最小化したいと考えています。また、クラスタの存続期間を超えてデータを永続化できるようにしたいと考えています。どうすればいいでしょうか？

A. データを処理するためにGoogle Cloud Dataflow ジョブを作成します。
B. HDFS用の永続ディスクを使用するGoogle Cloud Dataproc クラスタを作成します。
C. 永続ディスクを使用するHadoop クラスタをGoogle Compute Engine 上に作成します。
D. Google Cloud Storage コネクタを使用するGoogle Cloud Dataproc クラスタを作成します。
E. ローカル SSDディスクを使用するHadoop クラスタをGoogle Compute Engine 上に作成します。

Correct Answer: A

Reference: https://cloud.google.com/hadoop-spark-migration/

QUESTION 9

銀行取引のデータベースを持っています。そのデータベースの各行には、ユーザーID、取引タイプ、取引場所、および取引金額が含まれています。
会社の経営者からデータベースを使ってどのような機械学習を行えるのか依頼がありました。
どの機械学習が行えるでしょうか？（回答は3つ）

A. どの取引が最も不正である可能性が高いかを判断するための監督された学習。
B. どの取引が最も不正である可能性が高いかを判断するための教師なし学習。
C. 特徴の類似性に基づいて取引をＮ個のカテゴリに分割するためのクラスタリング。
D. 取引場所の位置を予測する教師あり学習。
E. 取引場所を予測する強化学習。
F. 取引場所を予測する教師なし学習。

Correct Answer: B C E

Reference:
https://cloud.google.com/solutions/machine-learning/data-preprocessing-for-ml-with-tf-transform-pt1
https://medium.com/mixi-developers/mixi-20190110-d1cde81cf37c

QUESTION 10

会社のオンプレミス Apache Hadoop サーバーは廃止予定になり、IT部門はクラスタをGoogle Cloud Dataproc に移行することを決定しました。
クラスタの同種の移行では、ノードあたり50 TBのGoogle Persistent Disk が必要になります。
CIOは、そのような大量のブロック・ストレージを使用する場合のコストを懸念しています。
そのため、移行のストレージコストを最小限に抑えなければなりません。
何をするべきでしょうか？

A.データをGoogle Cloud Storage に保存します。
B. Google Cloud Dataproc クラスタにプリエンプティブ仮想マシン（VM）を使用します。
C. Google Cloud Dataproc クラスタを調整して、すべてのデータに十分なディスクがあるようにします。
D. コールドデータの一部をGoogle Cloud Storageに移行し、ホットデータのみをGoogle Persistent Diskに保存します

Correct Answer: B

Reference: https://cloud.google.com/dataproc/

QUESTION 11

顧客データを含む機密プロジェクトを行っています。そして、クローズドに作業を行うためGoogle Cloud Platform プロジェクト作成しました。
外部コンサルタントがこのプロジェクトに参加し、Google Cloud Dataflow パイプラインの構築をサポートする予定です。
この場合はどのようにユーザープライバシーを守るべきでしょうか？

A. プロジェクト閲覧者（viewer）の役割を外部コンサルタントに付与します。
B. プロジェクトでGoogle Cloud Dataflow 開発者（dataflow.developer）の役割を外部コンサルタントに付与します。
C. サービスアカウントを作成し、外部コンサルタントがサービスアカウントを使用してログオンできるようにします。
D. 外部コンサルタントが別のプロジェクトで作業するためのデータの匿名化されたサンプルを作成します。

Correct Answer: C

QUESTION 12

特定の日に雨が降るかどうかを予測するためのモデルを構築しています。
何千もの入力機能があり、モデルの精度への影響を最小限に抑えながら、いくつかの機能を削除することでトレーニング速度を向上させることができるかどうかを確認したいと思います。
トレーニング速度を向上させるには何ができますか？

A.出力ラベルとの相関性が高い機能を排除します。
B.相互依存性の高い機能を1つの代表的な機能に結合します。
C.各機能を個別に入力する代わりに、3つのバッチでそれらの値を平均化します。
D.トレーニング記録の50％以上についてnull 値を持つ特徴を削除します。

Correct Answer: B

QUESTION 13

会社は、Google Cloud Dataflow で学習アルゴリズムのためのデータ前処理を実行しています。
このステップでは多数のデータログが生成されており、チームはそれらを分析したいと考えています。キャンペーンの動的な性質により、データは1時間ごとに急激に増加しています。
データサイエンティストは、ログ内の新しい主要機能のデータを読み取るために次のコードを作成しました。

BigQueryIO.Read
.named(“ReadLogData”)
.from(“clouddataflow-readonly:samples.log_data”)

このデータ読み取りのパフォーマンスを向上させる必要があります。
パフォーマンスを向上させるために何をするべきでしょうか？

A. コードでTableReference オブジェクトを指定します。
B.テーブルから特定のフィールドを読み込むには、.fromQuery 操作を使用します。
C. Google BigQuery のTableSchema クラスとTableFieldSchema クラスの両方を使用します。
D. PCollection 内の各要素がテーブル内の単一行を表すTableRow オブジェクトを返すトランスフォームを呼び出します。

Correct Answer: D

QUESTION 14

会社は、工場の現場からリアルタイムのセンサーデータをGoogel Cloud Bigtable にストリーミングしていますが、彼らは非常に低いパフォーマンスを気にしています。
リアルタイムダッシュボードに入力されるクエリでGoogle Cloud Bigtable のパフォーマンスを向上させるには、行キーをどのように再設計する必要がありますか？

A. <timestamp> の形式の行キーを使用してください。
B. <sensorid> の形式の行キーを使用します。
C. <timestamp>#<sensorid> という形式の行キーを使用します。
D. >#<sensorid>#<timestamp> の形式の行キーを使用します。

Correct Answer: A

QUESTION 15

会社の顧客と注文データベースにときどき重い負荷が掛かっています。
そのため、運用に害を与えずに分析を実行することは困難に感じています。
データベースはMySQL クラスタ内にあり、mysqldump を使用して夜間にバックアップされます。
運用への影響を最小限に抑えて分析を実行する必要があります。
最小限に抑えるためには何をするできでしょうか？

A. MySQL クラスタにノードを追加し、そこでOLAPキューブを構築します。
B. ETL ツールを使用して、MySQL からGoogle BigQuery にデータをロードします。
C. オンプレミスのApache Hadoop クラスタをMySQL に接続してETL を実行します。
D. バックアップをGoogle Cloud SQL にマウントし、Google Cloud Dataproc を使用してデータを処理します。

Correct Answer: C

QUESTION 16

Google Cloud Pub/Sub サブスクリプションをソースとして実行しているGoogle Cloud Dataflow ストリーミングパイプラインがあります。新しいGoogle Cloud Dataflow パイプラインと現在のバージョンとの互換性がなくなるようにコードを更新する必要があります。
この更新を行うときにデータを失いたくはありません。
何をするべきでしょうか？

A. 現在のパイプラインを更新し、ドレインフラグを使用します。
B. 現在のパイプラインを更新し、変換マッピング JSON オブジェクトを提供します。
C. 同じGoogle Cloud Pub/Sub サブスクリプションを持つ新しいパイプラインを作成し、古いパイプラインをキャンセルします。
D. 新しいGoogle Cloud Pub/Sub サブスクリプションを持つ新しいパイプラインを作成し、古いパイプラインをキャンセルします。

Correct Answer: D

QUESTION 17

会社は最初に動的キャンペーンを実行しており、ホリデーシーズン中にリアルタイムのデータを分析することによって様々なオファーを提供しています。
データサイエンティストは、30日間のキャンペーン期間中、毎時間急速に増加するテラバイト規模のデータを収集しています。
Google Cloud Dataflow を使用してデータを前処理し、Google Cloud Bigtable への機械学習モデルに必要な機能（信号）データを収集しています。
10 TBのデータの初期ロードの読み取りと書き込みで、最適するためのパフォーマンスを観察しています。
コストを最小限に抑えながらパフォーマンスを向上させたいと考えています。
何をすべきできでしょうか？

A. テーブルの行領域全体に読み取りと書き込みを均等に分散させることによって、スキーマを再定義します。
B. Google Cloud BigDate クラスタのサイトが増えるにつれて、パフォーマンスの問題は時間の経過とともに解決されます。
C. クラスタ内で頻繁に更新する必要がある値を識別するために単一行キーを使用するようにスキーマを再設計します。
D. オファーを表示するユーザーごとに順次増加する数値IDに基づいて行キーを使用するようにスキーマを再設計します。

Correct Answer: A

QUESTION 18

ソフトウェアはすべてのメッセージに簡単なJSON フォーマットを使用しています。これらのメッセージはGoogle Cloud Pub/Sub に発行され、Google Cloud Dataflow で処理されてCFOのリアルタイムダッシュボードが作成されています。
テスト中に、ダッシュボードにいくつかのメッセージが表示されていないことに気が付きました。ログを確認すると、すべてのメッセージがGoogle Cloud Pub/Sub に正常に公開されています。
何をするできでしょうか？

A. ダッシュボードアプリケーションを調べ、正しく表示しているかを確認します。
B. Google Cloud Dataflow パイプラインを経由し固定データセットを実行し、その出力を分析します。
C. Google Cloud Pub/Sub でGoogle Stackdriver Monitoring を使用して、足りないメッセージを見つけます。
D. Google Cloud Pub/Sub がメッセージをGoogle Cloud Dataflow にpushさせず、Google Cloud Pub/Sub からメッセージをpullするようにGoogle Cloud Dataflow を切り替えます。

Correct Answer: A

QUESTION 19

Flowlogisticは、Google BigQuery を主要な分析システムとして使用したいと考えていますが、まだApache Hadoop とSpark にワークロードがあり、Google BigQuery に移行することはできません。
Flowlogisticは、両方のワークロードに共通のデータを格納する方法を知りません。
何をするべきでしょうか？

A. パーティションテーブルとして共通データをGoogle BigQuery に保存します。
B. 共通データをGoogle BigQuery に保存し、承認されたビューを公開します。
C. Avroとしてエンコードされた共通データをGoogle Cloud Storage に保存します。
D. Google Cloud Dataproc クラスタ用の共通データをHDFSストレージに保存します。

Correct Answer: B

QUESTION 20

Flowlogisticの経営陣は、現在のApache Kafka サーバーでは、リアルタイムの在庫追跡システムのデータ量を処理できないと判断しました。
独自の在庫追跡ソフトウェアを提供するには新しいシステムをGoogle Cloud Platform 上に構築する必要があります。
システムは、様々なグローバルソースからデータを取り込み、リアルタイムで処理および問合せを行い、データを確実に格納できなければなりません。
どの組み合わせのGoogle Cloud Platform プロダクトを選ぶべきでしょうか？

A. Google Cloud Pub/Sub、Google Cloud Dataflow とGoogle Cloud Storage
B. Google Cloud Pub/Sub、Google Cloud Dataflow とローカルSSD
C. Google Cloud Pub/Sub、Google Cloud SQL とGoogle Cloud Storage
D. Google Cloud Load Balancing、Google Cloud Dataflow とGoogle Cloud Storage

Correct Answer: C

QUESTION 21

FlowlogisticのCEOは、営業チームが現場でより多くの情報を得られるように顧客ベースを迅速に把握したいと考えています。
営業チームはあまり技術的ではないため、Google BigQuery レポート作成を簡素化するBIツールを購入しました。しかし、営業チームはテーブル内のすべてのデータに圧倒されており、必要なデータを見つけるためにクエリに多額の費用を費やしています。
最も費用対効果の高い方法でこの問題を解決したいと考えています
どうすればいいでしょうか？

A. Google Sheetにデータをエクスポートし可視化します。
B. 必要な列だけで追加のテーブルを作成します。
C. BIツールに提示するためのテーブル上のビューを作成します。
D. 適切な列にCloud Identity and Access Management（Cloud IAM）の役割を作成し、それらの役割だけがクエリで表示されるようにします。

Correct Answer: C

QUESTION 22

Flowlogisticは、リアルタイムの在庫追跡システムを展開しています。
追跡デバイスはすべてパッケージ追跡メッセージを送信し、Apache Kafka クラスタではなく、単一のGoogle Cloud Pub/Sub トピックに送信されています。その後、サブスクライバーアプリケーションがリアルタイムのレポート作成のためにメッセージを処理し、履歴分析のためにそれらをGoogle BigQuery に保存しています。
パッケージデータが時間の経過とともに分析できるようにする必要があります。
どのアプローチを取るべきですか？

A. Google Cloud Pub/Sub サブスクライバーアプリケーションの各メッセージに、受信時にタイムスタンプを付与します。
B. Google Clod Pub/Sub に送信されるときに、各パブリッシャデバイスからのアウトバウンドメッセージにタイムスタンプとパッケージIDを付与します。
C. Google BigQuery のNOW（）関数を使用してイベントの時間を記録します。
D. Google Cloud Pub/Sub から自動的に生成されたタイムスタンプを使用してデータを並び替えます。

Correct Answer: B

Reference: https://cloud.google.com/pubsub/docs/ordering

QUESTION 23

ユーザーが何を食べたいかを予測する機械学習ベースの食品注文サービス用のデータベーススキーマを設計しています。
保存する必要がある情報の以下です。

ユーザープロフィール：ユーザーが好きで好きではないもの。
ユーザーアカウント情報：氏名、住所、希望の食事時間。
注文情報：どこから、誰に注文するのか。

データベースは製品のすべてのトランザクションデータを格納するために使用されます。データスキーマを最適化したいと考えています。
どのGoogle Cloud Platform プロダクトを使用しますか？

A. Google BigQuery
B. Google Cloud SQL
C. Google Cloud Bigtable
D. Google Cloud Datastore

Correct Answer: A

QUESTION 24

会社は、コンマ区切り値（CSV）ファイルをGoogle BigQuery にロードしています。
データは完全に正常にインポートされました。ただし、インポートされたデータは、ソースファイルとバイト単位で一致しません。
この問題の最も可能性の高い原因は何でしょうか？

A. Google BigQueryにロードされたCSV データはCSVとしてフラグが立っていない。
B. CSV データに、インポート時にスキップされた無効な行がある。
C. Google BigQuery に読み込まれたCSV データがGoogle BigQueryのデフォルトのエンコードを使用していない。
D. CSV データがGoogle BigQuery にロードされる前にETLフェーズを経ていない。

Correct Answer: B

Reference: https://cloud.google.com/bigquery/docs/schema-detect

QUESTION 25

会社は一時間に2万個のファイルを作成しています。
各データファイルは、4 KB未満のカンマ区切り値（CSV）ファイルとしてフォーマットされています。すべてのファイルは処理する前にGoogle Cloud Platform 上で取り込む必要があります。
会社のサイトはGoogle Cloud に対して200msの遅延があり、インターネット接続帯域幅は50 Mbpsに制限されています。
現在、データ取り込みポイントとしてGoogle Compute Engine 内の仮想マシンにセキュアFTP（SFTP）サーバーをデプロイしています。ローカルSFTPクライアントはCSVファイルをそのまま転送するために専用のマシン上で動作されています。
目標は、前日のデータを含むレポートを毎日午前 10:00 までに役員が使用できるようにすることです。
現状の設計は、帯域幅の利用率がかなり低いにもかかわらず、現在のボリュームにほとんど対応できません。
四半期のため、今後3か月間でファイル数が2倍になると予測されています。
どのような行動が必要でしょうか？（回答は2つ）

A. ファイルごとにデータ圧縮を導入して、ファイル転送の速度を上げます。
B. インターネットサービスプロバイダ（ISP）に問い合わせて、最大帯域幅を100Mbps以上に増やします。
C. データ取り込みプロセスを再設計し、gsutil ツールを使用してCSVファイルをストレージバケットに並行して送信できるようにします。
D. 1,000個のファイルをテープアーカイブ（TAR）ファイルにアセンブルする。TARファイルを送信し、受信時にクラウド内のCSVファイルを分解します。
E. ネットワークにS3互換のストレージエンドポイントを作成し、Google Cloud Storage Transfer Service を使ってオンプレミスのデータを指定されたストレージバケットに転送します。

Correct Answer: B E

QUESTION 26

何百万台ものInternet-of-Things（IoT）デバイスから送信されたテレメトリデータを処理するためにNoSQL データベースを選択しています。
データ量は年間100 TBのペースで増加しており、各データエントリーには約100個の属性が含まれています。

データ処理パイプラインは、原子性、一貫性、分離性、および耐久性（ACID）を必要としません。ただし、高可用性と低レイテンシが必要です。
個々のフィールドに対して照会してデータを分析する必要があります。
要件を満たすデータベースはどれでしょうか？（回答は3つ）

A. Redis
B. HBase
C. MySQL
D. MongoDB
E. Cassandra
F. HDFS とHive

Correct Answer: B D F

QUESTION 27

スパム判定するフィルタをトレーニングしています。このトレーニングデータが大きすぎることがわかりました。
この問題を解決するために何をすればいいでしょうか？（回答は3つ）

A. サンプル数を増やす。
B. サンプル数を減らす。
C. 少ない特徴量を使う。
D. 大きい特徴量を使う。
D. 正則化パラメータを増やす。
F. 正則化パラメータを減らす。

Correct Answer: A D F

QUESTION 28

データパイプラインにセキュリティのベストプラクティスを実装しています。
現在、プロジェクトオーナーとして手動でジョブを実行しています。
Google Cloud Storage から非公開情報を含む夜間にバッチファイルを取り出し、それらをGoogle Cloud Dataproc クラスタ上のSpark Scala ジョブで処理し、その結果をGoogle BigQuery に保存することで、これらのジョブを自動化する必要があります。
このワークロードをどのように安全に運用する必要がありますか？

A. Google Cloud Storage バケットを自分だけが見ることができるように制限します。
B. プロジェクトオーナー（owner）の役割をサービスアカウントに付与し、サービスアカウントでジョブを実行します。
C. バッチファイルの読み取り、Google BigQuery への書き込みが可能なサービスアカウントを使用します。
D. Google Cloud Dataproc クラスタ上のプロジェクト閲覧者（viewer）の役割を持つユーザアカウントを使ってバッチファイルを読み込み、Google BigQuery に書き込みます。

Correct Answer: B

QUESTION 29

データウェアハウスとしてGoogle BigQuery を使用しています。
ユーザーは、いつ照会を実行しても次の単純なクエリ実行が非常に遅いと報告があります。

SELECT country, state, city FROM [myproject:mydataset.mytable] GROUP BY country

クエリのクエリプランを確認し、ステージ1の読み取りセクションに次の出力が表示されます。

このクエリの遅延の最も可能性の高い原因は何でしょうか？

A. システムで実行されている同時クエリが多すぎます。
B. [myproject:mydataset.mytable] テーブルのパーティションが多すぎます。
C. [myproject:mydataset.mytable] テーブルのstate カラムまたはcity カラムのnull 値が多すぎます。
D. [myproject:mydataset.mytable] テーブルのほとんどの行のcountry列の値が同じであるため、データが歪んでいます。

Correct Answer: A

QUESTION 30

グローバルに配布されたオークションアプリケーションを使用するとユーザーは品目に入札できます。
時折、ユーザーがほぼ同じ時間に同じ入札を出し、異なるアプリケーションサーバーが入札を処理することがあります。各入札イベントには、商品、金額、ユーザー、およびタイムスタンプが含まれています。
これらの入札イベントをリアルタイムで1つの場所にまとめ、どのユーザーが最初に入札するかを判断されるようにしたいと考えています。
何をするべきでしょうか？

A. 共有ファイルにファイルを作成し、アプリケーションサーバーがすべての入札イベントをそのファイルに書き込むようにします。Apache Hadoop でファイルを処理し、どのユーザーが最初に入札したかを特定します。
B. 各アプリケーションサーバーに入札イベントが発生するたびにGoogle Cloud Pub/Sub に入札イベントを書き込むようにします。Google Cloud Pub/Subから入札イベント情報をGoogle Cloud SQL に書き込むカスタムエンドポイントにイベントをプッシュします。
C. 入札イベントを書き込むアプリケーションサーバーごとにMySQL データベースを設定します。これらの分散MySQL データベースのそれぞれに対して定期的にクエリを実行し、入札イベント情報でマスターMySQL データベースを更新します。
D. 入札イベントが発生した時に各アプリケーションサーバーがそのイベントをGoogle Cloud Pub/Sub に書き込むようにします。Google Cloud Dataflow を使用して入札イベントを取得するには、プルサブスクリプションを使用します。最初に処理された入札イベントのユーザーに各アイテムの入札を送信します。

Correct Answer: C

QUESTION 31

会社は、Google BigQuery で6か月間データを収集し分析しています。
分析されたデータの大部分は、events_partitioned という名前の時分割テーブルに配置されます。クエリのコストを削減するために会社はイベントと呼ばれるビューを作成しました。これは過去14日間のデータのみをクエリするものです。
このビューは従来のSQL で説明されています。来月、既存のアプリケーションはODBC接続を介してイベントデータを読み取るためにGoogle BigQuery に接続します。
アプリケーションが接続できることを確認する必要があります。
何をすればいいでしょうか？（回答は2つ）

A. 標準 SQLを使用してイベントに関する新しいビューを作成します。
B. 標準 SQLクエリを使用して新しいパーティションテーブルを作成します。
C. 標準 SQLを使用してevents_partitioned の上に新しいビューを作成します。
D. 認証に使用するODBC接続用のサービスアカウントを作成します。
E. ODBC接続と共有する「イベント」用のCloud Identity and Access Management（Cloud IAM）役割を作成します。

Correct Answer: A E

QUESTION 32

Firebase Analytics とGoogle BigQuery を無料で統合できるようになりました。
Firebaseは、BigQueryで毎日 app_events_YYYYMMDD の形式で新しいテーブルを自動的に作成しています。
過去30日間のすべてのテーブルを従来のSQLでクエリしたいと考えています。
あなたは何をするべきか？

A. TABLE_DATE_RANGE 関数を使用する。
B. WHERE_PARTITIONTIME 疑似列を使用する。
C. YYYY-MM-DD とYYYY-MM-DD の間のWHERE日付を使用する。
D. SELECT IF を使用する。 (date >= YYYY-MM-DD AND date <= YYYY-MM-DD

Correct Answer: A

Reference: https://cloud.google.com/blog/products/gcp/using-bigquery-and-firebase-analytics-to-understand-your-mobile-app?hl=am

QUESTION 33

現在、キャンペーン用のデータパイプラインを設定しています。
すべてのGoogle Cloud Pub/Sub ストリーミングデータで、重要なビジネス要件の1つとして、キャンペーン中に入力とそのタイミングを定期的に識別できるようにします。
エンジニアは、この目的のためにGoogle Cloud Dataflow でウィンドウ化と変換を使用することにしました。しかし、この機能をテストするとGoogle Cloud Dataflow ジョブがすべてのストリーミングインセットに対して失敗することがわかりました。
この問題の最も可能性の高い原因は何ですか？

A. タイムスタンプが割り当てられていないため、ジョブが失敗します。
B. ジョブが失敗する原因となる遅延データに対応するトリガーが設定されていません。
C. グローバルウィンドウ機能が適用されていないため、パイプラインの作成時にジョブが失敗します。
D. 非グローバルウィンドウ機能が適用されていないため、パイプラインの作成時にジョブが失敗します。

Correct Answer: C

QUESTION 34

地震データを解析するシステムを設計します。抽出、変換、およびロード（ETL）プロセスは、Apache Hadoop クラスター上の一連のMapReduce ジョブとして実行されます。ETLプロセスでは、データセットの処理に何日もかかるため、計算手順が複雑になることがあります。これで、センサーのキャリブレーション手順が省略されたことがわかります。
将来的にセンサーキャリブレーションを体系的に実行するためにETLプロセスをどのように変更すればよいですか？

A. transformMapReduce ジョブを変更して、他の操作を実行する前にセンサーのキャリブレーションを適用します。
B. 生のデータにセンサーキャリブレーションを適用するための新しいMapReduce ジョブを導入し、他のすべてのMapReduce ジョブがこの後に連鎖されるようにします。
C. ETL プロセスの出力にセンサーの調整データを追加し、すべてのユーザーがセンサーの調整を自分で適用する必要があることを文書化します。
D. シミュレーションによるアルゴリズムを開発し、校正係数に基づいて最後のMapReduce ジョブから出力されたデータの分散を予測し、その補正をすべてのデータに適用します。

Correct Answer: A

QUESTION 35

オンライン小売業者が現在のアプリケーションをGoogle App Engine 上に構築しました。
新しい構想では、顧客がアプリケーションを介して直接取引できるように、アプリケーションを拡張することが求められています。
ビジネスインテリジェンス（BI）ツールを使用して、買い物のトランザクションを管理し、複数のデータセットから結合されたデータを分析する必要があります。
この目的のために単一のデータベースだけを使うことになります。
どのGoogle Cloud データベースを選択すればよいですか？

A. Google BigQuery
B. Google Cloud SQL
C. Google Cloud BigTable
D. Google Cloud Datastore

Correct Answer: C

Reference: https://cloud.google.com/looker

QUESTION 36

ほぼ3年前に新しいゲームアプリを立ち上げました。
前日から、ログファイルをLOGS_yyyymmdd という形式の別のGoogle BigQuery テーブルにアップロードしています。そして、テーブルのワイルドカード関数を使用して、すべての時間範囲の日次レポートと月次レポートを生成しています。
最近、長い日付範囲をカバーするいくつかのクエリが1,000テーブルの制限を超えて失敗していることがわかりました。
どうすればこの問題を解決できますか？

A. すべての日次ログ表を日付分割テーブルに変換します。
B. 分割テーブルを単一の分割テーブルに変換します。
C. クエリキャッシュを有効にして、前月のデータをキャッシュできるようにします。
D. 各月をカバーする個別のビューを作成し、これらのビューからクエリを実行します。

Correct Answer: A

QUESTION 37

分析チームは、いくつかの異なる指標に基づいて、どの顧客が会社と再び仕事をする可能性が最も高いかを判断するための簡単な統計モデルを構築したいと考えています。Google Cloud Storage に格納されたデータを使ってApache Spark でモデルを実行したいと考えており、このジョブを実行するためにGoogle Cloud Dataproc を使うことを勧めました。
テストによると、このワークロードは15 ノードクラスタで約30分で実行され、結果はGoogle BigQuery に出力されます。
計画ではこのワークロードを毎週実行します。コスト面でクラスタを最適化するにはどうすればよいでしょうか？

A. ワークロードをGoogle Cloud Dataflow に移行します。
B. クラスタにプリエンプティブ仮想マシン（VM）を使用します。
C. ジョブの実行速度を上げるために、メモリの大きいノードを使用します。
D. ワーカーノードでSSDを使用して、ジョブを高速に実行できるようにします。

Correct Answer: A

QUESTION 38

会社はバッチベースとストリームベースの両方のイベントデータを受け取っています。Google Cloud Dataflow を使用して予測可能な期間でデータを処理したいと考えています。
ただし、場合によっては、データの到着が遅れたり、順序が正しくないことがあります。
遅延したデータや故障したデータを処理するためにGoogle Cloud Dataflow パイプラインをどのように設計すべきなのでしょうか？

A. 単一のグローバルウィンドウを設定して、すべてのデータをキャプチャします。
B. すべての遅延データをキャプチャするようにスライドウィンドウを設定します。
C. ウォーターマークとタイムスタンプを使用して、遅延データをキャプチャします。
D. すべてのデータソースタイプ（ストリームまたはバッチ）にタイムスタンプがあることを確認し、タイムスタンプを使用して遅延データのロジックを定義します。

Correct Answer: A

QUESTION 39

会社のETLパイプラインをApache Hadoop クラスタ上で走らせるようにしなければなりません。
パイプラインにはチェックポインティングと分割パイプラインが必要です。
パイプラインを作成するには、どの方法を使用しますか？

A. Pig を用いたPigLatin
B. Hive を使用したHiveQL
C. MapReduce を使用したJava
D. Python によるMapReduceの使用

Correct Answer: D

QUESTION 40

企業では、Google Cloud Platform を使用してハイブリッド展開を維持しており、匿名化された顧客データに対して分析が実行しています。データは、Google Cloud Platform 上で実行されているデータ転送サーバーへの並行アップロードを通じて、データセンターからGoogle Cloud Storage にインポートされます。
管理者から、毎日の転送に時間がかかりすぎることが通知され、問題の解決するように依頼がありました。
転送速度を最大するにはどうするべきでしょうか?

A. サーバーのCPUサイズを増加します。
B. サーバー上のGoogle Persistent Disk サイズを大きくします。
C. データセンターからGoogle Cloud Platform までのネットワーク帯域幅を増やします。
D. Google Compute Engine からGoogle Cloud Storage のネットワーク帯域幅を増やします。

Correct Answer: C

QUESTION 41

MJTelcoは、データを共有するためのカスタムインターフェイスを構築しています。
それらは次の要件があります。

ペタバイト規模のデータセットで集計する必要があります。
非常に速い応答時間（ミリ秒）で特定の時間範囲行をスキャンする必要があります。

どの組み合わせのGoogle Cloud Platform プロダクトをおすすめしますか？

A. Google Cloud Datastore と Google Cloud Bigtable
B. Google Cloud Bigtable と Google Cloud SQL
C. Google BigQuery と Google Cloud Bigtable
D. Google BigQuery と Google Cloud Storage

Correct Answer: C

QUESTION 42

MJTelcoは、オペレーションチーム用にビジュアル化を構成するには、次の要件を満たす必要があります。

テレメトリには、直近6週間分の5万台すべてのシステムデータを含める必要がある。（毎分1回サンプリング）
レポートは、ライブデータから3時間以上遅れてることはできない。
実用的なレポートには、最適なリンクのみが表示されます。
最適なリンクは、最上位にソートする必要があります。
最適なリンクは、地域別にグループ化してフィルタすることができます。
レポートを読み込むためのユーザーの応答時間は5秒未満でなければなりません。

過去6週間のデータを格納するためのデータソースを作成し、視聴者が複数の日付範囲、異なる地域、および一意のインストールの種類を表示できる視覚化を作成します。
視覚エフェクトを変更せずに、常に最新のデータを表示します。毎月新しい視覚エフェクトを作成および更新しないようにします。
どうすればいいですか?

A. 現在のデータを調べ、考えられる条件の組み合わせごとに1つずつ、一連のグラフとテーブルを作成します。
B. 現在のデータを調べ、値の選択を可能にする抽出条件フィルタにバインドされた一般化されたグラフとテーブルの小さなセットを作成します。
C. データをスプレッドシートにエクスポートし、考えられる基準の組合せごとに1つずつ、一連のチャートとテーブルを作成し、それらを複数のタブに分散します。
D. データをリレーショナルデータベーステーブルにロードし、すべての行にクエリを実行し、各条件にまたがってデータを要約し、Google Chart および
Google Visualization API を使用して結果をレンダリングするGoogle App Engine アプリケーションを作成します。

Correct Answer: B

QUESTION 43

MJTelcoは、1日あたりの取り込みに興味を持っているレコードのストリームをするとGoogle BigQuery のコストが上昇することを懸念しています。MJTelcoから設計ソリューションの提供を依頼されました。
これには、tracking_table という1つの大きなデータテーブルが必要になります。
さらに、毎日のイベントをきめ細かく分析しながら、毎日のクエリのコストを最小限に抑えたいと考えています。
何をするべきでしょうか？

A. tracking_table という名前のテーブルを作成し、DATE列を含めます。
B. tracking_table という分割テーブルを作成し、TIMESTAMP列を含めます。
C. tracking_table_YYYYMMDD パターンの後に、日ごとに共有テーブルを作成します。
D. 日を表すTIMESTAMP列を持つtracking_table という名前のテーブルを作成します。

Correct Answer: B

QUESTION 44

Flowlogisticは、現在使用しているApache Kafka サーバーがリアルタイムの在庫追跡システムのデータ量を処理できないと判断しました。
Google Cloud Platform 上に、独自の追跡ソフトウェアを提供する新しいシステムを構築する必要があります。
システムは、さまざまなグローバルソースからのデータを取り込み、リアルタイムで処理および照会し、データを確実に保存しなければなりません。
どの組み合わせのGoogle Cloud Platform プロダクトを選択しますか？

A. Google Cloud Pub/Sub、Google Cloud Dataflow、Google Cloud Storage
B. Google Cloud Pub/Sub、Google Cloud Dataflow、Local SSD
C. Google Cloud Pub/Sub、Google Cloud SQL、Google Cloud Storage
D. Google Cloud Load Balancing、Google Cloud Dataflow、Google Cloud Storage
E. Google Cloud Dataflow、Google Cloud SQL、Google Cloud Storage

Correct Answer: C

QUESTION 45

ETLジョブをGoogle BigQuery で実行するように移行した後、移行したジョブの出力が元のジョブの出力と同じであることを確認する必要があります。
元のジョブの出力を含むテーブルをロードし、その内容を移行されたジョブの出力と比較して、それらが同一であることを示しますが、テーブルには比較のためにテーブルを結合できる主キー列がありません。
何をするべきでしょうか？

A. RAND() 関数を使用してテーブルからランダムなサンプルを選択し、サンプルを比較します。
B. HASH() 関数を使用してテーブルからランダムなサンプルを選択し、サンプルを比較します。
C. Google Cloud Dataproc クラスタとGoogle BigQuery Hadoop コネクタを使用して各テーブルからデータを読み込み、ソート後にテーブルの非timestamp カラムからハッシュを計算します。各テーブルのハッシュを比較します。
D. OVER() 関数を使用して層別ランダム・サンプルを作成し、各テーブルの同等サンプルを比較します。

Correct Answer: B

QUESTION 46

あなたは、複数のビジネスユニットがあり、それぞれに異なる優先順位と予算が設定されている大企業のBI責任者です。
Google BigQuery のオンデマンド価格設定は、プロジェクトごとに2Kの同時オンデマンドスロットの割り当てで使用します。組織のユーザーがクエリを実行するためのスロットを得られない場合があるため、これを修正する必要があります。
顧客のアカウントに新しいプロジェクトを導入することは避けなければなりません。
何をするべきでしょうか？

A. バッチGoogle BigQuery クエリをインタラクティブGoogle BigQuery クエリに変換します。
B. プロジェクトごとの2Kオンデマンド割り当てを克服するための追加プロジェクトを作成します。
C. 定額制に切り替えて、プロジェクトの階層優先度モデルを設定します。
D. Cloud Consoleの「割り当て量」ページで、プロジェクトあたりの同時スロット数を増やします。

Correct Answer: C

Reference：https://cloud.google.com/blog/products/gcp/busting-12-myths-about-bigquery

QUESTION 47

Webアプリケーションログを含むトピックを備えたApache Kafka Cluster がオンプレミスにあります。
Google BigQuery とGoogle Cloud Storage で分析するには、データをGoogle Cloud に複製する必要があります。
Kafka Connect プラグインのデプロイを回避するための推奨される複製方法はミラーリングです。
何をするべきでしょうか？

A. KafkaクラスタをGoogle Compute Engine VMインスタンスにデプロイします。Google Compute Engine で実行しているクラスタにトピックをミラーリングするように、オンプレムクラスタを構成します。Kafka から読み取ってGoogle Cloud Storage に書き込むには、Google Cloud Dataproc クラスタまたはGoogle Cloud Dataflow ジョブを使用します。
B. Google Cloud Pub/Sub Kafka コネクタをSink コネクタとして設定して、Kafka クラスタをGoogle Compute Engine VMインスタンスにデプロイします。Kafkaから読み取ってGoogle Cloud Storage に書き込むには、Google Cloud Dataproc クラスタまたはGoogle Cloud Dataflow ジョブを使用します。
C. Google Cloud Pub/Sub Kafka コネクタをオンプレミス Kafka クラスタに配備し、Google Cloud Pub/Subをソースコネクタとして構成します。Google Cloud Dataflow ジョブを使用してGoogle Cloud Pub/Subを読み込み、Google Cloud Storage に書き込みます。
D. Google Cloud Pub/Sub Kafka コネクタをオンプレミス Kafka クラスタに配置し、Google Cloud Pub/Sub をSink コネクタとして構成します。Google Cloud Dataflow ジョブを使用してGoogle Cloud Pub/Subを読み込み、Google Cloud Storage に書き込みます。

Correct Answer: A

QUESTION 48

Hadoop ジョブをオンプレミスクラスターからGoogle Cloud Dataproc とGoogle Cloud Storage に移行しました。
Spark ジョブは、多数のシャッフィング操作で構成される複雑な分析ワークロードで、初期データはパーケットファイルです。（それぞれの平均サイズは200〜400MB）
Google Cloud Dataproc へ移行するとパフォーマンスが低下するため、合わせて最適化したいと思います。
企業はコストを非常に重視しているため、このワークロードのためにGoogle Cloud Dataproc をプリエンプティブ（優先権のない従業員が2人いる場合のみ）で使用し続ける必要があります。
どうするべきでしょうか？

A. parquet ファイルのサイズを増やして、最小1 GBにします。
B. parquet ファイルではなく、TFRecords フォーマット（アプリケーション。ファイルあたり200MB）に切り替えます。
C. HDDからSSDに切り替え、Google Cloud Storage からHDFSに初期データをコピーし、Spark ジョブを実行して結果をGoogle Cloud Storage にコピーします。
D. HDDからSSDに切り替え、プリエンプティブ VMの設定を上書きして、ブートディスクサイズを増やします。

Correct Answer: C

QUESTION 49

チームは、会社でETLを開発および保守する責任があります。
Google Cloud Dataflow のいずれかが入力データのエラーのために失敗しており、パイプラインの信頼性を向上させる必要があります。（障害が発生したすべてのデータを再処理可能など）

A. 今後これらのタイプのエラーをスキップし、ログからエラーのある行を抽出するためのフィルタリング手順を追加します。
B. 試行の追加…。データを変換するDoFnに対してcatchブロックを実行し、ログからエラーのある行を抽出します。
C. 試行の追加…。データを変換するDoFnに対してcatchブロックを実行し、DoFnから直接Google Cloud Pub/Sub に間違った行を書き込みます。
D.試行の追加…。後でGoogle Cloud Pub/Sub に保管できるPCollectionを作成するには、sideOutputを使用します。

Correct Answer: C

QUESTION 50

モデルをトレーニングして、不動産に関する利用可能なデータセットに基づいて住宅価格を予測します。
完全に接続されたニューラルネットをトレーニングする計画があり、データセットにプロパティの緯度と経度が含まれていることに気付きました。
不動産の専門家は、物件の場所は価格に大きな影響すると言っています。そのため、物理的な依存関係を組み込んだ機能を設計したいと思います。
何をするべきでしょうか？

A. ニューラルネットの入力ベクトルとして緯度と経度を入力します。
B. 緯度と経度の交差点から数値列を作成します。
C. 緯度と経度を交差するフィーチャを作成し、分レベルでバックキーを設定し、最適化時にL1正規化を使用します。
D. 緯度と経度を交差するフィーチャを作成し、それを微小レベルでバックキー化し、最適化時にL2正規化を使用します。

Correct Answer: B

Reference：https://cloud.google.com/bigquery/docs/gis-data

QUESTION 51

MariaDB SQLデータベースをGoogle Compute Engine VMインスタンスにデプロイしているため、監視と警告を構成する必要があります。
開発作業を最小限に抑えながら、ネットワーク接続、ディスクI/O、複製ステータスなどのメトリックをMariaDBから収集し、Google StackDriverでダッシュボードやアラートに使用したいと考えています。
何をするべきでしょか?

A. OpenCensus Agent をインストールし、StackDriver エクスポータを使用してカスタムメトリック収集アプリケーションを作成します。
B. ヘルスチェックを使用して、MariaDB インスタンスをインスタンスグループに配置します。
C. Google StackDriver Logging Agentをインストールし、MariaDB ログを読み取るようにfluentd in_tailプラグインを設定します。
D. Google StackDriver Agentをインストールし、MySQL プラグインを構成します。

Correct Answer: C

QUESTION 52

あなたは銀行に勤めています。すでに認可されているローン申込書、およびこれらの申込書がデフォルト設定されているかどうかに関する情報を含むラベル付きデータセットがあります。
クレジット申請者のデフォルト率を予測するモデルをトレーニングするように依頼されました。
何をするべきでしょか?

A. 追加データを収集して、データセットのサイズを増やします。
B. 信用デフォルト・リスク・スコアを予測する線形回帰をトレーニングします。
C. データからバイアスを取り除き、ローンを辞退した申請書を収集する。
D. ローン申込者とソーシャルプロファイルと照合して、機能エンジニアリングを有効にします。

Correct Answer: B

QUESTION 53

2 TBのリレーショナルデータベースをGoogle Cloud Platform に移行する必要があります。
このデータベースを使用するアプリケーションを大幅にリファクタリングするためのリソースがないため、運用コストが主な懸念事項となります。
どのGoogle Cloud Platform プロダクトを使ってデータの保存と提供しますか？

A. Google Cloud Spanner
B. Google Cloud Bigtable
C. Google Cloud Firestore
D. Google Cloud SQL

Correct Answer: D

QUESTION 54

リレーショナルデータベースからGoogle BigQueryに何百万もの機密患者レコードをコピーする必要があります。データベースの合計サイズは10 TBです。
安全で時間効率の高いソリューションを設計する必要があります。
何をするべきでしょうか？

A. データベースからレコードをAvroファイルとしてエクスポートします。gsutil を使用してファイルをGoogle Cloud Storage にアップロードし、次にGoogle Cloud Platform コンソールのGoogle BigQuery Web UIを使用してAvroファイルをGoogle BigQuery にロードします。
B. データベースからレコードをAvroファイルとしてエクスポートします。ファイルをTransfer Appliance にコピーしてGoogle に送信し、Google Cloud Platform コンソールのGoogle BigQuery Web UI を使用してAvroファイルをGoogle BigQuery にロードします。
C. データベースのレコードをCSVファイルにエクスポートします。CSVファイルのパブリックURLを作成し、Storage Transfer Service を使用してファイルをGoogle Cloud Storage に移動します。Google Cloud Platform コンソールのGoogle BigQuery Web UI を使用して、CSVファイルをGoogle BigQueryにロードします。
D. データベースからレコードをAvroファイルとしてエクスポートします。 AvroファイルのパブリックURLを作成してから、Storage Transfer Serviceを使用してファイルをGoogle Cloud Storageに移動します。 Google Cloud Platform コンソールのGoogle BigQuery Web UI を使用して、AvroファイルをGoogle BigQuery にロードします。

Correct Answer: A

QUESTION 55

Google BigQuery データウェアハウスのメインの在庫テーブルを読み取る、ほぼリアルタイムの在庫ダッシュボードを作成する必要があります。
過去の在庫データは、品目および場所ごとの在庫残高として保存されます。 1時間に何千もの在庫を更新しています。ダッシュボードのパフォーマンスを最大限に引き出し、データが正確であることを確認したいと思っています。
何をするべきでしょうか？

A. Google BigQuery のUPDATE ステートメントを活用して、在庫残高の変更時に在庫残高を更新します。
B. 在庫残高表を品目別を分割化し、各在庫が更新されるたびにスキャンされるデータの量を減らします。
C. Google BigQuery を使用して、ストリームの変更を毎日の在庫移動テーブルにストリーミングします。履歴在庫残高テーブルに結合するビューで残高を計算します。在庫残高表を毎晩更新します。
D. Google BigQuery バルク・ローダーを使用して、在庫変更を日次在庫移動表にバッチロードします。履歴在庫残高表に結合するビューで残高を計算します。在庫残高表を毎晩更新します。

Correct Answer: A

QUESTION 56

Google BigQueryにデータが保存されています。
Google BigQuery データセットのデータは高可用性である必要があります。コストを最小限に抑えるために、このデータのストレージ、バックアップ、およびリカバリ戦略を定義する必要があります。
Google BigQueryテーブルをどのように構成しますか？

A. Google BigQuery データセットをリージョナルに設定します。緊急の場合には、ポイントインタイムスナップショットを使用してデータをリカバリーします。
B. Google BigQuery データセットをリージョナルに設定します。スケジュールされたクエリを作成して、バックアップ時刻の末尾にあるテーブルにデータのコピーを作成します。緊急の場合は、テーブルのバックアップコピーを使用します。
C. Google BigQuery データセットをマルチリージョナルに設定します。緊急の場合には、ポイントインタイムスナップショットを使用してデータをリカバリーします。
D. Google BigQuery データセットをマルチリージョナルに設定します。スケジュールされたクエリを作成して、バックアップ時刻の末尾にあるテーブルにデータのコピーを作成します。緊急の場合は、テーブルのバックアップコピーを使用します。

Correct Answer: B

QUESTION 57

Google Cloud Dataprepを使用して、Google BigQueryテーブル内のデータのサンプルにレシピを作成しました。
実行時間が可変のロードジョブが完了した後、同じスキーマのデータを毎日アップロードする際にこのレシピを再利用したいとします。
どうするべきでしょうか？

A. Google Cloud Dataprep でクーロンスケジュールを作成します。
B. Google Cloud Dataprep ジョブの実行をスケジュールするためのGoogle App Engine クーロンジョブを作成します。
C.レシピをGoogle Cloud Dataprep テンプレートとしてエクスポートし、Google Cloud Schedulerでジョブを作成します。
D. Google Cloud Dataprep ジョブをGoogle Cloud Dataflow テンプレートとしてエクスポートし、それをGoogle Cloud Composer ジョブに組み込みます。

Correct Answer: C

QUESTION 58

Google Cloud Dataproc クラスタを管理しています。
クラスターで進行中の作業を失うことなく、コストを最小限に抑えながらジョブの実行速度を上げる必要があります。
何をするべきでしょうか？

A. プリエンプティブワーカーを増やしてクラスタサイズを増やします。
B. プリエンプティブワーカーノードを使用してクラスタサイズを増やし、強制的に使用停止するように構成します。
C. プリエンプティブワーカーノードを使用してクラスタサイズを増やし、Google Stackdriverを使用してスクリプトを起動して作業を維持します。
D. プリエンプティブワーカーノードを使用してクラスタサイズを増やし、適切なデコミッショニングを使用するように構成します。

Correct Answer: D

Reference：https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/flex

QUESTION 59

配送ラベルを読むためにハンドヘルドスキャナを使う運送会社で働いています。
会社はスキャナーが受取人の個人識別情報（PII）のみを分析システムに送信することを要求する厳格なデータプライバシー基準を持っています。これはユーザーのプライバシー規則に違反します。
PIIが分析システムにさらされるのを防ぐために、クラウドネイティブの管理サービスを使用してスケーラブルなソリューションを迅速に構築したいと考えています。
何をするべきでしょうか？

A. Google BigQuery で承認されたビューを作成して、機密データを含むテーブルへのアクセスを制限します。
B. サードパーティ製のデータ検証ツールをGoogle Compute Engine 仮想マシンにインストールし、受信データの機密情報をチェックします。
C. Google Stackdriver Logging を使用して、パイプライン全体を通過するデータを分析し、機密情報を含む可能性のあるトランザクションを識別します。
D. トピックを読み取り、Google Cloud Data Loss Prevention API を呼び出すGoogle Cloud Function を構築します。タグ付けと信頼レベルを使用して、バケット内のデータを確認用に渡すか、隔離します。

Correct Answer: A

QUESTION 60

3つのデータ処理ジョブを開発しました。
1番目は、Google Cloud Storage にアップロードされたデータを変換して結果をGoogle BigQueryに書き込むGoogle Cloud Dataflow パイプラインを実行します。
2番目は、オンプレミスサーバーからデータを取り込み、Google Cloud Storage にアップロードします。
3番目は、サードパーティのデータプロバイダから情報を取得し、その情報をGoogle Cloud Storage にアップロードするGoogle Cloud Dataflow パイプラインです。
これら3つのワークフローの実行をスケジュールして監視し、必要に応じて手動で実行する必要があります。
何をするべきでしょか？

A. Google Cloud Composer でDirect Acyclic Graphを作成して、ジョブのスケジュールと監視を行います。
B. Google Stackdriver Monitoring を使用して、Webhook通知でアラートを設定し、ジョブをトリガーします。
C. Googe Cloud Platform API 呼び出しを使用してジョブの状況をスケジュールおよび要求するGoogle App Engine アプリケーションを開発します。
D. Google Compute Engine インスタンス内にcronジョブをセットアップし、Google Cloud Platform API呼び出しを使用してパイプラインをスケジュールおよび監視します。

Correct Answer: D

QUESTION 61

Google Cloud Pub/Sub からメッセージを引き出し、Google BigQuery にデータを送信するNode.jsで書かれたGoogle Cloud Functions があります。
Google Cloud Pub/Sub トピックのメッセージ処理率が予想よりも桁違いに高いことがわかりましたが、Google tackdriver ログビューアにエラーが記録されていません。
この問題の2つの最も可能性の高い原因は何でしょうか？（回答は 2つ）

A. パブリッシャのスループットクォータが小さすぎます。
B. 未処理メッセージの合計が最大10MBを超えています。
C. サブスクライバ・コードでのエラー処理は、ランタイム・エラーを適切に処理していません。
D. サブスクライバーコードはメッセージに対応できません。
E. サブスクライバーコードは、それがプルするメッセージを確認しません。

Correct Answer: C D

QUESTION 62

Google BigQuery の過去3年間の過去データと、新しいデータを毎日 Google BigQuery に配信するデータパイプラインがあります。
データサイエンスチームは、日付列でフィルタし、データの期間が30〜90日に制限されているクエリを実行すると、クエリがテーブル全体をスキャンすることに気付きました。また、請求書が予想よりも早く増加していることにも気付きました。
SQLクエリを実行する機能を維持しながら、できるだけ費用対効果の高い方法で問題を解決する必要があります。
何をするべきでしょか?

A. DDLを使用してテーブルを再作成します。TIMESTAMP型またはDATE型を含む列でテーブルを分割します。
B. データサイエンスチームは、テーブルをGoogle Cloud Storage 上のCSVファイルにエクスポートし、Google Cloud Datalab を使用してファイルを直接読み込んでデータを調べることを推奨します。
C. パイプラインを変更して、過去30〜90日間のデータをあるテーブルに保持し、より長い履歴を別のテーブルに保持して、履歴全体に対する全テーブルスキャンを最小限に抑えます。
D.Google BigQueryテーブルを毎日作成するApache Beam パイプラインを作成します。データサイエンスチームは、必要なデータを選択するために、テーブル名のサフィックスにワイルドカードを使用することを推奨します。。

Correct Answer: C

QUESTION 63

物流会社を経営していて、車両ベースのセンサーのイベント配信の信頼性を向上させたいとします。
世界中の小規模なデータセンターを運用してこれらのイベントをキャプチャしていますが、イベント収集インフラストラクチャからイベント処理インフラストラクチャへの接続を提供する専用回線は信頼性が低く、予測不可能なレイテンシが発生します。
最もコスト効率の高い方法でこの問題に対処する必要があります。
何をするべきでしょか？

A. データセンターに小規模なKafka クラスタを導入して、イベントをバッファリングします。
B. データ取得デバイスはGoogle Cloud Pub/Sub にデータを公開する。
C. すべてのリモートデータセンターとGoogle の間にGoogle Cloud Interconnect を確立します。
D. セッションウィンドウ内のすべてのデータを集約するGoogle Cloud Dataflowを記述します。

Correct Answer: A

QUESTION 64

あなたは、オンライン販売機能をGoogle Home などのさまざまな在宅アシスタントと統合したいと考えている小売業者です。
顧客の音声コマンドを解釈してバックエンドシステムにオーダーを発行する必要があります。どのGoogle Cloud Platform プロダクトを選ぶべきでしょうか？

A. Google Cloud Speech-to-Text API
B. Google Cloud Natural Language API
C. Dialogflow Enterprise Edition
D. Google Cloud AutoML Natural Language

Correct Answer: D

QUESTION 65

分析にはGoogle BigQuery データセットを使用します。
サードパーティ企業に同じデータセットへのアクセスを提供したいとします。データ共有のコストを低く抑え、データが最新であることを確認する必要があります。
どのソリューションを選択しますか？

A. Google BigQuery テーブルに承認されたビューを作成してデータアクセスを制御し、サードパーティ企業にそのビューへのアクセスを提供します。
B. Google Cloud Scheduler を使用して定期的にデータをGoogle Cloud Storage にエクスポートし、サードパーティ企業にバケットへのアクセスを提供します。
C. 共有する関連データを含むGoogle BigQuery で別のデータセットを作成し、サードパーティ企業に新しいデータセットへのアクセスを提供します。
D. データを頻繁に読み取り、サードパーティ企業が使用できるように、関連するGoogle BigQuery データセットまたはGoogle Cloud Storage バケットに書き込むGoogle Cloud Dataflow ジョブを作成します。

Correct Answer: B

QUESTION 66

ある運送会社は、リアルタイムでApache Kafka ストリームに送られるライブのパッケージ追跡データを持っています。これはGoogle BigQuery にロードされます。
会社のアナリストは、Google BigQuery の追跡データをクエリして、パッケージのライフサイクルにおける地理空間の傾向を分析したいと考えています。
このテーブルは当初、取り込み日分割を使用して作成されましたが時間の経過とともに、クエリの処理時間が長くなりました。
Google BigQuery のクエリパフォーマンスを向上させる変更を実装する必要があります。
何をするべきでしょか?

A. 取り込み日の列にGoogle BigQuery のクラスタリングを実装します。
B. パッケージ追跡ID列にGoogle BigQuery のクラスタリングを実装します。
C. Google Cloud Storage ファイルに古いデータを階層化し、拡張テーブルを活用します。
D. パッケージ配信日にデータ分割を使用してテーブルを再作成します。

Correct Answer: A

QUESTION 67

社内のさまざまな部門に対してGoogle BigQuery へのアクセスを設定する必要があります。
ソリューションは、次の要件を満たしている必要があります。

各部門は、自分のデータのみにアクセスできます。
各部門には、テーブルを作成および更新してチームに提供する必要がある1人以上のリードがいます。
各部門にはデータアナリストがおり、データの問合せはできますが変更はできません。

Google BigQueryのデータへのアクセスをどのように設定する必要があるでしょうか？

A. 部門ごとにデータセットを作成します。部門にオーナー（owner）の役割を割り当て、データアナリストにデータセットの書き込み（Writer）の役割を割り当てます。
B. 部門ごとにデータセットを作成します。部門にオーナー（owner）の役割を割り当て、データアナリストにデータセットの読み込み（Reader）の役割を割り当てます。
C. 部門ごとにテーブルを作成します。部署にはオーナー（owner）の役割を割り当て、データアナリストにはテーブルが含まれるプロジェクト編集者（editor）の役割を割り当てます。
D. 部門ごとにテーブルを作成します。部署には編集者（editor）の役割を割り当て、データアナリストにはテーブルが存在するプロジェクト閲覧者（viewer）の役割を割り当てます。

Correct Answer: D

Categories:

Google Cloud Platform

Tags:

Professional Data Engineer

Comments are closed