※ 他の問題集は「タグ:Professional Data Engineer の模擬問題集」から一覧いただけます。
Google Cloud 認定資格 – Professional Data Engineer – 模擬問題集(全 50問)
Question 1
特定の日に雨が降るかどうかを予測するモデルを構築しています。
何千もの入力特徴があり、モデルの精度への影響を最小限に抑えながらいくつかの特徴を削除することでトレーニング速度を改善できるかどうかを確認したいと考えています。
何をするべきでしょうか?
- A. 出力ラベルとの相関性が高い機能を削除します。
- B. 相互依存性の高い特徴を 1つの代表的な特徴に結合します。
- C. 各特徴を個別にフィードする代わりに 3つのバッチでそれらの値を平均します。
- D. トレーニング レコードの 50%を超える値がnull である機能を削除します。
Correct Answer: B
Question 2
スケーラブルな方法でデータを収集する必要がある新しいアプリケーションを構築しています。
データは一日中アプリケーションから継続的に届き、年末までに一日あたり約 150 GBのJSON データを生成すると予想されます。
顧客の要件は以下の通りです。
– 生産者と消費者の分離
– 取り込んだ生のデータを無期限に保存するためのストレージとコストパーフォーマンスが良いストレージ
– ほぼリアルタイムのSQL クエリ
– 少なくとも2年分の履歴データを保持し、これをSQL でクエリすること。
これらの要件を満たすためにはどのパイプラインを使用すべきでしょうか?
- A. API を提供するアプリケーションを作成します。API をポーリングし、データをgzip 形式のJSON ファイルとして Google Cloud Storag eに書き込むツールを作成します。
- B. Google Cloud SQL データベースに書き込んでデータを保存するアプリケーションを作成します。データベースの定期的なエクスポートを設定して Google Cloud Storage に書き込み、Google BigQuery に読み込みます。
- C. Google Cloud Pub/Sub にイベントを公開するアプリケーションを作成して Google Cloud Dataproc でSpark ジョブを作成してJSON データをAvro 形式に変換し、永続ディスクのHDFS に保存します。
- D. Google Cloud Pub/Sub にイベントを公開するアプリケーションを作成して JSON イベント ペイロードを Avro に変換する Google Cloud Dataflow パイプラインを作成し、データを Google Cloud Storage と Google BigQuery に書き込むます。
Correct Answer: A
Question 3
新しいデータパイプラインを構築して 2つの異なるタイプのアプリケーション(ジョブ ジェネレータとジョブ実行者)間でデータを共有します。
ソリューションは使用量の増加に対応するように拡張でき、既存のアプリケーションのパフォーマンスに悪影響を与えることなく、新しいアプリケーションの追加に対応する必要があります。
何をするべきでしょうか?
- A. Google App Engine を使用してAPI を作成してアプリケーションとメッセージを送受信します。
- B. Google Cloud Pub/Sub トピックを使用してジョブをパブリッシュしてサブスクリプションを使用してジョブを実行します。
- C. Google Cloud SQL でテーブルを作成してジョブ情報を含む行を挿入および削除します。
- D. Google Cloud Spanner でテーブルを作成してジョブ情報を含む行を挿入および削除します。