Spark

Spark Spark

Spark

SparkとHadoopを調べてみた

概要SparkとHadoopの関係を理解するため、それぞれの大まかな情報をまとめる。結論からいうと、SparkはHadoopエコシステムとは独立したもので、HadoopのMapReduceの苦手なイテラティブな計算やインタラクティブなクエリ...
Spark

Apache ZeppelinでSparkの勉強 ②MinIOに保存しているCSVファイルをリードしてみた

sparkのプログラムからMinIOに保存しているファイルにアクセスできると便利なので、設定してみました。Sparkインタープリタの設定に以下を追加します。 "spark.hadoop.fs.s3a.endpoint": { "name":...
Spark

Apache ZeppelinでSparkの勉強 ①Podmanでコンテナ起動してランダムフォレストを試す

Apache Sparkの勉強のため、Jupyter NotebookのようなUIでSparkのプログラムを実行できるApache Zeppelinをpodman(windows)で試してみました。以下はdocker-compose.yml...