Spark SparkとHadoopを調べてみた 概要SparkとHadoopの関係を理解するため、それぞれの大まかな情報をまとめる。結論からいうと、SparkはHadoopエコシステムとは独立したもので、HadoopのMapReduceの苦手なイテラティブな計算やインタラクティブなクエリ... 2024.09.28 Spark
Spark Apache ZeppelinでSparkの勉強 ②MinIOに保存しているCSVファイルをリードしてみた sparkのプログラムからMinIOに保存しているファイルにアクセスできると便利なので、設定してみました。Sparkインタープリタの設定に以下を追加します。 "spark.hadoop.fs.s3a.endpoint": { "name":... 2024.09.26 Spark
Spark Apache ZeppelinでSparkの勉強 ①Podmanでコンテナ起動してランダムフォレストを試す Apache Sparkの勉強のため、Jupyter NotebookのようなUIでSparkのプログラムを実行できるApache Zeppelinをpodman(windows)で試してみました。以下はdocker-compose.yml... 2024.09.25 Spark