SparkとHadoopを調べてみた
概要SparkとHadoopの関係を理解するため、それぞれの大まかな情報をまとめる。結論からいうと、SparkはHadoopエコシステムとは独立したもので、HadoopのMapReduceの苦手なイテラティブな計算やインタラクティブなクエリ...
Apache ZeppelinでSparkの勉強 ②MinIOに保存しているCSVファイルをリードしてみた
sparkのプログラムからMinIOに保存しているファイルにアクセスできると便利なので、設定してみました。Sparkインタープリタの設定に以下を追加します。 "spark.hadoop.fs.s3a.endpoint": { "name":...
Apache ZeppelinでSparkの勉強 ①Podmanでコンテナ起動してランダムフォレストを試す
Apache Sparkの勉強のため、Jupyter NotebookのようなUIでSparkのプログラムを実行できるApache Zeppelinをpodman(windows)で試してみました。以下はdocker-compose.yml...