#

apache-spark

Apache Spark is an open source distributed general-purpose cluster-computing framework. It provides an interface for programming entire clusters with implicit data parallelism and fault tolerance.

Here are 249 public repositories matching this topic...

mahmoudparsian / data-algorithms-book

MapReduce, Spark, Java, and Scala for Data Algorithms Book

python java machine-learning scala apache-spark distributed-computing design-patterns pyspark mapreduce reducers partitioning hadoop-mapreduce distributed-algorithms mappers data-algorithms apache-hadoop

Updated Oct 14, 2024
Java

OryxProject / oryx

Oryx 2: Lambda architecture on Apache Spark, Apache Kafka for real-time large scale machine learning

java machine-learning kafka apache-spark cloudera apache-kafka lambda-architecture oryx

Updated Aug 16, 2021
Java

openscoring / openscoring

REST web service for the true real-time scoring (<1 ms) of Scikit-Learn, R and Apache Spark models

api real-time r apache-spark scikit-learn xgboost lightgbm pmml

Updated Dec 1, 2025
Java

BitwiseInc / Hydrograph

A visual ETL development and debugging tool for big data

big-data apache-spark etl cascading etl-framework

Updated Dec 5, 2022
Java

melphi / spark-examples

Spark examples

spark apache-spark spark-java

Updated May 7, 2024
Java

Mellanox / SparkRDMA

This is archive of SparkRDMA project. The new repository with RDMA shuffle acceleration for Apache Spark is here: https://github.com/Nvidia/sparkucx

java scala big-data spark apache-spark hadoop bigdata rdma infiniband roce shuffle mellanox disni

Updated May 13, 2019
Java

radanalyticsio / spark-operator

Operator for managing the Spark clusters on Kubernetes and OpenShift.

kubernetes spark apache-spark openshift kubernetes-operator

Updated Nov 18, 2021
Java

net.jgp.books.spark.ch02

jgperrin / net.jgp.books.spark.ch02

Spark in Action, 2nd edition - chapter 2

java spark apache-spark java8 manning sparkwithjava

Updated Apr 21, 2023
Java

adrianulbona / osm-parquetizer

A converter for the OSM PBFs to Parquet files

converter apache-spark openstreetmap pbf parquet-files

Updated Sep 1, 2023
Java

sbl-sdsc / mmtf-spark

Methods for the parallel and distributed analysis and mining of the Protein Data Bank using MMTF and Apache Spark.

machine-learning big-data apache-spark protein-data-bank protein-structure scientific-computing protein-sequences protein-protein-interaction protein-ligand-interactions

Updated Feb 1, 2019
Java

apache / pulsar-adapters

Apache Pulsar Adapters

streaming apache-spark messaging pubsub pulsar apache-storm apache-kafka queuing event-streaming

Updated Dec 20, 2024
Java

flipkart-incubator / spark-transformers

Spark-Transformers: Library for exporting Apache Spark MLLIB models to use them in any Java application with no other dependencies.

java export machine-learning scala spark apache-spark machine-learning-algorithms transformers mllib machine-learning-library data-pipelines

Updated Dec 15, 2017
Java

exacaster / lighter

REST API for Apache Spark on K8S or YARN

spark apache-spark yarn jupyter k8s livy sparkmagic

Updated Dec 5, 2025
Java

net.jgp.books.spark.ch03

jgperrin / net.jgp.books.spark.ch03

Spark in Action, 2nd edition - chapter 3

java spark apache-spark java8 dataframe manning sparkwithjava

Updated Apr 21, 2023
Java

aamargajbhiye / big-data-projects

This project has customization likes custom data sources, plugins written for the distributed systems like Apache Spark, Apache Ignite etc

apache-spark spark-java apache-ignite apache-spark-cluster igfs

Updated Oct 6, 2023
Java

net.jgp.books.spark.ch07

jgperrin / net.jgp.books.spark.ch07

Spark in Action, 2nd edition - chapter 7 - Ingestion from files

java spark apache-spark java8 manning sparkwithjava

Updated Apr 21, 2023
Java

raycad / stream-processing

Stream processing guidelines and examples using Apache Flink and Apache Spark

streaming apache-spark data-analysis apache-flink batch-processing

Updated Apr 21, 2023
Java

net.jgp.books.spark.ch08

jgperrin / net.jgp.books.spark.ch08

Spark in Action, 2nd edition - chapter 8

mysql java elasticsearch spark apache-spark java8 elastic informix manning sparkwithjava

Updated Apr 21, 2023
Java

net.jgp.books.spark.ch12

jgperrin / net.jgp.books.spark.ch12

Spark in Action, 2nd edition - chapter 12 - Transforming your data

java spark apache-spark java8 transformation manning sparkwithjava

Updated Feb 6, 2024
Java

spoddutur / cloud-based-sql-engine-using-spark

Cloud-based SQL engine using SPARK where data is accessible as JDBC/ODBC data source via Spark ThriftServer.

apache-spark jdbc sparksql thrift-server sql-engine beeline hadoop-framework spark-thrift-server

Updated Jul 12, 2017
Java

Created by Matei Zaharia

Released May 26, 2014

Followers: 435 followers
Repository: apache/spark
Website: github.com/topics/spark
Wikipedia: Wikipedia

Related topics