hadoop

Star

Here are 140 public repositories matching this topic...

kwartile / spark-benchmark

Star

Spark Benchmark suite to evaluate cluster configuration and compare the performance with other big data frameworks.

benchmark performance scala spark apache-spark hive hadoop impala benchmarking-suite cdh cloudera-hadoop

Updated May 26, 2017
Scala

shask9 / chicago_city_crime_analysis

Star

scala apache-spark hadoop rdd kmeans-clustering kmeans-algorithm

Updated Dec 21, 2017
Scala

hindog / grid-executor

Star

Library for remote JVM ExecutorService with only dependency being password-less SSH -- Run clustered Hadoop/Spark jobs from IDE -- IDE-pimped Spark shell with full auto-completion!

cloud grid hadoop jvm ide spark-shell

Updated Feb 11, 2021
Scala

Starofall / QryGraph

Star

QryGraph is a platform for managing Pig queries and creating and modifying queries in a graphical user interface.

docker hadoop frontend pig

Updated Dec 22, 2016
Scala

This Big Data project consists of obtaining data on vehicle theft in the city of São Paulo and consolidating it in a counting and heat map, in order to show areas with a higher index of this type of crime. All applicable in AWS Resources.

scala spark hadoop analytics aws-s3 aws-emr aws-sqs hdfs aws-elasticsearch aws-athena spark-sql aws-kinesis-firehose spark-shell

Updated Apr 21, 2023
Scala

kamireddig / GetDailyRevenue

Star

Scope of this project is to calculate Daily Revenue from retail products

scala programming sql spark hive hadoop functional-programming uml databases data-warehouse hdfs sparksql retail sqoop retail-data sqoop-documentation

Updated May 28, 2020
Scala

multivacplatform / multivac-elasticsearch

Star

Demoing Spark 2.2 and Elasticsearch Hadoop connector

elasticsearch spark hadoop

Updated Jan 11, 2023
Scala

kchenphy / better-paths

Star

Simple and intuitive Hadoop Paths

scala hadoop hdfs

Updated Jul 28, 2018
Scala

mehassanhmood / hadoop-spark-pipeline

Star

An ETL pipeline that extracts data from HDFS , transforms using spark and writes back to HDFS.

scala hive hadoop hdfs

Updated Dec 3, 2023
Scala

minhhahl / hadoop-balancer

Star

Hadoop balancer which helps balance disks on a single node

hadoop balancer

Updated Mar 13, 2021
Scala

lovescott / spark-streaming-general

Star

Lab with Scala and Spark Streaming

scala big-data spark hadoop

Updated May 18, 2017
Scala

s3ni0r / spark-job-skeleton.g8

Star

A skeleton to generate a Spark job project in Scala with local distributed environment for development, example at (https://github.com/s3ni0r/spark-app-example)

scala spark hadoop sbt docker-compose giter8-templates

Updated Sep 11, 2019
Scala

mehroosali / ABCStoresPipeline

Star

Batch ETL data pipeline built on HDP 3.0 to process daily sales and business data to procedure power Bi reports. Automated the pipelines using Airflow.

mysql airflow scala spark hadoop hadoop-cluster powerbi hadoop-hdfs etl-pipeline airflow-dags

Updated Dec 29, 2021
Scala

multivacplatform / multivac-pubmed

Star

Update PubMed articles daily on HDFS by using Spark Cluster

apache-spark yarn hadoop pubmed pubmed-parser hdfs dataframe spark-sql

Updated Nov 18, 2022
Scala

rupeshtr78 / spark-streaming

Star

Spark Streaming Big Data Hadoop

scala kafka big-data spark cassandra mongodb hive hadoop bigdata spark-streaming hdfs

Updated Apr 21, 2020
Scala

mayankrastogi / faculty-page-rank

Star

A Spark application to process the DBLP dataset to find out the Page Rank of faculty at the UIC CS department based on their co-authorships on publications.

scala spark hadoop sbt xml aws-emr typesafe-config scalatest

Updated Apr 23, 2019
Scala

Kaushal1011 / CS441SimRankForGraphs

Star

This is the implementation of an algorithm that finds traceability links in two graphs such that the other graph is a perturbed version of the original graph.

distributed-systems scala hadoop graph mapreduce jaccard

Updated Oct 25, 2023
Scala

venukdl / ScalaExamples

Star

scala spark hadoop

Updated Mar 3, 2017
Scala

braunsonm / hdf5-on-spark

Star

Import and process HDF5 files on Spark with Hadoop

distributed-systems spark hadoop hdf5

Updated Jun 20, 2022
Scala

jewertow / MapReduce-NYC-collisions

Star

Implementation of data processing in the MapReduce model.

airflow composer scala hive hadoop avro terraform gcp mapreduce dataproc

Updated Apr 23, 2021
Scala

Improve this page

Add a description, image, and links to the hadoop topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the hadoop topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

hadoop

Here are 140 public repositories matching this topic...

kwartile / spark-benchmark

shask9 / chicago_city_crime_analysis

hindog / grid-executor

Starofall / QryGraph

markoshlima / crimes-map

kamireddig / GetDailyRevenue

multivacplatform / multivac-elasticsearch

kchenphy / better-paths

mehassanhmood / hadoop-spark-pipeline

minhhahl / hadoop-balancer

lovescott / spark-streaming-general

s3ni0r / spark-job-skeleton.g8

mehroosali / ABCStoresPipeline

multivacplatform / multivac-pubmed

rupeshtr78 / spark-streaming

mayankrastogi / faculty-page-rank

Kaushal1011 / CS441SimRankForGraphs

venukdl / ScalaExamples

braunsonm / hdf5-on-spark

jewertow / MapReduce-NYC-collisions

Improve this page

Add this topic to your repo