Distributed IMM

This repo has the development code for the distributed IMM algorithm. The final implementation can be found in d_imm_scala.

Scalable Iterative Mistake Minimization (IMM) for Clustering Explanations

Distributed IMM is a scalable PySpark implementation of the IMM algorithm for clustering explanations. It includes Cython-optimized histogram-based splitting and K-Means initialization for efficiency.

Features

Distributed IMM computation for large datasets
Optimized histogram-based splitting
Optimized mistake calculation with histograms
K-Means initialization for clustering

License

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 59 Commits
.idea		.idea
.vscode		.vscode
Test		Test
d_imm		d_imm
d_imm_scala		d_imm_scala
d_imm_v3		d_imm_v3
sn_imm		sn_imm
.gitignore		.gitignore
LICENSE		LICENSE
MANIFEST.in		MANIFEST.in
README.md		README.md
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Distributed IMM

Features

License

About

Uh oh!

Releases

Packages

Contributors 3

Uh oh!

Languages

License

aaivu/distributed_imm

Folders and files

Latest commit

History

Repository files navigation

Distributed IMM

Features

License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Uh oh!

Languages

Packages