Plagiarism Detection System

This Python-based plagiarism detection system compares multiple documents using TF-IDF and semantic analysis techniques to identify similarities and potential instances of plagiarism.

Features

Compares multiple documents for similarities
Uses both TF-IDF and semantic analysis methods
Flags potential plagiarism based on a customizable threshold
Generates detailed similarity reports
Produces similarity heatmaps for visual analysis
Calculates document uniqueness scores
Exports results to CSV files for further analysis

Requirements

Python 3.x
NLTK
scikit-learn
matplotlib
seaborn
pandas
sentence-transformers

Installation

Clone the repository or download the script.
Install the required packages:

pip install nltk scikit-learn matplotlib seaborn pandas sentence-transformers

Download required NLTK data:

import nltk
nltk.download('stopwords')
nltk.download('punkt') - nltk.download('wordnet')

Usage

Add your documents to the documents list in the script. Set the plagiarism_threshold as desired (default is 70%). Run the script:

python plagiarism_detection.py

Output

Console output with similarity scores and potential plagiarism flags
TF-IDF and semantic similarity reports (saved as text files)
Similarity heatmaps (displayed and can be saved)
CSV files with detailed similarity results
Document uniqueness scores

Customization

Adjust the plagiarism_threshold to change sensitivity
Modify the preprocess_text function to customize text preprocessing
Change the semantic model in SentenceTransformer() for different embedding results

Note

This system is for educational purposes and should not be solely relied upon for detecting plagiarism in academic or professional settings.

Contributing

Contributions to improve Plagiarism-Detection-System are welcome. Please follow the standard fork-and-pull request workflow.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
plagiarism_detection.py		plagiarism_detection.py
semantic_similarity_report.txt		semantic_similarity_report.txt
semantic_similarity_results.csv		semantic_similarity_results.csv
similarity_report.txt		similarity_report.txt
similarity_results.csv		similarity_results.csv
tf-idf_similarity_report.txt		tf-idf_similarity_report.txt
tf-idf_similarity_results.csv		tf-idf_similarity_results.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Plagiarism Detection System

Features

Requirements

Installation

Usage

Output

Customization

Note

Contributing

About

Uh oh!

Releases

Packages

Languages

melisasvr/Plagiarism-Detection-System

Folders and files

Latest commit

History

Repository files navigation

Plagiarism Detection System

Features

Requirements

Installation

Usage

Output

Customization

Note

Contributing

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages