TAC

Ce répertoire contient le matériel pour le cours de "Traitement automatique de corpus" (STIC-B545) donné à l'ULB.

Installation

Créez un compte Github et générez un fork du répertoire tac. Votre version du répertoire se trouvera alors à l'adresse https://github.com/<YOUR-GITHUB-ID>/tac
Téléchargez et installez une version récente de Python (>= 3.11)
- !! Pour les utilisateurs Windows, au moment de l'installation, cochez la case "Add Python 3.XX to PATH" et préférez installer Python à la racine du disque (C:\Python311) via le custom install.
- !! Si votre ordinateur ne supporte pas les versions récentes de Python, vous pouvez utiliser une machine virtuelle Docker. Vous trouverez les instructions ici
Téléchargez et installez Git
Téléchargez et installez Visual Studio Code
Installez un compilateur C++:
- Sur Windows:
  - Cliquez sur ce lien. Le téléchargement d'un fichier .exe se lancera automatiquement.
  - Exécutez le fichier .exe téléchargé
  - Durant l'installation, sélectionnez C++ Build Tools → Install.
  - Redémarrez votre machine.
- Sur MacOS, ouvrez un terminal et tapez la commande suivante:
```
xcode-select --install
```
- Sur Linux, installez gcc via votre gestionnaire de packets
Dans Visual Studio Code, ouvrez un terminal (Terminal > New Terminal) et déplacez-vous dans le dossier qui contiendra les documents du cours (utilisez la commande cd)
Exécutez les commandes suivantes une ligne à la fois:

Windows:

Set-ExecutionPolicy -Scope CurrentUser RemoteSigned

git clone https://github.com/<YOUR-GITHUB-ID>/tac

cd tac

pip install virtualenv

python -m venv tac_venv

.\tac_venv\Scripts\activate

python -m pip install --upgrade pip wheel setuptools

pip install -r requirements.txt

pip install fr_core_news_md

Linux / MacOS:

git clone https://github.com/<YOUR-GITHUB-ID>/tac

cd tac

pip install virtualenv

virtualenv tac_venv --python=python3 (ou: python3 -m venv tac_venv)

source tac_venv/bin/activate

pip install --upgrade pip wheel setuptools

pip install -r requirements.txt

pip install  fr_core_news_md

Vous pouvez maintenant utiliser et exécuter le code qui se trouve dans les notebooks (fichiers .ipynb) en choisissant l'environnement tac_venv

Module 1

s1_sql: requêtes dans une base de données SQL

s2_sparql: requêtes sur l'endpoint SPARQL de Wikidata

s3_api: requêtes sur les APIs OpenStreetMap et EUcountries

s4_scrape: scraping d'articles dans les archives du journal Le Soir

Module 2

s1_convert: conversion de fichiers .pdf en fichier .txt, et aggrégation en un long fichier texte

s2_explore: statistiques de fréquences de fichiers

s3_freq: Analyse des fréquences, des hapax, recherche des mots les plus longs...

Module 3

Extraction de mots-cls

s1_keyword: utilisation de YAKE pour extraire des keywords au sein de chacun des fichiers

s2_wordcloud: génération d'un nuage de mots

Reconnaissance d'entités nommées

s3_ner: reconnaissance d'entités à l'aide d'un modèle SpaCy

Analyse de sentiments

s4_sentiment: analyse de sentiment à l'aide de Textblob

Module 4

s1_classification: classification supervisée de textes

s2_clustering: clustering non supervisé à l'aide de K-means

s3_sentence_tokenizer: séparation de textes en phrases

s4_word_embeddings: exploration du modèle Word2Vec sur un corpus

Module 5

s1_language_detection: identification de la langue d'un texte

s2_machine_translation: traduction automatique à l'aide de modèle transformers

s3_anonymization: anonymisation/pseudonymisation de données with Faker

Module 6

s1_extraction: extraction de texte à partir de formats variés

s2_fuzzy_matching: correction d'erreurs OCR à l'aide de distances d'édition

Name		Name	Last commit message	Last commit date
Latest commit History 409 Commits
module1		module1
module2		module2
module3		module3
module4		module4
module5		module5
module6		module6
tps		tps
utils		utils
.gitignore		.gitignore
.pylintrc		.pylintrc
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

TAC

Installation

Module 1

Module 2

Module 3

Extraction de mots-cls

Reconnaissance d'entités nommées

Analyse de sentiments

Module 4

Module 5

Module 6

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 6

Languages

License

madewild/tac

Folders and files

Latest commit

History

Repository files navigation

TAC

Installation

Module 1

Module 2

Module 3

Extraction de mots-cls

Reconnaissance d'entités nommées

Analyse de sentiments

Module 4

Module 5

Module 6

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 6

Languages

Packages