MTGRec

Overview

In this paper, we propose MTGRec, which leverages Multi-identifier item Tokenization to augment token sequence data for Generative Recommender pre-training. Specifically, our approach makes two key contributions: multi-identifier item tokenization and curriculum recommender pre-training. For multi-identifier item tokenization, we adopt the Residual-Quantized Variational AutoEncoder (RQ-VAE) as the backbone of item tokenizers and consider model checkpoints from adjacent epochs as semantically relevant tokenizers. This enables us to associate each item with multiple identifiers and tokenize a single item interaction sequence into several token sequences as different data groups. For curriculum recommender pre-training, we design a data curriculum scheme through data influence estimation. During recommender pre-training, we dynamically adjust the sampling probability of each data group according to the influence of the data from each item tokenizer, where the influence estimation is achieved via first-order gradient approximation. Finally, we fine-tune the pre-trained model using a single item identifier to ensure accurate item identification during recommendation.

Requirements

torch==2.4.1+cu124
transformers==4.45.2
accelerate==1.0.1

Quick Start

Train RQ-VAE and generate item semantic IDs:

cd tokenizer
bash run.sh

Pre-train recommender:

bash pretrain.sh

Finetune recommender:

bash finetune.sh

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
asset		asset
config		config
tokenizer		tokenizer
README.md		README.md
collator.py		collator.py
data_utils.py		data_utils.py
dataset.py		dataset.py
ensemble_results.py		ensemble_results.py
evaluator.py		evaluator.py
finetune.py		finetune.py
finetune.sh		finetune.sh
grad_utils.py		grad_utils.py
model.py		model.py
pretrain.py		pretrain.py
pretrain.sh		pretrain.sh
tokenizer.py		tokenizer.py
trainer.py		trainer.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

MTGRec

Overview

Requirements

Quick Start

About

Uh oh!

Releases

Packages

Uh oh!

Languages

zhengbw0324/MTGRec

Folders and files

Latest commit

History

Repository files navigation

MTGRec

Overview

Requirements

Quick Start

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages