ZurichNLP
diff --git a/‎experiments/scripts/create_document_length_figure.py‎
Lines changed: 84 additions & 36 deletions b/‎experiments/scripts/create_document_length_figure.py‎
Lines changed: 84 additions & 36 deletions
diff --git a/‎experiments/scripts/create_languages_figure.py‎
Lines changed: 78 additions & 34 deletions b/‎experiments/scripts/create_languages_figure.py‎
Lines changed: 78 additions & 34 deletions
@@ -1,38 +1,44 @@
-from collections import OrderedDict
-
 import numpy as np
 from transformers import pipeline
 
-from experiments.benchmark import DifferenceRecognitionResult
 from experiments.utils import load_document_length_benchmarks
-from recognizers import DiffAlign
-
+from recognizers import DiffAlign, DiffDel, DiffMask
 
 benchmarks = load_document_length_benchmarks("validation")
 device = 0
-num_seeds = 10
 
 seeds = [22417, 26186, 28852, 39168, 43002, 73246, 75213, 75370, 92253, 96301]
+num_seeds = len(seeds)
 
-recognizers = []
-for seed in seeds[:num_seeds]:
-    recognizers.append(DiffAlign(
+diffalign_recognizers = [
+    DiffAlign(
+        pipeline=pipeline(
+            model=f"../SimCSE/models/simcse-xlm-roberta-base-mean-pooling-seed{seed}",
+            task="feature-extraction",
+        ),
+    )
+    for seed in seeds[:num_seeds]
+]
+diffdel_recognizers = [
+    DiffDel(
         pipeline=pipeline(
             model=f"../SimCSE/models/simcse-xlm-roberta-base-mean-pooling-seed{seed}",
             task="feature-extraction",
         ),
-        batch_size=4,
-    ))
-recognizers.append(DiffAlign(
-    pipeline=pipeline(
-        model="sentence-transformers/paraphrase-xlm-r-multilingual-v1",
-        task="feature-extraction",
-    ),
-    batch_size=4,
-))
+    )
+    for seed in seeds[:num_seeds]
+]
+diffmask_recognizers = [
+    DiffMask(
+        pipeline=pipeline(
+            model="xlm-roberta-base",
+            task="fill-mask",
+        ),
+    )
+]
 
-results = OrderedDict()
-for i, recognizer in enumerate(recognizers):
+diffalign_results = np.zeros((len(diffalign_recognizers), len(benchmarks)))
+for i, recognizer in enumerate(diffalign_recognizers):
     print(recognizer)
     recognizer.pipeline.device = device
     recognizer.device = device
@@ -43,17 +49,48 @@
         result = benchmark.evaluate(recognizer)
         print(result)
         recognizer_results.append(result)
-    results[str(recognizer)] = recognizer_results
-    recognizers[i] = None
+    diffalign_results[i, :] = [result.spearman for result in recognizer_results]
+    diffalign_recognizers[i] = None
     del recognizer
+diffalign_results = np.mean(diffalign_results, axis=0)
+assert len(diffalign_results) == len(benchmarks)
 
-simcse_spearmans = [[] for _ in range(len(benchmarks))]
-for recognizer_name, recognizer_results in list(results.items()):
-    if "simcse" in recognizer_name.lower():
-        for i, result in enumerate(recognizer_results):
-            simcse_spearmans[i].append(result.spearman)
-        del results[recognizer_name]
-results["\\xlmr{} + SimCSE (unsupervised)"] = [DifferenceRecognitionResult(spearman=np.mean(spearmans)) for spearmans in simcse_spearmans]
+diffdel_results = np.zeros((len(diffdel_recognizers), len(benchmarks)))
+for i, recognizer in enumerate(diffdel_recognizers):
+    print(recognizer)
+    recognizer.pipeline.device = device
+    recognizer.device = device
+    recognizer.pipeline.model = recognizer.pipeline.model.to(device)
+    recognizer_results = []
+    for benchmark in benchmarks:
+        print(benchmark)
+        result = benchmark.evaluate(recognizer)
+        print(result)
+        recognizer_results.append(result)
+    diffdel_results[i, :] = [result.spearman for result in recognizer_results]
+    diffdel_recognizers[i] = None
+    del recognizer
+diffdel_results = np.mean(diffdel_results, axis=0)
+assert len(diffdel_results) == len(benchmarks)
+
+diffmask_results = np.zeros((len(diffmask_recognizers), len(benchmarks)))
+for i, recognizer in enumerate(diffmask_recognizers):
+    print(recognizer)
+    recognizer.pipeline.device = device
+    recognizer.device = device
+    recognizer.pipeline.model = recognizer.pipeline.model.to(device)
+    recognizer_results = []
+    for benchmark in benchmarks:
+        print(benchmark)
+        if benchmark.num_sentences_per_document > 7:
+            break  # Exceeds max seq length
+        result = benchmark.evaluate(recognizer)
+        print(result)
+        recognizer_results.append(result)
+    diffmask_results[i, :7] = [result.spearman for result in recognizer_results]
+    diffmask_recognizers[i] = None
+    del recognizer
+diffmask_results = np.mean(diffmask_results, axis=0)
 
 template = """\
 \\begin{tikzpicture}
@@ -64,35 +101,46 @@
     ymin=0, ymax=100,
     xtick={2,4,6,8,10,12,14,16},
     ytick={0,20,40,60,80,100},
-    legend pos=south west,
+    legend pos=north east,
     legend cell align={left},
     ymajorgrids=true,
     grid style=dashed,
 ]
 
 \\addplot[
-    color=blue,
+        color=blue,
+        style=solid,
+    ]
+    coordinates {
+    (0,0.00)(1,0.00)
+    };
+    \\addlegendentry{\\diffalign{}}
+\\addplot[
+        color=red,
+        style=dashed,
     ]
     coordinates {
     (0,0.00)(1,0.00)
     };
-    \\addlegendentry{\\xlmr{} + SimCSE (unsupervised)}
+    \\addlegendentry{\\diffdel{}}
 \\addplot[
-    color=gray,
+        color=black,
+        style=dotted,
+        line width=1.5pt,
     ]
     coordinates {
     (0,0.00)(1,0.00)
     };
-    \\addlegendentry{\\xlmr{} trained on paraphrases}
+    \\addlegendentry{\\diffmask{}}
 \\end{axis}
 \\end{tikzpicture}
 """
 
 document_lengths = list(range(1, 17))
-for recognizer_results in reversed(list(results.values())):
+for recognizer_results in [diffalign_results, diffdel_results, diffmask_results]:
     assert len(recognizer_results) == len(document_lengths)
     line: str = ""
     for document_length, result in zip(document_lengths, recognizer_results):
-        line += f"({document_length},{result.spearman*100:.1f})"
+        line += f"({document_length},{result * 100:.1f})"
     template = template.replace("(0,0.00)(1,0.00)", line, 1)
 print(template)
@@ -1,36 +1,44 @@
-from collections import OrderedDict
-
 import numpy as np
 from transformers import pipeline
 
-from experiments.benchmark import DifferenceRecognitionResult
 from experiments.utils import load_language_pairs_benchmarks
-from recognizers import DiffAlign
-
+from recognizers import DiffAlign, DiffDel, DiffMask
 
 benchmarks = load_language_pairs_benchmarks("validation")
 device = 0
-num_seeds = 10
 
 seeds = [22417, 26186, 28852, 39168, 43002, 73246, 75213, 75370, 92253, 96301]
+num_seeds = len(seeds)
 
-recognizers = []
-for seed in seeds[:num_seeds]:
-    recognizers.append(DiffAlign(
+diffalign_recognizers = [
+    DiffAlign(
+        pipeline=pipeline(
+            model=f"../SimCSE/models/simcse-xlm-roberta-base-mean-pooling-seed{seed}",
+            task="feature-extraction",
+        ),
+    )
+    for seed in seeds[:num_seeds]
+]
+diffdel_recognizers = [
+    DiffDel(
         pipeline=pipeline(
             model=f"../SimCSE/models/simcse-xlm-roberta-base-mean-pooling-seed{seed}",
             task="feature-extraction",
         ),
-    ))
-recognizers.append(DiffAlign(
-    pipeline=pipeline(
-        model="sentence-transformers/paraphrase-xlm-r-multilingual-v1",
-        task="feature-extraction",
-    ),
-))
+    )
+    for seed in seeds[:num_seeds]
+]
+diffmask_recognizers = [
+    DiffMask(
+        pipeline=pipeline(
+            model="xlm-roberta-base",
+            task="fill-mask",
+        ),
+    )
+]
 
-results = OrderedDict()
-for i, recognizer in enumerate(recognizers):
+diffalign_results = np.zeros((len(diffalign_recognizers), len(benchmarks)))
+for i, recognizer in enumerate(diffalign_recognizers):
     print(recognizer)
     recognizer.pipeline.device = device
     recognizer.device = device
@@ -41,17 +49,47 @@
         result = benchmark.evaluate(recognizer)
         print(result)
         recognizer_results.append(result)
-    results[str(recognizer)] = recognizer_results
-    recognizers[i] = None
+    diffalign_results[i, :] = [result.spearman for result in recognizer_results]
+    diffalign_recognizers[i] = None
     del recognizer
+diffalign_results = np.mean(diffalign_results, axis=0)
+assert len(diffalign_results) == len(benchmarks)
 
-simcse_spearmans = [[] for _ in range(len(benchmarks))]
-for recognizer_name, recognizer_results in list(results.items()):
-    if "simcse" in recognizer_name.lower():
-        for i, result in enumerate(recognizer_results):
-            simcse_spearmans[i].append(result.spearman)
-        del results[recognizer_name]
-results["\\xlmr{} + SimCSE (unsupervised)"] = [DifferenceRecognitionResult(spearman=np.mean(spearmans)) for spearmans in simcse_spearmans]
+diffdel_results = np.zeros((len(diffdel_recognizers), len(benchmarks)))
+for i, recognizer in enumerate(diffdel_recognizers):
+    print(recognizer)
+    recognizer.pipeline.device = device
+    recognizer.device = device
+    recognizer.pipeline.model = recognizer.pipeline.model.to(device)
+    recognizer_results = []
+    for benchmark in benchmarks:
+        print(benchmark)
+        result = benchmark.evaluate(recognizer)
+        print(result)
+        recognizer_results.append(result)
+    diffdel_results[i, :] = [result.spearman for result in recognizer_results]
+    diffdel_recognizers[i] = None
+    del recognizer
+diffdel_results = np.mean(diffdel_results, axis=0)
+assert len(diffdel_results) == len(benchmarks)
+
+diffmask_results = np.zeros((len(diffmask_recognizers), len(benchmarks)))
+for i, recognizer in enumerate(diffmask_recognizers):
+    print(recognizer)
+    recognizer.pipeline.device = device
+    recognizer.device = device
+    recognizer.pipeline.model = recognizer.pipeline.model.to(device)
+    recognizer_results = []
+    for benchmark in benchmarks:
+        print(benchmark)
+        result = benchmark.evaluate(recognizer)
+        print(result)
+        recognizer_results.append(result)
+    diffmask_results[i, :] = [result.spearman for result in recognizer_results]
+    diffmask_recognizers[i] = None
+    del recognizer
+diffmask_results = np.mean(diffmask_results, axis=0)
+assert len(diffmask_results) == len(benchmarks)
 
 template = """\
 \\begin{tikzpicture}
@@ -61,7 +99,7 @@
     ylabel={Spearman correlation},
     enlargelimits=0.05,
     ymin=0, ymax=100,
-    legend pos=north west,
+    legend pos=north east,
     legend cell align={left},
     ybar interval=0.7,
 ]
@@ -71,21 +109,27 @@
     ]
         coordinates {(0,0.1) (1,0.2) (2,0.3) (3,0.4) (4,0.5) (5,0.6) (6,0.7)};
 
-    \\addlegendentry{\\xlmr{} + SimCSE (unsupervised)}
+    \\addlegendentry{\\footnotesize{\\diffalign{}}}
+\\addplot[
+    color=red,
+    fill=red!40,
+    ]
+        coordinates {(0,0.1) (1,0.2) (2,0.3) (3,0.4) (4,0.5) (5,0.6) (6,0.7)};
+    \\addlegendentry{\\footnotesize{\\diffdel{}}}
 \\addplot[
-    color=gray,
-    fill=gray!40,
+    color=black,
+    fill=black!40,
     ]
         coordinates {(0,0.1) (1,0.2) (2,0.3) (3,0.4) (4,0.5) (5,0.6) (6,0.7)};
-    \\addlegendentry{\\xlmr{} trained on paraphrases}
+    \\addlegendentry{\\footnotesize{\\diffmask{}}}
 \\end{axis}
 \\end{tikzpicture}
 """
 
-for recognizer_results in reversed(list(results.values())):
+for recognizer_results in [diffalign_results, diffdel_results, diffmask_results]:
     bars = ""
     for i, result in enumerate(recognizer_results):
-        bars += f"({i},{result.spearman * 100:.1f}) "
+        bars += f"({i},{result * 100:.1f}) "
     bars += "(7, 0)"  # Dummy
     template = template.replace("(0,0.1) (1,0.2) (2,0.3) (3,0.4) (4,0.5) (5,0.6) (6,0.7)", bars, 1)
 print(template)