Spaces:

tum-nlp
/

negbleurt

Sleeping

App Files Files Community

MiriUll commited on Jul 26, 2023

Commit

b3ec891

•

1 Parent(s): fe7419d

Update negbleurt.py

Browse files

Files changed (1) hide show

negbleurt.py +3 -15

negbleurt.py CHANGED Viewed

@@ -16,15 +16,15 @@ _KWARGS_DESCRIPTION = """
 Calculates the NegBLEURT scores between references and predictions
 Args:
     predictions: list of predictions to score. Each prediction should be a string.
-    references: single reference or list of references for each prediction. If only one reference is given, all predictions will be scored against the same reference
     batch_size: batch_size for model inference. Default is 16
 Returns:
     negBLEURT: List of NegBLEURT scores for all predictions
 Examples:
     >>> negBLEURT = evaluate.load('MiriUll/negbleurt')
     >>> predictions = ["Ray Charles is a legend.", "Ray Charles isn’t legendary."]
-    >>> reference = "Ray Charles is legendary."
-    >>> results = negBLEURT.compute(predictions=predictions, references=reference)
     >>> print(results)
     {'negBLERUT': [0.8409, 0.2601]}
 """
@@ -37,12 +37,6 @@ class NegBLEURT(evaluate.Metric):
             citation=_CITATION,
             inputs_description=_KWARGS_DESCRIPTION,
             features=[
-                datasets.Features(
-                    {
-                        "references": datasets.Value("string", id=None),
-                        "predictions": datasets.Value("string", id="sequence"),
-                    }
-                ),
                 datasets.Features(
                     {
                         "predictions": datasets.Value("string", id="sequence"),
@@ -61,12 +55,6 @@ class NegBLEURT(evaluate.Metric):
     def _compute(
         self, predictions, references, batch_size=16
     ):
-        single_ref = isinstance(references, str)
-        print(single_ref, references)
-        if single_ref:
-            print("single reference")
-            references = [references] * len(predictions)
         scores_negbleurt = []
         for i in range(0, len(references), batch_size):
             tokenized = self.tokenizer(references[i:i+batch_size], predictions[i:i+batch_size], return_tensors='pt', padding=True, max_length=512, truncation=True)

 Calculates the NegBLEURT scores between references and predictions
 Args:
     predictions: list of predictions to score. Each prediction should be a string.
+    references: list of references, one for each prediction. Each reference should be a string
     batch_size: batch_size for model inference. Default is 16
 Returns:
     negBLEURT: List of NegBLEURT scores for all predictions
 Examples:
     >>> negBLEURT = evaluate.load('MiriUll/negbleurt')
     >>> predictions = ["Ray Charles is a legend.", "Ray Charles isn’t legendary."]
+    >>> references = ["Ray Charles is legendary.", "Ray Charles is legendary."]
+    >>> results = negBLEURT.compute(predictions=predictions, references=references)
     >>> print(results)
     {'negBLERUT': [0.8409, 0.2601]}
 """
             citation=_CITATION,
             inputs_description=_KWARGS_DESCRIPTION,
             features=[
                 datasets.Features(
                     {
                         "predictions": datasets.Value("string", id="sequence"),
     def _compute(
         self, predictions, references, batch_size=16
     ):
         scores_negbleurt = []
         for i in range(0, len(references), batch_size):
             tokenized = self.tokenizer(references[i:i+batch_size], predictions[i:i+batch_size], return_tensors='pt', padding=True, max_length=512, truncation=True)