Update spaCy pipeline

Browse files

Files changed (8) hide show

README.md +12 -65
config.cfg +13 -107
de_test_pipeline-any-py3-none-any.whl +2 -2
meta.json +28 -303
spancat/cfg +22 -2
spancat/model +2 -2
tok2vec/model +2 -2
vocab/strings.json +0 -0

README.md CHANGED Viewed

@@ -1,81 +1,36 @@
 ---
 tags:
 - spacy
-- token-classification
 language:
 - de
 license: mit
 model-index:
 - name: de_test_pipeline
-  results:
-  - task:
-      name: NER
-      type: token-classification
-    metrics:
-    - name: NER Precision
-      type: precision
-      value: 1.0
-    - name: NER Recall
-      type: recall
-      value: 1.0
-    - name: NER F Score
-      type: f_score
-      value: 1.0
-  - task:
-      name: TAG
-      type: token-classification
-    metrics:
-    - name: TAG (XPOS) Accuracy
-      type: accuracy
-      value: 0.9917602996
-  - task:
-      name: UNLABELED_DEPENDENCIES
-      type: token-classification
-    metrics:
-    - name: Unlabeled Attachment Score (UAS)
-      type: f_score
-      value: 0.9901873327
-  - task:
-      name: LABELED_DEPENDENCIES
-      type: token-classification
-    metrics:
-    - name: Labeled Attachment Score (LAS)
-      type: f_score
-      value: 0.9901873327
-  - task:
-      name: SENTS
-      type: token-classification
-    metrics:
-    - name: Sentences F-Score
-      type: f_score
-      value: 1.0
 ---
 A test pipeline for ModelManager testing purposes
 | Feature | Description |
 | --- | --- |
 | **Name** | `de_test_pipeline` |
-| **Version** | `0.1.0` |
 | **spaCy** | `>=3.5.0,<3.6.0` |
-| **Default Pipeline** | `tok2vec`, `tagger`, `parser`, `ner`, `spancat` |
-| **Components** | `tok2vec`, `tagger`, `parser`, `ner`, `spancat` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
 | **Sources** | n/a |
 | **License** | `MIT` |
-| **Author** | [Inga Ulusoy]() |
 ### Label Scheme
 <details>
-<summary>View label scheme (105 labels for 4 components)</summary>
 | Component | Labels |
 | --- | --- |
-| **`tagger`** | `$(`, `$,`, `$.`, `ADJA`, `ADJD`, `ADV`, `APPO`, `APPR`, `APPRART`, `APZR`, `ART`, `CARD`, `FM`, `ITJ`, `KOKOM`, `KON`, `KOUI`, `KOUS`, `NE`, `NN`, `NNE`, `PDAT`, `PDS`, `PIAT`, `PIS`, `PPER`, `PPOSAT`, `PPOSS`, `PRELAT`, `PRELS`, `PRF`, `PROAV`, `PTKA`, `PTKANT`, `PTKNEG`, `PTKVZ`, `PTKZU`, `PWAT`, `PWAV`, `PWS`, `TRUNC`, `VAFIN`, `VAIMP`, `VAINF`, `VAPP`, `VMFIN`, `VMINF`, `VMPP`, `VVFIN`, `VVIMP`, `VVINF`, `VVIZU`, `VVPP`, `XY`, `_SP` |
-| **`parser`** | `ROOT`, `ac`, `adc`, `ag`, `ams`, `app`, `avc`, `cc`, `cd`, `cj`, `cm`, `cp`, `cvc`, `da`, `dep`, `dm`, `ep`, `ju`, `mnr`, `mo`, `ng`, `nk`, `nmc`, `oa`, `oc`, `og`, `op`, `par`, `pd`, `pg`, `ph`, `pm`, `pnc`, `punct`, `rc`, `re`, `rs`, `sb`, `sbp`, `svp`, `uc`, `vo` |
-| **`ner`** | `LOC`, `MISC`, `ORG`, `PER` |
-| **`spancat`** | `Moralisierung explizit`, `Keine Moralisierung`, `Moralisierung`, `Moralisierung interpretativ` |
 </details>
@@ -83,16 +38,8 @@ A test pipeline for ModelManager testing purposes
 | Type | Score |
 | --- | --- |
-| `TAG_ACC` | 99.18 |
-| `DEP_UAS` | 99.02 |
-| `DEP_LAS` | 99.02 |
-| `SENTS_P` | 100.00 |
-| `SENTS_R` | 100.00 |
-| `SENTS_F` | 100.00 |
-| `ENTS_F` | 100.00 |
-| `ENTS_P` | 100.00 |
-| `ENTS_R` | 100.00 |
-| `SPANS_SC_F` | 0.00 |
-| `SPANS_SC_P` | 0.00 |
-| `SPANS_SC_R` | 0.00 |
-| `SPANCAT_LOSS` | 210521.12 |

 ---
 tags:
 - spacy
 language:
 - de
 license: mit
 model-index:
 - name: de_test_pipeline
+  results: []
 ---
 A test pipeline for ModelManager testing purposes
 | Feature | Description |
 | --- | --- |
 | **Name** | `de_test_pipeline` |
+| **Version** | `0.1.1` |
 | **spaCy** | `>=3.5.0,<3.6.0` |
+| **Default Pipeline** | `tok2vec`, `spancat` |
+| **Components** | `tok2vec`, `spancat` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
 | **Sources** | n/a |
 | **License** | `MIT` |
+| **Author** | [Inga Ulusoy](https://github.com/ssciwr/moralization) |
 ### Label Scheme
 <details>
+<summary>View label scheme (24 labels for 1 components)</summary>
 | Component | Labels |
 | --- | --- |
+| **`spancat`** | `Moralisierung explizit`, `Care`, `Institution`, `Forderer:in`, `Keine Moralisierung`, `Darstellung`, `Individuum`, `Neutral`, `Fairness`, `soziale Gruppe`, `Cheating`, `Appell`, `explizit`, `Moralisierung`, `Adresassat:in`, `Own Group`, `Moralisierung interpretativ`, `Benefizient:in`, `Other Group`, `Menschen`, `Oppression`, `Liberty`, `Harm`, `Kein Bezug` |
 </details>
 | Type | Score |
 | --- | --- |
+| `SPANS_SC_F` | 0.04 |
+| `SPANS_SC_P` | 0.02 |
+| `SPANS_SC_R` | 36.36 |
+| `TOK2VEC_LOSS` | 50495.68 |
+| `SPANCAT_LOSS` | 1149148.34 |

config.cfg CHANGED Viewed

@@ -1,6 +1,6 @@
 [paths]
-train = "/tmp/tmpszr2o3t5/train.spacy"
-dev = "/tmp/tmpszr2o3t5/dev.spacy"
 vectors = null
 init_tok2vec = null
@@ -10,7 +10,7 @@ seed = 0
 [nlp]
 lang = "de"
-pipeline = ["tok2vec","tagger","parser","ner","spancat"]
 batch_size = 1000
 disabled = []
 before_creation = null
@@ -20,66 +20,11 @@ tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
 [components]
-[components.ner]
-factory = "ner"
-incorrect_spans_key = null
-moves = null
-scorer = {"@scorers":"spacy.ner_scorer.v1"}
-update_with_oracle_cut_size = 100
-[components.ner.model]
-@architectures = "spacy.TransitionBasedParser.v2"
-state_type = "ner"
-extra_state_tokens = false
-hidden_width = 64
-maxout_pieces = 2
-use_upper = true
-nO = null
-[components.ner.model.tok2vec]
-@architectures = "spacy.Tok2Vec.v2"
-[components.ner.model.tok2vec.embed]
-@architectures = "spacy.MultiHashEmbed.v2"
-width = 96
-attrs = ["NORM","PREFIX","SUFFIX","SHAPE"]
-rows = [5000,1000,2500,2500]
-include_static_vectors = false
-[components.ner.model.tok2vec.encode]
-@architectures = "spacy.MaxoutWindowEncoder.v2"
-width = 96
-depth = 4
-window_size = 1
-maxout_pieces = 3
-[components.parser]
-factory = "parser"
-learn_tokens = false
-min_action_freq = 30
-moves = null
-scorer = {"@scorers":"spacy.parser_scorer.v1"}
-update_with_oracle_cut_size = 100
-[components.parser.model]
-@architectures = "spacy.TransitionBasedParser.v2"
-state_type = "parser"
-extra_state_tokens = false
-hidden_width = 64
-maxout_pieces = 2
-use_upper = true
-nO = null
-[components.parser.model.tok2vec]
-@architectures = "spacy.Tok2VecListener.v1"
-width = 96
-upstream = "tok2vec"
 [components.spancat]
 factory = "spancat"
 max_positive = null
 scorer = {"@scorers":"spacy.spancat_scorer.v1"}
-spans_key = "task1"
 threshold = 0.5
 [components.spancat.model]
@@ -95,42 +40,14 @@ nO = null
 nI = null
 [components.spancat.model.tok2vec]
-@architectures = "spacy.Tok2Vec.v2"
-[components.spancat.model.tok2vec.embed]
-@architectures = "spacy.MultiHashEmbed.v2"
-width = 96
-rows = [5000,2000,1000,1000]
-attrs = ["ORTH","PREFIX","SUFFIX","SHAPE"]
-include_static_vectors = false
-[components.spancat.model.tok2vec.encode]
-@architectures = "spacy.MaxoutWindowEncoder.v2"
-width = 96
-window_size = 1
-maxout_pieces = 3
-depth = 4
 [components.spancat.suggester]
 @misc = "spacy.ngram_suggester.v1"
 sizes = [1,2,3]
-[components.tagger]
-factory = "tagger"
-neg_prefix = "!"
-overwrite = false
-scorer = {"@scorers":"spacy.tagger_scorer.v1"}
-[components.tagger.model]
-@architectures = "spacy.Tagger.v2"
-nO = null
-normalize = false
-[components.tagger.model.tok2vec]
-@architectures = "spacy.Tok2VecListener.v1"
-width = 96
-upstream = "tok2vec"
 [components.tok2vec]
 factory = "tok2vec"
@@ -139,9 +56,9 @@ factory = "tok2vec"
 [components.tok2vec.model.embed]
 @architectures = "spacy.MultiHashEmbed.v2"
-width = 96
-attrs = ["NORM","PREFIX","SUFFIX","SHAPE","SPACY","IS_SPACE"]
-rows = [5000,1000,2500,2500,50,50]
 include_static_vectors = false
 [components.tok2vec.model.encode]
@@ -170,8 +87,6 @@ limit = 0
 augmenter = null
 [training]
-frozen_components = ["tok2vec","tagger","parser","ner"]
-annotating_components = ["tok2vec","tagger","parser","ner"]
 dev_corpus = "corpora.dev"
 train_corpus = "corpora.train"
 seed = ${system.seed}
@@ -182,6 +97,8 @@ patience = 1600
 max_epochs = 20
 max_steps = 20000
 eval_frequency = 200
 before_to_disk = null
 before_update = null
@@ -214,18 +131,7 @@ eps = 0.00000001
 learn_rate = 0.001
 [training.score_weights]
-tag_acc = 0.25
-dep_uas = 0.12
-dep_las = 0.12
-dep_las_per_type = null
-sents_p = null
-sents_r = null
-sents_f = 0.0
-ents_f = 0.25
-ents_p = 0.0
-ents_r = 0.0
-ents_per_type = null
-spans_sc_f = 0.25
 spans_sc_p = 0.0
 spans_sc_r = 0.0

 [paths]
+train = "/home/iulusoy/projects/moralization-project/moralization/notebooks/my_model/data/train.spacy"
+dev = "/home/iulusoy/projects/moralization-project/moralization/notebooks/my_model/data/dev.spacy"
 vectors = null
 init_tok2vec = null
 [nlp]
 lang = "de"
+pipeline = ["tok2vec","spancat"]
 batch_size = 1000
 disabled = []
 before_creation = null
 [components]
 [components.spancat]
 factory = "spancat"
 max_positive = null
 scorer = {"@scorers":"spacy.spancat_scorer.v1"}
+spans_key = "sc"
 threshold = 0.5
 [components.spancat.model]
 nI = null
 [components.spancat.model.tok2vec]
+@architectures = "spacy.Tok2VecListener.v1"
+width = ${components.tok2vec.model.encode.width}
+upstream = "*"
 [components.spancat.suggester]
 @misc = "spacy.ngram_suggester.v1"
 sizes = [1,2,3]
 [components.tok2vec]
 factory = "tok2vec"
 [components.tok2vec.model.embed]
 @architectures = "spacy.MultiHashEmbed.v2"
+width = ${components.tok2vec.model.encode.width}
+attrs = ["NORM","PREFIX","SUFFIX","SHAPE"]
+rows = [5000,1000,2500,2500]
 include_static_vectors = false
 [components.tok2vec.model.encode]
 augmenter = null
 [training]
 dev_corpus = "corpora.dev"
 train_corpus = "corpora.train"
 seed = ${system.seed}
 max_epochs = 20
 max_steps = 20000
 eval_frequency = 200
+frozen_components = []
+annotating_components = []
 before_to_disk = null
 before_update = null
 learn_rate = 0.001
 [training.score_weights]
+spans_sc_f = 1.0
 spans_sc_p = 0.0
 spans_sc_r = 0.0

de_test_pipeline-any-py3-none-any.whl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39d326210b6662dcec25b7c100cb42ab539ebfbc98ba9d48c744f3741b91447d
-size 19019121

 version https://git-lfs.github.com/spec/v1
+oid sha256:b64eec377f55342cb845a0d8d87b8af904ded71f8a252866191d07a68613dd9e
+size 6092308

meta.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
   "lang":"de",
   "name":"test_pipeline",
-  "version":"0.1.0",
   "description":"A test pipeline for ModelManager testing purposes",
   "author":"Inga Ulusoy",
   "email":"[email protected]",
-  "url":"",
   "license":"MIT",
   "spacy_version":">=3.5.0,<3.6.0",
   "spacy_git_version":"Unknown",
@@ -18,326 +18,51 @@
   "labels":{
     "tok2vec":[
-    ],
-    "tagger":[
-      "$(",
-      "$,",
-      "$.",
-      "ADJA",
-      "ADJD",
-      "ADV",
-      "APPO",
-      "APPR",
-      "APPRART",
-      "APZR",
-      "ART",
-      "CARD",
-      "FM",
-      "ITJ",
-      "KOKOM",
-      "KON",
-      "KOUI",
-      "KOUS",
-      "NE",
-      "NN",
-      "NNE",
-      "PDAT",
-      "PDS",
-      "PIAT",
-      "PIS",
-      "PPER",
-      "PPOSAT",
-      "PPOSS",
-      "PRELAT",
-      "PRELS",
-      "PRF",
-      "PROAV",
-      "PTKA",
-      "PTKANT",
-      "PTKNEG",
-      "PTKVZ",
-      "PTKZU",
-      "PWAT",
-      "PWAV",
-      "PWS",
-      "TRUNC",
-      "VAFIN",
-      "VAIMP",
-      "VAINF",
-      "VAPP",
-      "VMFIN",
-      "VMINF",
-      "VMPP",
-      "VVFIN",
-      "VVIMP",
-      "VVINF",
-      "VVIZU",
-      "VVPP",
-      "XY",
-      "_SP"
-    ],
-    "parser":[
-      "ROOT",
-      "ac",
-      "adc",
-      "ag",
-      "ams",
-      "app",
-      "avc",
-      "cc",
-      "cd",
-      "cj",
-      "cm",
-      "cp",
-      "cvc",
-      "da",
-      "dep",
-      "dm",
-      "ep",
-      "ju",
-      "mnr",
-      "mo",
-      "ng",
-      "nk",
-      "nmc",
-      "oa",
-      "oc",
-      "og",
-      "op",
-      "par",
-      "pd",
-      "pg",
-      "ph",
-      "pm",
-      "pnc",
-      "punct",
-      "rc",
-      "re",
-      "rs",
-      "sb",
-      "sbp",
-      "svp",
-      "uc",
-      "vo"
-    ],
-    "ner":[
-      "LOC",
-      "MISC",
-      "ORG",
-      "PER"
     ],
     "spancat":[
       "Moralisierung explizit",
       "Keine Moralisierung",
       "Moralisierung",
-      "Moralisierung interpretativ"
     ]
   },
   "pipeline":[
     "tok2vec",
-    "tagger",
-    "parser",
-    "ner",
     "spancat"
   ],
   "components":[
     "tok2vec",
-    "tagger",
-    "parser",
-    "ner",
     "spancat"
   ],
   "disabled":[
   ],
   "performance":{
-    "tag_acc":0.9917602996,
-    "dep_uas":0.9901873327,
-    "dep_las":0.9901873327,
-    "dep_las_per_type":{
-      "dep":{
-        "p":1.0,
-        "r":0.0434782609,
-        "f":0.0833333333
-      },
-      "root":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "mo":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "nk":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "cj":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "par":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "sb":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "pnc":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "oc":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "ng":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "pd":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "cp":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "rc":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "mnr":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "cm":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "cc":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "op":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "oa":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "cd":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "svp":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "app":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "ep":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "nmc":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "rs":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "uc":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "re":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "da":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "ag":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "pm":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "sbp":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      }
-    },
-    "sents_p":1.0,
-    "sents_r":1.0,
-    "sents_f":1.0,
-    "ents_f":1.0,
-    "ents_p":1.0,
-    "ents_r":1.0,
-    "ents_per_type":{
-      "MISC":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "ORG":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "LOC":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "PER":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      }
-    },
-    "spans_sc_f":0.0,
-    "spans_sc_p":0.0,
-    "spans_sc_r":0.0,
-    "spancat_loss":2105.2111816406
   },
   "requirements":[

 {
   "lang":"de",
   "name":"test_pipeline",
+  "version":"0.1.1",
   "description":"A test pipeline for ModelManager testing purposes",
   "author":"Inga Ulusoy",
   "email":"[email protected]",
+  "url":"https://github.com/ssciwr/moralization",
   "license":"MIT",
   "spacy_version":">=3.5.0,<3.6.0",
   "spacy_git_version":"Unknown",
   "labels":{
     "tok2vec":[
     ],
     "spancat":[
       "Moralisierung explizit",
+      "Care",
+      "Institution",
+      "Forderer:in",
       "Keine Moralisierung",
+      "Darstellung",
+      "Individuum",
+      "Neutral",
+      "Fairness",
+      "soziale Gruppe",
+      "Cheating",
+      "Appell",
+      "explizit",
       "Moralisierung",
+      "Adresassat:in",
+      "Own Group",
+      "Moralisierung interpretativ",
+      "Benefizient:in",
+      "Other Group",
+      "Menschen",
+      "Oppression",
+      "Liberty",
+      "Harm",
+      "Kein Bezug"
     ]
   },
   "pipeline":[
     "tok2vec",
     "spancat"
   ],
   "components":[
     "tok2vec",
     "spancat"
   ],
   "disabled":[
   ],
   "performance":{
+    "spans_sc_f":0.0003984858,
+    "spans_sc_p":0.0001993521,
+    "spans_sc_r":0.3636363636,
+    "tok2vec_loss":504.9567565918,
+    "spancat_loss":11491.4833984375
   },
   "requirements":[

spancat/cfg CHANGED Viewed

@@ -1,11 +1,31 @@
 {
   "labels":[
     "Moralisierung explizit",
     "Keine Moralisierung",
     "Moralisierung",
-    "Moralisierung interpretativ"
   ],
-  "spans_key":"task1",
   "threshold":0.5,
   "max_positive":null
 }

 {
   "labels":[
     "Moralisierung explizit",
+    "Care",
+    "Institution",
+    "Forderer:in",
     "Keine Moralisierung",
+    "Darstellung",
+    "Individuum",
+    "Neutral",
+    "Fairness",
+    "soziale Gruppe",
+    "Cheating",
+    "Appell",
+    "explizit",
     "Moralisierung",
+    "Adresassat:in",
+    "Own Group",
+    "Moralisierung interpretativ",
+    "Benefizient:in",
+    "Other Group",
+    "Menschen",
+    "Oppression",
+    "Liberty",
+    "Harm",
+    "Kein Bezug"
   ],
+  "spans_key":"sc",
   "threshold":0.5,
   "max_positive":null
 }

spancat/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:243465cb97d5349b57007b1f5497df546532a3af194d630c07509695ff6f3b61
-size 5838234

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4f6e561e2110027413c13c246301c3aa7b3e360e2e8c0df3f209b92d3ffdd99
+size 606349

tok2vec/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f57c0f4fb800793c9d49c8a2e62a4221239a9802808a58756a6a5739e5b7eae4
-size 6269370

 version https://git-lfs.github.com/spec/v1
+oid sha256:b99ecf76850631a771584a2e46efeea4e548993a9578280e71b7226f66b58c94
+size 6009091

vocab/strings.json CHANGED Viewed

The diff for this file is too large to render. See raw diff