jdoerfler commited on 18 days ago

Commit

64ec2fc

•

1 Parent(s): 0d8ee8f

Upload folder using huggingface_hub

Browse files

Files changed (18) hide show

.gitattributes +4 -0
config.cfg +203 -0
meta.json +160 -0
morphologizer/cfg +105 -0
morphologizer/model +3 -0
parser/cfg +13 -0
parser/model +3 -0
parser/moves +1 -0
tagger/cfg +24 -0
tagger/model +3 -0
tok2vec/cfg +3 -0
tok2vec/model +3 -0
tokenizer +0 -0
vocab/key2row +1 -0
vocab/lookups.bin +3 -0
vocab/strings.json +0 -0
vocab/vectors +0 -0
vocab/vectors.cfg +3 -0

.gitattributes CHANGED Viewed

@@ -36,3 +36,7 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 id_dep_web_sm/parser/model filter=lfs diff=lfs merge=lfs -text
 id_dep_web_sm/tagger/model filter=lfs diff=lfs merge=lfs -text
 id_dep_web_sm/tok2vec/model filter=lfs diff=lfs merge=lfs -text

 id_dep_web_sm/parser/model filter=lfs diff=lfs merge=lfs -text
 id_dep_web_sm/tagger/model filter=lfs diff=lfs merge=lfs -text
 id_dep_web_sm/tok2vec/model filter=lfs diff=lfs merge=lfs -text
+morphologizer/model filter=lfs diff=lfs merge=lfs -text
+parser/model filter=lfs diff=lfs merge=lfs -text
+tagger/model filter=lfs diff=lfs merge=lfs -text
+tok2vec/model filter=lfs diff=lfs merge=lfs -text

config.cfg ADDED Viewed

	@@ -0,0 +1,203 @@

+[paths]
+train = null
+dev = null
+vectors = null
+init_tok2vec = null
+[system]
+seed = 0
+gpu_allocator = null
+[nlp]
+lang = "id"
+pipeline = ["tok2vec","morphologizer","parser","tagger"]
+disabled = []
+before_creation = null
+after_creation = null
+after_pipeline_creation = null
+batch_size = 1000
+tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
+vectors = {"@vectors":"spacy.Vectors.v1"}
+[components]
+[components.morphologizer]
+factory = "morphologizer"
+extend = false
+label_smoothing = 0.0
+overwrite = true
+scorer = {"@scorers":"spacy.morphologizer_scorer.v1"}
+[components.morphologizer.model]
+@architectures = "spacy.Tagger.v2"
+nO = null
+normalize = false
+[components.morphologizer.model.tok2vec]
+@architectures = "spacy.Tok2Vec.v2"
+[components.morphologizer.model.tok2vec.embed]
+@architectures = "spacy.CharacterEmbed.v2"
+width = 128
+rows = 7000
+nM = 64
+nC = 8
+include_static_vectors = false
+feature = "LOWER"
+[components.morphologizer.model.tok2vec.encode]
+@architectures = "spacy.MaxoutWindowEncoder.v2"
+width = 128
+depth = 4
+window_size = 1
+maxout_pieces = 3
+[components.parser]
+factory = "parser"
+learn_tokens = false
+min_action_freq = 30
+moves = null
+scorer = {"@scorers":"spacy.parser_scorer.v1"}
+update_with_oracle_cut_size = 100
+[components.parser.model]
+@architectures = "spacy.TransitionBasedParser.v2"
+state_type = "parser"
+extra_state_tokens = false
+hidden_width = 64
+maxout_pieces = 2
+use_upper = true
+nO = null
+[components.parser.model.tok2vec]
+@architectures = "spacy.HashEmbedCNN.v2"
+pretrained_vectors = null
+width = 96
+depth = 4
+embed_size = 2000
+window_size = 1
+maxout_pieces = 3
+subword_features = true
+[components.tagger]
+factory = "tagger"
+label_smoothing = 0.0
+neg_prefix = "!"
+overwrite = false
+scorer = {"@scorers":"spacy.tagger_scorer.v1"}
+[components.tagger.model]
+@architectures = "spacy.Tagger.v2"
+nO = null
+normalize = false
+[components.tagger.model.tok2vec]
+@architectures = "spacy.HashEmbedCNN.v2"
+pretrained_vectors = null
+width = 96
+depth = 4
+embed_size = 2000
+window_size = 1
+maxout_pieces = 3
+subword_features = true
+[components.tok2vec]
+factory = "tok2vec"
+[components.tok2vec.model]
+@architectures = "spacy.HashEmbedCNN.v2"
+pretrained_vectors = null
+width = 96
+depth = 4
+embed_size = 2000
+window_size = 1
+maxout_pieces = 3
+subword_features = true
+[corpora]
+[corpora.dev]
+@readers = "spacy.Corpus.v1"
+path = ${paths.dev}
+gold_preproc = false
+max_length = 0
+limit = 0
+augmenter = null
+[corpora.train]
+@readers = "spacy.Corpus.v1"
+path = ${paths.train}
+gold_preproc = false
+max_length = 0
+limit = 0
+augmenter = null
+[training]
+seed = ${system.seed}
+gpu_allocator = ${system.gpu_allocator}
+dropout = 0.1
+accumulate_gradient = 1
+patience = 1600
+max_epochs = 0
+max_steps = 20000
+eval_frequency = 200
+frozen_components = []
+annotating_components = []
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
+before_to_disk = null
+before_update = null
+[training.batcher]
+@batchers = "spacy.batch_by_words.v1"
+discard_oversize = false
+tolerance = 0.2
+get_length = null
+[training.batcher.size]
+@schedules = "compounding.v1"
+start = 100
+stop = 1000
+compound = 1.001
+t = 0.0
+[training.logger]
+@loggers = "spacy.ConsoleLogger.v1"
+progress_bar = false
+[training.optimizer]
+@optimizers = "Adam.v1"
+beta1 = 0.9
+beta2 = 0.999
+L2_is_weight_decay = true
+L2 = 0.01
+grad_clip = 1.0
+use_averages = false
+eps = 0.00000001
+learn_rate = 0.001
+[training.score_weights]
+pos_acc = 0.17
+morph_acc = 0.17
+morph_per_feat = null
+dep_uas = 0.17
+dep_las = 0.17
+dep_las_per_type = null
+sents_p = null
+sents_r = null
+sents_f = 0.0
+tag_acc = 0.33
+[pretraining]
+[initialize]
+vectors = ${paths.vectors}
+init_tok2vec = ${paths.init_tok2vec}
+vocab_data = null
+lookups = null
+before_init = null
+after_init = null
+[initialize.components]
+[initialize.tokenizer]

meta.json ADDED Viewed

	@@ -0,0 +1,160 @@

+{
+  "lang":"id",
+  "name":"pipeline",
+  "version":"0.0.0",
+  "spacy_version":">=3.8.3,<3.9.0",
+  "description":"",
+  "author":"",
+  "email":"",
+  "url":"",
+  "license":"",
+  "spacy_git_version":"be0fa81",
+  "vectors":{
+    "width":0,
+    "vectors":0,
+    "keys":0,
+    "name":null,
+    "mode":"default"
+  },
+  "labels":{
+    "tok2vec":[
+    ],
+    "morphologizer":[
+      "POS=X",
+      "POS=NOUN",
+      "POS=AUX",
+      "POS=PUNCT",
+      "POS=VERB",
+      "POS=CCONJ",
+      "POS=PRON",
+      "POS=PROPN",
+      "POS=NUM",
+      "POS=ADP",
+      "POS=SCONJ",
+      "POS=INTJ",
+      "POS=SYM",
+      "POS=DET",
+      "POS=ADV",
+      "POS=PART",
+      "POS=ADJ",
+      "Number=Sing",
+      "PronType=Ind",
+      "Typo=Yes",
+      "Foreign=Yes",
+      "Number=Plur",
+      "PronType=Int",
+      "PronType=Tot",
+      "PronType=Art",
+      "Definite=Def",
+      "NumType=Card",
+      "Polite=Infm",
+      "PronType=Prs",
+      "Person=1",
+      "PronType=Emp",
+      "Person=2",
+      "Abbr=Yes",
+      "PronType=Dem",
+      "NumType=Ord",
+      "Clusivity=In",
+      "Mood=Ind",
+      "Voice=Act",
+      "Mood=Imp",
+      "Polite=Form",
+      "Person=3",
+      "Voice=Pass",
+      "PronType=Rel",
+      "Reflex=Yes",
+      "Clusivity=Ex",
+      "Degree=Sup",
+      "Polarity=Neg",
+      "Definite=Ind"
+    ],
+    "parser":[
+      "ROOT",
+      "acl",
+      "acl:relcl",
+      "advcl",
+      "advmod",
+      "advmod:emph",
+      "amod",
+      "appos",
+      "aux",
+      "case",
+      "case:adv",
+      "cc",
+      "cc:preconj",
+      "ccomp",
+      "clf",
+      "compound",
+      "compound:a",
+      "conj",
+      "cop",
+      "csubj",
+      "csubj:pass",
+      "dep",
+      "det",
+      "discourse",
+      "dislocated",
+      "fixed",
+      "flat",
+      "flat:foreign",
+      "flat:name",
+      "goeswith",
+      "iobj",
+      "list",
+      "mark",
+      "nmod",
+      "nmod:lmod",
+      "nmod:poss",
+      "nmod:tmod",
+      "nsubj",
+      "nsubj:pass",
+      "nummod",
+      "obj",
+      "obl",
+      "obl:agent",
+      "obl:tmod",
+      "orphan",
+      "parataxis",
+      "punct",
+      "root",
+      "vocative",
+      "xcomp"
+    ],
+    "tagger":[
+      "X",
+      "NOUN",
+      "AUX",
+      "PUNCT",
+      "VERB",
+      "CCONJ",
+      "PRON",
+      "PROPN",
+      "NUM",
+      "ADP",
+      "SCONJ",
+      "INTJ",
+      "SYM",
+      "DET",
+      "ADV",
+      "PART",
+      "ADJ"
+    ]
+  },
+  "pipeline":[
+    "tok2vec",
+    "morphologizer",
+    "parser",
+    "tagger"
+  ],
+  "components":[
+    "tok2vec",
+    "morphologizer",
+    "parser",
+    "tagger"
+  ],
+  "disabled":[
+  ]
+}

morphologizer/cfg ADDED Viewed

	@@ -0,0 +1,105 @@

+{
+  "extend":false,
+  "label_smoothing":0.0,
+  "labels_morph":{
+    "POS=X":"_",
+    "POS=NOUN":"_",
+    "POS=AUX":"_",
+    "POS=PUNCT":"_",
+    "POS=VERB":"_",
+    "POS=CCONJ":"_",
+    "POS=PRON":"_",
+    "POS=PROPN":"_",
+    "POS=NUM":"_",
+    "POS=ADP":"_",
+    "POS=SCONJ":"_",
+    "POS=INTJ":"_",
+    "POS=SYM":"_",
+    "POS=DET":"_",
+    "POS=ADV":"_",
+    "POS=PART":"_",
+    "POS=ADJ":"_",
+    "Number=Sing":"Number=Sing",
+    "PronType=Ind":"PronType=Ind",
+    "Typo=Yes":"Typo=Yes",
+    "Foreign=Yes":"Foreign=Yes",
+    "Number=Plur":"Number=Plur",
+    "PronType=Int":"PronType=Int",
+    "PronType=Tot":"PronType=Tot",
+    "PronType=Art":"PronType=Art",
+    "Definite=Def":"Definite=Def",
+    "NumType=Card":"NumType=Card",
+    "Polite=Infm":"Polite=Infm",
+    "PronType=Prs":"PronType=Prs",
+    "Person=1":"Person=1",
+    "PronType=Emp":"PronType=Emp",
+    "Person=2":"Person=2",
+    "Abbr=Yes":"Abbr=Yes",
+    "PronType=Dem":"PronType=Dem",
+    "NumType=Ord":"NumType=Ord",
+    "Clusivity=In":"Clusivity=In",
+    "Mood=Ind":"Mood=Ind",
+    "Voice=Act":"Voice=Act",
+    "Mood=Imp":"Mood=Imp",
+    "Polite=Form":"Polite=Form",
+    "Person=3":"Person=3",
+    "Voice=Pass":"Voice=Pass",
+    "PronType=Rel":"PronType=Rel",
+    "Reflex=Yes":"Reflex=Yes",
+    "Clusivity=Ex":"Clusivity=Ex",
+    "Degree=Sup":"Degree=Sup",
+    "Polarity=Neg":"Polarity=Neg",
+    "Definite=Ind":"Definite=Ind"
+  },
+  "labels_pos":{
+    "POS=X":101,
+    "POS=NOUN":92,
+    "POS=AUX":87,
+    "POS=PUNCT":97,
+    "POS=VERB":100,
+    "POS=CCONJ":89,
+    "POS=PRON":95,
+    "POS=PROPN":96,
+    "POS=NUM":93,
+    "POS=ADP":85,
+    "POS=SCONJ":98,
+    "POS=INTJ":91,
+    "POS=SYM":99,
+    "POS=DET":90,
+    "POS=ADV":86,
+    "POS=PART":94,
+    "POS=ADJ":84,
+    "Number=Sing":0,
+    "PronType=Ind":0,
+    "Typo=Yes":0,
+    "Foreign=Yes":0,
+    "Number=Plur":0,
+    "PronType=Int":0,
+    "PronType=Tot":0,
+    "PronType=Art":0,
+    "Definite=Def":0,
+    "NumType=Card":0,
+    "Polite=Infm":0,
+    "PronType=Prs":0,
+    "Person=1":0,
+    "PronType=Emp":0,
+    "Person=2":0,
+    "Abbr=Yes":0,
+    "PronType=Dem":0,
+    "NumType=Ord":0,
+    "Clusivity=In":0,
+    "Mood=Ind":0,
+    "Voice=Act":0,
+    "Mood=Imp":0,
+    "Polite=Form":0,
+    "Person=3":0,
+    "Voice=Pass":0,
+    "PronType=Rel":0,
+    "Reflex=Yes":0,
+    "Clusivity=Ex":0,
+    "Degree=Sup":0,
+    "Polarity=Neg":0,
+    "Definite=Ind":0
+  },
+  "overwrite":true
+}

morphologizer/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:851d81556384b6c16ffce9297589296e91600bbf1e84addada18f8dd3fddf44c
+size 7494307

parser/cfg ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "moves":null,
+  "update_with_oracle_cut_size":100,
+  "multitasks":[
+  ],
+  "min_action_freq":30,
+  "learn_tokens":false,
+  "beam_width":1,
+  "beam_density":0.0,
+  "beam_update_prob":0.0,
+  "incorrect_spans_key":null
+}

parser/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c16dc51e30be89c6663f8c2b43e372967059b1be1219cae1695beb6ff1eccd5
+size 4061724

parser/moves ADDED Viewed

	@@ -0,0 +1 @@

+ ��moves��{"0":{"acl:relcl":-2,"discourse":-3,"punct":-4,"obj":-5,"appos":-6,"nummod":-7,"csubj:pass":-8,"nmod:lmod":-9,"clf":-10,"amod":-11,"cc:preconj":-12,"compound:a":-13,"nmod:tmod":-14,"conj":-15,"flat:foreign":-16,"nsubj:pass":-17,"nmod:poss":-18,"advmod:emph":-19,"nmod":-20,"csubj":-21,"parataxis":-22,"root":-23,"obl:tmod":-24,"acl":-25,"cop":-26,"nsubj":-27,"mark":-28,"dislocated":-29,"iobj":-30,"cc":-31,"advmod":-32,"case":-33,"aux":-34,"ccomp":-35,"case:adv":-36,"dep":-37,"goeswith":-38,"xcomp":-39,"flat":-40,"orphan":-41,"vocative":-42,"list":-43,"advcl":-44,"obl":-45,"obl:agent":-46,"flat:name":-47,"compound":-48,"det":-49,"fixed":-50},"1":{"acl:relcl":-2,"discourse":-3,"punct":-4,"obj":-5,"appos":-6,"nummod":-7,"csubj:pass":-8,"nmod:lmod":-9,"clf":-10,"amod":-11,"cc:preconj":-12,"compound:a":-13,"nmod:tmod":-14,"conj":-15,"flat:foreign":-16,"nsubj:pass":-17,"nmod:poss":-18,"advmod:emph":-19,"nmod":-20,"csubj":-21,"parataxis":-22,"root":-23,"obl:tmod":-24,"acl":-25,"cop":-26,"nsubj":-27,"mark":-28,"dislocated":-29,"iobj":-30,"cc":-31,"advmod":-32,"case":-33,"aux":-34,"ccomp":-35,"case:adv":-36,"dep":-37,"goeswith":-38,"xcomp":-39,"flat":-40,"orphan":-41,"vocative":-42,"list":-43,"advcl":-44,"obl":-45,"obl:agent":-46,"flat:name":-47,"compound":-48,"det":-49,"fixed":-50},"2":{"dep":0,"acl:relcl":-2,"discourse":-3,"punct":-4,"obj":-5,"appos":-6,"nummod":-7,"csubj:pass":-8,"nmod:lmod":-9,"clf":-10,"amod":-11,"cc:preconj":-12,"compound:a":-13,"nmod:tmod":-14,"conj":-15,"flat:foreign":-16,"nsubj:pass":-17,"nmod:poss":-18,"advmod:emph":-19,"nmod":-20,"csubj":-21,"parataxis":-22,"root":-23,"obl:tmod":-24,"acl":-25,"cop":-26,"nsubj":-27,"mark":-28,"dislocated":-29,"iobj":-30,"cc":-31,"advmod":-32,"case":-33,"aux":-34,"ccomp":-35,"case:adv":-36,"goeswith":-38,"xcomp":-39,"flat":-40,"orphan":-41,"vocative":-42,"list":-43,"advcl":-44,"obl":-45,"obl:agent":-46,"flat:name":-47,"compound":-48,"det":-49,"fixed":-50},"3":{"dep":0,"acl:relcl":-2,"discourse":-3,"punct":-4,"obj":-5,"appos":-6,"nummod":-7,"csubj:pass":-8,"nmod:lmod":-9,"clf":-10,"amod":-11,"cc:preconj":-12,"compound:a":-13,"nmod:tmod":-14,"conj":-15,"flat:foreign":-16,"nsubj:pass":-17,"nmod:poss":-18,"advmod:emph":-19,"nmod":-20,"csubj":-21,"parataxis":-22,"root":-23,"obl:tmod":-24,"acl":-25,"cop":-26,"nsubj":-27,"mark":-28,"dislocated":-29,"iobj":-30,"cc":-31,"advmod":-32,"case":-33,"aux":-34,"ccomp":-35,"case:adv":-36,"goeswith":-38,"xcomp":-39,"flat":-40,"orphan":-41,"vocative":-42,"list":-43,"advcl":-44,"obl":-45,"obl:agent":-46,"flat:name":-47,"compound":-48,"det":-49,"fixed":-50},"4":{"ROOT":0,"acl:relcl":-2,"discourse":-3,"punct":-4,"obj":-5,"appos":-6,"nummod":-7,"csubj:pass":-8,"nmod:lmod":-9,"clf":-10,"amod":-11,"cc:preconj":-12,"compound:a":-13,"nmod:tmod":-14,"conj":-15,"flat:foreign":-16,"nsubj:pass":-17,"nmod:poss":-18,"advmod:emph":-19,"nmod":-20,"csubj":-21,"parataxis":-22,"root":-23,"obl:tmod":-24,"acl":-25,"cop":-26,"nsubj":-27,"mark":-28,"dislocated":-29,"iobj":-30,"cc":-31,"advmod":-32,"case":-33,"aux":-34,"ccomp":-35,"case:adv":-36,"dep":-37,"goeswith":-38,"xcomp":-39,"flat":-40,"orphan":-41,"vocative":-42,"list":-43,"advcl":-44,"obl":-45,"obl:agent":-46,"flat:name":-47,"compound":-48,"det":-49,"fixed":-50}}�cfg��neg_key�

tagger/cfg ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "label_smoothing":0.0,
+  "labels":[
+    "X",
+    "NOUN",
+    "AUX",
+    "PUNCT",
+    "VERB",
+    "CCONJ",
+    "PRON",
+    "PROPN",
+    "NUM",
+    "ADP",
+    "SCONJ",
+    "INTJ",
+    "SYM",
+    "DET",
+    "ADV",
+    "PART",
+    "ADJ"
+  ],
+  "neg_prefix":"!",
+  "overwrite":false
+}

tagger/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bacbe799fd74a37e9dccc40883e50f7e6c6d43c329190914af1dbad4d55d8f66
+size 3712437

tok2vec/cfg ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ {
2	+
3	+ }

tok2vec/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d86b69082b9fecbfd8758d8e511f12b6579dc3c398b728ea5526a08cbeb0c73c
+size 3705091

tokenizer ADDED Viewed

The diff for this file is too large to render. See raw diff

vocab/key2row ADDED Viewed

	@@ -0,0 +1 @@


1	+ �

vocab/lookups.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76be8b528d0075f7aae98d6fa57a6d3c83ae480a8469e668d7b0af968995ac71
+size 1

vocab/strings.json ADDED Viewed

The diff for this file is too large to render. See raw diff

vocab/vectors ADDED Viewed

Binary file (128 Bytes). View file

vocab/vectors.cfg ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "mode":"default"
+}