AngelPanizo
commited on
Add BERTopic model
Browse files- README.md +137 -0
- config.json +16 -0
- ctfidf.safetensors +3 -0
- ctfidf_config.json +0 -0
- topic_embeddings.safetensors +3 -0
- topics.json +0 -0
README.md
ADDED
@@ -0,0 +1,137 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
|
2 |
+
---
|
3 |
+
tags:
|
4 |
+
- bertopic
|
5 |
+
library_name: bertopic
|
6 |
+
pipeline_tag: text-classification
|
7 |
+
---
|
8 |
+
|
9 |
+
# MARTINI_enrich_BERTopic_vakcinudiskusijos
|
10 |
+
|
11 |
+
This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
|
12 |
+
BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
|
13 |
+
|
14 |
+
## Usage
|
15 |
+
|
16 |
+
To use this model, please install BERTopic:
|
17 |
+
|
18 |
+
```
|
19 |
+
pip install -U bertopic
|
20 |
+
```
|
21 |
+
|
22 |
+
You can use the model as follows:
|
23 |
+
|
24 |
+
```python
|
25 |
+
from bertopic import BERTopic
|
26 |
+
topic_model = BERTopic.load("AIDA-UPM/MARTINI_enrich_BERTopic_vakcinudiskusijos")
|
27 |
+
|
28 |
+
topic_model.get_topic_info()
|
29 |
+
```
|
30 |
+
|
31 |
+
## Topic overview
|
32 |
+
|
33 |
+
* Number of topics: 68
|
34 |
+
* Number of training documents: 10176
|
35 |
+
|
36 |
+
<details>
|
37 |
+
<summary>Click here for an overview of all topics.</summary>
|
38 |
+
|
39 |
+
| Topic ID | Topic Keywords | Topic Frequency | Label |
|
40 |
+
|----------|----------------|-----------------|-------|
|
41 |
+
| -1 | pandemija - vakcinacijos - pfizer - vaccine - 2021 | 20 | -1_pandemija_vakcinacijos_pfizer_vaccine |
|
42 |
+
| 0 | vakcinacija - antivakseriai - imuniteto - alergija - pastiprinimu | 6667 | 0_vakcinacija_antivakseriai_imuniteto_alergija |
|
43 |
+
| 1 | mamografija - poliklinikoje - medicininiame - nusikalstamumas - antidepresantu | 292 | 1_mamografija_poliklinikoje_medicininiame_nusikalstamumas |
|
44 |
+
| 2 | vitaminu - antioksidantas - hidroksichlorokvinas - ивермектин - remdisivir | 139 | 2_vitaminu_antioksidantas_hidroksichlorokvinas_ивермектин |
|
45 |
+
| 3 | вакцинированных - ковида - инъекции - тромб - видео | 134 | 3_вакцинированных_ковида_инъекции_тромб |
|
46 |
+
| 4 | covidvaccinevictims - myocarditis - died - injection - april | 131 | 4_covidvaccinevictims_myocarditis_died_injection |
|
47 |
+
| 5 | koronaviruso - izraelieciai - migvax - iskvietimu - ekspertai | 110 | 5_koronaviruso_izraelieciai_migvax_iskvietimu |
|
48 |
+
| 6 | video - youtubas - vyrukas - neklaidinkit - uzsiprenumeruotumete | 105 | 6_video_youtubas_vyrukas_neklaidinkit |
|
49 |
+
| 7 | pandemic - saveusnow - everything - agenda - live | 92 | 7_pandemic_saveusnow_everything_agenda |
|
50 |
+
| 8 | virusa - virusologija - mikroskopu - patogeniniai - egzistavimo | 89 | 8_virusa_virusologija_mikroskopu_patogeniniai |
|
51 |
+
| 9 | vakcinacijos - pandemijos - europarlamentare - pilieciai - stankunas | 88 | 9_vakcinacijos_pandemijos_europarlamentare_pilieciai |
|
52 |
+
| 10 | grupeje - troliai - neatkreipiau - diskusijas - informacija | 88 | 10_grupeje_troliai_neatkreipiau_diskusijas |
|
53 |
+
| 11 | vakcinacijos - vaers - covid - patologiniai - autoimunines | 84 | 11_vakcinacijos_vaers_covid_patologiniai |
|
54 |
+
| 12 | vaccinul - covidiotii - epidemiologiniai - nuskausminancius - komplikavosi | 82 | 12_vaccinul_covidiotii_epidemiologiniai_nuskausminancius |
|
55 |
+
| 13 | 6dieni - draugijas - meteliai - neisnykstancias - publikuojamas | 71 | 13_6dieni_draugijas_meteliai_neisnykstancias |
|
56 |
+
| 14 | vakcina - mrna - plazmidines - retrovirusu - genetiskai | 68 | 14_vakcina_mrna_plazmidines_retrovirusu |
|
57 |
+
| 15 | coronovisusu - koronke - wuhanu - radiacinis - apnuodijimas | 68 | 15_coronovisusu_koronke_wuhanu_radiacinis |
|
58 |
+
| 16 | kovid - hospitalizacijos - 2021 - simaitis - nevakcinuotu | 67 | 16_kovid_hospitalizacijos_2021_simaitis |
|
59 |
+
| 17 | gatesas - pandemijomis - billo - antivirusinius - bioteroristas | 66 | 17_gatesas_pandemijomis_billo_antivirusinius |
|
60 |
+
| 18 | unvaccinated - referendum - compulsory - iccj - suisse | 63 | 18_unvaccinated_referendum_compulsory_iccj |
|
61 |
+
| 19 | пандемия - мировои - запретили - сша - вирусы | 60 | 19_пандемия_мировои_запретили_сша |
|
62 |
+
| 20 | neadekvatai - apkasu - susimastytumet - nekrisiu - irakieciai | 60 | 20_neadekvatai_apkasu_susimastytumet_nekrisiu |
|
63 |
+
| 21 | koronaviruso - imuniteto - vakcinuotus - epidemiologai - omikronui | 57 | 21_koronaviruso_imuniteto_vakcinuotus_epidemiologai |
|
64 |
+
| 22 | suiskaldymu - nepatekti - seniukams - greziniai - issigimeliams | 52 | 22_suiskaldymu_nepatekti_seniukams_greziniai |
|
65 |
+
| 23 | blogiausiai - nelaikau - negatyviu - zvailiai - pasivaiksciodami | 52 | 23_blogiausiai_nelaikau_negatyviu_zvailiai |
|
66 |
+
| 24 | вакцинации - pfizer - фармацевтическои - мрнк - тестировалась | 52 | 24_вакцинации_pfizer_фармацевтическои_мрнк |
|
67 |
+
| 25 | sportininku - futbolininkai - tukstanciai - sustojimai - diagnozuotas | 50 | 25_sportininku_futbolininkai_tukstanciai_sustojimai |
|
68 |
+
| 26 | imunoprofilaktikai - statuto - projektas - kontraindikaciju - 2022 | 47 | 26_imunoprofilaktikai_statuto_projektas_kontraindikaciju |
|
69 |
+
| 27 | daugsusirinko - pasakysit - nepaklausiu - patrijotai - sustiprekite | 47 | 27_daugsusirinko_pasakysit_nepaklausiu_patrijotai |
|
70 |
+
| 28 | nanotechnologiju - 5g - tranzistoriu - kompiuteriai - radijo | 46 | 28_nanotechnologiju_5g_tranzistoriu_kompiuteriai |
|
71 |
+
| 29 | metilbromido - bromazepamas - paracetamolis - chemtrailai - neurotoksini | 44 | 29_metilbromido_bromazepamas_paracetamolis_chemtrailai |
|
72 |
+
| 30 | propagandiniame - paskaites - falsifikuojama - respublika - nepalauziamu | 44 | 30_propagandiniame_paskaites_falsifikuojama_respublika |
|
73 |
+
| 31 | konstitucijos - advokatu - isprievartausiu - prezidentu - teismingumas | 43 | 31_konstitucijos_advokatu_isprievartausiu_prezidentu |
|
74 |
+
| 32 | australiskas - australijoje - rezerviniai - tamsiaodziai - mobilizacija | 42 | 32_australiskas_australijoje_rezerviniai_tamsiaodziai |
|
75 |
+
| 33 | вирусологи - лаборатории - существует - видео - тест | 41 | 33_вирусологи_лаборатории_существует_видео |
|
76 |
+
| 34 | psichologiskai - psichopatas - psiskiepijo - freudiskas - pastoviai | 41 | 34_psichologiskai_psichopatas_psiskiepijo_freudiskas |
|
77 |
+
| 35 | nanografi - koronaviruso - citotoksiskuma - patentas - mikroskopijoje | 39 | 35_nanografi_koronaviruso_citotoksiskuma_patentas |
|
78 |
+
| 36 | testuoti - testuojies - egzaminas - prasivakcinavusiais - besitestuojantys | 39 | 36_testuoti_testuojies_egzaminas_prasivakcinavusiais |
|
79 |
+
| 37 | policininkai - protestuotojai - legalizuojasi - kontroliuotoju - marmalizacijos | 36 | 37_policininkai_protestuotojai_legalizuojasi_kontroliuotoju |
|
80 |
+
| 38 | australijos - naujausiais - fawkner - hospitalizuotu - kontaktai | 36 | 38_australijos_naujausiais_fawkner_hospitalizuotu |
|
81 |
+
| 39 | austrijoje - vakcinacija - 2022 - skiepijimu - konstitucijos | 34 | 39_austrijoje_vakcinacija_2022_skiepijimu |
|
82 |
+
| 40 | ncov - testavimo - diagnostikos - pcr - rakteliai | 34 | 40_ncov_testavimo_diagnostikos_pcr |
|
83 |
+
| 41 | pfizeriu - pripazinusi - papsakyti - klinikiniams - japonijoje | 33 | 41_pfizeriu_pripazinusi_papsakyti_klinikiniams |
|
84 |
+
| 42 | miokardito - perikarditas - injekcijos - pasveikimai - troponino | 33 | 42_miokardito_perikarditas_injekcijos_pasveikimai |
|
85 |
+
| 43 | prievartautojai - automobiliai - elektriniai - autobuso - moteris | 30 | 43_prievartautojai_automobiliai_elektriniai_autobuso |
|
86 |
+
| 44 | vaccine - injections - monoclonal - aborted - dangerous | 30 | 44_vaccine_injections_monoclonal_aborted |
|
87 |
+
| 45 | filmukas - riesuteliai - multfilmuose - subtitruoja - apmokyti | 29 | 45_filmukas_riesuteliai_multfilmuose_subtitruoja |
|
88 |
+
| 46 | politkorektiskais - demokratijai - nesiskaityti - pacifizma - diplomatiskai | 28 | 46_politkorektiskais_demokratijai_nesiskaityti_pacifizma |
|
89 |
+
| 47 | feisbukas - telegramoj - instagramu - neuzregistruos - identifikacijos | 28 | 47_feisbukas_telegramoj_instagramu_neuzregistruos |
|
90 |
+
| 48 | коронавирус - зараженная - карантинныи - китая - санатории | 28 | 48_коронавирус_зараженная_карантинныи_китая |
|
91 |
+
| 49 | dokumentinis - vaccination - nevaisingumas - films - farmakologijos | 27 | 49_dokumentinis_vaccination_nevaisingumas_films |
|
92 |
+
| 50 | pfizer - registracijos - mediciniskai - pateikdama - konfidencialiuose | 26 | 50_pfizer_registracijos_mediciniskai_pateikdama |
|
93 |
+
| 51 | глупостеи - выдыхаем - знать - тоталитарные - контакты | 26 | 51_глупостеи_выдыхаем_знать_тоталитарные |
|
94 |
+
| 52 | dezinformacijos - facebook - cenzuruoti - komunikaciju - technokratai | 25 | 52_dezinformacijos_facebook_cenzuruoti_komunikaciju |
|
95 |
+
| 53 | pandemija - coronijaus - nesiskiepijanciais - tukstantiniai - prisidengti | 25 | 53_pandemija_coronijaus_nesiskiepijanciais_tukstantiniai |
|
96 |
+
| 54 | вакцинироваться - трампу - антиваксеры - репоста - папилломавируса | 25 | 54_вакцинироваться_трампу_антиваксеры_репоста |
|
97 |
+
| 55 | pfizer - direktoriai - pasitikinciu - generalinis - pseudoviruso | 24 | 55_pfizer_direktoriai_pasitikinciu_generalinis |
|
98 |
+
| 56 | brazilija - maskvos - ministerija - neto - reikalaujancios | 24 | 56_brazilija_maskvos_ministerija_neto |
|
99 |
+
| 57 | робота - robotas - mikrorobotas - kyborgizuotuotojai - снаиперскую | 23 | 57_робота_robotas_mikrorobotas_kyborgizuotuotojai |
|
100 |
+
| 58 | italija - vaccins - palerme - maziausiai - iniciatyva | 23 | 58_italija_vaccins_palerme_maziausiai |
|
101 |
+
| 59 | faucis - pandemija - trumpalaikis - amerikieciai - zidiniai | 23 | 59_faucis_pandemija_trumpalaikis_amerikieciai |
|
102 |
+
| 60 | britanijos - covidu - minister - parlamento - selenskyj | 22 | 60_britanijos_covidu_minister_parlamento |
|
103 |
+
| 61 | telegramo - telefonui - nepasiskiepijusiem - mygtukas - platformoje | 22 | 61_telegramo_telefonui_nepasiskiepijusiem_mygtukas |
|
104 |
+
| 62 | vakcinu_nepasiteisinimas - kanadieciai - trudeau - ministras - deklaruojamu | 21 | 62_vakcinu_nepasiteisinimas_kanadieciai_trudeau_ministras |
|
105 |
+
| 63 | поубиваите - прокомментировать - дебилизм - всероссиискои - гебреисусов | 21 | 63_поубиваите_прокомментировать_дебилизм_всероссиискои |
|
106 |
+
| 64 | pseudopandemijos - technokratijos - fasizmas - kapitalistu - schwabas | 20 | 64_pseudopandemijos_technokratijos_fasizmas_kapitalistu |
|
107 |
+
| 65 | dokumentas - reglamentuotas - 23puslapyje - kontraktus - autentiskumo | 20 | 65_dokumentas_reglamentuotas_23puslapyje_kontraktus |
|
108 |
+
| 66 | vaxzevria - astrazeneca - trombocitopenija - komplikaciju - autoimunine | 20 | 66_vaxzevria_astrazeneca_trombocitopenija_komplikaciju |
|
109 |
+
|
110 |
+
</details>
|
111 |
+
|
112 |
+
## Training hyperparameters
|
113 |
+
|
114 |
+
* calculate_probabilities: True
|
115 |
+
* language: None
|
116 |
+
* low_memory: False
|
117 |
+
* min_topic_size: 10
|
118 |
+
* n_gram_range: (1, 1)
|
119 |
+
* nr_topics: None
|
120 |
+
* seed_topic_list: None
|
121 |
+
* top_n_words: 10
|
122 |
+
* verbose: False
|
123 |
+
* zeroshot_min_similarity: 0.7
|
124 |
+
* zeroshot_topic_list: None
|
125 |
+
|
126 |
+
## Framework versions
|
127 |
+
|
128 |
+
* Numpy: 1.26.4
|
129 |
+
* HDBSCAN: 0.8.40
|
130 |
+
* UMAP: 0.5.7
|
131 |
+
* Pandas: 2.2.3
|
132 |
+
* Scikit-Learn: 1.5.2
|
133 |
+
* Sentence-transformers: 3.3.1
|
134 |
+
* Transformers: 4.46.3
|
135 |
+
* Numba: 0.60.0
|
136 |
+
* Plotly: 5.24.1
|
137 |
+
* Python: 3.10.12
|
config.json
ADDED
@@ -0,0 +1,16 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"calculate_probabilities": true,
|
3 |
+
"language": null,
|
4 |
+
"low_memory": false,
|
5 |
+
"min_topic_size": 10,
|
6 |
+
"n_gram_range": [
|
7 |
+
1,
|
8 |
+
1
|
9 |
+
],
|
10 |
+
"nr_topics": null,
|
11 |
+
"seed_topic_list": null,
|
12 |
+
"top_n_words": 10,
|
13 |
+
"verbose": false,
|
14 |
+
"zeroshot_min_similarity": 0.7,
|
15 |
+
"zeroshot_topic_list": null
|
16 |
+
}
|
ctfidf.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:5c07007e10447c3decc84aff9909ff12eb79611fd9862bcf8f7d88733e63d7f2
|
3 |
+
size 2899068
|
ctfidf_config.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
topic_embeddings.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:48fafa3752a5d1a07c190834ae07b373e1cd13d728ca75f2550a6c949b0ef16f
|
3 |
+
size 278616
|
topics.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|