Add BERTopic model

Browse files

Files changed (6) hide show

README.md +79 -0
config.json +17 -0
ctfidf.bin +3 -0
ctfidf_config.json +0 -0
topic_embeddings.bin +3 -0
topics.json +2310 -0

README.md ADDED Viewed

	@@ -0,0 +1,79 @@

+---
+tags:
+- bertopic
+library_name: bertopic
+pipeline_tag: text-classification
+---
+# industry-mar11Top10
+This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
+BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
+## Usage
+To use this model, please install BERTopic:
+```
+pip install -U bertopic
+```
+You can use the model as follows:
+```python
+from bertopic import BERTopic
+topic_model = BERTopic.load("Thang203/industry-mar11Top10")
+topic_model.get_topic_info()
+```
+## Topic overview
+* Number of topics: 10
+* Number of training documents: 516
+<details>
+  <summary>Click here for an overview of all topics.</summary>
+  | Topic ID | Topic Keywords | Topic Frequency | Label |
+|----------|----------------|-----------------|-------|
+| -1 | models - language - data - large - language models | 15 | -1_models_language_data_large |
+| 0 | models - model - language - training - language models | 169 | 0_models_model_language_training |
+| 1 | code - language - models - llms - programming | 118 | 1_code_language_models_llms |
+| 2 | ai - models - language - dialogue - human | 49 | 2_ai_models_language_dialogue |
+| 3 | detection - models - text - language - model | 47 | 3_detection_models_text_language |
+| 4 | multimodal - visual - image - models - generation | 32 | 4_multimodal_visual_image_models |
+| 5 | agents - language - policy - learning - tasks | 24 | 5_agents_language_policy_learning |
+| 6 | speech - asr - text - speaker - recognition | 22 | 6_speech_asr_text_speaker |
+| 7 | reasoning - cot - models - problems - commonsense | 21 | 7_reasoning_cot_models_problems |
+| 8 | retrieval - information - query - llms - models | 19 | 8_retrieval_information_query_llms |
+</details>
+## Training hyperparameters
+* calculate_probabilities: False
+* language: english
+* low_memory: False
+* min_topic_size: 10
+* n_gram_range: (1, 1)
+* nr_topics: 10
+* seed_topic_list: None
+* top_n_words: 10
+* verbose: True
+* zeroshot_min_similarity: 0.7
+* zeroshot_topic_list: None
+## Framework versions
+* Numpy: 1.25.2
+* HDBSCAN: 0.8.33
+* UMAP: 0.5.5
+* Pandas: 1.5.3
+* Scikit-Learn: 1.2.2
+* Sentence-transformers: 2.6.1
+* Transformers: 4.38.2
+* Numba: 0.58.1
+* Plotly: 5.15.0
+* Python: 3.10.12

config.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "calculate_probabilities": false,
+  "language": "english",
+  "low_memory": false,
+  "min_topic_size": 10,
+  "n_gram_range": [
+    1,
+    1
+  ],
+  "nr_topics": 10,
+  "seed_topic_list": null,
+  "top_n_words": 10,
+  "verbose": true,
+  "zeroshot_min_similarity": 0.7,
+  "zeroshot_topic_list": null,
+  "embedding_model": "sentence-transformers/all-MiniLM-L6-v2"
+}

ctfidf.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:38c1cb28578b70f76de2256777d4c7fc0fab248ed2622c44a272196d2941f2a2
+size 318275

ctfidf_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

topic_embeddings.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d7790c9c90b44e922f3a8e7d4523063e77100c457e5a33ca962e096a838c42a
+size 16649

topics.json ADDED Viewed

	@@ -0,0 +1,2310 @@

+{
+  "topic_representations": {
+    "-1": [
+      [
+        "models",
+        0.036874579738434304
+      ],
+      [
+        "language",
+        0.031011734360675242
+      ],
+      [
+        "data",
+        0.02740357251248468
+      ],
+      [
+        "large",
+        0.024331696551107916
+      ],
+      [
+        "language models",
+        0.02287739800299974
+      ],
+      [
+        "model",
+        0.02123690372233833
+      ],
+      [
+        "tasks",
+        0.02117889409597425
+      ],
+      [
+        "llms",
+        0.020210440809796944
+      ],
+      [
+        "large language",
+        0.019999417196753248
+      ],
+      [
+        "large language models",
+        0.019126572684958956
+      ]
+    ],
+    "0": [
+      [
+        "models",
+        0.03888243759552385
+      ],
+      [
+        "model",
+        0.03647492283412293
+      ],
+      [
+        "language",
+        0.03613590283186468
+      ],
+      [
+        "training",
+        0.025581428828302905
+      ],
+      [
+        "language models",
+        0.02386262298037925
+      ],
+      [
+        "tasks",
+        0.02360941221543806
+      ],
+      [
+        "data",
+        0.021604280018978572
+      ],
+      [
+        "performance",
+        0.021213047327713713
+      ],
+      [
+        "large",
+        0.020365016161611835
+      ],
+      [
+        "method",
+        0.01788214168631935
+      ]
+    ],
+    "1": [
+      [
+        "code",
+        0.08112439886630912
+      ],
+      [
+        "language",
+        0.03515934823155083
+      ],
+      [
+        "models",
+        0.034093014905089085
+      ],
+      [
+        "llms",
+        0.03351276274167474
+      ],
+      [
+        "programming",
+        0.03221809114638236
+      ],
+      [
+        "software",
+        0.024215765671622126
+      ],
+      [
+        "language models",
+        0.023501871498181743
+      ],
+      [
+        "tasks",
+        0.021362088649701006
+      ],
+      [
+        "model",
+        0.021028623583260922
+      ],
+      [
+        "large language",
+        0.020242713470511334
+      ]
+    ],
+    "2": [
+      [
+        "ai",
+        0.03748085558879784
+      ],
+      [
+        "models",
+        0.032123956517937674
+      ],
+      [
+        "language",
+        0.030708509906927736
+      ],
+      [
+        "dialogue",
+        0.02863305325688509
+      ],
+      [
+        "human",
+        0.027796744355540557
+      ],
+      [
+        "llms",
+        0.027095383693882993
+      ],
+      [
+        "chatgpt",
+        0.02427426857972807
+      ],
+      [
+        "large language",
+        0.024177158942537805
+      ],
+      [
+        "large",
+        0.023491817699557018
+      ],
+      [
+        "model",
+        0.022240448993628016
+      ]
+    ],
+    "3": [
+      [
+        "detection",
+        0.04600933370915614
+      ],
+      [
+        "models",
+        0.0376182869533305
+      ],
+      [
+        "text",
+        0.03622151327830574
+      ],
+      [
+        "language",
+        0.03555056937300613
+      ],
+      [
+        "model",
+        0.02910562167494557
+      ],
+      [
+        "large",
+        0.026737322113278325
+      ],
+      [
+        "language models",
+        0.026260255642963005
+      ],
+      [
+        "misinformation",
+        0.022438367434259674
+      ],
+      [
+        "dataset",
+        0.021178404179731523
+      ],
+      [
+        "large language",
+        0.020266242724238725
+      ]
+    ],
+    "4": [
+      [
+        "multimodal",
+        0.06377037276103617
+      ],
+      [
+        "visual",
+        0.0609342279209814
+      ],
+      [
+        "image",
+        0.05031813021481461
+      ],
+      [
+        "models",
+        0.04428945209100523
+      ],
+      [
+        "generation",
+        0.03866971167435956
+      ],
+      [
+        "video",
+        0.03452530411071284
+      ],
+      [
+        "understanding",
+        0.03174883479055843
+      ],
+      [
+        "large",
+        0.02994331997174661
+      ],
+      [
+        "model",
+        0.027842071361726516
+      ],
+      [
+        "instruction",
+        0.02744625284444433
+      ]
+    ],
+    "5": [
+      [
+        "agents",
+        0.032621488861863626
+      ],
+      [
+        "language",
+        0.032046686285534975
+      ],
+      [
+        "policy",
+        0.031585563861493055
+      ],
+      [
+        "learning",
+        0.030550747755560888
+      ],
+      [
+        "tasks",
+        0.029270078392980483
+      ],
+      [
+        "llms",
+        0.028067175067745524
+      ],
+      [
+        "agent",
+        0.026011640827111927
+      ],
+      [
+        "games",
+        0.025255064827310037
+      ],
+      [
+        "knowledge",
+        0.02496878818528055
+      ],
+      [
+        "model",
+        0.024630611822384848
+      ]
+    ],
+    "6": [
+      [
+        "speech",
+        0.12032183461065618
+      ],
+      [
+        "asr",
+        0.0784134014691984
+      ],
+      [
+        "text",
+        0.04816267150192302
+      ],
+      [
+        "speaker",
+        0.04549115752552982
+      ],
+      [
+        "recognition",
+        0.044013060675693126
+      ],
+      [
+        "speech recognition",
+        0.03480823666083872
+      ],
+      [
+        "model",
+        0.0329226249448169
+      ],
+      [
+        "language",
+        0.031171151406766243
+      ],
+      [
+        "voice",
+        0.030863819919231247
+      ],
+      [
+        "proposed",
+        0.029531042059903895
+      ]
+    ],
+    "7": [
+      [
+        "reasoning",
+        0.09733768593924219
+      ],
+      [
+        "cot",
+        0.04159609177483568
+      ],
+      [
+        "models",
+        0.04032110830244759
+      ],
+      [
+        "problems",
+        0.038531107231743966
+      ],
+      [
+        "commonsense",
+        0.0328390198222387
+      ],
+      [
+        "language",
+        0.03061562593615061
+      ],
+      [
+        "prompting",
+        0.03050017742462947
+      ],
+      [
+        "language models",
+        0.028282815332533393
+      ],
+      [
+        "math",
+        0.026470858073982147
+      ],
+      [
+        "chainofthought",
+        0.026470858073982147
+      ]
+    ],
+    "8": [
+      [
+        "retrieval",
+        0.05391749257643426
+      ],
+      [
+        "information",
+        0.041311727463775545
+      ],
+      [
+        "query",
+        0.03998637165786005
+      ],
+      [
+        "llms",
+        0.0360048263616992
+      ],
+      [
+        "models",
+        0.03235786882267994
+      ],
+      [
+        "language",
+        0.03201012649638935
+      ],
+      [
+        "queries",
+        0.031828706522162444
+      ],
+      [
+        "language models",
+        0.02804152194835136
+      ],
+      [
+        "large",
+        0.026588466396316807
+      ],
+      [
+        "knowledge",
+        0.02430262486413176
+      ]
+    ]
+  },
+  "topics": [
+    0,
+    3,
+    6,
+    -1,
+    0,
+    -1,
+    0,
+    0,
+    -1,
+    0,
+    0,
+    -1,
+    0,
+    0,
+    1,
+    -1,
+    0,
+    -1,
+    -1,
+    7,
+    -1,
+    0,
+    0,
+    -1,
+    0,
+    8,
+    0,
+    -1,
+    -1,
+    2,
+    2,
+    8,
+    0,
+    2,
+    0,
+    0,
+    5,
+    8,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    2,
+    -1,
+    3,
+    2,
+    3,
+    0,
+    6,
+    -1,
+    3,
+    -1,
+    2,
+    0,
+    0,
+    -1,
+    1,
+    0,
+    3,
+    1,
+    0,
+    1,
+    0,
+    0,
+    0,
+    2,
+    0,
+    0,
+    0,
+    -1,
+    -1,
+    6,
+    -1,
+    -1,
+    2,
+    3,
+    0,
+    0,
+    0,
+    2,
+    0,
+    7,
+    0,
+    -1,
+    6,
+    3,
+    2,
+    -1,
+    -1,
+    0,
+    0,
+    -1,
+    3,
+    0,
+    4,
+    0,
+    1,
+    3,
+    0,
+    0,
+    0,
+    1,
+    0,
+    7,
+    2,
+    -1,
+    6,
+    5,
+    -1,
+    -1,
+    0,
+    0,
+    -1,
+    0,
+    2,
+    -1,
+    0,
+    0,
+    7,
+    0,
+    -1,
+    3,
+    1,
+    -1,
+    -1,
+    3,
+    5,
+    7,
+    6,
+    8,
+    0,
+    5,
+    1,
+    1,
+    1,
+    1,
+    5,
+    0,
+    -1,
+    -1,
+    5,
+    3,
+    3,
+    -1,
+    -1,
+    5,
+    1,
+    3,
+    0,
+    -1,
+    -1,
+    0,
+    0,
+    0,
+    7,
+    -1,
+    3,
+    7,
+    0,
+    -1,
+    6,
+    8,
+    -1,
+    0,
+    -1,
+    0,
+    0,
+    -1,
+    7,
+    0,
+    1,
+    4,
+    0,
+    7,
+    0,
+    -1,
+    1,
+    -1,
+    2,
+    -1,
+    0,
+    -1,
+    -1,
+    2,
+    0,
+    -1,
+    0,
+    -1,
+    0,
+    -1,
+    2,
+    -1,
+    -1,
+    3,
+    8,
+    3,
+    6,
+    -1,
+    -1,
+    2,
+    4,
+    0,
+    6,
+    -1,
+    4,
+    -1,
+    7,
+    2,
+    4,
+    -1,
+    8,
+    -1,
+    0,
+    0,
+    4,
+    0,
+    2,
+    2,
+    -1,
+    3,
+    -1,
+    -1,
+    -1,
+    -1,
+    8,
+    -1,
+    0,
+    4,
+    -1,
+    -1,
+    1,
+    1,
+    1,
+    8,
+    0,
+    1,
+    2,
+    -1,
+    1,
+    -1,
+    2,
+    2,
+    -1,
+    4,
+    2,
+    -1,
+    0,
+    6,
+    -1,
+    4,
+    -1,
+    -1,
+    -1,
+    7,
+    -1,
+    -1,
+    0,
+    -1,
+    1,
+    -1,
+    0,
+    -1,
+    0,
+    -1,
+    2,
+    1,
+    2,
+    0,
+    -1,
+    -1,
+    -1,
+    2,
+    0,
+    2,
+    -1,
+    8,
+    7,
+    0,
+    1,
+    5,
+    -1,
+    -1,
+    -1,
+    0,
+    2,
+    0,
+    -1,
+    0,
+    -1,
+    -1,
+    -1,
+    3,
+    2,
+    -1,
+    7,
+    -1,
+    0,
+    0,
+    -1,
+    -1,
+    1,
+    -1,
+    -1,
+    0,
+    1,
+    3,
+    7,
+    1,
+    -1,
+    0,
+    -1,
+    0,
+    -1,
+    -1,
+    0,
+    -1,
+    -1,
+    0,
+    5,
+    -1,
+    1,
+    0,
+    1,
+    8,
+    0,
+    2,
+    1,
+    -1,
+    1,
+    5,
+    0,
+    -1,
+    4,
+    1,
+    1,
+    0,
+    -1,
+    -1,
+    2,
+    4,
+    -1,
+    0,
+    0,
+    -1,
+    2,
+    0,
+    -1,
+    2,
+    1,
+    5,
+    3,
+    6,
+    5,
+    2,
+    1,
+    4,
+    5,
+    -1,
+    -1,
+    2,
+    -1,
+    6,
+    0,
+    2,
+    -1,
+    -1,
+    -1,
+    3,
+    4,
+    4,
+    -1,
+    1,
+    -1,
+    6,
+    -1,
+    -1,
+    1,
+    -1,
+    5,
+    -1,
+    4,
+    1,
+    4,
+    -1,
+    0,
+    0,
+    -1,
+    -1,
+    6,
+    5,
+    2,
+    -1,
+    -1,
+    -1,
+    -1,
+    -1,
+    -1,
+    4,
+    -1,
+    -1,
+    -1,
+    -1,
+    5,
+    -1,
+    -1,
+    0,
+    -1,
+    2,
+    3,
+    1,
+    2,
+    -1,
+    1,
+    7,
+    -1,
+    4,
+    -1,
+    1,
+    3,
+    -1,
+    8,
+    0,
+    1,
+    -1,
+    0,
+    1,
+    0,
+    4,
+    8,
+    -1,
+    3,
+    -1,
+    4,
+    4,
+    2,
+    5,
+    8,
+    3,
+    7,
+    3,
+    0,
+    1,
+    8,
+    -1,
+    6,
+    4,
+    0,
+    7,
+    -1,
+    6,
+    4,
+    -1,
+    6,
+    -1,
+    0,
+    -1,
+    -1,
+    7,
+    1,
+    3,
+    -1,
+    0,
+    6,
+    -1,
+    1,
+    2,
+    3,
+    2,
+    1,
+    5,
+    0,
+    -1,
+    6,
+    -1,
+    0,
+    0,
+    1,
+    6,
+    5,
+    -1,
+    0,
+    2,
+    -1,
+    -1,
+    0,
+    3,
+    0,
+    2,
+    3,
+    2,
+    2,
+    7,
+    1,
+    -1,
+    1,
+    1,
+    -1,
+    3,
+    -1,
+    6,
+    0,
+    4,
+    0,
+    5,
+    -1,
+    -1,
+    -1,
+    -1,
+    5,
+    5,
+    -1,
+    2,
+    -1,
+    -1
+  ],
+  "topic_sizes": {
+    "0": 118,
+    "3": 32,
+    "6": 21,
+    "-1": 169,
+    "1": 49,
+    "7": 19,
+    "8": 15,
+    "2": 47,
+    "5": 22,
+    "4": 24
+  },
+  "topic_mapper": [
+    [
+      -1,
+      -1,
+      -1,
+      -1
+    ],
+    [
+      0,
+      0,
+      7,
+      4
+    ],
+    [
+      1,
+      1,
+      4,
+      6
+    ],
+    [
+      2,
+      2,
+      8,
+      3
+    ],
+    [
+      3,
+      3,
+      5,
+      1
+    ],
+    [
+      4,
+      4,
+      6,
+      5
+    ],
+    [
+      5,
+      5,
+      3,
+      7
+    ],
+    [
+      6,
+      6,
+      1,
+      8
+    ],
+    [
+      7,
+      7,
+      2,
+      2
+    ],
+    [
+      8,
+      8,
+      0,
+      0
+    ],
+    [
+      9,
+      9,
+      0,
+      0
+    ],
+    [
+      10,
+      10,
+      0,
+      0
+    ]
+  ],
+  "topic_labels": {
+    "-1": "-1_models_language_data_large",
+    "0": "0_models_model_language_training",
+    "1": "1_code_language_models_llms",
+    "2": "2_ai_models_language_dialogue",
+    "3": "3_detection_models_text_language",
+    "4": "4_multimodal_visual_image_models",
+    "5": "5_agents_language_policy_learning",
+    "6": "6_speech_asr_text_speaker",
+    "7": "7_reasoning_cot_models_problems",
+    "8": "8_retrieval_information_query_llms"
+  },
+  "custom_labels": null,
+  "_outliers": 1,
+  "topic_aspects": {
+    "KeyBERT": {
+      "-1": [
+        [
+          "large language models",
+          0.6703740358352661
+        ],
+        [
+          "large language models llms",
+          0.6190640330314636
+        ],
+        [
+          "language models",
+          0.6147422790527344
+        ],
+        [
+          "language models llms",
+          0.567597508430481
+        ],
+        [
+          "language model",
+          0.5490379333496094
+        ],
+        [
+          "large language",
+          0.47846218943595886
+        ],
+        [
+          "natural language",
+          0.47019103169441223
+        ],
+        [
+          "language",
+          0.36398622393608093
+        ],
+        [
+          "training data",
+          0.36353152990341187
+        ],
+        [
+          "models",
+          0.3585664629936218
+        ]
+      ],
+      "0": [
+        [
+          "large language models",
+          0.651195228099823
+        ],
+        [
+          "pretrained language",
+          0.512614905834198
+        ],
+        [
+          "language models",
+          0.49944019317626953
+        ],
+        [
+          "large language",
+          0.49680691957473755
+        ],
+        [
+          "language model",
+          0.44212523102760315
+        ],
+        [
+          "machine translation",
+          0.3898525834083557
+        ],
+        [
+          "sparse",
+          0.3684082329273224
+        ],
+        [
+          "memory",
+          0.35640034079551697
+        ],
+        [
+          "corpus",
+          0.3460950255393982
+        ],
+        [
+          "attention",
+          0.34196916222572327
+        ]
+      ],
+      "1": [
+        [
+          "code generation",
+          0.5884341597557068
+        ],
+        [
+          "code completion",
+          0.5430147647857666
+        ],
+        [
+          "source code",
+          0.5036313533782959
+        ],
+        [
+          "large language models",
+          0.4955924153327942
+        ],
+        [
+          "large language models llms",
+          0.48612886667251587
+        ],
+        [
+          "language models",
+          0.44613733887672424
+        ],
+        [
+          "software engineering",
+          0.44518738985061646
+        ],
+        [
+          "language models llms",
+          0.44061607122421265
+        ],
+        [
+          "programming",
+          0.41835474967956543
+        ],
+        [
+          "coding",
+          0.4044494926929474
+        ]
+      ],
+      "2": [
+        [
+          "large language models",
+          0.6216679215431213
+        ],
+        [
+          "conversational ai",
+          0.6001573204994202
+        ],
+        [
+          "large language models llms",
+          0.588668167591095
+        ],
+        [
+          "language models",
+          0.5686337351799011
+        ],
+        [
+          "chatbots",
+          0.5604218244552612
+        ],
+        [
+          "language models llms",
+          0.5467207431793213
+        ],
+        [
+          "language model",
+          0.5185490250587463
+        ],
+        [
+          "large language",
+          0.5117849111557007
+        ],
+        [
+          "natural language",
+          0.4800942540168762
+        ],
+        [
+          "dialogues",
+          0.437444806098938
+        ]
+      ],
+      "3": [
+        [
+          "large language models",
+          0.5753244161605835
+        ],
+        [
+          "large language models llms",
+          0.5593785047531128
+        ],
+        [
+          "language models",
+          0.5217305421829224
+        ],
+        [
+          "language models llms",
+          0.5088766813278198
+        ],
+        [
+          "machinegenerated text",
+          0.49884361028671265
+        ],
+        [
+          "language model",
+          0.45426321029663086
+        ],
+        [
+          "large language",
+          0.4042874574661255
+        ],
+        [
+          "texts",
+          0.3673853576183319
+        ],
+        [
+          "classifier",
+          0.354655921459198
+        ],
+        [
+          "text",
+          0.3459568917751312
+        ]
+      ],
+      "4": [
+        [
+          "multimodal large language",
+          0.6466671228408813
+        ],
+        [
+          "multimodal models",
+          0.63934326171875
+        ],
+        [
+          "multimodal",
+          0.6179039478302002
+        ],
+        [
+          "multimodal large",
+          0.5376994609832764
+        ],
+        [
+          "visual",
+          0.47933536767959595
+        ],
+        [
+          "large language models",
+          0.4537416696548462
+        ],
+        [
+          "visionlanguage",
+          0.4349161982536316
+        ],
+        [
+          "language models",
+          0.42795825004577637
+        ],
+        [
+          "large language model",
+          0.4277690649032593
+        ],
+        [
+          "visual foundation models",
+          0.40677300095558167
+        ]
+      ],
+      "5": [
+        [
+          "large language models llms",
+          0.4626759886741638
+        ],
+        [
+          "ai",
+          0.4613281488418579
+        ],
+        [
+          "language models llms",
+          0.45701661705970764
+        ],
+        [
+          "agent",
+          0.4489193260669708
+        ],
+        [
+          "large language models",
+          0.4476342499256134
+        ],
+        [
+          "agents",
+          0.44667837023735046
+        ],
+        [
+          "interactive",
+          0.439677357673645
+        ],
+        [
+          "language models",
+          0.4368625581264496
+        ],
+        [
+          "reinforcement",
+          0.4350704550743103
+        ],
+        [
+          "language model",
+          0.42887791991233826
+        ]
+      ],
+      "6": [
+        [
+          "automatic speech",
+          0.6606317758560181
+        ],
+        [
+          "automatic speech recognition asr",
+          0.5792312622070312
+        ],
+        [
+          "speech recognition",
+          0.5414796471595764
+        ],
+        [
+          "speech recognition asr",
+          0.5414656400680542
+        ],
+        [
+          "automatic speech recognition",
+          0.5386157035827637
+        ],
+        [
+          "large language models",
+          0.529854416847229
+        ],
+        [
+          "large language model",
+          0.5051016211509705
+        ],
+        [
+          "utterances",
+          0.49932384490966797
+        ],
+        [
+          "language models",
+          0.46869075298309326
+        ],
+        [
+          "voice",
+          0.43832945823669434
+        ]
+      ],
+      "7": [
+        [
+          "reasoning large language models",
+          0.69033282995224
+        ],
+        [
+          "reasoning tasks",
+          0.6320525407791138
+        ],
+        [
+          "reasoning large language",
+          0.630852460861206
+        ],
+        [
+          "reasoning capabilities",
+          0.6158041954040527
+        ],
+        [
+          "reasoning benchmarks",
+          0.5364079475402832
+        ],
+        [
+          "large language models",
+          0.48382115364074707
+        ],
+        [
+          "large language models llms",
+          0.4739667773246765
+        ],
+        [
+          "complex reasoning",
+          0.46622762084007263
+        ],
+        [
+          "language models",
+          0.46207302808761597
+        ],
+        [
+          "language models llms",
+          0.453142374753952
+        ]
+      ],
+      "8": [
+        [
+          "large language models llm",
+          0.6180689334869385
+        ],
+        [
+          "large language models llms",
+          0.6018953323364258
+        ],
+        [
+          "large language models",
+          0.5865136384963989
+        ],
+        [
+          "language models llm",
+          0.5565090179443359
+        ],
+        [
+          "language models llms",
+          0.5427590608596802
+        ],
+        [
+          "language models",
+          0.5051120519638062
+        ],
+        [
+          "information retrieval",
+          0.5001324415206909
+        ],
+        [
+          "retrieval",
+          0.46649327874183655
+        ],
+        [
+          "knowledge bases",
+          0.4627561569213867
+        ],
+        [
+          "large language",
+          0.3926961421966553
+        ]
+      ]
+    },
+    "MMR": {
+      "-1": [
+        [
+          "models",
+          0.036874579738434304
+        ],
+        [
+          "language",
+          0.031011734360675242
+        ],
+        [
+          "data",
+          0.02740357251248468
+        ],
+        [
+          "large",
+          0.024331696551107916
+        ],
+        [
+          "language models",
+          0.02287739800299974
+        ],
+        [
+          "model",
+          0.02123690372233833
+        ],
+        [
+          "tasks",
+          0.02117889409597425
+        ],
+        [
+          "llms",
+          0.020210440809796944
+        ],
+        [
+          "large language",
+          0.019999417196753248
+        ],
+        [
+          "large language models",
+          0.019126572684958956
+        ]
+      ],
+      "0": [
+        [
+          "models",
+          0.03888243759552385
+        ],
+        [
+          "model",
+          0.03647492283412293
+        ],
+        [
+          "language",
+          0.03613590283186468
+        ],
+        [
+          "training",
+          0.025581428828302905
+        ],
+        [
+          "language models",
+          0.02386262298037925
+        ],
+        [
+          "tasks",
+          0.02360941221543806
+        ],
+        [
+          "data",
+          0.021604280018978572
+        ],
+        [
+          "performance",
+          0.021213047327713713
+        ],
+        [
+          "large",
+          0.020365016161611835
+        ],
+        [
+          "method",
+          0.01788214168631935
+        ]
+      ],
+      "1": [
+        [
+          "code",
+          0.08112439886630912
+        ],
+        [
+          "language",
+          0.03515934823155083
+        ],
+        [
+          "models",
+          0.034093014905089085
+        ],
+        [
+          "llms",
+          0.03351276274167474
+        ],
+        [
+          "programming",
+          0.03221809114638236
+        ],
+        [
+          "software",
+          0.024215765671622126
+        ],
+        [
+          "language models",
+          0.023501871498181743
+        ],
+        [
+          "tasks",
+          0.021362088649701006
+        ],
+        [
+          "model",
+          0.021028623583260922
+        ],
+        [
+          "large language",
+          0.020242713470511334
+        ]
+      ],
+      "2": [
+        [
+          "ai",
+          0.03748085558879784
+        ],
+        [
+          "models",
+          0.032123956517937674
+        ],
+        [
+          "language",
+          0.030708509906927736
+        ],
+        [
+          "dialogue",
+          0.02863305325688509
+        ],
+        [
+          "human",
+          0.027796744355540557
+        ],
+        [
+          "llms",
+          0.027095383693882993
+        ],
+        [
+          "chatgpt",
+          0.02427426857972807
+        ],
+        [
+          "large language",
+          0.024177158942537805
+        ],
+        [
+          "large",
+          0.023491817699557018
+        ],
+        [
+          "model",
+          0.022240448993628016
+        ]
+      ],
+      "3": [
+        [
+          "detection",
+          0.04600933370915614
+        ],
+        [
+          "models",
+          0.0376182869533305
+        ],
+        [
+          "text",
+          0.03622151327830574
+        ],
+        [
+          "language",
+          0.03555056937300613
+        ],
+        [
+          "model",
+          0.02910562167494557
+        ],
+        [
+          "large",
+          0.026737322113278325
+        ],
+        [
+          "language models",
+          0.026260255642963005
+        ],
+        [
+          "misinformation",
+          0.022438367434259674
+        ],
+        [
+          "dataset",
+          0.021178404179731523
+        ],
+        [
+          "large language",
+          0.020266242724238725
+        ]
+      ],
+      "4": [
+        [
+          "multimodal",
+          0.06377037276103617
+        ],
+        [
+          "visual",
+          0.0609342279209814
+        ],
+        [
+          "image",
+          0.05031813021481461
+        ],
+        [
+          "models",
+          0.04428945209100523
+        ],
+        [
+          "generation",
+          0.03866971167435956
+        ],
+        [
+          "video",
+          0.03452530411071284
+        ],
+        [
+          "understanding",
+          0.03174883479055843
+        ],
+        [
+          "large",
+          0.02994331997174661
+        ],
+        [
+          "model",
+          0.027842071361726516
+        ],
+        [
+          "instruction",
+          0.02744625284444433
+        ]
+      ],
+      "5": [
+        [
+          "agents",
+          0.032621488861863626
+        ],
+        [
+          "language",
+          0.032046686285534975
+        ],
+        [
+          "policy",
+          0.031585563861493055
+        ],
+        [
+          "learning",
+          0.030550747755560888
+        ],
+        [
+          "tasks",
+          0.029270078392980483
+        ],
+        [
+          "llms",
+          0.028067175067745524
+        ],
+        [
+          "agent",
+          0.026011640827111927
+        ],
+        [
+          "games",
+          0.025255064827310037
+        ],
+        [
+          "knowledge",
+          0.02496878818528055
+        ],
+        [
+          "model",
+          0.024630611822384848
+        ]
+      ],
+      "6": [
+        [
+          "speech",
+          0.12032183461065618
+        ],
+        [
+          "asr",
+          0.0784134014691984
+        ],
+        [
+          "text",
+          0.04816267150192302
+        ],
+        [
+          "speaker",
+          0.04549115752552982
+        ],
+        [
+          "recognition",
+          0.044013060675693126
+        ],
+        [
+          "speech recognition",
+          0.03480823666083872
+        ],
+        [
+          "model",
+          0.0329226249448169
+        ],
+        [
+          "language",
+          0.031171151406766243
+        ],
+        [
+          "voice",
+          0.030863819919231247
+        ],
+        [
+          "proposed",
+          0.029531042059903895
+        ]
+      ],
+      "7": [
+        [
+          "reasoning",
+          0.09733768593924219
+        ],
+        [
+          "cot",
+          0.04159609177483568
+        ],
+        [
+          "models",
+          0.04032110830244759
+        ],
+        [
+          "problems",
+          0.038531107231743966
+        ],
+        [
+          "commonsense",
+          0.0328390198222387
+        ],
+        [
+          "language",
+          0.03061562593615061
+        ],
+        [
+          "prompting",
+          0.03050017742462947
+        ],
+        [
+          "language models",
+          0.028282815332533393
+        ],
+        [
+          "math",
+          0.026470858073982147
+        ],
+        [
+          "chainofthought",
+          0.026470858073982147
+        ]
+      ],
+      "8": [
+        [
+          "retrieval",
+          0.05391749257643426
+        ],
+        [
+          "information",
+          0.041311727463775545
+        ],
+        [
+          "query",
+          0.03998637165786005
+        ],
+        [
+          "llms",
+          0.0360048263616992
+        ],
+        [
+          "models",
+          0.03235786882267994
+        ],
+        [
+          "language",
+          0.03201012649638935
+        ],
+        [
+          "queries",
+          0.031828706522162444
+        ],
+        [
+          "language models",
+          0.02804152194835136
+        ],
+        [
+          "large",
+          0.026588466396316807
+        ],
+        [
+          "knowledge",
+          0.02430262486413176
+        ]
+      ]
+    },
+    "POS": {
+      "-1": [
+        [
+          "models",
+          0.036874579738434304
+        ],
+        [
+          "language",
+          0.031011734360675242
+        ],
+        [
+          "data",
+          0.02740357251248468
+        ],
+        [
+          "large",
+          0.024331696551107916
+        ],
+        [
+          "model",
+          0.02123690372233833
+        ],
+        [
+          "tasks",
+          0.02117889409597425
+        ],
+        [
+          "large language",
+          0.019999417196753248
+        ],
+        [
+          "learning",
+          0.017245729294018734
+        ],
+        [
+          "knowledge",
+          0.015578401017865536
+        ],
+        [
+          "performance",
+          0.015293299507868716
+        ]
+      ],
+      "0": [
+        [
+          "models",
+          0.03888243759552385
+        ],
+        [
+          "model",
+          0.03647492283412293
+        ],
+        [
+          "language",
+          0.03613590283186468
+        ],
+        [
+          "training",
+          0.025581428828302905
+        ],
+        [
+          "tasks",
+          0.02360941221543806
+        ],
+        [
+          "data",
+          0.021604280018978572
+        ],
+        [
+          "performance",
+          0.021213047327713713
+        ],
+        [
+          "large",
+          0.020365016161611835
+        ],
+        [
+          "method",
+          0.01788214168631935
+        ],
+        [
+          "translation",
+          0.015317468043852814
+        ]
+      ],
+      "1": [
+        [
+          "code",
+          0.08112439886630912
+        ],
+        [
+          "language",
+          0.03515934823155083
+        ],
+        [
+          "models",
+          0.034093014905089085
+        ],
+        [
+          "programming",
+          0.03221809114638236
+        ],
+        [
+          "software",
+          0.024215765671622126
+        ],
+        [
+          "tasks",
+          0.021362088649701006
+        ],
+        [
+          "model",
+          0.021028623583260922
+        ],
+        [
+          "large language",
+          0.020242713470511334
+        ],
+        [
+          "large",
+          0.01969750985041782
+        ],
+        [
+          "program",
+          0.017892959453975895
+        ]
+      ],
+      "2": [
+        [
+          "models",
+          0.032123956517937674
+        ],
+        [
+          "language",
+          0.030708509906927736
+        ],
+        [
+          "dialogue",
+          0.02863305325688509
+        ],
+        [
+          "human",
+          0.027796744355540557
+        ],
+        [
+          "large language",
+          0.024177158942537805
+        ],
+        [
+          "large",
+          0.023491817699557018
+        ],
+        [
+          "model",
+          0.022240448993628016
+        ],
+        [
+          "chatbots",
+          0.021090782635767247
+        ],
+        [
+          "responses",
+          0.020358247264396636
+        ],
+        [
+          "agents",
+          0.019356726824660043
+        ]
+      ],
+      "3": [
+        [
+          "detection",
+          0.04600933370915614
+        ],
+        [
+          "models",
+          0.0376182869533305
+        ],
+        [
+          "text",
+          0.03622151327830574
+        ],
+        [
+          "language",
+          0.03555056937300613
+        ],
+        [
+          "model",
+          0.02910562167494557
+        ],
+        [
+          "large",
+          0.026737322113278325
+        ],
+        [
+          "misinformation",
+          0.022438367434259674
+        ],
+        [
+          "dataset",
+          0.021178404179731523
+        ],
+        [
+          "large language",
+          0.020266242724238725
+        ],
+        [
+          "bias",
+          0.019222454111824376
+        ]
+      ],
+      "4": [
+        [
+          "multimodal",
+          0.06377037276103617
+        ],
+        [
+          "visual",
+          0.0609342279209814
+        ],
+        [
+          "image",
+          0.05031813021481461
+        ],
+        [
+          "models",
+          0.04428945209100523
+        ],
+        [
+          "generation",
+          0.03866971167435956
+        ],
+        [
+          "video",
+          0.03452530411071284
+        ],
+        [
+          "understanding",
+          0.03174883479055843
+        ],
+        [
+          "large",
+          0.02994331997174661
+        ],
+        [
+          "model",
+          0.027842071361726516
+        ],
+        [
+          "instruction",
+          0.02744625284444433
+        ]
+      ],
+      "5": [
+        [
+          "agents",
+          0.032621488861863626
+        ],
+        [
+          "language",
+          0.032046686285534975
+        ],
+        [
+          "policy",
+          0.031585563861493055
+        ],
+        [
+          "learning",
+          0.030550747755560888
+        ],
+        [
+          "tasks",
+          0.029270078392980483
+        ],
+        [
+          "agent",
+          0.026011640827111927
+        ],
+        [
+          "games",
+          0.025255064827310037
+        ],
+        [
+          "knowledge",
+          0.02496878818528055
+        ],
+        [
+          "model",
+          0.024630611822384848
+        ],
+        [
+          "models",
+          0.02357361082959911
+        ]
+      ],
+      "6": [
+        [
+          "speech",
+          0.12032183461065618
+        ],
+        [
+          "text",
+          0.04816267150192302
+        ],
+        [
+          "speaker",
+          0.04549115752552982
+        ],
+        [
+          "recognition",
+          0.044013060675693126
+        ],
+        [
+          "model",
+          0.0329226249448169
+        ],
+        [
+          "language",
+          0.031171151406766243
+        ],
+        [
+          "voice",
+          0.030863819919231247
+        ],
+        [
+          "systems",
+          0.02868879719738342
+        ],
+        [
+          "error",
+          0.027433755186485595
+        ],
+        [
+          "prompt",
+          0.027359560787395366
+        ]
+      ],
+      "7": [
+        [
+          "reasoning",
+          0.09733768593924219
+        ],
+        [
+          "models",
+          0.04032110830244759
+        ],
+        [
+          "problems",
+          0.038531107231743966
+        ],
+        [
+          "commonsense",
+          0.0328390198222387
+        ],
+        [
+          "language",
+          0.03061562593615061
+        ],
+        [
+          "prompting",
+          0.03050017742462947
+        ],
+        [
+          "math",
+          0.026470858073982147
+        ],
+        [
+          "model",
+          0.02522199037356587
+        ],
+        [
+          "performance",
+          0.025100359151578013
+        ],
+        [
+          "large",
+          0.024219197113476695
+        ]
+      ],
+      "8": [
+        [
+          "retrieval",
+          0.05391749257643426
+        ],
+        [
+          "information",
+          0.041311727463775545
+        ],
+        [
+          "query",
+          0.03998637165786005
+        ],
+        [
+          "models",
+          0.03235786882267994
+        ],
+        [
+          "language",
+          0.03201012649638935
+        ],
+        [
+          "queries",
+          0.031828706522162444
+        ],
+        [
+          "large",
+          0.026588466396316807
+        ],
+        [
+          "knowledge",
+          0.02430262486413176
+        ],
+        [
+          "augmentation",
+          0.022439589434192657
+        ],
+        [
+          "results",
+          0.021446519611670142
+        ]
+      ]
+    }
+  }
+}