|
--- |
|
tags: |
|
- music |
|
--- |
|
|
|
# CNN κΈ°λ° μμ
κ°μ λΆλ₯κΈ° π΅ |
|
|
|
## κ°μ |
|
|
|
μ΄ λͺ¨λΈμ μμ
μ΄ μ λ¬νλ κ°μ μ Convolutional Neural Network (CNN) μν€ν
μ²λ₯Ό μ¬μ©νμ¬ λΆλ₯ν©λλ€. |
|
λͺ¨λΈμ μμ
μνλ‘ κ΅¬μ±λ λ°μ΄ν°μ
μμ κ°μ λ²μ£Ό(Angry, Fear, Happy, Tender, Sad) μ€ νλλ‘ λΌλ²¨λ§λ λ°μ΄ν°λ₯Ό νμ΅νμ΅λλ€. |
|
|
|
λͺ¨λΈμ μ€λμ€ λ°μ΄ν°λ₯Ό Mel-spectrogramμΌλ‘ λ³νν ν, CNN λ μ΄μ΄λ₯Ό ν΅ν΄ μμ
μμ κ°μ μνμ κ΄λ ¨λ ν¨ν΄μ νμ΅ν©λλ€. |
|
|
|
### μ£Όμ κΈ°λ₯: |
|
- **μ
λ ₯**: Mel-spectrogramμΌλ‘ λ³νλ 5μ΄ κΈΈμ΄μ μ€λμ€ μΈκ·Έλ¨ΌνΈ |
|
- **μΆλ ₯**: λ€μ κ°μ μ€ νλ |
|
- Angry (0) |
|
- Fear (1) |
|
- Happy (2) |
|
- Tender (3) |
|
- Sad (4) |
|
|
|
- **μν€ν
μ²**: 3κ°μ 컨볼루μ
λ μ΄μ΄μ μμ μ°κ²°μΈ΅μΌλ‘ ꡬμ±λ CNN λͺ¨λΈ |
|
|
|
## λ°μ΄ν°μ
|
|
|
|
μ΄ λͺ¨λΈμ λ κ°μ§ λ°μ΄ν°μ
μ μ¬μ©νμ¬ νμ΅λμμ΅λλ€: |
|
1. **MER_audio_taffc_dataset**: μ΄ λ°μ΄ν°μ
μ νΉμ μ¬λΆλ©΄(Q1~Q4)μ λ°λΌ λΌλ²¨λ§λ μμ
νμΌλ‘ ꡬμ±λ©λλ€. |
|
2. **OSF_IO Dataset**: λ λ€λ₯Έ μμ
νμΌ λ° κ°μ λΌλ²¨λ‘ ꡬμ±λ λ°μ΄ν°μ
μ
λλ€. |
|
|
|
### λ°μ΄ν° μ μ²λ¦¬: |
|
- κ° μ€λμ€ νμΌμ 5μ΄ λ¨μλ‘ λΆν |
|
- λΆν λ μ€λμ€ μΈκ·Έλ¨ΌνΈλ₯Ό Mel-spectrogramμΌλ‘ λ³ν |
|
- λ λ°μ΄ν°μ
μ μμ΄μ νμ΅ λ° κ²μ¦μ©μΌλ‘ λ³ν© |
|
|
|
## λͺ¨λΈ μμΈ μ 보 |
|
|
|
### μν€ν
μ²: |
|
- **컨볼루μ
λ μ΄μ΄**: |
|
- Conv1: 32κ°μ νν°, 컀λ ν¬κΈ° 3x3 |
|
- Conv2: 64κ°μ νν°, 컀λ ν¬κΈ° 3x3 |
|
- Conv3: 128κ°μ νν°, 컀λ ν¬κΈ° 3x3 |
|
- **νλ§**: κ° μ»¨λ³Όλ£¨μ
ν MaxPooling λ μ΄μ΄λ₯Ό μ¬μ©νμ¬ μ°¨μμ μΆμ |
|
- **λλ‘μμ**: λλ‘μμ μ κ·νλ₯Ό μ¬μ©νμ¬ μ€λ²νΌν
λ°©μ§ (νλ₯ 0.5) |
|
- **μμ μ°κ²°μΈ΅**: |
|
- 첫 λ²μ§Έ FC λ μ΄μ΄: 256 μ λ |
|
- μΆλ ₯ λ μ΄μ΄: 5κ°μ μ λ (5κ°μ κ°μ λ²μ£Ό) |
|
|
|
### μμ€ ν¨μ: |
|
- **CrossEntropyLoss**: λ€μ€ ν΄λμ€ λΆλ₯λ₯Ό μ²λ¦¬νλ λ° μ¬μ© |
|
|
|
### μ΅ν°λ§μ΄μ : |
|
- **Adam**: νμ΅λ₯ 1e-4λ‘ μ€μ |
|
|
|
## νμ΅ |
|
|
|
μ΄ λͺ¨λΈμ λ³ν©λ λ°μ΄ν°μ
μ μ¬μ©νμ¬ 10 μν λμ νμ΅λμμ΅λλ€. νμ΅κ³Ό κ²μ¦ λ°μ΄ν° λΉμ¨μ 80:20μΌλ‘ λλμ΄ λͺ¨λΈ μ±λ₯μ νκ°νμ΅λλ€. |
|
|
|
κ²μ¦ μ νλλ₯Ό κΈ°μ€μΌλ‘ κ°μ₯ μ±λ₯μ΄ μ’μ λͺ¨λΈ 체ν¬ν¬μΈνΈλ₯Ό μ ννμ¬ μ μ₯νμμ΅λλ€. |
|
|
|
## μ±λ₯ |
|
|
|
- **μ΅κ³ κ²μ¦ μ νλ**: μ¬λ¬ μν λμ νλν κ²°κ³Ό, μ΅κ³ κ²μ¦ μ νλλ₯Ό λ¬μ±νμ΅λλ€. |
|
- μ΅μ’
λͺ¨λΈμ λ€μν μμ
μνμμ κ°μ μ μΈμνλ λ° λ°μ΄λ μ±λ₯μ 보μ
λλ€. |
|
|
|
## μ¬μ© λ°©λ² |
|
|
|
μμ μ μμ
λ°μ΄ν°λ₯Ό κ°μ λΆλ₯νλ λ° μ΄ λͺ¨λΈμ μ¬μ©νλ €λ©΄ Hugging Face Hubμμ μ§μ λ‘λν μ μμ΅λλ€: |
|
|
|
```python |
|
from transformers import AutoModel |
|
model = AutoModel.from_pretrained("jeonghyeon97/music_emotion_classifier_4") |
|
``` |