myezrag

Sleeping

App Files Files Community

ginipick commited on Oct 25, 2024

Commit

56d3d16

verified ·

1 Parent(s): 2ff5289

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -23

app.py CHANGED Viewed

@@ -187,34 +187,36 @@ def preprocess_text_with_llm(input_text: str) -> str:
 1. 출력 형식: id,text,label,metadata
 2. id: 1부터 시작하는 순차적 번호
 3. text: 의미 있는 단위로 분리된 텍스트
-4. label: 텍스트의 주제나 카테고리를 다음 중에서 선택
-   - AI_Technology (AI 기술 관련)
-   - Social_Issue (사회 문제)
-   - Education (교육)
-   - Health (건강)
-   - Entertainment (엔터테인먼트)
-   - Business (비즈니스)
-   - Safety (안전)
-   - Culture (문화)
    - Politics (정치)
-   - Environment (환경)
 5. metadata: 날짜, 출처 등 추가 정보
 주의사항:
 - text에 쉼표가 있으면 큰따옴표로 감싸기
 - 큰따옴표는 백슬래시로 이스케이프 처리
 - 각 행은 새로운 줄로 구분
-- label은 반드시 위 카테고리 중 하나를 선택
-- text와 label은 서로 다른 내용이어야 함"""
-    full_prompt = f"{system_prompt}\n\n{input_text}\n\n출력:"
     try:
         response = ""
         stream = hf_client.text_generation(
             prompt=full_prompt,
             max_new_tokens=4000,
-            temperature=0.3,
             top_p=0.9,
             stream=True,
         )
@@ -223,11 +225,24 @@ def preprocess_text_with_llm(input_text: str) -> str:
             if msg:
                 response += msg
-        # <EOS_TOKEN> 이전까지만 추출
         if "<EOS_TOKEN>" in response:
             processed_text = response.split("<EOS_TOKEN>")[0].strip()
         else:
             processed_text = response.strip()
         # CSV 형식 검증
         try:
@@ -436,7 +451,7 @@ with gr.Blocks(css=css) as demo:
                     outputs=[convert_status, parquet_preview_convert, download_parquet_convert]
                 )
-    # 네 번째 탭: 텍스트를 데이터셋 형식으로 전처리 (개선된 버전)
     with gr.Tab("Text Preprocessing with LLM"):
         gr.Markdown("### 텍스트를 입력하면 LLM이 데이터셋 형식에 맞게 전처리하여 출력합니다.")
         with gr.Row():
@@ -450,7 +465,7 @@ with gr.Blocks(css=css) as demo:
                 with gr.Row():
                     preprocess_button = gr.Button("전처리 실행", variant="primary")
                     clear_button = gr.Button("초기화")
                 preprocess_status = gr.Textbox(
                     label="전처리 상태",
                     interactive=False,
@@ -464,12 +479,11 @@ with gr.Blocks(css=css) as demo:
                 )
                 # Parquet 변환 및 다운로드 섹션
-                with gr.Row():
-                    convert_to_parquet_button = gr.Button("Parquet으로 변환", visible=True)
-                    download_parquet = gr.File(
-                        label="변환된 Parquet 파일 다운로드",
-                        visible=False
-                    )
                 def handle_text_preprocessing(input_text: str):
                     if not input_text.strip():

 1. 출력 형식: id,text,label,metadata
 2. id: 1부터 시작하는 순차적 번호
 3. text: 의미 있는 단위로 분리된 텍스트
+4. label: 텍스트의 주제나 카테고리를 아래 기준으로 정확하게 한 개만 선택
+   - Historical_Figure (역사적 인물)
+   - Military_History (군사 역사)
+   - Technology (기술)
    - Politics (정치)
+   - Culture (문화)
 5. metadata: 날짜, 출처 등 추가 정보
+중요:
+- 동일한 텍스트를 반복해서 출력하지 말 것
+- 각 텍스트는 한 번만 처리하여 가장 적합한 label을 선택할 것
+- 입력 텍스트를 의미 단위로 적절히 분리할 것
+예시:
+1,"이순신은 조선 중기의 무신이다.","Historical_Figure","조선시대, 위키백과"
 주의사항:
 - text에 쉼표가 있으면 큰따옴표로 감싸기
 - 큰따옴표는 백슬래시로 이스케이프 처리
 - 각 행은 새로운 줄로 구분
+- 불필요한 반복 출력 금지"""
+    full_prompt = f"{system_prompt}\n\n입력텍스트:\n{input_text}\n\n출력:"
     try:
         response = ""
         stream = hf_client.text_generation(
             prompt=full_prompt,
             max_new_tokens=4000,
+            temperature=0.1,  # 더 결정적인 출력을 위해 낮춤
             top_p=0.9,
             stream=True,
         )
             if msg:
                 response += msg
+        # <EOS_TOKEN> 이전까지만 추출하고 정제
         if "<EOS_TOKEN>" in response:
             processed_text = response.split("<EOS_TOKEN>")[0].strip()
         else:
             processed_text = response.strip()
+        # 중복 출력 제거
+        lines = processed_text.split('\n')
+        unique_lines = []
+        seen_texts = set()
+        for line in lines:
+            line = line.strip()
+            if line and '출력:' not in line and line not in seen_texts:
+                unique_lines.append(line)
+                seen_texts.add(line)
+        processed_text = '\n'.join(unique_lines)
         # CSV 형식 검증
         try:
                     outputs=[convert_status, parquet_preview_convert, download_parquet_convert]
                 )
+    # 네번째 탭의 UI 부분 수정
     with gr.Tab("Text Preprocessing with LLM"):
         gr.Markdown("### 텍스트를 입력하면 LLM이 데이터셋 형식에 맞게 전처리하여 출력합니다.")
         with gr.Row():
                 with gr.Row():
                     preprocess_button = gr.Button("전처리 실행", variant="primary")
                     clear_button = gr.Button("초기화")
                 preprocess_status = gr.Textbox(
                     label="전처리 상태",
                     interactive=False,
                 )
                 # Parquet 변환 및 다운로드 섹션
+                convert_to_parquet_button = gr.Button("Parquet으로 변환")
+                download_parquet = gr.File(label="변환된 Parquet 파일 다운로드")
                 def handle_text_preprocessing(input_text: str):
                     if not input_text.strip():