petrsovadina commited on
Commit
0072d0e
1 Parent(s): 394cba1

Create app.py

Browse files
Files changed (1) hide show
  1. app.py +586 -0
app.py ADDED
@@ -0,0 +1,586 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import os
2
+ import sys
3
+ sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
4
+ print("Python version:", sys.version)
5
+ print("Python path:", sys.path)
6
+ import site
7
+ print("Site packages:", site.getsitepackages())
8
+
9
+ import streamlit as st
10
+ # Odstraňte nebo zakomentujte tento řádek
11
+ # from streamlit_option_menu import option_menu
12
+ import re
13
+ from faker import Faker
14
+ import json
15
+ import pandas as pd
16
+
17
+ # Odstraňte nebo zakomentujte tyto řádky
18
+ # from src.czech_anonymization.analyzers import custom_recognizers
19
+ # from src.czech_anonymization.processors import document_processors
20
+
21
+ # Initialize Faker for Czech
22
+ fake = Faker('cs_CZ')
23
+
24
+ # Enhanced PII patterns (simplified for brevity)
25
+ PII_PATTERNS = {
26
+ 'JMÉNO': r'\b(?:(?:Ing\.|Mgr\.|JUDr\.|MUDr\.|PhDr\.|RNDr\.|doc\.|prof\.|Dr\.) )?[A-ZÁČĎÉĚÍŇÓŘŠŤÚŮÝŽ][a-záčďéěíňóřšťúůýž]+(?:[ -][A-ZÁČĎÉĚÍŇÓŘŠŤÚŮÝŽ][a-záčďéěíňóřšťúůýž]+)*(?:(,? (?:CSc\.|DrSc\.|Ph\.D\.))?)\b',
27
+ 'RODNÉ_ČÍSLO': r'\b\d{6}/\d{3,4}\b',
28
+ 'DATUM_NAROZENÍ': r'\b(?:\d{1,2}\.? )?(?:\d{1,2}\.? )?(?:\d{4}|(?:led(?:na|en)|únor(?:a)?|břez(?:na|en)|dub(?:na|en)|květ(?:na|en)|červ(?:na|en)(?:ec)?|srp(?:na|en)|září|říj(?:na|en)|listopa(?:du|d)|prosine(?:c|e)) ?\d{4})\b',
29
+ 'TELEFON': r'\b(?:\+420 ?)?(?:(?:\d{3} ?){3}|\d{9})\b',
30
+ 'EMAIL': r'\b[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}\b',
31
+ 'ADRESA': r'\b[A-ZÁČĎÉĚÍŇÓŘŠŤÚŮÝŽ][a-záčďéěíňóřšťúůýž]+(?:[ -][A-ZÁČĎÉĚÍŇÓŘŠŤÚŮÝŽ][a-záčďéěíňóřšťúůýž]+)* \d+(?:/\d+[a-zA-Z]?)?,?\s*\d{3} ?\d{2} [A-ZÁČĎÉĚÍŇÓŘŠŤÚŮÝŽ][a-záčďéěíňóřšťúůýž]+(?:[ -][A-ZÁČĎÉĚÍŇÓŘŠŤÚŮÝŽ][a-záčďéěíňóřšťúůýž]+)*\b',
32
+ 'ČÍSLO_OP': r'\b(?:\d{9}|\d{6} ?\d{3})\b',
33
+ 'ČÍSLO_PASU': r'\b[A-Z]{2}\d{7}\b',
34
+ 'BANKOVNÍ_ÚČET': r'\b\d{1,6}-?\d{2,10}/\d{4}\b',
35
+ 'IČO': r'\b\d{8}\b',
36
+ 'DIČ': r'\bCZ\d{8,10}\b',
37
+ 'DATOVÁ_SCHRÁNKA': r'\b[a-zA-Z0-9]{7}\b'
38
+ }
39
+
40
+ def detect_and_anonymize_pii(text, selected_pii_types, anonymization_method):
41
+ entities = []
42
+ anonymized_text = text
43
+
44
+ for entity_type, pattern in PII_PATTERNS.items():
45
+ if entity_type in selected_pii_types:
46
+ for match in re.finditer(pattern, text):
47
+ entities.append({
48
+ 'start': match.start(),
49
+ 'end': match.end(),
50
+ 'text': match.group(),
51
+ 'type': entity_type
52
+ })
53
+
54
+ # Sort entities in reverse order to avoid index issues when replacing
55
+ entities.sort(key=lambda x: x['start'], reverse=True)
56
+
57
+ for entity in entities:
58
+ anonymized_value = anonymize_entity(entity, anonymization_method)
59
+ anonymized_text = anonymized_text[:entity['start']] + anonymized_value + anonymized_text[entity['end']:]
60
+
61
+ return {'original_text': text, 'anonymized_text': anonymized_text, 'entities': entities}
62
+
63
+ def anonymize_entity(entity, method):
64
+ if method == 'Nahradit X':
65
+ return 'X' * len(entity['text'])
66
+ elif method == 'Nahradit [TYP_ÚDAJE]':
67
+ return f"[{entity['type']}]"
68
+ elif method == 'Použít falešná data':
69
+ if entity['type'] == 'JMÉNO':
70
+ return fake.name()
71
+ elif entity['type'] == 'RODNÉ_ČÍSLO':
72
+ return fake.ssn()
73
+ elif entity['type'] == 'DATUM_NAROZENÍ':
74
+ return fake.date(pattern='%d.%m.%Y')
75
+ elif entity['type'] == 'TELEFON':
76
+ return fake.phone_number()
77
+ elif entity['type'] == 'EMAIL':
78
+ return fake.email()
79
+ elif entity['type'] == 'ADRESA':
80
+ return fake.address()
81
+ else:
82
+ return fake.word()
83
+ return entity['text']
84
+
85
+ def main():
86
+ st.set_page_config(page_title="Český PII Anotátor a Anonymizátor", layout="wide")
87
+
88
+ st.sidebar.title("Navigace")
89
+ selected = st.sidebar.selectbox(
90
+ "Vyberte sekci",
91
+ ["Hlavní aplikace", "O projektu", "Budoucí vývoj", "Specifikace využití", "Testovací data"]
92
+ )
93
+
94
+ st.sidebar.markdown("---")
95
+ st.sidebar.markdown("[GitHub repozitář](https://github.com/petrsovadina/Anonymiza-n-platforma)")
96
+
97
+ if selected == "Hlavní aplikace":
98
+ show_main_app()
99
+ elif selected == "O projektu":
100
+ show_about_project()
101
+ elif selected == "Budoucí vývoj":
102
+ show_future_development()
103
+ elif selected == "Specifikace využití":
104
+ show_usage_specifications()
105
+ elif selected == "Testovací data":
106
+ show_test_data()
107
+
108
+ def show_main_app():
109
+ st.title("Pokročilý Český PII Anotátor a Anonymizátor")
110
+
111
+ text_input = st.text_area("Zadejte český text k analýze:", height=200)
112
+
113
+ selected_pii_types = st.multiselect(
114
+ "Vyberte typy PII k detekci:",
115
+ list(PII_PATTERNS.keys()),
116
+ default=list(PII_PATTERNS.keys())
117
+ )
118
+
119
+ anonymization_method = st.selectbox(
120
+ "Vyberte metodu anonymizace:",
121
+ ["Nahradit X", "Nahradit [TYP_ÚDAJE]", "Použít falešná data"]
122
+ )
123
+
124
+ if st.button("Analyzovat a Anonymizovat"):
125
+ if not text_input:
126
+ st.error("Prosím, zadejte nějaký text k analýze.")
127
+ elif not selected_pii_types:
128
+ st.error("Prosím, vyberte alespoň jeden typ PII k detekci.")
129
+ else:
130
+ result = detect_and_anonymize_pii(text_input, selected_pii_types, anonymization_method)
131
+
132
+ st.subheader("Výsledky anonymizace")
133
+ st.write(f"Anonymizace proběhla úspěšně, bylo detekováno a anonymizováno {len(result['entities'])} osobních údajů.")
134
+
135
+ col1, col2 = st.columns(2)
136
+ with col1:
137
+ st.subheader("Původní text")
138
+ st.text_area("", result['original_text'], height=300)
139
+ with col2:
140
+ st.subheader("Anonymizovaný text")
141
+ st.text_area("", result['anonymized_text'], height=300)
142
+
143
+ st.subheader("Detekované PII:")
144
+ pii_summary = {}
145
+ for entity in result['entities']:
146
+ if entity['type'] not in pii_summary:
147
+ pii_summary[entity['type']] = 1
148
+ else:
149
+ pii_summary[entity['type']] += 1
150
+
151
+ summary_data = [{"Typ PII": k, "Počet instancí": v, "Úspěšnost": "✅"} for k, v in pii_summary.items()]
152
+ st.table(pd.DataFrame(summary_data))
153
+
154
+ if st.button("Stáhnout zprávu"):
155
+ report = {
156
+ "original_text": result['original_text'],
157
+ "anonymized_text": result['anonymized_text'],
158
+ "pii_summary": pii_summary
159
+ }
160
+ st.download_button(
161
+ label="Stáhnout JSON zprávu",
162
+ data=json.dumps(report, ensure_ascii=False, indent=2),
163
+ file_name="anonymization_report.json",
164
+ mime="application/json"
165
+ )
166
+
167
+ st.subheader("Zpětná vazba")
168
+ feedback = st.radio("Jste spokojeni s výsledkem anonymizace?", ("Ano", "Ne"))
169
+ comments = st.text_area("Další komentáře:")
170
+ if st.button("Odeslat zpětnou vazbu"):
171
+ st.success("Děkujeme za vaši zpětnou vazbu!")
172
+
173
+ def show_about_project():
174
+ st.title("O projektu")
175
+ st.write("""
176
+ ## Cíl projektu
177
+
178
+ Jako AI Developer jsem navrhl a implementoval systém pro automatickou detekci a anonymizaci osobních údajů (PII) v českém textu. Tento nástroj jsem vytvořil s cílem pomoci organizacím chránit soukromí jednotlivců při zpracování textových dat, což je klíčové při přípravě dat pro trénování jazykových modelů nebo chatbotů.
179
+
180
+ ## Časová osa vývoje
181
+
182
+ ### Dosavadní vývoj (3 dny):
183
+
184
+ 1. **Den 1: Analýza a návrh**
185
+ - Průzkum existujících řešení
186
+ - Definice požadavků a rozsahu projektu
187
+ - Návrh architektury systému
188
+
189
+ 2. **Den 2: Implementace základní funkcionality**
190
+ - Vývoj modulů pro detekci PII pomocí regulárních výrazů
191
+ - Implementace metod anonymizace
192
+ - Začátek vývoje uživatelského rozhraní
193
+
194
+ 3. **Den 3: Dokončení prototypu a testování**
195
+ - Dokončení uživatelského rozhraní
196
+ - Implementace generování reportů
197
+ - Základní testování a ladění
198
+
199
+ ### Plán budoucího vývoje:
200
+
201
+ 4. **Dny 4-5: Rozšíření funkcionality**
202
+ - Implementace pokročilých metod anonymizace
203
+ - Rozšíření podpory pro další typy dokumentů
204
+ - Vylepšení uživatelského rozhraní
205
+
206
+ 5. **Dny 6-8: Implementace NLP modelů**
207
+ - Výběr vhodných NLP modelů pro detekci českých PII
208
+ - Příprava trénovacích dat
209
+ - Implementace a integrace NLP modelů do systému
210
+
211
+ 6. **Dny 9-11: Trénink a ladění NLP modelů**
212
+ - Trénování NLP modelů na českých datech
213
+ - Fine-tuning modelů pro přesnou detekci PII
214
+ - Testování a vyhodnocení přesnosti modelů
215
+
216
+ 7. **Dny 12-13: Optimalizace a škálování**
217
+ - Optimalizace výkonu systému
218
+ - Implementace škálovatelného řešení pro zpracování velkých objemů dat
219
+ - Integrace s externími systémy
220
+
221
+ 8. **Dny 14-15: Finální testování a dokumentace**
222
+ - Komplexní testování celého systému
223
+ - Příprava uživatelské a technické dokumentace
224
+ - Vytvoření demonstračních materiálů
225
+
226
+ 9. **Den 16: Nasazení a školení**
227
+ - Nasazení systému do produkčního prostředí
228
+ - Školení uživatelů a administrátorů
229
+ - Zahájení podpory a údržby
230
+
231
+ Celková odhadovaná pracnost: 16 pracovních dnů
232
+
233
+ ## Klíčové aspekty mého řešení
234
+
235
+ 1. **Pokročilá detekce PII**: Implementoval jsem sofistikované regulární výrazy pro detekci různých typů osobních údajů specifických pro český kontext.
236
+
237
+ 2. **Flexibilní anonymizace**: Navrhl jsem tři metody anonymizace přizpůsobitelné různým potřebám ochrany soukromí.
238
+
239
+ 3. **Interaktivní rozhraní**: Využil jsem Streamlit pro vytvoření uživatelsky přívětivého webového rozhraní.
240
+
241
+ 4. **Customizace**: Implementoval jsem možnost výběru konkrétních typů PII k detekci a anonymizaci.
242
+
243
+ 5. **Reporting**: Vytvořil jsem systém pro generování přehledných statistik o detekovaných a anonymizovaných údajích.
244
+
245
+ ## Algoritmus flow
246
+
247
+ Pro lepší pochopení procesu detekce a anonymizace PII jsem vytvořil následující diagram, který ilustruje tok dat a klíčové kroky algoritmu:
248
+ """)
249
+
250
+ st.image("https://utfs.io/f/z2Za8Zqs0Nofbl54P61Phgi3WHO4xLUXal01qvcmesjT8KJp", caption="Diagram algoritmu flow pro detekci a anonymizaci PII")
251
+
252
+ st.write("""
253
+ Tento diagram ukazuje hlavní komponenty systému a jejich vzájemné interakce, od vstupu textu přes detekci PII až po výstup anonymizovaného textu a generování reportu.
254
+
255
+ ## Technologie a nástroje
256
+
257
+ Při vývoji tohoto projektu jsem využil následující technologie a knihovny:
258
+
259
+ - **Python**: Hlavní programovací jazyk pro implementaci logiky.
260
+ - **Streamlit**: Pro vytvoření interaktivního webového rozhraní.
261
+ - **Regex**: Využití pokročilých regulárních výrazů pro přesnou detekci PII.
262
+ - **Faker**: Generování realistických falešných dat pro anonymizaci.
263
+ - **Pandas**: Zpracování a vizualizace statistik o detekovaných PII.
264
+
265
+ V budoucích fázích projektu plánuji integraci pokročilých NLP modelů pro ještě přesnější detekci českých PII.
266
+
267
+ ## Využití pro přípravu dat
268
+
269
+ Tento systém hraje klíčovou roli v procesu přípravy dat pro různé účely, včetně:
270
+
271
+ 1. **Ochrana soukromí**: Anonymizace osobních údajů v dokumentech před jejich dalším zpracováním nebo sdílením.
272
+ 2. **Příprava trénovacích dat**: Bezpečná příprava textových dat pro trénování jazykových modelů nebo chatbotů.
273
+ 3. **Compliance**: Pomoc při dodržování předpisů o ochraně osobních údajů, jako je GDPR.
274
+ 4. **Analýza dat**: Umožnění bezpečné analýzy textových dat bez rizika úniku citlivých informací.
275
+
276
+ Tento projekt demonstruje mou schopnost navrhnout a implementovat komplexní řešení pro ochranu osobních údajů s důrazem na praktické využití v reálném světě, zejména v kontextu zpracování a analýzy textových dat v českém jazyce.
277
+ """)
278
+
279
+ def show_future_development():
280
+ st.title("Plán vývoje a nasazení")
281
+ st.write("""
282
+ ## Integrace s chatbotem pomocí FastAPI a LangChain
283
+
284
+ Pro efektivní využití našeho anonymizačního nástroje v systému chatbota implementujeme následující:
285
+
286
+ 1. **FastAPI Endpoints**:
287
+ - `/anonymize`: POST endpoint pro anonymizaci jednotlivých textů
288
+ - `/batch-anonymize`: POST endpoint pro dávkové zpracování většího množství dokumentů
289
+ - `/update-rules`: PUT endpoint pro aktualizaci pravidel anonymizace
290
+ - `/get-stats`: GET endpoint pro získání statistik o zpracovaných datech
291
+
292
+ 2. **API Dokumentace**:
293
+ - Využití Swagger UI pro interaktivní API dokumentaci
294
+ - Detailní popis všech endpointů, včetně vstupních a výstupních schémat
295
+ - Příklady použití pro každý endpoint
296
+
297
+ 3. **Integrace s LangChain**:
298
+ - Vytvoření custom LangChain tool pro anonymizaci dat
299
+ - Implementace LangChain agent, který bude využívat náš anonymizační nástroj
300
+ - Nastavení workflow pro automatické zpracování dokumentů před jejich použitím v chatbotu
301
+
302
+ 4. **Příklad využití v LangChain**:
303
+ ```python
304
+ from langchain.agents import Tool
305
+ from langchain.agents import initialize_agent
306
+ from langchain.llms import OpenAI
307
+
308
+ # Definice našeho anonymizačního nástroje
309
+ anonymization_tool = Tool(
310
+ name="Anonymization",
311
+ func=lambda x: requests.post("http://our-api.com/anonymize", json={"text": x}).json()["anonymized_text"],
312
+ description="Useful for anonymizing text containing personal information"
313
+ )
314
+
315
+ # Inicializace agenta
316
+ llm = OpenAI(temperature=0)
317
+ agent = initialize_agent([anonymization_tool], llm, agent="zero-shot-react-description", verbose=True)
318
+
319
+ # Použití agenta
320
+ agent.run("Anonymize this text and then summarize it: 'Jan Novák, born on 15.3.1985, lives at Hlavní 123, Prague.'")
321
+ ```
322
+
323
+ ## AI a NLP modely pro detekci PII
324
+
325
+ V budoucím vývoji plánujeme integraci pokročilých NLP a NER (Named Entity Recognition) modelů pro zlepšení detekce osobních údajů:
326
+
327
+ ### Výhody NER modelů pro náš projekt:
328
+
329
+ NER modely jsou ideální pro klasifikaci a anonymizaci textu díky své schopnosti přesně identifikovat pojmenované entity a strukturovaně kategorizovat citlivé údaje. Oproti jiným AI modelům poskytují přesnější výsledky při detekci citlivých informací, což je zásadní pro zajištění ochrany osobních údajů a správnou kategorizaci textů podle jejich obsahu.
330
+
331
+ ### Plánované využití NLP a NER modelů:
332
+
333
+ 1. **Přesnější detekce PII**: Využití pre-trénovaných modelů pro identifikaci širšího spektra osobních údajů.
334
+ 2. **Kontextová analýza**: Schopnost rozpoznat PII i v méně zřejmých kontextech.
335
+ 3. **Multijazyčná podpora**: Rozšíření detekce PII na více jazyků.
336
+ 4. **Adaptivní učení**: Možnost doučování modelů na specifických datech klienta.
337
+
338
+ ### Vhodné modely pro detekci PII:
339
+
340
+ - FacebookAI/xlm-roberta-large-finetuned-conll03-english: Pro multijazyčnou detekci entit.
341
+ - iiiorg/piiranha-v1-detect-personal-information: Specializovaný model pro detekci osobních informací.
342
+ - Microsoft Presidio: Framework pro detekci a anonymizaci, který můžeme integrovat do našeho řešení.
343
+
344
+ ### Implementace:
345
+
346
+ 1. Využití Transformers knihovny pro integraci a fine-tuning modelů.
347
+ 2. Vytvoření pipeline pro kombinaci rule-based přístupu s NER modely.
348
+ 3. Implementace mechanismu pro pravidelné aktualizace a doučování modelů.
349
+
350
+ Integrace těchto pokročilých NLP a NER modelů významně zvýší přesnost a robustnost našeho anonymizačního nástroje, což umožní jeho využití i v náročnějších scénářích a pro komplexnější typy dokumentů.
351
+ """)
352
+
353
+ def show_usage_specifications():
354
+ st.title("Specifikace využití")
355
+ st.write("""
356
+ ## Způsoby anonymizace
357
+
358
+ Systém nabízí tři hlavní metody anonymizace osobních údajů:
359
+
360
+ 1. **Nahrazení zástupnými znaky**: Osobní údaje jsou nahrazeny řetězcem 'X' stejné délky.
361
+ 2. **Nahrazení obecnými pojmy**: Osobní údaje jsou nahrazeny obecným označením typu údaje (např. [JMÉNO], [ADRESA]).
362
+ 3. **Použití falešných dat**: Osobní údaje jsou nahrazeny realisticky vypadajícími, ale fiktivními daty.
363
+
364
+ ## Testování a ověření
365
+
366
+ Pro zajištění správnosti a úplnosti anonymizace systém zahrnuje:
367
+
368
+ 1. **Generování testovacích dat**: Možnost vytvářet fiktivní dokumenty s osobními údaji pro testování.
369
+ 2. **Statistiky detekce**: Přehled detekovaných a anonymizovaných údajů pro každý dokument.
370
+ 3. **Vizuální porovnání**: Možnost porovnat původní a anonymizovaný text pro kontrolu.
371
+
372
+ ## Vstupní data
373
+
374
+ Systém je navržen pro zpracování:
375
+
376
+ 1. Libovolného textu zadaného uživatelem.
377
+ 2. Generovaných falešných dat pro testovací účely.
378
+ 3. (V budoucnu) Různých formátů dokumentů (TXT, PDF, DOC).
379
+
380
+ ## Zdůvodnění výběru nástrojů
381
+
382
+ 1. **Python**: Široká podpora pro NLP a zpracování textu, rozsáhlý ekosystém knihoven.
383
+ 2. **Streamlit**: Rychlé vytvoření interaktivního rozhraní pro demonstraci funkčnosti.
384
+ 3. **Regex**: Efektivní a flexibilní nástroj pro detekci vzorů v textu.
385
+ 4. **Faker**: Generování realistických falešných dat pro testování a anonymizaci.
386
+
387
+ Tato kombinace nástrojů umožňuje rychlý vývoj, snadnou údržbu a potenciál pro budoucí rozšíření systému.
388
+ """)
389
+
390
+ def show_test_data():
391
+ st.title("Testovací data pro anonymizační platformu")
392
+
393
+ st.header("1. Osobní profily")
394
+
395
+ st.subheader("Profil 1: Jan Novák")
396
+ st.write("""
397
+ - Jméno: Jan Novák
398
+ - Datum narození: 15.3.1985
399
+ - Rodné číslo: 850315/1234
400
+ - Adresa: Hlavní 123, 110 00 Praha 1
401
+ - E-mail: [email protected]
402
+ - Telefon: +420 601 234 567
403
+ - Číslo OP: 123456789
404
+ - Číslo účtu: 1234567890/0800
405
+ """)
406
+
407
+ st.subheader("Profil 2: Marie Svobodová")
408
+ st.write("""
409
+ - Jméno: Ing. Marie Svobodová, Ph.D.
410
+ - Datum narození: 22.7.1990
411
+ - Rodné číslo: 905722/9876
412
+ - Adresa: Nová 456, 602 00 Brno
413
+ - E-mail: [email protected]
414
+ - Telefon: 00420777888999
415
+ - Číslo pasu: 98765432
416
+ - IBAN: CZ65 0800 0000 0012 3456 7890
417
+ """)
418
+
419
+ st.subheader("Profil 3: Petr Dvořák")
420
+ st.write("""
421
+ - Jméno: MUDr. Petr Dvořák
422
+ - Datum narození: 1. ledna 1970
423
+ - Rodné číslo: 700101/3333
424
+ - Adresa: Dlouhá 789, 301 00 Plzeň
425
+ - E-mail: [email protected]
426
+ - Telefon: 420 602 111 222
427
+ - DIČ: CZ7001013333
428
+ - Číslo pojištěnce: 700101/3333
429
+ """)
430
+
431
+ st.header("2. Dokumenty")
432
+
433
+ st.subheader("2.1 Životopis - Jan Novák")
434
+ st.code("""
435
+ Jan Novák
436
+ Hlavní 123, 110 00 Praha 1
437
+ Tel: +420 601 234 567
438
+ E-mail: [email protected]
439
+
440
+ Datum narození: 15.3.1985
441
+ Stav: ženatý
442
+
443
+ Vzdělání:
444
+ 2004-2009: Vysoká škola ekonomická v Praze, obor Finance
445
+
446
+ Pracovní zkušenosti:
447
+ 2010-současnost: Finanční analytik, ABC Bank, a.s.
448
+ - Zpracování finančních reportů
449
+ - Analýza investičních příležitostí
450
+
451
+ 2009-2010: Junior účetní, XYZ s.r.o.
452
+ - Vedení účetnictví malých a středních podniků
453
+
454
+ Jazykové znalosti:
455
+ Angličtina - pokročilá úroveň
456
+ Němčina - středně pokročilá úroveň
457
+
458
+ Reference:
459
+ Ing. Jiří Zelený, vedoucí oddělení, ABC Bank, a.s.
460
+ Tel: 420 234 567 890
461
+ """)
462
+
463
+ st.subheader("2.2 Lékařská zpráva - Marie Svobodová")
464
+ st.code("""
465
+ Fakultní nemocnice Brno
466
+ Jihlavská 20, 625 00 Brno
467
+ IČO: 65269705
468
+
469
+ LÉKAŘSKÁ ZPRÁVA
470
+
471
+ Pacient: Ing. Marie Svobodová, Ph.D.
472
+ Datum narození: 22.7.1990
473
+ Rodné číslo: 905722/9876
474
+ Bydliště: Nová 456, 602 00 Brno
475
+ Pojišťovna: 111
476
+
477
+ Anamnéza:
478
+ Pacientka přichází s bolestí v pravém podžebří trvající 3 dny. Neudává horečku ani zvracení. V osobní anamnéze hypertenze na medikaci.
479
+
480
+ Fyzikální vyšetření:
481
+ TK: 130/80, P: 72/min, TT: 36.8°C
482
+ Břicho měkké, palpačně citlivé v pravém podžebří, Murphy negativní.
483
+
484
+ Závěr:
485
+ Suspektní cholecystitis. Doporučeno ultrazvukové vyšetření břicha.
486
+
487
+ Vypracoval: MUDr. Jan Veselý
488
+ Dne: 15.5.2023
489
+ """)
490
+
491
+ st.subheader("2.3 Faktura - Petr Dvořák")
492
+ st.code("""
493
+ XYZ Servis s.r.o.
494
+ Technická 10, 301 00 Plzeň
495
+ IČO: 12345678
496
+ DIČ: CZ12345678
497
+
498
+ FAKTURA č. 2023001
499
+
500
+ Odběratel:
501
+ MUDr. Petr Dvořák
502
+ Dlouhá 789
503
+ 301 00 Plzeň
504
+ DIČ: CZ7001013333
505
+
506
+ Datum vystavení: 1.6.2023
507
+ Datum splatnosti: 15.6.2023
508
+ Forma úhrady: bankovní převod
509
+
510
+ Položka Množství Cena/ks Celkem
511
+ ---------------------------------------------------------
512
+ Servis zdravotnického
513
+ zařízení XY 1 10000 Kč 10000 Kč
514
+ Náhradní díly 2 2500 Kč 5000 Kč
515
+ ---------------------------------------------------------
516
+ Celkem bez DPH 15000 Kč
517
+ DPH 21% 3150 Kč
518
+ Celkem s DPH 18150 Kč
519
+
520
+ Číslo účtu pro platbu: 1234567890/0300
521
+ Variabilní symbol: 2023001
522
+
523
+ Děkujeme za Vaši důvěru a těšíme se na další spolupráci.
524
+ """)
525
+
526
+ st.header("3. E-mailová komunikace")
527
+
528
+ st.subheader("3.1 E-mail od Jana Nováka")
529
+ st.code("""
530
531
532
+ Předmět: Žádost o změnu osobních údajů
533
+
534
+ Vážení,
535
+
536
+ prosím o změnu mých kontaktních údajů ve Vašem systému. Nové údaje jsou následující:
537
+
538
+ Jméno: Jan Novák
539
+ Nová adresa: Krátká 456, 120 00 Praha 2
540
+ Nový telefon: 702 345 678
541
+
542
+ Moje identifikační údaje:
543
+ Datum narození: 15.3.1985
544
+ Číslo účtu: 1234567890/0800
545
+
546
+ Děkuji za vyřízení mé žádosti.
547
+
548
+ S pozdravem,
549
+ Jan Novák
550
+ """)
551
+
552
+ st.subheader("3.2 E-mail od Marie Svobodové")
553
+ st.code("""
554
555
556
+ Předmět: Žádost o pracovní pozici
557
+
558
+ Vážená paní / Vážený pane,
559
+
560
+ reaguji na Váš inzerát na pozici "Datový analytik" zveřejněný na pracovním portálu Jobs.cz.
561
+
562
+ Jmenuji se Ing. Marie Svobodová, Ph.D. a mám pětiletou zkušenost v oblasti datové analýzy. Absolvovala jsem doktorské studium na Masarykově univerzitě v Brně, obor Aplikovaná informatika.
563
+
564
+ Moje kontaktní údaje:
565
+ Telefon: 777888999
566
+ E-mail: [email protected]
567
+ LinkedIn: linkedin.com/in/marie-svobodova
568
+
569
+ V příloze naleznete můj životopis a motivační dopis. Budu ráda za zpětnou vazbu a případné pozvání na osobní pohovor.
570
+
571
+ S pozdravem,
572
+ Marie Svobodová
573
+ """)
574
+
575
+ st.header("4. Příspěvek na sociální síti")
576
+
577
+ st.subheader("4.1 Příspěvek Petra Dvořáka na Facebooku")
578
+ st.code("""
579
+ Petr Dvořák
580
+ 1. června 2023 v 10:15
581
+
582
+ Ahoj přátelé! Právě jsem se vrátil z úžasné dovolené v Chorvatsku. Pokud budete chtít nějaké tipy na ubytování nebo restaurace v oblasti Splitu, dejte vědět. Můžete mi zavolat na 602 111 222 nebo napsat na [email protected]. Pojede: Ivan Máchal, Pavel Miško, Rutha Tomanová, Zdislava Novotná
583
+ """)
584
+
585
+ if __name__ == "__main__":
586
+ main()