cleanup
Browse files- pages_helpers.py +9 -85
pages_helpers.py
CHANGED
@@ -17,15 +17,6 @@ from text_utils import *
|
|
17 |
|
18 |
from llm import *
|
19 |
|
20 |
-
|
21 |
-
# from crawl4ai import WebCrawler # pip install "crawl4ai @ git+https://github.com/unclecode/crawl4ai.git"
|
22 |
-
|
23 |
-
# Create an instance of WebCrawler
|
24 |
-
# crawler = WebCrawler()
|
25 |
-
|
26 |
-
# Warm up the crawler (load necessary models)
|
27 |
-
# crawler.warmup()
|
28 |
-
|
29 |
## Cách lấy cookies và headers sử dụng https://curlconverter.com
|
30 |
cookies = {
|
31 |
'ASP.NET_SessionId': '42i3ivvgk14yd2tnxmddybvq',
|
@@ -192,38 +183,8 @@ Your connection is not private
|
|
192 |
|
193 |
|
194 |
meta = None
|
195 |
-
|
196 |
-
|
197 |
-
# Thử lần 2 bằng CRAWL4AI
|
198 |
-
print("GET HTML CRAWL4AI", filename, flush=True)
|
199 |
-
get_html_method = "crawl4ai"
|
200 |
-
|
201 |
-
try:
|
202 |
-
result = crawler.run(url=url)
|
203 |
-
html = result.html
|
204 |
-
|
205 |
-
# Lưu lại nội dung html vào xz_filename
|
206 |
-
with lzma.open(xz_filename, "wt") as f: f.write(html)
|
207 |
-
|
208 |
-
# {'title': 'Ngập úng và thiệt hại trên 202.000 ha lúa | baotintuc.vn', 'description': 'Thống kê từ Bộ Nông nghiệp và Phát triển nông thôn, tính đến sáng 13/9, có trên 202.000 ha lúa, gần 39.300 ha hoa màu bị ngập úng, thiệt hại do ảnh hưởng của bão số 3.', 'keywords': None, 'author': 'baotintuc.vn', 'og:type': 'article', 'og:url': 'https://baotintuc.vn/xa-hoi/ngap-ung-va-thiet-hai-tren-202000-ha-lua-20240913095621343.htm', 'og:image': 'https://cdnmedia.baotintuc.vn/Upload/EqV5H9rWgvy9oNikwkHLXA/files/13092024-bao-1.jpg', 'og:image:url': 'https://cdnmedia.baotintuc.vn/Upload/EqV5H9rWgvy9oNikwkHLXA/files/13092024-bao-1.jpg', 'og:image:secure_url': 'https://cdnmedia.baotintuc.vn/Upload/EqV5H9rWgvy9oNikwkHLXA/files/13092024-bao-1.jpg', 'og:image:width': '460', 'og:image:height': '345', 'og:title': 'Ngập úng và thiệt hại trên 202.000 ha lúa', 'og:description': 'Thống kê từ Bộ Nông nghiệp và Phát triển nông thôn, đến sáng 13/9, có trên 202.000 ha lúa, gần 39.300 ha hoa màu bị ngập úng, thiệt hại do ảnh hưởng của bão số 3.', 'twitter: card': 'summary_large_image', 'twitter: image': 'https://cdnmedia.baotintuc.vn/Upload/EqV5H9rWgvy9oNikwkHLXA/files/13092024-bao-1.jpg'}
|
209 |
-
meta = dict(result.metadata)
|
210 |
-
|
211 |
-
for key in result.metadata.keys():
|
212 |
-
if "og:" in key or "twitter:" in key:
|
213 |
-
meta.pop(key)
|
214 |
-
|
215 |
-
except Exception as e:
|
216 |
-
print(f"!!! CRAWL4AI Error {e} !!!")
|
217 |
-
|
218 |
-
if isinstance(html, str):
|
219 |
-
for x in blacklist:
|
220 |
-
if x in html:
|
221 |
-
i = html.find(x)
|
222 |
-
print(f"{RED}!!! CRAWL4AI đọc lỗi {html[i-30:i+200]} !!!{RESET}")
|
223 |
-
html = None
|
224 |
-
meta = {}
|
225 |
-
break
|
226 |
-
'''
|
227 |
|
228 |
if html is None or len(html) < 500:
|
229 |
# Thử lần 3 bằng reader api
|
@@ -318,7 +279,8 @@ Your connection is not private
|
|
318 |
reader_signal = int( len(reader_text) * (1 - reader_noise_ratio) ) + 1
|
319 |
|
320 |
samesame = ( abs(signal - reader_signal) / reader_signal ) < 0.2
|
321 |
-
print(f">>> {RED}samesame {samesame},
|
|
|
322 |
|
323 |
# Nếu bản gốc quá ngắn nhưng bản reader quá noise thì thà chọn ngắn còn hơn
|
324 |
original_too_shot_but_reader_too_noise = (
|
@@ -335,42 +297,13 @@ Your connection is not private
|
|
335 |
if original_too_noise_but_reader_even_more_noise:
|
336 |
print("!!! reader còn noise hơn bản trafilatura, bỏ qua.")
|
337 |
|
338 |
-
|
339 |
if not original_too_shot_but_reader_too_noise and \
|
340 |
not original_too_noise_but_reader_even_more_noise:
|
341 |
|
342 |
-
|
343 |
-
|
344 |
-
|
345 |
-
|
346 |
-
if html is not None and len(html) > 200:
|
347 |
-
|
348 |
-
html_filename = filename + ".html"
|
349 |
-
with open(html_filename, "wt") as f:
|
350 |
-
f.write(html)
|
351 |
-
|
352 |
-
abi_text = subprocess.run(
|
353 |
-
f"node node_readability.js '{html_filename}' '{url}'",
|
354 |
-
shell=True,
|
355 |
-
capture_output=True,
|
356 |
-
).stdout.decode('utf-8')
|
357 |
-
|
358 |
-
abi_text, abi_noise_ratio, abi_max_noise = \
|
359 |
-
normalize_text(abi_text, get_noise_info = True)
|
360 |
-
|
361 |
-
if abi_max_noise < reader_max_noise:
|
362 |
-
print(GREEN, ">>>", abi_text, "<<<", RESET)
|
363 |
-
|
364 |
-
if len(abi_text) < len(reader_text) and len(text) < len(reader_text): # chuộng text ngắn
|
365 |
-
choose_original_text = True
|
366 |
-
|
367 |
-
|
368 |
-
if not choose_original_text:
|
369 |
-
|
370 |
-
extract_method = "reader"
|
371 |
-
text = reader_text
|
372 |
-
noise_ratio = reader_noise_ratio
|
373 |
-
max_noise = reader_max_noise
|
374 |
|
375 |
|
376 |
# update meta, Lưu lại text và meta
|
@@ -560,14 +493,5 @@ default_urls_input = """
|
|
560 |
https://vnexpress.net/sam-altman-ai-thong-minh-hon-con-nguoi-trong-vai-nghin-ngay-toi-4796649.html
|
561 |
https://vnexpress.net/may-tram-chay-ai-gia-tram-trieu-dong-tai-viet-nam-4796490.html
|
562 |
https://www.vngcloud.vn/blog/what-are-large-language-models
|
563 |
-
https://arxiv.org/
|
564 |
-
https://arxiv.org/html/2409.15700v1
|
565 |
-
https://arxiv.org/html/2409.09916v1
|
566 |
-
https://arxiv.org/html/2409.06903v1
|
567 |
-
https://arxiv.org/html/2409.12558v1
|
568 |
-
https://arxiv.org/html/2409.10516v2
|
569 |
-
https://rlhflow.github.io/posts/2024-05-29-multi-objective-reward-modeling
|
570 |
-
https://arxiv.org/html/2405.07863v2
|
571 |
-
https://arxiv.org/html/2406.12845
|
572 |
-
https://eugeneyan.com/writing/llm-evaluators
|
573 |
""".strip()
|
|
|
17 |
|
18 |
from llm import *
|
19 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
20 |
## Cách lấy cookies và headers sử dụng https://curlconverter.com
|
21 |
cookies = {
|
22 |
'ASP.NET_SessionId': '42i3ivvgk14yd2tnxmddybvq',
|
|
|
183 |
|
184 |
|
185 |
meta = None
|
186 |
+
# Lấy meta / html bằng phương pháp khác ...
|
187 |
+
# Tạm bỏ crawl4ai vì không cài được lên HF
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
188 |
|
189 |
if html is None or len(html) < 500:
|
190 |
# Thử lần 3 bằng reader api
|
|
|
279 |
reader_signal = int( len(reader_text) * (1 - reader_noise_ratio) ) + 1
|
280 |
|
281 |
samesame = ( abs(signal - reader_signal) / reader_signal ) < 0.2
|
282 |
+
print(f">>> {RED}samesame {samesame}, original_signal {pretty_num(signal)}, \
|
283 |
+
reader_signal {pretty_num(reader_signal)}{RESET}")
|
284 |
|
285 |
# Nếu bản gốc quá ngắn nhưng bản reader quá noise thì thà chọn ngắn còn hơn
|
286 |
original_too_shot_but_reader_too_noise = (
|
|
|
297 |
if original_too_noise_but_reader_even_more_noise:
|
298 |
print("!!! reader còn noise hơn bản trafilatura, bỏ qua.")
|
299 |
|
|
|
300 |
if not original_too_shot_but_reader_too_noise and \
|
301 |
not original_too_noise_but_reader_even_more_noise:
|
302 |
|
303 |
+
extract_method = "reader"
|
304 |
+
text = reader_text
|
305 |
+
noise_ratio = reader_noise_ratio
|
306 |
+
max_noise = reader_max_noise
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
307 |
|
308 |
|
309 |
# update meta, Lưu lại text và meta
|
|
|
493 |
https://vnexpress.net/sam-altman-ai-thong-minh-hon-con-nguoi-trong-vai-nghin-ngay-toi-4796649.html
|
494 |
https://vnexpress.net/may-tram-chay-ai-gia-tram-trieu-dong-tai-viet-nam-4796490.html
|
495 |
https://www.vngcloud.vn/blog/what-are-large-language-models
|
496 |
+
https://arxiv.org/pdf/2305.13673
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
497 |
""".strip()
|