tiendung commited on
Commit
25fe459
·
1 Parent(s): 8b8d4ec
Files changed (1) hide show
  1. pages_helpers.py +9 -85
pages_helpers.py CHANGED
@@ -17,15 +17,6 @@ from text_utils import *
17
 
18
  from llm import *
19
 
20
-
21
- # from crawl4ai import WebCrawler # pip install "crawl4ai @ git+https://github.com/unclecode/crawl4ai.git"
22
-
23
- # Create an instance of WebCrawler
24
- # crawler = WebCrawler()
25
-
26
- # Warm up the crawler (load necessary models)
27
- # crawler.warmup()
28
-
29
  ## Cách lấy cookies và headers sử dụng https://curlconverter.com
30
  cookies = {
31
  'ASP.NET_SessionId': '42i3ivvgk14yd2tnxmddybvq',
@@ -192,38 +183,8 @@ Your connection is not private
192
 
193
 
194
  meta = None
195
- '''
196
- if html is None or len(html) < 500:
197
- # Thử lần 2 bằng CRAWL4AI
198
- print("GET HTML CRAWL4AI", filename, flush=True)
199
- get_html_method = "crawl4ai"
200
-
201
- try:
202
- result = crawler.run(url=url)
203
- html = result.html
204
-
205
- # Lưu lại nội dung html vào xz_filename
206
- with lzma.open(xz_filename, "wt") as f: f.write(html)
207
-
208
- # {'title': 'Ngập úng và thiệt hại trên 202.000 ha lúa | baotintuc.vn', 'description': 'Thống kê từ Bộ Nông nghiệp và Phát triển nông thôn, tính đến sáng 13/9, có trên 202.000 ha lúa, gần 39.300 ha hoa màu bị ngập úng, thiệt hại do ảnh hưởng của bão số 3.', 'keywords': None, 'author': 'baotintuc.vn', 'og:type': 'article', 'og:url': 'https://baotintuc.vn/xa-hoi/ngap-ung-va-thiet-hai-tren-202000-ha-lua-20240913095621343.htm', 'og:image': 'https://cdnmedia.baotintuc.vn/Upload/EqV5H9rWgvy9oNikwkHLXA/files/13092024-bao-1.jpg', 'og:image:url': 'https://cdnmedia.baotintuc.vn/Upload/EqV5H9rWgvy9oNikwkHLXA/files/13092024-bao-1.jpg', 'og:image:secure_url': 'https://cdnmedia.baotintuc.vn/Upload/EqV5H9rWgvy9oNikwkHLXA/files/13092024-bao-1.jpg', 'og:image:width': '460', 'og:image:height': '345', 'og:title': 'Ngập úng và thiệt hại trên 202.000 ha lúa', 'og:description': 'Thống kê từ Bộ Nông nghiệp và Phát triển nông thôn, đến sáng 13/9, có trên 202.000 ha lúa, gần 39.300 ha hoa màu bị ngập úng, thiệt hại do ảnh hưởng của bão số 3.', 'twitter: card': 'summary_large_image', 'twitter: image': 'https://cdnmedia.baotintuc.vn/Upload/EqV5H9rWgvy9oNikwkHLXA/files/13092024-bao-1.jpg'}
209
- meta = dict(result.metadata)
210
-
211
- for key in result.metadata.keys():
212
- if "og:" in key or "twitter:" in key:
213
- meta.pop(key)
214
-
215
- except Exception as e:
216
- print(f"!!! CRAWL4AI Error {e} !!!")
217
-
218
- if isinstance(html, str):
219
- for x in blacklist:
220
- if x in html:
221
- i = html.find(x)
222
- print(f"{RED}!!! CRAWL4AI đọc lỗi {html[i-30:i+200]} !!!{RESET}")
223
- html = None
224
- meta = {}
225
- break
226
- '''
227
 
228
  if html is None or len(html) < 500:
229
  # Thử lần 3 bằng reader api
@@ -318,7 +279,8 @@ Your connection is not private
318
  reader_signal = int( len(reader_text) * (1 - reader_noise_ratio) ) + 1
319
 
320
  samesame = ( abs(signal - reader_signal) / reader_signal ) < 0.2
321
- print(f">>> {RED}samesame {samesame}, original signal {pretty_num(signal)}, reader_signal {pretty_num(reader_signal)}{RESET}")
 
322
 
323
  # Nếu bản gốc quá ngắn nhưng bản reader quá noise thì thà chọn ngắn còn hơn
324
  original_too_shot_but_reader_too_noise = (
@@ -335,42 +297,13 @@ Your connection is not private
335
  if original_too_noise_but_reader_even_more_noise:
336
  print("!!! reader còn noise hơn bản trafilatura, bỏ qua.")
337
 
338
-
339
  if not original_too_shot_but_reader_too_noise and \
340
  not original_too_noise_but_reader_even_more_noise:
341
 
342
- choose_original_text = False
343
-
344
- if reader_too_noise: # vẫn còn noisy lắm, thử dùng readability.js
345
-
346
- if html is not None and len(html) > 200:
347
-
348
- html_filename = filename + ".html"
349
- with open(html_filename, "wt") as f:
350
- f.write(html)
351
-
352
- abi_text = subprocess.run(
353
- f"node node_readability.js '{html_filename}' '{url}'",
354
- shell=True,
355
- capture_output=True,
356
- ).stdout.decode('utf-8')
357
-
358
- abi_text, abi_noise_ratio, abi_max_noise = \
359
- normalize_text(abi_text, get_noise_info = True)
360
-
361
- if abi_max_noise < reader_max_noise:
362
- print(GREEN, ">>>", abi_text, "<<<", RESET)
363
-
364
- if len(abi_text) < len(reader_text) and len(text) < len(reader_text): # chuộng text ngắn
365
- choose_original_text = True
366
-
367
-
368
- if not choose_original_text:
369
-
370
- extract_method = "reader"
371
- text = reader_text
372
- noise_ratio = reader_noise_ratio
373
- max_noise = reader_max_noise
374
 
375
 
376
  # update meta, Lưu lại text và meta
@@ -560,14 +493,5 @@ default_urls_input = """
560
  https://vnexpress.net/sam-altman-ai-thong-minh-hon-con-nguoi-trong-vai-nghin-ngay-toi-4796649.html
561
  https://vnexpress.net/may-tram-chay-ai-gia-tram-trieu-dong-tai-viet-nam-4796490.html
562
  https://www.vngcloud.vn/blog/what-are-large-language-models
563
- https://arxiv.org/html/2408.16737v1
564
- https://arxiv.org/html/2409.15700v1
565
- https://arxiv.org/html/2409.09916v1
566
- https://arxiv.org/html/2409.06903v1
567
- https://arxiv.org/html/2409.12558v1
568
- https://arxiv.org/html/2409.10516v2
569
- https://rlhflow.github.io/posts/2024-05-29-multi-objective-reward-modeling
570
- https://arxiv.org/html/2405.07863v2
571
- https://arxiv.org/html/2406.12845
572
- https://eugeneyan.com/writing/llm-evaluators
573
  """.strip()
 
17
 
18
  from llm import *
19
 
 
 
 
 
 
 
 
 
 
20
  ## Cách lấy cookies và headers sử dụng https://curlconverter.com
21
  cookies = {
22
  'ASP.NET_SessionId': '42i3ivvgk14yd2tnxmddybvq',
 
183
 
184
 
185
  meta = None
186
+ # Lấy meta / html bằng phương pháp khác ...
187
+ # Tạm bỏ crawl4ai không cài được lên HF
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
188
 
189
  if html is None or len(html) < 500:
190
  # Thử lần 3 bằng reader api
 
279
  reader_signal = int( len(reader_text) * (1 - reader_noise_ratio) ) + 1
280
 
281
  samesame = ( abs(signal - reader_signal) / reader_signal ) < 0.2
282
+ print(f">>> {RED}samesame {samesame}, original_signal {pretty_num(signal)}, \
283
+ reader_signal {pretty_num(reader_signal)}{RESET}")
284
 
285
  # Nếu bản gốc quá ngắn nhưng bản reader quá noise thì thà chọn ngắn còn hơn
286
  original_too_shot_but_reader_too_noise = (
 
297
  if original_too_noise_but_reader_even_more_noise:
298
  print("!!! reader còn noise hơn bản trafilatura, bỏ qua.")
299
 
 
300
  if not original_too_shot_but_reader_too_noise and \
301
  not original_too_noise_but_reader_even_more_noise:
302
 
303
+ extract_method = "reader"
304
+ text = reader_text
305
+ noise_ratio = reader_noise_ratio
306
+ max_noise = reader_max_noise
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
307
 
308
 
309
  # update meta, Lưu lại text và meta
 
493
  https://vnexpress.net/sam-altman-ai-thong-minh-hon-con-nguoi-trong-vai-nghin-ngay-toi-4796649.html
494
  https://vnexpress.net/may-tram-chay-ai-gia-tram-trieu-dong-tai-viet-nam-4796490.html
495
  https://www.vngcloud.vn/blog/what-are-large-language-models
496
+ https://arxiv.org/pdf/2305.13673
 
 
 
 
 
 
 
 
 
497
  """.strip()