language: ca
tags:
- summarization
widget:
- text: >-
Microsoft ha triat Barcelona com a base d’operacions per al seu nou hub de
R+D especialitzat en l’aplicació de tecnologies d’Intel·ligència
Artificial per a la millora de l’experiència d’usuari a la web. El centre
situat a Barcelona serà un dels vuit centres d’investigació amb què compta
a nivell mundial la divisió WebXT (Web Experiences Team) de Microsoft, una
organització de més de 5.000 persones que presideix Mikhaïl Parakhin,
centrada en el desenvolupament d’experiències d’usuari avançades basades
en l’ús de tecnologies d’Intel·ligència Artificial i aprenentatge profund.
El centre d’excel·lència pretén atraure talent de tots els països d’Europa
i s’enquadra dins de l’equip de Search & AI que lidera Jordi Ribas,
vicepresident corporatiu de Microsoft Corporation als Estats Units. Aquest
equip especialitzat en aplicació d’Intel·ligència Artificial és el grup
més gran de WebXT de la companyia i contribueix al desenvolupament de
múltiples productes de Microsoft, incloent Windows, Azure i, per
descomptat, Bing. En aquesta primera fase, la inversió inclou l’actual
procés de selecció obert que contempla la contractació d’una trentena
d’enginyers de ‘software i científics especialitzats en àrees avançades
d’enginyeria de ‘software’ incloent Intel·ligència Artificial, Machine
Learning i Deep Learning, que podrien superar el centenar en els pròxims
anys. L’objectiu de Microsoft és crear al voltant d’aquest equip
d’enginyers un vector d’innovació en Intel·ligència Artificial –en
col·laboració amb universitats, centres d’investigació i empreses de
tecnologia–, reforçant els esforços per impulsar el talent digital a
Espanya i la capacitació en tecnologies de ‘machine learning’.
The mBART-sum-ca model
mBART-sum-ca is finetuned for the summarization task on 636.596 (document, summary) pairs from the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA).
The DACSA dataset
The application of supervised methods to automatic summarization requires the availability of adequate corpora consisting of a set of document-summary pairs. As in most Natural Language Processing tasks, the great majority of available datasets for summarization are in English, making it difficult to develop automatic summarization models for other languages. Although Spanish is gradually forming part of some recent summarization corpora, it is not the same for minority languages such as Catalan. In this work, we describe the construction of a corpus of Catalan and Spanish newspapers, the Dataset for Automatic summarization of Catalan and Spanish newspaper Articles (DACSA) corpus. It is a high-quality large-scale corpus that can be used to train summarization models for Catalan and Spanish. We have carried out an analysis of the corpus, both in terms of the style of the summaries and the difficulty of the summarization task. In particular, we have used a set of well-known metrics in the summarization field in order to characterize the corpus. Additionally, for benchmarking purposes, we have evaluated the performances of some extractive and abstractive summarization systems on the DACSA corpus.
The dataset can be requested in the following address: https://xarrador.dsic.upv.es/dacsa
BibTeX entry
@Article{dacsa-dataset,
AUTHOR = {Segarra, Encarna and Ahuir, Vicent and Hurtado, Lluís-F. and González, José Ángel},
TITLE = {DACSA: A large-scale Dataset for Automatic summarization of Catalan and Spanish newspaper Articles},
YEAR = {2022},
}