seongil-dn's picture
Add new SentenceTransformer model
d22c037 verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:451949
  - loss:CachedMultipleNegativesRankingLoss
base_model: BAAI/bge-m3
widget:
  - source_sentence: 일본 재무성은 배우자의 연간 수입 상한액에 대해 얼마와 130  안을 제시했어?
    sentences:
      - >-
        일본 정부는 저출산 대책을 강화할 재원 확보를 위해 기업의 육아지원 출연금을 증액하도록 경제계에 요구할 방침이다. 만약 이 방침이
        실현되면 기업의 부담금은 연 최대 1,000억 엔 규모로 확대되고, 확대된 재원은 맞벌이 가구나 다자녀 가구의 육아지원에 사용될
        계획이다. 이번 조치는 아베 신조 총리가 주도하는 ‘1억 총 활약 사회’ 실현을 위한 핵심 정책으로 활용될 계획이지만 경제계의
        반발도 고려하지 않을 수 없는 상황이다. 경단련과 경제동우회에는 이미 정부 방침이 전달되었는데, 아베 총리는 2015년 9월 말에
        발표한 아베노믹스의 2단계 방편인 ‘새로운 세 개의 화살’에서 현재 출산율인 1.4를 2020년대 중반까지 1.8로 상향시킨다는
        목표를 밝힌 바 있다. 일본 정부가 기업에 요구하는 것은 연금특별회계의 아동 및 육아지원 계정에 대한 출연금 증액인데, 정부 안에
        따르면 현재 월급과 상여금의 0.15%인 기업출연금은 2016년부터는 0.20%로 인상될 전망이다.
      - >-
        일본 재무성은 지금까지 배우자의 연간수입 상한액에 대해서 ‘150만 엔 안’과 ‘130만 엔 안’의 두 가지 안을 제시하였는데,
        자민당의 세제조사회에서는 ‘150만 엔 안’이 효과가 높을 것이라는 의견이 대다수를 차지했다. ‘130만 엔 안’의 경우 배우자의
        연간수입이 130만 엔을 넘으면 연금과 의료보험의 사회보험료 부담이 발생하는 ‘130만 엔의 벽’과 중복되어, 수입을 그 이하로
        줄이기 위해 근무시간을 줄일 가능성이 높아질 것으로 판단하였다. 자민당의 세제조사회의 노다 최고 고문은 23일 BS후지방송에
        방송된 프로그램에서 소득세가 공제되는 배우자의 연간수입 상한액을 150만 엔으로 인상하는 것이 바람직하다는 입장을 표명하였다.
        공명당 간부도 같은 날 ‘150만 엔 안’으로 인상하는 것을 우선적으로 검토하고 있다고 밝혔다. 일본 재무성은 소득세가 공제되는
        배우자의 연간수입 상한액을 150만 엔으로 인상할 경우, 360만 가구가 감세 혜택을 받게 되는 데에 비해, 연간수입 상한액을
        130만 엔으로 인상할 경우 감세 혜택을 받는 가구는 260만 가구에 머물 것으로 추계하였다.
      - >-
        지방자치단체의 행정에 인권개념을 도입하기 위해서는 우선 지속가능한 제도를 구축하는 것이 매우 중요하다. 제도에는 조례, 인력 또는
        조직 등이 포함된다. 지방자치단체 인권제도의 도입은 2002년 울산광역시에서 ‘인권교육 및 인권보호활동 추진에 관한 조례’
        제정운동을 시작으로 지방자치단체 인권조례 운동이 모색되기 시작하였으며 2007년에는 경남 진주에서도 학계 연구자들과 시민단체
        활동가들이 인권조례 제정활동을 벌이기 시작했다. 두 번의 실패 끝에 결국 2009년 5월 광주광역시에서 전국 최초로 ‘광주광역시
        민주・인권・평화도시 육성 조례’를 제정하면서 인권조례 제정활동이 본격화된다. 2012년 국가인권위원회는 지역사회에서의 인권 보장
        및 증진을 위하여 각 지자체의 장에게 인권 기본조례의 제・개정을 권고하며 인권제도의 도입을 급격히 확산시키는 견인차 역할을
        담당한다. 2019년 현재 총 104곳의 지방자치단체(광역자치단체 17곳, 기초자치단체 87곳)에서 제정되었다.
  - source_sentence: 경영방침을 자긍심을 심는 콘텐츠의 제작으로 정하여 실행해 나가는 방송사는 어디니?
    sentences:
      - >-
        여기서 ‘사생활의 비밀’이란 사생활과 관련된 사사로운 자신만의 영역이 사회공동체의 일반적인 생활규범의 범위 내에서 본인의 의사에
        반해서 타인에게 알려지지 않도록 할 수 있는 권리를 말한다. 구체적으로는 (i) 본인의 의사에 반하여 감시, 도청, 비밀녹음,
        비밀촬영 등에 의하여 사생활의 비밀을 탐지하거나 사생활의 평온을 침입하여서는 아니 된다는 것, (ii) 사적 사항의 공개는 개인의
        자율에 일임되어야 하며, 난처한 사사(私事)를 무단으로 공개하여서는 아니 된다는 것, (iii) 허위의 사실을 공표하거나 사실을
        과장 왜곡되게 공표하여 특정인을 진실과 다르게 인식하도록 하여서는 아니 된다는 것, (iv) 성명, 초상, 경력 등이 사실과
        일치하더라도 영리의 목적으로 사용하여서는 아니 된다는 것 등을 그 내용으로 한다. 또 ‘사생활의 자유’란 사생활을 자유롭게 형성해
        나가고, 그 설계 및 내용에 대해서 외부로부터의 간섭을 받지 않을 권리를 말한다. 이에는 대체로 결혼, 피임, 낙태, 자녀의
        양육, 교육, 성생활, 두발, 의복형태, 취미생활 등의 자유가 포함된다.
      - >-
        제가 이 자리에서 여러 번 강조합니다만 방송의 품질을 높이고 품격 있는 방송을 하도록 우리의 정책의지가 담겨 있어야 한다고
        봅니다. 그래서 가뜩이나 광고시장이 위축되고 있기 때문에 모든 방송사들이 시청률에 매달릴 수밖에 없는 실정입니다. 그러면 시청률은
        그저 이목을 끌고 검증되지 않는 자극적인 언사를 쓰는 방송프로그램에 더 시청률이 몰릴 수밖에 없습니다. 그런 유혹을 방송들이
        철저하게 절제를 하면서 방송의 품격을 지켜 나갈 수 있도록 우리가 그렇게 유도해야 하는 것입니다. 특히 출연진을 잘 검증하는
        장치가 과연 방송사에서 자율적으로 잘 마련되어 있고, 또 그것이 잘 이루어지고 있는지를 철저하게 점검하는 부분들을 반드시
        방송사들이, 사업자들이 깨닫고 자정하는 노력이 있어야 할 것으로 봅니다. 그래서 그런 부분에 대한 우리의 정책의지가 발휘될 수
        있도록 다시 한 번 주문합니다. 이상입니다.
      - >-
        하지만 공정성 과 객관성 확보와 오보·막말 방지에 대한 우리 채널A의 의지는 그 어느 때보다 확고합니다. 지난해부터 그런 것들에
        대해서 저뿐만 아니라 많은 조직원들이 좀 더 강하게 문제제기를 하고 있고 고쳐 나가고 노력하고 있고, 그래서 제도적 완비에도
        최선을 다하려고 노력하고 있습니다. 채널A는 매년 3가지 경영방침을 정해서 이를 우선적으로 실천해 나가고 있습니다. 지난해 3대
        경영방침 중 첫 번째가 퀄리티 저널리즘의 구현이었습니다. 그리고 또 올해에는 역시 첫 번째가 채널A의 자긍심을 심는 콘텐츠를
        만들자는 의미로 A 프라이드 콘텐츠의 확산을 우리 3대 경영방침으로 삼고 있습니다. 또 새롭게 설정한 채널A의 4대 비전
        가운데에서 제일 첫 번째가 품격을 담는 채널A이고 두 번째가 공정하고 건전한 여론을 담는 채널A입니다. 이 모든 것들이 우리
        채널A의 콘텐츠의 공정성과 객관성을 최대한 담고 오보와 막말을 모두 덜어내자는 의지의 표현이고 또 반드시 실천해 나가야 되는
        채널A의 숙제이자 목표입니다. 제도적으로도 보완과 개선을 계속 해 나가고 있습니다.
  - source_sentence: 1999년에 구축한 국방조달관리정보체계를 토대로 하여 중앙조달 전자입찰체계를 개발운용하고 있는 기관은 어디야?
    sentences:
      - >-
        국방부조달본부는 1995년‘전자거래 시범기관’으로 지정된 이후, 1999년 국방조달관리정보체계(DPAMIS)를 구축하고 이를
        기반으로 중앙조달 전자입찰체계를 개발운용하고 있으며, 부대조달을 포함한 전군 단일 전자입찰체계를 개발중에 있다. 국방조달행정의
        편의성, 투명성 및 대민 서비스 개선요구가 증대되는 등 전자상거래의 필요성이 제기됨에 따라 2000년 11월 중앙조달
        전자입찰체계를 구축완료하고, 2001년 4월부터 소량·소액 품목을 대상으로 부분적으로 전자입찰을 실시하였으며, 2002년부터는
        비밀사업과 다자간 협상사업 및 법적으로 전자상거래가 제한되는 외자분야를 제외한 전 품목을 대상으로 전자입찰을 시행하고 있다.
        또한, 2002년부터는 2003년도 국방조달분야 전자입찰의 전면시행을 목표로 중앙조달 전자입찰체계 확대·보완사업을 추진하고 있는
        바, 이에는 부대조달 전자입찰체계 개발을 비롯하여 조달원 통합관리, 원가자료 획득 및 산정기능, 제증명 신청 및 발급 등 민원
        서비스체계가 포함되어 있다.
      - >-
        조달청은 정부ㆍ공공기관에서 필요한 물자와 용역 등을 제때 적정한 가격으로 구매ㆍ공급할 수 있게 하는
        국가종합전자조달시스템(나라장터, www.g2b.go.kr)을 구축ㆍ운영하고 있다. 이 서비스로 수요기관ㆍ조달업체 등록, 입찰,
        계약, 검사, 대금 지급 등 정부ㆍ공공조달 전 과정을 인터넷으로 처리하고 확인할 수 있다. 국가종합전자조달 서비스로 입찰, 계약,
        지급 등 조달 업무 전 과정에 대한 온라인 처리, 진행 상황의 실시간 모니터링이 가능해졌으며, 2003년 서비스 개시 이후
        전자입찰을 통한 거래 실적이 매년 증가하는 추세다. 2017년에는 국가종합조달서비스의 안정적인 운영과 전문성을 확보하기 위한
        전자조달센터를 지정해RFID 등 8개 시스템의 운영ㆍ유지보수 사업에 대한 전자조달지원센터 지정과 이관을 추진했다. 조달통계에 관한
        빅데이터 분석 시스템을 구축해 공공조달업무 효율화를 지원하고, 향상된 보안성으로 빠른 실행을 지원하는 안전입찰 2.0을
        도입함으로써 이용자 만족도 및 보안성을 높이고 있다.
      - >-
        북한 핵전략에 대한 연구는 어떤 효과를 갖는가. 우선 북한의 핵전략을 파악함으로써 북한의 핵위협에 대해 보다 효과적인 군사적
        대응이 가능하게 된다. 현재 우리는 북한의 핵전략에 대해 지극히 초보적인 지식만을 갖고 있으며, 따라서 이에 대한 대응책도
        유효하거나 충분치 않을 가능성이 높다. 북한의 핵전략을 파악한다는 것은 북한이 핵무기의 수량을 얼마나 증대할 것인지, 핵무기의
        종류와 핵무기를 어떤 상황에서 사용할 것인지, 핵무기를 어떤 용도로 사용할 것인지를 이해하는 것이다. 이렇게 북한의 핵전략을
        이해할 때, 북한의 핵사용 또는 핵사용 위협을 성공적으로 억제할 가능성도 높아질 것이다. 또한 북한의 핵전략에 대한 이해는 우리의
        대북정책 또는 북핵정책에 큰 영향을 미칠 것이다. 사실 현재 북핵에 대한 국내의 논의는 대부분 북핵을 어떻게 정치‧외교적으로
        제거할 것인지에 대한 비핵화문제에 집중된다. 학계에서 북한의 핵무기 사용과 사용위협에 대한 군사안보적 대응에 대한 연구와 논의는
        거의 전무하거나, 매우 초보적인 단계에 머물고 있다고 해도 과언이 아니다.
  - source_sentence: 1960년부터 1970년대 사회주의권은 물론 비사회주의권의 개발도상국을 지원하며 제3세계 리더 역할을  국가는 어디니?
    sentences:
      - >-
        1974년 포르투갈에서부터 시작한 민주화의 제3의 물결은 남유럽과 중남미를 거쳐 아시아, 동유럽, 아프리카 등으로 20여 년 동안
        확산되었다. 1980년대 말 냉전의 해체는 이러한 민주화의 물결이 붕괴한 사회주의 국가들에게도 영향을 미쳐 자본주의를 기반으로 한
        민주주의와 경쟁할 정치체제는 역사상 더 이상 존재하지 않을 것임을 선포하게 했다. 하지만 새로운 세기에 접어들어 모두를 의아하게
        만든 현실은 여전히 지금도 전 세계 절반 이상의 국가들이 민주주의가 아닌 권위주의 체제를 유지하고 있는 것이었다. 권위주의 체제의
        붕괴는 당연히 민주주의 체제의 수립으로 이어질 것이라는 낙관적 사고에 커다란 의구심을 던지게 만든 현실이자, 기존 권위주의 체제가
        붕괴하고 새로이 등장하는 체제가 또 다른 유형의 권위주의일 수 있음을 깨닫게 해준 현실이었다. 대표적으로 사회주의권 붕괴 이후
        동유럽에 등장한 정치체제의 다수는 구 공산당 간부들에 의해 지배되는 새로운 유형의 권위주의 체제이거나 벨라루스, 우즈베키스탄,
        아제르바이잔처럼 사회주의 국가 시절보다 더 폭압적인 독재체제였다.
      - >-
        정부는 성장동력 확충과 사회문제 해결에 필요한 국가 전략기술 분야를 집중적으로 지원하기 위해 「국가전략프로젝트」 사업을 신규로
        추진할 계획이다. 동 사업은 「성장동력 분야」와 「삶의 질 및 국민행복 분야」의 9개 프로젝트로 구성된다. 성장동력 분야는
        자율주행차 ․ 스마트시티 ․ 가상증강현실 ․ 경량소재 ․ 인공지능 등 5개 프로젝트가, 삶의 질 및 국민행복 분야는 미세먼지 ․
        탄소자원화 ․ 정밀의료 ․ 바이오 신약 등 4개 프로젝트가 포함된다. 미래창조과학부는 국가전략프로젝트 사업의 총사업비를 약 1조
        6,000억원으로 예상하고 있다. 2017년 예산안은 300억원이며, 프로젝트별 예산은 7개 부처의 예산안에 편성되어 있다. 9개
        프로젝트 중 예비타당성조사가 진행 중인 5개 프로젝트의 예산은 세부시행계획 수립비용으로 편성하였다.
      - >-
        1960~70년대 중국은 제3세계의 리더로서 특히 아프리카 신생독립국을 포함한 사회주의권은 물론 비사회주의권 개발도상국을
        지원했다. 1960년 최초로 기니에 무이자 차관을 제공했으며 1960년대 후반 탄자니아와 잠비아를 연결하는 철로를 건설하는 등
        제3세계 원조를 위한 물자와 인력을 제공했다, 쿠웨이트, 사우디아라비아, 아랍에미리트 등의 중동 이슬람 국가들은 1970년대
        이후부터 중동 국가 결속을 위한 지역 차원의 지원을 시작했다. 쿠웨이트, 사우디아라비아, 아랍에미리트 등의 중동 이슬람 국가들은
        1970년대 이후부터 중동 국가 결속을 위한 지역 차원의 지원을 시작했다. 1961년 쿠웨이트는 아랍경제개발펀드(The
        Kuwait Fund for Arab Economic Development)를 설립했으며, 1970년 중반 이후
        이슬람개발은행(IsDB: Islamic Development Bank)과 아랍경제개발은행(BADEA: Arab Bank for
        Economic Development in Africa) 등을 운영했다.
  - source_sentence: 실제적 발달 수준과 잠재적 발단 수준 사이를 역동적인 공간으로 이야기하는 영역은 뭐야?
    sentences:
      - >-
        세 번째는 비공식적 및 공식적 지원 관점으로 아동기를 역동적인 관계의 복합체로 인식하며, 역동적인 상호관계는 만족스럽고 성공적인
        아동기에 필수요소이다. 이러한 상호관계의 범위는 아동 양육과 보호의 주 제공자인 부모에서부터 아동 권리를 최종적으로 보장하는
        역할을 하는 국가에까지 이른다. 아동에게 필수적인 지원과 서비스는 가족의 사회 관계망 및 가족과 지역사회를 통한 비공식적 지원이나
        제 3섹터 및 영리 부문 및 국가와 기관들을 통한 공식적 지원으로 전달된다. 비공식적 및 공식적 지원은 아동이 필요로 하고 혜택을
        받을 수 있는 지원과 서비스를 가능하게 하는 전달자 역할을 한다. 이러한 ‘사회적 자본’을 지원하는 것이 국가 아동 전략의 핵심
        주제이다. 이렇게 다양하고 서로 상호작용하는 지원의 원천으로부터 아동은 앞서 말한 9개의 발달 영역에서 성장하기 위한 도움을
        받는다. 모든 아동은 좋은 교육과 양질의 의료 서비스에 대한 접근권 등 기본적인 지원과 서비스를 필요로 한다. 일부 아동은
        빈곤이나 장애, 소수 인종 및 문화 집단, 양육과 보호의 필요성, 비행 및 자해 행동 등을 이유로 추가적인 지원과 서비스를 필요로
        한다.
      - >-
        하브루타에 임하는 학생들의 태도는 다양하다. 기본적인 학습에 대한 참여율에 따라 상당한 차이를 보인다. 앞에서 언급한 인재시교에
        다다를 때까지 기다려주고 관심가져주며, 칭찬과 극려의 말로 지지 할 수 있어야 한다. 비고츠키(Vygotsky)는 근접
        발달영역(the zone of proximal development: ZPD)을“독자적으로 문제를 해결함으로써 결정되는 실제적
        발달 수준과 성인의 안내나 보다 능력 있는 또래들과 협동하여 문제를 해결함으로써 결정되는 잠재적 발달 수준 간의 거리”로
        규정한다. 근접발달 영역(the zone of proximal development)은 실제적 발달
        수준(actualdevelopmental level)과 잠재적 발달수준(potential developmental
        level)사이를 역동적인 공간으로 이야기 한다. 즉 하브루타는 소속한 학습자(친구) 상호작용을 통하여 잠재적
        발달수준(potential developmental level)까지 도달하는 것이다. 이러한 작용에 꼭 필요한 것 중 하나는
        학습자가 수업에 임하는 태도이다. 즉 학습자의 동기부여를 어떻게 불러일으킬 수 있느냐가 관권이다.
      - >-
        KTR이 영국의 CE인증기관인 HPi Verification Service Ltd(이하 HPiVS) 와 협력을 강화하기로 했다.
        최형기 KTR 원장과 Mr. Alasdair Lewis Reay HPiVS 원장은 유럽으로 수출하는 압력플랜트 설비, 용접,
        산업용 기계류에 대한 CE인증업무 협력을 위해 11월 25일 과천청사 5층 아리랑홀에서 협약을 체결했다. KTR은 국내 압력장비
        및 기계류 인증 관련 업계의 인증 수요가 증가함에 따라, 현지 기관과의 업무협력을 강화해 인증사업 체계를 확립하기 위해 협약을
        체결했다. 협약 체결 후 HPiVS는 KTR 과천청사 내 주요 시험실을 견학하며 연구원 현황을 파악하고 KTR과의 사업 협력
        방안에 대해 논의하는 시간을 가졌다. HPiVS는 유럽위원회로부터 인정받은 영국의 유럽 인증기관으로서 플랜트 압력설비, 산업용
        기계류, 레저용 장비, 단순압력장비 4개 제품군의 CE인증 권한을 지니고 있다.
pipeline_tag: sentence-similarity
library_name: sentence-transformers

SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-m3
  • Maximum Sequence Length: 1024 tokens
  • Output Dimensionality: 1024 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 1024, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("seongil-dn/bge-m3-kor-retrieval-451949-bs64-book-50")
# Run inference
sentences = [
    '실제적 발달 수준과 잠재적 발단 수준 사이를 역동적인 공간으로 이야기하는 영역은 뭐야?',
    '하브루타에 임하는 학생들의 태도는 다양하다. 기본적인 학습에 대한 참여율에 따라 상당한 차이를 보인다. 앞에서 언급한 인재시교에 다다를 때까지 기다려주고 관심가져주며, 칭찬과 극려의 말로 지지 할 수 있어야 한다. 비고츠키(Vygotsky)는 근접 발달영역(the zone of proximal development: ZPD)을“독자적으로 문제를 해결함으로써 결정되는 실제적 발달 수준과 성인의 안내나 보다 능력 있는 또래들과 협동하여 문제를 해결함으로써 결정되는 잠재적 발달 수준 간의 거리”로 규정한다. 근접발달 영역(the zone of proximal development)은 실제적 발달 수준(actualdevelopmental level)과 잠재적 발달수준(potential developmental level)사이를 역동적인 공간으로 이야기 한다. 즉 하브루타는 소속한 학습자(친구) 상호작용을 통하여 잠재적 발달수준(potential developmental level)까지 도달하는 것이다. 이러한 작용에 꼭 필요한 것 중 하나는 학습자가 수업에 임하는 태도이다. 즉 학습자의 동기부여를 어떻게 불러일으킬 수 있느냐가 관권이다.',
    '세 번째는 비공식적 및 공식적 지원 관점으로 아동기를 역동적인 관계의 복합체로 인식하며, 역동적인 상호관계는 만족스럽고 성공적인 아동기에 필수요소이다. 이러한 상호관계의 범위는 아동 양육과 보호의 주 제공자인 부모에서부터 아동 권리를 최종적으로 보장하는 역할을 하는 국가에까지 이른다. 아동에게 필수적인 지원과 서비스는 가족의 사회 관계망 및 가족과 지역사회를 통한 비공식적 지원이나 제 3섹터 및 영리 부문 및 국가와 기관들을 통한 공식적 지원으로 전달된다. 비공식적 및 공식적 지원은 아동이 필요로 하고 혜택을 받을 수 있는 지원과 서비스를 가능하게 하는 전달자 역할을 한다. 이러한 ‘사회적 자본’을 지원하는 것이 국가 아동 전략의 핵심 주제이다. 이렇게 다양하고 서로 상호작용하는 지원의 원천으로부터 아동은 앞서 말한 9개의 발달 영역에서 성장하기 위한 도움을 받는다. 모든 아동은 좋은 교육과 양질의 의료 서비스에 대한 접근권 등 기본적인 지원과 서비스를 필요로 한다. 일부 아동은 빈곤이나 장애, 소수 인종 및 문화 집단, 양육과 보호의 필요성, 비행 및 자해 행동 등을 이유로 추가적인 지원과 서비스를 필요로 한다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 64
  • learning_rate: 3e-05
  • num_train_epochs: 1
  • max_steps: 50
  • warmup_ratio: 0.05
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 3e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: 50
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.05
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: True
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
0.0019 1 0.9318
0.0037 2 0.9071
0.0056 3 0.9399
0.0075 4 0.8293
0.0094 5 0.7001
0.0112 6 0.6959
0.0131 7 0.5847
0.0150 8 0.4753
0.0169 9 0.5343
0.0187 10 0.4751
0.0206 11 0.4502
0.0225 12 0.4661
0.0243 13 0.4421
0.0262 14 0.4721
0.0281 15 0.4191
0.0300 16 0.4317
0.0318 17 0.4206
0.0337 18 0.3953
0.0356 19 0.3775
0.0375 20 0.307
0.0393 21 0.3553
0.0412 22 0.3592
0.0431 23 0.341
0.0449 24 0.4565
0.0468 25 0.3349
0.0487 26 0.3669
0.0506 27 0.35
0.0524 28 0.348
0.0543 29 0.3434
0.0562 30 0.3778
0.0581 31 0.3134
0.0599 32 0.3695
0.0618 33 0.3719
0.0637 34 0.3299
0.0655 35 0.3336
0.0674 36 0.3491
0.0693 37 0.3609
0.0712 38 0.2784
0.0730 39 0.3002
0.0749 40 0.3753
0.0768 41 0.26
0.0787 42 0.2543
0.0805 43 0.274
0.0824 44 0.2681
0.0843 45 0.2977
0.0861 46 0.281
0.0880 47 0.2937
0.0899 48 0.2997
0.0918 49 0.3303
0.0936 50 0.2493

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.2.1
  • Transformers: 4.44.2
  • PyTorch: 2.3.1+cu121
  • Accelerate: 1.1.1
  • Datasets: 2.21.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}