SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-m3
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("kgmyh/bge-m3-finetune")
# Run inference
sentences = [
    'AI 기술의 안전성과 보안을 확보하는 방법은 무엇인가요?',
    '11 Ⅰ. ICT 국가 산업 현황\n 3.ICT 주요정책\n  ③ 국가 AI R&D 전략 계획\n 책임 있는 AI R&D 투자를 위한 국가 전략 \n• 2023년 5월 미국 과학기술정책국 (OSTP) 은 책임 있는 AI R&D 투자를 위한 ‘국가 AI R&D \n전략 계획(National AI R&D Strategic Plan)’ 업데이트를 발표함\n• 국가 AI R&D 전략 계획은 9대 전략으로 이루어져 있으며 , 그 내용은 이하와 같음\n① 책임 있는 AI 연구에 대한 장기 투자: AI 분야 글로벌 리더십 확보와 공익에 기여하는 책임 \n있는 혁신을 위해 생성형 AI 등 차세대 AI에 대한 투자를 우선\n② 인간과 AI의 협업을 위한 효과적인 방법 개발: 인간의 능력을 효과적으로 보완하는 AI \n시스템을 만드는 방법에 대한 이해 제고\n③ AI의 윤리적 , 법적, 사회적 영향에 대한 이해 및 대응: AI 시스템이 국가의 가치를 반영하고 \n형평성을 증진할 수 있도록 AI가 초래하는 위험을 이해하고 완화하기 위한 접근법 개발\n④ AI 시스템의 안전과 보안 확보: 신뢰할 수 있으며 안전한 AI 시스템을 설계하는 방법에 대한 \n지식을 발전\n⑤ AI 학습 및 테스트를 위한 공유 공개 데이터와 제반 환경 구축: 고품질 데이터 셋과 환경, \n테스트 및 교육 자원에 대한 접근을 확대\n⑥ 표준과 벤치마크를 통한 AI 시스템 측정 및 평가: AI 권리장전을 위한 청사진과 AI 위험 \n관리 프레임워크에 따라 기술 표준 및 벤치마크를 포함한 광범위한 AI 평가 기법을 개발\n⑦ 국가 AI R&D 인력 수요에 대한 이해 제고: AI 인력을 전략적으로 육성하기 위해 R&D 인력 \n개발 기회를 개선\n⑧ AI 발전 가속화를 위한 공공-민간 파트너십 확대: 학계, 산업계 , 국제 파트너 및 기타 비 \n연방기관과 협력하여 책임 있는 AI R&D에 대한 지속적인 투자와 이를 통한 역량 개발 \n기회를 촉진\n⑨ AI 연구 분야의 국제 협력에 대한 원칙적이고 조율된 접근 방식 확립: 환경적 지속가능성 , \n의료, 제조 등과 같은 글로벌 과제를 해결하기 위해 AI R&D에서 국제 협력을 우선시하여 \n국제 가이드라인 및 표준 개발, 이행을 지원',
    '18 Ⅱ. ICT 이슈 Top10\n ①미국 빅테크 기업, 인공지능 챗봇 개발에 주력\n 구글의 제미나이 (Gemini) AI 챗봇 발전 과정\n• 구글의 대화형 AI 챗봇은 처음에 바드(Bard) 로 알려졌으나 , 보다 고도화된 기능이 더해진 \n제미나이 (Gemini) 로 리브랜딩됨 . 이 전환은 구글이 AI 개발에 대한 입지를 다지는 중요한 \n단계로 , 제미나이는 현재까지 구글의 가장 진보된 대형 언어 모델(LLM) 에 의해 구동됨\n• 제미나이는 출시 이후 처음에는 라엠다 (LaMDA) 의 LLM 경량 모델 버전을 사용하다 PaLM 2로 \n전환하고 , 결국 가장 뛰어난 LLM인 제미나이로 업그레이드를 하며 성능과 기능이 크게 향상됨 . \n이를 통해 제미나이는 구글 렌즈(Google Lens)의 멀티모달 검색과 구글의 이마젠 2(Imagen \n2)를 활용한 이미지 생성 기능 등을 통합하여 높은 수준의 성능을 발휘할 수 있게 됨\n 오픈AI(OpenAI) 의 GPT 시리즈와의 경쟁 구도  \n• 오픈AI의 GPT-4 출시는 AI 산업에서 중요한 이정표를 설정하며 , 미묘한 지시사항을 처리하는 \n것과 같은 AI 모델의 새로운 기준을 제시함 . 이 개발은 오픈AI와 다른 기술 대기업 간의 경쟁을 \n강화하여 대화형 AI가 달성할 수 있는 것과 다양한 분야에의 적용 가능성의 경계를 확장함\n• 훨씬 더 큰 컨텍스트 창을 가진 GPT-4 의 고급 버전인 GPT-4 터보(Turbo) 의 도입은 AI 챗봇 \n산업의 경쟁을 더욱 심화함 . GPT-4 터보는 2023년 4월까지의 지식과 텍스트 -스피치 \n프롬프트와 함께 이미지를 입력으로 받아들일 수 있는 능력을 보여주며 , 오픈AI가 AI 모델의 \n다양성과 적용 가능성을 강화하려는 의지를 드러냄 . 이는 제미나이 AI를 보유한 구글을 포함한 \n다른 회사들이 오픈AI의 혁신에 발맞추기 위해 AI 개발 노력을 가속화 하도록 촉발함\n 미국 내 AI 챗봇 기술의 미래 전망 및 영향  \n• 구글의 제미나이와 오픈AI의 GPT 시리즈와 같은 AI 모델의 발전은 여러 산업 전반에 걸쳐 \n혁신을 주도하고 있으며 , 특히 인간과 유사한 반응을 이해하고 생성하는 능력은 고객 서비스 , \n콘텐츠 생성, 심지어 헬스케어 분야에서 보다 정확하고 효율적인 솔루션을 제공할 것으로 기대됨\n• 이러한 발전은 기술 혁신을 넘어 고용 시장과 경제에까지 영향을 미침. AI 챗봇이 일상에 더욱 \n통합됨에 따라 인간 상호작용에 크게 의존하는 분야에서 직무 변동의 가능성이 있음. 한편 이는 \nAI 개발, 유지보수 및 윤리적 감독 분야에서 새로운 고용 기회를 창출하기도 함. 또한, AI \n챗봇의 사용은 기업의 상당한 비용 절감을 일으켜 경제 성장에 기여할 수 있음. 정책 입안자들은 \nAI 챗봇 기술의 이점과 사회적 함의의 균형을 맞추는 과제에 직면해 있으며 , AI가 인간의 \n능력을 대체하기보다는 강화하는 미래를 보장해야 할 것임',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.88
cosine_accuracy@3 1.0
cosine_accuracy@5 1.0
cosine_accuracy@10 1.0
cosine_precision@1 0.88
cosine_precision@3 0.3333
cosine_precision@5 0.2
cosine_precision@10 0.1
cosine_recall@1 0.88
cosine_recall@3 1.0
cosine_recall@5 1.0
cosine_recall@10 1.0
cosine_ndcg@10 0.9557
cosine_mrr@10 0.94
cosine_map@100 0.94

Training Details

Training Dataset

Unnamed Dataset

  • Size: 120 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 120 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 11 tokens
    • mean: 17.52 tokens
    • max: 28 tokens
    • min: 102 tokens
    • mean: 554.25 tokens
    • max: 819 tokens
  • Samples:
    sentence_0 sentence_1
    1조 달러 클럽 기업에는 어떤 회사들이 포함되나요? 14 Ⅰ. ICT 국가 산업 현황
    5.ICT 주요 기업
    미국 ICT 기업 1위 ‘마이크로소프트 ’
    • 마이크로소프트 (Microsoft) 의 시가총액은 3조 290억 달러(약 4,043 조 7,150 억)로
    애플(Apple) 을 앞지르고 전 세계 시가총액 1위에 등극함
    • 시가총액을 기준으로 애플(Apple) 과 엔비디아 (NVIDIA) 는 미국 주요 ICT 기업에서 각각 2위,
    3위를 차지함
    미국 ‘1조 달러 클럽 기업’, 글로벌 시장 주도
    • 미국 주요 ICT 기업 중 시가총액이 1조 달러(약 1,335 조 원)가 넘는 기업은 6개사임 . ‘1조 달러
    클럽(The Trillion Dollar Club)’ 기업들은 미국과 글로벌 증시를 주도하고 있음
    [표 9] 미국 주요 ICT 기업 TOP10
    순위 기업명 시가총액 (달러) 사업 분야
    ①Microsoft
    (www.microsoft.com)3.029T검색엔진 , 클라우드 솔루션 등 소프트웨어
    및 IT 서비스
    ②Apple
    (www.apple.com)2.801T 기술 하드웨어 및 소프트웨어
    ③NVIDIA
    (www.nvidia.com)1.941T 반도체 , 그래픽 프로세서 및 칩셋
    ④Amazon
    (www.amazon.com)1.798T 전자상거래
    ⑤Alphabet
    (www.alphabet.com)1.701T검색엔진 , 클라우드 솔루션 등 소프트웨어
    및 IT 서비스
    ⑥Meta Platforms
    (meta.com)1.233T소프트웨어 및 IT 서비스 , 인터넷 ,
    메타버스
    ⑦Broadcom
    (www.broadcom.com)597.54B 반도체 , 인프라 소프트웨어
    ⑧Oracle
    (www.oracle.com)306.99B 클라우드 컴퓨팅
    ⑨Salesforce
    (www.salesforce.com)290.17B 클라우드 컴퓨팅
    ⑩AMD
    (www.amd.com)285.25B마이크로프로세서 , 칩셋, 그래픽 칩 및
    SoC(시스템 온 칩) 솔루션
    출처 : Companies Marketcap
    드론 배송 기술 발전이 환경에 미치는 영향은 어떤가요? 21 Ⅱ. ICT 이슈 Top10
    ④미국, 드론 배송 도입 활발
    월마트와 아마존 , 드론 배송 서비스 확대
    • 월마트는 댈러스 -포트워스 (Dallas-Fort Worth, DFW) 지역에서 드론 배송 서비스를 대폭
    확장하고 있으며 , 미국 소매업체 중 가장 큰 드론 배송 네트워크 구축을 목표로 함. 월마트의
    드론 배송 서비스는 DFW 지역 전체 인구의 75%에 해당하는 1,800 만 가구에 서비스를 제공할
    예정이며 , 이 서비스는 고객이 원하는 상품을 몇 분 만에 받아볼 수 있도록 편의성을 극대화함
    • 아마존은 텍사스주 칼리지 스테이션 (College Station) 에서 아마존 약국 고객을 대상으로 드론을
    이용한 처방약 배송 서비스를 시작함 . 이 서비스를 통해 고객은 60분 이내에 500여 가지의
    약품을 배송받을 수 있으며 , 아마존은 드론 배송의 가능성을 넓히고 고객에게 더욱 빠르고
    편리한 서비스를 제공함
    집라인과 윙, 고도의 드론 배송 기술 개발
    • 집라인 (Zipline) 은 차세대 드론 배송 시스템을 공개하며 , 정밀 배송이 가능한 자율주행
    드로이드를 테더로 낮추어 정확한 위치에 물품을 배송함 . 집라인은 이미 아프리카와 호주에서
    성공적인 배송을 수행해왔으며 , 미국 내에서도 이 기술을 통해 더 많은 고객에게 서비스를
    제공할 계획임
    • 윙(Wing) 은 자동화된 윙 배송 네트워크를 발표하였으며 , 이는 우버(Uber) 가 운전자를
    배치하는 것과 유사한 방식으로 드론을 효율적으로 배치하여 물품을 배송함 . 윙의 기술은 배송
    과정을 자동화하고 드론 배송의 효율성과 안전성을 높이는 데 중점을 둠. 윙은 미국 내에서
    드론 배송 서비스를 확장하여 배송 시간을 단축하고 환경에 미치는 영향을 줄이고자 함
    FAA 규제 완화로 드론 배송 시장 전망 밝아
    • 미국 연방항공청 (Federal Aviation Administration, FAA)은 집라인과 같은 기업들에게
    비가시권 드론 운영(Beyond Visual Line of Sigh...
    미국과 싱가포르 간의 기술 파트너십의 주요 목적은 무엇인가요? 24 Ⅱ. ICT 이슈 Top10
    ⑦미국, 기술 교류를 위한 국가 간 협력 활발
    싱가포르와의 전략적 기술 파트너십 강화
    • 로렌스 웡(Lawrence Wong) 싱가포르 부총리의 워싱턴 D.C. 방문을 계기로 , 미국과 싱가포르는
    미-싱가포르 중요 및 신흥 기술(CET) 대화를 시작함 . 대화는 연구, 혁신 및 상업적 관계를
    강화하여 과학적 지식의 국경을 확장하고 번영을 촉진하는 것을 목표로 하며, 인도-태평양 지역,
    특히 아세안 (ASEAN) 파트너에 공공재를 전달하는 데 중점을 두고 주요 신흥기술에 협력하고자 함
    • 기술 파트너십을 확대하고 심화하기 위해 양국은 새로운 양자 이니셔티브를 구축함 . 여기에는
    안전하고 책임있는 AI 공유 원칙을 발전시키는 데 중점을 둔 양자 AI 거버넌스 워킹그룹의
    설립이 포함됨 . 또한, 공동 연구 및 교육 자금 지원을 통한 미국 국립과학재단 (NSF)과 AI
    싱가포르 (AISG) 의 협업은 상호 기술 발전과 안전에 대한 헌신을 강조함
    EU와 사이버 보안 협력 증진
    • 브뤼셀에서 열린 제9차 EU-미국 사이버 대화는 EU와 미국 간의 탄력적인 사이버 보안
    파트너십을 강화하는 중요한 단계임 . 양측은 개방적이고 상호 운용 가능한 인터넷과 사이버
    공간의 안정성에 대해 논의함 . 이 대화는 악화된 글로벌 사이버 위협 환경에 직면한 대서양 간
    협력과 조율을 입증하는 것으로 , 사이버 보안에 대한 EU-미국 간 협력의 심화 필요성을 강조함
    • 사이버 대화 과정에서 유럽연합 사이버보안청 (ENISA) 과 미국 사이버보안 및 인프라 보안청
    (CISA) 은 인식과 훈련, 우수 사례 교환, 공동 상황 인식을 위한 지식 공유 등을 주제로 워킹
    어레인지먼트를 공식화함 . 양국은 글로벌하고 개방적이며 안전한 사이버 공간을 추진하기 위한
    우선순위를 정하면서 , 사이버보안 표준과 관행을 발전시키기 위해 협력하기로 함
    영국과 AI 안전 협력 파트너십 발표
    • 런던과 워싱턴은 미 백악관이 인공지능 개발에 배치한 새로운 가드...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 10
  • per_device_eval_batch_size: 10
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 10
  • per_device_eval_batch_size: 10
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step cosine_ndcg@10
1.0 12 0.9631
2.0 24 0.9557
3.0 36 0.9557

Framework Versions

  • Python: 3.11.10
  • Sentence Transformers: 3.4.1
  • Transformers: 4.51.3
  • PyTorch: 2.4.1+cu124
  • Accelerate: 1.6.0
  • Datasets: 3.5.0
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
8
Safetensors
Model size
568M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for kgmyh/bge-m3-finetune

Base model

BAAI/bge-m3
Finetuned
(264)
this model

Evaluation results