singletongue commited on
Commit
a3c6550
·
verified ·
1 Parent(s): fd70e43

Enable truncation in tokenization

Browse files
Files changed (1) hide show
  1. app.py +4 -5
app.py CHANGED
@@ -160,13 +160,13 @@ def get_topk_entities_from_texts(
160
  for text in texts:
161
  text = normalize_text(text).strip()
162
 
163
- tokenized_examples = tokenizer(text, return_tensors="pt")
164
  model_outputs = model(**tokenized_examples)
165
  token_spans = get_token_spans(tokenizer, text)
166
  entity_spans = get_predicted_entity_spans(model_outputs.ner_logits[0], token_spans, entity_span_sensitivity)
167
  batch_entity_spans.append(entity_spans)
168
 
169
- tokenized_examples = tokenizer(text, entity_spans=entity_spans or None, return_tensors="pt")
170
  model_outputs = model(**tokenized_examples)
171
 
172
  if model_outputs.topic_entity_logits is not None:
@@ -258,7 +258,7 @@ def replace_entities(
258
  normal_entity_counts[entity] = 1
259
 
260
  for entity, text in new_entity_text_pairs:
261
- tokenized_inputs = tokenizer(text[:MAX_TEXT_LENGTH], return_tensors="pt")
262
  model_outputs = model(**tokenized_inputs)
263
  entity_embedding = model.entity_predictions.transform(model_outputs.last_hidden_state[:, 0])[0]
264
  if entity.startswith(CATEGORY_ENTITY_PREFIX):
@@ -368,7 +368,6 @@ with gr.Blocks() as demo:
368
  gr.Markdown(
369
  """Studio Ousia で開発中の次世代知識強化言語モデル **LUXE** の動作デモです。
370
  入力されたテキストに対して、テキスト中に出現するエンティティ(事物)と、テキスト全体の主題となるエンティティおよびカテゴリを予測します。
371
-
372
  デフォルトのLUXEは、エンティティおよびカテゴリとして、それぞれ日本語 Wikipedia における被リンク数上位50万件および10万件の項目を使用しています。
373
  予測対象のエンティティを任意のものに置き換えて推論を行うことも可能です(下記「LUXE のエンティティ語彙を置き換える」を参照してください)。""",
374
  line_breaks=True,
@@ -430,7 +429,7 @@ with gr.Blocks() as demo:
430
  line_breaks=True,
431
  )
432
  gr.Markdown(
433
- f"「エンティティ」と「エンティティの説明文」の2列からなる CSV ファイル(最大{MAX_ENTITY_FILE_LINES}行)をアップロードできます。"
434
  )
435
  new_entity_text_pairs_file = gr.File(label="エンティティと説明文の CSV ファイル", height="128px")
436
  gr.Markdown("CSV ファイルから読み込まれた項目が以下の表に表示されます。表の内容を直接編集することも可能です。")
 
160
  for text in texts:
161
  text = normalize_text(text).strip()
162
 
163
+ tokenized_examples = tokenizer(text, truncation=True, return_tensors="pt")
164
  model_outputs = model(**tokenized_examples)
165
  token_spans = get_token_spans(tokenizer, text)
166
  entity_spans = get_predicted_entity_spans(model_outputs.ner_logits[0], token_spans, entity_span_sensitivity)
167
  batch_entity_spans.append(entity_spans)
168
 
169
+ tokenized_examples = tokenizer(text, entity_spans=entity_spans or None, truncation=True, return_tensors="pt")
170
  model_outputs = model(**tokenized_examples)
171
 
172
  if model_outputs.topic_entity_logits is not None:
 
258
  normal_entity_counts[entity] = 1
259
 
260
  for entity, text in new_entity_text_pairs:
261
+ tokenized_inputs = tokenizer(text[:MAX_TEXT_LENGTH], truncation=True, return_tensors="pt")
262
  model_outputs = model(**tokenized_inputs)
263
  entity_embedding = model.entity_predictions.transform(model_outputs.last_hidden_state[:, 0])[0]
264
  if entity.startswith(CATEGORY_ENTITY_PREFIX):
 
368
  gr.Markdown(
369
  """Studio Ousia で開発中の次世代知識強化言語モデル **LUXE** の動作デモです。
370
  入力されたテキストに対して、テキスト中に出現するエンティティ(事物)と、テキスト全体の主題となるエンティティおよびカテゴリを予測します。
 
371
  デフォルトのLUXEは、エンティティおよびカテゴリとして、それぞれ日本語 Wikipedia における被リンク数上位50万件および10万件の項目を使用しています。
372
  予測対象のエンティティを任意のものに置き換えて推論を行うことも可能です(下記「LUXE のエンティティ語彙を置き換える」を参照してください)。""",
373
  line_breaks=True,
 
429
  line_breaks=True,
430
  )
431
  gr.Markdown(
432
+ f"「エンティティ」と「エンティティの説明文(最大{MAX_TEXT_LENGTH}文字)」の2列からなる CSV ファイル(最大{MAX_ENTITY_FILE_LINES}行)をアップロードできます。"
433
  )
434
  new_entity_text_pairs_file = gr.File(label="エンティティと説明文の CSV ファイル", height="128px")
435
  gr.Markdown("CSV ファイルから読み込まれた項目が以下の表に表示されます。表の内容を直接編集することも可能です。")