Spaces:

DaOppaiLoli
/

JpVocab

Sleeping

App Files Files Community

JpVocab / utils.py

penut85420

generate vocab text

4da4b61 about 1 month ago

raw

history blame contribute delete

5.01 kB

	import json
	import os
	from concurrent.futures import ThreadPoolExecutor

	import fire
	from gtts import gTTS
	from tqdm import tqdm


	def update_vocab(vocab_path="data/vocab.json"):
	compact_json(vocab_path)
	generate_tts(vocab_path)
	conv_to_text(vocab_path)


	def compact_json(
	src_path="data/vocab.json",
	dst_path=None,
	group_size=10,
	ensure_ascii=False,
	indent=2,
	):
	dst_path = dst_path or src_path

	with open(src_path, "rt", encoding="UTF-8") as fp:
	data = json.load(fp)

	data = [item for group in data for item in group]
	data = [data[i : i + group_size] for i in range(0, len(data), group_size)]

	with open(dst_path, "wt", encoding="UTF-8") as fp:
	json.dump(data, fp, cls=CompactEncoder, ensure_ascii=ensure_ascii, indent=indent)

	print(f"output: {dst_path}")


	class CompactEncoder(json.JSONEncoder):
	CONTAINER_TYPES = (list, tuple, dict)
	MAX_WIDTH = 100
	MAX_ITEMS = 10

	def __init__(self, args, *kwargs):
	if kwargs.get("indent") is None:
	kwargs["indent"] = 4
	super().__init__(args, *kwargs)
	self.indentation_level = 0

	def encode(self, o):
	if isinstance(o, (list, tuple)):
	return self._encode_list(o)
	if isinstance(o, dict):
	return self._encode_object(o)
	if isinstance(o, float):
	return format(o, "g")
	return json.dumps(
	o,
	skipkeys=self.skipkeys,
	ensure_ascii=self.ensure_ascii,
	check_circular=self.check_circular,
	allow_nan=self.allow_nan,
	sort_keys=self.sort_keys,
	indent=self.indent,
	separators=(self.item_separator, self.key_separator),
	default=self.default if hasattr(self, "default") else None,
	)

	def _encode_list(self, o):
	if self._single_line(o):
	return "[" + ", ".join(self.encode(el) for el in o) + "]"
	self.indentation_level += 1
	output = [self.indent_str + self.encode(el) for el in o]
	self.indentation_level -= 1
	return "[\n" + ",\n".join(output) + "\n" + self.indent_str + "]"

	def _encode_object(self, o):
	if not o:
	return "{}"

	o = {str(k) if k is not None else "null": v for k, v in o.items()}

	if self.sort_keys:
	o = dict(sorted(o.items(), key=lambda x: x[0]))

	if self._single_line(o):
	return "{" + ", ".join(f"{self._create_kv(k,v)}" for k, v in o.items()) + "}"

	self.indentation_level += 1
	output = [f"{self.indent_str}{self._create_kv(k,v)}" for k, v in o.items()]
	self.indentation_level -= 1

	return "{\n" + ",\n".join(output) + "\n" + self.indent_str + "}"

	def _create_kv(self, k, v):
	return f"{json.dumps(k)}: {self.encode(v)}"

	def iterencode(self, o, **_):
	return self.encode(o)

	def _single_line(self, o):
	return (
	self._primitives_only(o)
	and len(o) <= self.MAX_ITEMS
	and len(str(o)) - 2 <= self.MAX_WIDTH
	)

	def _primitives_only(self, o: list \| tuple \| dict):
	if isinstance(o, (list, tuple)):
	return not any(isinstance(el, self.CONTAINER_TYPES) for el in o)
	elif isinstance(o, dict):
	return not any(isinstance(el, self.CONTAINER_TYPES) for el in o.values())

	@property
	def indent_str(self) -> str:
	if isinstance(self.indent, int):
	return " " * (self.indentation_level * self.indent)
	elif isinstance(self.indent, str):
	return self.indentation_level * self.indent
	else:
	raise ValueError(f"indent must either be of type int or str (is: {type(self.indent)})")


	def generate_tts(src_path="data/vocab.json", output_dir="data/tts"):
	os.makedirs(output_dir, exist_ok=True)
	data = load_json(src_path)
	text_list = [item["kana"] for item_list in data for item in item_list]

	def generate_tts_worker(text):
	fp = os.path.join(output_dir, f"{text}.mp3")
	if os.path.exists(fp):
	return
	gTTS(text=text, lang="ja").save(fp)

	with tqdm(total=len(text_list), desc="generating tts") as pbar:
	with ThreadPoolExecutor() as executor:
	for _ in executor.map(generate_tts_worker, text_list):
	pbar.update(1)


	def conv_to_text(vocab_path, dst_path="data/vocab.txt"):
	vocab_list = load_json(vocab_path)

	lines = list()
	for group in vocab_list:
	for v in group:
	t = [t for t in (v["kana"], v["kanji"], v["meaning"]) if t]
	lines.append(" ".join(t))
	lines.append("")

	with open(dst_path, "wt", encoding="UTF-8") as fp:
	fp.write("\n".join(lines))


	def load_json(path):
	with open(path, "rt", encoding="UTF-8") as fp:
	return json.load(fp)


	if __name__ == "__main__":
	fire_map = dict(update=update_vocab, compact=compact_json, tts=generate_tts)
	fire.Fire(fire_map)