RUNorm - это библиотека для нормализации русского текста, написанная на языке Python. Она предназначена для подготовки текст перед синтезом речи.
- Нормализация чисел: преобразование числовых значений в текстовую форму.
- Нормализация сокращений: расшифровка и замена сокращений полными формами.
- Кириллизация: преобразование латинских символов в соответствующие кириллические.
- Озвучка аббревиатур: конвертирует аббревиатуру в побуквенный вариант. (GPT -> джи пи ти)
pip install runorm
Пример использования RUNorm:
from runorm import RUNorm
# Используйте load(workdir="./local_cache") для кэширования моделей в указанной папке.
# Доступные модели: small, medium, big
# Выбирайте устройство используемое pytorch с помощью переменной device
normalizer = RUNorm()
normalizer.load(model_size="small", device="cpu")
while True:
text = input(":> ")
normalized_text = normalizer.norm(text)
print(">>>", normalized_text)RUNorm предоставляет несколько предобученных моделей разного размера:
small: маленькая модель для быстрой нормализации. Охватывает самые популярные кейсы. Базируется на FRED-T5-95Mmedium: средняя модель для баланса между скоростью и качеством. Базируется на ruT5-base (222M)big: большая модель для лучшего качества нормализации. Базируется на FRED-T5-Large (860M)
Вы можете выбрать подходящую модель при вызове метода load().
Этот проект распространяется под лицензией Apache2.0 License.
Если у вас есть вопросы или предложения, пожалуйста, свяжитесь с автором проекта:
Будем рады вашим отзывам и сотрудничеству!
Вы можете поддержать проект деньгами. Это поможет быстрее разрабатывать более качественные новые версии. CloudTips: https://pay.cloudtips.ru/p/b9d86686