Spaces:

omar0scarf
/

arabic-analyzer

Runtime error

omar0scarf commited on Jan 18

Commit

6948096

1 Parent(s): 164603c

تحديث الكود لتبسيط معالجة النصوص

Files changed (2) hide show

app.py CHANGED Viewed

@@ -8,7 +8,6 @@ from transformers import (
 )
 from datasets import load_dataset
 import numpy as np
-from arabert.preprocess import ArabertPreprocessor
 import re
 import os
@@ -25,7 +24,6 @@ sentiment_model_name = "CAMeL-Lab/bert-base-arabic-camelbert-msa"
 # تهيئة المعالجات
 tokenizer = AutoTokenizer.from_pretrained(base_model_name, use_auth_token=HF_TOKEN)
 model = AutoModelForCausalLM.from_pretrained(base_model_name, use_auth_token=HF_TOKEN)
-arabert_prep = ArabertPreprocessor(model_name="aubmindlab/bert-base-arabertv2")
 # إعداد معالجات النصوص
 text_generator = pipeline(
@@ -45,11 +43,16 @@ sentiment_analyzer = pipeline(
 def clean_arabic_text(text):
     # إزالة الأسطر الجديدة والمسافات الزائدة
     text = ' '.join(text.split())
-    # معالجة النص باستخدام ArabertPreprocessor
-    text = arabert_prep.preprocess(text)
     # إزالة الرموز غير المرغوب فيها
     text = re.sub(r'[^\u0600-\u06FF\s]', ' ', text)
-    return text
 def analyze_sentiment(text):
     try:
@@ -180,4 +183,4 @@ demo = gr.Interface(
 # تشغيل الواجهة
 if __name__ == "__main__":
     print("جاري تشغيل النموذج...")
-    demo.launch(share=True)

 )
 from datasets import load_dataset
 import numpy as np
 import re
 import os
 # تهيئة المعالجات
 tokenizer = AutoTokenizer.from_pretrained(base_model_name, use_auth_token=HF_TOKEN)
 model = AutoModelForCausalLM.from_pretrained(base_model_name, use_auth_token=HF_TOKEN)
 # إعداد معالجات النصوص
 text_generator = pipeline(
 def clean_arabic_text(text):
     # إزالة الأسطر الجديدة والمسافات الزائدة
     text = ' '.join(text.split())
+    # إزالة التشكيل
+    text = re.sub(r'[\u064B-\u065F\u0670]', '', text)
     # إزالة الرموز غير المرغوب فيها
     text = re.sub(r'[^\u0600-\u06FF\s]', ' ', text)
+    # توحيد الألف والياء
+    text = re.sub('[إأآا]', 'ا', text)
+    text = re.sub('[ىي]', 'ي', text)
+    # إزالة التكرار
+    text = re.sub(r'(.)\1+', r'\1', text)
+    return text.strip()
 def analyze_sentiment(text):
     try:
 # تشغيل الواجهة
 if __name__ == "__main__":
     print("جاري تشغيل النموذج...")
+    demo.launch()

requirements.txt CHANGED Viewed

@@ -1,8 +1,7 @@
-transformers==4.30.2
-torch==2.0.1
-gradio==3.35.2
-datasets==2.13.0
 scikit-learn==1.2.2
-numpy==1.24.3
-arabert==1.0.1
-regex==2023.5.5

+transformers==4.35.2
+torch==2.1.1
+gradio==4.7.1
+datasets==2.15.0
 scikit-learn==1.2.2
+numpy==1.26.2
+regex==2023.10.3