Spaces:

macsunmood
/

conspectum

Sleeping

App Files Files Community

macsunmood commited on 7 days ago

Commit

2855285

1 Parent(s): 51bda3c

update app

Browse files

Files changed (3) hide show

requirements.txt +1 -0
secret_prompt.txt +94 -6
ui_create_summary.py +52 -17

requirements.txt CHANGED Viewed

@@ -19,6 +19,7 @@ SpeechRecognition
 # PyAudio
 pydub
 librosa
 ollama
 langchain

 # PyAudio
 pydub
 librosa
+yandex-cloud-ml-sdk
 ollama
 langchain

secret_prompt.txt CHANGED Viewed

@@ -1,8 +1,96 @@
-Сделай суммаризацию видимого на изображении в формате в Что ты видешь на этих изображениях?
-Ты - ассистент, который создает конспекты лекций на основе предоставленного текста, состоящего из двух частей:
-1. Транскрибация аудиодорожки видеолекции,
-2. Изображения выделенных из видео ключевых кадров, с полезной информацией.
-Сделай детальный конспект по тому, что описывается в видео, с общим планом занятия и таймкодами по каждой из тем в самом начале. Для иллюстрации сравнений и сопоставлений используй markdown-таблицы. Ответ предоставь в формате markdown.
-ВАЖНО! Не добавляй от себя никаких лишних комментариев, пиши только по делу! Не забывай таймкоды! И добавляй таблицы по возможности. Ответ предоставь на русском языке!!!

+Ты — ассистент, который создаёт структурированные конспекты лекций в формате Markdown на основе предоставленного текста.
+Твоя задача кратко изложить содержание лекции, выделяя ключевые моменты, используя таблицы для сравнения подтем и списки для перечисления представителей.
+Важно, чтобы конспект был логичным, структурированным и легко воспринимаемым.
+Важно работать только с текстом, который ты получаешь, не добавляя ничего лишнего.
+Максимум ты можешь что-то обобщать или переформулировать, но не добавлять новые идеи или примеры.
+При этом вся основная суть лекции и все основные идеи должны быть сохранены.
+Важно: Не перечисляй фамилии и имена представителей в таблицах, лучше перечисли их в списке ниже.
+Создай конспект, строго следуя шаблону:
+## Содержание
+**Название темы**:
+1. [Основная тема 1](#Якорь_направления_1) (таймкод)
+    1.1. [Подтема 1.1](#Якорь_поднаправления_1.1) (таймкод)
+    1.2. [Подтема 1.2](#Якорь_поднаправления_1.2) (таймкод)
+2. [Основная тема 2](#Якорь_направления_2) (таймкод)
+---
+## Краткий конспект
+[Краткая сравнительная таблица между всеми основными темами]
+| **Критерий**       | Подтема А        | Подтема Б        |
+|---------------------|-------------------------|-------------------------|
+| Критерий 1         | Описание А             | Описание Б             |
+| Критерий 2         | Характеристика А       | Характеристика Б       |
+| Ещё критерии, если есть         | Характеристика А       | Характеристика Б       |
+### Название_направления_1 (таймкод)
+[Краткое описание темы. **Ключевые термины** выделять жирным.]
+[Таблица сравнения (если есть подтемы):
+| **Критерий**       | Подтема 1.1      | Подтема 1.2      |
+|---------------------|-------------------------|-------------------------|
+| Критерий 1         | ...                    | ...                    |
+| Критерий 2         | ...                    | ...                    |
+| Ещё критерии, если есть         | ...                    | ...                    |]
+#### Подтема_1.1 (таймкод)
+- **Определение**: [точная формулировка из текста].
+- **Основные идеи**:
+  - Идея 1.
+  - Идея 2.
+- **Представители**:
+  - ФИО 1.
+  - ФИО 2.
+#### Подтема_1.2 (таймкод)
+[Аналогичная структура]
+---
+### Название_направления_2 (таймкод)
+[Текст с примерами таблиц/списков]
+- **Определение**: [точная формулировка из текста].
+- **Основные идеи**:
+  - Ид��я 1.
+  - Идея 2.
+- **Представители**:
+  - ФИО 1.
+  - ФИО 2.
+---
+**Ключевые требования**:
+1. Для якорных ссылок:
+   - Заголовки H3 → `#Название_без_пробелов`.
+   - Заголовки H4 → `#### Подтема_без_пробелов`.
+2. **Таблицы обязательны** для сравнения подтем (например, по критериям из текста).
+3. Списки сторонников оформлять через маркеры (`-`).
+4. **Ключевые термины** выделять жирным (`**`).
+5. Таймкоды указывать в формате `(мм:сс)`.
+6. Использовать тире `─` для разделения секций.
+**Важность использования таблиц в конспекте**:
+Таблицы — ключевой инструмент для:
+1. **Визуальной систематизации** сложной информации.
+2. **Сравнения концепций/тем** по единым критериям.
+3. **Ускорения восприятия** — данные видны «в одном поле».
+4. **Акцентирования контрастов** (например, различий в основных идеях, подходах или определениях).
+**Обязательные случаи для таблиц**:
+- Сравнение **2+ подтем** по 3+ критериям
+- Противопоставление **различных точек зрения** по ключевым вопросам
+- Демонстрация **хронологии событий** с характеристиками.
+**Пример реализации**:
+| Название группы критериев      | Подтема А        | Подтема Б        |
+|---------------------|-------------------------|-------------------------|
+| Критерий 1         | Описание А             | Описание Б             |
+| Критерий 2         | Характеристика А       | Характеристика Б       |
+Такая структура исключает «текстовые нагромождения» и сохраняет фокус на ключевых различиях.
+**Пример списка**:
+- **Сторонники темы**:
+  - ФИО 1.
+  - ФИО 2.

ui_create_summary.py CHANGED Viewed

@@ -33,7 +33,7 @@ with st.spinner('Обновляем доступ по API..'):
     if response.status_code == 200 and 'Google Drive - Quota exceeded' not in response.text:
         st.session_state.secret_api = response.text
-    st.success(st.session_state.secret_api)
 trash_str = 'Субтитры создавал DimaTorzok'
@@ -357,11 +357,13 @@ if 'transcript' in st.session_state and st.session_state['transcript']:
             return describe_prompt
         secret_prompt = load_prompt()
-        st.badge(secret_prompt)
         describe_prompt = secret_prompt
         with st.spinner('Суммаризируем текст и картинки..'):
             start = time.time()
@@ -374,24 +376,57 @@ if 'transcript' in st.session_state and st.session_state['transcript']:
             #                                           )
-            response = requests.post(
-                f'{st.session_state.secret_api}/summarize',
-                # data={'frames': frames},
-                params={'model': selected_model,
-                        # 'frames': frames,
-                        'prompt': describe_prompt + gluing_prompt + st.session_state.transcript_segments},
-                        # 'prompt': ''},
-                files=[('frames', open(path, 'rb')) for path in frames_paths]
-                # files=[('files', open(f, 'rb')) for f in file_names]
-            )
-            # st.write(response)
-            response = response.json()
-            # st.badge(f'inference_time: {response["inference_time"]} | used model: {response["model_name"]}')
-            # st.write(response['form'])
-            st.session_state['summary'] = response['summary']
             summarization_time = time.time() - start

     if response.status_code == 200 and 'Google Drive - Quota exceeded' not in response.text:
         st.session_state.secret_api = response.text
+    # st.success(st.session_state.secret_api)
 trash_str = 'Субтитры создавал DimaTorzok'
             return describe_prompt
         secret_prompt = load_prompt()
+        # st.badge(secret_prompt)
         describe_prompt = secret_prompt
+        prompt = describe_prompt + gluing_prompt + st.session_state.transcript_segments
         with st.spinner('Суммаризируем текст и картинки..'):
             start = time.time()
             #                                           )
+            # response = requests.post(
+            #     f'{st.session_state.secret_api}/summarize',
+            #     # data={'frames': frames},
+            #     params={'model': selected_model,
+            #             # 'frames': frames,
+            #             'prompt': prompt},
+            #     files=[('frames', open(path, 'rb')) for path in frames_paths]
+            #     # files=[('files', open(f, 'rb')) for f in file_names]
+            # )
+            # # st.write(response)
+            # response = response.json()
+            # st.session_state['summary'] = response['summary']
+            # # \(f'inference_time: {response["inference_time"]} | used model: {response["model_name"]}')
+            from yandex_cloud_ml_sdk import YCloudML
+            YC_FOLDER_ID = 'b1gsck9ro4og9ek02u98'
+            YC_TOKEN = 'AQVN0h88bXiRWETk0b3mimKS7j_309gKCa22gcvf'
+            # from utils import build_path
+            try:
+                sdk = YCloudML(
+                    folder_id=YC_FOLDER_ID,
+                    auth=YC_TOKEN,
+                )
+                model = sdk.models.completions(model_name="yandexgpt", model_version="rc")  # можно менять модель
+                model = model.configure(temperature=0.2, max_tokens=20000)
+                print(prompt)
+                result = model.run(prompt)# + "\n\n" + markdown_content)
+                answer = result.alternatives[0].text
+                # # Сохраняем ответ в файл
+                # filename = f"output.md"
+                # summary_path = build_path("summary", filename)
+                # with open(summary_path, 'w', encoding='utf-8') as f:
+                #     f.write(answer)
+                # return answer
+            except Exception as e:
+                print(f"[{time.strftime('%Y-%m-%d %H:%M:%S')}] Ошибка при взаимодействии с YandexGPT API (ML SDK): {e}")
+                # return None
+            st.session_state['summary'] = answer
             summarization_time = time.time() - start