Spaces:

Lifeinhockey
/

Diffusion_Models

Running

App Files Files Community

Lifeinhockey commited on 30 days ago

Commit

7fffac3

verified ·

1 Parent(s): 478358d

Delete Transaction_Error_LSTM_LSTM_weight_Raznost_steps_per_epoch.py

Browse files

Files changed (1) hide show

Transaction_Error_LSTM_LSTM_weight_Raznost_steps_per_epoch.py +0 -577

Transaction_Error_LSTM_LSTM_weight_Raznost_steps_per_epoch.py DELETED Viewed

@@ -1,577 +0,0 @@
-# Модель связывает характер расстановки параметров управления трназакциями по публичным методам маркированных классов (архитектурно значимых)
-# с количеством фиксируемых ошибок в работе кода.
-# На базе LSTM + LSTM + sample_weight, веса разности целевых значений и суммы параметров с нормированием суммой всех параметров
-# steps_per_epoch = 2000
-# импорт библиотек
-import os
-import warnings
-warnings.filterwarnings(action='ignore')
-import pickle
-import pandas as pd
-import numpy as np
-import copy
-from sklearn.model_selection import cross_validate
-from sklearn.base import BaseEstimator, TransformerMixin
-from sklearn.utils import check_array
-from sklearn.impute import SimpleImputer
-from sklearn.feature_selection import SelectFwe, f_regression, VarianceThreshold
-from sklearn.cluster import FeatureAgglomeration
-from sklearn.linear_model import LassoLarsCV, LassoCV
-from sklearn.decomposition import PCA
-from sklearn.ensemble import ExtraTreesRegressor
-from sklearn.pipeline import Pipeline
-from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error
-from sklearn.ensemble import RandomForestRegressor
-from sklearn.ensemble import GradientBoostingRegressor
-from sklearn.ensemble import HistGradientBoostingRegressor
-from sklearn.ensemble import StackingRegressor
-from sklearn.linear_model import RidgeCV
-from sklearn.svm import LinearSVR
-from sklearn.linear_model import LinearRegression
-from sklearn.ensemble import VotingRegressor
-from sklearn.neighbors import KNeighborsRegressor
-from sklearn import preprocessing
-from sklearn import utils
-from sklearn.naive_bayes import GaussianNB
-from sklearn.linear_model import LogisticRegression
-from sklearn.tree import DecisionTreeClassifier
-from sklearn.ensemble import RandomForestClassifier
-from sklearn.neighbors import KNeighborsClassifier
-import tensorflow as tf
-import tensorflow_hub as hub
-import tensorflow_datasets as tfds
-from tensorflow import keras
-from tensorflow.keras import layers
-import matplotlib.pyplot as plt
-#from keras.utils.vis_utils import plot_model
-from keras.utils import plot_model
-import math as mt
-import array
-from tensorflow.python.framework import ops
-import urllib.request as request
-from sklearn import preprocessing
-from sklearn.preprocessing import MinMaxScaler # Масштабирование данных в заданном диапазоне
-# Монтаж Google Диска
-from google.colab import drive
-drive.mount('/content/drive')
-# Параметры модели ------------------------------------------------------------------------------
-num_increment_cycles = 0 # 20 Количество циклов увеличения данных
-SKO_random_normal = 0 #5 # СКО нормального распределения при расширении исходного датасета
-model_name = 'Model_Transaction_Error.keras' # Имя файла модели
-img_file = 'Structure_model.png' # Имя файла структуры модели
-inp_file = 'inp_monitoring-dataset.xlsx' # Имя файла с входными данными для прогноза
-K_input_output = 1 # 0.5 # Коэфф. учёта входных сигналов на выходе модели
-kernel_size_ID = 4 # Окно свёртки
-LSTM_units_ID = 150
-mlp_dropout_ID = 0.3
-epochs_ID = 1000
-batch_size_ID = 100
-steps_per_epoch_ID = 2000
-Dobavka = 0
-# -----------------------------------------------------------------------------------------------
-# версии библиотек
-import sklearn
-import pandas
-import numpy
-import tensorflow
-print(f'{sklearn.__version__=}')
-print(f'{pandas.__version__=}')
-print(f'{numpy.__version__=}')
-print(f'{tensorflow.__version__=}')
-from google.colab import files
-#uploaded = files.upload() # Загрузка файла с компьютера
-# Вспомогательные функции и классы
-def evaluate_pipe_cv(model, X, y):
-    cvs = cross_validate(
-        model,
-        X,
-        y,
-        scoring=('r2', 'neg_mean_squared_error'),
-    )
-    r2_res = cvs['test_r2']
-    rmse_res = cvs['test_neg_mean_squared_error']
-    r2_mean = r2_res.mean()
-    r2_std = r2_res.std()
-    rmse_mean = np.mean([(np.abs(x)) ** 0.5 for x in rmse_res])
-    rmse_std = np.std([(np.abs(x)) ** 0.5 for x in rmse_res])
-    print(
-          f'r2 = {r2_mean:.3f} +/- {r2_std:.3f}\n'
-          f'rmse = {rmse_mean:.3f} +/- {rmse_std:.3f}'
-         )
-class ZeroCount(BaseEstimator, TransformerMixin):
-    def fit(self, X, y=None):
-        return self
-    def transform(self, X, y=None):
-        X = check_array(X)
-        n_features = X.shape[1]
-        X_transformed = np.copy(X)
-        non_zero_vector = np.count_nonzero(X_transformed, axis=1)
-        non_zero = np.reshape(non_zero_vector, (-1, 1))
-        zero_col = np.reshape(n_features - non_zero_vector, (-1, 1))
-        X_transformed = np.hstack((non_zero, X_transformed))
-        X_transformed = np.hstack((zero_col, X_transformed))
-#        print()
-#        print('X_transformed = ', X_transformed.shape)#,'\n')
-#        print(X_transformed)
-        return X_transformed
-class StackingEstimator(BaseEstimator, TransformerMixin):
-    def __init__(self, estimator):
-        self.estimator = estimator
-    def fit(self, X, y=None, **fit_params):
-        self.estimator.fit(X, y, **fit_params)
-        return self
-    def transform(self, X):
-        X = check_array(X)
-        X_transformed = np.copy(X)
-        X_transformed = np.hstack(
-            (np.reshape(self.estimator.predict(X), (-1, 1)), X_transformed)
-        )
-#        print()
-#        print('X_transformed = ', X_transformed.shape)#,'\n')
-#        print(X_transformed)
-        return X_transformed
-def print_result_regression(y_true, y_pred):
-    r2 = r2_score(y_true, y_pred)
-    mae = mean_absolute_error(y_true, y_pred)
-    rmse = mean_squared_error(y_true, y_pred)**0.5
-    print(f'''
-r2:   {r2:.4f}
-mae:  {mae:.4f}
-rmse: {rmse:.4f}
-     ''')
-    return f'{r2:.4f}',f'{mae:.4f}',f'{rmse:.4f}'
-# используемые признаки
-#cat_features = [
-#    'StendName',
-#    #'OpenedCount',
-#    #'AllReopenedCount',
-#    #'linksSum',
-#    #'TermTimeMax',
-#    #'TermTimeMin',
-#    'bitbucketRepo_name',
-#    'jira_key',
-#    'bb_key',
-#]
-# cat_features = [
-#     'projectKey',
-#     #'_class',
-#     #'_id',
-# ]
-target = 'openedCount'
-num_features = [
-    'markers.TX_METHOD_COMPONENT',
-    'markers.TX_METHOD_COMPONENT_LACK',
-    'markers.TX_METHOD_CONTROLLER',
-    'markers.TX_METHOD_CONTROLLER_LACK',
-    'markers.TX_METHOD_CONTROLLER_DELETE',
-    'markers.TX_METHOD_CONTROLLER_DELETE_LACK',
-    'markers.TX_METHOD_CONTROLLER_GET',
-    'markers.TX_METHOD_CONTROLLER_GET_LACK',
-    'markers.TX_METHOD_CONTROLLER_PUTPOSTPATCH',
-    'markers.TX_METHOD_CONTROLLER_PUTPOSTPATCH_LACK',
-    'markers.TX_METHOD_DEFAULT',
-    'markers.TX_METHOD_DEFAULT_LACK',
-    'markers.TX_METHOD_MANDATORY',
-    'markers.TX_METHOD_MANDATORY_LACK',
-    'markers.TX_METHOD_NESTED',
-    'markers.TX_METHOD_NESTED_LACK',
-    'markers.TX_METHOD_NEVER',
-    'markers.TX_METHOD_NEVER_LACK',
-    'markers.TX_METHOD_NOT_SUPPORTED',
-    'markers.TX_METHOD_NOT_SUPPORTED_LACK',
-    'markers.TX_METHOD_READ_COMMITTED',
-    'markers.TX_METHOD_READ_COMMITTED_LACK',
-    'markers.TX_METHOD_READ_UNCOMMITTED',
-    'markers.TX_METHOD_READ_UNCOMMITTED_LACK',
-    'markers.TX_METHOD_REPEATABLE_READ',
-    'markers.TX_METHOD_REPEATABLE_READ_LACK',
-    'markers.TX_METHOD_REPOSITORY',
-    'markers.TX_METHOD_REPOSITORY_LACK',
-    'markers.TX_METHOD_REQUIRED',
-    'markers.TX_METHOD_REQUIRED_LACK',
-    'markers.TX_METHOD_REQUIRES_NEW',
-    'markers.TX_METHOD_REQUIRES_NEW_LACK',
-    'markers.TX_METHOD_SERIALIZABLE',
-    'markers.TX_METHOD_SERIALIZABLE_LACK',
-    'markers.TX_METHOD_SERVICE',
-    'markers.TX_METHOD_SERVICE_LACK',
-    'markers.TX_METHOD_SUPPORTS',
-    'markers.TX_METHOD_SUPPORTS_LACK',
-]
-# Чтение данных
-#data = pd.read_csv('dataset_sberstack.csv')
-#data = pd.read_csv('monitoring-dataset.csv')
-#data = pd.read_excel('monitoring-dataset.xlsx')
-data = pd.read_excel('Transaction_Error.xlsx')
-data = data.astype(float)
-data.shape
-print('data.shape = ', data.shape)
-# Увеличение размера датасета на основе случайного изменения исходного датасета --------------------------------------
-data_ = copy.deepcopy(data)
-data__ = copy.deepcopy(data)
-# Генерация случайных значений в окрестности исходных значений
-def random_value(x):
-    x = np.random.normal(x, SKO_random_normal, 1) # MO, SKO, Кол-во
-    if x < 0: x = abs(x)
-    return np.float64(np.round(x))
-np.random.seed(0)
-for i in range(num_increment_cycles):
-    for col in num_features:
-        data_[col] = data_[col].apply(random_value)
-    data_[target] = data_[target].apply(random_value)
-    data = data._append(data_)
-    data_ = copy.deepcopy(data__)
-# ----------------------------------------------------------------------------------------------------------------------
-from sklearn.model_selection import train_test_split
-# разбиение на признаки и целевую переменную
-X = data.drop(columns=[target])
-y = data[target]
-print('X.shape = ', X.shape,' y.shape = ', y.shape)
-#print(y)
-# преобразование числовых признаков
-# for col in num_features:
-#    X[col] = X[col].astype(float)
-#    #print(X[col])
-#
-# for i in range(int(y.shape[0])):
-#    y[i] = y[i].astype(float)
-#    #print(y[i])
-# заполнение пропусков
-# strategy = 'median'
-# nan_cols = X.columns[X.isna().any()].tolist()
-# for col in nan_cols:
-#     #print(col)
-#     imputer = SimpleImputer(strategy=strategy)
-#     X[col] = imputer.fit_transform(np.array(X[col]).reshape(-1, 1))
-#     #print(X_train[col])
-# преобразование категориальных признаков
-#for col in cat_features:
-#    print(col)
-#    X[col] = pd.Categorical(X[col]).codes
-#    print(X[col])
-# Преобразование X и y в массив numpy
-X, y = np.array(X), np.array(y)
-# Масштабирование обучающих данных в диапазоне 0 и 1
-# scaler_X = MinMaxScaler(feature_range = (0, 1))
-# X = scaler_X.fit_transform(X)
-X = X + Dobavka
-max_X = numpy.max(X)
-X = X / max_X
-print('max_X = ', max_X)
-print('X = ', X)
-# y = y.reshape(-1, 1)
-# scaler_y = MinMaxScaler(feature_range = (0, 1))
-# y = scaler_y.fit_transform(y)
-y = y + Dobavka
-max_y = numpy.max(y)
-y = y / max_y
-print('max_y = ', max_y)
-print('y = ', y)
-# Разделение данных на обучающую и тестовую выборки
-X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=42)
-print('X_train.shape = ', X_train.shape,' y_train.shape = ', y_train.shape) # X_train.shape =  (111348, 42)  y_train.shape =  (111348, 1)
-print('X_test.shape = ', X_test.shape,' y_test.shape = ', y_test.shape)     # X_test.shape =  (19650, 42)  y_test.shape =  (19650, 1)
-# Создание вектора весов sample_weight для обучения модели на основе разности суммы показателей и цели
-sample_weight = np.ones(shape=y_train.shape[0],) # заполнение вектора единицами '1'
-Raznost_y = np.sum(X_train, axis=1, dtype=float)
-Raznost_y = Raznost_y - y_train # Вектор разности суммы показателей и цели
-Raznost_y = np.absolute(Raznost_y)
-Summa = np.sum(Raznost_y)
-# print('Summa = ', Summa)
-Raznost_y = Raznost_y / Summa
-# print('Raznost_y = ', Raznost_y)
-ample_weight = sample_weight + Raznost_y
-# print('sample_weight.shape = ', sample_weight.shape)
-# print('sample_weight = ', sample_weight)
-# Чтобы обучить LSTM на наших данных, нужно преобразовать данные в форму, принятую LSTM.
-# Нужно преобразовать данные в трехмерный формат. Первое измерение - это количество записей или строк в наборе данных, которое равно X.shape[0].
-# Второе измерение - это количество столбцов, равное X.shape[1], а последнее измерение – количество индикаторов.
-# Поскольку мы используем только 1 временной ряд, то количество индикаторов = 1.
-X_train = np.reshape(X_train, (X_train.shape[0], X_train.shape[1], 1))
-X_test = np.reshape(X_test, (X_test.shape[0], X_test.shape[1], 1))
-y_train = np.reshape(y_train, (y_train.shape[0]))
-y_test = np.reshape(y_test, (y_test.shape[0]))
-print('X_train.shape = ', X_train.shape,' y_train.shape = ', y_train.shape) # X_train.shape =  (111348, 42, 1)  y_train.shape =  (111348,)
-print('X_test.shape = ', X_test.shape,' y_test.shape = ', y_test.shape)     # X_test.shape =  (19650, 42, 1)  y_test.shape =  (19650,)
-# Модель
-# Функция создания модели --------------------------------------------------------------------------------------------------------
-def build_model(
-                input_shape,
-                LSTM_units,
-                mlp_dropout):
-    inputs = keras.Input(shape=input_shape)
-    x = inputs
-    z = inputs
-    x = layers.LSTM(units=LSTM_units, return_sequences=True)(x)
-    x = layers.Dropout(mlp_dropout)(x)
-    #x = layers.LSTM(units=LSTM_units, return_sequences=True)(x)
-    #x = layers.Dropout(mlp_dropout)(x)
-    #x = layers.LSTM(units=LSTM_units, return_sequences=True)(x)
-    #x = layers.Dropout(mlp_dropout)(x)
-    z = layers.LSTM(units=LSTM_units, return_sequences=True)(z)
-    z = layers.Dropout(mlp_dropout)(z)
-    #z = layers.LSTM(units=LSTM_units, return_sequences=True)(z)
-    #z = layers.Dropout(mlp_dropout)(z)
-    res = layers.add([x, z, inputs])
-    #x = layers.LSTM(units=LSTM_units, return_sequences=True)(res)
-    #x = layers.Dropout(mlp_dropout)(x)
-    #x = layers.LSTM(units=LSTM_units, return_sequences=True)(x)
-    #x = layers.Dropout(mlp_dropout)(x)
-    x = layers.LSTM(units=LSTM_units)(res)#(x)
-    x = layers.Dropout(mlp_dropout)(x)
-    outputs = layers.Dense(units = 1)(x) # , activation="softmax"
-    return keras.Model(inputs, outputs)
-# --------------------------------------------------------------------------------------------------------------------------------
-# Создание модели
-Input_shape = X_train.shape[1:]
-print('Input_shape = ', Input_shape, '\n') # (42, 1)
-model = build_model(
-    input_shape=Input_shape,
-    LSTM_units=LSTM_units_ID,
-    mlp_dropout=mlp_dropout_ID,
-)
-model.compile(
-    optimizer=keras.optimizers.Adam(learning_rate=1e-3),
-    loss="mean_squared_error",
-    metrics=["mean_absolute_error"],
-)
-model.summary()
-# Визуализация структуры модели и запись в файл img_file
-keras.utils.plot_model(model, to_file=img_file, show_shapes=True, show_layer_names=True)
-callbacks = [
-    keras.callbacks.ModelCheckpoint(
-                                     model_name,
-                                     #save_weights_only=True, # Сохранение только весов модели
-                                     #save_freq='epoch', # Сохранение модели каждую эпоху
-                                     save_best_only = True,
-                                     monitor = "val_loss", #"val_loss", # "val_categorical_accuracy", #"val_loss", "val_mean_absolute_error",
-                                     mode = 'min' #'max' #'min'
-                                   ),
-    keras.callbacks.ReduceLROnPlateau(
-                                      monitor = "val_loss", #"val_loss", # "val_categorical_accuracy", #"val_loss", "val_mean_absolute_error",
-                                      factor = 0.75,
-                                      patience = 15,
-                                      min_lr = 1e-7
-                                     ),
-    keras.callbacks.EarlyStopping(
-                                  monitor = "val_loss", #"val_loss", # "val_categorical_accuracy", #"val_loss", "val_mean_absolute_error",
-                                  mode = 'min', # 'max', #'min',
-                                  patience = 50,
-                                  restore_best_weights=True,
-                                  verbose = 1
-                                  ),
-    keras.callbacks.TensorBoard(log_dir='log')
-]
-'''
-# Загрузка модели из файла model_name для дообучения ------------------------------------------------
-print()
-print('Загрузка модели из файла model_name для дообучения \n')
-model = keras.models.load_model(model_name)
-#model.load_weights(model_name, by_name=True) # Загрузка только весов модели
-model.compile(
-    optimizer=keras.optimizers.Adam(learning_rate=5.6250e-04),
-    loss="mean_squared_error",
-    metrics=["mean_absolute_error"],
-)
-# ----------------------------------------------------------------------------------------------------
-'''
-# Обучение модели
-history = model.fit(
-          X_train, # Входы обучающей выборки
-          y_train,  # Выходы обучающей выборки
-          sample_weight=sample_weight,
-          #steps_per_epoch = steps_per_epoch_ID,
-          validation_split=0.2,
-          epochs=epochs_ID, # 1000
-          batch_size=batch_size_ID ,
-          callbacks=callbacks,
-          shuffle=True, #False,
-          verbose=1
-)
-#*************************************************************************************************************
-# Загрузка готовой модели из файла или папки
-#*************************************************************************************************************
-print()
-print('Загрузка готовой модели из файла или папки на гугл-диске \n')
-model_ = keras.models.load_model(model_name)
-#model.summary()
-#model_ = model
-# Прогнозирование - тестирование качества модели на тестовых данных ************************************************************
-#predictions = model_.predict(X_test)
-predictions = model_.predict(X)
-# Возврат масштабированных прогнозных данных обратно к их фактическим значениям.
-# y_test = y_test * max_y # Оценка точности прогноза на тестовой выборке данных
-# y_test = y_test - Dobavka
-y = y * max_y # Оценка точности прогноза на всей выборке данных
-y = y - Dobavka
-predictions = predictions * max_y
-predictions = predictions - Dobavka
-# Не должно быть отрицательных значений
-for i in range(len(predictions)):
-    if predictions[i] < 0: predictions[i] = abs(predictions[i])
-#print('y = ', predictions)
-# Контроль показателей качества работы модели по тестовой выборке
-#r2, mae, rmse = print_result_regression(y_test, predictions)
-r2, mae, rmse = print_result_regression(y, predictions)
-# Вывод нескольких последних значений цели и прогноза
-print('   Цель     Прогноз   Отклонение')
-for i in range(len(predictions)-30, len(predictions)):
-    #print(f''' {y_test[i]:9.4f}  {predictions[i][0]:9.4f}  {abs(y_test[i] - predictions[i][0]):9.4f} ''') # Оценка прогноза по тестовой выборке
-    print(f''' {y[i]:9.4f}  {predictions[i][0]:9.4f}  {abs(y[i] - predictions[i][0]):9.4f} ''') # Оценка прогноза по всем данным
-# Отклонения прогноза от целевых значений
-# Delta_y = y - predictions # Недостаточно оперативной памяти 12.7 Гб для вычисления
-# print(Delta_y)
-#print(y - predictions)
-# Сохранение отклонений в файл
-#np.savetxt('Transaction_Error_Delta_y.csv', Delta_y, delimiter=",")
-# np.savetxt('Transaction_Error_Delta_y.csv', predictions, delimiter=",")
-# print('\n Файл Delta_y сохранён.')
-'''
-#*************************************************************************************************************
-# Прогноз одного целевого значения
-#*************************************************************************************************************
-# Загрузка готовой модели из файла или папки
-#*************************************************************************************************************
-print()
-print('Загрузка готовой модели из файла или папки на гугл-диске \n')
-model_ = keras.models.load_model(model_name)
-#model.summary()
-# Загрузка файла с входными данными для прогноза
-print('Загрузка файла с входными данными для прогноза \n')
-inp_data = pd.read_excel(inp_file)
-inp_data = inp_data.astype(float)
-print('inp_data.shape = ', inp_data.shape)
-# Преобразование inp_data в массив numpy
-inp_data = np.array(inp_data)
-print('inp_data = ', inp_data)
-# Масштабирование обучающих данных в диапазоне 0 и 1. max_X - загружается вместе с готовой моделью
-inp_data = inp_data / max_X
-#inp_data = scaler_X.fit_transform(inp_data)
-# scaler_inp_data = MinMaxScaler(feature_range = (0, 1))
-# inp_data = scaler_inp_data.fit_transform(inp_data)
-print('inp_data = ', inp_data)
-# Возврат масштабированных прогнозных данных обратно к их фактическим значениям.
-#inp_data = scaler_X.inverse_transform(inp_data)
-#inp_data = scaler_inp_data.inverse_transform(inp_data)
-#print('inp_data = ', inp_data)
-# Чтобы использовать модель LSTM нужно преобразовать данные в форму, принятую LSTM.
-inp_data = np.reshape(inp_data, (inp_data.shape[0], inp_data.shape[1], 1))
-print('inp_data.shape = ', inp_data.shape)     # inp_data.shape =  (1, 42, 1)
-# Прогнозирование целевого значения ************************************************************
-predictions = model_.predict(inp_data)
-print('Целевое значение = ', predictions)
-# Возврат масштабированных прогнозных данных обратно к их фактическим значениям. . max_y - загружается вместе с готовой моделью
-predictions = predictions * max_y
-#predictions = predictions.reshape(-1, 1)
-#predictions = scaler_y.inverse_transform(predictions) # *996
-# Не должно быть отрицательных значений
-if predictions < 0: predictions = 0
-#print('y = ', predictions)
-# Вывод целевого значения
-print('Целевое значение = ', predictions)
-'''