!wget -c &#34;https://tfhub.dev/google/universal-sentence-encoder-large/5?tf-hub-format=compressed&#34; -O 5.tar.gz
!mkdir language_model
!tar -xzf  5.tar.gz -C language_model/


import tensorflow as tf
from tensorflow import keras
import hyperopt
import hyperopt.pyll
from hyperopt.pyll import scope
import numpy as np
from pathlib import Path
import joblib
import json
import pandas as pd
import functools

def build_encoder(
    input_dim: int,
    output_dim: int,
    layer_multiplier: int,  # FIXME: add parameter docs
    num_layers: int,
    activation: str,
    activity_l1: float,
) -&gt; keras.Model:
    if not output_dim &lt; input_dim:
        raise ValueError(&#34;output_dim must be less than input_dim&#34;)

    input_layer = keras.layers.Input(shape=(input_dim,))

    hidden = input_layer
    layer_dim = input_dim // layer_multiplier
    for _ in range(num_layers):
        hidden = keras.layers.Dense(
            layer_dim,
            activation=activation,
            activity_regularizer=keras.regularizers.l1(activity_l1)
            if activity_l1 &gt; 1e-7
            else None,
        )(hidden)
        layer_dim //= layer_multiplier
        layer_dim = max(layer_dim, output_dim)

    last_layer = keras.layers.Dense(output_dim, activation=activation)(hidden)

    encoder = tf.keras.Model(inputs=input_layer, outputs=last_layer, name=&#34;encoder&#34;)

    return encoder


def build_decoder(
    input_dim: int,
    output_dim: int,
    layer_multiplier: int,  # FIXME: add parameter docs
    num_layers: int,
    activation: str,
) -&gt; tf.keras.Model:
    &#34;&#34;&#34;Build a decoder model. The returned model has not been compiled&#34;&#34;&#34;  # FIXME: add parameter docs
    if not input_dim &lt; output_dim:
        raise ValueError(&#34;input_dim must be less than output_dim&#34;)

    input_layer = keras.layers.Input(shape=(input_dim,))
    hidden = input_layer
    layer_dim = input_dim * layer_multiplier
    for _ in range(num_layers):
        hidden = keras.layers.Dense(layer_dim, activation=activation)(hidden)
        layer_dim *= layer_multiplier
        layer_dim = min(output_dim, layer_dim)

    last_layer = keras.layers.Dense(output_dim, activation=&#34;tanh&#34;)(hidden)

    decoder = tf.keras.Model(inputs=input_layer, outputs=last_layer, name=&#34;decoder&#34;)

    return decoder


def build_stacked_autoencoder(  # pylint: disable=too-many-arguments, too-many-locals
    input_dim: int,
    encoded_dim: int,
    layer_multiplier: int,
    num_layers: int,
    activation: str,
    encoder_activity_l1: float,
    learning_rate: float,
    log2_batch_size: int,
    early_stopping_patience: int,
    lr_reduce_factor: float,
    lr_reduce_factor_patience: int,
    epochs: int=2000
) -&gt; keras.models.Sequential:
    &#34;&#34;&#34;Returns a stacked autoencoder that can be used to encode `input_dim` dimensional data into `encoded_dim`-dimensional data.

    If compiled == True, the returned model is compiled with mse loss, mae metric and Nadam optimizer (lr=1e-3)&#34;&#34;&#34;
    encoder = build_encoder(
        input_dim, encoded_dim, layer_multiplier, num_layers, activation, encoder_activity_l1
    )
    decoder = build_decoder(encoded_dim, input_dim, layer_multiplier, num_layers, activation)

    stacked_autoencoder = keras.models.Sequential([encoder, decoder])
    keras_callback = [
        keras.callbacks.EarlyStopping(
            patience=early_stopping_patience,
            monitor=&#34;loss&#34;,
            mode=&#34;min&#34;,
            min_delta=1e-5,
            restore_best_weights=True,
            verbose=1,
        )
    ]

    if lr_reduce_factor &gt; 0:
        keras_callback.append(
            keras.callbacks.ReduceLROnPlateau(
                monitor=&#34;loss&#34;,
                factor=lr_reduce_factor,
                patience=lr_reduce_factor_patience,
                min_lr=1e-8,
                verbose=0,
            )
        )
    keras_params = dict(  # FIXME: these should be deserialized from a configuration file
        epochs=epochs,
        callbacks=keras_callback,
        batch_size=int(2**log2_batch_size),
        verbose=0,
    )


    stacked_autoencoder.compile(
        loss=&#34;mae&#34;,
        optimizer=keras.optimizers.Nadam(learning_rate=learning_rate),
        metrics=[&#34;mae&#34;],
    )
    return stacked_autoencoder, keras_params


BATCH_TRIALS = 100

AUTOENCODER_HYPER_SPACE = {
   
    &#34;layer_multiplier&#34;: hyperopt.pyll.scope.int(
        hyperopt.hp.quniform(&#34;layer_multiplier&#34;, 2, 10, 1)
    ),
    &#34;num_layers&#34;: hyperopt.pyll.scope.int(hyperopt.hp.quniform(&#34;num_layers&#34;, 1, 5, 1)),
    &#34;activation&#34;: hyperopt.hp.choice(&#34;activation&#34;, [&#34;relu&#34;, &#34;selu&#34;, &#34;elu&#34;, &#34;gelu&#34;]),
    &#34;encoder_activity_l1&#34;: hyperopt.hp.loguniform(
        &#34;encoder_activity_l1&#34;, np.log(1.0e-8), np.log(1.0e-1)
    ),
    &#34;learning_rate&#34;: hyperopt.hp.loguniform(&#34;learning_rate&#34;, np.log(1.0e-4), np.log(1.0e-1)),
    &#34;log2_batch_size&#34;: hyperopt.hp.quniform(&#34;log2_batch_size&#34;, 3, 9, 1),
    &#34;early_stopping_patience&#34;: hyperopt.pyll.scope.int(
        hyperopt.hp.quniform(&#34;early_stopping_patience&#34;, 5, 50, 5)
    ),
    &#34;lr_reduce_factor_patience&#34;: hyperopt.pyll.scope.int(
        hyperopt.hp.quniform(&#34;lr_reduce_factor_patience&#34;, 5, 50, 5)
    ),
    &#34;lr_reduce_factor&#34;: hyperopt.hp.uniform(&#34;lr_reduce_factor&#34;, -0.1, 0.9),
}
ALGO=[
  (0.15, hyperopt.rand.suggest),
  (0.7, hyperopt.tpe.suggest),
  (0.15, hyperopt.anneal.suggest),  
]
embed = tf.saved_model.load(&#34;language_model/&#34;)

def fit(X, y=None, **kwargs):  # pylint: disable=invalid-name,unused-argument
    autoencoder, keras_params = build_stacked_autoencoder(
        input_dim=512,
        encoded_dim=5,
        **kwargs,
    )
    embedding_vectors = embed(X).numpy()

    _history = autoencoder.fit(
        embedding_vectors,
        embedding_vectors,
        **keras_params,
    )
    return _history

def hyperparams_optimizer(  # pylint: disable=too-many-locals
    data,
    num_rounds,
):
    &#34;&#34;&#34;Find best autoencoder hyperparameters&#34;&#34;&#34;
    

    def hyperopt_objective(params):
    
        status = hyperopt.STATUS_FAIL
        
        mae = np.min(fit(data,data,**params).history[&#34;mae&#34;])  # pylint: disable=protected-access

        if np.isfinite(mae):
            status = hyperopt.STATUS_OK

        return {&#34;loss&#34;: mae, &#34;status&#34;: status}

   

    trials_filename = &#34;trials.pkl&#34;

    try:
        trials = joblib.load(trials_filename)
        evals_loaded_trials = len(trials.statuses())
        rstate = np.random.default_rng(evals_loaded_trials)
        
    except FileNotFoundError:
        trials = hyperopt.Trials()
        rstate = np.random.default_rng(0)

    runs_number = num_rounds // BATCH_TRIALS
    for i in range(runs_number):
        print(f&#34;Batch n {(i+1):d}&#34;)
        best_hp = hyperopt.fmin(
            fn=hyperopt_objective,
            space=AUTOENCODER_HYPER_SPACE,
            max_evals=BATCH_TRIALS,
            algo=functools.partial(hyperopt.mix.suggest,p_suggest=ALGO),
              trials = trials,
              rstate = rstate
        )
        best_params = hyperopt.space_eval(AUTOENCODER_HYPER_SPACE, best_hp)
        best_params[&#34;mae&#34;] = trials.best_trial[&#34;result&#34;][&#34;loss&#34;]
        print(best_params)

        best_params_filename = &#34;best_params.json&#34;
      

        with open(best_params_filename, &#34;w&#34;, encoding=&#34;utf-8&#34;) as fh:
            json.dump(best_params, fh, indent=4)

        joblib.dump(trials, trials_filename, compress=(&#34;gzip&#34;, 3))
    
    print(&#34;Optimization results.&#34;)
    print(best_params)



def load_descriptions():
    &#34;&#34;&#34;Load text from CSV files&#34;&#34;&#34;

    t1 = &#34;1.csv.gz&#34;
    t2 = &#34;2.csv.gz&#34;
    df = pd.concat(
        [
            pd.read_csv(t1),  #
            pd.read_csv(t2),
        ],
    )

    return df.Description.drop_duplicates().tolist()




descriptions = load_descriptions()

hyperparams_optimizer(descriptions, num_rounds=1000)