LINUX.ORG.RU

История изменений

Исправление abs, (текущая версия) :

Подскажи, у меня есть вот такая задача https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/leaderboard

В данных есть такие колонки как id, text, toxic, я создаю датасет где text это входные данные, а toxic выходные

Но что мне в этом случае делать с id, которые не является ни входным ни выходным. При этом в финале для kaggle нужно отправить CSV в формате

id toxic

Раньше я делал это примерно так

result = model.predict(XTest)
result = np.argmax(result, axis=1)

out = np.column_stack((range(1, result.shape[0]+1), result))
np.savetxt('submission.csv', out, header="ImageId,Label", 
            comments="", fmt="%d,%d")

Но тогда imageId был просто порядковый номер, а в моем случае там просто рандомные айдишники

Я еще и перемешиваю данные (нужно ли?)

def df_to_dataset(dataframe, shuffle=True, batch_size=100, is_train=True):
  dataframe = dataframe.copy().sample(frac=1)
  if is_train:
    labels = dataframe[['toxic', 'severe_toxic', 'obscene', 'threat', 'insult', 'identity_hate']]
    # labels = [
    #   dataframe.pop('toxic'), 
    #   dataframe.pop('severe_toxic'),
    #   dataframe.pop('obscene'),
    #   dataframe.pop('threat'),
    #   dataframe.pop('insult'),
    #   dataframe.pop('identity_hate'),      
    # ]
  del dataframe['id']

  comment_text_matrix = tokenizer.texts_to_matrix(dataframe.comment_text)
  if is_train:
    ds = tf.data.Dataset.from_tensor_slices((comment_text_matrix, labels))
  else:
    ds = tf.data.Dataset.from_tensor_slices((comment_text_matrix))
  ds = ds.batch(batch_size)
  return ds

Исходная версия abs, :

Подскажи, у меня есть вот такая задача https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/leaderboard

В данных есть такие колонки как id, text, toxic, я создаю датасет где text это входные данные, а toxic выходные

Но что мне в этом случае делать с id, которые не является ни входным ни выходным. При этом в финале для kaggle нужно отправить CSV в формате

id toxic

Раньше я делал это примерно так

result = model.predict(XTest)
result = np.argmax(result, axis=1)

out = np.column_stack((range(1, result.shape[0]+1), result))
np.savetxt('submission.csv', out, header="ImageId,Label", 
            comments="", fmt="%d,%d")

Но тогда imageId был просто порядковый номер, а в моем случае там просто рандомные айдишники