История изменений
Исправление abs, (текущая версия) :
Подскажи, у меня есть вот такая задача https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/leaderboard
В данных есть такие колонки как id, text, toxic, я создаю датасет где text это входные данные, а toxic выходные
Но что мне в этом случае делать с id, которые не является ни входным ни выходным. При этом в финале для kaggle нужно отправить CSV в формате
id toxic
Раньше я делал это примерно так
result = model.predict(XTest)
result = np.argmax(result, axis=1)
out = np.column_stack((range(1, result.shape[0]+1), result))
np.savetxt('submission.csv', out, header="ImageId,Label",
comments="", fmt="%d,%d")
Но тогда imageId был просто порядковый номер, а в моем случае там просто рандомные айдишники
Я еще и перемешиваю данные (нужно ли?)
def df_to_dataset(dataframe, shuffle=True, batch_size=100, is_train=True):
dataframe = dataframe.copy().sample(frac=1)
if is_train:
labels = dataframe[['toxic', 'severe_toxic', 'obscene', 'threat', 'insult', 'identity_hate']]
# labels = [
# dataframe.pop('toxic'),
# dataframe.pop('severe_toxic'),
# dataframe.pop('obscene'),
# dataframe.pop('threat'),
# dataframe.pop('insult'),
# dataframe.pop('identity_hate'),
# ]
del dataframe['id']
comment_text_matrix = tokenizer.texts_to_matrix(dataframe.comment_text)
if is_train:
ds = tf.data.Dataset.from_tensor_slices((comment_text_matrix, labels))
else:
ds = tf.data.Dataset.from_tensor_slices((comment_text_matrix))
ds = ds.batch(batch_size)
return ds
Исходная версия abs, :
Подскажи, у меня есть вот такая задача https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/leaderboard
В данных есть такие колонки как id, text, toxic, я создаю датасет где text это входные данные, а toxic выходные
Но что мне в этом случае делать с id, которые не является ни входным ни выходным. При этом в финале для kaggle нужно отправить CSV в формате
id toxic
Раньше я делал это примерно так
result = model.predict(XTest)
result = np.argmax(result, axis=1)
out = np.column_stack((range(1, result.shape[0]+1), result))
np.savetxt('submission.csv', out, header="ImageId,Label",
comments="", fmt="%d,%d")
Но тогда imageId был просто порядковый номер, а в моем случае там просто рандомные айдишники