Сообщения phrm

Пытаюсь тренировать модель HuggingFace

Форум — Development

пытаюсь тренировать модель, получаю ошибку, но не понимаю, как её решить. Гугл ничего путного не дал

ValueError: The batch received was empty, your model won't be able to train on it. Double-check that your training dataset contains keys expected by the model: input_ids,attention_mask,token_type_ids,position_ids,head_mask,inputs_embeds,labels,output_attentions,output_hidden_states,return_dict,labels,label,label_ids.

Вот, сам код

## imports

from datasets import Dataset
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from transformers import (
    AutoTokenizer,
    AutoModelForSequenceClassification,
    Trainer,
    TrainingArguments,
)

## data
# Load 20-newsgroup dataset and arrange it into a list of tuples
# data = [("description1", "category1"), ("description2", "category2"), ...]

newsgroups_train = fetch_20newsgroups(subset="train")
data = [
    (
        newsgroups_train.data[i],
        newsgroups_train.target_names[newsgroups_train.target[i]],
    )
    for i in range(len(newsgroups_train.data))
]


## Prepare the dataset
descriptions = [item[0] for item in data]
categories = [item[1] for item in data]

# Tokenizer and Model
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(
    model_name, num_labels=len(set(categories))
)


## Encoding data
def encode(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length")


## Train/Test split
(
    train_descriptions,
    test_descriptions,
    train_categories,
    test_categories,
) = train_test_split(descriptions, categories, test_size=0.2)
training_args = TrainingArguments("test_trainer")


def hugginface_dataset(text, labels):
    return Dataset.from_dict(
        {
            "text": text,
            "labels": labels,
        }
    )


train_dataset = hugginface_dataset(train_descriptions, train_categories)
test_dataset = hugginface_dataset(test_descriptions, test_categories)


## Define trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=encode(train_dataset),
    eval_dataset=encode(test_dataset),
    # compute_metrics=compute_metrics,
)


## Train the model
trainer.train()

# Evaluation
train_metrics = trainer.evaluate(train_dataset)
test_metrics = trainer.evaluate(test_dataset)

# Print metrics
print("Training metrics:", train_metrics)
print("Testing metrics:", test_metrics)

# Collect metrics
metrics = {"train": train_metrics, "test": test_metrics}

# Plot metrics
plt.figure(figsize=(10, 6))
for metric in ["loss", "accuracy"]:
    plt.plot(
        ["train", "test"],
        [metrics["train"][metric], metrics["test"][metric]],
        label=metric,
    )
plt.legend()
plt.title("Training and testing metrics")
plt.show()
##

data science, python

phrm
(23.10.23 10:13:42 MSK)

4 комментария

Как давать домашки по програмированию в эру чатжипити?

Форум — Talks

Студенты учат питон.

С одной стороны, если не давать дом задания, они забьют и до экзаменов делать ничего не будут. С другой стороны, давать им писать код и прикидываться дурочкой («мы? жпити??? да ниразу»), тоже не хочется. Что делать? Как сегодня обходят эту проблему?

chatgpt, вуз, обучение программированию

phrm
(04.08.23 17:03:03 MSK)

126 комментариев (стр. 2 3)

[SOLVED] Самопроявляющиеся задачи для студентов

Форум — Development

Я собираюсь начать преподавать различные курсы, связанные с программированием.

Студенты должны будут выполнять домашние задания на питоне. Существуют ли готовые к использованию фреймворки, которые могут проверять задания, запускать модульные тесты и даже оценивать их?

(Интеграция с GitHub — большой плюс)

python

phrm
(23.07.23 12:36:22 MSK)

9 комментариев

Создание автономного пишущего агента

Форум — Development

Мне нужно построить систему, которая берет входной текст, извлекает из него соответствующие вопросы, использует Интернет для поиска ответов, обобщает ответы и включает их в исходный текст. На какие инструменты, по вашему мнению, мне следует обратить внимание, чтобы упростить этот процесс? Есть ли подобные проекты на Github?

PS Я знаю Python и имею доступ к OpenAI API.

chatgpt, openai, python

phrm
(11.07.23 16:12:21 MSK)

7 комментариев

NLP - в чем разница двух документов

Форум — Development

Читая википедию на разных языках, я заметил, что некоторые статьи - просто перевод одной версии в другой язык, а некоторые - совсем разные. Я подумал написать NLP-модель, которая берет две статьи на одну тему, переводит обе на английский язык, и сравнивает. Я попытался сделать это с chatgpt, и он выдает неплохой результат (ниже - сравнение первой части статьи о Линуксе). А есть ли более «классические» подходы к этой проблеме? Что, вообще, гуглить?

While both RU and EN texts provide an overview of Linux, there are some conceptual differences between them:

1. The RU text highlights the costs and labor involved in developing a Linux system, whereas the EN text does not mention these aspects.
2. The RU text discusses the naming dispute between "Linux" and "GNU/Linux," while the EN text briefly acknowledges the controversy but does not delve into it.
3. The RU text mentions Linux user groups, non-profit associations like The Linux Foundation, and the market for commercial technical support (with a focus on Red Hat Corporation). The EN text covers a broader range of topics, including Linux's history, its dominance in various areas (such as servers and supercomputers), and its presence in embedded systems and consumer electronics.

machine learning, nlp

phrm
(28.03.23 12:48:36 MSK)

9 комментариев

Fastapi, Django или комбинация - выбор инструмента

Форум — Development

У меня есть идея веб аппликации. Условно, чатгпт. Я знаю питон и FastAPI, и могу обернуть свое решение в рабочий rest API. Но, не API единым. Нужно построить сайт, с юзерами, обработкой платежей, галереями, и т.п. Я понимаю, что для этого подходит django, который мне надо будет выучить. Как я понимаю, django умеет и rest API. Передо мной выбор:

Логика решения проблеммы - FastAPI, а веб-сайт на отдельном сервисе django
Делать всё в django.
Так ка я совсем не знаю как делать фронтенд: FastAPI + какой-то ноукод, типа bubble.io (на первое время, он мне хватит, в принципе)

Какие плюсы и минусы есть у этих подходов? Что стоит гуглить и читать? н

django, fastapi, web-development, web-server

phrm
(25.03.23 11:20:52 MSK)

16 комментариев

Британский блоггер попал в ангар, где стоят два Бурана.

Форум — Talks

Есть такой британец, с фетишем на всё советское. Ему получилось попасть в ангар, где стоят два Бурана. https://youtu.be/0fZ-r5Qe3tM?t=2013

Линукс при том, что если бы Бураны летели сегодня, то, с вероятностью 84%, на них стоял бы именно Линукс. Но, они больше не летали. Sic transit gloria mundi

космос

phrm
(09.11.22 17:57:23 MSK)

40 комментариев

Рабочее место линуксоида глазами ИИ

Галерея — Рабочие места

Попросил midjourney представить себе рабочее место линуксоида.

Слева - четыре варианта ответа на запрос «linuxoid workplace». Справа - результат потока сознания на запрос «photo of a dystopian workplace of a linux hacker, steampunk style, rainbow pony , closup on the linux terminal».

Хотели бы вы так жить?

искусственный интеллект, рабочее место

phrm
(18.09.22 10:23:57 MSK)

46 комментариев

Болгарская кириллица - отдельный сет в юникоде?

Форум — Talks

Непонятно почему, у меня в фиде появился пост на Болгарском.

screenshot

Я немного удивился тому, что буквы «не наши». В принципе, я знал, что есть такое понятие как «Болгарица», но думал это просто разные фонты. Оказывается - нет.

unicode

phrm
(02.11.21 11:16:04 MSK)

9 комментариев

Как правильно хостить зоопарк веб-аппликаций?

Форум — Development

Имеется комманда дата сайентистов. Кто пишет на питоне, кто на R. Иногда они строят веб-аппликации для демонстраций и т.п. Кто использует shiny (R), кто bokeh или streamlit (python). Хотелось бы дать возможность хостить весь этот зоопарк на одном сервере AWS, так, чтобы девелоперы не заморачивались с аутентикацией и прочими вещами. Но я даже не знаю что гуглить.

Как мы работаем сейчас?

Имеется машина на aws с известным IP адресом. Человек запускает в ней screen, там запускает сервер (кто shiny, кто streamlit, кто bokeh), пытаясь угадать какой порт еще не занят. Когда надо показать аппликацию клиенту, шлем ему адрес по типу http://111.222.333.44:1111. Контроль доступа осуществляется тем, что «никто» не знает адрес IP.

И вот этот ужас я хочу исправить. Нужна какая-то система, которая даст возможность быстро хостить аппликации, с контролем доступа.

web-server

phrm
(02.11.21 10:23:59 MSK)

20 комментариев

Bluetooth гарнитура похожая на старые телефоны

Форум — Talks

Я когда-то видел гарнитуру которая выглядит как старый телефон (что-то по типу Нокии 105). Не могу найти ни на ибее, ни на дилекстриме, нигде. Помогите пожалуйста

loorgle

phrm
(22.07.15 10:27:52 MSK)

26 комментариев

ХэшКод, русский клон StackOverflow, стал частью StackExchange

Новости — Документация

StackOverflow - это популярная система вопросов и ответов о программировании на английском языке. Разработчики StackOverflow назвали ХэшКод «самым лучшим клоном». 11 июня было объявлено, что ХэшКод стал частью StackOverflow и будет жить по адресу ru.stackoverflow.com.Все вопросы и ответы на StackOverflow и его дочерних форумах доступны под свободной лицензией Creative Commons

>>> Подробности

документация

phrm
(12.06.15 11:29:58 MSK)

118 комментариев (стр. 2 3)

Электроники, что делать если музыкальный инструмент фонит?

Форум — Talks

Купил я своему чаду вот такой набо электронных барабанов : http://www.pyleaudio.com/sku/PED03/Electronic-Drum-Set-with-Natural-Response-... (PylePro PED03). Подключил к наушникам, а там — довольно-таки сильный фоновой шум. Я проверил две пары наушников и динамики — фон есть.

Возможно-ли как-то этот фон подавить?

спв, электроника

phrm
(23.01.15 11:08:14 MSK)

9 комментариев

Как починить некорректное поведение «стрелочных» кнопок?

Форум — Development

Коллеги,

Я подключаюсь к Дебиан-машине через SSH. Кнопки стрелок работают нормально в консоли. Но в программах, которые читают STDIN, вместо ожидаемого поведения (курсор двикается в лево/право), отображаются непонятные знаки:

BOX]temp$ cat tmp.py
while True:
 n = raw_input("enter something >")
 print ">%s<" % n


SBX]temp$ python tmp.py
enter something >Tut zhmem strrelky nazad^[[D^[[D^[[D i vprered^[[C^[[C^[[C
>Tut zhmem strrelky na i vprered   <
enter something >^CTraceback (most recent call last):
  File "tmp.py", line 2, in <module>
    n = raw_input("enter something >")
KeyboardInterrupt
BOX]temp$

phrm
(03.12.14 12:08:20 MSK)

4 комментария

... если завтра в поход

Галерея — Рабочие места

Мой прошлый скриншот (Война войной, а диссертация по расписанию) был очень успешным. Поэтому, разбирая старые фотографии, я решил сделать сиквел. Эта фотография сделана год назад. Я дослужился до старшего медика пехотного батальона. Ночь. Наши славные бойцы ушли арестовывать нехороших людей и потенциальных террористов. Моя команда, часть группы поддержки, стоит неподалеку на шухере, готовы оказать первую медицинскую помощь если что. Вся машина дремлет, а мне нельзя. Сижу, слушаю рацию и изучаю R для моей новой работы.

На экране: Леново T430. На нем Убунту 12.04 и РСтудио. Ну и антураж...

r, rstudio

phrm
(05.05.14 09:47:15 MSK)

41 комментарий

Мужик изобрел велосипед (из картона)

Форум — Talks

не изобрел, конечно, а построил, но всё-таки... велосипед из картона

http://www.youtube.com/watch?feature=player_embedded&v=txSboSNQINs

Я только не понял из чего цепь сделана?

велосипед

phrm
(22.10.12 18:25:44 MSK)

22 комментария

Можно-ли подключить такой монитор к компьютеру?

Форум — Linux-hardware

Вот такой монитор с входом A/V http://www.dealextreme.com/p/4-3-lcd-monitor-for-visual-reversing-vehicles-re... У компьютера есть выход DVI и HDMI. К последнему подключен основной монитор. Можно-ли, при помощи DVI-AV переходника подключить этот монитор к компьютеру в качестве дополнительного мониторчика если известно что «обычный» DVI монитор подключается к компьютеру без проблем

phrm
(30.01.12 16:52:30 MSK)

3 комментария

[арабский язык] что здесь написано?

Форум — Talks

[арабский язык] что здесь написано?

http://imageshack.us/photo/my-images/849/45253952.jpg

phrm
(15.11.11 22:45:59 MSK)

32 комментария

Как отличить картинку от случайного набора пикселей

Форум — Development

Вот есть такая ч/б картинка: http://imageshack.us/photo/my-images/208/dotsr.png/

на ней серые кружочки на сером фоне. Иногда кружочки светлее фона, иногда - наооборот. А есть другая картинка: на ней те-же самые пиксели, которые частично (или полностью) были перемешаны (переставленны местами). Какие существуют методы, при помощи которых можно разлечить такие картинки?

phrm
(14.11.11 18:01:08 MSK)

26 комментариев

[питон][гуй] выбор фреймворка и компонентов для простой утилиты

Форум — Development

Я никогда еще не писал ГУЙ. Внезапно меня попросили написать утилиту в которой: (1) юзер выберает файл картинки (тиф 2000х8000 пикселей) (2) получает превью картинки (3) может подогнать яркость и контраст (4) выставить горизонтальную планку на картинке (5) нажать ОК для дальнейшей работы. После этого, утилита получает координату горизонтальной планки и делает свое чёрное дело.

Я пишу на питоне. Подскажите какой фреймворк выбрать и на какие компоненты/классы этого фреймворка смотреть.

Спасибо

python

phrm
(27.10.11 16:25:06 MSK)

10 комментариев

следующие →

RSS подписка на новые темы