LINUX.ORG.RU

Сообщения phrm

 

Пытаюсь тренировать модель HuggingFace

Форум — Development

пытаюсь тренировать модель, получаю ошибку, но не понимаю, как её решить. Гугл ничего путного не дал

ValueError: The batch received was empty, your model won't be able to train on it. Double-check that your training dataset contains keys expected by the model: input_ids,attention_mask,token_type_ids,position_ids,head_mask,inputs_embeds,labels,output_attentions,output_hidden_states,return_dict,labels,label,label_ids.

Вот, сам код

## imports

from datasets import Dataset
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from transformers import (
    AutoTokenizer,
    AutoModelForSequenceClassification,
    Trainer,
    TrainingArguments,
)

## data
# Load 20-newsgroup dataset and arrange it into a list of tuples
# data = [("description1", "category1"), ("description2", "category2"), ...]

newsgroups_train = fetch_20newsgroups(subset="train")
data = [
    (
        newsgroups_train.data[i],
        newsgroups_train.target_names[newsgroups_train.target[i]],
    )
    for i in range(len(newsgroups_train.data))
]


## Prepare the dataset
descriptions = [item[0] for item in data]
categories = [item[1] for item in data]

# Tokenizer and Model
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(
    model_name, num_labels=len(set(categories))
)


## Encoding data
def encode(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length")


## Train/Test split
(
    train_descriptions,
    test_descriptions,
    train_categories,
    test_categories,
) = train_test_split(descriptions, categories, test_size=0.2)
training_args = TrainingArguments("test_trainer")


def hugginface_dataset(text, labels):
    return Dataset.from_dict(
        {
            "text": text,
            "labels": labels,
        }
    )


train_dataset = hugginface_dataset(train_descriptions, train_categories)
test_dataset = hugginface_dataset(test_descriptions, test_categories)


## Define trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=encode(train_dataset),
    eval_dataset=encode(test_dataset),
    # compute_metrics=compute_metrics,
)


## Train the model
trainer.train()

# Evaluation
train_metrics = trainer.evaluate(train_dataset)
test_metrics = trainer.evaluate(test_dataset)

# Print metrics
print("Training metrics:", train_metrics)
print("Testing metrics:", test_metrics)

# Collect metrics
metrics = {"train": train_metrics, "test": test_metrics}

# Plot metrics
plt.figure(figsize=(10, 6))
for metric in ["loss", "accuracy"]:
    plt.plot(
        ["train", "test"],
        [metrics["train"][metric], metrics["test"][metric]],
        label=metric,
    )
plt.legend()
plt.title("Training and testing metrics")
plt.show()
##

 ,

phrm
()

Как давать домашки по програмированию в эру чатжипити?

Форум — Talks

Студенты учат питон.

С одной стороны, если не давать дом задания, они забьют и до экзаменов делать ничего не будут. С другой стороны, давать им писать код и прикидываться дурочкой («мы? жпити??? да ниразу»), тоже не хочется. Что делать? Как сегодня обходят эту проблему?

 , ,

phrm
()

[SOLVED] Самопроявляющиеся задачи для студентов

Форум — Development

Я собираюсь начать преподавать различные курсы, связанные с программированием.

Студенты должны будут выполнять домашние задания на питоне. Существуют ли готовые к использованию фреймворки, которые могут проверять задания, запускать модульные тесты и даже оценивать их?

(Интеграция с GitHub — большой плюс)

 

phrm
()

Создание автономного пишущего агента

Форум — Development

Мне нужно построить систему, которая берет входной текст, извлекает из него соответствующие вопросы, использует Интернет для поиска ответов, обобщает ответы и включает их в исходный текст. На какие инструменты, по вашему мнению, мне следует обратить внимание, чтобы упростить этот процесс? Есть ли подобные проекты на Github?

PS Я знаю Python и имею доступ к OpenAI API.

 , ,

phrm
()

NLP - в чем разница двух документов

Форум — Development

Читая википедию на разных языках, я заметил, что некоторые статьи - просто перевод одной версии в другой язык, а некоторые - совсем разные. Я подумал написать NLP-модель, которая берет две статьи на одну тему, переводит обе на английский язык, и сравнивает. Я попытался сделать это с chatgpt, и он выдает неплохой результат (ниже - сравнение первой части статьи о Линуксе). А есть ли более «классические» подходы к этой проблеме? Что, вообще, гуглить?

While both RU and EN texts provide an overview of Linux, there are some conceptual differences between them:

1. The RU text highlights the costs and labor involved in developing a Linux system, whereas the EN text does not mention these aspects.
2. The RU text discusses the naming dispute between "Linux" and "GNU/Linux," while the EN text briefly acknowledges the controversy but does not delve into it.
3. The RU text mentions Linux user groups, non-profit associations like The Linux Foundation, and the market for commercial technical support (with a focus on Red Hat Corporation). The EN text covers a broader range of topics, including Linux's history, its dominance in various areas (such as servers and supercomputers), and its presence in embedded systems and consumer electronics.

 ,

phrm
()

Fastapi, Django или комбинация - выбор инструмента

Форум — Development

У меня есть идея веб аппликации. Условно, чатгпт. Я знаю питон и FastAPI, и могу обернуть свое решение в рабочий rest API. Но, не API единым. Нужно построить сайт, с юзерами, обработкой платежей, галереями, и т.п. Я понимаю, что для этого подходит django, который мне надо будет выучить. Как я понимаю, django умеет и rest API. Передо мной выбор:

  1. Логика решения проблеммы - FastAPI, а веб-сайт на отдельном сервисе django
  2. Делать всё в django.
  3. Так ка я совсем не знаю как делать фронтенд: FastAPI + какой-то ноукод, типа bubble.io (на первое время, он мне хватит, в принципе)

Какие плюсы и минусы есть у этих подходов? Что стоит гуглить и читать? н

 , , ,

phrm
()

Британский блоггер попал в ангар, где стоят два Бурана.

Форум — Talks

Есть такой британец, с фетишем на всё советское. Ему получилось попасть в ангар, где стоят два Бурана. https://youtu.be/0fZ-r5Qe3tM?t=2013

Линукс при том, что если бы Бураны летели сегодня, то, с вероятностью 84%, на них стоял бы именно Линукс. Но, они больше не летали. Sic transit gloria mundi

 

phrm
()

Рабочее место линуксоида глазами ИИ

Галерея — Рабочие места

Попросил midjourney представить себе рабочее место линуксоида.

Слева - четыре варианта ответа на запрос «linuxoid workplace». Справа - результат потока сознания на запрос «photo of a dystopian workplace of a linux hacker, steampunk style, rainbow pony , closup on the linux terminal».

Хотели бы вы так жить?

>>> Просмотр (2696x1192, 4723 Kb)

 ,

phrm
()

Болгарская кириллица - отдельный сет в юникоде?

Форум — Talks

Непонятно почему, у меня в фиде появился пост на Болгарском.

screenshot

Я немного удивился тому, что буквы «не наши». В принципе, я знал, что есть такое понятие как «Болгарица», но думал это просто разные фонты. Оказывается - нет.

 

phrm
()

Как правильно хостить зоопарк веб-аппликаций?

Форум — Development

Имеется комманда дата сайентистов. Кто пишет на питоне, кто на R. Иногда они строят веб-аппликации для демонстраций и т.п. Кто использует shiny (R), кто bokeh или streamlit (python). Хотелось бы дать возможность хостить весь этот зоопарк на одном сервере AWS, так, чтобы девелоперы не заморачивались с аутентикацией и прочими вещами. Но я даже не знаю что гуглить.

Как мы работаем сейчас?

Имеется машина на aws с известным IP адресом. Человек запускает в ней screen, там запускает сервер (кто shiny, кто streamlit, кто bokeh), пытаясь угадать какой порт еще не занят. Когда надо показать аппликацию клиенту, шлем ему адрес по типу http://111.222.333.44:1111. Контроль доступа осуществляется тем, что «никто» не знает адрес IP.

И вот этот ужас я хочу исправить. Нужна какая-то система, которая даст возможность быстро хостить аппликации, с контролем доступа.

 

phrm
()

Bluetooth гарнитура похожая на старые телефоны

Форум — Talks

Я когда-то видел гарнитуру которая выглядит как старый телефон (что-то по типу Нокии 105). Не могу найти ни на ибее, ни на дилекстриме, нигде. Помогите пожалуйста

 

phrm
()

ХэшКод, русский клон StackOverflow, стал частью StackExchange

Новости — Документация
Группа Документация

StackOverflow - это популярная система вопросов и ответов о программировании на английском языке. Разработчики StackOverflow назвали ХэшКод «самым лучшим клоном». 11 июня было объявлено, что ХэшКод стал частью StackOverflow и будет жить по адресу ru.stackoverflow.com.Все вопросы и ответы на StackOverflow и его дочерних форумах доступны под свободной лицензией Creative Commons

>>> Подробности

 

phrm
()

Электроники, что делать если музыкальный инструмент фонит?

Форум — Talks

Купил я своему чаду вот такой набо электронных барабанов : http://www.pyleaudio.com/sku/PED03/Electronic-Drum-Set-with-Natural-Response-... (PylePro PED03). Подключил к наушникам, а там — довольно-таки сильный фоновой шум. Я проверил две пары наушников и динамики — фон есть.

Возможно-ли как-то этот фон подавить?

 ,

phrm
()

Как починить некорректное поведение «стрелочных» кнопок?

Форум — Development

Коллеги,

Я подключаюсь к Дебиан-машине через SSH. Кнопки стрелок работают нормально в консоли. Но в программах, которые читают STDIN, вместо ожидаемого поведения (курсор двикается в лево/право), отображаются непонятные знаки:

BOX]temp$ cat tmp.py
while True:
 n = raw_input("enter something >")
 print ">%s<" % n


SBX]temp$ python tmp.py
enter something >Tut zhmem strrelky nazad^[[D^[[D^[[D i vprered^[[C^[[C^[[C
>Tut zhmem strrelky na i vprered   <
enter something >^CTraceback (most recent call last):
  File "tmp.py", line 2, in <module>
    n = raw_input("enter something >")
KeyboardInterrupt
BOX]temp$
phrm
()

... если завтра в поход

Галерея — Рабочие места

Мой прошлый скриншот (Война войной, а диссертация по расписанию) был очень успешным. Поэтому, разбирая старые фотографии, я решил сделать сиквел. Эта фотография сделана год назад. Я дослужился до старшего медика пехотного батальона. Ночь. Наши славные бойцы ушли арестовывать нехороших людей и потенциальных террористов. Моя команда, часть группы поддержки, стоит неподалеку на шухере, готовы оказать первую медицинскую помощь если что. Вся машина дремлет, а мне нельзя. Сижу, слушаю рацию и изучаю R для моей новой работы.

На экране: Леново T430. На нем Убунту 12.04 и РСтудио. Ну и антураж...

>>> Просмотр (1600x1200, 546 Kb)

 ,

phrm
()

Мужик изобрел велосипед (из картона)

Форум — Talks

не изобрел, конечно, а построил, но всё-таки... велосипед из картона

http://www.youtube.com/watch?feature=player_embedded&v=txSboSNQINs

Я только не понял из чего цепь сделана?

 

phrm
()

Можно-ли подключить такой монитор к компьютеру?

Форум — Linux-hardware

Вот такой монитор с входом A/V http://www.dealextreme.com/p/4-3-lcd-monitor-for-visual-reversing-vehicles-re... У компьютера есть выход DVI и HDMI. К последнему подключен основной монитор. Можно-ли, при помощи DVI-AV переходника подключить этот монитор к компьютеру в качестве дополнительного мониторчика если известно что «обычный» DVI монитор подключается к компьютеру без проблем

phrm
()

[арабский язык] что здесь написано?

Форум — Talks

[арабский язык] что здесь написано?

http://imageshack.us/photo/my-images/849/45253952.jpg

phrm
()

Как отличить картинку от случайного набора пикселей

Форум — Development

Вот есть такая ч/б картинка: http://imageshack.us/photo/my-images/208/dotsr.png/

на ней серые кружочки на сером фоне. Иногда кружочки светлее фона, иногда - наооборот. А есть другая картинка: на ней те-же самые пиксели, которые частично (или полностью) были перемешаны (переставленны местами). Какие существуют методы, при помощи которых можно разлечить такие картинки?

phrm
()

[питон][гуй] выбор фреймворка и компонентов для простой утилиты

Форум — Development

Я никогда еще не писал ГУЙ. Внезапно меня попросили написать утилиту в которой: (1) юзер выберает файл картинки (тиф 2000х8000 пикселей) (2) получает превью картинки (3) может подогнать яркость и контраст (4) выставить горизонтальную планку на картинке (5) нажать ОК для дальнейшей работы. После этого, утилита получает координату горизонтальной планки и делает свое чёрное дело.

Я пишу на питоне. Подскажите какой фреймворк выбрать и на какие компоненты/классы этого фреймворка смотреть.

Спасибо

 

phrm
()

RSS подписка на новые темы