Чтобы скрипт быстрее

python, чудокод

1

2

import random
with open("file1", "ab") as f1:
    for x in range(2000000):
        f1.write(bytes([random.randint(0,255)]))

Подскажите пути повышения производительности, но без платформозависимых /dev/urandom и нестандартных библиотек

Ссылка

←	При вызове «vfprintf(stderr, format, ap)» дважды на экран выводится мусор. Можно ли обойтись без va_copy?

Python, как удалить элемент в списке во время перебора?

→

Ты не тот язык для задачи такой выбрал. Если тебе нужна производительность возьми C и т.д. P.S. можешь написать расширение на C для Python и использовать его.

deterok ★★★★★
(26.01.17 09:06:52 MSK)

Ответ на: комментарий от deterok 26.01.17 09:06:52 MSK

Ты тоже. Ему просто надо перестать индусской хернёй страдать.

Goury ★★★★★
(26.01.17 09:17:14 MSK)

Ссылка

1) Если Python 2 - используй xrange 2) Формируй большой буфер в памяти и большими блоками пиши в файл - это точно поможет, любой язык тормозит если побайтно писать в файл

I-Love-Microsoft ★★★★★
(26.01.17 09:20:11 MSK)

Ответ на: комментарий от I-Love-Microsoft 26.01.17 09:20:11 MSK

import random
import time
start_time = time.time()

with open("file1", "ab") as f1:
    for x in range(200000):
        f1.write(bytes([random.randint(0,255)]))
    t1 = time.time()
print("dt1=" + str(t1-start_time))

with open("file2", "ab") as f1:
    m1=[]
    for x in range(200000):
        m1.append(random.randint(0,255))
    f1.write(bytes(m1))
    t2 = time.time()
print("dt2=" + str(t2-t1))

with open("file3", "ab", 1000) as f1:
    m2=[]
    for x in range(200000):
        m2.append(random.randint(0,255))
    f1.write(bytes(m2))
    t3 = time.time()
print("dt3=" + str(t3-t2))

with open("file4", "ab", 100000) as f1:
    m3=[]
    for x in range(200000):
        m3.append(random.randint(0,255))
    f1.write(bytes(m3))
    t4 = time.time()
print("dt4=" + str(t4-t3))

dt1=1.1515777111053467
dt2=0.9134173393249512
dt3=0.6354153156280518
dt4=0.6305148601531982

af5 ★★★★★
(26.01.17 10:45:35 MSK) автор топика
Последнее исправление: af5 26.01.17 10:46:59 MSK (всего исправлений: 1)

Ответ на: комментарий от af5 26.01.17 10:45:35 MSK

append не очень быстро... надо нечто, что выделит память сразу «под всё» и ты просто кладешь в элементы свои значения

I-Love-Microsoft ★★★★★
(26.01.17 10:57:05 MSK)

Ссылка

Ответ на: комментарий от af5 26.01.17 10:45:35 MSK

with open("file5", "ab", 100000) as f5:
    m4 = [random.randint(0, 255) for _ in range(200_000)]
    f5.write(bytes(m4))
    t5 = time.time()
print("dt5=" + str(t5-t4))

# Короче, но немного медленнее
with open("file6", "ab", 100000) as f6:
    f6.write(bytes(random.randint(0, 255) for _ in range(200_000)))
    t6 = time.time()
print("dt6=" + str(t6-t5))

dt1=0.5840334892272949
dt2=0.4480257034301758
dt3=0.46602630615234375
dt4=0.4580264091491699
dt5=0.41802382469177246
dt6=0.42702436447143555

Esper ★
(26.01.17 11:33:16 MSK)

Ответ на: комментарий от Esper 26.01.17 11:33:16 MSK

Как вариант

import numpy
import random
import time

def write(path, mode, size):
    with open(path, mode) as file:
        file.write( (numpy.random(size) * 255).astype(numpy.int32).tobytes() )

start_time = time.time()
write("file1", "ab", 20000)
t1 = time.time()
print("dt1=" + str(t1-start_time))

write("file2", "ab", 20000)
t2 = time.time()
print("dt2=" + str(t2-t1))

write("file3", "ab", 1000)
t3 = time.time()
print("dt3=" + str(t3-t2))

write("file4", "ab", 200000)
t4 = time.time()
print("dt4=" + str(t4-t3))

alex4321 ★
(26.01.17 11:48:23 MSK)

Ответ на: комментарий от alex4321 26.01.17 11:48:23 MSK

А, хотя - нестандартная библиотека же. Тогда я бы заморочился буфером (array, возможно?), записью наших рандомов в него (а не добавлением элементов) и, возможно - буферизацией вывода.

alex4321 ★
(26.01.17 11:57:45 MSK)

Ссылка

что бы

Deleted
(26.01.17 12:15:51 MSK)

Ссылка

Ответ на: комментарий от alex4321 26.01.17 11:48:23 MSK

в моём numpy нет numpy.random(size)
точно код правильный? и да, numpy просто ради теста, но надо без него

af5 ★★★★★
(26.01.17 12:23:38 MSK) автор топика

Подскажите пути повышения производительности, но без платформозависимых /dev/urandom и нестандартных библиотек

Очевидно же. Go.

anonymous
(26.01.17 12:27:58 MSK)

Ответ на: комментарий от af5 26.01.17 12:23:38 MSK

в моём numpy нет numpy.random(size)

with open('file7', 'ab') as f7:
    f7.write(numpy.random.randint(256, size=200_000, dtype='uint8').tobytes())
t7 = time.time()
print(f'dt7={t7-t6}')

На два порядка быстрее, однако.

Esper ★
(26.01.17 12:31:38 MSK)

Ответ на: комментарий от anonymous 26.01.17 12:27:58 MSK

Rust

alex4321 ★
(26.01.17 12:33:05 MSK)

Ссылка

Ответ на: комментарий от Esper 26.01.17 12:31:38 MSK

ну да ну да... эх.

af5 ★★★★★
(26.01.17 12:41:43 MSK) автор топика

Ответ на: комментарий от af5 26.01.17 12:41:43 MSK

Так а чем тебе сторонние либы не угодили?

Esper ★
(26.01.17 12:53:24 MSK)

Ответ на: комментарий от af5 26.01.17 12:41:43 MSK

Вот подмывало дать пример с numpy, надеюсь numpy достаточно стандартная библиотека? :) Оно кстати скорее всего внутрях создает сразу большой массив и заполняет, и небось на Си.

I-Love-Microsoft ★★★★★
(26.01.17 12:54:19 MSK)

Ссылка

Ответ на: комментарий от Esper 26.01.17 12:53:24 MSK

Я не себе пишу, юзеру еще надо будет numpy ставить, там проблема

af5 ★★★★★
(26.01.17 12:54:40 MSK) автор топика

Если 3.6, то secrets.token_bytes, иначе os.urandom

anonymous
(26.01.17 12:55:52 MSK)

Ссылка

Ответ на: комментарий от af5 26.01.17 12:54:40 MSK

А, собственно, настолько ли это большая проблема? Подтянуть numpy как зависимость хоть pip-м, хоть (для линухов) apt/rpm - не должно быть проблемой, в репах он таки есть же. Так что если планируется много числодробления - я таки серьёзно задумался бы о numpy

alex4321 ★
(26.01.17 12:58:15 MSK)

Ответ на: комментарий от alex4321 26.01.17 12:58:15 MSK

Подтянуть numpy как зависимость хоть pip-м

вы таки думаете там есть интернет? эх.

af5 ★★★★★
(26.01.17 12:59:36 MSK) автор топика

Ответ на: комментарий от af5 26.01.17 12:59:36 MSK

положить в проект, вырвать нужный кусок и положить в проект

anonymous
(26.01.17 13:00:11 MSK)

Ссылка

Ответ на: комментарий от af5 26.01.17 12:59:36 MSK

Включить в дистрибутив же. Вангану что платформа, на которой оно должно работать таки задана заранее, не?

alex4321 ★
(26.01.17 13:01:24 MSK)

Ответ на: комментарий от alex4321 26.01.17 13:01:24 MSK

Да не нужны там ни платформа ни дистрибутив, юзеру просто надо быстро создать десяток рандомных файлов заданного размера и всё на этом. Скрипт был бы вариантом, а «дистрибутив» это уже перебор

af5 ★★★★★
(26.01.17 13:05:22 MSK) автор топика

Ответ на: комментарий от af5 26.01.17 13:05:22 MSK

А что, проблема закинуть скрипт в каталог, и туда же - каталог с numpy?

Esper ★
(26.01.17 13:09:09 MSK)

Ответ на: комментарий от Esper 26.01.17 13:09:09 MSK

не проблема, а скорее решение не совсем адекватное задаче. Подождать минуту пока эти нещасные файлы создадутся без всякого нумпая в принципе тоже не проблема.

af5 ★★★★★
(26.01.17 13:14:46 MSK) автор топика

Ссылка

Ответ на: комментарий от af5 26.01.17 13:05:22 MSK

Ну, тогда - перебор, да. С другой стороны - думаю, производительность тут тоже - скорее «спортивный интерес», верно?

alex4321 ★
(26.01.17 13:16:43 MSK)

Ответ на: комментарий от alex4321 26.01.17 13:16:43 MSK

Ну для себя да, вариант с нумпаем использовал бы

af5 ★★★★★
(26.01.17 13:17:51 MSK) автор топика

Ссылка

os.urandom, раньше когда-то использовал ssl.RAND_pseudo_bytes

Leron ★★
(26.01.17 13:18:18 MSK)

Ответ на: комментарий от Leron 26.01.17 13:18:18 MSK

os.urandom

anonymous, Leron, самое то, что надо!

af5 ★★★★★
(26.01.17 13:31:20 MSK) автор топика
Последнее исправление: af5 26.01.17 13:33:20 MSK (всего исправлений: 1)

Ссылка

Пиши не по 1му байту в файл, а как уже сказали - набивай буфер размером хотя бы 64 тыщ байт (64Кб) например в строку, а потом уже эту строку сбрасывай в файл.

Добавление символа в массив, имхо, работает медленнее, чем добавление символа в строку. Ну и в файл строка быстрее должна писаться, чем массив.

~~Novator~~ ★★★★★
(28.01.17 23:31:52 MSK)

Ссылка

Писать на ЯП и выкинуть питон

silver-bullet-bfg ★★
(29.01.17 00:02:34 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	При вызове «vfprintf(stderr, format, ap)» дважды на экран выводится мусор. Можно ли обойтись без va_copy?

Development

Python, как удалить элемент в списке во время перебора?

→

Похожие темы