LINUX.ORG.RU
Ответ на: комментарий от anonymous

AAC 40 kbps нравится.

Чтобы стабильно получить 40kbps в AAC (не более0, звук надо дико предобрабатывать. Что за рецепт?

anonymous
()
Ответ на: комментарий от anonymous

преэхо никуда не делось

Оно может быть незаметно.

А может и быть. Если сей тред лишь для экспериментов — то да, можно поковыряться. Но держать фонотеку в формате с «возможно, незаметным» нежелательным эффектом лично я бы не стал.

slimblyandysh ★★★
()
Ответ на: комментарий от anonymous

это было для симбовской нокии, которая понимала только mp3 и aac

У меня в ту пору был Siemens SX1 на том же Symbian 6 — выходил из положения посредством OGGPlay.

slimblyandysh ★★★
()
Ответ на: комментарий от anonymous

Чтобы стабильно получить 40kbps в AAC (не более, звук надо дико предобрабатывать. Что за рецепт?

Частота дискретизации 22 кГц, моно, немузыкальный звук, LC профиль.

anonymous
()
Ответ на: комментарий от gtk3

Я когда в последний раз тыкал этот ogg, он даже сильнее mp3 режет высокие частоты

Обрезка высоких частот идет только на пользу звуку, так как кодер тратит больше битрейта на более слышимые полезные частоты. Конечно, спектр получается не таким красивым, как любили раньше в mp3 320 kbps под потолок (22000). Vorbis на средних и больших битрейтах подрезает на 19500. Уверен, ты не услышишь различий. И наверняка можно задать свою частоту среза.

anonymous
()
Ответ на: комментарий от slimblyandysh

Преэхо никуда не делось
Оно может быть незаметно
А может и быть

В тебе говорят mp3 страшилки древних времен. Получается и ресемплерами пользоваться нельзя, ведь там тоже может быть преехо и звон. У тебя звуковуха честно играет 44100 или ресемплит? Есть отдельный кварц на 44100 или синтезатор частот? А может быть у тебя встройка.

hobbit, наверное, читает и думает: «изучают сорта говна». Может быть, но лидеры-то никуда не делись: Opus и QAAC. А также FHG, FDK и Vorbis. А вот лидеров не раскусит и даже пытаться не станет.

anonymous
()
Ответ на: комментарий от anonymous

FDK вообще обрезает 128k на 15500. Но никто не мешает задать свою частоту.

-c:a libfdk_aac -b:a 128k -cutoff 17000
Не рекомендуется задавать выше на этом битрейте.

anonymous
()
Ответ на: комментарий от anonymous

нынешние процы это не должно нагружать, впоне вероятно обслуживание процем аппаратного декодера столько же жрёт

anonymous
()
Ответ на: комментарий от anonymous

Частота дискретизации 22 кГц

Кстати. Понижение чд на аудиокнигах даёт положительный эффект для восприятия книги. То ли как фильтр писка срабатывает, то ли звуковухи с таким звуком лучше работает. Никто не в курсе как на самом деле?

anonymous
()
Ответ на: комментарий от anonymous

для вещания, например), советую использовать -q:a 1.4 и выше (лучше -q:a 2.3 это примерно 224k

Оказывается, в режиме -q ffmpeg aac не обрезает частоты. На -q:a 2.3 на это можно забить и пустить на 200k+ всю полосу, но при -q:a 1.4 имеет смысл ограничить -cutoff 17000. Во первых, 128k с полосой 22000 это нонсенс, особенно для такого неидельного кодера, во вторых, так как режим -q, полный диапазон приведет к увеличению битрейта (144k, вместо 130k).

anonymous
()
Ответ на: комментарий от anonymous

при -q:a 1.4 имеет смысл ограничить -cutoff 17000

Вопрос только с какого потолка взято 17000? Всегда напрягало отсутствие адаптивных алгоритмов. Да, они достаточно дороги в вычислительных затратах, но результат соответствующий. Не нравится эти затраты - хорошо, делай двух- и более- проходное кодирование.

anonymous
()
Ответ на: комментарий от anonymous

на аудиокнигах

Искусственных или надиктованных человеком? Для искусственных 22 кГц родной формат, они создаются с таким параметром.

то ли звуковухи с таким звуком лучше работает. Никто не в курсе как на самом деле?

Зависит от звуковой карты. Для большинства звуковых карт родная частота 48000. При проигрывании 22050 будет применяться ресемплинг (некратный) и, если он плохой, будут слышны искажения. А чем проще сигнал (менее комплексный), тем сильнее слышны искажения. В аудиокнигах сигнал простой. Если исходник 22050, а у карты плохой ресемплер (и включить качественный в плеере нельзя) лучше привести файлы к 48000 качественным sox ресемплером. В остальных случаях для экономии места имеет смысл оставить 22 кГц. Если аудиокнига надиктована, надо смотреть какая у нее частота и есть ли проблемы с ресемплером. Приведение 48/44.1/32 к 22 действительно может иметь смысл, так как на 22 кГц максимальная частота, которую можно закодировать 11 кГц (половина от частоты дискретизации). Все шумы 11-24 будут вырезаться и это может сказаться положительно. С другой стороны, человек может производить частоты 12-15 кГц на свистящих звуках (если микрофон позволяет) и не всегда хочется их терять. Я думаю, аудиокниги, закодированные с хорошим качеством, высоким битрейтом, на хорошем микрофоне, без лишних шумов лучше не приводить к 22 кГц. Надо смотреть индивидуально. Многие дешевые микрофоны, кстати, имеют максимальную поддерживаемую частоту 10-11, все остальное шумы. Но можно и не менять частоту дискретизации, а обойтись эквалайзером. По крайней мере для тестов. Так что в звуковом файле с частотой дискретизации 48 кГц после эквалайзера вполне могут остаться частоты до, скажем, 13 кГц. Чего нельзя получить на частотах дискретизации 22 и 24 кГц. Потому эквалайзер более гибкое решение. Или шумоподавитель, главное не переусердствовать. Такой, как в Audacity двухпроходный (по отпечатку шума) не очень подходит, лучше что-то пороговое, как было в наших старых кассетниках.

anonymous
()
Ответ на: комментарий от anonymous

с какого потолка взято 17000

Чуть выше, чем 16000, которое обычно применяют на 128k. Но это для древнего mp3, на хороших кодерах можно и повыше. Opus вообще не обрезает частоты (точнее, на 20000, потому что выше человек услышать не может).

двух- и более- проходное кодирование

У Nero есть 2pass кодирование. Прямо как у видео кодеров. Но на тихих местах (с шумами разного происхождения) не обязательно будет минимальный битрейт.

anonymous
()
Ответ на: комментарий от anonymous

шумоподавитель, главное не переусердствовать. Такой, как в Audacity двухпроходный (по отпечатку шума) не очень подходит, лучше что-то пороговое, как было в наших старых кассетниках.

Опять упираемся в некий «взятый с потолка» порог. А для звука нет чего-нибудь типа «Bimodal Threshold» или «Sauvola», как для графики?

anonymous
()
Ответ на: комментарий от anonymous

Можно привести к 22 как самое просто решение по избавлению шумов книги, а потом включить в плеере ресемплер 48, чтобы избавиться от искажений некачественного аппаратного ресемплера. Тем самым убить двух зайцев.

anonymous
()
Ответ на: комментарий от anonymous

spek.cc?

Проще говоря: «Не хочешь угадывать, пили сам».

anonymous
()
Ответ на: комментарий от anonymous

У Nero есть 2pass кодирование

У Nero - есть. У остальных нет! А у mp3 не предвидится вообще.

anonymous
()
Ответ на: комментарий от anonymous

В тебе говорят mp3 страшилки древних времен.

Может и так :) в любом случае, для треда с подобным названием это ещё цветочки.

Opus и QAAC. А также FHG, FDK и Vorbis.

MusePack SV8 на средних и высоких битрейтах уделывает каждого из этого списка.

«изучают сорта говна»

Золотые слова :)

slimblyandysh ★★★
()
Ответ на: комментарий от anonymous

Даже в тогдашних реалиях это не замечалось от слова совсем. А вот треков в OGG Vorbis на MMC’ку влезало порядочно.

slimblyandysh ★★★
()
Последнее исправление: slimblyandysh (всего исправлений: 1)
Ответ на: комментарий от anonymous

У Nero какое-то странное нелинейное распределение битрейт-качество (см. список ниже). Между q0.29 и q0.30 резкий скачок битрейта 87-112. q0.31 имеет битрейт 117k с полосой 14000 Hz, а q0.32 всего 100k, но с полосой 16000 Hz. Между q0.37 и q0.38 резкий скачок битрейта 121-157. Между q0.39 и q0.40 резкий спад с 162k до 135k. Совершенно непонятная логика, не коррелирующая с полосой пропускания.

Есть 4 режима: режим качества (q), двухпроходный битрейт (2pass), средний битрейт (abr) и постоянный битрейт (cbr для стриминга, на деле никакой он не постоянный, а переменный). Релизеры обычно используют первые два, их и нужно тестировать.

q0.26 77.8k 13800-15000 Hz
q0.27 82k 13800-15100 Hz
q0.28 83.2k 13800-16000 Hz
q0.29 86.8k 13800-16000 Hz
q0.30 112k 14000 Hz
q0.31 117k 14000 Hz
q0.32 100k 16000 Hz
q0.33 104k 16000 Hz
q0.34 102k 16000 Hz +
q0.35 105k 16000 Hz
q0.36 116k 16000 Hz
q0.37 121k 16000 Hz +
q0.38 157k 17100 Hz
q0.39 162k 17500 Hz
q0.40 135k 18000 Hz +
q0.41 140k 18000 Hz
q0.42 158k 18000 Hz
q0.43 163k 18000 Hz
q0.44 169k 18000 Hz
q0.45 162k 18000 Hz +
q0.46 166k 18000 Hz
q0.47 171k 18000 Hz
q0.48 176k 18000 Hz
q0.49 181k 18000 Hz
q0.50 186k 18000 Hz
q0.51 192k 18000 Hz
q0.52 192k 18000 Hz
q0.53 199k 18000 Hz

br96 96k 2pass 16000 Hz +
br128 128k 2pass 17100 Hz +
br160 160k 2pass 18000 Hz +

abr128 132k 17100 Hz
cbr128 132k 17100 Hz Not CBR

Нет ручной регулировки полосы пропускания.
Плюсом отмечены выбранные файлы для тестирования.

Сравнить в первую очередь:
q0.37 121k 16000 Hz
br128 128k 2pass 17100 Hz
q0.40 135k 18000 Hz

Первое впечатление от 121-135k: звучание хорошее, различия придется искать под лупой.

anonymous
()
Ответ на: комментарий от anonymous

Совершенно непонятная логика, не коррелирующая с полосой пропускания.

Обычная табличная функция, основанная на опытных данных. То ли не хотели выч. затрат, то ли не хотели возиться с log-аппроксимацией. В falabaac тоже такая же была. Примитивно, но быстро.

anonymous
()
Ответ на: комментарий от anonymous

Кстати, 2pass еще есть у wma в официальном кодере от microsoft. Чем не экзотика?

anonymous
()
Ответ на: комментарий от anonymous

Женская логика

Да, с логикой у женщин действительно проблемы.

anonymous
()
Ответ на: комментарий от anonymous

Nero q0.34 и Vorbis q2.5 на 103k распознал с вероятностью 85%. Отчеты pastebin.com/raw/NwtHCyPZ Как мне кажется при недостатке битрейта на свистящих звуках голоса Nero уходит в мягкую слизь, а Vorbis в незначительный жесткач. У Vorbis параметры -q и -b это синонимы и совпадают побитово (при одинаковом битрейте). У меня вот так получилось:

ffmpeg
q2.0 cutoff 16000 96k
q2.5 cutoff 17000 104k
q4.0 cutoff 17000 128k
Но у venc сборки при том же q битрейт выше на 15k.

anonymous
()
Ответ на: комментарий от anonymous

Nero q0.34

Nero можно воспринимать только как данность, вещь в себе (его ты не изменишь). Прочие же кодеки мож скорректировать (даже просто выкладывая логи в открытый доступ).

anonymous
()
Ответ на: комментарий от anonymous

К тому же разработка давно прекращена. Последняя версия 2010 года. Но вроде как еще ее используют.

Спалил Nero на 128k. И спектр плохой по сравнению с Vorbis. Но искажения мягкие. Vorbis на 128k бьюсь бьюсь и что-то не осиливаю. Из чего можно предположить, что Vorbis лучше, чем Nero (спектр это тоже подтверждает). Вроде бы как у Vorbis чуть скрипучее ВЧ, но пока не могу ухватиться. На битрейте 104k это улавливалось, так что это минус кодеру. Надо проверить как поведут себя фавориты.

anonymous
()
Ответ на: комментарий от anonymous

Foobar в Wine (Win7) основной регулятор громкости не работает

Это исправляется режимом WinXP. Поторопились вайновцы объявлять совместимость с Win7. Как-то можно прописать в ярлыке другую версию Windows, не меняя глобальные winecfg настройки? Не могу нагуглить.

anonymous
()
Ответ на: комментарий от anonymous

А не впишешься, так ни один декодер, кроме твоего не распарсит.

Главное вписываться в битстрим. А дальше - делай что хочешь. Как гугл со своим guetzli

devl547 ★★★★★
()
Ответ на: комментарий от anonymous

Не все аппаратные декодеры (старые сотики) его жуют.

А ты уверен, что эти же декодеры жуют ЛЮБУЮ картинку, которую сгенерирует libjpeg?

devl547 ★★★★★
()
Ответ на: комментарий от devl547

жуют ЛЮБУЮ картинку, которую сгенерирует libjpeg?

Проверенно.

anonymous
()
Ответ на: комментарий от anonymous

Новая экзотика.
Свежие тех. данные по кодерам Mainconcept AAC и Sony AAC на 128k из Sony Vegas 10:

Mainconcept AAC
Битрейт почти постоянный. Создавалось для стриминга.
Спектр неплохой до 16000.

Sony AAC
Битрейт переменный.
Спектр похуже, чем у Mainconcept, до 16000.

Дефолтный Audio FX и выбор видеопрофиля на звук никак не влияют (побитово совпадает).
WMA 10 Pro и 9 Standard из Windows 7:
WMAEncode original-16.wav 137q-pro.wma -c pro -q 75 -m vbr (137k)
WMAEncode original-16.wav 128b-pro.wma -c pro -b 128 -m vbr2pass (128k)

WMAEncode original-16.wav 175q-standard.wma -c std -q 90 -m vbr (175k)
WMAEncode original-16.wav 128b-standard.wma -c std -b 128 -m vbr2pass (128k)

pro работает только в 24 бит, принимает на вход и 16 бит
standard в режиме q на частоте 48000 работает только с качеством 90 и 98

после ffmpeg декодирования в 32 bit float:
pro - тайминг аккуратный, в конце 32 мс тишины
standard - сдвинут на 86 мс, в конце 72 мс тишины
128b-pro и 128b-standard спектр 16000-18000, у pro получше
137q-pro и 175q-standard спектр до 20000

По данным plotbitrate у 128b-standard битрейт постоянный 128k
По данным plotbitrate у 175q-standard битрейт постоянный 192k, как в информации ffmpeg
Возможно plotbitrate врет
Сравнение частей файла 128b-pro показывает, что скорее всего битрейт постоянный
Сравнение частей файла 175q-standard показывает, что скорее всего битрейт слабопеременный, почти постоянный
Удалось упаковать wma (в том числе pro) в mka с помощью ffmpeg. В дальнейшем MKVToolnix работает с этими mka. Данные MediaInfo и ffmpeg для файла 137q-pro.mka:
General
Complete name                            : 137q-pro.mka
Format                                   : Matroska
Format version                           : Version 4
File size                                : 4.69 MiB
Duration                                 : 4 min 46 s
Overall bit rate                         : 138 kb/s
Writing application                      : Lavf58.29.100
Writing library                          : Lavf58.29.100
ErrorDetectionType                       : Per level 1

Audio
ID                                       : 1
Format                                   : WMA
Format profile                           : Pro
Codec ID                                 : A_MS/ACM / 162
Codec ID/Info                            : Windows Media Audio
Duration                                 : 4 min 46 s
Bit rate                                 : 192 kb/s
Channel(s)                               : 2 channels
Sampling rate                            : 48.0 kHz
Bit depth                                : 32 bits / 24 bits
Stream size                              : 6.55 MiB
Default                                  : Yes
Forced                                   : No
Input #0, matroska,webm, from 137q-pro.mka:
  Metadata:
    ENCODER         : Lavf58.29.100
  Duration: 00:04:46.12, start: 0.000000, bitrate: 137 kb/s
    Stream #0:0: Audio: wmapro (b[1][0][0] / 0x0162), 48000 Hz, stereo, fltp, 192 kb/s (default)
    Metadata:
      DURATION        : 00:04:46.122000000
Интересно, что в данных кодека битрейт 192k (стандартное значение), а в данных контейнера правильная цифра. У Vorbis тоже так бывает. Bit depth 32 bits / 24 bits значит: исходный формат 24 бит, будет декодироваться в 32 бит.
Еще не слушал. Сравнивать придется wav'ы, декодированные ffmpeg. Foobar в Wine не поддерживает wma, так как использует майкрософтовский декодер. К тому же этот декодер работает только в 16 и 24 битах (не в 32, как ffmpeg).

anonymous
()
Ответ на: комментарий от anonymous

Из оригинальных заголовков следует, что битрейт должен быть переменным. Хотя, возможно это какой-то всплеск.

General
Complete name                            : 128b-pro.wma
Format                                   : Windows Media
File size                                : 4.42 MiB
Duration                                 : 4 min 47 s
Overall bit rate mode                    : Variable
Overall bit rate                         : 129 kb/s
Maximum Overall bit rate                 : 148 kb/s
Encoded date                             : UTC 2020-04-16 15:48:14.324

Audio
ID                                       : 1
Format                                   : WMA
Format profile                           : Pro
Codec ID                                 : 162
Codec ID/Info                            : Windows Media Audio
Description of the codec                 : Windows Media Audio 10 Professional - 128 kbps, 48 kHz, 2 channel 24 bit 2-pass VBR
Duration                                 : 4 min 47 s
Bit rate mode                            : Variable
Bit rate                                 : 128 kb/s
Channel(s)                               : 2 channels
Sampling rate                            : 48.0 kHz
Bit depth                                : 24 bits
Stream size                              : 4.39 MiB (99%)
Language                                 : Russian
Также заголовки содержат:
  Metadata:
    WMFSDKNeeded    : 0.0.0.0000
    DeviceConformanceTemplate: M1
    WM/WMADRCPeakReference: 24391
    WM/WMADRCPeakTarget: 24391
    WM/WMADRCAverageReference: 9093
    WM/WMADRCAverageTarget: 9093
    WMFSDKVersion   : 12.0.7601.17514
    IsVBR           : 1

anonymous
()
Ответ на: комментарий от anonymous

распознал с вероятностью 85%

Нет. 85% — это вероятность того, что результат твоего распознавания не есть случайный выбор. Этого недостаточно. Примерно те же 85% будут (даже 86), если ты угадаешь в 56 случаях из 100. Что как бы намекает.

anonymous
()
Ответ на: комментарий от anonymous

Mainconcept AAC
Sony AAC
WMA 10 Pro
WMA 9 Standard

Вроде, ничего особо критичного я в них не слышу. WMA немного грубоват. mp3 128k, кстати, помягче будут (но легко угадываются по тарелкам, артефакты так и прут). А вообще, мне все это надоело. Перехожу на lossless.

anonymous
()
Ответ на: комментарий от anonymous

мне все это надоело. Перехожу на lossless.

Ты не провёл главное сравнение: Влияние dct+квантование на восприятие звука. И здесь тебе могли помочь только LossyWav и WavPack(lossy mode). В них DCT(и соответственно квантования) нет.

anonymous
()

Нет. Для оцифровки только Lossless. Ogg только для прослушивания, а не для хранения.

peregrine ★★★★★
()
Ответ на: комментарий от anonymous

Залей, я послушаю

Как же я на своей железе отловлю границы искажений, которые будут слышны/неслышны на твоей железе? Так никакой тест не получится!

anonymous
()
Ответ на: комментарий от anonymous

Различил Opus на 64k. Плохой негодный битрейт.

foo_abx 2.0.6c report
foobar2000 v1.5.1
2020-04-19 01:20:32

File A: original.wav
SHA1: 7b1a6090328e64b8a70ca523ce4370ebc5f2820e
Gain adjustment: -6.64 dB
File B: 64.opus
SHA1: 51fb449428de3a1992a5b75edde8c9777970fe9f
Gain adjustment: -6.66 dB

Output:
DS : Primary Sound Driver, 32-bit
Crossfading: NO

01:20:32 : Test started.
01:22:18 : 01/01
01:22:40 : 02/02
01:23:08 : 03/03
01:23:30 : 04/04
01:23:53 : 05/05
01:24:16 : 06/06
01:24:35 : 07/07
01:25:13 : 08/08
01:25:13 : Test finished.

 ---------- 
Total: 8/8
p-value: 0.0039 (0.39%)

 -- signature -- 
ca60228c68bc357fa390bb552da002d7a0cf0185

mp3 128k, кстати, помягче будут (но легко угадываются по тарелкам, артефакты так и прут

Но это, если кодить в ffmpeg, а если напрямую в lame

lame --cbr -b 128 -q 0 -m j --noreplaygain input.wav output.mp3
то гораздо лучше (и мягко), но иногда все равно выделяются различия склизлые. Кстати, буквально несколько дней назад вышла новая сборка https://www.videohelp.com/software/Lame-MP3 (она теперь работает на XP), а в арче старье https://www.archlinux.org/packages/extra/x86_64/lame/

FDK (от Poikosoft) на удивление неплохо звучит на 96k, я бы сказал, что он лучше, чем Vorbis. А вот в QAAC 96k мне показалось, что свистящие звуки несколько смазаны. Битрейт в QAAC имеет более высокие пики. Там есть опция --stat показывающая таблицу битрейтов файла.

anonymous
()
Ответ на: комментарий от anonymous

И как вы слушаете это говно, если даже Opus не справляется?

Хорошо вбросил! Толсто так!

anonymous
()
Ответ на: комментарий от anonymous

в QAAC 96k мне показалось, что свистящие звуки несколько смазаны

Ахах. Распознал QAAC на cvbr 96k

foo_abx 2.0.6c report
foobar2000 v1.5.1
2020-04-19 02:42:58

File A: original.wav
SHA1: 7b1a6090328e64b8a70ca523ce4370ebc5f2820e
Gain adjustment: -6.64 dB
File B: 96cvbr.m4a
SHA1: 73d6a7b5eda8694f4dd3dfcadf9558aa0aba5b2d
Gain adjustment: -6.57 dB

Output:
DS : Primary Sound Driver, 32-bit
Crossfading: NO

02:42:58 : Test started.
02:44:34 : 01/01
02:47:12 : 02/02
02:48:05 : 03/03
02:48:36 : 04/04
02:49:29 : 05/05
02:51:39 : 06/06
02:52:15 : 07/07
02:52:42 : 08/08
02:52:42 : Test finished.

 ---------- 
Total: 8/8
p-value: 0.0039 (0.39%)

 -- signature -- 
5e8825eab10ab0ae9dd5b2d4dad109621a971938
QAAC говно... В смысле, хуже, чем FDK.
Но на самом деле кодер тоже хороший, потому что не забываем, что битрейт 96k.
Все пруфы в виде файлов могу залить торрентом (от вас требуется внешний IP), потому что у меня исходящий канал плохой и на файлобменниках заливка постоянно рвется.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.