LINUX.ORG.RU

Baytrail full X11 freeze

 , , , ,


6

8

Проблему уже не раз поднимал на форуме оффтопиком и в IRC-конфе.

Суть проблемы:

  • Во время работы получаю полный фриз системы (сначала замирает мышка и изображение, через небольшую паузу выключается звук). И подобное замершее состояние может быть минутами, до хард ресета.
  • Предположительно проблема проявляется при включенном Google Chrome, много реже - при использовании Firefox. Грешил на flashplugin, но проблема проявляется и без оного. Думаю на кривые vaapi в драйверах.
  • В системе монитор весит на верхней панельке - не происходит Out Of Memory, память на момент падения свободна примерно наполовину, остальное - кэшировано, своп свободен. Сильной загрузки HDD нет, сильной загрузки процессора нет.
  • Под оффтопиком проблема не проявляется, совсем.
  • Оффтопиком пользоваться не могу, неудобно.

Имеется железо:

Asus X200MA (он же Asus X200M)
Intel(R) Pentium(R) CPU  N3540  @ 2.16GHz
Intel Corporation Atom Processor Z36xxx/Z37xxx Series Graphics & Display (rev 0e)

Софт:

Fedora 22, netinstall.
Mate Desktop.
Mate Applications.
LibreOffice.
Различные Development Tools.
Google Chrome.
Skype (проблема проявляется и при отсутствии оного, и на дебиане).
Telegram (аналогично Skype).
Yandex-disk (аналогично, проблема проявляется и без оного).
Mpv.
Драйвера с 01.org (проблема проявляется и на тех же драйверах из репозиториев дебиана/репозиториев Fedora + RPMfusion):
intel-gpu-tools.x86_64 2.99.917-22.intel20152
libva.x86_64 1.6.0-22.intel20152
libva-intel-driver.x86_64 1.6.0-22.intel20152
libva-utils.x86_64 1.6.0-22.intel20152
xorg-x11-drv-intel.x86_64 2.99.917-22.intel20152

Всё это на brtfs. На ext4 проблема так же проявляется.

Что изменено относительно дефолтной федоры:

GRUB_CMDLINE_LINUX="rhgb quiet intel_pstate=disable acpi_osi= video.use_native_backlight=1"

cat /etc/X11/xorg.conf.d/20-intel.conf 
Section "Device"
    Identifier "card0"
    Driver "intel"
    Option "Backlight" "intel_backlight"
    BusID "PCI:0:2:0"
EndSection

Section "InputClass"
        Identifier "touchpad catchall"
        Driver "synaptics"
        MatchIsTouchpad "on"
        MatchDevicePath "/dev/input/event*"
	Option "TapButton1" "1"
	Option "TapButton2" "3"
	Option "TapButton3" "2"
EndSection

Что делал:

  • Из вики Archlinux'а: If you are using kernel 4.0.X or above on Baytrail architecture and frequently encounter complete system freezes (especially when watching video or using GFX intensivelly), you should try adding the following kernel option as a workaround, until this bug will be fixed permanently. intel_pstate=disable
  • Как видно в изменениях, правил опции ядра для работы fn-клавиш. Соответствующая тема. С ядра 4.2.x перестала работать строка video.use_native_backlight=1, пришлось создать файл 20-intel.conf в xorg.conf.d. В дебиане эта строка не работала никогда.
  • Изменены шрифты (мало ли): установлен freetype-freeworld, конфигурационный файл стащен из вики дебиана fonts.

Какие логи нужны? (прикреплю при первом же падении, оно падает практически рандомно). Хотел, называется EeePC и поменьше геморроя. Получил кучу потерянных отчётов в универе.

За исключением утреннего фриза (сегодня, 13 ноябра 2015) остальные падения соответствовали описанию на арчевики: просмотр youtube, проигрывание музыки вк, и смена таба/трека/закрытие таба браузера/вообщеничегонеделание. Сегодня утром упал тогда, когда хром был в диалогах вконтакте, музыки не было, работал с LibreOffice и QtCreator'ом.

Upd: journalctl before and after freeze: https://gist.github.com/merhalak/a8e1801657b1fe9e5bbf
По отдельности:
До:https://gist.github.com/merhalak/d6ca878442c4ca191378
После:https://gist.github.com/merhalak/de4d2f816c8ba86140f5

Solution: запрещаем ускорение хз чего в /etc/X11/xorg.conf.d/..-intel.conf. Если такого файла нет, тащим его из /usr/...

Option "NoAccel" "True"
Upd: Нет, решение не сработало и на 5% батарейки комп завис.
Придётся искать другое решение.

Upd: Пробую форсить tsc.
Upd: К чертям tsc, не в нем дело. Два зависания за минуту получил.

Deleted

Последнее исправление: merhalak (всего исправлений: 14)
Ответ на: комментарий от Deleted

И только что проверил: если запустить в mate-terminal vblank_mode=0 glxgears, а в другом su, затем intel_gpu_top и таскать туда-сюда второе окно, то фриз неминуем.

Попробуете завести багрепорт?

RussianNeuroMancer ★★★★★
()
Ответ на: комментарий от arson

иногда не просыпается (когда батарейка садится ;)

То есть в целом спящий работает нормально? В dmesg при загрузке нет никаких «WARNING: CPU: 2 PID: 1 at /home/kernel/COD/linux/drivers/pinctrl/intel/pinctrl-baytrail.c:212 byt_gpio_request+0xb0/0xe0()»? Нету «[drm:pwm_setup_backlight [i915]] *ERROR* Failed to own the pwm chip»? Или есть, но на спящий режим это не влияет? (Пытаюсь понять, или мне сначала по этим двум проблема репорт заводить, или сразу можно переходить к спящему.)

RussianNeuroMancer ★★★★★
()
Ответ на: комментарий от RussianNeuroMancer

И что мне в описание бага писать? Ошибки xsession ничего не содержат. Journalctl теряет записи за пять минут работы, о ошибке ничего нет.

Deleted
()
Ответ на: комментарий от RussianNeuroMancer

То есть в целом спящий работает нормально?

В целом, на одном (Z3735D, PMIC - ROHM2610), нормально:

[  283.688683] PM: Syncing filesystems ... done.
[  283.712500] PM: Preparing system for freeze sleep
[  283.712703] Freezing user space processes ... (elapsed 0.002 seconds) done.
[  283.715642] Freezing remaining freezable tasks ... (elapsed 0.001 seconds) done.
[  283.717642] PM: Entering freeze sleep
[  283.717647] Suspending console(s) (use no_console_suspend to debug)
[  283.802745] RTL871X:  suspend start
[  284.028414] RTL871X: nolinked power save leave
[  284.232745] RTL871X: rtw_cmd_thread(wlan0) stop_req:1, break
[  284.234656] RTL871X: rtw_dev_unload: driver not in IPS
[  284.243969] RTL871X: rtw suspend success in 441 ms
[  284.686795] PM: suspend of devices complete after 969.253 msecs
[  284.703803] PM: late suspend of devices complete after 17.000 msecs
[  284.715746] PM: noirq suspend of devices complete after 11.931 msecs
[  284.715752] PM: suspend-to-idle
[  370.988375] PM: resume from suspend-to-idle
[  371.000566] PM: noirq resume of devices complete after 12.061 msecs
[  371.044491] i2c_designware 80860F41:05: timeout waiting for bus ready
[  371.044508] Goodix-TS i2c-GDIX1001:00: I2C transfer error: -110
[  371.090351] i2c_designware 80860F41:05: timeout waiting for bus ready
[  371.090358] Goodix-TS i2c-GDIX1001:00: I2C write end_cmd error
[  371.106491] Goodix-TS i2c-GDIX1001:00: I2C transfer error: -121
[  371.149543] PM: early resume of devices complete after 148.909 msecs
[  371.275744] RTL871X: resume start
[  372.833085] RTL871X: rtw_resume_common:0 in 1558 ms
[  372.837408] PM: resume of devices complete after 1688.364 msecs
[  372.837735] PM: Finishing wakeup.
[  372.837739] Restarting tasks ... done.
на втором (Z3736F, PMIC -AXP288), не нормально:
[   39.874482] PM: Syncing filesystems ... done.
[   39.919631] Freezing user space processes ... (elapsed 0.001 seconds) done.
[   39.920943] Freezing remaining freezable tasks ... (elapsed 0.000 seconds) done.
[   39.921823] Suspending console(s) (use no_console_suspend to debug)
[   39.958231] serial 00:02: disabled
[   40.365739] PM: suspend of devices complete after 442.915 msecs
[   40.382450] PM: late suspend of devices complete after 16.664 msecs
[   40.395556] PM: noirq suspend of devices complete after 13.059 msecs
[   47.767583] PM: noirq resume of devices complete after 10.566 msecs
[   47.875369] PM: early resume of devices complete after 107.377 msecs
[   47.879731] rtc_cmos 00:00: System wakeup disabled by ACPI
[   48.697818] xhci-hcd xhci-hcd.2.auto: WARN: xHC restore state timeout
[   48.697839] dpm_run_callback(): platform_pm_resume+0x0/0x50 returns -110
[   48.697853] PM: Device xhci-hcd.2.auto failed to resume: error -110
[   48.698781] PM: resume of devices complete after 822.082 msecs
[   48.699218] Restarting tasks ... done.
[   49.190775] irq 9: nobody cared (try booting with the "irqpoll" option)
[   49.190789] CPU: 0 PID: 0 Comm: swapper/0 Tainted: G        W       4.4.1-1.el7.elrepo.x86_64 #1
[   49.190793] Hardware name: To be filled by O.E.M. To be filled by O.E.M./tPAD, BIOS 5.6.5 01/16/2015
[   49.190798]  0000000000000000 ecd54cfaa3049259 ffff880079003e40 ffffffff81327400
[   49.190807]  ffff88007302f800 ffff880079003e68 ffffffff810d8175 ffff88007302f800
[   49.190814]  0000000000000000 0000000000000009 ffff880079003ea0 ffffffff810d84cf
[   49.190820] Call Trace:
[   49.190824]  <IRQ>  [<ffffffff81327400>] dump_stack+0x44/0x64
[   49.190842]  [<ffffffff810d8175>] __report_bad_irq+0x35/0xd0
...
[   49.190973] handlers:
[   49.190979] [<ffffffff813a5de1>] acpi_irq
[   49.190984] Disabling IRQ #9
Т.е. он входит и выходит, потом работает, но больше не входит :).
Но у него помимо этого у него проблем выше крыши.

Правда с первым я ковырялся несколько месяцев, пока ядро настроил, а на второй просто CentOS с ядром с elrepo поставил (с ядром от первого не лучше).
Вот сейчас 4.5 вышло, у меня отпуск, будет попытка №2...

arson ★★★★★
()
Ответ на: комментарий от RussianNeuroMancer

Ну я такой не видел.
Но сейчас потестировал, все-таки глюки после suspend-ram есть, то тач отвалится, то wifi.
Просто я обычно его выключаю совсем, благо включается всего за 15 сек.

arson ★★★★★
()
Ответ на: комментарий от arson

то тач отвалится, то wifi

Что-нибудь на эту тему в dmesg появляется, или отваливаются по-тихому?

Ну я такой не видел.

Ясненько, значит сначала придётся разбираться с репортами по ошибкам в dmesg.

RussianNeuroMancer ★★★★★
()
Ответ на: комментарий от Deleted

Трансляция логов по сети, вот тут пример настройки и написано как принимать логи. Может чего полезное и выплюнет - проверять надо. Перед тестом на зависание убедитесь, что штатные сообщения доставляются по netconsole (например выполнив «echo 'testmessage' > /dev/kmsg»).

Но вообще по уму вам нужно ловить не те зависания, которые уже обнаружены, и для которых есть пачти (раз - каталоги patches / patches_4.5, два) а те зависания, которые воспроизводятся даже с этими патчами (хотя и спустя долгие часы). С первым набором патчей уже есть собранное ядро, а с первым и вторым набором патчей у меня собралось только 32-разрядное ядро - подойдёт?

RussianNeuroMancer ★★★★★
()
Ответ на: комментарий от Deleted

Не, не заводится netconsole с WiFi-адаптерами (по крайней мере с теми, что у меня есть в наличии). Однако, имею сказать, что с двумя наборами патчей и набором опций «tsc=reliable force_tsc_stable=1 clocksource=tsc clocksource_failover=tsc» я с Z3735G зависания воспроизвести больше не смог, хотя по десять часов пока высиживать не пробовал. Пробовал с ядрами 4.5 и 4.6 отсюда, применённые к ним патчи собраны здесь.

RussianNeuroMancer ★★★★★
()
Ответ на: комментарий от RussianNeuroMancer

Решил проверить новое ядро на наличие проблем с BayTrail.

Уже час не могу уронить Fedora 24 Workstation Alpha на ядре 4.5.0-0.rc7.git0.2.fc24.x86_64.

Похоже, что проблему решили в апстриме.

Deleted
()
Ответ на: комментарий от Deleted

Нет, эта два набора патчей в апстрим пока что не уходили. Как пытаетесь уронить? Данный фриз специфичен для ситуации когда проц уходит в глубокие C-state, то есть при малой нагрузке, и неактивном обновлении экрана. Хотя есть и другие способы, которые скорее всего являются другим багом - например, браузер (с включённым аппаратным рендером) с роликами YouTube на одну половину экрана, а glxgears на другую. Альтернативно вместо YouTube можно попробовать просто воспроизводить видео по кругу (наверное лучше с vaapi).

RussianNeuroMancer ★★★★★
()
Ответ на: комментарий от RussianNeuroMancer

Проверял вторым способом. У меня именно он ронял всё. Плюс работа композитора. Последний чуть ли не мгновенно ронял.

Правда, я так понимаю, я работал с Wayland версией Gnome 3. Т.к. xev определял все Fn сочетания клавиш, но ни одно из них не обрабатывалось гномом.

Слелаю полноценную проверку после выхода Fedora 24.

Deleted
()
Последнее исправление: merhalak (всего исправлений: 3)

[T100] SigLevel = Never Server = http://bazdara.com/arch/i686

Сегодня прилетело обновление на ведро linux 4.5.1, заботливо собранное этими чуваками с метеостанции. Завалил все опции, касающиеся clocksource и cstate/pstate. Полет нормальный! Вифи и тачскрин работают, батарея показывает 100% как и раньше, но заряд читается через тот-самый-скрипт.

Если будет фризить - отпишусь, если нет, возрадуйтесь!

FlyingBuzz
()
Ответ на: комментарий от greenman

Я пользуюсь 3D (играюсь понемножку), а modesetting там только 2D через Glamour.

Сейчас пользуюсь говнодесяткой, но что поделать. Жду фикса (обещают в 4.6), либо лета (чтоб начать городить свои костыли).

Deleted
()
Ответ на: комментарий от Deleted

Какие камеры в вашем планшете стоят? В моём случае это OV2680 (фронт) и GC310 (тыл) и в Винде оба драйвера поставляются Intel, поэтому думаю что имеет смысл всё-таки написать в ядерную багзиллу, но лучше если нас будет несколько :)

RussianNeuroMancer ★★★★★
()
21 июля 2016 г.
Ответ на: комментарий от arson

таже фигня

Похожие симптомы на thinkpad e11. Помогло отключение в биосе всякой фигни связанной с автоматическим понижением частоты CPU для экономии питания.

Alis_X
()
Ответ на: комментарий от timdorohin

Скажу так: ближе к августу я приеду к своему нетбуку и проверю. Сейчас он у меня в ремонте (я клаву как то неудачно проспиртовал, в результате одиночные клавиши работают, сочетания - нет).

Тему твою пока добавил в избранное.

Deleted
()
Последнее исправление: merhalak (всего исправлений: 1)

Возился с таким. Перекопал все форумы,перепробовал кучу настроек, ставил разные ядра и дистрибы. В итоге забил и поставил винду.

Deleted
()
Ответ на: комментарий от Deleted

Сейчас уже делают патчи по отключению некоторых режимов энергосбережения для BayTrail. Пройдет год-другой и будет юзабельно из коробки.

Deleted
()
Ответ на: комментарий от Deleted

У меня вроде с патчем как-то все энергосбережение работает... Весь патч - это мердж интеловского гита i915 + BFS...

timdorohin ★★★★
()
Ответ на: комментарий от Deleted

работало только без ускорения вообще, зависая намертво через минуты две...

timdorohin ★★★★
()
Ответ на: комментарий от mystery

n3050, google-chrome 52.0.2743.82-1

Даже ыгры работают... ЧЯДНТ?

Там баг в i915, пофиксили только в 4.7, из-за него при включенном ускорении ядро сваливалось в панику через пару минут...

timdorohin ★★★★
()
Ответ на: комментарий от Deleted

Сглючил, сглючил и мой j1800 (так, что у меня тоже baytrail :)

Проапгрейдил недавно, доставил 2G RAM (итого 4G), запустил createrepo на большом количестве файлов, он выжрал под кэш/буфера (сам то он не много жрет) всю оперативку и упал... и 3.10.0-327.22.2, и 4.6.4-1 упал, а 4.7.0-1 не упал.

Оперативка исправна. С 2Gb - все нормально, с 3Gb (опцей mem= ядра) - все нормально, а с 4 падает, падает .... на старый ядрах (CentOS 64bit)

arson ★★★★★
()

В интернетах пишут что проблема не в ядре, а в графических драйверах Intel i9xx DRM. Ставил ядра 4.6.Х и 4.7.2 это проблему не решило. Зато нашел ppa с свежими графическими драйверами (Драйвер для видеокарт Intel) и обновился, остался на ядре 4.6.7 Прошли уже сутки ни одного зависания.

P.S. Ноут Asus X200MA, CPU N3530

zyxar
()
Ответ на: комментарий от zyxar

Спасибо. Правда мой X200MA потерял контроллер батареи (залил спиртом), посему меня теперь касается не линукс больше, а замена матери.

Deleted
()
Последнее исправление: merhalak (всего исправлений: 1)

Опция *NO_X_DURATION* при компиляции упустил

vvsdd
()
Ответ на: комментарий от zyxar

Какие сейчас у тебя дрова? Версия xserver-xorg-video-intel?

Deleted
()
Последнее исправление: merhalak (всего исправлений: 1)
Ответ на: комментарий от Deleted

Судя по тому что каждый день сыплются обновления из этой репы, похоже что это development ветка, со всеми отсюда вытекающими проблемами, но пока все работает :D

Package: xserver-xorg-video-intel
Version: 2:2.99.917+git1608291931.74e4c1~gd~x
Priority: optional
Section: x11
Maintainer: Ubuntu Developers <ubuntu-devel-discuss@lists.ubuntu.com>
Original-Maintainer: Debian X Strike Force <debian-x@lists.debian.org>
Installed-Size: 3 272 kB
Provides: xorg-driver-video
По факту, свежие драйвера не решили проблему, ноут таки завис один раз, мучал я его целый день, браузером Chrome(ноут чаще всего вешался в нем), VLС, glxgears и так по мелочи.

С ядром 4.6.7 зависания случались реже, чем например на 4.7.2 или на стоковых ядрах 4.4, но это мои субъективные ощущения :-)

Почитал каменты здесь: bugzilla.kernel.org, добавил в grub intel_idle.max_cstate=2 и решил забить на это дело, до выхода нового ядра с решенной проблемой.

P.S. Каменты интересные, там есть скрипт отключающий С6 state из-за которого происходят зависания и включающий С7 state, а также данные на сколько возрастет энергопотребление, если не давать cpu глубоко заснуть в состоянии idle с опциями intel_idle.max_cstate=1, intel_idle.max_cstate=2 и в нормальном состоянии.

zyxar
()
9 ноября 2016 г.

Заметка: надо попробовать опцию: i915.enable_rc6=0

Deleted
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.