LINUX.ORG.RU

Baytrail full X11 freeze

 , , , ,


6

8

Проблему уже не раз поднимал на форуме оффтопиком и в IRC-конфе.

Суть проблемы:

  • Во время работы получаю полный фриз системы (сначала замирает мышка и изображение, через небольшую паузу выключается звук). И подобное замершее состояние может быть минутами, до хард ресета.
  • Предположительно проблема проявляется при включенном Google Chrome, много реже - при использовании Firefox. Грешил на flashplugin, но проблема проявляется и без оного. Думаю на кривые vaapi в драйверах.
  • В системе монитор весит на верхней панельке - не происходит Out Of Memory, память на момент падения свободна примерно наполовину, остальное - кэшировано, своп свободен. Сильной загрузки HDD нет, сильной загрузки процессора нет.
  • Под оффтопиком проблема не проявляется, совсем.
  • Оффтопиком пользоваться не могу, неудобно.

Имеется железо:

Asus X200MA (он же Asus X200M)
Intel(R) Pentium(R) CPU  N3540  @ 2.16GHz
Intel Corporation Atom Processor Z36xxx/Z37xxx Series Graphics & Display (rev 0e)

Софт:

Fedora 22, netinstall.
Mate Desktop.
Mate Applications.
LibreOffice.
Различные Development Tools.
Google Chrome.
Skype (проблема проявляется и при отсутствии оного, и на дебиане).
Telegram (аналогично Skype).
Yandex-disk (аналогично, проблема проявляется и без оного).
Mpv.
Драйвера с 01.org (проблема проявляется и на тех же драйверах из репозиториев дебиана/репозиториев Fedora + RPMfusion):
intel-gpu-tools.x86_64 2.99.917-22.intel20152
libva.x86_64 1.6.0-22.intel20152
libva-intel-driver.x86_64 1.6.0-22.intel20152
libva-utils.x86_64 1.6.0-22.intel20152
xorg-x11-drv-intel.x86_64 2.99.917-22.intel20152

Всё это на brtfs. На ext4 проблема так же проявляется.

Что изменено относительно дефолтной федоры:

GRUB_CMDLINE_LINUX="rhgb quiet intel_pstate=disable acpi_osi= video.use_native_backlight=1"

cat /etc/X11/xorg.conf.d/20-intel.conf 
Section "Device"
    Identifier "card0"
    Driver "intel"
    Option "Backlight" "intel_backlight"
    BusID "PCI:0:2:0"
EndSection

Section "InputClass"
        Identifier "touchpad catchall"
        Driver "synaptics"
        MatchIsTouchpad "on"
        MatchDevicePath "/dev/input/event*"
	Option "TapButton1" "1"
	Option "TapButton2" "3"
	Option "TapButton3" "2"
EndSection

Что делал:

  • Из вики Archlinux'а: If you are using kernel 4.0.X or above on Baytrail architecture and frequently encounter complete system freezes (especially when watching video or using GFX intensivelly), you should try adding the following kernel option as a workaround, until this bug will be fixed permanently. intel_pstate=disable
  • Как видно в изменениях, правил опции ядра для работы fn-клавиш. Соответствующая тема. С ядра 4.2.x перестала работать строка video.use_native_backlight=1, пришлось создать файл 20-intel.conf в xorg.conf.d. В дебиане эта строка не работала никогда.
  • Изменены шрифты (мало ли): установлен freetype-freeworld, конфигурационный файл стащен из вики дебиана fonts.

Какие логи нужны? (прикреплю при первом же падении, оно падает практически рандомно). Хотел, называется EeePC и поменьше геморроя. Получил кучу потерянных отчётов в универе.

За исключением утреннего фриза (сегодня, 13 ноябра 2015) остальные падения соответствовали описанию на арчевики: просмотр youtube, проигрывание музыки вк, и смена таба/трека/закрытие таба браузера/вообщеничегонеделание. Сегодня утром упал тогда, когда хром был в диалогах вконтакте, музыки не было, работал с LibreOffice и QtCreator'ом.

Upd: journalctl before and after freeze: https://gist.github.com/merhalak/a8e1801657b1fe9e5bbf
По отдельности:
До:https://gist.github.com/merhalak/d6ca878442c4ca191378
После:https://gist.github.com/merhalak/de4d2f816c8ba86140f5

Solution: запрещаем ускорение хз чего в /etc/X11/xorg.conf.d/..-intel.conf. Если такого файла нет, тащим его из /usr/...

Option "NoAccel" "True"
Upd: Нет, решение не сработало и на 5% батарейки комп завис.
Придётся искать другое решение.

Upd: Пробую форсить tsc.
Upd: К чертям tsc, не в нем дело. Два зависания за минуту получил.

Deleted

Последнее исправление: merhalak (всего исправлений: 14)

Ответ на: комментарий от Deleted

Не было с тех пор ни одного фриза, а сегодня опять началось. И теперь даже не знаю куда копать — то ли это от того что обновления на биос накатил, то ли от того что с гнома и всего его окружения на i3wm перекатился, а может какие-то обновления поломали.. Все как-то одновременно случилось и два фриза за сутки.

Ох, я в отчаянии, так не хочется опять со всем этим возиться.

vasiliy_sychev
()
Ответ на: комментарий от Deleted

В общем, это гадание на кофейной гуще. Пробовал ставить последнее 4.4 ядро - зависает. Откатил биос, откатился обратно на лтс ядро. Сутки поработало, сегодня прилетело минорное обновление для ядра и зависло через полчаса. Откатился с 4.1.15, которое прилетело, на 4.1.13, что указывал на первой странице. 4.1.14 вроде бы тоже работало, но мне кажется все это вообще никак не связано.

Дополнительно к pstate, выключил еще и cstate, как в последнем комменте тут https://bugs.launchpad.net/ubuntu/ source/xserver-xorg-video-intel/ bug/1453298 рекомендуют.

Отпишусь через неделю.

vasiliy_sychev
()
Ответ на: комментарий от vasiliy_sychev

На сайте интела (на форуме) есть обсуждение, где говорят, что баг именно cstate. Пробовал не настраивать отключение pstate, а настроить только max cstate на 1?

Deleted
()

кроме шуток

запихни pit в clocksource. Это связано с рядом неудобств, но тебе шашечки или ехать?

wakuwaku ★★★★
()
Ответ на: комментарий от Deleted

Насколько я помню, это крайне либеральный программный таймер, но он работает только с X86-32 и с 1 ядром (без SMP). У меня аптайм благодаря нему поднимался с минут-часов до недель. Не скажу чем это вызвано было на самом деле, там ещё было «clocksource is unstable» в dmesg, но факт остаётся фактом — это наиболее жизнеспособный таймер (хоть и не точный, время будет убегать) и может быть решением в таких ситуациях (пермафриз без видимых причин).

wakuwaku ★★★★
()
Ответ на: комментарий от anonymous

он давал немного лучший результат нежели tsc (больший аптайм), но в конечном счёте фризы возникали всё так же часто. jiffies и acpi_pm были хуже tsc

wakuwaku ★★★★
()
Ответ на: комментарий от vasiliy_sychev

Скопируй свой grub_cmdline сюда? А то я рач поставил 2го числа и через 3 минуты словил фриз. Правда я первый раз воспользовался bootctl.

Кстати, любопытная шняга: то ли ноут, то ли монитор высокочастотно пищит, когда включен linux и подключен к внешнему монитору через hdmi to dvi. В оффтопике такого не наблюдается.

Deleted
()
Последнее исправление: merhalak (всего исправлений: 2)
Ответ на: комментарий от Nyan404

Вон, Василий Сычев чуть выше пишет, что ему помогло intel_idle.max_cstate=1 в GRUB_CMDLINE. Мне оно не помогло, приходится сидеть под оффтопиком.

Deleted
()
Ответ на: комментарий от Nyan404

В общем, я переехал на оффтопик 8.1 на близжайший год. Может перееду обратно, но уже с другим железом (думаю мигрировать на intel nuc на celeron 847, у sandy bridge этот баг не наблюдается, пофиг на производительность). Потом на AMD Zen APU (если не загнутся, и больше никаких интелов).

На старый нюк, т.к. у меня валяется 16G DDR3 1333, которые фиг куда присобачишь, а тратить 24к на нюк на ивике жаба душит, да и одни и те же проблемы придется решать (мало портов и аудиовыходов нет).

Deleted
()
Последнее исправление: merhalak (всего исправлений: 1)

А ты уверен, что всё дело только в проце/видяхе? (извини, обсуждение не очень читал)

Я недавно напоролся на ноут, где проблема состоит из связки - Биос/проц/вайфай/что-то ещё. Тоже фризы смертельные. Пока копался, видел много подозрений на проблему именно проца и модуля вайфай (что-то они поделить не могут). При чём и на линуксе и на винде. Никакого решения люди, похоже, не нашли, только такое, типа «заработало... ай нет, показалось» И что-то много таких. Мне надоело мучиться с ним, приходилось внешним вайфаем цепляться, вернул продавцу.

Deleted
()
Ответ на: комментарий от Nyan404

Пробросил в Virtual Box 5.x с виндой USB (то ещё извращение, зато работает, через wine даже не пробуй). И через rufus.

Deleted
()
Последнее исправление: merhalak (всего исправлений: 1)
Ответ на: комментарий от Deleted

В dmesg никаких логов по фризу.

да и это одна из тех проблем, что никаких следов ни в каких журналах.

Но, может и не то. Удачи.

Deleted
()
Ответ на: комментарий от Deleted

Жаль, что minix не распространен. Микроядро бы не делало логов только в случае проблем с CPU.

Deleted
()
Ответ на: комментарий от Deleted
cat /boot/loader/entries/arch.conf 
title	Arch Linux
linux	/vmlinuz-linux
initrd	/initramfs-linux.img
options	root=/dev/sda2 rw intel_idle.max_cstate=1

У меня тоже bootctl. Проблем с тех пор как поставил cstate не было. Ноут Dell 3147 с N3530, если что.

vasiliy_sychev
()
Ответ на: комментарий от vasiliy_sychev

У меня Pentium N3540, и cstate не помог. Либо я не сделал что-то вроде update-grub. Или не требуется для bootctl?

Правда у меня есть ещё проблема: постоянный пронзительный писк, при подключении компа по HDMI (на оффтопике, опять же, нет такого). У тебя такое наблюдается?

Deleted
()
Последнее исправление: merhalak (всего исправлений: 1)
19 февраля 2016 г.
Ответ на: комментарий от Deleted

Фризы на Bay Trail

Присоединяюсь к обсуждению. У меня планшет на Bay Trail (Atom Z3735F), аналогичные проблемы. Стоит арч с XFCE, ядро дефолтное (4.4.1), пробовал ..cstate=0, =1, без толку, рандомно фризит намертво. Пробовал из AUR ядро linux-baytrail (4.1.7). Один чёрт. С pstate не экспериментировал. Есть ли новости у топикстартера? Подойдёт любой решение, в т.ч. костыли))

FlyingBuzz
()
Ответ на: Фризы на Bay Trail от FlyingBuzz

Я на оффтопике сижу. Подкоплю денег - свичну железо.

Мне cstate так же не помогает. pstate тоже.

В рассылке по багу пишут, что ядро из гита (4.5 rc3 вроде) работает. Хотя там ещё какие то патчи накладывают.

У меня нет возможности развлекаться с этим багом.

В той же рассылке пишут про то, что это со стороны ядра баг. Думаю испытать FreeBSD-current, когда появится возможность.

Deleted
()
Последнее исправление: merhalak (всего исправлений: 2)
Ответ на: комментарий от Deleted

Фризы на Bay Trail

Продолжаем бороться, параметры ядра (4.4.1-2 i686):

... clocksource=tsc intel_pstate=disable intel_idle.max_cstate=1 i915.semaphores=1

Дополнительный подгон для Xorg:

[flyingbuzz@littlemonster ~]$ cat /etc/X11/xorg.conf.d/10-card.conf 
Section "Device"
   Identifier "Intel Graphics"
   Driver "intel"
   Option "NoAccel" "True"
   Option "DRI" "False"
EndSection

В BIOS поставил вначале жоско Intel max C-state = 1, там можно указать. Затем вообще отключил секцию.

Пока стабильность улучшилась значительно. Но иногда виснет.

FlyingBuzz
()
Ответ на: комментарий от Deleted

Я победил!

Сразу кастану KivApple, ибо заинтересованное лицо.

Нашёл-таки рабочее сочетание! Устанавливаем по wiki Арч i686 на внутреннюю память с GRUB. После этого накатываем всё по вкусу (я юзаю XFCE).

Чтобы на первых порах не фризило особо часто, нужно сразу добавить:

tsc=reliable clocksource=tsc intel_pstate=disable intel_idle.max_cstate=1
в параметры загрузки.

Далее качаем ядро и хэдеры 4.3.3-33 отсюда: https://www.bazdara.com/arch/i686/ Ставим, пишем следующие опции:

[flyingbuzz@littlemonster ~]$ cat /proc/cmdline 
BOOT_IMAGE=/boot/vmlinuz-linux-T100 root=UUID=513cb4f7-f7b7-42ef-9fee-67174d419ced rw quiet tsc=reliable clocksource=tsc intel_pstate=disable intel_idle.max_cstate=1 audit=0

Что у меня в modprobe.d:

[flyingbuzz@littlemonster ~]$ cat /etc/modprobe.d/blacklist.conf 
blacklist evbug
[flyingbuzz@littlemonster ~]$ cat /etc/modprobe.d/i915.conf 
options i915 modeset=1 enable_rc6=1 enable_fbc=1 semaphores=1

Для иксов использую вот что:

[flyingbuzz@littlemonster ~]$ cat /etc/X11/xorg.conf.d/50-baytrail-sna-enable.conf 
Section "Device"
    Identifier  "Configured Video Device"
    Driver      "intel"
    Option      "AccelMethod"  "sna"
EndSection

Для поворота экрана использую:

[flyingbuzz@littlemonster ~]$ cat rr.sh 
#!/bin/bash
xrandr -o right
xinput set-prop 'Goodix Capacitive TouchScreen' 'Coordinate Transformation Matrix' 0 1 0 -1 0 1 0 0 1
и
[flyingbuzz@littlemonster ~]$ cat rn.sh 
#!/bin/bash
xrandr -o normal
xinput set-prop 'Goodix Capacitive TouchScreen' 'Coordinate Transformation Matrix' 1 0 0 0 1 0 0 0 1

Сам модуль для тачскрина в ядре не собран, у меня собрался и отлично работает этот: https://github.com/hadess/gt9xx/tree/karsten-merker

Вифи стандартно работают отсюда: https://github.com/hadess/rtl8723bs

Вроде всё, самый главный результат - полное отсутствие фризов в течение рабочего дня под самыми разными видами нагрузки. Время работы от батареи (у меня 9000mAh) - овер 10 часов беспрерывно. Вот сейчас у меня 14:55, включил в 9:00. Заряд 51%

Кстати, как определить заряд, повторюсь. Вывел на панель xfce выхлоп скрипта:

[flyingbuzz@littlemonster ~]$ cat battery.sh 
#!/bin/sh
value=`i2cget -y -f 4 0x34 0xb9`
value=$(($value - 0x80))
echo $value

Не работают: звук (в 4.5rc5 были попытки проклюнуться, динамики щёлкали, но звука не было, а настроек микшера рабочих я не нашёл. Ну и фиг с ним, я на работе радио слушаю). И блюпуп. Но блюпуп я не ковырял, возможно он заведется с полпинка как и вифи. Тогда возможен сценарий с блюпуп-наушниками.

Отписывайтесь, как ваши успехи. Надеюсь на дальнейшее плодотворное сотрудничество.

FlyingBuzz
()

Дамы и господа, те, кто ещё борются.

Мне лень менять систему не во время каникул (учебный процесс терять не хочется), но я залез в документацию по линейке процессоров BayTrail и нашёл Errata:

VLP2 Quad Word Transactions in Violation of Programming Model May Result in System Hang Problem: Quad word (64 Bit data) transactions to access two adjacent 32 Bit registers of SoC internal devices that do not support such transactions may cause system hang. Implication: Due to this erratum, violations of a device programming model may result in a hang instead of a fatal Target Abort / Completer Abort error. Software written in compliance to correct programming model will not be affected. Workaround: Software must be written and compiled in compliance to correct programming model. Status: For the steppings affected, see Summary Table of Changes.

Попробуйте 32-х битные дистрибутивы, кому не влом?

Deleted
()
Последнее исправление: merhalak (всего исправлений: 1)
Ответ на: комментарий от Deleted

Дамы и господа, те, кто ещё борются.

С чем бороться-то?

Планшет на Z3735 Fedora22, иногда виснет WiFi, иногда не просыпается (когда батарейка садится ;)

[~]$ uname -a
Linux localhost.localdomain 4.1.2 #1 SMP Sun Jul 19 18:31:16 MSK 2015 i686 i686 i386 GNU/Linux
[~]$ lspci
00:00.0 Host bridge: Intel Corporation Atom Processor Z36xxx/Z37xxx Series SoC Transaction Register (rev 0d)
00:02.0 VGA compatible controller: Intel Corporation Atom Processor Z36xxx/Z37xxx Series Graphics & Display (rev 0d)
...
[~]$
Основной комп на J1900, CentOS7 (с которого пишу), никаких проблем.
[~]$ uname -a
Linux arson 4.4.3-1.el7.elrepo.x86_64 #1 SMP Thu Feb 25 17:09:04 EST 2016 x86_64 x86_64 x86_64 GNU/Linux
[~]$ lspci
00:00.0 Host bridge: Intel Corporation Atom Processor Z36xxx/Z37xxx Series SoC Transaction Register (rev 0c)
00:02.0 VGA compatible controller: Intel Corporation Atom Processor Z36xxx/Z37xxx Series Graphics & Display (rev 0c)
...
[~]$ 

Предположительно проблема проявляется при включенном Google Chrome...

IceWM, Seamonkey, LO, VLC и там, и там.

arson ★★★★★
()
Ответ на: комментарий от Deleted

У тебя на J1900 с cstate никаких проблем?
Основной комп на J1900, CentOS7 (с которого пишу), никаких проблем.

Планшет на Fedora 23 на 32-х битной системе?
Планшет на Z3735 Fedora22
Linux localhost.localdomain 4.1.2 #1 SMP Sun Jul 19 18:31:16 MSK 2015 i686 i686 i386 GNU/Linux

?!

arson ★★★★★
()
Ответ на: комментарий от Deleted

Powertop, J1900

PowerTOP 2.7      Overview   Idle stats   Frequency stats   Device stats   Tunables                                     


          Package   |             Core    |            CPU 0
                    |                     | C0 active   0,4%
                    |                     | POLL        0,0%    0,0 ms
                    | C1 (cc1)   99,4%    | C1-BYT     14,8%    4,5 ms
C2 (pc2)    0,0%    |                     |
                    |                     |
C6 (pc6)    0,0%    | C6 (cc6)    0,0%    | C6S-BYT     3,7%    2,2 ms
                    |                     | C7S-BYT    50,9%   32,2 ms

                    |             Core    |            CPU 1
                    |                     | C0 active   0,7%
                    |                     | POLL        0,0%    0,0 ms
                    | C1 (cc1)   99,0%    | C1-BYT	0,5%    0,5 ms
                    |                     |
                    |                     |
                    | C6 (cc6)    0,0%    | C6S-BYT     6,7%    2,9 ms
                    |                     | C7S-BYT    62,4%   39,5 ms

                    |             GPU     |
                    |                     |
                    | Powered On  1,9%    |
                    | RC6        98,1%    |
                    | RC6p        0,0%    |
                    | RC6pp	  0,0%    |
                    |                     |
                    |                     |

arson ★★★★★
()
Ответ на: комментарий от arson

Забавно. А у меня N3540 с любыми параметрами подвисает через некоторое время.

Ща погоняю LiveDVD KDE от CentOS, может там есть патчи от красношапки какие-нибудь? Не верю в то, что на дефолте не виснет.

Deleted
()
Ответ на: комментарий от Deleted

LiveDVD KDE от CentOS

ядро из elrepo (под планшет вообще самосбор), за KDE вообще не ручаюсь.

arson ★★★★★
()
Ответ на: комментарий от arson

J1900

Вообще-то у меня J1800, выдал желаемое за действительное :)

arson ★★★★★
()
Ответ на: комментарий от arson

Там не скорость и подтормаживания. Там сначала замирает весь интерфейс, включая клавиатуру (даже в виртуальную консоль не переключиться), через секунд 5 умирает музыка на фоне, и только вентилятор шумит. Я ждал часа 3 отмирания (оставлял ноутбук на зарядке) - ничего, даже экран не гасит.

Deleted
()

Словил фриз системы под новым Intel NUC на Intel Haswell i3 4010U.

Похоже, это не проблема BayTrail. Что стоит: драйвера Intel из репозиториев Fedora (подключен RPMFusion free|nonfree). Что сделал: запустил glxgears с vblank_mode=0, запустил intel_gpu_top в терминале от root, начал перетаскивать терминал в правую половину экрана (mate, включен композитор) и в тот момент, когда должен был сработать тайлинг (расположение в правой половине экрана) я поймал фриз. Journalctl потерял последние 15 минут логов, поэтому о ошибке ничего не узнать.

Стоят:

intel-gpu-tools
libva
libva-intel-driver
libva-utils
xorg-x11-drv-intel
Вот теперь я понимаю тех, кто матерился на journalctl. Похоже, его надо переконфигурировать.

И только что проверил: если запустить в mate-terminal vblank_mode=0 glxgears, а в другом su, затем intel_gpu_top и таскать туда-сюда второе окно, то фриз неминуем.

Deleted
()
Последнее исправление: merhalak (всего исправлений: 2)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.