Как проверить поддержку big.little архитектуры в планировщике?

0

4

У меня ноутбук с 1355U. На нём 2 быстрых ядра и 8 медленных.

Насколько я нагуглил, поддержка Alder Lake (первая архитектура с разными ядрами) появилась в ядре 5.13. Но с тех пор в разных патчах её дорабатывали.

В первую очередь меня беспокоит именно поддержка со стороны планировщика. Чтобы он понимал (честно говоря даже не представляю, как), какие процессы надо на быстрые ядра распределять, а какие - на медленные. Полагаю, что это очень сильно будет влиять на опыт использования компьютера.

Я сейчас выбираю между RHEL и Fedora. В Fedora ядро достаточно новое и лучше уже не будет, это понятно. Но она мне не очень нравится по некоторым другим причинам (слишком быстро обновляется, слишком современный софт). RHEL меня устраивает всем, кроме именно этого нюанса.

Мой ноутбук вроде сертифицирован для RHEL, но это ведь значит лишь то, что там всё как-то работает. В последнем RHEL ядро 5.14, но понятно, что эта цифра сама по себе ни о чём не говорит, т.к. они бэкпортируют некоторые фичи из новых версий. Но вот какие именно фичи они бэкпортируют - я не нашёл.

Поэтому меня интересует практический вопрос - как вообще можно проверить работу планировщика наглядно и сравнить её между двумя дистрибутивами. Чтобы я загрузился с одного, проверил, загрузился с другого, проверил, и увидел отличия (или их отсутствие).

Пока в голову приходит только несколько раз позапускать какой-то тест, грузящий CPU, вроде openssl speed. И убедиться, что пока их запущено не более двух штук, то они выдают максимально возможную скорость (т.е. пока доступны быстрые ядра, планировщик не будет использовать медленные).

Вообще в макоси в API есть возможность указать, что поток должен работать на медленном ядре. И нормально написанные приложения этой возможностью пользуются. Поэтому там с какой-то точки зрения работа планировщика даже проще. В Linux, я так понимаю, ничего подобного нет и для планировщика все потоки изначально равны и только по каким-то эвристикам он может понять, какие из них важней для пользователя?

←	MNT Reform - модульный ноутбук с открытыми компонентами

Роутер за $50 для openWRT

→

← 1 2 →

Ответ на: комментарий от vbr 27.04.24 06:38:18 MSK

Вы оба в чём то правы, но как раз в сумме задача получается охрененно сложной и юзеру бы сначала самому определиться что ему нужно... А ведь это ещё в дело не вступили муки выбора включить ли буст частоты одному из Р-ядер и тротлить остальные или наоборот выровнять частоты равномерно или вообще меньше кидать на Р и больше на Е чтобы экономить энергию в ущерб скорости.

kirill_rrr ★★★★★
(10.05.24 20:34:08 MSK)

Ответ на: комментарий от kirill_rrr 10.05.24 20:27:39 MSK

Нет, не просто, там площадь всего ядра урезается и сказывается это худшими частотами.

i3 в 4-х поточных нагрузках уступает i7 и i9 всего 10%

Эм, ну какгбе в ш3 как раз четыре ядра.

современному жирнокоду важен именно объём кеша а не частоты и продвинутость ядра

5X3D сосут у 7* без X3D

anonymous
(10.05.24 20:39:25 MSK)

Ответ на: комментарий от kirill_rrr 10.05.24 20:27:39 MSK

А тот код, которому не важен - он и паралелится легко, и на слабых ядрах хорошо живёт.

Так не бывает, всегда есть какой-то боттлнек.

anonymous
(10.05.24 20:41:52 MSK)

Ответ на: комментарий от rtxtxtrx 27.04.24 06:47:43 MSK

а еще там ублюдский podman вместо нормального docker

whbex@macbook:~$ sudo dnf in docker
Последняя проверка окончания срока действия метаданных: 1:05:14 назад, Пт 10 мая 2024 19:35:53.
Зависимости разрешены.
================================================================================
 Пакет              Архитектура   Версия                    Репозиторий   Размер
================================================================================
Установка:
 moby-engine        x86_64        24.0.5-4.fc40             fedora         28 M
Установка зависимостей:
 containerd         x86_64        1.6.23-5.fc40             fedora         39 M

Ага, она по умолчанию из него VS Code ставит

Потому что в репозиториях его нет. Поставь с сайта, фиг ли.
Как в убунте флатпак тут никто не продвигает, dnf не ставит заглушку с flatpak пакетом.

whbex ★★
(10.05.24 20:43:01 MSK)

Ответ на: комментарий от i586 27.04.24 07:24:32 MSK

Нет, дело не в этом.
https://gitlab.gnome.org/GNOME/mutter/-/merge_requests/1441

whbex ★★
(10.05.24 20:46:13 MSK)

Ответ на: комментарий от anonymous 10.05.24 20:39:25 MSK

Эм, ну какгбе в ш3 как раз четыре ядра.

Ага, и поэтому в 6-и и 8-и поточных уже существенно проигрывает. Было бы в i5 просто 8Р-ядер - остальные можно было бы даже не выпускать.

5X3D сосут у 7* без X3D

Там сложнее. X3D-версии лучше в играх, что ризен5, что ризен7. А для компиляции, инжинерки и браузера - лучше обычный. И в ноутах тоже - автономность, X3D ещё и жрёт прилично.

kirill_rrr ★★★★★
(10.05.24 20:48:19 MSK)
Последнее исправление: kirill_rrr 10.05.24 20:48:47 MSK (всего исправлений: 1)

Ответ на: комментарий от anonymous 10.05.24 20:41:52 MSK

Ага, и сейчас это скорее всего будут не ядра цпу.

kirill_rrr ★★★★★
(10.05.24 20:51:39 MSK)

Ответ на: комментарий от kirill_rrr 10.05.24 20:51:39 MSK

И что же тогда? ИИ-обсерлераторы, которые уже начали пихать, или ещё какой-то мёртвый груз?

anonymous
(10.05.24 21:05:00 MSK)

Ответ на: комментарий от kirill_rrr 10.05.24 20:48:19 MSK

Не, в игорах 7xxx обычный как 5xxxX3D.

anonymous
(10.05.24 21:06:33 MSK)

Ответ на: комментарий от anonymous 10.05.24 21:05:00 MSK

Да хоть бы банальные 2 канала памяти (или вообще один). Или видеокарта. Или тайминги. Или всё сожрёт бессмысленная фоновая нагрузка вроде пары банеров и вращающегося индикатора, реализованного сложными векторами на числах с плавающей точкой, прозрачностью на гпу и всё это в 240фпс которые ты даже не увидишь.

kirill_rrr ★★★★★
(10.05.24 21:12:09 MSK)

Ответ на: комментарий от anonymous 10.05.24 21:06:33 MSK

А 7xxxX3D ещё на 20-30% быстре. А 5xxx соответственно медленней 5xxxX3D. Это 9ххх - слегка форсированные 7ххх, а разница между 5 и 7 линейками серьёзная.

kirill_rrr ★★★★★
(10.05.24 21:13:12 MSK)
Последнее исправление: kirill_rrr 10.05.24 21:14:10 MSK (всего исправлений: 1)

Ответ на: комментарий от kirill_rrr 10.05.24 19:52:44 MSK

stress-ng не выдаёт попугаев, поэтому наверное лучше это проверить на 7z.

$ sudo tlp-stat -p
--- TLP 1.6.1 --------------------------------------------

+++ Processor
CPU model      = 13th Gen Intel(R) Core(TM) i5-1340P

/sys/devices/system/cpu/cpu0/cpufreq/scaling_driver    = intel_pstate
/sys/devices/system/cpu/cpu0/cpufreq/scaling_governor  = performance
/sys/devices/system/cpu/cpu0/cpufreq/scaling_available_governors = performance powersave
/sys/devices/system/cpu/cpu0/cpufreq/scaling_min_freq  =   400000 [kHz]
/sys/devices/system/cpu/cpu0/cpufreq/scaling_max_freq  =  4600000 [kHz]
/sys/devices/system/cpu/cpu0/cpufreq/cpuinfo_min_freq  =   400000 [kHz]
/sys/devices/system/cpu/cpu0/cpufreq/cpuinfo_max_freq  =  4600000 [kHz]
/sys/devices/system/cpu/cpu0/cpufreq/energy_performance_preference = performance [EPP]
/sys/devices/system/cpu/cpu0/cpufreq/energy_performance_available_preferences = default performance balance_performance balance_power power 

/sys/devices/system/cpu/cpu1..cpu15: omitted for clarity, use -v to show all

/sys/devices/system/cpu/intel_pstate/status            = active
/sys/devices/system/cpu/intel_pstate/min_perf_pct      =  10 [%]
/sys/devices/system/cpu/intel_pstate/max_perf_pct      = 100 [%]
/sys/devices/system/cpu/intel_pstate/no_turbo          =   0
/sys/devices/system/cpu/intel_pstate/hwp_dynamic_boost =   1
/sys/devices/system/cpu/intel_pstate/turbo_pct         = (not available) 
/sys/devices/system/cpu/intel_pstate/num_pstates       = (not available)
/sys/module/workqueue/parameters/power_efficient       = N
/proc/sys/kernel/nmi_watchdog                          = 0

+++ Platform Profile
/sys/firmware/acpi/platform_profile                    = performance
/sys/firmware/acpi/platform_profile_choices            = low-power balanced performance
/sys/devices/platform/thinkpad_acpi/dytc_lapmode       = 0

$ 7z b 1 -mmt8                                                                    
                                                                                  
7-Zip (z) 23.01 (x64) : Copyright (c) 1999-2023 Igor Pavlov : 2023-06-20
 64-bit locale=en_US.UTF-8 Threads:16 OPEN_MAX:1024, ASM            
                                                                                  
 mt8                                                                              
Compiler: 13.2.1 20240206 [revision 67ac78caf31f7cb3202177e6428a46d829b70f23] GCC 13.2.1: SSE2                                                                     
Linux : 6.8.8-1-default : #1 SMP PREEMPT_DYNAMIC Mon Apr 29 05:24:46 UTC 2024 (5cd3298) : x86_64
PageSize:4KB THP:always hwcap:2 hwcap2:2                                          
13th Gen Intel(R) Core(TM) i5-1340P (B06A2)                             
                                                                                  
1T CPU Freq (MHz):  4387  4562  4571  4584  4556  4572  4585                                                                                                        
8T CPU Freq (MHz): 712% 3470   672% 3213   
                                                                                                                                                                    
RAM size:   13638 MB,  # CPU hardware threads:  16                                                                                                                  
RAM usage:   1779 MB,  # Benchmark threads:      8
                                                                                  
                       Compressing  |                  Decompressing
Dict     Speed Usage    R/U Rating  |      Speed Usage    R/U Rating 
         KiB/s     %   MIPS   MIPS  |      KiB/s     %   MIPS   MIPS
                                                                                                                                                                    
22:      54526   722   7347  53043  |     560588   696   6866  47803   
23:      45693   684   6811  46556  |     523094   714   6339  45249   
24:      48090   787   6574  51707  |     500925   713   6168  43951              
25:      42182   694   6935  48162  |     459603   722   5662  40895   
----------------------------------  | ------------------------------                                                                                                
Avr:     47623   722   6917  49867  |     511052   711   6259  44474                                                                                                
Tot:             716   6588  47171

$ taskset --cpu-list 0-7 7z b 1 -mmt8                                             
                                                                                  
7-Zip (z) 23.01 (x64) : Copyright (c) 1999-2023 Igor Pavlov : 2023-06-20
 64-bit locale=en_US.UTF-8 Threads:16 OPEN_MAX:1024, ASM            
                                                                                  
 mt8                                                                              
Compiler: 13.2.1 20240206 [revision 67ac78caf31f7cb3202177e6428a46d829b70f23] GCC 13.2.1: SSE2                                                                     
Linux : 6.8.8-1-default : #1 SMP PREEMPT_DYNAMIC Mon Apr 29 05:24:46 UTC 2024 (5cd3298) : x86_64
PageSize:4KB THP:always hwcap:2 hwcap2:2                                          
13th Gen Intel(R) Core(TM) i5-1340P (B06A2) 
                                         
1T CPU Freq (MHz):  4561  4577  4567  4587  4584  4585  4587        
4T CPU Freq (MHz): 397% 4368   391% 4259                                                                                                                            
                                                                                  
RAM size:   13638 MB,  # CPU hardware threads:   8 / 16 : 00FF      
RAM usage:   1779 MB,  # Benchmark threads:      8                                                                                                                  
                                                                                                                                                                    
                       Compressing  |                  Decompressing   
Dict     Speed Usage    R/U Rating  |      Speed Usage    R/U Rating
         KiB/s     %   MIPS   MIPS  |      KiB/s     %   MIPS   MIPS

22:      48699   710   6671  47375  |     569282   794   6114  48544
23:      45594   723   6421  46455  |     522035   790   5718  45157
24:      42652   729   6288  45860  |     486794   790   5409  42711
25:      39776   729   6227  45416  |     447204   794   5009  39791
----------------------------------  | ------------------------------
Avr:     44180   723   6402  46276  |     506329   792   5562  44051
Tot:             758   5982  45164

rupert ★★★★★
(10.05.24 21:49:23 MSK)

Ответ на: комментарий от rupert 10.05.24 21:49:23 MSK

Интересно. А если на 8 Е-ядер? И что если поиграться номерами ядер и уронить 4 потока на Е-ядра и по 1 потоку на 1 физическое Р-ядро?

kirill_rrr ★★★★★
(10.05.24 22:16:34 MSK)

Ответ на: комментарий от whbex 10.05.24 20:46:13 MSK

Я об этом и писал.
А как тогда исправили проблему в mutter 46? Я сам его не видел, но пишут, что проблема решена.

i586 ★★★★★
(13.05.24 23:29:16 MSK)

Ответ на: комментарий от kirill_rrr 10.05.24 21:12:09 MSK

Или процессор. Или, как обычно, всё сразу, чередуясь с микроскопическими интервалами.

anonymous
(13.05.24 23:38:25 MSK)

Ответ на: комментарий от anonymous 13.05.24 23:38:25 MSK

Усиление видеокарты всё ещё сильнее повышает производительность чем процессора. Причём разница между ризенами и ризенами Х3Д намекает, что роль кешей и прочей обвязки над ядром огромна.

Что я кстати вяснил, гоняя тесты на Пи4 и затем на Пи3. Как оказалось, Пи4 ведёт себя скорее как шестипоточный трёхядерник, да и у Пи3 производительность ~3 на 4-х потоках.

kirill_rrr ★★★★★
(14.05.24 08:57:58 MSK)

Ответ на: комментарий от kirill_rrr 14.05.24 08:57:58 MSK

Усиление видеокарты всё ещё сильнее повышает производительность чем процессора

Чё-то мне компиляцию это не ускорило, пожалуй больше не буду пользоваться советами с лора…

роль кешей и прочей обвязки над ядром

Это не «обвязка». Кэши это часть микроархитектуры, нельзя просто прилепить здоровый кэш к пню4 и ожидать крутого прироста, ядро должно быть спроектировано с учётом такого.

anonymous
(14.05.24 09:22:30 MSK)

Ответ на: комментарий от anonymous 14.05.24 09:22:30 MSK

Это не «обвязка». Кэши это часть микроархитектуры, нельзя просто прилепить здоровый кэш к пню4

АМД взяли и прилепили. Получили +20% игровой производительности и в итоге интел соснул в 2-х последних поколениях. А частью микроахитектуры стала Инфинити-шина, позволяющая так делать.

Кстати, в одном поколении ядер и без Инфинити-шины бывают вариации с разными объёмами кешей. И вообще, я в основном про L3 говорю, а частью ядра является максимум L1.

Чё-то мне компиляцию это не ускорило, пожалуй больше не буду пользоваться советами с лора

Компиляция это внезапно не интерактивная задача, и даже не упирающаяся в 1 главный поток. Её как раз выгодно распихивать на кучу мелких и виртуальных ядер.

kirill_rrr ★★★★★
(14.05.24 09:54:28 MSK)

Ответ на: комментарий от kirill_rrr 14.05.24 09:54:28 MSK

АМД взяли и прилепили.

4.2 Специально под большой кэш была разработана микроархитектура zen3. Zen2 с таким кэшем не было, тк это вышел бы пук в лужу со стороны амд.

интел соснул

Не во всех играх, что забавно. Вот бы интелу такой кэш, был же у них бродвелл…

Инфинити-шина, позволяющая так делать.

4.2 Кэш это часть ядра, IF используется для связи c контроллером памяти и остальной soc и традиционно является боттлнеком.

частью ядра является максимум L1

4.2

интерактивная задача

Интерактивность тут не при чём.

не упирающаяся в 1 главный поток

Всё в конце концов упирается в скорость отдельного потока, один главный тут не причём.

Её как раз выгодно распихивать на кучу мелких и виртуальных ядер

Разумеется нет, не выгодно. Это только создаёт всё растущие проблемы с их недогрузом. Идеальный проц - одно бесконечно быстрое ядро. К сожалению приходится жрать что есть.

anonymous
(14.05.24 10:18:48 MSK)

Ответ на: комментарий от anonymous 14.05.24 10:18:48 MSK

4.2 Кэш это часть ядра,

Да щас! Как будто вы не видели схемы и фото этой штуки, приляпаной поверх кристалла с ядрами. Ну и данными оно обменивается надо думать через ту же IF, которая как раз и оказывается узким местом по доступу в память, но 3ДХ-кеш всё таки быстрее.

Всё в конце концов упирается в скорость отдельного потока, один главный тут не причём.

Среди всех потоков есть 1 главный, который нельзя отмасштабировать и распаралелить просто взяв процессор с большим числом ядер. Причём скорее всего в нём находится контроллер потоков и некие критически важные операции, а всё остальное разбросается куда нибудь, и если оперативка медленная и долгая то 2 потока на ядро быстрее 1.

Идеальный проц - одно бесконечно быстрое ядро. К сожалению приходится жрать что есть.

Ну да, а идеальный работник - Супермен-телепат. Только кластеры мелких ядер существуют, мало жрут и дёшево производятся, а 1 бесконечно быстрого ядра никто ещё не видел.

К тому же 50% пользовательской нагрузки это анимация в рекламном банере, а ещё 30% это фновый телеметрический скрипт или бессмысленная анимация интерфейса и выделять под это топовое ядро в бусте - ересь.

kirill_rrr ★★★★★
(14.05.24 14:47:40 MSK)

Ответ на: комментарий от kirill_rrr 14.05.24 14:47:40 MSK

Да щас!

Как бы да. Вроде все уже слышали про общеизвестный косяк, что доступ к этому x3d кэшу быстрый только из того же чиплета. А из соседнего как раз идёт через IF настолько медленно, что половину процессора приходится прятать от игр через аффинити.

приляпаной поверх кристалла с ядрами

Как раз максимально близко к ядрам же, насколько можно в случае двух кристаллов.

Среди всех потоков есть 1 главный

Ну в играх может и есть, в общем случае в каждый момент времени разные потоки оказывается боттлнеком и постоянно меняются в такой роли. Иначе бы все натурально делали одно быстрое ядро и кучу мелких.

кластеры мелких ядер существуют, мало жрут

Не, жрут дофига. Если точнее, требуют большего напряжения и приходится их андерклокать, чтобы завышенным напряжением не жарить более нормальные P-ядра. Вот такой кекус.

и дёшево производятся

А производятся точно за ту же цену, монолитный кристалл по тому же техпроцессу.

anonymous
(14.05.24 15:17:29 MSK)

Ответ на: комментарий от anonymous 14.05.24 15:17:29 MSK

А производятся точно за ту же цену, монолитный кристалл по тому же техпроцессу.

Так у них транзисторов то поменьше - самые дорогие и сложные плюшки можно выкинуть. И те же кеши поскромнее, а на них много транзисторов надо.

доступ к этому x3d кэшу быстрый только из того же чиплета. А из соседнего как раз идёт через IF настолько медленно,

Ну, даже если так - х3д один хрен оказывается физически за пределами чиплета, хотя даже внутри кристалла Л2 и Л3 кеши это физически отдельный от вычислительных ядер блок, вариабельный по объёму в одной линейке.

kirill_rrr ★★★★★
(14.05.24 19:03:45 MSK)

Ответ на: комментарий от kirill_rrr 14.05.24 19:03:45 MSK

кеши это физически отдельный

Физически он тупо на том же кристалле, так что нет. Всё часть ядра что не сидит на кольцевой шине или что там за аналог у амд.

х3д один хрен оказывается физически за пределами чиплета

А подключен как обычный кэш. В том и суть этой слойки.

anonymous
(14.05.24 19:29:03 MSK)

Ответ на: комментарий от anonymous 14.05.24 19:29:03 MSK

Физически он тупо на том же кристалле, так что нет.

Был бы на одном кристалле, не боялся бы перегревов и отпаивания и вообще, не существовало бы версии с ним и без него на одном и том же чиплете.

Всё часть ядра что не сидит на кольцевой шине или что там за аналог у амд.

На любом современном SoC-чипе ядра отдельными блоками, гпу отдельным, а высокоуровневые кеши и контроллер памяти (и прочие контроллеры) - отдельным. Насчёт L1 кеша не знаю, предположим что действительно в составе ядра, тем более что L1 выделяется на каждое ядро/пару ядер собственный.

kirill_rrr ★★★★★
(14.05.24 22:04:28 MSK)

Ответ на: комментарий от kirill_rrr 14.05.24 22:04:28 MSK

не существовало бы версии с ним и без него на одном и том же чиплете

Её нет. Все кэши есть во всех версиях, просто без второго чиплета l3 меньше объёмом.

не боялся бы перегревов и отпаивания

Мощное заявление, тебе лучше не встречаться с моим перегревателем и отпаивателем.

На любом современном SoC-чипе

Не знаю чё там у вас в soc, могу только поздравить с тормозами от таких феерических маркетинговых решений. Я про нормальные процессоры.

anonymous
(14.05.24 22:31:49 MSK)

Ответ на: комментарий от anonymous 14.05.24 22:31:49 MSK

Я про нормальные процессоры.

Это какие? Core quard? Потому что не-soc просто перестали проектировать в течении ~5-и лет после за их полной неконкурентностью, ну по кайней мере вне серверов.

kirill_rrr ★★★★★
(15.05.24 06:00:01 MSK)

Ответ на: комментарий от anonymous 14.05.24 22:31:49 MSK

не существовало бы версии с ним и без него на одном и том же чиплете
Её нет.

https://ru.wikipedia.org/wiki/Raptor_Lake

Например обрати внимание на переход 13900T - 13790F - 13700K. У двух последних вообще разные кеши при одной конфигурации и Р, и Е ядер.

Или милый переход 1315U - 1305U - U300, когда они последовательно отключают сначала 1 Р-ядро, а потом лишние 2Мб кеша.

kirill_rrr ★★★★★
(15.05.24 06:31:34 MSK)

Ответ на: комментарий от kirill_rrr 15.05.24 06:00:01 MSK

Потому что не-soc

Здорово, так причём soc к тому, что ты не знаешь как подключен кэш в процессоре?

У двух последних вообще разные кеши

Нет. Во всех процессорах стоят натурально 1-2 одинаковых на всю линейку кристалла, просто лишние ядра, кэш и тд отключены выжиганием перемычек.

anonymous
(15.05.24 09:36:03 MSK)

Мой ноутбук вроде сертифицирован для RHEL, но это ведь значит лишь то, что там всё как-то работает. В последнем RHEL ядро 5.14, но понятно, что эта цифра сама по себе ни о чём не говорит, т.к. они бэкпортируют некоторые фичи из новых версий. Но вот какие именно фичи они бэкпортируют - я не нашёл.

Release notes поковыряй на все версии начиная с первой мажорной. Там будет это. Когда-то так искал, когда добавили поддержку разделения кэша между numa нодами на райзенах…

pekmop1024 ★★★★★
(15.05.24 09:40:45 MSK)

Ответ на: комментарий от anonymous 15.05.24 09:36:03 MSK

Здорово, так причём soc к тому, что ты не знаешь как подключен кэш в процессоре?

При том, что современный процессор всего на ~30% состоит из ядер. Там ещё хренова туча всего понапихано, от нейронного ускорителя до wifi-модуля, и кеш Л3 (а может быть и Л2) - всего лишь один из этих модулей, к ядрам прямого отношения не имеет.

просто лишние ядра, кэш и тд отключены выжиганием перемычек.

Ага, получается можно просто взять и отключить часть кеша независимо от ядер. Т.е. предположение что это часть ядра - неверно. А если можно отключить часть, то и подключить дополнительные банки можно. Ну, если изначально линии разведены и контроллер может.

kirill_rrr ★★★★★
(15.05.24 16:10:14 MSK)

Ответ на: комментарий от kirill_rrr 15.05.24 16:10:14 MSK

wifi-модуля

Разупорись. От наличия где-то там wifi микроархитектура ядра не меняется.

можно просто взять и отключить часть кеша независимо от ядер. Т.е.

Разупорись. Уменьшение объёма никак не меняет микроархитектуру.

если можно отключить часть, то и подключить дополнительные банки можно

4.2 Отрезать проще, чем пришить.

anonymous
(15.05.24 16:27:07 MSK)

Ответ на: комментарий от kirill_rrr 15.05.24 16:10:14 MSK

всего лишь один из этих модулей

Тебе уже писали, всё это говно висит на IF, которая в свою очередь висит на кольцевой шине. А кэш висит напрямую на ядрах. Так что нихрена не «один из».

anonymous
(15.05.24 16:34:30 MSK)

Ответ на: комментарий от kirill_rrr 15.05.24 06:00:01 MSK

Мне кажется, тут проблема в терминологии.

SoC это обычно из мира микроконтроллеров.

Это значит, что на одном чипе скомпонован процессор, ОЗУ (обычно SRAM) и ПЗУ (обычно Flash). Кроме того там могут быть и другие компоненты вроде радиомодуля для ble какого-нибудь.

При этом тот же ОЗУ и ПЗУ могут быть разными кристаллами, которые просто соединены на одной подложке и залиты компаундом или ещё каким корпусом. Могут быть и одним. Это уже нюансы производства. С точки зрения электронщика это одна микросхема в каком-нибудь QFP-40 корпусе и это самое главное.

В десктопах так не делают. В них нет ОЗУ (конечно можно кеш натянуть на это определение, но это будет неправильно), в них нет ПЗУ. ОЗУ всегда разводится отдельно в виде DDR-чипов, ПЗУ через PCI-E NVME ну и тд, тут объяснять нечего.

Ещё есть SoM. Это что-то среднее. Когда берут достаточно мощный процессор вроде серии iMX, берут DDR память, много флеша, всё это распаивают на маленькую плату размером в несколько сантиметров и называют это модулем. А проектировщик уже эту плату вставляет в другую плату через специальные переходники. Это удобно тем, что разводить высокоскоросные интерфейсы для DDR не каждый умеет.

В последнее время, в частности в компьютерах Apple появились SiP (System in Package). Это когда несколько чипов, в частности CPU и DDR RAM упаковываются рядом в отдельный корпус. Я не знаю точно, какой в этом смысл с точки зрения производства, но видимо какой-то есть.

vbr ★★★★
(15.05.24 17:28:45 MSK) автор топика

Ответ на: комментарий от anonymous 15.05.24 16:34:30 MSK

Л1 висит, не спорю. А Л3 - общий для всех. На каком конкретно ядре он висит, особенно с учётом того простого факта, что это физически отдельная от ядер группа транзисторов на кристалле (частенько ещё и примерно того же размера, что и все ядра вместе взятые. Ну просто в силу того факта, что мегабайт кеша это больше 16 милионов транзисторов, а скорей всего даже 24+ милионов).

kirill_rrr ★★★★★
(15.05.24 23:40:20 MSK)

Ответ на: комментарий от anonymous 15.05.24 16:27:07 MSK

От наличия где-то там wifi микроархитектура ядра не меняется. Уменьшение объёма никак не меняет микроархитектуру.

Примерно то, что я ему и пытаюсь доказать.

Отрезать проще, чем пришить.

В случае кешей Л1, действительно пришитых к каждому ядру - отрезать можно только со всем ядром. Ну или выпустив новую подвесию ядра. А в случае Л3 - вот хз что проще. Просто операция отрезания бракованного куска коммерчески интересней.

kirill_rrr ★★★★★
(15.05.24 23:43:57 MSK)

Ответ на: комментарий от vbr 15.05.24 17:28:45 MSK

Массовый потребитель познакомился с SoC на примере интел атомов, где на один чип интегрировали и цпу, и видеокарту, и почти все контроллеры материнской платы. В итоге получилось, что на этом кристалле практически вся логика ПК, кроме оперативной памяти и второсепенной переферии.

Хотя может я путаюсь в датах и смартфоны на арм были первыми такими SoC (а ведь они по сути полноценный ПК, а не микроконтроллеры.)

Ну, да, без оперативки на том же кристалле вроде-как неправильно это называть системой-на-кристалле. Но название как то прижилось потому что разница действительно значительная по сравнению с жирными старыми материнками, где можно и севрерный или южный мосты подпалить если забыть что там ещё 2 жирных чипа нужно охлаждать, и интегрированная видеокарта не в процессор интегрирована.

kirill_rrr ★★★★★
(15.05.24 23:52:23 MSK)
Последнее исправление: kirill_rrr 15.05.24 23:53:08 MSK (всего исправлений: 1)

Ответ на: комментарий от kirill_rrr 15.05.24 23:40:20 MSK

А Л3

А l2?

На каком конкретно ядре он висит

L3 это часть CCX, висит на кольцевой шине. Можно предположить ситуацию когда он висит на каждом ядре по кусочку, и доступен через кольцевую шину, как это с реальностью соотносится не в курсе.

отдельная от ядер группа транзисторов

Группа не значит отдельная.

частенько ещё и примерно того же размера

Иррелевантно.

ему и пытаюсь доказать

«Он» с тобой сейчас в одной комнате? Я уже писал, просто прилепить, и добавить так, чтобы это привело к заметному приросту производительности это разные вещи.

Л1, действительно пришитых к каждому ядру - отрезать можно только со всем ядром.

4.2

anonymous
(16.05.24 09:16:34 MSK)

5 октября 2024 г.

Ответ на: комментарий от vbr 03.04.24 10:34:03 MSK

По идее приоритет P > E > P ht. Т.к. гиперпоток на быстром ядре гораздо медленней полноценного медленного ядра. Поэтому всё правильно делает.

Самая уродская логика которую только можно придумать. Но к сожалению миром правят маркетологи и попугаи поэтому реализовали именно это больную логику. Объясните мне какой смысл вообще в E-ядрах при таком раскладе если при таком раскладе вся вонючая фоновая рутина гарантированно будет чебурашить толстое прожорливое P-ядро? Но попугаев в тестах будет выше крыши, игроки довольны.

Здоровая логика - бросать процесс на E ядро, и если он его сожрал - то перекидывать на P. Чтобы при банальном шевелении мышкой или тюкании клавы в текстовом редакторе P ядра из PC10 не вылезали, а подключались только когда надо что-то покомпилять, посчитать или поренедерить (в том числе и в игрушках)

Qui-Gon ★★★★★
(05.10.24 23:34:07 MSK)

У меня ноутбук с 1355U. На нём 2 быстрых ядра и 8 медленных.

Неси обратно продавцу и требуй возврат. Тебе нормальных ядер не доложили.

ox55ff ★★★★★
(06.10.24 00:12:34 MSK)

Ответ на: комментарий от Qui-Gon 05.10.24 23:34:07 MSK

Ну может оно так и работает, я не знаю, как такое протестировать. Я могу запустить openssl speed и по его скорости определить, на каком он ядре висит. Естественно он будет максимально грузить ядро. В принципе идея есть, но это надо на C писать, если сильно интересно - протестирую…

В целом я тоже не вижу смысла в этих ядрах. Сейчас планирую собрать хороший игровой компьютер на 4090 и процессор планирую брать 11900K, последний из настоящих.

vbr ★★★★
(06.10.24 00:24:17 MSK) автор топика
Последнее исправление: vbr 06.10.24 00:25:19 MSK (всего исправлений: 1)

Недоядра ненужны #купиламд

Если серьёзно, то все анал итики идут в задний проход. Такие вещи можно только эмпирически. Планировщик должен статистику составлять - какой процесс сколько времени где исполнялся и сколько энергии проц при этом жрал. И хранить её годами

DumLemming ★★★
(06.10.24 01:01:51 MSK)
Последнее исправление: DumLemming 06.10.24 01:11:29 MSK (всего исправлений: 1)

Ответ на: комментарий от vbr 06.10.24 00:24:17 MSK

для десктопа я тоже не вижу в этих ядрах никакого смысла. И для сервера тоже. Только лишни геморрой при разработке планировщика. А вот на ноуте с тоностью наоборот - при большинстве нагрузок на ноут P ядра должны сидеть в вечном C10 при неспешной офисной работе.

Qui-Gon ★★★★★
(06.10.24 08:02:42 MSK)

Ответ на: комментарий от DumLemming 06.10.24 01:01:51 MSK

Планировщик должен статистику составлять

По факту да. Это было бы идеально - насчет хранить годами не думаю, не так уже по большому счету много софта у среднего пользователя мобильного устройства которым нужны P-ядра.

Qui-Gon ★★★★★
(06.10.24 08:06:09 MSK)

Ответ на: комментарий от Qui-Gon 05.10.24 23:34:07 MSK

Интеловские E-ядра эффективны по площади, а не по потреблению. Ты рассуждаешь про LP-E ядра, отдельный третий вид.

hawkthe
(06.10.24 10:46:52 MSK)

Ответ на: комментарий от vbr 06.10.24 00:24:17 MSK

Игровой это 12xxx+ или амд. 11xxx в играх были медленнее даже 10xxx в некоторых случаях.

hawkthe
(06.10.24 10:49:22 MSK)

Ответ на: комментарий от hawkthe 06.10.24 10:46:52 MSK

У любого ядра есть свой диапазон энергоэффективного применения - и если крутить задачу загружающую E-ядро на 100% а P-ядро на 50% то P-ядро сожрет меньше энергии. Отсюда и появляятся такое мнение - да мы тестировали ничего оно не эффективно. Ну так есть масса процессов выполняя которые E- ядро сожрет меньше чем P ядро просто в простое за тоже время.

Так что тут как раз все упирается в планировщик - какое ядро он разбудит на прерывание от тачпада чтобы курсорчиком по экрану поелозить а на какое ядро отправит компилятор.

Qui-Gon ★★★★★
(06.10.24 11:17:43 MSK)

← 1 2 →

←	MNT Reform - модульный ноутбук с открытыми компонентами

Linux-hardware

Роутер за $50 для openWRT

→

Похожие темы