LINUX.ORG.RU

Сообщения glorsh66

 

ElasticSearch - простое объяснение Span queries и intervals? Есть ли хорошие гайды и примеры по Span queries?

В общем пытаюсь научить эластик искать Slope (растояние между фразами) от преидущего найденного результата

if you go down to the green woods today you’re in for a big surprise

пример you down - slope 1 – находит you down - slope 0 – не находит

А я хочу скомбинировать - you down - slope 1 AND (slope 2) _ между фразами целиком green today (slope 1)

Если использовать string query то это не получается реализовать.

intervals я так понял не совсем про это.

Можно ли это реализовать на Span queries? И есть ли про них хороший гайд вообще?

 

glorsh66
()

Как сделать HTTPS на веб сервере без домена? Как сделать бесплатный сертефикат на ip (публичный).

Как сделать HTTPS на веб сервере без домена? Как сделать бесплатный сертефикат на ip (публичный).

 

glorsh66
()

Производительность SSD против жесткого диска? на ssd поиск занимает 100 мс, на жестком диске 3000-6000 мс

Производительность SSD против жесткого диска? на SD поиск занимает 100 мс, на HD 3000-6000 мс Можно ли оптимизировать производительность на жестком диске?

130 миллионов записей. 150 гб текста.

Один сервер. Пробовал разное количество сегментов и узлов (используя docker compose). Я пробовал разные варианты, но производительность на жестком диске намного хуже.

Я даже пытался отключить «refresh_interval»: «-1», force_merge

Каковы способы повышения производительности жесткого диска?

 

glorsh66
()

k3b - как продолжить сессию на windows? Как правильно записывать мультисессию на диске

Вопрос как правильно записать диск на k3b что бы можно было продолжать мультсессию на винде стандартными средствми? И это вообще возможно?

Какие нужно выбирать настройки?

 

glorsh66
()

Wireguard - разрешить пирам общение только между собой?

Как можно ограничить допустимые адреса для обращения для двух клиентов? Ну например чтоб на сервере они могли только между собой общаться, но не обращаться к хосту по локальному адресу, и другим клиентам.

 

glorsh66
()

Альтерантива Yandex для почты для своего домена? Какой бесплатный сервис выбрать?

Альтерантива Yandex для почты для своего домена? Какой бесплатный сервис выбрать? Или свой почтовый сервак лучше поднять? (MTA) Какие лучше на текущий момент серверы?

Перемещено hobbit из general

 

glorsh66
()

Elasticsearch / openserach какими инструментами лучше всего анализировать потребление RAM, CPU?

Elasticsearch / openserach какими инструментами лучше всего анализировать потребление RAM, CPU? Что бы правильно расчитать необходимый обьем под конкретный набор данных.

 

glorsh66
()

Elasticsearch / OpenSearch Стоит ли ставить - «OPENSEARCH_JAVA_OPTS=-Xms512m -Xmx512m» ? или пусть сам определяет сколько ему нужно памяти?

Стоит ли ставить - «OPENSEARCH_JAVA_OPTS=-Xms512m -Xmx512m» ? или пусть сам определяет сколько ему нужно памяти?

Как это считать и какие есть хорошие инструменты для анализа и оценки эластика (потребление памяти, диска, скорость, боттелнеки, какие запросы за скольок выполняются и т.д.).

 

glorsh66
()

Elasticsearch - поиск по двум полям. И как один текст использовать с типом Text и кастомным аналайзером

Есть набор данных которые хочу запихнуть в эластик. Описание товаров - несколько абзацев на русском языке. Причем их довольно много около 250млн.

При этом сделал analyzer - с удалением стоп слов, hunspell и еще парочкой штук.

Но при этом также хочу оставить возможность искать по тексту без аналайзера просто дефалтный Text (ну может привести к одному регистру.)

Из-за того что подозреваню что в некоторых случаях hunspell или фильтр может удалить что то нужное или исказать и прям по точному совпадению не получится найти.

Вопросы:

  • Какое лучшее решние проиндексировать один и тот же текст используя anaylzer и Дефолтный text Я вижу - что можно сделать просто два поля. С аналайзером и текстом. Но это же увеличит потребление оперативной памяти в два раза? И я боюсь что это также может увеличить потребление жесткого диска тоже в два раза. (один и тот же абзац будет сохраняться в исходном виде два раза для каждого из двух филдов)

  • Как искать? Ну понятно что можно по очереди сделать два запроса. Вначале к одному филду а потом к другому. (Text и analyzer). Есть ли специальные запросы которые аггрегируют в одном ответе инфу? Ну например с приоритетом.

 

glorsh66
()

Elasticsearch/opensearch как правильно расчитать количество шардов.

Во многом благодаря помощи местных обитателей разобрался в терминологии Elasticsearch/opensearch.

Но вопрос в тонкостях настройки. Ситуация - есть один железный сервер. 2 проца. в общем сложности 20 ядер. Задача закинуть туда много текста - около 250 млн записей. Каждая из которых пару абзацев. Одновременных пользователей будет мало. Обычно не больше однго двух. Т.е. задача ускорить поиск но не throughput

Есть ли смысл запускать Elasticsearch/opensearch на одном физическом сервере в режиме нескольких worker/data nodes - через docker compose? Или если один физический сервер то можно и одной обойтись и наоборот накладные расходы будут меньше?

Я правильно ли понимаю что один шард работает на одном ядре и не больше. Или это одна дата нода работает на одном ядре. Где то читал apache lucene работает только в одном потоке. И что является инстасом apache lucene? Шард или нода?

Какое соотношение нужно нод/ к шардам?

  1. Есть ли смыл на одном физическом сервере несколько datanodes делать docker compose? Или есть смысл чтобы уменьшить колличество используемой памяти на каждой ноде?
  2. Сколько нужно указывать шардов? нужно ли их делать равными количеству дата нод? Или больше? Какое сотношение датанод к шардам? Если смысл делать шардов больше чем дата нод. Как это расчитывать по соотношению к процессорным ядрам?
  3. Есть ли смысл делать replica больше 0 если все находится на одном физическом сервере (и соответсвеено если физический сервер умер то умрут и данные и как бы это не в приоритете, и оперативки лишней нет) Увеличивает ли колличество реплик скорость поиска? Или колличество реплик увеличивает throughput (т.е. одновременные запросы) Но если пользуется один пользователь то пофиг? Ну и правильно что replica 1 - ровно в два раза увеличивает потребление ОЗУ? (по всем датанодам)
  4. Какой параметр памяти JAVA стоит запускать.

Я так понимаю что шард - это отдельный экземпляр apache lucene.

 

glorsh66
()

Какой алгоритм хэширования использует ubuntu 22 для /etc/shadow?

Какой алгоритм хэширования использует ubuntu 22 для /etc/shadow?

Есть ли где вообще таблица по разным версиям ubuntu?

Особенно интересно что используется в 22

 ,

glorsh66
()

Какие есть модели аналоги ChatGPT, GPT-3 с возможностью локального обучения. что кроме LLaMA and Alpaca?

ну собственно хайповый вопрос. Хочу попробовать на своем массиве текстовых данных из своей предметной области (на русском языке в основном) произвести добучение сети, чтоб посмотреть насколько оно жизнеспособно.

Из поиска понял что из самых простых моделей это - LLaMA and Alpaca. Легко разворачиваются локально.

Но вопрос с обучением на своих массивах данных.

В просторах ютуба есть инструкции по дообучению по формату. https://www.youtube.com/watch?v=ivXcInXR5jo

{ «id»: «new_seed_task_4», «name»: «refund_policy_explanation», «instruction»: «Can you explain your refund policy?», «instances»: [{«input»: "", «output»: «Our refund policy allows customers to request a refund within 30 days of purchase if they are unsatisfied with the product or service. To be eligible for a refund, the product must be in its original condition and packaging, and services must not have been completed.»}], «is_classification»: false }

Т.е. тут очень четкие примеры для доубучения. Плюс не совсем понятно какие слои обучаются а какие заморожены в данном виде.

Есть ли иные способы научить ту же LaMA and Alpaca на просто большом наборе данных текста, чтоб она сама что называется поучилась. Без конкретной заточки под вопросы.

И есть ли вообще живые альтернативы LaMA and Alpaca?

Как с великим и могущественным)

 

glorsh66
()

Может кто объяснить по системам контейнеров в kubernetes ? containerd vs cri-o, podman, docker - отличия?

Такой вопрос - вроде как k8s ушел от докера? Но все равно с ним совместим?

В чем отличия от containerd vs cri-o, podman, docker? Я так понимаю что cri-o и cri - это API. А containerd, podman, docker это уже реализации? При этом containerd это часть доккера?

Может кто то в понятных терминах рассказать что есть что? Получается containerd и docker могут запускать одни и теже образы?

Где идет грань совместимости и где различия начинаются?

 , ,

glorsh66
()

Elasticsearch/opensearch как получить analyzer и как протестировать его?

Elasticsearch/opensearch как получить analyzer и как протестировать его?

Создаю такой маппинг

PUT https://192.168.56.128:9200/article
{
    "settings" : {
        "analysis" : {
            "analyzer" : {
                "custom_analyzer" : {
                    "tokenizer" : "standard",
                    "filter" : [ "lowercase", "ru_RU" ],
                    "char_filter" : [ 
                        "html_strip"
                    ]
                }
            },
            "filter" : {
                "ru_RU" : {
                    "type" : "hunspell",
                    "locale" : "ru_RU"
                }
            }
        }
    },
    "mappings" : { 
        "properties" : { 
            "message" : { 
               "type" : "text",
               "analyzer" : "custom_analyzer"
            }
        }
    }
}

Как потом протестировать custom_analyzer?

https://192.168.56.128:9200/article/_analyze

Выдает ошибку

{
    "error": "no handler found for uri [/article/_analyze ] and method [POST]"
}

Как можно тестировать анализаторы?

 ,

glorsh66
()

Как использовать несколько cuda версий на одном компьютере?

Как использовать несколько cuda версий на одном компьютере?

Например одно предложение хочет ternsorflow, а другое pytorch и разные версии. Как на одном компьютере хранить и использовать сразу несколько версий cuda?

 

glorsh66
()

Может кто то поделиться примером как сделать распределенный кластер elasticsearch/opensearch?

Может кто то поделиться примером как сделать распределенный кластер elasticsearch/opensearch?

Как настроить коллекцию и колличество шардов?

 

glorsh66
()

Как использовать hunspell/russian morphology для elasticsearch/opensearch?

Как использовать hunspell/russian morphology для elastic search/opensearch?

Кто то может поделиться опытом как использовать русский язык elasticsearch/opensearch?

 

glorsh66
()

ceph, minio режим static website. Как включить, как работает?

ceph, minio режим static website. Как включить как работает? Кто нибудь пробовал на практике отдавать статитку через эти две распределенные файловые системы. Как работает какие впечатления? Нормальное ли это решение для отдачи картинок?

 

glorsh66
()

TTL для временных файлов. Автоудаление файлов после некоторого времени.

Это как продолжение темы: Распределенная файловая система для картинок. Желательно что бы в системе монтировалась как обычная. (комментарий)

Идея в том что в очередь на обработку будут загружаться файлы в некоторое временное хранилище - скажем NFS или возможно glusterFS или что то в этом роде.

И тут одна особенноть - что файлы нужно будет потом удалять через некоторое время. Например потому что консюмер по какой то причине сломался и не смог удалить внутри логики.

Какой есть самый разумный способ поставить TTL на файлы средствами Linux/NFS скажем в несоколько часов. Если файлы старше то он удаляется.

И какие в этом плане представлют возможности MinIO, glusterFS, Ceph?

 , ,

glorsh66
()

Распределенная файловая система для картинок. Желательно что бы в системе монтировалась как обычная.

Задача обеспечить хранение большого числа картинок, что бы они желательено отдавались как статика просто через nginx. При этом доступ был у нескольких нод в кластере. Которые будут через producer/consumer обрабатываться.

Как это лучше всего реализовать?

  1. NFS - я так понимаю рабочее решение, но не распределенное. Какие еще есть варианты?

И второй вопрос - как можно хранить временные файлы? но при этом они были доступны любой воркер ноде? Какие есть хорошие решения с TTL или что то в этом роде.

 

glorsh66
()

RSS подписка на новые темы