LINUX.ORG.RU

Методичка по системе статистич. анализа R


0

0

По результатам изучения системы R написал методичку на русском --- больше таких материалов в рунете не встречал, всё только на английском.

Методичка содержит в сжатой форме сведения:

- представление данных в виде векторов и массивов;

- операции над данными в этих видах;

- графический вывод;

- общие возможности встроенного языка;

- распределения случайных величин в системе, методы их использования и визуализации.

Методичка используется в качестве методического пособия для выполнения лабораторных работ по дисциплине "Методы анализа данных" на кафедре информатики Красноярского Государственного Технического Университета.

Рекомендую для начального знакомства с системой, "быстрого старта".

PS: Товарищи модераторы, надеюсь, в этот раз останется в новостях, т.к. в Talks тема слишком быстро ушла вниз.

PPS: Спасибо тем, кто уже посмотрел и высказал замечания. Те, кто ещё не высказал, могут писать в комментариях или на мыло ay49mihas(AT)inbox(DOT)ru

>>> Подробности

★★★★

Проверено: Shaman007 ()

М-м-м, часть текста куда-то видимо пропала. После подраздела "1.5 Распределение вероятностей" только два заголовка "1.6 Формирование выражений" и "2 Лабораторне работы". А вообще, R -- классная штука, сразу мне приглянулся, как только вышел.

balodja ★★★
()

хм. Talks постепенно переезжает на главную страницу?

isden ★★★★★
()
Ответ на: комментарий от isden

>>это в разделе "новости" ? :[ ]
А что? Товарищ написал какую-то документация и хочет показать ее коммьюнити. Что тебя не устраивает?

geekkoo
()
Ответ на: комментарий от geekkoo

> А что? Товарищ написал какую-то документация и хочет показать ее коммьюнити. Что тебя не устраивает?

ну я на ЛОРе меньше года, привык как-то что в новостях более серьезные вещи идут.
имхо "какая-то документация", во-первых мало понятно на что, а во вторых сделанная как "методичка" опять же имхо мало проходит под формат раздела "новости".
я не прав?

isden ★★★★★
()
Ответ на: комментарий от isden

> ну я на ЛОРе меньше года, привык как-то что в новостях более серьезные вещи идут.

Какие, например?

"Comix 3.6.1 released" -- выход какого-то очередного велосипеда школьной сложности для массового просмотра порнухи, очень серьезно.

"Real-Time Linux наступает" --- какая-то никому нафиг не известная компания из оффтопичной страны заменила одну ось на другую, очень, блин, серьезно.

"Сравнение производительности Qt и Cairo" --- какой-то никому вообще не известный крендель, запостил в какой-то блог какую-то хрень о том, что его криво написанные тесты, от которых даже исходников нет, показали офигительное преимущество Qt4 над всеми остальными. Серьезнее просто некуда.

Это из последних, а если дальше копнуть... Так что, походи на ЛОР подольше, и ты поймешь, что тут много "несерьезных" новостей, да и нафиг эта "серьезность" не упала. Хочешь серьезности, читай Finansial Times ;)

watashiwa_daredeska ★★★★
()

Мдя... И положили на slil.ru. Офигительно. Я не могу скачать, вопщем... Положите плиз на нормальный хостинг, кому не трудно! (не рапидшара etc.)

boombick ★★★★★
()

Это реально новость! Т.к. R - это из ряда классики типа Tex и grass.

И при этом наверное первый материал на русском языке.

А вопрос "где ссылка на страницу проекта?" - очень показательный :)

oldboy

anonymous
()

А что-нибудь серьезное этой системой делать можно? или только матрицы 100*100 визуализировать?

Сколько по времени будет вычисляься среднее, если исходный вектор в текстовом виде занимает 2 Гб? Будет ли нормально работать визуализация?

anonymous
()
Ответ на: комментарий от anonymous

>>будет вычисляься среднее, если исходный вектор в текстовом виде занимает 2 Гб?

Опять гвозди микроскопом? Сколько ж можно.

geekkoo
()

Хорошо, что дошло почти до продакшена :)

Жаль я не пока могу придумать задачи где бы это чудо применть для своих целей :) Буду думать.

Evgueni ★★★★★
()
Ответ на: комментарий от geekkoo

Так что этот микроскоп делать такого серьезноого и тонкого умеет, что среднее на больших обьекмах для него уже "говзди"?

Для сравнение, матлаб совершенно нормально и адекватно на таких обьекмах работает - считает, анализирует, визуализирует.

anonymous
()

Хорошая методичка. Вполне достаточна для первичного ознакомления и заинтересовывания людей. А дальше уже пускай на буржуйском читают.

ugoday ★★★★★
()
Ответ на: комментарий от anonymous

> Так что этот микроскоп делать такого серьезноого и тонкого умеет,

Читайте документацию --- она рулез.

ugoday ★★★★★
()
Ответ на: комментарий от watashiwa_daredeska

> Серьезно там, где деньги, остальное - игрушки.

деньги по сути своей тоже игрушки.
возвращаясь к твоему предыдущему посту, могу лишь сказать что неубедительно сравнивать софт и как сказал тов. geekkoo "какую-то документацию" в формате методички для студентов. что, теперь каждый студент осиливший написание методичек может постить их на ЛОР ? :) было бы нечто более фундаментальное, часть диплома или дисера - я бы слова ни сказал, ибо это уже имхо нормальный уровень.
nevertheless, модераторы приняли это как новость. чтож. не мне их судить. на этом предлагаю окончить обсуждение вопроса уместности если ты не против.

isden ★★★★★
()
Ответ на: комментарий от anonymous

Ну, подгонка методом simulated annealin, kernel smoothing, splining... А среднее у меня мускуль вычисляет.

> proc.time()
[1] 0.700 0.030 19.509 0.000 0.000
> z<-1:10000000/234567
> proc.time()
[1] 1.220 0.180 40.783 0.000 0.000
> mean(z)
[1] 21.31587
> proc.time()
[1] 1.560 0.180 50.374 0.000 0.000
> plot(z,type="l")
> proc.time()
[1] 11.370 1.210 132.109 0.000 0.000
>

geekkoo
()
Ответ на: комментарий от watashiwa_daredeska

> Более-менее. Серьезно там, где деньги, остальное - игрушки.

Оо, даа. Национальные проекты - это серьёзно.

Evgueni ★★★★★
()

Вопрос тем, кто занимается статистикой, помогите с выбором метода решения.

Необходимо автоматичски отслеживать недогрузки\двойные загрузки данных. Имеем: график загрузок за прошлые недели (каждый день столько-то байт), график довольно характерный - плавный рост от субботы до среды, потом плавный спад и так каждую неделю. Задача: не пришли некоторые файлы в один из дней, понять это по данным за другие дни этой недели (считаем что недосдача данных ограничивается всегда 1- днем)

Что правильнее всго использовать для этой задачи ? Корреляционные функции с другими неделями или что-то еще ?

anonymous
()
Ответ на: комментарий от anonymous

Может быть имеет смысл составить: средний график загрузки по неделям и отлавливать сильные отклонения от него?

ugoday ★★★★★
()
Ответ на: комментарий от anonymous

Под R пакетов больше и сообщество есть.

ugoday ★★★★★
()

Автору методички: вы бы хостинг нормальный выбрали, а то появится следующая версия документа - где ее искать ?
А дело полезное делаете. "С миру по нитке - нищему рубаха". :)

pacify ★★★★★
()

Кстати, нет ли у кого-нибудь толковой статьи по номограммам? Гугль молчит как пленный партизан.

ugoday ★★★★★
()
Ответ на: комментарий от isden

> было бы нечто более фундаментальное, часть диплома или дисера - я бы слова ни сказал

мсье является рецензентом JGR/NF/PRL? Вы бы и слова не сказали, ага, охотно верю. Зато от других (отличных от вас, но схожих по сути) вонищи было бы - ой-ой-ой.

> на этом предлагаю окончить обсуждение вопроса

в таком случае вопрос и вовсе не следовало поднимать.

anonymous
()
Ответ на: комментарий от isden

> имхо "какая-то документация", во-первых мало понятно на что, а во > вторых сделанная как "методичка" опять же имхо мало проходит под > формат раздела "новости". > я не прав?

Стыдоба! Если Вам лично мало понятно на что, то потрудитесь почтитать. Или в сердце живет уверенность - я мол все знаю, а чего не знаю то есть ерунда..?

R - свободная версия пакета S - статистика. Позволяет производить различный статистический анализ результатов эксперимента. Для этого кроме функций относящихся непосредственно к статистике обладает другими возможностями математической обработки данных и их представления в виде графиков. Язык правда - scheme like, что делает его мало понятным неподготовленному пользователю. И по моему мнению не совсем удобным. Но сейчас уже есть питоновая обертка для него.

lefsha
()

Молодец! Отлично!

Хотя думаю что более прогрессивно было бы использовать питоновский интерфейс потому как под ним есть полно других программ для визуализации данных как то Matplotlib MayaVi2 VTK

Хотелось бы вообще чтобы все основные функции были переписаны напрямую под питон в одном экземпляре, чтобы не приходилось выбирать из 10 библиотек, а иметь одну стабильную и поддерживаемую.

lefsha
()
Ответ на: комментарий от anonymous

> мсье является рецензентом JGR/NF/PRL? Вы бы и слова не сказали, ага, охотно верю. Зато от других (отличных от вас, но схожих по сути) вонищи было бы - ой-ой-ой.

мсье является дипломированным психологом чтобы рассуждать о моей сути по нескольким постам на ЛОРе?

> в таком случае вопрос и вовсе не следовало поднимать.

в таком случае лучше не вырывать фразу из контекста.

isden ★★★★★
()
Ответ на: комментарий от lefsha

> Если Вам лично мало понятно на что, то потрудитесь почтитать.

не считаю необходимым изучать то что мне в принципе не нужно в данный момент (судя по тексту оригинальной новости).
хотя признаю, после вашего пояснения, некий интерес проснулся.

> Или в сердце живет уверенность - я мол все знаю, а чего не знаю то есть ерунда..?

потрудитесь процитировать где я такое утверждал.

> R - свободная версия пакета S - статистика. Позволяет производить различный статистический анализ результатов эксперимента. Для этого кроме функций относящихся непосредственно к статистике обладает другими возможностями математической обработки данных и их представления в виде графиков. Язык правда - scheme like, что делает его мало понятным неподготовленному пользователю.

вот это имхо и следовало бы включить в оригинальную новость, чтобы не возникало вопросов у "непосвященных".

isden ★★★★★
()

Спасибо; наверное с этой методички стоит начать предварительное знакомство с R. Совсем недавно я хотел использовать ее через питоновские биндинги, но пришел к выводу, что времени на полновесное изучение пакета недостаточно. И на скорую руку изобрел собственный велосипед в виде библиотеки вычислений простых статистик и регрессии. :)

Sunspire
()
Ответ на: комментарий от Sunspire

Есть еще инересный проект позволяющий юзать R через TCP, вызывая методы R дистанционно. Клиентская часть весма легковесна, не требует инсталляции самого R и имеет биндинги к явой и C/C++ http://rosuda.org/Rserve/

anonymous
()

Автору методички, Михаилу (если не ошибаюсь), огромное спасибо!

Как раз быстрый старт и нужен, hello world.
Тематические методички есть, например http://www.cryst.bbk.ac.uk/~wernisch/yasma/yasma_tutorial.pdf , но про командную строку, типы данных и примитивы системы на 10 страничках еще не попадалось.

Такая методичка выстраивает мостик между теорией и практикой.

Очень жаль, что обрывается на самом интересном месте, на лабораторных.

---
Посетители ЛОРа, которые настолько возмущены публикацией, что с пеной у рта готовы доказывать ее ненужность -- не тратьте свое драгоценное время на просвещение незрячих масс, займитесь полезным делом -- дефрагментируйте диск C:
---

мне кажется, или этот пример действительно некорректен:

> seq(1, 3, seq=3)
[1] 1 1.5 3


также, хотелось бы верить в существование объяснений такому поведению:
> (x = c(1, 2, 3) + c(2, 3, 4))
[1] 3 5 7
> x[0]
numeric(0)
> x[-1]
[1] 5 7
> x[-4]
Error: subscript out of bounds
> x[4]
[1] NA


---
BTW, кто-то может высказаться о GUI для R? о JGR?

neksa
()
Ответ на: комментарий от balodja

>М-м-м, часть текста куда-то видимо пропала. После подраздела "1.5 Распределение вероятностей" только два заголовка "1.6 Формирование выражений" и "2 Лабораторне работы".

Увы, это фича беты. Ввиду отсутствия свободного времени буду дописывать с небольшим перерывом, т.к. лабораторные работы даю студентам напрямую, а формирование выражений хочу добавить для расширения кругозора, уж больно интересная функциональность.

Ay49Mihas ★★★★
() автор топика
Ответ на: комментарий от isden

>ну я на ЛОРе меньше года, привык как-то что в новостях более серьезные вещи идут.

В разделе "Документация" народ кроме всего постит свою документацию, когда считает, что она будет полезна. Пример --- цикл статей Евгения Балдина о METAPOST.

PS: Тузиг?

Ay49Mihas ★★★★
() автор топика
Ответ на: комментарий от boombick

>Мдя... И положили на slil.ru. Офигительно. Я не могу скачать, вопщем... Положите плиз на нормальный хостинг, кому не трудно! (не рапидшара etc.)

В первый раз положил на overclockers.ru, народ пожаловался, что не может скачать. Положил на второй нормальный хостинг, доступный мне. Так что извините, если у кого проблемы...

Ay49Mihas ★★★★
() автор топика
Ответ на: комментарий от anonymous

>Салют 49 группе от 44й! :) да и всему ФИПУ.

Привет! Познавайте новое :) А МАД я у вас вести не буду :)

Ay49Mihas ★★★★
() автор топика
Ответ на: комментарий от anonymous

>А что-нибудь серьезное этой системой делать можно? или только матрицы 100*100 визуализировать?

>Сколько по времени будет вычисляься среднее, если исходный вектор в текстовом виде занимает 2 Гб? Будет ли нормально работать визуализация?

У меня впечатление, что всё будет зависеть от объёма оперативки.

И я для себя позиционирую эту систему как исследовательскую платформу, чтобы набросать алгоритм, подобрать вид характеристики и т.д. Я техник, а не математик, поэтому мне достаточно, чтобы метод работал устойчиво (по Ляпунову :)), а существование и единственность решения, прочие свойства пусть обсуждают математики. Нужно будет сделать быстродействующую реализацию метода --- тогда можно реализовать его на C/Fortran. А отладить можно и в R.

Ay49Mihas ★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.