LINUX.ORG.RU

Введение в R

 , , ,


0

0

По согласованию с редакцией Linux Format, выложил в открытый доступ "Введение в R" - первую часть из цикла статей по R. Там же по ссылке лежат исходные коды команд к статьям в Rnw-формате и результаты их выполнения в pdf.

Из Википедии: R — язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU.

Пока в журнале опубликовано только четыре статьи. Чтобы продолжить публикацию серии, необходима реальная заинтересованность читателей (иными словами, их письма в редакцию или посты на форуме журнала).

P.S. Если в тексте будет найдена ошибка, то дайте знать — исправлю. Сам текст немного отличается от журнальной статьи и в дальнейшем будет развиваться.

>>> Подробности

★★★★★

Проверено: Shaman007 ()
Последнее исправление: CYB3R (всего исправлений: 1)
Ответ на: комментарий от MuZHiK-2

Хех, а мне в этом году сдавать, правда, сомневаюсь, что статья сильно поможет в этом деле, но мануал или туториал на родном никогда не помешает.

// darkk

anonymous
()
Ответ на: комментарий от anonymous

Можно рассматривать его как аналог Statistica. Или это как теплое и легкое? Просто сейчас предстоит заниматься этим.

anonymous
()
Ответ на: комментарий от anonymous

На сколько я понимаю s/можно/нужно/ :)

R - это полный аналог "БелЛабовского" S (говорят для статистиков стандарт де факто - ничего сказать по этому поводу не могу).

Evgueni ★★★★★
() автор топика
Ответ на: комментарий от anonymous

Причём здесь переводить? Это фактически написанный с нуля текст. Более сложные вещи идут чуть позднее. Я бы сказал уже за пределами первых четырёх статей.

Evgueni ★★★★★
() автор топика
Ответ на: комментарий от anonymous

> отлично, пользуюсь для диссера, но в освоении сложных возможностей весьма нелегка.

И это понятно почему. Потому что в этом _профессиональном_ инструменте отсутствует кнопка: сделать круто :)

Evgueni ★★★★★
() автор топика
Ответ на: комментарий от anonymous

R намного мощнее "статистики для виндовс". Лично мне очень жаль потерянного когда то времени на ковыряние в оной "статистике". Даже пытался бутсреп оценки ковырять на скриптах статистики :).

И ведь видел пакеты R в дистрибутиве даже до 2000г и черт дернул проигнорировать :(

Пользоваться статистикой для виндовс является дурным тонов у профессионалов.

PS до ститистики для виндовс пользовался статграфиом и систатом. Статграф из-за дурацкого ограничения производителя поставлялся без APL консоли, а ведь имел бы все шансы на успех :)

anonymous
()

Спасибо за серию статей. Читал в LXF, полезно. Хотя сам серьёзной статистикой сейчас не занимаюсь, но очень к этому близок, поэтому такой "уровень погружения" в предмет это именно то, что лично мне надо.

Ещё раз спасибо.

voronaam ★★
()
Ответ на: комментарий от anonymous

>> Хех, а мне в этом году сдавать, правда, сомневаюсь, что статья сильно поможет в этом деле, но мануал или туториал на родном никогда не помешает. Я вообще начинал осваивать с какой-то методы что в инете нашел, потом уже специфичные вещи по оригинальному ману читал.

MuZHiK-2 ★★★★
()

по r нету книженций на русском, а так он хорош

из spss можно r скрипты вызывать

можно через гугол найти пособие неплохое
An Introduction to R:Software for Statistical Modelling & Computing

dimon555 ★★★★★
()
Ответ на: комментарий от anonymous

> http://m7876.wiki.zoho.com/Introduction-to-R.html
> вот например перевод введения в R
И этот проект, как и статьи в Linux Format, был инициирован обсуждением на ЛОРе. Так что большое ЛОРу спасибо!
Я бы хотел, чтобы и это обсуждение тоже к чему-нибудь хорошему привело. Вот, например -- нужна ли книжка по R на русском? Если да, то что в нее надо включить?
===
С уважением,
А. Шипунов

anonymous
()
Ответ на: комментарий от anonymous

> R для статистиков это действительно глобально

хм.. кое-какие ассоциации навевает

cobold ★★★★★
()
Ответ на: комментарий от anonymous

Эээ, это похоже на попытку целенаправленно получить пользу с LOR :)

Evgueni ★★★★★
() автор топика
Ответ на: комментарий от anonymous

> Вот, например -- нужна ли книжка по R на русском? Если да, то что в нее надо включить?

книга по R, как таковая не нужна... нужна книга про статистику с примерами на R...
можно просто перевести что-нить от Dalgaard или даже пособие какого-нить вуза...

не думаю, что кому-нибудь, кто не вразумеет хоть как-то английский, понадобится the r book(950 страниц), хотя я бы не отказался полистать ;)

можно поступить ещё радикальнее взять какую-нить книгу по прикладной статистики с примерами и все примеры продублировать в R и как-нить с автором договориться, чтобы ссылку кидал на них

dimon555 ★★★★★
()
Ответ на: комментарий от anonymous

По моему в такую книжку надо включить массу примеров обработки реальных данных. Например сама документация встроенная по R именно такой прием и использует.

Case технология одним словом :). Есть например изданная еще в советское время брошюрка по APL, так там интерактивно (в виде диалога специалиста прикладника и вычислителя) рассмотрен анализ данных по тормозному следу автомобиля. Очень поучительно, и техника вычислений та же что и в R среде.

Показать построение бутстреп статистик для любого из приведенных случаев анализа данных, что в других пакетах особенно затруднительно.

Методы оптимизации вычислений в R, особенно как избегать циклов.

anonymous
()

R, действительно, лучшее на сегодняшний день, что есть для обработки данных, но он совершенно не соперник octave/scilab в численных вычисления/моделировании. Кстати, из текста следует, что octave коммерческий пакет, как и matlab.

Также не стоит петь диферамбы R, это отнюдь не сильно распрастроненный пакет, в европе дальше церна он фактически не шагнул, хоть и известный.

Опять же мануалов по R выши крыши. В чем особенность статей?

vaborg ★★★
()
Ответ на: комментарий от vaborg

наверное особенность в том что показана альтернатива для "статистики для виндовс"?

дело в том что если есть профессиональный инструмент и не хочется что бы возникла ситуация что он погибнет по непонятной причине, надо "бить лапками" -> делать инструмент популярным и доступным.

Что бы ни говорили привычная языковая среда это очень хорошо.

Кроме того R великолепно встраивается сам куда угодно и встраивает в себя что угодно.

PS

anonymous
()

по моему надо начать с учебного курса на http://www.intuit.ru/ , а то там уже микрософт пасется :(

anonymous
()
Ответ на: комментарий от vaborg

> Также не стоит петь диферамбы R, это отнюдь не сильно распрастроненный пакет, в европе дальше церна он фактически не шагнул, хоть и известный.

Вы путаете R с ROOT. Это разные вещи.

> Опять же мануалов по R выши крыши. В чем особенность статей?

На русском? Ой, только не нужно говорить, что все обязаны с двух лет говорить на английском.

Evgueni ★★★★★
() автор топика
Ответ на: комментарий от vaborg

>>совершенно не соперник octave/scilab в численных вычисления/моделировании.

А он и не соперник. Октава - это песочница, где обкатываются модули для R. Курт Хорник, один из основных разрабочиков Октавы, в команде R.

А Scilab ... Вещь может и хорошая, но с очень тупым языком. И что-то обилия модулей (пакетов) под него не наблюдается....

Morgendorffer
()
Ответ на: комментарий от Evgueni

я не путаю, именно из ЦЕРНа о нем и узнал.
а что в два года есть страшная необходимость в R?

в scilab обычный язык - ничем не отличается от matlab, octave.

vaborg ★★★
()
Ответ на: комментарий от vaborg

> я не путаю, именно из ЦЕРНа о нем и узнал.

Туда его притащили снаружи. ЦЕРН его не развивает. Это один из самых популярных инструментов у статистиков.

> а что в два года есть страшная необходимость в R?

Нет, просто если в два года не выучишь английский язык, то он всю жизнь будет вторым. Есть реальная проблема, что в подавляющем большинстве случаев студенты очень плохо воспринимают тексты на английском языке. Можно многое говорить по поводу что это не правильно, но это просто факт. Мануал на русском значительно упрощает процесс обучения.

Относительно ситуации с R - это не моё наблюдение. Я лишь пересказываю мнение практикующего преподавателя.

Evgueni ★★★★★
() автор топика

Да, просто информация к размышлению: если кто-то в силах написать цикл по scilab/octave и прочее, то это можно достаточно легко организовать.

Для получения дополнительной информации можно связаться со мной или напрямую с редакцией Linux Format.

Evgueni ★★★★★
() автор топика
Ответ на: комментарий от vaborg

> Также не стоит петь диферамбы R, это отнюдь не сильно распрастроненный пакет, в европе дальше церна он фактически не шагнул, хоть и известный.

Не знаю как в европе, но в англии и германии точно используется.

(Учил статистику в немецком университете у английского доцента ;), обшялся с людьми которые занимаются статистическим анализом. R - это стантарт ).

anonymous
()
Ответ на: комментарий от Evgueni

пересекаясь с демографами, как в России, так и вне ее - большинство (85-95%) используют SPSS. В физике же картина другая - R. Но это, то что я видел сам.

Для того, чтобы воспринимать тексты на иностранных языках, их надо читать. Мануалы - это не Шекспир, студенты при желании могут осилить.

Про написать обзор по scilab - хорошая идея, а какого вида обзор подойдет?

vaborg ★★★
()
Ответ на: комментарий от vaborg

>Для того, чтобы воспринимать тексты на иностранных языках, их надо читать. Мануалы - это не Шекспир, студенты при желании могут осилить.

Студенты - народ ленивый. :) И в большинстве своем рассматривают необходимость чтения чего-либо не по-русски как дополнительное "задание". В том-то и все проблема, что мануал на английском убивает последние крупици желания.

Исключения, конечно бывают, но их не очень много, увы :(

asl
()
Ответ на: комментарий от Morgendorffer

> А Scilab ... Вещь может и хорошая, но с очень тупым языком. И что-то обилия модулей (пакетов) под него не наблюдается....
Он нужен скорее для моделирования.

UVV ★★★★★
()
Ответ на: комментарий от vaborg

> пересекаясь с демографами, как в России, так и вне ее - большинство (85-95%) используют SPSS.

а) и зря, в смысле используют

б) стоимость SPSS килоевро за место

В России это используется, потому что б) длительное время было не актуально, а сейчас в полном смысле этого слова подсели.

> Мануалы - это не Шекспир, студенты при желании могут осилить.

Кодовая фраза "при желании". Безусловно, что есть исключения, но их немного. А, собственно говоря, цель научить использовать этот инструмент всех, включая экономистов :)

Evgueni ★★★★★
() автор топика

Молодец! Правда, пока не читал :P

Ay49Mihas ★★★★
()
Ответ на: комментарий от vaborg

>Также не стоит петь диферамбы R, это отнюдь не сильно распрастроненный пакет, в европе дальше церна он фактически не шагнул, хоть и известный.

Дело не в том, распространенный он или нет, основная его особенность -- это гибкий и концептуально продуманный язык, очень удобный при интерактивной работе.

anonymous
()

вот пример характрный :)

Пример 1. Тест точности вычислений при малой относительной дисперсии.
В приведённом ниже тестовом наборе данных переменная var2 (второй столбец), имеющая небольшую относительную дисперсию, линейно зависит от переменной var3 (третий столбец); следовательно, коэффициент корреляции между любой переменной (напр., var1) и переменной var2 должен быть примерно равен коэффициенту корреляции между этой переменной и переменной var3.

var1
	
var2
	
var3
1.0
	
100000.00000001
	
1.0
2.0
	
100000.00000002
	
2.0
3.0
	
100000.00000001
	
1.0
4.0
	
100000.00000002
	
2.0
5.0
	
100000.00000001
	
1.0
6.0
	
100000.00000002
	
2.0
7.0
	
100000.00000005
	
5.0
Приведём два коэффициента корреляции (между переменными var1*var2 и var1*var3), вычисленных в STATISTICA при использовании алгоритма оптимизации вычислений повышенной точности и отображаемых с наибольшей доступной точностью.
variables
	
Pearson r
	
p-level
var1 * var2
	
0.65465367070798
	
0.111
var1 * var3
	
0.65465367070798
	
0.111
STATISTICA – это единственный продукт на рынке, который правильно вычислит эти коэффициенты корреляции (или коэффициенты корреляции для других наборов данных с очень малой относительной дисперсией).


-----------------------

что имеем на самом деле

> tc1 <- c(1,2,3,4,5,6,7)

> tc2 <- c(100000.00000001,100000.00000002,100000.00000001,100000.00000002,100000.000000
01,100000.00000002,100000.00000005)

> tc3 <- c(1,2,1,2,1,2,5)

> cor.test(tc1,tc3)

	Pearson's product-moment correlation

data:  tc1 and tc3 
t = 1.9365, df = 5, p-value = 0.1106
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.1940886  0.9428795 
sample estimates:
      cor 
0.6546537 

> cor.test(tc1,tc2)

	Pearson's product-moment correlation

data:  tc1 and tc2 
t = 1.9365, df = 5, p-value = 0.1106
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.1940887  0.9428795 
sample estimates:
      cor 
0.6546537 

anonymous
()
Ответ на: вот пример характрный :) от anonymous

До вычисления корреляций в этой серии ещё не добрались. IMHO пример интересный.

Evgueni ★★★★★
() автор топика
Ответ на: комментарий от anonymous

В принципе можно, R умеет побольше чем любая коммерческая система, включая монстров вроде SPSS и Stata. Но он и посложнее в освоении, при этом.

anonymous
()
Ответ на: комментарий от vaborg

> но он совершенно не соперник octave/scilab в численных вычисления/моделировании.

Ы?!?

Кто станет использовать статистический софт для числодробления? Их области применения вообще не пересекаются, в принципе.

Есть монстры, которые пытаются в себя вобрать всё что можно (Mathematica, например), но они в каждой отдельной области (включая статистику) очень мало что могут и с узкоспециализированным софтом не конкурируют.

> Также не стоит петь диферамбы R, это отнюдь не сильно распрастроненный пакет, в европе дальше церна он фактически не шагнул, хоть и известный.

Не гнать. R очень распространён среди математиков вообще (см. на число пакетов, на их авторов и на упоминания в публикациях). В social sciences его знают меньше, но тоже используют. У них более Stata в почёте. Финансисты - те вроде как и R и Stata используют. А вот как раз физикам всяким, в том числе и народу из ЦЕРНа, вся эта статистика просто на фиг не нужна, в физике статистика только самая базовая и примитивная применяется, сложных методов просто нет.

anonymous
()
Ответ на: комментарий от Evgueni

> Ой, только не нужно говорить, что все обязаны с двух лет говорить на английском.

Ну, вообще-то, занятые в науках, где необходима серьёзная статистика, обязаны говорить на хорошем современном английском. Потому как на русском сейчас очень мало публикаций выходит.

anonymous
()
Ответ на: комментарий от Evgueni

> Нет, просто если в два года не выучишь английский язык, то он всю жизнь будет вторым.

Фигня. И в 6, и в 10, и даже в 20 можно его выучить так, что прилипнет навсегда.

> Есть реальная проблема, что в подавляющем большинстве случаев студенты очень плохо воспринимают тексты на английском языке.

Такие студенты ничего и не знают о статистике. Им и софт статистический на фиг не нужен, поскольку они статистикой не владеют. Сейчас все публикации только на английском, и ничего из современных методов на русском языке не описано. Так что в первую очередь студентов надо учить английскому языку, а всё остальное приложится.

> Мануал на русском значительно упрощает процесс обучения.

Нет. Он помогает студентам нахвататься по вершкам, вместо того, чтобы заставить их изучить как следует основы.

anonymous
()
Ответ на: комментарий от vaborg

> пересекаясь с демографами, как в России, так и вне ее - большинство (85-95%) используют SPSS.

У меня другая демографическая статистика по демографам (США, Европа) - процентов 90 - Stata, остальные 10 поделены между R и SPSS.

anonymous
()
Ответ на: комментарий от asl

А такие студентишки и дипломишек не заслуживают. Пусть в армию идут.

anonymous
()
Ответ на: комментарий от Evgueni

в) SPSS - отстой. Расширения сторонние делаются очень криво, через слева же прилепленный Питон. Очень многое делается через GUI, и очень непросто воспроизводится в скрипте. Простые вещи делаются просто, сложные не делаются вообще, тогда как в Stata и R и простые и сложные вещи делаются примерно одинаково, со средним напрягом.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.