LINUX.ORG.RU
ФорумJob

Разработка на R

 , , ,


2

5

Предлагается начинающий разработчик на R в моём лице.

Поскольку по работе практических задач,связанных с математическими вычислениями маловато, был бы рад небольшим заданиям со стороны заинтересованных лиц.

В качестве пряника за правильно выполненные задания можно предложить всё, что угодно, даже шуточные вещи или «оценку в дневник» :)

★★★★★
Ответ на: комментарий от BattleCoder

там скучно, поскольку очень жесткие ограничения на возможность изыскивать и привлекать в датасет стороннюю информацию... бег в мешках как вид спорта блин :( спортивное программированиеТМ спортивная математикаТМ и спортивная физикаТМ :(

psv1967 ★★★★★
()
Ответ на: комментарий от Bell

надо брать конкретный кейз и работать над ним... например обработай данные какому нибудь аспиранту... попросись в готовую научную тему

psv1967 ★★★★★
()

Нужен анализ загрузки ЦПУ, и завизимость от того, какие сайты я посетил в течении дня. Графиков всяких там на свое усмотрение.

ieeya
()
Ответ на: комментарий от psv1967

Вопрос этот там недавно обсуждался. На Kaggle помимо денежных соревнований есть исследовательские и рекрутинговые, где от тебя требуется более глубокая работа с исходными данными или самостоятельная формулировка задачи. Я давно закончил институт и возможно сейчас многое изменилось, но свое время я не видел ничего сопоставимого по интенсивности практического обучения, которое можно получить на Kaggle.

Bell
()
Ответ на: комментарий от Bell

Это где обсуждался? А то я не слежу за илитой, нету времени :)

А последний _вопиющий_ бред, это датасет с ресторанами турецкими с невозможностью легально натянуть данные городов на карту ...

Прочитать вменяемое руководство не менее полезное действо, а доступные готовые для анализа датасеты это не привилегия кагле.

psv1967 ★★★★★
()
Ответ на: комментарий от psv1967

Обсуждался не в смысле что руководством, а просто был даден совет на форуме обратить внимание на эти разделы. Дело в том что на последнем конкурсе датасет обеспечил низкий входной порог и как результат рекордное число участников 3500. Под конец пошли жалобы, что всякие чайники мешают умным людям занимать высокие места. Умным людям посоветовали обратить внимание на исследовательские или рекрутинговые конкурсы, где такого ажиотажа нет, т.к. денег не платят или платят мало, а входной порог высокий из-за необходимости препроцессинга, чистки и т.п.

Bell
()

RStudio для коммерческого использования стоит вроде 200 баксов или сколько так. Мелочь, а жалко если ты не full time data analyst, а так, иногда некоторые параметры систем исследуешь

vertexua ★★★★★
()
Ответ на: комментарий от vertexua

А зачем нужно RStudio? Есть бесплатный emacs делающий всё тоже самое: ess, reftex, AUCTEX, и weave-tangle. Не нравиться LaTeX можно org-mode-babel. Сама сборка R от Революшен бесплатно доступна... Что не получается то?

psv1967 ★★★★★
()
Ответ на: комментарий от psv1967

Я не могу проверить весь список того софта что ты скинул, но там можно полностью в интерактивном режиме делать exploratory analysis со всеми видами графиков?

vertexua ★★★★★
()
Ответ на: комментарий от vertexua

более того ещё и грабить корованы генерировать отчёты :)

psv1967 ★★★★★
()

Блин, безумно приятно, что на ЛОРе столько Р-филов!

DRVTiny ★★★★★
() автор топика
Ответ на: комментарий от BattleCoder

Рядом с собой. Посмотри на сайте своего университета, зайди на знакомые кафедры, в аспирантуру ВУЗа своего обратись.

Вот посмотри

http://education.okfn.org/open-education-russia-2/

https://ru.wikipedia.org/wiki/Data.gov

http://opendata.by/

psv1967 ★★★★★
()
Ответ на: комментарий от BattleCoder

многопользовательская для корпоративной работы на одном общем серваке

psv1967 ★★★★★
()
Ответ на: комментарий от BattleCoder

Бесплатна для личного использования, но не для корпоративного. Я уже недельку занимаюсь анализом данных, вот так случайно узнал что нужно платить за корпоративную версию

vertexua ★★★★★
()
Ответ на: комментарий от BattleCoder

Им это и не надо знать, главное что бы у них были данные и потребность в визуализации зависимостей в этих данных.

psv1967 ★★★★★
()
Ответ на: комментарий от psv1967

Я понял. Да. К сожалению, все мосты сжёг, контактов как-то особо не осталось... Как получил диплом - всё, нет универа. Даже пропуск электронный заблокировали. =) не пускают по нему.

Теперь с ностальгией буду вспоминать.

Может зря от аспирантуры отказался? Но с анализом данных мне всё равно её не предлагали - некого взять в научники по этой теме было. А квантовые компьютеры для меня слишком сложные оказались.

BattleCoder ★★★★★
()
Ответ на: комментарий от BattleCoder

Есть те кто изучают науку обработки данных ради развития науки обработки данных, но есть люди которые просто обрабатывают данные :)

Любой аспирант у которого есть собранные данные с удовольствием примет вашу помощь в их обработке и визуализации, а вы получите бесценный опыт работы в реальных условиях.

psv1967 ★★★★★
()

Жаль, что у R такой наркоманский синтаксис. Приходится по-старинке octave для разовых или не сильно сложных вычислений использовать, а числодробилки и постоянный инструментарий на сях ваять...

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

Жаль, что у R такой наркоманский синтаксис.

У октавы как раз унаследованный (вследствии совместимости) «наркоманский» синтаксис матлаба. Мне как то пришлось пользоваться одним тулкитом при помощи октавы и слегка его править, вынес непередаваемые ощущения от близкого к рендомному наименования всего и вся :(

psv1967 ★★★★★
()
Ответ на: комментарий от psv1967

Ну не сложилось у меня с людьми отношения налаживать. Социопат я.

BattleCoder ★★★★★
()
Ответ на: комментарий от BattleCoder

Я тоже не воспринимаю R. Хотя довольно долго писал на нем по мелочи и радовался обилию библиотек, но спустя год уже не понимаю. Матлаб намного яснее, а Питон мне заменяет обоих.

Bell
()
Ответ на: комментарий от psv1967

Ну, я вообще не представляю себе, как можно понимать синтаксис R. он же еще страшней, чем даже у пхытона!

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от BattleCoder

ООПщина и непонятные стрелочки (это с примера в википедии, после него у меня вообще никакого желания не осталось хотя бы попытаться этот R пощупать).

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

Стрелочка - это же оператор присваивания. ООП - там разве оно есть как таковое?.. Он скорее функционально-императивный - что-то среднее. Мне нравится его схожесть с Scheme (пусть очень отдалённая).

BattleCoder ★★★★★
()
Ответ на: комментарий от Eddy_Em

R это обычная Schema с синтаксическим сахаром. Автор писал R пройдя SICP. По этой причине практически всё что можно делать в схеме (включая приемы написания эффективного кода) можно делать и в R.

Куча синтаксического сахара реализует некоторое подмножество операторов из APL(J). Это произошло поскольку изначально (с 70х) датасаенс во всю пользовался именно многопользовательскими APL средами на больших машинах. R фактически по воркфлоу неотличим от APL сессии. (например можно посмотреть на анализ данных вот в этой брошюре http://flibusta.net/b/156597)

Ну а питон действительно просто язык программирования общего назначения и мало приспособлен для анализа данных. Не больше чем перл с аналогичными библиотеками матричных вычислений. Лишние <s>уши</s> конструкции языка общего назначения будут постоянно торчать.

Другой вопрос если знание программирования действительно сводиться к трем операторам: присваивания, условного перехода и цикла (хотя цикл уже излишен :) ). Тогда да, кажется, что всё лишнее и мешает айлайктумуведмувед... в смысле писать циклики :). В R цикл пишется (может писаться) только когда нужны явно побочные эффекты. А всё остальное время в полный рост применяют управление сложностью и комбинирование так хорошо описанное в SICP.

psv1967 ★★★★★
()
Ответ на: комментарий от psv1967

А при чем здесь циклики, если речь, например, про обработку данных? Мне кажется, что полезность языка определяется наличием библиотек/пакетов, а синтаксис это дополнительное (не)удобство, которым можно и пренебречь, если что. Вот по пакетам R заметно опережает Матлаб, гибче для визуализации. А Питон, даже при том что он общего назначения и сам по себе несколько кривой, но т.к. в нем дофига библиотек, он быстрый и при этом относительно удобен, то... Результат - на упоминавшемся Kaggle Питона на порядок больше, чем R или Матлаба. Возможно, такова специфика задач ML

Bell
()
Ответ на: комментарий от Bell

А при чем здесь циклики, если речь, например, про обработку данных?

Именно тем, что это не написание универсальных программ на языке общего назначения, а обработка _конкретного_ датасета. (Библиотеки R (как и Схеме) как раз все равно на чем написаны, хоть на Фортране)

Если не понимать отличия строки кода которая работает «здесь и сейчас», от «строки кода которая работает всегда» то конечно можно писать хоть на голом C.

Раз код сводиться к просто выражению, что в данный момент я хочу сделать с данными, то у меня просто нет времени ни на написание цикликов, ни на отлаживания «вечно работающей на любых данных» программы.

Оптимальный компромисс нечто похожее на дата-дривен программу, когда код и данные практически одинаково ценны. Вот R (как и любая Схема) прекрасно под такое использование подходит. Именно под такой воркфлов R (и его предшественников) и затачивали _поколения_ умных людей.

Анализ конкретного кейза на R практически по выразительности не отличается от описания на естественном языке (с исключением такой нехорошей черты, как неоднозначности естественного языка).

Так что приходить в R «гордо» с умением делать присваивание, условный переход и писать вложенные циклики за душой, и напрочь игнорировать всё что там в base написано (а там поверьте нет ничего лишнего) полная глупость. Наработана огромная база практически нужных в обработке примитивных функций которые с помощью R прекрасно комбинируются с данными, и предоставляют возможность не «программировать», а просто (!и компактно!) описывать процесс трансформации конкретных данных.

psv1967 ★★★★★
()

BioConductor и айда в биологию. Можете тупо веером писать в разные лабы, за «оценку в дневник» или, например, соавторство в статье — с руками-ногами заберут.

elfy
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.