LINUX.ORG.RU
решено ФорумTalks

где остальные 93 миллиона проектов github в google big query?

 github bigquery


0

1

Играю в данные github в google big query, и запрос

SELECT count (distinct repo_name) FROM [bigquery-public-data:github_repos.commits]
вернул 3 миллиона. И среди них нет, например, sbcl/sbcl .

Заявляется вот тут https://github.com/about , что сейчас на github 96 миллионов репов. Допустим, сколько-то закрытых. Но явно не 93 закрытых.

Можно как-то за разумные деньги получить запрос к коммитам? Я ищу коммиты на русском языке. Я пробовал API, сейчас не помню, но вроде там получалось, что надо выкачивать весь репозиторий, чтобы найти такие коммиты. Я правильно понимаю, что статьи типа этой врут в заголовке?

Выборка здесь: https://gitlab.com/budden/repozitorii-xegithub-xrs-russkimi-kommitami

★★★★★

Последнее исправление: den73 (всего исправлений: 4)

Гугл любит выкидывать из своих баз мусорные результаты. Делай выводы о качестве этих пропавших проектов.

entefeed ☆☆☆
()
Ответ на: комментарий от entefeed

выводы о качестве этих пропавших проектов

Не утверждай что все они мусорные, не живыми же руками оно проверялось. И не забывай что это дэн73, он же может раскопать такого, чего мы никогда не видали.

deep-purple ★★★★★
()
Ответ на: комментарий от entefeed

Выборку я выложил, там есть явные школьные домашки с одним коммитом.

den73 ★★★★★
() автор топика
Ответ на: комментарий от tailgunner

Всего 96, как утверждается. Оценить долю частных я не могу. Кто-то через API увидел не менее 50 млн, думаю, что частных среди них нет:

https://www.quora.com/How-many-repositories-are-there-on-GitHub

https://api.github.com/repositories?since=50000000

den73 ★★★★★
() автор топика
Последнее исправление: den73 (всего исправлений: 2)

Перечитайте пост, он поменялся.

den73 ★★★★★
() автор топика
Ответ на: комментарий от den73

Всего 96, как утверждается.

Кем утверждается? Пост quora, на который ты ссылаешься, не содержит цифры 96млн и неправильно оценил скорость роста уже 6 лет назад.

tailgunner ★★★★★
()

Могу предположить, что у 93 млн нет коммитов. Для доступа к big query нужно дать номер банковской карты?

goingUp ★★★★★
()

Я ищу коммиты на русском языке.

Но зачем?

goingUp ★★★★★
()
Ответ на: комментарий от goingUp

Хотя нет, были бы коммиты тех проектов, что ты указал

goingUp ★★★★★
()

Я ищу коммиты на русском языке.

Хочешь вычислять их авторов и выезжать к ним на дом с бейсбольной битой?

CYB3R ★★★★★
()

Может ли это быть связано с тем, что на гитхабе принципиально не работает поиск по исходникам в форках?

Если форки не равноценны проектам с нуля, то возможно там 3 миллиона начатых с нуля и 93 миллиона форков?

olegd ★★★
()
Ответ на: комментарий от den73

SO знает ответ - в выборку попадают только те репы, которые github считает «опен соурсе», а это зависит от его алгоритма, который имеет свои особенности. SBCL в них не попал, так что, в определённом смысле entefeed был прав. С другой стороны, можно сказать, что у них недостаточно умный алгоритм определения лицензий, раз так мало проектов прошли через фильтр.

Но, например, как я понял, для него bsd-3-clause - уже не open source. А эту лицензию он определяет, например,

curl -H "Accept: application/vnd.github.drax-preview+json" https://api.github.com/repos/budden/dlist | grep license -A 6

Предлагается обходной путь через архивы:

SELECT * FROM [githubarchive:day.20160701] 
WHERE repo.name = 'sbcl/sbcl' AND type='PushEvent' 
Но я не могу понять, как я должен был узнать про существование таблицы githubarchive - она не из github-public-data, а тогда откуда? Выкатят мне счёт на миллион баксов - придётся уходить в тайгу раньше времени.

den73 ★★★★★
() автор топика
Последнее исправление: den73 (всего исправлений: 4)
Ответ на: комментарий от den73

Вообще, по этому сервису у меня сложилось ощущение, что они какие-то очень хитропопые. Например, мне дали кредит 300 долларов на «пробный период». А кредит-то небось потом попросят отдать.

Да, я так понял, чтобы делать запросы в нормальном количестве, а не терабайт в месяц, нужно дать данные карточки. И потом, возможно, придётся за это платить.

den73 ★★★★★
() автор топика
Ответ на: комментарий от den73

Это не тот кредит, который в банке, это просто триал :)

И да, карточку придется дать. Там можно настроить алерты и жесткое отключение по достижению определенного бюджета, но они могут сработать с задержкой, поэтому бюджет надо настраивать с запасом.

deadNightTiger ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.