История изменений
Исправление ei-grad, (текущая версия) :
Забыл про домены второго уровня.
df = pd.DataFrame.from_records(
pd.Series(allurls).map(urlsplit),
columns=['schema', 'domain', 'path', 'query', 'fragment']
)
df['domain_l2'] = df.domain.str.extract(r'([^.]+\.[^.]+$)', expand=False)
print(
pd.concat([df[df.domain != df.domain_l2].domain, df.domain_l2])
.value_counts()
.sort_values(ascending=False)[:10]
)
Исправление ei-grad, :
Забыл про домены второго уровня.
df = pd.DataFrame.from_records(
pd.Series(allurls).map(urlsplit),
columns=['schema', 'domain', 'path', 'query', 'fragment']
)
df['domain_l2'] = df.domain.str.extract(r'([^.]+\.[^.]+$)', expand=False)
print(
df.domain_l2
.value_counts()
.sort_values(ascending=False)[:10]
)
print(
pd.concat([df[df.domain != df.domain_l2].domain, df.domain_l2])
.value_counts()
.sort_values(ascending=False)[:10]
)
Исправление ei-grad, :
Забыл про домены второго уровня.
df = pd.DataFrame.from_records(
pd.Series(allurls).map(urlsplit),
columns=['schema', 'domain', 'path', 'query', 'fragment']
)
df['domain_l2'] = df.domain.str.extract(r'([^.]+\.[^.]+$)', expand=False)
print(
df.domain_l2
.value_counts()
.sort_values(ascending=False)[:10]
)
print(
pd.concat([df.domain, df.domain_l2])
.value_counts()
.sort_values(ascending=False)[:10]
)
Исправление ei-grad, :
Забыл про домены второго уровня.
df = pd.DataFrame.from_records(
pd.Series(allurls).map(urlsplit),
columns=['schema', 'domain', 'path', 'query', 'fragment']
)
print(
df.domain.str.extract(r'([^.]+\.[^.]+$)', expand=False)
.value_counts()
.sort_values(ascending=False)[:10]
)
Исходная версия ei-grad, :
Забыл про домены второго уровня.
df = pd.DataFrame.from_records(
pd.Series(allurls).map(urlsplit),
columns=['schema', 'domain', 'path', 'query', 'fragment']
)
print(
df.domain.str.extract(r'([^.]+\.[^.]+$)')
.value_counts()
.sort_values(ascending=False)[:10]
)