История изменений

Исправление ei-grad, 06.10.23 22:37 (текущая версия) :

Забыл про домены второго уровня.

df = pd.DataFrame.from_records(
    pd.Series(allurls).map(urlsplit),
    columns=['schema', 'domain', 'path', 'query', 'fragment']
)
df['domain_l2'] = df.domain.str.extract(r'([^.]+\.[^.]+$)', expand=False)
print(
    pd.concat([df[df.domain != df.domain_l2].domain, df.domain_l2])
    .value_counts()
    .sort_values(ascending=False)[:10]
)

Исправление ei-grad, 06.10.23 22:36:

Забыл про домены второго уровня.

df = pd.DataFrame.from_records(
    pd.Series(allurls).map(urlsplit),
    columns=['schema', 'domain', 'path', 'query', 'fragment']
)
df['domain_l2'] = df.domain.str.extract(r'([^.]+\.[^.]+$)', expand=False)
print(
    df.domain_l2
    .value_counts()
    .sort_values(ascending=False)[:10]
)
print(
    pd.concat([df[df.domain != df.domain_l2].domain, df.domain_l2])
    .value_counts()
    .sort_values(ascending=False)[:10]
)

Исправление ei-grad, 06.10.23 22:36:

Забыл про домены второго уровня.

df = pd.DataFrame.from_records(
    pd.Series(allurls).map(urlsplit),
    columns=['schema', 'domain', 'path', 'query', 'fragment']
)
df['domain_l2'] = df.domain.str.extract(r'([^.]+\.[^.]+$)', expand=False)
print(
    df.domain_l2
    .value_counts()
    .sort_values(ascending=False)[:10]
)
print(
    pd.concat([df.domain, df.domain_l2])
    .value_counts()
    .sort_values(ascending=False)[:10]
)

Исправление ei-grad, 06.10.23 22:34:

Забыл про домены второго уровня.

df = pd.DataFrame.from_records(
    pd.Series(allurls).map(urlsplit),
    columns=['schema', 'domain', 'path', 'query', 'fragment']
)
print(
    df.domain.str.extract(r'([^.]+\.[^.]+$)', expand=False)
    .value_counts()
    .sort_values(ascending=False)[:10]
)

Исходная версия ei-grad, 06.10.23 22:28:

Забыл про домены второго уровня.

df = pd.DataFrame.from_records(
    pd.Series(allurls).map(urlsplit),
    columns=['schema', 'domain', 'path', 'query', 'fragment']
)
print(
    df.domain.str.extract(r'([^.]+\.[^.]+$)')
    .value_counts()
    .sort_values(ascending=False)[:10]
)