Telegram Contests: старт конкурса по кластеризации данных — $100,000 Форум

Hermes

Hermes

Администратор
Объявлено начало конкурса по кластеризации данных для Telegram. Задача конкурса – создание алгоритма ранжирования новостей.

Участники конкурса разработают алгоритм, который:
  1. Идентифицирует контент на английском и русском языках и отбрасывает остальное.
  2. Идентифицирует новостные статьи по результату (1) и отбрасывает остальные.
  3. Классифицирует каждый материал из результата (2) по одной из этих 7 категорий: Общество, экономика, технологии, развлечения, наука, спорт и другое.
  4. Определяет новости об одном и том же событии и группирует их вместе в новостные потоки.
  5. Сортировка новостных потоков на основе воспринимаемой важности.
Пример входных данных
По мере проведения конкурса Telegram будет публиковать все больше образцов данных. С подробным описанием конкурсного задания можно ознакомиться здесь:
В распоряжении участников две недели — до 2 декабря (крайний срок 23:50, Дубай), чтобы придумать решение и загрузить его на @jobs_bot.

Авторы лучших решений разделят призовой фонд в размере $100 000 и смогут принять участие во втором этапе конкурса, получив шанс претендовать еще на $100 000 в качестве вознаграждения за труд.
 
Domosedow

Domosedow

Участник
Читаю задания и понимаю что пункты 1-3 это уровень студент, обычная выборка из массива.
4 - это просто поиск совпадений по тег словам и анализ содержимого на процент совпадения слов и выражений
5- работа с базой и распределение многотомного (многорядного) массива данных а точнее новостей !
Это задание на время. чтобы найти просто программистов которые готовы работать быстро и с отдачей в срок! вот реальная суть этого конкурса)
 
ahedron

ahedron

Участник
Появились работы участников первого раунда конкурса на создание алгоритма ранжирования новостей.
Можно ознакомиться с представленными работами на сайте конкурсов.
Для просмотра, нужно выбрать участника и нажать кнопку "OPEN WEBSITE", там же можно поставить (y) или (n) понравившейся или не понравившейся работе.

Материалы для первого раунда конкурса кластеризации данных (t.me/contest/131) теперь доступны для публичного тестирования: contest.com/data-clustering

Каждый может оставить свой отзыв, пока судьи подводят итоги.

Для справки, это был набор данных, который мы использовали: raw (data-static.usercontent.dev/DataClusteringDataset.tar.gz), en (data-static.usercontent.dev/DataClusteringDatasetEn.tar. gz), ru (data-static.usercontent.dev/DataClusteringDatasetRu.tar.gz). Мы будем публиковать больше тестовых данных в представленные алгоритмы в ближайшие дни.
 
Hermes

Hermes

Администратор
Несколько пояснений к первому этапу конкурса по кластеризации данных.

1. В некоторых статьях из первого набора оценочных данных (t.me/contest/141) отсутствовал атрибут article: publ_time из-за проблемы на нашей стороне. Проблема теперь исправлена.

Если эта проблема вызвала сбой вашего приложения, пожалуйста, сообщите в группу @contests, чтобы мы могли повторно запустить ваш алгоритм на обновленном наборе данных.

2. Для вашей информации мы всегда будем использовать следующий порядок запуска для тестирования всех представленных материалов:
  • tgnews languages raw_source_dir
  • Новости tgnews en_source_dir
  • Новости tgnews ru_source_dir
  • категории tgnews en_source_dir
  • tgnews категории ru_source_dir
  • Потоки tgnews en_source_dir
  • Темы tgnews ru_source_dir
  • tgnews top en_source_dir
  • tgnews top ru_source_dir

3. Если ваша заявка не работает, но может быть исправлена без изменения исходного кода или повторной отправки бинарного файла (например, путем установки зависимостей, изменения параметров запуска), вы можете написать подробные инструкции в комментарии на test.com, а затем пинговать нас в @contests.
 
Domosedow

Domosedow

Участник
Заявки на участие в конкурсе по кластеризации данных теперь можно проверить на втором наборе оценочных данных.
Посмотрел этот мусор новостей, это реально большей список а вот сортировать как, тут и без программирования не разберу.
Написать код, это самое простое из этого задания.