DIPteam news

Летна школа за мултимедиски технологии 2022 - Диоген.

Back to News...

Теми што се изучуваат на школата

LSMT2022 poster

На летната школа студентите ќе имаат можност да се стекнат со нови знаења во следните области:

  1. Основна обработка на слика: колор и сиви слики, зголемување/намалување на слика, подобрување на контраст, филтрирање на шум, сегментирање со праг.
  2. Геометриски трансформации на слика: интерполација (по најблизок сосед, билинеарна, бикубична), потсемплирање, натсемплирање, афини трансформации во 2Д и 3Д.
  3. Основна обработка на звук.
  4. Основи на невронски мрежи за препознавање на објекти во слика.
  5. Конволуциски невронски мрежи за класификација: VGG, GoogleNet, ResNet, ….
  6. Конволуциски невронски мрежи за детекција: FasterRCNN, YOLO, …
  7. Детекција на аудионастани: детекција на настани во сообраќај.
  8. Сегментација на медицински слики: сегментација на CT-слики од `рбетен столб.
Погледнете ја деталната програма на школата овде.

Задача за натпревар

Целта на натпреварот е да се дизајнира и тренира модел (конволуциска невронска мрежа - CNN) за детектирање на луѓе во затворен простор. Во натпреварот учествуваат екипи од по најмногу три студенти. Се започнува со дадена предтренирана CNN за детекција на луѓе во отворен простор (надвор). Потоа се снимаат видеосеквенции со луѓе во затворен простор (во ходниците на ФЕИТ) и снименото множество се анотира со подготвена алатка. Дадената CNN се применува врз снимките од затворен простор.

Дадената CNN не може да постигне високи перформанси, очекувано, на видеосеквенции за кои не е тренирана. Потребно е да се модифицира структурата на CNN и да се дотренира CNN за детекција на луѓе во затворен простор. Модификацијата може да содржи нов код додаден во кодот добиен на почетокот од летната школа. Не е дозволено користење на готови мрежи од други извори. Дотренирањето се прави со секвенциите снимени и анотирани во претходните чекори, како и со било кои множества на слики од интернет. На крајот од периодот за адаптирање на моделот, моделот и изворниот код за тренирање се предаваат на комисијата.

Во натпреварот тестирањето се прави со нови видеосеквенции кои ќе се снимаат во затворен простор. Секој тим снима видеосеквенција од 10 секунди. Сите снимени секвенции го сочинуваат множеството за тестирање. Тимовите ја имаат слободата да снимат секвенција со било која содржина во дадениот простор и снимањето се извршува со истата статична камера во истиот простор за сите тимови. Се очекува дека тимовите ќе снимат креативни видеосеквенции во коишто нивниот модел добро ќе ги препознава луѓето, а противничките модели лошо. Се применуваат дизајнираните модели врз тест секвенциите и се пресметуваат перформансите и победува моделот со најдобри перформанси.