Wizualizacja plików binarnych i metody uczenia maszynowego w detekcji i klasyfikacji złośliwego oprogramowania
More details
Hide details
1
Zakład Cyberbezpieczeństwa,
Instytut Telekomunikacji i Cyberbezpieczeństwa,
Wydział Elektroniki i Technik Informacyjnych, Politechnika Warszawska, Poland
Submission date: 2025-12-10
Acceptance date: 2025-12-22
Publication date: 2025-12-23
Corresponding author
Katarzyna Hanna Kaminska
Zakład Cyberbezpieczeństwa,
Instytut Telekomunikacji i Cyberbezpieczeństwa,
Wydział Elektroniki i Technik Informacyjnych, Politechnika Warszawska, Nowowiejska 15/19, 00-665, Warszawa, Poland
Cybersecurity and Law 2025;14(2):208-218
KEYWORDS
TOPICS
ABSTRACT
Objectives:
W ostatnich latach obserwuje się intensywny rozwój metod analizy złośliwego oprogramowania z wykorzystaniem technik uczenia maszynowego, które stają się niezbędne wobec rosnącej złożoności współczesnych zagrożeń. Tradycyjne podejścia, oparte na analizie sygnatur lub ekstrakcji cech z kodu źródłowego, okazują się coraz mniej skuteczne w obliczu technik obfuskacji, polimorfizmu i szyfrowania stosowanych przez twórców złośliwego oprogramowania. W odpowiedzi na te wyzwania pojawiła się koncepcja wizualizacji plików binarnych, polegająca na przekształcaniu ich struktury bajtowej w obrazy, które następnie mogą być analizowane za pomocą algorytmów przetwarzania obrazu i technik uczenia maszynowego.
Methods:
Podejście to umożliwia identyfikację wzorców i zależności trudnych do uchwycenia metodami tradycyjnymi, a jednocześnie pozwala przenosić na grunt analizy złośliwego oprogramowania rozwiązania wypracowane w dziedzinie komputerowego rozpoznawania obrazów.
Results:
W artykule przedstawiono przegląd najważniejszych metod wizualizacji, obejmujących obrazowanie w skali szarości, reprezentacje kolorowe oraz wizualizacje oparte na entropii, a także omówiono ich zastosowania w zadaniach detekcji i klasyfikacji. Szczególną uwagę poświęcono modelom uczenia maszynowego wykorzystywanym do analizy obrazów pochodzących z plików binarnych.
Conclusions:
W części podsumowującej wskazano zarówno główne zalety tego podejścia, takie jak odporność na wybrane formy obfuskacji, możliwość automatycznego wydobywania cech czy skalowalność, jak i jego kluczowe ograniczenia, obejmujące m.in. utratę informacji semantycznych oraz podatność modeli na zmienność danych. Przedstawiono również potencjalne kierunki dalszych badań, w tym rozwój metod multimodalnych i uczenia ciągłego, które mogą zwiększyć skuteczność i odporność systemów detekcji opartych na wizualizacji.