Stoimy przed wyzwaniem. W porównaniu z rynkami zachodnimi dysponujemy ograniczonym dostępem do informacji o książkach, co utrudnia rozpoznanie skali produkcji e-booków. Wynika to przede wszystkim z braku centralnej bazy danych książek znajdujących się w obrocie handlowym — zarówno drukowanych, jak i cyfrowych. W odniesieniu do e-booków brak jest także centralnej bazy bibliotecznej; istniejące rozwiązania oparte na tzw. egzemplarzu obowiązkowym nie są wystarczające.
Na rynku funkcjonują dodatkowo alternatywne sposoby udostępniania książek elektronicznych, takie jak open access czy self-publishing, co powoduje, że uchwycenie pełnego obrazu jest jeszcze trudniejsze.
W polskich warunkach — naszym zdaniem — należałoby dziś zbadać co najmniej dziesięciu operatorów rynku książki cyfrowej, w tym agregatorów danych, dystrybutorów oraz sprzedawców detalicznych e-booków. Po usunięciu powtarzających się rekordów można byłoby pokusić się o całościowe badania. Dodajmy, że z informacji, które do nas docierały przed wdrożeniem PAD, wynikało także, że podmioty rynku książki — mimo wdrażania tych samych przepisów i korzystania z podobnych narzędzi — dochodziły do różnych praktycznych wniosków. W niniejszym projekcie nie byliśmy w stanie zidentyfikować wszystkich tych podmiotów, nie mówiąc już o ich przebadaniu czy zwymiarowaniu.
W badaniu koncentrujemy się na proporcjach między formatami, typami błędów i barierami, a nie na tym, kto i co sprzedaje. Ponieważ stosowanie losowej próby jako alternatywy dla badania całości rynku niesie ryzyko trafienia na e-booki wyjątkowo dobrze lub wyjątkowo źle opracowane, to przyjęliśmy dwa podstawowe założenia: losowości oraz wynikającej z tego anonimowości.
Jak pisaliśmy, szacujemy, że należałoby poddać analizie co najmniej dziesięć baz danych. Na potrzeby projektu przeanalizowaliśmy trzy.
Największa, o ile nie jedyna, publiczna baza danych wydawniczych w formacie ONIX jest prowadzona przez Krajowe Biuro ISBN przy Bibliotece Narodowej. Na stronie www.e-isbn.pl wydawcy rejestrują wykorzystane, tj. przypisane do konkretnych publikacji, numery ISBN, zgodnie z wymaganiami normy ISO 2108.
Badanie tej bazy przeprowadziliśmy 17 września, a zatem trzy miesiące po wejściu w życie PAD. Regulamin bazy e-isbn.pl wymaga od wydawcy podania daty wydania w formacie dziennym RRRRMMDD. Byliśmy zatem w stanie odfiltrować e-booki wydane po 28 czerwca 2025 roku.
Pozyskaliśmy metadane dla 2322 e-booków zawierających 2607 opisów plików przyporządkowanych do 2607 numerów ISBN. Rozbieżność liczby tytułów i liczby ISBN wynika z faktu, że niektóre tytuły były wydane w kilku formatach cyfrowych.
Norma ISO 2108 (norma ISO ISBN) zaleca, aby ten sam tytuł wydany w różnych formach posiadał odrębne numery ISBN identyfikujące formę, a nie tytuł. Tak więc książka posiadająca sześć form — twarda oprawa, miękka oprawa (dla książek drukowanych), wersja MP3 oraz wersja WAVE/WAV (dla audiobooków), format EPUB i format PDF (dla e-booków) — powinna zgodnie z normą ISO otrzymać sześć różnych numerów ISBN.
Wydawcy powszechnie stosują się do tej zasady w przypadku książek drukowanych, gdzie 100% publikacji w miękkiej i twardej oprawie otrzymuje odrębne ISBN, natomiast raczej nie stosują tych zaleceń w przypadku e-booków, gdzie ten sam ISBN jest najczęściej nadawany na format PDF, EPUB oraz MOBI. Choć — jak widać — częściowo zalecenie o nadawaniu różnych ISBN na różne formaty cyfrowe znalazło odzwierciedlenie w danych pozyskanych 17 września.
Norma ISO 2108 zaleca, aby informacja o wykorzystaniu ISBN została przesłana do Biura ISBN w standardzie ONIX. Standard ten umożliwia opisanie każdej książki przy użyciu kilkuset zmiennych. Każda książka posiada formę — ONIX definiuje kilkadziesiąt form, z czego pięć dotyczących publikacji elektronicznych znalazło się w badanej próbie. Na 2607 opisanych plików znaleźliśmy następujące formy:
„Publikacja elektroniczna online lub do ściągnięcia” (1367 wystąpień)
„Publikacja elektroniczna online — szczegóły nieokreślone” (762 wystąpienia)
„Publikacja elektroniczna tylko do ściągnięcia” (387 wystąpień)
„Publikacja elektroniczna tylko online” (79 wystąpień)
„Publikacja elektroniczna na nośniku” (12 wystąpień)
Publikacje elektroniczne są następnie dokładniej definiowane w standardzie ONIX w polu „szczegóły formy produktu”. Niestety aż 2221 plików nie zostało opisanych przez wydawców w tym polu. Wśród pozostałych 386 zidentyfikowaliśmy następujące „szczegóły formy”:
„PDF” (152 wystąpienia)
„EPUB” (123 wystąpienia)
„MOBI” (96 wystąpień)
„Format MP3” (11 wystąpień)
„Stały format” (3 wystąpienia)
„Amazon Kindle” (1 wystąpienie)
Ważne są następujące aspekty dotyczące bazy e-isbn.pl.
Po pierwsze, wydawca raportuje wykorzystanie ISBN na podstawie normy ISO, będącej zestawem zaleceń. Jedyną sankcją za nienadesłanie raportu jest zablokowanie kolejnej puli numerów ISBN dla wydawcy. Ponieważ duże firmy wydawnicze dysponują pulami po 1000, 10 000 czy nawet 100 000 numerów ISBN, mogą czekać ze zgłoszeniem raportu kilka miesięcy, a nawet lat. Mali wydawcy, którzy otrzymują pule po 10 lub 100 numerów, muszą zgłaszać wykorzystanie częściej, w związku z czym w bazie e-isbn.pl występuje nadreprezentacja małych podmiotów względem dużych. W okresie od 29 czerwca do 17 września 2025 roku bez wątpienia ukazało się dużo więcej e-booków posiadających polski ISBN niż 2322.
Pisaliśmy we wstępie, że ze względu na ograniczenia czasowe i budżetowe musieliśmy wycofać się z pomysłu pogłębionego badania wydawców. Ale dla uchwycenia proporcji z puli 2607 numerów losowo wybraliśmy 100 numerów ISBN, wśród których było 71 wydawców. W tej grupie zidentyfikowaliśmy siedem uczelni wyższych, cztery powszechnie znane instytucje, 28 wydawców zawierało w nazwie imię i nazwisko, co sugeruje, że są to wydawnictwa prowadzone jako jednoosobowa działalność gospodarcza. W dużej części forma działalności nie jest znana. Niektóre wydawnictwa to powszechnie znane duże firmy komercyjne, które na pewno nie należą do grupy mikroprzedsiębiorców. Ale nie mieliśmy tak naprawdę żadnych podstaw do profilowania tych wydawców.
Pamiętajmy, że w Polsce można kupić e-booki wydane w języku polskim, ale zarejestrowane poza Polską (przez biura ISBN w Hiszpanii, Włoszech itd.) i nie znajdziemy ich w Krajowym Biurze ISBN przy Bibliotece Narodowej. Ponadto w Polsce sprzedawane są e-booki w językach obcych, zarejestrowane niemalże w każdym zakątku świata. Tych także nie znajdziemy w bazie e-isbn.pl.
Po drugie — jak się okazało — w bazie e-isbn.pl polscy wydawcy nie mają w ogóle zaprojektowanych pól obejmujących dostępność. Nie mogą do rekordu opisującego książkę wpisać żadnej deklaracji. Standard ONIX podaje wiele wariantów deklaracji, jak „wyjątek dla mikroprzedsiębiorcy” czy „dostępny — zgodny z wymaganiami WCAG 2.1 na poziomie AA” itd. (wszystkie są wyspecyfikowane na liście 196).
Wreszcie w bazie e-isbn.pl wydawcy nie wskazują konkretnej wersji formatu. Przypomnijmy, że format EPUB 2 był niedostępny, EPUB 3 FXL (fixed layout) może sprawiać wiele problemów, a jedynie wersja EPUB 3 reflowable może — choć nie musi — być całkowicie dostępna.
Wreszcie niemalże kluczowa kwestia: do bazy e-isbn.pl są zgłaszane opisy e-booków. A jedyną w 100% wiarygodną metodą jest badanie samych e-booków — i tak naprawdę jedynie „ręczne” badanie można uznać za pełne. Według specjalistów z projektu APACE automatyczne walidatory wychwytują poniżej 50% błędów; mówi się wręcz o skuteczności na poziomie 30%.
Pamiętajmy też, że nie ma sankcji za zgłaszanie błędnych opisów do Biura ISBN, za tworzenie niepełnych metadanych na potrzeby rynku czy za błędne stosowanie się do wytycznych różnych standardów w zakresie metadanych.
20 września 2025 roku w bazie A znajdowało się 671 plików EPUB wydanych po 28 czerwca 2025 roku. Pliki zostały poddane walidacji automatycznej za pomocą narzędzia ACE by DAISY. Wśród 100 wylosowanych plików 78 nie zawierało żadnych błędów wskazanych przez walidator. Wynik ten nieco nas zaskoczył. Tylko 18 plików nie przeszło testów dostępnościowych, a cztery zawierały ostrzeżenia wymagające sprawdzenia. Powtórzyliśmy losowanie. W drugiej próbie 100 losowych plików EPUB 71 plików nie zawierało żadnych błędów, 27 nie przeszło testów dostępnościowych, 2 zawierały ostrzeżenia wymagające sprawdzenia.
Dla całej puli zbadanej tego dnia 493 pliki przeszły walidację bez błędów (74,4%), 167 nie przeszło walidacji (24,9%) i 11 przeszło walidację z ostrzeżeniem (1,6%). Naszym zdaniem próby losowe generowane na 100 plikach EPUB w kilka miesięcy po wprowadzeniu ustawy PAD dają wiarygodne wyniki.
Wylosowane e-booki mieściły się w segmencie książek beletrystycznych i non-fiction, z niewielkim udziałem wydawców książek młodzieżowych. Naszym zdaniem potwierdziła się opinia powtarzana przed wdrożeniem, że w tym obszarze oferta wydawnicza będzie raczej zgodna z wymaganiami PAD.
Sprawdziliśmy także strukturę wydawców. Pierwsza próba 100 losowych numerów ISBN obejmowała produkcję 51 wydawców, druga próba — 40 wydawców. Zdecydowana większość to świetnie rozpoznawalne podmioty rynku książki. Najprawdopodobniej żaden z nich nie należy do grupy mikroprzedsiębiorców. Ujawniła się tu pierwsza ogromna różnica w stosunku do bazy e-isbn.pl, gdzie prawdopodobnie udział mikroprzedsiębiorców w próbie był wysoki. Ale bez deklaracji wydawców samych nie możemy mieć 100% pewności.
Ponieważ „niedostępne” pliki EPUB stanowiły około jednej czwartej próby, postanowiliśmy wylosować 100 plików EPUB zawierających błędy, a następnie błędy te zagregować, uporządkować i przekazać do dalszej analizy.
Osobne wyzwanie pod kątem analizy zawartości stanowią pliki w formacie PDF. Rozkład procentowy formatów jest następujący. Pliki wydane wyłącznie jako PDF stanowią siedem procent oferty e-booków wydanych po 28 czerwca 2025 roku, pliki wydane wyłącznie jako EPUB, w tym EPUB i MOBI, stanowią 86% oferty, pozostałe siedem procent oferty to pliki dostępne jako PDF oraz EBUP, w tym EPUB i MOBI. (Format MOBI jest wariantem formatu EPUB). Musimy dodać, że pliki PDF posiadają swój walidator — PAC — służący do sygnalizowania błędów operatorom DTP. Ale nie ma on — o ile udało się nam potwierdzić — zastosowania do analizy błędów na dalszym etapie dystrybucji, zwłaszcza przy analizie większej liczby plików. Żaden z agregatorów baz danych ani podmiotów rynku detalicznego — o ile wiemy — nie posługuje się automatycznym walidatorem do plików PDF.
Oznacza to, że ani w badanej próbce, ani ogólnie na rynku w kilka miesięcy po wejściu w życie PAD, nie mamy żadnych potwierdzonych danych na temat dużych zbiorów plików PDF oraz poziomu dostępności tych e-booków.
Pierwsza próba 100 losowo dobranych tytułów e-booków z 1694 tytułów wydanych po 2 czerwca 2025 roku została wygenerowana 14 września 2025 roku i posłużyła do zbadania proporcji pomiędzy formatami plików.
Niektóre tytuły były dostępne wyłącznie w jednym formacie — EPUB (12 tytułów) lub PDF (15 tytułów). Część e-booków ukazała się w dwóch wersjach najczęściej EPUB oraz MOBI (58 tytułów), sporadycznie jako EPUB oraz PDF. W trzech jednocześnie formatach EPUB, MOBI oraz PDF ukazało się 13 e-booków. Ani jeden plik nie został przygotowany w formacie DAISY.
Z tej puli wylosowaliśmy pięć plików wydanych wyłącznie w formacie EPUB (w tym także EPUB i MOBI) oraz pięć plików dostępnych wyłącznie jako PDF. Zdecydowaliśmy, że do „ręcznej” oceny nie będziemy uwzględniać plików z e-bookami wydanymi przez małych wydawców ani kupować tytułów spoza Polski. W trakcie losowania musieliśmy odrzucić dwa pliki PDF i dolosować kolejne dwa; w przypadku plików EPUB — jeden. Ostatecznie „maszyna losująca” (funkcja rand w arkuszu xls) wytypowała dziesięć plików pochodzących od rozpoznawalnych wydawców.
Na tym etapie jeden losowo wybrany e-book, dostępny zarówno jako PDF, jak i jako EPUB, został zakupiony i poddany testom „ręcznym”. Okazało się, że wersja PDF była absolutnie niedopuszczalna — niezgodna z jakimikolwiek wytycznymi. Wydaje się, że wydawcy przynajmniej czasami stosują scenariusz opisany na początku: produkują pliki w dwóch wariantach — dostępnym i niedostępnym. Choć nie badaliśmy tego głębiej, sygnalizujemy, że jest to obszar wymagający poprawy. Prawdopodobnie większość praktyków zgodzi się ze stwierdzeniem, że wystarczy jeden dostępny format, by uznać e-book za dostępny — o ile wersje są odpowiednio opisane. W analizowanym przypadku nie było żadnych informacji na temat dostępności.
Następnie 2 października otrzymaliśmy odrębny raport na temat 100 losowo wybranych plików EPUB. Walidator ACE by DAISY wykazał, że 58 plików było całkowicie dostępnych, a 42 zawierały błędy. Na tym etapie przyjęliśmy założenie, że próbka losowa 100 tytułów daje wiarygodne wyniki. Odsetek „niedostępnych” plików był tu wyższy niż w bazie danych A — baza B zawierała jednak także e-booki wydane poza Polską. Wśród 100 tytułów znalazły się trzy pozycje wydane po angielsku i trzy po ukraińsku.