Co już potrafią komputery kwantowe?

Internet stwarza szerokie pole do deformacji rzeczywistości. Sposobność ta nie oszczędziła komputerów kwantowych, które w ciągu ostatnich lat wyszły z laboratoriów badawczych do wielkiego świata, również tego wirtualnego.  Niestety, zderzenie praw fizyki kwantowej z prawami internetu (lub też ich brakiem), nie mogło obejść się bez szwanku dla samego przedmiotu naszego zainteresowania – komputerów kwantowych.  Kogo wszak interesują zawiłości techniczne, prawa natury, wyniki badań i analiz, czy też opinie specjalistów? Ważniejsze są przecież emocje bo to one podsycają zainteresowanie.  Te zaś przyczyniły się do wykreowanie obrazu komputerów kwantowych jako cudownych, ale i stanowiących zagrożenie, wszechmogących maszyn dostępnych już jakoby na wyciągnięcie ręki.

Co prawda, to przejaskrawienie pociągnęło za sobą większe inwestycje w technologie kwantowe. Nie oznacza to jednak czegoś jednoznacznie pozytywnego, ponieważ o ile wzmożone zainteresowanie przełożyło się na przyśpieszenie rozwoju technologii to wiotkie podstawy tego zauroczenia stworzyły zagrożenie wystąpienia patologii. W tym przypadku, istnieje chociażby ryzyko tego, że inwestorzy, nie koniecznie dysponujący specjalistyczną wiedzą z zakresu technologii kwantowych, podejmą decyzje inwestycyjne, w uproszczeniu, zwiedzeni tym, że pomysł zawiera słowo klucz – „kwantowy”. Wynikające stąd, rosnące i niespełniane oczekiwania pokładane w technologii mogą zaś wymuszać manipulacje w przekazach marketingowych, mające na celu wygenerowanie sprzedaży czegoś co nie dostarcza jeszcze bezpośrednich korzyści nad dostępnymi rozwiązaniami alternatywnymi. To zaś tylko wzmaga zafałszowanie przekazu, w szczególności tego wyłaniającego się w świecie wirtualnym.

Niestety, zjawisko takie dotknęło rodzącego się rynku komputerów kwantowych, który za wszelką cenę chciałby zacząć odrabiać poczynione niebotyczne inwestycje. Jest to koszt wyjścia technologii kwantowych poza sferę finansowania jedynie z grantów badawczych, nie narzucających wymogu bezpośredniego zwrotu z inwestycji. Oczywiście, nie dotyczy to jedynie technologii kwantowych, ale również innych nowych technologii wymagających ogromnych nakładów na badania i rozwój, takach jak chociażby technologie oparte na grafenie.

Z całego tego zgiełku, wyniknęło jednak ostatecznie coś dobrego. Mianowicie, pierwsze komputery kwantowe stały się dostępne niemal dla każdego.  Nie są one jednak tymi maszynami przed którymi ostrzegają nas doniesienia medialne o wykorzystaniu komputerów kwantowych do łamania szyfrów stosowanych w elektronicznych transakcjach bankowych. Na te będziemy musieli poczekać jeszcze kolejnych kilka dekad [1]. Dostępne już komputery kwantowe oferują bardzo ograniczone możliwości, nie wykraczające ponad to co dają nam te do korzystania z których przywykliśmy. Ponadto, borykają się one z trudnym do przezwyciężenia problemem dekoherencji kwantowej, znacznie ograniczającym ich obecną funkcjonalność, jak i możliwość dalszego skalowania. Pomimo tych przeszkód, możemy już dzisiaj zacząć naszą przygodę z obliczeniami kwantowymi, chociażby po to aby samemu przekonać się o możliwościach kwantowych maszyn. To co już da się z ich pomocą zdziałać postaram się zarysować poniżej.

Chciałbym jednak wcześniej podkreślić, że droga do miejsca w którym się obecnie znajdujemy nie była krótka. Komputery kwantowe nie wyskoczyły jak królik z kapelusza.   Może to zabrzmieć zaskakująco, ale już przed II wojną światową dysponowaliśmy aparatem teoretycznym niezbędnym do zaprojektowania komputera kwantowego. Tak już jest, że fizyka teoretyczna potrafi wyprzedzić inżynierię o dziesiątki, setki, czy nawet o tysiące lat.

Prawie już sto lat temu, w połowie lat dwudziestych ubiegłego wieku, stara teoria kwantów, do której zalicza się orbitalny model atomu Bohra, przekształciła się w mechanikę kwantową, taką jaką znamy ją dzisiaj. Ważnym krokiem w tym procesie było wprowadzenie przez de Broglie’a (1924) nowatorskiej koncepcji fal materii. Następnie, w 1926 roku, Erwin Schrödinger, zabrawszy pracę de Broglie’a oraz jedną ze swoich muz (nie kota), zaszył się na dwa i pół tygodnia w alpejskiej will, po czym pokazał światu, że rozchodzenie się fal materii można opisać równaniem matematycznym – znanym dzisiaj jako równanie Schrödingera.  Tego samego roku, urodzony w ówczesnym Breslau, Max Born zaproponował, że to co opisuje funkcja falowa to w istocie rozkład prawdopodobieństwa. Odsłoniło to probabilistyczną naturę mikroświata, która odgrywa ogromną rolę w technologiach kwantowych. Rok wcześniej, Born razem z Werner’em Heisenberg’iem wprowadzili równoważne sformułowanie macierzowe (operatorowe) mechaniki kwantowej, z którego na codzień korzystają obecnie programiści komputerów kwantowych. Związek mechaniki kwantowej z teorią informacji zaczął się zaś rysować dzięki pracom pioniera informatyki i fizyka matematycznego węgierskiego pochodzenia Johna Von Neumanna (rok 1932). Na odważny krok zaproponowania komputerów opierających swoje działanie na mechanice kwantowej musieliśmy jednak czekać do połowy lat osiemdziesiątych ubiegłego stulecia. Wtedy to, koncepcje taką zaczął poważnie rozważać, zafascynowany pierwszymi komputerami osobistym, znany wszystkim dobrze Richard Feynman [2]. Od tego czasu zaczął się wyścig w stronę zbudowania komputera kwantowego.

Na pierwsze prototypy musieliśmy poczekać kolejną dekadę. W konstrukcjach tych wykorzystano zjawisko jądrowego rezonansu magnetycznego (NMR), stosowane powszechnie w diagnostyce medycznej. Kierunek ten nie pozwolił jednak na stworzenie komputerów przetwarzających więcej niż kilka jednostek informacji kwantowej – tak zwanych kubitów [3].  Przełomowe okazało się wykorzystanie zjawiska fizycznego zwanego nadprzewodnictwem. Jest to zanik oporu elektrycznego niektórych materiałów ochłodzonych do temperatur bliskich zera bezwzględnego. Przykładem naturalnie występującego w przyrodzie nadprzewodnika jest pierwiastek Niob, który to przechodzi do fazy nadprzewodzącej w temperaturze poniżej 9.2 Kelwina. Jeśli z takiego materiału wykonamy pierścień i przepuścimy przez niego prąd elektryczny zadziała on jak elektromagnes, wytwarzając pole magnetyczne. Niezwykłe własności stanu nadprzewodzącego powodują jednak, że strumień pola magnetycznego przez taki pierścień może przyjmować tylko określone (skwantowane) wartości, podobnie jak poziomy energetyczne w atomie. Dwa najniższe energetycznie poziomy wykorzystuje się do stworzenia kubitu. To właśnie na tego typu nadprzewodzących kubitach opiera swoje działanie komputer kwantowy Sycamore firmy Google, na którym w ubiegłym roku po raz pierwszy wykazano eksperymentalnie przewagę czasową maszyny kwantowej nad klasyczną, wykorzystując 53 kubity [4]. Udało się tego dokonać dla tzw. problemu próbkowania (ang. sampling), sprowadzającego się do generowania ciągów bitów z rozkładu prawdopodobieństwa, który w przypadku komputera kwantowego jest określony przez sekwencję operacji wykonanych na kubitach. Komputery kwantowe oparte na kubitach nadprzewodzących rozwijają również firmy takie jak IBM, D-Wave i Rigetti Computing.

Artists-Rendition-Google-Quantum-Processor.
Artystyczna interpretacja komputera kwantowego Sycamore firmy Google.  Źródło

Od kilku już lat, proste (pod względem możliwości, nie zaś konstrukcji) komputery kwantowe działające na kubitach nadprzewodzących udostępnia potentat branży informatycznej – firma IBM. Każdy, za pomocą platformy online Quantum Experience, może spróbować swoich sił w programowaniu procesora 5 i 15 kubitowego. Istotnym ograniczeniem tych maszyn jest jednak nie tylko ilość dostępnych kubitów ale i długość tak zwanego czasu koherencji, który determinuje to ile operacji jesteśmy w stanie na nich wykonać. Niestety, pomimo ogromnej wykonanej pracy, dla procesorów kwantowych działajacych w oparciu o kubity nadprzewodzących, czasy te są nadal stosunkowo krótkie. Dlatego też, wciąż rozwijane są alternatywne kierunki, między innymi wykorzystujące fotony (np. firma Xanadu) oraz pułapki jonowe (np. firma IonQ).

Udostępnione przez IBM komputery kwantowe, nie dostarczają jak dotąd bezpośrednich korzyści obliczeniowych nad maszynami klasycznymi. Działanie komercyjnego 20 kubitowego komputera kwantowego IBM Q System One możemy emulować nawet na smartfonie. Wykładniczy charakter wzrostu ilości zmiennych potrzebnych do opisu stanu komputera kwantowego sprawia jednak,  że emulacji 100 kubitowego komputera nie bylibyśmy już w stanie przeprowadzić nawet na najpotężniejszym superkomputerze klasycznym. Przezwyciężenie problemów związanych z utrzymywaniem stabilnej pracy tych rozmiarów komputerów kwantowych pozwoli wejść w obszar niedostępny dla komputerów klasycznych.

IBM-Q-System-One
Design 20 kubitowego komputer kwantowy IBM Q System One może wzbudzać zachwyt.  Jednak, już nie jego możliwości, które da się osiągnąć na przeciętnym smartfonie.

Zanim to jednak nastąpi, warto zastanowić się nad tym co daje nam możliwość korzystania z istniejących już komputerów kwantowych. Moim zdaniem, do najważniejszych korzyści płynących z dostępu do tych maszyn należą: możliwość nauki pracy z komputerami kwantowymi,  poznawanie niedoskonałości które je charakteryzują i testowanie algorytmów kwantowych (w tym symulacji kwantowych). Zrozumienie niedoskonałości, przejawiających się w postaci błędów, pozwala opracowywać nowe i skuteczniejsze algorytmy tak zwanej kwantowej korekcji błędów. Na dostępnych komputerach kantowych możemy symulować proste kwantowe układy fizyczne, takie jak na przykład molekuły. Jest to domena chemii kwantowej, a symulacje takie pozwalają na przykład wyznaczać energie stanów podstawowych układów atomów. Wykorzystując komputery kwantowe, udało się to zrobić m.in. dla cząsteczki wodoru molekularnego [5]. W przyszłości, symulacje takie będzie można rozszerzyć do skomplikowanych molekuł, co może znaleźć zastosowanie w farmakologii.

Symulacje układów fizycznych na komputerach kwantowych prowadzone są m.in. w moim zespole Quantum Cosmos Lab, który działa na Uniwersytecie Jagiellońskim w Krakowie. Badania te skupiają się na symulowaniu nie zwykłych atomów, ale „atomów przestrzeni” z których może być zbudowana tkanka naszej przestrzeni. Korzystając z komputerów kwantowych firmy IBM, udało nam się pomyślnie zasymulować pojedynczy kwant przestrzeni [6]. Celem jest jednak to by symulować setki i tysiące takich cegiełek, co pozwoliłoby nam zbadań proces formowania się przestrzeni. Komputery kwantowe otwierają drogę do tego by faktycznie to zrobić, musimy się jednak liczyć z tym, że może nam to zająć kolejne 20-30 lat pracy, podążającej za rozwojem komputerów kwantowych.

Kolejna obiecująca możliwość jaka rysuje się za sprawą zastosowania obecnych i spodziewanych w najbliższych latach komputerów kwantowych to kwantowe generatory liczb losowych, wykorzystujące probabilistyczną naturę świata kwantowego. Generatory takie są szczególnie atrakcyjne ze względu na zastosowanie w rozwiązaniach kryptograficznych, związanych z cyberbezpieczeństwem, takich jak generowanie kluczy. Zaleta komputerów kwantowych leży w tym, że losowość wygenerowania klucza może zostać zagwarantowana (certyfikowana) niemożliwością zasymulowania algorytmu generatora na superkomputerze klasycznym.  Algorytmy generujące certyfikowane kwantowe ciągi liczb losowych wykorzystują obwody kwantowe, podobne do tych za pomocą których  firma Google wykazała, przywołaną wcześniej, korzyść (supremację) komputerów kwantowych.

Duże zainteresowanie budzi zastosowanie komputerów kwantowych w obszarach sztucznej inteligencji i uczenia maszynowego. W przyszłości, kwantowe algorytmy uczenia maszynowego mogą stanowić konkurencję do algorytmów klasycznych. Wskazuje na to szereg badań teoretycznych [7]. Jednakże, na chwilę obecną implementacje takich algorytmów są w bardzo wczesnej fazie. Na uwagę zasługuje przykład niedawno przeprowadzonej symulacji prostego modelu neuronu – tak zwanego perceptronu – na 5 kubitowym komputerze kwantowym [8]. Natomiast, dobrym punktem wyjścia do rozpoczęcia przygody z kwantowych uczeniem maszynowym jest platforma PennyLane, udostępniona przez firmę  Xanadu.

Na koniec, warto przywołać również przypadek tak zwanych adiabatycznych komputerów kwantowych. Komercyjnym przykładem takiego komputera są maszyny oferowane przez firmę D-Wave. Można do nich uzyskać dostęp online poprzez platformę Leap.  Komputery takie realizują wyspecjalizowany algorytm związany z poszukiwaniem stanu o najniższej energii (tzw. stanu podstawowego) dla układu kubitów. Algorytm ten pozwala podejmować szereg złożonych zagadnień, takich jak problemy optymalizacyjne i uczenie maszynowe. Komputery te są również doskonałym narzędziem do przeprowadzania eksperymentów fizycznych dla układów wielu atomów [9]. Pomimo dużej (rzędu 2000) liczby kubitów, zjawiska kwantowe ogrywają w nich inną rolę niż w omawianych wcześniej komputerach kwantowych (powodują tzw. tunelowanie kwantowe) i jak do tej pory nie wykazano by komputery te potrafiły rozwiązać problemy zbyt trudne dla superkomputerów klasycznych.  Programując je można się jednak, z pewnością, bardzo wiele nauczyć.

Niewątpliwie, żyjemy w bardzo ciekawych czasach, które można uznać za przedsionek do ery komputerów kwantowych. Pierwsze z nich są już dostępne do użytku za pośrednictwem platform internetowych, otwartych dla wszystkich chcących spróbować swoich sił w ich programowaniu. I choć nie dają one jeszcze bezpośredniej przewagi nad komputerami klasycznymi, pozwalają zmierzyć się ze światem mechaniki kwantowej i algorytmów kwantowych. Osobiście, bardzo cieszy mnie to, że dzięki komputerom kwantowych, niezwykły kwantowy świat, jak dotąd poznawany prawie wyłącznie przez fizyków teoretyków, zaczyna eksplorować coraz większa liczba śmiałków, w tym szczególnie dużo, otwartych na nowe wyzwania, młodych osób. Liczę na to, że to właśnie dzięki nim na dobre zadomowimy się w świecie komputerów kwantowych.

Bibliografia

[1] J. Mielczarek, Technologie kwantowe a cyberbezpieczeństwo, CyberDefence24, 2019.
[2] R. Feynman, QuantumMechanicalComputers, Optics News, Vol. 11, Issue 2, 11–20, 1985.
[3] L. M. K. Vandersypen, et al., Experimental realization of Shor’s quantum factoring algorithm using nuclear magnetic resonance,  Nature 414, 883–887, 2001.
[4] F. Arute, et al., Quantum supremacy using a programmable superconducting processor, Nature 574, 505-510, 2019.
[5] Y. Cao, et al., Quantum Chemistry in the Age of Quantum Computing, Chemical Reviews, 119 (19), 10856-10915,2019.
[6] G. Czelusta,  J. Mielczarek, Quantum simulations of a qubit of space, arXiv:2003.13124 [gr-qc], 2020.
[7] J. Biamonte, P. Wittek, et al., Quantum machine learning, Nature 549, 195–202, 2017.
[8] Tacchino, F., Macchiavello, C., Gerace, D. et al., An artificial neuron implemented on an actual quantum processor, npj Quantum Inf 5, 26, 2019.
[9] R. Harris, et al.,  Phase transitions in a programmable quantum spin glass simulator,
Science, Vol. 361, Issue 6398, 162–165, 2018.

© Jakub Mielczarek

Artykuł został opublikowany na portalu Polish Brief.

Optyczny mózg

Prędkość rozchodzenia się informacji (za pośrednictwem impulsów nerwowych) w mózgach ssaków sięga około 120 m/s. Wartość ta determinuje czas potrzebny na komunikację pomiędzy dowolnymi obszarami w mózgu i w konsekwencji czas reakcji na bodźce. To zaś, przy narzuconych przez środowisko zewnętrzne skalach czasowych, rzutuje na maksymalne dopuszczalne rozmiary mózgu. Przykładowo, informacja pomiędzy dwoma odległymi o 10 cm częściami mózgu podróżuje co najmniej milisekundę (0,001 s). Zachowanie tego rzędu czasów propagacji sygnału jest niezbędne do tego, żeby organizm mógł przetworzyć bodziec zewnętrzny i zareagować na niego w ułamku sekundy. Takie tempo rekcji umożliwiło naszym przodkom przetrwać w potyczce z dzikim zwierzęciem i prowadzić polowania. Dzisiaj jest to niezbędne chociażby do tego, żeby sprawnie kierować pojazdami.

O ile prędkość propagacji impulsów w naszych mózgach jest ograniczona biochemiczną naturą naszego hardware’u, to w przypadku systemów neuromorficznych – naśladujących działanie mózgu –  ogranicza nas jedynie maksymalna prędkość rozchodzenia się informacji w przyrodzie, równa prędkość światła w próżni, c\approx 299\ 794\ 458 m/s.  Jeśli udałoby się zasymulować działanie sieci neuronowych za pomocą światła, mogłyby one przetwarzać informacje około 2,5 miliona razy szybciej niż ludzki mózg. To zaś,  z jednej strony znaczy, że optyczny mózg mógłby być znacznie większy niż ten biologiczny.  Dla przykładu, przy zachowaniu minimalnej latencji sygnałów w ludzkim mózgu (~1 ms dla ~10 cm) rozmiary świetlnej sieci neuronowej mogą sięgać 300 km. Z drugiej strony, możliwe stałoby się osiąganie dużo większego niż w ludzkim mózgu tempa przetwarzania informacji. Hipotetyczny, optyczny symulator ludzkiego mózgu o rozmiarach naturalnych działałaby około 2,5 miliona razy szybciej od jej biologicznego odpowiednika. Jeden dzień funkcjonowania ludzkiego mózgu odpowiadałby więc około czterem setnym sekundy pracy optycznego mózgu. Jeden ziemski rok, odpowiadałby w symulacji optycznej około 13 sekundom. Natomiast, w świecie optycznym, symulacja naszego całego życia nie trwałoby dłużej niż dwadzieścia kilka minut!

Powyższe szacunki zaniedbują dodatkowe czasy wynikające z propagacji sygnału w innym niż próżnia ośrodku, jak i te związane z nieliniowym przetwarzaniem informacji optycznej, uwzględnienie których może być konieczne do symulacji realistycznych sieci neuronowych. Są one jednak wystarczająco miarodajne to tego, żeby uzmysłowić nam bardzo ważną z punktu widzenia człowieka własność sztucznej inteligencji. Mianowicie, może stać się ona nie tylko potężniejsza do ludzkiej, pod względem ilości przetwarzanej informacji ale i znacznie od niej szybsza. Z taką, tak zwaną, superinteligencją (Artificial Super Intelligence – ASI) trudno byłoby człowiekowi konkurować, ponieważ żyłby on w zupełnie innych skalach czasowych, nieprzystających do tych obowiązujących w wirtualnym świecie superinteligencji. Kiedy w świecie optycznej superinteligencji upłynęłoby 2,5 miliona lat, czyli czyli okres porównywalny z całą historią Homo sapiens na Ziemi, w zewnętrznym świecie ludzkim upłynąłby zaledwie jeden rok ziemski.

Wróćmy zatem na Ziemię. Superinteligencja to wciąż domena futurologii, natomiast prace nad optycznymi sztucznymi sieciami neuronowymi i ogólniej procesorami optycznymi trwają na dobre [1,2,3,4].  To samo dotyczy innych podejść do sztucznej inteligencji i symulacji ludzkiego mózgu. Można o tym poczytać w moich wcześniejszych wpisach O symulacjach ludzkiego mózgu i Dwanaście technologii jutra, gdzie m.in. przywołuję prowadzone obecnie symulacje wykonywane za pomocą tzw. procesorów neuromorficznych. Tutaj chciałbym jednak pozostać przy podejściu optycznym, które można uważać za rozwiązanie docelowe, zarówno ze względu na dyskutowaną powyżej możliwość osiągnięcia maksymalnej dopuszczalnej w przyrodzie prędkości przesyłania informacji, jaki i z uwagi na możliwość przetwarzania informacji z niedostępną innymi metodami częstotliwością. Ponadto, podejście optyczne w sposób naturalny otwiera drogę do implementacji tak zwanej kwantowej sztucznej inteligencji (ang. quantum artificial intelligence) [5,6,7], ale o tym przy innej okazji.

Chociaż mogłoby się wydawać, że optyczna sieć neuronowa to nieuchronnie coś bardzo skomplikowanego i kosztownego, to prostą optyczną sieć neuronową może zbudować dosłownie Każdy, korzystając z powszechnie dostępnych elementów do budowy światłowodowych sieci internetowych. To zaś jak można to zrobić zarysuję poniżej i posłużę się tym przykładem do omówienia kilku wybranych aspektów optycznych implementacji sieci neuronowych.

20200317_113414
Prototyp optycznej sztucznej sieci neuronowej opartej o światłowody jednomodowe oraz dzielniki mocy (splittery). Źródłem światła jest laser, pracujący na długości fali 650 nm.

Do konstrukcji optycznej sieci neuronowej będziemy potrzebować sztuczne neurony oraz połączenia pomiędzy nimi. Te drugie możemy zrealizować wykorzystując światłowody, stosowane do komunikacji optycznej. Odcinki takich światłowodów można ze sobą łączyć stosując odpowiednie adaptery. Medium transmisyjne wykorzystywane w światłowodach to przeważnie domieszkowane szkło kwarcowe, dla którego współczynnik załamania n \approx 1.46, co daje prędkość propagacji sygnału v=c/n \approx 205\ 000 km/s, czyli około 70 \% prędkości światła w próżni.

Funkcją neuronów jest zbieranie sygnałów wejściowych z synaps i wytworzenie na ich podstawie sygnału wyjściowego. W biologicznych sieciach neuronowych, dodatkowym aspektem jest wytworzenie tak zwanego potencjału czynnościowego (ang. spike). Możliwość wytwarzania spike’ów jest brana pod uwagę w symulacjach mózgu, w szczególności z wykorzystaniem systemów neuromorficznych. Natomiast, są one zazwyczaj pomijane w uproszczonych modelach sieciach neuronowych stosowanych w uczeniu maszynowym. W tym przypadku, działanie sztucznego neuronu polega na zsumowaniu, z odpowiednimi wagami (synaptycznymi), sygnałów wejściowych i przetworzeniu takiej sumy przez tzw. funkcję aktywacji, otrzymując w ten sposób sygnał wyjściowy. Otrzymany sygnał jest następnie podawany na wejścia innych neuronów, lub też, na wejście tego samego neuronu. Do sytuacji bez tego typu pętli zalicza się sieć typu feedforward, na której skupimy poniżej naszą uwagę.

Najprostszą realizacją optycznego neuronu jest przypadek z liniową funkcją aktywacji,  dla którego neuron jest niczym innym jak sumatorem sygnałów wejściowych. Pomimo swojej prostoty, model ten jest wystarczający do tego by uchwycić podstawową ideę przetwarzania informacji przez sieć neuronową. Realizacją optyczną  neuronu-sumatora jest rozdzielacz (ang. splitter) światłowodowy. Dodatkowo, wagi na “synapsach” takiego optycznego neuronu można modyfikować stosując odpowiednio dobrane tłumiki mocy. W rozwiązaniu prototypowym widocznym na zdjęciu powyżej, wykorzystano standardowe rozdzielacze i połączenia stosowane przy budowie sieci światłowodowych. Całość układu można jednak znacząco zminiaturyzować stosując zintegrowane obwody fotoniczne, zawierajace sieci miniaturowych sztucznych neuronów.

Istota działania sieci neuronowych sprowadza się do wykrywania wzorów. Mogą to być zarówno wzory graficzne, dźwiękowe, lub też bardziej abstrakcyjne wzory związane z przetwarzaniem języka i wyższymi funkcjami poznawczymi. Rozpoznawanie wzoru w sieci neuronowej realizowane jest warstwowo. Żeby to zobrazować, posłużmy się przykładem rozważanej sieci optycznej,  z szesnastoma neuronami w warstwie wejściowej. Neurony te będą reprezentować 16 pikseli na mapie bitowej o rozmiarach 4×4. Łącznie mamy więc 2^{16} = 65536 możliwych binarnych konfiguracji wejściowych. W przypadku optycznym, stan “1” danego bitu oznacza wprowadzenie do obwodu światła o ustalonej mocy. Stan “0” to brak światła.  Ponieważ, w ogólności, możemy zmieniać w sposób ciągły natężenie świtała, dopuszczalnych analogowych stanów wejściowych jest nieskończenie wiele. Tutaj jednak, dla uproszczenia, zawęzimy rozważania do stanów binarnych.

Kolejna warstwa, a  zarazem jedyna tzw. warstwa ukryta, wykrywa  8 liniowych wzorów składowych, wynikających z zsumowania wybranych czterech pikseli w warstwie pierwszej. Są to pośrednie wzory z których w ostatniej (trzeciej) warstwie komponowane są wzory które nasza sieć ma za zadanie rozpoznać. Sytuację tę przedstawia rysunek poniżej:

Netork
Graf reprezentujący połączenia w prototypowej optycznej sztucznej sieci neuronowej, rozpoznającej wybrane 4 wzory na bitmapie o rozmiarach 4×4.

Zaprezentowany tu przykład optycznej sieci neuronowej jest niezwykle prosty i opiera się na dzieleniu mocy sygnałów optycznych. Z uwagi na liniowość funkcji aktywacji, uzasadnione było zastosowanie tylko jednej warstwy wewnętrznej. W celu wykrywania bardziej skomplikowanych wzorów, konieczne jest wprowadzenie nieliniowych funkcji aktywacji (np. sigmoidalnych) oraz większej ilości warstw. Wyzwanie to jest podejmowane w wielu aktualnych pracach nad optycznymi sieciami neuronowymi, zarówno klasycznymi, jak i tymi wykorzystującymi kwantową naturę światła.  Nad wdrożeniami takich rozwiązań pracują m.in.  takie startupy jak LightMatterXandu.

Implementacje te dotyczą “wąskiej” sztucznej inteligencji (Artificial Narrow Intelligence – ANI) nie zaś symulacji nakierowanych na stworzenie ogólnej sztucznej inteligencji (Artificial General Intelligence – AGI), nie wspominając nawet o superinteligencji. Faza ANI jest jednak przedsionkiem do dalszego rozwoju podejścia optycznego w kierunku AGI i ASI.  Warto ostatecznie podkreślić, że przetwarzanie informacji za pomocą światła rozważane jest nie tylko w kontekście sieci neuronowych, ale również (a obecnie nawet przede wszystkim) w kontekście akceleratorów optycznych, przyśpieszających działanie procesorów o standardowej, nieneuronalnej,  architekturze. Ponadto, korzyści płynące z wykorzystania światła nie polegają wyłącznie na wysokiej prędkość propagacji sygnału. W standardowym przewodzie elektrycznym, prędkość rozchodzenia się impulsu elektromagnetycznego jest również porównywalna z prędkością światła w próżni. Problemem jest natomiast dyssypacja energii w układach elektronicznych, która rośnie wraz z częstotliwością przetwarzania informacji.  Problem odprowadzania wytworzonego w ten sposób ciepła okazał się na tyle trudny, że częstotliwość taktowania naszych komputerów pozostaje praktycznie niezmieniona od przeszło dziesięciu lat i wynosi maksymalnie ~3,5 GHz. Wykorzystanie światła jako nośnika informacji otwiera drogę do wyjścia z tego impasu. Więcej informacji na ten temat można znaleźć w poniższym filmiku oraz w artykule [4].

Chciałbym na koniec dodać, że opisana tu przykładowa optyczna sieć neuronowa powstała dzięki zasobom Garażu Złożoności i Quantum Cosmos Lab, działających na Uniwersytecie Jagiellońskim. W ramach tych dwóch przedsięwzięć planujemy kolejne projekty związane z systemami neuromorficznymi, w szczególności opartymi o optyczne przetwarzanie informacji. Osoby zainteresowane współpracą w tym obszarze zachęcam do kontaktu.

Bibliografia

[1] R. Hamerly, L. Bernstein, A. Sludds, M. Soljačić, and D. Englund  Large-Scale Optical Neural Networks Based on Photoelectric Multiplication Phys. Rev. X 9, 021032 (2019).
[2] Xiao-Yun Xu  et al. A scalable photonic computer solving the subset sum problem, Science Advances,  Vol. 6, no. 5, eaay5853 (2020).
[3] Y. Zuo, B. Li, Y. Zhao, Y. Jiang, Y. Chen, P. Chen, G. Jo, J. Liu, and S. Du, All-optical neural network with nonlinear activation functions, Optica 6, 1132-1137 (2019).  
[4] K. Kitayama et al.,  Novel frontier of photonics for data processing – Photonic accelerator, APL Photonics 4, 090901 (2019)
[5] G.R. Steinbrecher, J.P. Olson , D. Englund et al. Quantum optical neural networks, npj Quantum Inf 5, 60 (2019).
[6] F. Tacchino, C. Macchiavello, D. Gerace et al. An artificial neuron implemented on an actual quantum processor, npj Quantum Inf 5, 26 (2019).
[7] J. Biamonte, P. Wittek, N. Pancotti et al. Quantum machine learningNature 549, 195-202 (2017).

© Jakub Mielczarek

Esej o przemijaniu

Życie prowadzi tylko w jednym kierunku – od poczęcia do śmierci. I choć dopuszczalny jest proces przeciwny, to jego prawdopodobieństwo jest tak małe, że nawet w czasie liczonym wiekiem Wszechświata, ewenement taki nie wystąpi. Fizyka określa taką sytuację mianem procesu nieodwracalnego. Procesy takie są, z definicji, niesymetryczne ze względu na odwrócenie czasu: t -> -t. Takim też się zdaje być cały otaczający nasz Świat. Jednakże, wbrew temu co mówi nam nasze codzienne doświadczenie, rzeczywistość na najgłębszym znanym nam poziomie nie rozróżnia przeszłości od przyszłości. A mówiąc precyzyjniej, spełnia tak zwaną symetrię CPT (złożenie sprzężenia ładunku (C), parzystości (P) i odwrócenia czasu (T)). O ile więc sam wymiar czasu istnieje również w fizyce mikroświata, to jego kierunkowość, czyli tak zwana strzałka czasu, wyłania się dopiero rozważając obiekty makroskopowe.

Nie trudno jest podać przykład procesu nie posiadającego strzałki czasu. Jest nim chociażby ruch wahadła matematycznego, które jest oczywiście przypadkiem wyidealizowanym, nie uwzględniającym tarcia. Przyglądając się nagraniu oscylacji takiego wahadła nie będziemy w stanie stwierdzić czy odtwarzane jest ono w przód czy też wstecz w czasie. Sytuacja ulegnie jednak zmianie kiedy przeprowadzimy eksperyment z wahadłem rzeczywistym, charakteryzującym się pewnym tarciem. Oscylacje takiego wahadła będą powoli wygasać, aż ostatecznie ustaną. Odtwarzając nagranie naszego eksperymentu będziemy w stanie z całą pewnością stwierdzić czy zostało one puszczone zgodnie z faktycznym biegiem czasu, czy też nie. Bo przecież nikt nigdy nie zaobserwował by wahadło samo się rozhuśtało, chociaż zdarzenie takie fizyka dopuszcza. Podobnie jednak jak w przypadku życia, jego prawdopodobieństwo jest tak znikome, że w praktyce niemożliwe do zaobserwowania. To co odróżnia wahadło matematyczne od przypadku wahadła rzeczywistego to tarcie, które jest przykładem tak zwanej dyssypacji energii.

Pawel Kuczynski
Ilustracja wahadła rzeczywistego dyssypującego energię poprzez tarcie o ziemię. Obraz Pawła Kuczyńskiego.  Źródło

Dyssypacja to nic innego jak rozpraszanie energii mechanicznej do otoczenia. W procesie tym, użyteczna energia (a precyzyjniej, tak zwana energia swobodna), np. związana z ruchem wahadła którą moglibyśmy wykorzystać do wykonania pracy, zamienia się w chaotyczny ruch cząsteczek, który nazywamy ciepłem. Z ciepła nie jesteśmy w stanie odzyskać włożonej pracy, a przynajmniej nie całej. Sposobem na jej częściowe odzyskanie jest wykorzystanie chłodnicy i zbudowanie silnika cieplnego, który zawsze charakteryzuje się jednak pewną sprawnością.

Znaczenie dyssypacji energii jest dużo głębsze niż to może się na pierwszy rzut oka wydawać. Istnieje mianowicie związek pomiędzy dyssypacją, a informacją. Mówiąc obrazowo, dyssypując energię, rozpraszamy informację z układu do jego otoczenia. Natomiast, co może brzmieć początkowo dosyć nieintuicyjnie, im obficiej dyssypujemy energię tym więcej informacji możemy przetworzyć u układzie. Wyższa dyssypacja to więc większy potencjał do wykonywania obliczeń.

To, że przetwarzanie informacji wiąże się z dyssypacją energii nie powinno nas dziwić. Wszak każdy z nas tego doświadcza trzymając przez dłuższy czas smartfon w dłoni. Jednakże, ciepło smartfona, tabletu czy laptopa, które odczuwamy wynika głównie z oporów przepływu prądu elektrycznego w procesorze. Jak jednak teoretycznie pokazał w 1961 roku Rolf Landauer, istnieje pewna minimalna ilość ciepła, która zawsze zostanie oddana do otoczenia w nieodwracalnym układzie obliczeniowym, nawet jeśli zupełnie zaniedbamy opory elektryczne i innego typu tarcie w układzie. Zjawisko to wiąże się z utratą informacji o elementarnej porcji informacji, którą jest bit. Przewidywanie Landauer’a zostało potwierdzone eksperymentalnie w  2014 roku.

Aby zilustrować powyższą tzw. zasadę Landauer’a, rozważmy operację logiczną na dwóch bitach. Powiedzmy, niech to będzie operacja alternatywy rozłącznej XOR, zdefiniowanej tak, że 0 XOR 0=0, 0 XOR 1=1, 1 XOR 0=1,  1 XOR 1=0. Jak widać, jest to operacja nieodwracalna, ponieważ znając wynik operacji, nie jesteśmy w stanie jednoznacznie stwierdzić, jakie były wartości bitów wejściowych. Np. Jeśli jako wynik otrzymamy „1”, to może to odpowiadać dwóm konfiguracjom bitów początkowych (0,1) i (1,0). Bramka realizująca operację XOR traci więc informację o stanie początkowym. Informacja ta „ukrywana jest” w otoczeniu, co przejawia się jako dyssypacja porcji ciepła. Jeśli natomiast, oprócz stanu końcowego, nasz układ zachowywałby również jeden z bitów wejściowych, z informacji końcowej moglibyśmy odzyskać stan początkowy. Byłby to przykład tzw. obliczeń odwracalnych (bez utraty informacji), które teoretycznie mogą być realizowane przez tzw. komputery kwantowe.

Powyższa dyskusja dotycząca obliczeń i informacji miała na celu podkreślenie silnego związku pomiędzy dyssypacją energii, a tempem przetwarzania informacji. Z drugiej strony, dyssypacja to nieodwracalność a nieodwracalność to, jak sądzimy, strzałka czasu. Pozwala to wywnioskować, że istnieje relacja pomiędzy strzałką czasu a tempem przetwarzania informacji. Czy więc może przepływ informacji jest miarą upływu czasu? Czyż nie stoi to w zgodzie z naszym poczuciem upływu czasu, które zależy od tego jak dużo informacji przetwarzamy? Nie ma przecież lepszej metody na oczekiwanie na spóźniony samolot niż lektura książki. Oraz przeciwnie, wpatrując się w błękitne letnie niebo, możemy wręcz osiągnąć stan „pozaczasowości”.  Nie chciałbym tu wchodzić w kwestię percepcji czasu. To odrębne i złożone zagadnienie. Przywołuję jedynie naturalnie nasuwające się skojarzenia.

Prowadzą nas one również z powrotem w stronę życia, w szczególności do Człowieka.  Czy więc życie, jako proces nierównowagowy, a więc i dyssypatywny jest pewnym systemem przetwarzającym informacje? Bez wątpienia takim jest, o czym świadczą zarówno zachodzące w nim przetwarzanie informacji na poziomie molekularnym jak i na poziomie komórkowym. Nasze myśli to nic innego jak procesowanie informacji, z którą wiąże się dyssypacja energii.

Skąd jednak w życiu pozorna „chęć” dyssypowania energii? Choć to zupełnie fundamentalne pytanie, które wciąż traktowane jest jako otwarte, postaram się tu jednak nakreślić na nie odpowiedź, bazując na najlepszej dostępnej nam wiedzy.

Po pierwsze, życie jest przykładem układu otwartego, mogącego wymieniać energię  i informację z otoczeniem. Jest to, w zasadzie, podstawowy warunek jego istnienia. Dla układów zamkniętych obowiązuje mianowicie druga zasada termodynamiki, która mówi nam, że układy izolowane dążą do stanu tak zwanej równowagi termodynamicznej.  W stanie tym maksymalizowana jest tak zwana entropia, którą często utożsamia się z miarą nieuporządkowania systemu. Zamiast mówić o uporządkowaniu, które to może posiadać wiele miar, warto tu jednak podkreślić, że stan równowagi termodynamicznej, jak sama nazwa wskazuje, to stan równowagowy. Jest on więc symetryczny ze względu na odwrócenie czasu. Obserwując stan równowagi termodynamicznej, będziemy mogli zauważyć pewne fluktuacje takich wielkości jak energia czy też entropia układu. Zarówno jednak wielkości średnie jak i fluktuacje nie wyróżnią strzałki czasu. Ponadto, w stanie równowagi termodynamicznej nie dysponujemy energią swobodną (jest ona minimalna), którą można byłoby dyssypować, a tym samym przetwarzać informacje. Życie więc zdecydowanie takim stanem nie jest.

Żeby istnieć, organizmy żywe muszą trzymać się z dala od stanu równowagi termodynamicznej. A to jest możliwe dzięki ciągłemu wymuszonemu odpływowi entropii z układu. Erwin Schrödinger, jeden z ojców mechaniki kwantowej, w swojej książce „What is Life?” z 1944 roku, w której utworzył fizyczne fundamenty fizyki życia, określił ten konieczny do zaistnienia życia ujemy strumień entropii negentropią.  Negentropia pojawia się, w szczególności, kiedy układ znajduje się „pomiędzy” grzejnicą (źródłem ciepła) a chłodnicą (odbiornikiem ciepła), podobnie jak w silniku cieplnym.

Spotkało nas to szczęście, że Ziemia jest właśnie takim układem otwartym, przez który nieustannie przepływa strumień negentropii. Dzieję się to dzięki temu, że Ziemia odbiera ze Słońca promieniowanie w zakresie głównie widzialnym a wypromieniowuje je w postaci (podczerwonego) promieniowania termicznego. W sytuacji stacjonarnej, ilość energii absorbowanej i emitowanej przez Ziemię są równe. Różnica polega jednak na formach tych energii. Mówimy mianowicie, że promieniowanie absorbowane jest niskoentropowe, natomiast promieniowanie emitowane jest wysokoentropowe. Bilans entropowy pozostaje więc ujemny.

Ten ujemny rozrachunek entropowy umożliwia intensywne przetwarzanie informacji na powierzchni Ziemi, co skutkuje dyssypacją energii. Co więcej, tworzy się hierarchia podsystemów będących układami otwartymi. W szczególności, takim podsystemem Ziemi jest biosfera, której to podsystemem są zarówno sami ludzie jak i tworzona przez nich cywilizacja technologiczna (choć ta zaczyna już wykraczać poza biosferę). Dostępność niskoentropowego pożywienia, takiego jak powstałych w procesie fotosyntezy cukrów,  dzięki któremu życie może funkcjonować jest więc konsekwencją tego, iż Ziemia jako całość jest otwartym, nierównowagowym układem wystawionym na strumień negentropii.

Zagłębienie się w szczegóły działajacych tu mechanizmów jest jednak nie lada wyzwaniem. A to dlatego, że o ile opis stanów równowagowych znany jest doskonale od dziewiętnastego wieku, tak obszar fizyki nierównowagowej to wciąż otwarta karta fizyki. Jednym z prekursorów tej dyscypliny był noblista Ilia Prigogine, który wniósł ogromny wkład zarówno w rozwój, jak i spopularyzowanie fizyki procesów nierównowagowych. To On jako pierwszy zwrócić uwagę na możliwość formowania się złożonych struktur dyssypatywnych. Postęp w tej dziedzinie jest jednak powolny i w dużym stopniu następuje skokowo (dzięki przełomom). Za ostatni z takich milowych kroków można uznać  pokazanie przez amerykańskiego fizyka  Jeremy’ego Englanda nowego związku pomiędzy nieodwracalnością procesów makroskopowych, a ilością dyssypowanej energii. Ponadto,  England wskazał, że przy działaniu periodycznej siły wymuszającej, układ nierównowagowy może dokonywać reorganizacji do postaci zwiększającej dyssypację energii. Co jest zupełnie niesłychane, reorganizacja ta przypomina proces ewolucji darwinowskiej. Wyniki Englanda stanową również wsparcie do tak zwanej zasady maksymalnej produkcji entropii MEP (Maximum Entropy Production), która wyłoniła się w latach osiemdziesiątych ubiegłego wieku z  niezależnych rozważań w takich obszarach jak klimatologia, chemia, i biologia. Zasada ta mówi, że układy znajdujące się z dala od stanu równowagi termodynamicznej dążą do maksymalizacji dyssypacji energii.

Powyższe obserwacje skłaniają do przypuszczenia, że proces ewolucji biologicznej jest przejawem „poszukiwania” przez układ, którym jest powierzchnia Ziemi, a dokładniej biosfera, najbardziej optymalnego sposobu dyssypacji energii. Maksymalizacja dyssypacji energii umożliwia zaś przetwarzanie największej ilości informacji. A patrząc na to samo z drugiej strony, do optymalnej dyssypacji potrzebujemy dużej ilości nieodwracalnych obliczeń. Obliczenia te są tym wydajniej przeprowadzane im bardziej wyspecjalizowane są systemy przetwarzające informację. Wszak mózg może dużo lepiej dyssypować energię niż np. 1,5 kilograma wody. Jednak, osiągnięcie takiej perfekcji w obliczeniach a zarazem dyssypowaniu energii zajęło Naturze około 4 miliardy lat.

Opierając się na powyższym rozumowaniu, możemy dojść do konkluzji, że życie jest przejawem nierównowagowego procesu dążącego do maksymalizacji dyssypacji energii. Człowiek jest natomiast jedną z najbardziej złożonych jednostkowych struktur dyssypatywnych jakie są nam znane. Mechanizm ewolucji, który nas ukształtował, możemy zaś postrzegać jako przejaw optymalizacji procesu dyssypacji. Pewnie częściowo z konieczności, w wyniku skończonych zasobów materii w systemie jaki i poprzez akumulację błędów, proces ten „wypracował” rozwiązanie w postaci śmierci wcześniejszych ewolucyjnie wersji „maszyn dyssypatywnych”. Po co wszak utrzymywać przy życiu stare modele, kiedy zużywają one zasoby negentropii którymi można zasilić nowe, bardziej wydajne, dyssypatory?

Kolejną, poza poziomem jednostek, warstwą osiągania maksimum wydajności procesu dyssypacji jest warstwa cywilizacyjna. Tworząc cywilizację techniczną, Natura jeszcze skuteczniej jest w stanie dyssypować energię. Obserwacja ta dostarcza możliwego, wysokopoziomowego, wyjaśnienia naszej ciągłej woli rozwoju i tworzenia. To, że podjąłem wysiłek napisania tego tekstu jest prawdopodobnie również przejawem dążenia do maksymalizacji procesów przetwarzania informacji, chociaż niewątpliwie nie jest się łatwo z taką perspektywą pogodzić.

Warto ostatecznie podkreślić, że dążenia systemów nierównowagowych do konfiguracji o maksymalnej możliwej dyssypacji energii nie należy postrzegać w kategoriach teleologicznych (dążenia do pewnego ustalonego celu). Jest to raczej proces podobny do osiągania przez układy fizyczne stanu podstawowego, np. poprzez wypromieniowywanie energii. Dążenie do stanu o najniższej energii jest konsekwencją niestabilności stanów wzbudzonych. Analogicznie, stan układu nierównowagowego nie dyssypujący maksymalnie energii można postrzegać jako pewien stan niestabilny. Niestabilność ta powoduje przejście do kolejnej, bardziej optymalnej konfiguracji, która to znowu okazuje się niestabilna, itd. Z uwagi na to, że przestrzeń konfiguracji jest niewyobrażalnie ogromna, cały proces będzie bardzo wolny i złożony. Jest to ciągłe poszukiwanie, w którym trudno jest nawet wskazać konfigurację optymalną (prawdopodobnie jedną z wielu). Jednym z możliwych finałów tego procesu jest osiągniecie granicznej wartości dyssypacji   lub też wyczerpanie się strumienia negentropii. Wtedy to, naszym odległym potomkom, pozostanie znalezienie nowego źródła nieodwracalności albo skazanie na „bezczasowość” stanu równowagi termodynamicznej.

                                                                                                                              © Jakub Mielczarek