Vil du beholde hvert bokmerke du bryr deg om offline?  Vi viser deg hvordan du oppretter ditt eget, åpen kildekode, selvhostede webarkiv.

Slik oppretter du din egen private selv-vert-lese-det-senere app

Annonse Internett er en enorm skattekule av kunnskap. Men det er flyktig, og det er ingen garantier for at innholdet du liker vil være der i fremtiden. Hvis du ikke har råd til å miste innholdet, kan du bruke et webarkiveringsverktøy til å lagre en kopi av websiden. Mange bruker lese-senere tjenester for å lagre netteartikler. Diss

Annonse

Internett er en enorm skattekule av kunnskap. Men det er flyktig, og det er ingen garantier for at innholdet du liker vil være der i fremtiden. Hvis du ikke har råd til å miste innholdet, kan du bruke et webarkiveringsverktøy til å lagre en kopi av websiden.

Mange bruker lese-senere tjenester for å lagre netteartikler. Disse appene fungerer best med tekstbasert innhold og håndterer ikke kompliserte nettsideutforminger eller medier ordentlig. Vil du ha litt mer kontroll?

La oss se hvordan du kan opprette en klon av Instapaper eller Pocket i datamaskinen din uten å miste noe webside.

Vi presenterer ArchiveBox

ArchiveBox er en Open Source-løsning som kan hjelpe deg med å være vert for ditt eget alternativ til en arkiveringstjeneste som Wayback Machine. Du gir ikke opp privatlivet ditt eller holder deg innelåst i en tjeneste du ikke kan kontrollere.

Den tar listen over nettadresser du vil arkivere og oppretter en lokal, søkbar HTML-klone av innholdet i flere formater. Det inkluderer lokale kopier i HTML, et skjermbilde av siden, en PDF-fil og WARC (Web ARChive).

Disse kopiene blir med deg selv om den opprinnelige nettsiden forsvinner i fremtiden.

ArchiveBox er skrevet i Python 3. Den bruker også avhengigheter som Wget, Headless Chrome, Youtube-dl og andre Unix-verktøy for å lagre nettsiden. Du trenger ikke en konstant kjørt backend-server. Bare kjør den hver gang du vil importere nye lenker og oppdatere den statiske utdataene.

Når arkiveringen er fullført, kan du åpne det genererte output / index.html i nettleseren for å se arkivet.

ArchiveBox

Fordeler med ArchiveBox

  • Den arkiverer koblingene i flere filformater som fungerer som sikkerhetskopi.
  • Den prøver å beholde den opprinnelige nettsiden ved å bruke sofistikerte fangstmetoder.
  • Har muligheten til å pakke ut innholdet automatisk og lagre det i en enkelt mappe.
  • Det gir også et enkelt kommandolinjegrensesnitt for å håndtere flere koblinger, feeder og bokmerker. Du må stille den en gang og kjøre den på en plan for å arkivere nyere lenker.

Ulemper med ArchiveBox

  • ArchiveBox trekker ut alle eiendelene fra nettsiden. Det bruker betydelig diskplass og er CPU-intensiv.
  • Appen krever tre eller flere avhengigheter utover Python 3.5. Det krever prøving og feiling for å få disse komponentene til å fungere sammen.
  • Appen støtter ikke Windows OS fullstendig. Du må installere Docker eller aktivere Windows Subsystem for Linux (WSL) Slik kjører du et Linux Desktop Bruker Windows Subsystem for Linux Slik kjører du et Linux Desktop Bruker Windows Subsystem for Linux Vil du kjøre Linux på din Windows PC? Slik kjører du et Linux-skrivebord i Windows ved å bruke Windows Subsystem for Linux. Les mer . Selv da eller ikke fungerer noen funksjoner.

Støttede operativsystemer

ArchiveBox støtter offisielt følgende operativsystemer:

  • macOS: 10.12 Sierra med Homebrew.
  • Linux: Ubuntu, Debian (med APT). Appen kan (eller kanskje ikke) fungere i distros som Fedora, CentOS, SUSE, Arch og mer.
  • BSD: FreeBSD, OpenBSD, NetBSD (med pkg).

avhengig

ArchiveBox er et fleksibelt webarkiveringsverktøy. Du må installere følgende avhengigheter og oppfylle minimumskravene.

  • Python 3. Ikke bruk standard Python 2.0 som følger med macOS.
  • Wget 1.16
  • Chromium 59. Hvis du allerede bruker Google Chrome, ikke installer Chromium.
  • Youtube-dl (valgfritt): Medieressursene trenger mye lagringsplass. Gi den en detaljert tanke før du arkiverer bokmerkene dine.

Sett opp ArchiveBox

Det er to måter å sette opp ArchiveBox - automatisk og manuell .

I den automatiske metoden vil et hjelpeskript installere appen og deres avhengigheter. Men du vil ikke kunne løse problemet hvis det oppstår noen feil. Det er bedre å installere appen manuelt.

For demonstrasjonens formål bruker vi macOS 10.14.6.

Installere avhengighetene

Den beste måten å installere avhengigheter på er gjennom en pakkeleder som heter Homebrew. For å forstå det grunnleggende, sjekk ut denne artikkelen om hvordan du installerer Mac-apper med Homebrew.

Åpne terminal og skriv inn

 brew install python3 git wget curl youtube-dl 
 brew cask install chromium 

(Hopp over dette hvis du allerede har Google Chrome / Chromium installert i applikasjoner)

Kontroller versjonsnummeret for alle avhengigheter

For å sjekke versjonsnummeret for alle avhengigheter, skriver du inn

 dependency app --version 

(Bytt ut avhengighetsappen med python3, wget, youtube-dl og mer)

sjekk versjonen av alle avhengigheter

Last ned bokmerkereksporteringsfilen

Alle de lest-senere tjenestene og nettleserne kan eksportere bokmerkene dine som en HTML-fil. Følg instruksjonene i denne artikkelen for hvordan du eksporterer bokmerker fra nettleseren din. Hvordan migrere bokmerker mellom Chrome, Firefox og / eller Edge Hvordan migrere bokmerker mellom Chrome, Firefox og / eller Edge Ønsker å overføre bokmerkene til en ny nettleser eller sikkerhetskopiere dem? Slik gjør du i Chrome, Firefox og Edge. Les mer . Du kan også lagre en enkelt lenke eller listen over nettadresser i en tekstfil.

Installer ArchiveBox

Klone repoen fra GitHub. Åpne terminal, og skriv inn

 git clone https://github.com/pirate/ArchiveBox 

Deretter,

 cd ArchiveBox/ 

Når du kloner denne repoen, vil installasjonsprogrammet opprette en ArchiveBox-mappe i hjemmekatalogen. Denne mappen inneholder alle hovedprogrammets og konfigurasjonsfilene.

installer ArchiveBox

Legg til URL-en din i arkivet

Hvis du vil arkivere en enkelt lenke, skriver du inn

 echo 'https://example.com'| ./archive 

arkivere en enkelt lenke

Naviger til ArchiveBox-mappen for å se den nyopprettede utdatamappen. Her inne vil du se en index.html-fil.

ArchiveBox-utskriftsmappe

Legge til flere koblinger til arkivet

Når du vil lagre flere koblinger (flere titalls eller flere), er det bedre å legge koblingene dine til en tekstfil. Appen vil analysere URL-ene i filen og arkivere dem. Åpne terminal og skriv inn

 ./archive [Path to Your File.txt] 

Hvis filen din ligger i nedlastingsmappen, vil banen din se ut

 ./archive /Users/(Home directory name)/Downloads/links.txt 

Vent noen minutter / timer for å fullføre prosessen. For å få tilgang til arkivet ditt, åpner du output / index.html i nettleseren. Du kan sortere etter kolonne, søke tittel ved å bruke ruten øverst til høyre og se det totale antall lenker nederst.

arkiverte lenker gjennom ArchiveBox

Klikk på favoritten under kolonnen Filer for å besøke detaljsiden. Du finner lenker til individuelt filformat som det vises på skjermdumpen. Den samme lenken blir også lastet opp til archive.org.

detaljside for hver arkiverte lenke

På samme måte kan du eksportere Instapaper- eller Pocket-koblinger som en HTML-fil. Skriv deretter inn

 ./archive ~/Downloads/instapaper-export.html 

Du kan også importere en liste over lenker fra feed-URLen. Men husk at du kan støte på for mange feil eller timeout-økter. Hvis det er tusenvis av nettadresser, er det bedre å dele dem opp i mindre filer for å øke suksessraten.

Konfigurer ArchiveBox

Standardinnstillingene fungerer i de fleste tilfeller, men det er visse viktige parametere du kan finjustere for å få flere funksjoner. Konfigurasjonsfilen lever i

 ~/ArchiveBox/etc/ArchiveBox.conf.default 

Merk: Ikke modifiser denne filen, fordi de vil bli slettet når du oppdaterer appen. Hvis du vil lage en vedvarende konfigurasjonsfil, skriver du inn

 cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf 

Kommandoen cp oppretter en kopi av konfigurasjonsfilen i hjemmekatalogen. Som standard er filen ikke synlig i katalogen din. Trykk på Cmd + Shift + Period for å åpne . Åpne konfigurasjonsfilen i TextEdit.

kopi av ArchiveBox-konfigurasjonsfilen

parametere

ArchiveBox tilbyr mange alternativer. Her er noen viktige;

  • ONLY_NEW : Sett dette til True for å laste ned arkivet for nylig lagt til lenker. Kommer nyttig hvis du jevnlig bokmerker lenker.
  • TIMEOUT : Mulige verdier er 60 eller 120 sekunder. Hvis du ser hyppige timeout-feil, øker du den til 120 sekunder.
  • URL_BLACKLIST : Du kan bruke regex-uttrykk for å ekskludere visse domener, utvidelser eller URL-mønstre fra arkivet.
  • FETCH_MEDIA : Hent alle lyd- og videofiler ved å bruke youtube-dl. Sett dette til True bare når du har nok lagringsplass.
  • WGET_USER_AGENT : Bruk den til å endre brukeragenten under arkivering. Hvis du blir blokkert av visse servere, kommer dette alternativet til nytte.

Hvis du vil vite mer om konfigurasjonsdetaljene, kan du gå til ArchiveBox-konfigurasjonen for mer informasjon.

Publisering av arkivet ditt

Arkivet produsert av ArchiveBox er kompatibelt med enhver leverandør som kan være vert for statisk HTML. For eksempel GitHub-sider.

Du kan også tjene den fra en hjemmeserver eller VPS ved å laste opp utdatamappen direkte til webkatalogen din.

Forsikre deg om at du ikke kjører noe innhold som CGI eller PHP, og at du bare vil være vert for statiske HTML-filer.

Å være vertskap for arkivet ditt har både fordeler og ulemper. Når du laster ned lenker fra tilfeldige nettsteder, må du forstå farene ved å være vert for ondsinnede CSS- og JS-filer i det delte domenet ditt. Det kan også være lurt å svarteliste arkivene dine i robots.txt-filen for å forbli privat.

Last ned hele nettsteder frakoblet

Nettarkivering har vakt oppmerksomhet de siste årene. De registrerer hele innholdet på en webside, inkludert kildetype-HTML, innebygde bilder, stilark og JavaScript-kode. ArchiveBox passer rett i den brede kategorien verktøy for og arkivering av nett.

Hvis du er frustrert over Instapaper eller Pocket, er ArchiveBox et utmerket alternativ. Bortsett fra netteartikler, kan det være lurt å arkivere hele nettsteder for å få tilgang til dem offline eller for å bevare kunnskapen deres. Hvis dette interesserer deg, kan du lese dette stykket om hvordan du laster ned et nettsted for offlinelesning. Hvordan laste ned et helt nettsted for offline lesing. Hvordan laste ned et helt nettsted for offline lesing. Slik kan du laste ned hele nettsteder for lesing uten nett, slik at du har tilgang til når du ikke har Wi-Fi eller 4G. Les mer .

Utforsk mer om: Instapaper, Online Bookmarks, Open Source, Pocket, Internet Archive.