インターネットのお気に入りの部分を 0 ドルで保存しました。所要時間はわずか 30 分でした

in tech

インターネットのお気に入りのコーナーが突然消えてしまったことがあるなら、それがどれほど静かな衝撃であるかを知っているでしょう。オンライン上のあらゆるものは、サーバー、決定、ホスティング請求など、誰かの裁量によって存在します。あなたはその無常を受け入れるか、それに対して何かをするかのどちらかです。特に費用はかからず、セットアップには午後 1 日しかかからないことがわかったので、何かをすることにしました。

インターネットをアーカイブして保存するにはどうすればよいですか?

ウェブ上のあなたのお気に入りのコーナーが明日消えるかもしれないから

インターネット アイコンを持つロボットハンドを持つブラウザーのイラスト。その周りにはウェブサイト開発を表すアイコンがいくつかあります。 クレジット:
ルーカス・ゴウベイア / ハウツーオタク

インターネット上でアクセスするものはすべて、本質的には、HTML、PHP、CSS、JavaScript などのファイルの束がどこかのサーバー上に置かれ、他のコンピュータから利用できるようになっているだけです。 Web サイトにアクセスすると、サーバーはそれらのファイルをユーザーのマシンに送信し、ブラウザーがそれらのファイルを組み立てて表示されるページを作成します。

さて、この配置には明らかな弱点があります。これらのファイルをホストしている個人または会社が Web サイトを閉鎖したり、ページを削除したり、ホスティング料金の支払いを停止したりすると、そのコンテンツは失われ、ブックマークされたリンクは機能しなくなります。 3 年前にブックマークした記事、まさに問題を解決したフォーラムのスレッド、知識の半分を教えてくれたブログなど、すべてはサーバーを実行し続ける他の誰かに依存しています。

ただし、問題は、そのコンテンツを表示している間、そのコンテンツはすでにマシン上にあるということです。つまり、消える前にキャプチャしてローカルに保存できるということです。

How-To Geek ホームページで Chrome を右クリックし、コンテキスト メニューに[名前を付けて保存]オプションが表示されます。

これの最も基本的なバージョンは、おそらく以前に実行したことのあるものです。ページを右クリックして[名前を付けて保存]をクリックすると、そのページの HTML コンテンツがコンピュータにダウンロードされます。通常、プレーン HTML の一部として提供されないビデオの場合は、ビデオも取得できる専用のダウンロード ツールがあります。

ただし、問題は規模です。一度に 1 回右クリックしてインターネットを保存するのは、すぐに非常に面倒になってしまいます。保存を自動的に実行し、徹底的に実行し、すべてを 1 か所で整理できるツールが必要です。

まさにそれがArchiveBoxの機能です。

黒の背景にインターネット アーカイブのロゴ

古いものを掘り出すためのインターネット アーカイブの代替手段 8 選

インターネットから古いものを掘り出す必要がありますか?これらの他の Internet Archive の代替手段を使用すると、保存されたスクリーンショットを以前から表示できます。

アーカイブボックスのご紹介

インターネットのお気に入りの部分を保存する最も簡単な方法

ArchiveBox は、無料のオープンソースの自己ホスト型 Web アーカイブ ツールです。 URL を指定すると、それらのページの完全な閲覧可能なスナップショットが自分のストレージに保存されます。サードパーティのサービスが関与したり、サブスクリプションを利用したり、稼働している他人のサーバーに依存したりすることはありません。

URL を ArchiveBox にドロップするだけで、すべてがアーカイブされます。リンクを一度に 1 つずつ追加したり、リスト全体を貼り付けたり、ブラウザーのブックマーク ファイル全体をインポートしてすべてを処理したりすることもできます。

背景にさまざまなオペレーティング システムのロゴが表示されたオープン ソース アイコン。

有料アプリよりも優れた 5 つの無料オープンソース (FOSS) アプリ

値札のないプロ仕様のソフトウェア。有料アプリに匹敵する 5 つの無料オープンソース アプリをチェックしてください。

ArchiveBox が際立っているのは、アーカイブ プロセスが非常に厳格であることです。生の HTML を取得してそれで終わりというわけではありません。追加する URL ごとに、同じページの複数の形式がキャプチャされます。元の HTML ソース、記事の必要最低限​​の読みやすいバージョン (リーダー モードと考えてください。ただし永久に保存されます)、ページ全体のスクリーンショット、さらには PDF バージョンのページです。ページにビデオが含まれている場合、ArchiveBox は内部で yt-dlp を使用して実際のメディア ファイルをダウンロードします。 URL が git リポジトリを指している場合、リポジトリのクローンが作成されます。

元のサイトに何が起こっても、後で最も役立つ形式でコンテンツを保存できるという考え方です。

ArchiveBox はすべてのページを複数の形式 (HTML、スクリーンショット、PDF、さらに yt-dlp 経由のメディア ファイル) で保存するため、スナップショットがすぐに増えます。メディアを多く使用する 1 つのページは、簡単に数百メガバイトに達する可能性があります。そのため、常にデータ フォルダーに注目する必要があります。また、ストレージを節約したい場合は、メディアのアーカイブをスキップすることを検討してください。

Seagate IronWolf 4TB HDD。

ストレージ容量

4TB

ブランド

シーゲイト

価格とパフォーマンスの優れた組み合わせである Seagate IronWolf は、ほとんどの NAS ユーザーにとって優れたオプションです。 3 年間の保証、購入時に 3 年間のデータ回復サービスが含まれており、年間 180 TB のデータ書き込みワークロードを備えたこのドライブは、ほぼすべてのことに対応できます。


アーカイブボックスの設定方法

ターミナル コマンドを 1 つ実行し、ボタンを数回クリックするだけです

ArchiveBox を実行する最も簡単な方法は、Docker を使用することです。 Windows PC でターミナルを開いて次のように入力するだけです。

docker run -d -v C:\\archivebox\\data:/data -p 8080:8000 archivebox/archivebox

Windows ではなく Linux を使用している場合も、Windows パスを ~/archivebox/data:/data などに置き換えるだけで、同じコマンドが機能します。

このコマンドが実際に行うことは次のとおりです。

  • -d flag はコンテナをバックグラウンドで実行します。

  • -v C:\archivebox\data:/data この部分は、マシン上のフォルダー (この場合は C:\archivebox\data) をコンテナーのデータ ディレクトリにマップします。これは、アーカイブされたすべてのコンテンツが存在する場所であるため、コンテナーを削除しても、アーカイブはドライブ上にそのまま残ります。

  • そして -p 8080:8000 コンテナ内のポート 8000 をマシン上のポート 8080 にマップします。これが Web インターフェイスにアクセスする方法です。

コンテナーが実行されたら、ブラウザーを開いて次の場所に移動します。 http://ローカルホスト:8080。それが ArchiveBox ダッシュボードです。最初の実行では、ログインしてリンクの追加を開始できるように、管理者アカウントを作成する必要があります。これは、Web インターフェイスから行うか、コンテナー内でユーザー作成コマンドを実行して行うことができます。

該当なし

Docker コンテナ内で Localhost に接続する方法

Docker を使用する場合、通常、スタックを形成するサービスをコンテナ化し、コンテナ間ネットワークを使用してサービス間の通信を行います。

localhost が機能しない場合は、ファイアウォールが原因である可能性があります。セットアップ中に同様の問題が発生しました。ファイアウォールで例外を作成するだけで、この問題は解決されます。

アーカイブボックスの使用

世の中で最もユーザーフレンドリーなツールの 1 つです

Web インターフェイスは非常に直感的で簡単です。メイン ページはアーカイブ インデックスです。これは、撮影したすべてのスナップショットのリストと、各スナップショットのすべての保存形式へのリンクです。

上部のバーにある[追加]ボタンをクリックすると、新しいダッシュボードが表示され、URL を一度に 1 つずつ、またはリスト全体を貼り付けることができます。すぐ下に、「URL 形式」というオプションが表示されます。これを使用して特定の URL タイプに切り替えることができますが、私はデフォルトの「自動検出パーサー」のままにしておくのが好きです。その下には、「アーカイブの深さ」オプションがあります。深さ = 0 では、指定した URL をアーカイブするだけです。深さ = 1 では、指定された URL とその Web ページ上のすべてのリンクがアーカイブされます。 Web サイトや記事には、関連するリソースや研究トピックが別のソースにハイパーリンクされている可能性があるため、これは通常便利です。最後に、[アーカイブ方法]オプションがあり、Web サイトのどの部分をアーカイブするかを選択できます。

ただし、URL をコピーして貼り付けるのがまだ面倒な場合は、最後の手間を省く公式のブラウザ拡張機能もあります。これをインストールすると、URL をダッシュ​​ボードにコピーする代わりに、クリックするだけで現在表示しているページをアーカイブできます。アクセスしたすべてのページ (または特定のルールに一致するページ) を自動的にアーカイブするように設定することもできます。これにより、アーカイブが、忘れずに保持する必要があるものではなく、閲覧の受動的な記録になります。

とはいえ、インターネットを節約することは方程式の一部にすぎません。コンテンツが簡単に見つからなくても、それほど問題はありません。幸いなことに、ArchiveBox は強力な検索機能を提供します。キーワードやクエリに一致する可能性が最も高い Web サイトをランク付けするわけではないという意味では、Google 検索ほど強力ではありませんが、関連するすべての結果を表示することができます。

ファイル エクスプローラーが開いており、いくつかのファイルとタグが含まれるフォルダーのアイコンが表示されたラップトップ。

ファイル エクスプローラーでファイルをすばやく見つけるのに役立つ 8 つの検索フィルター

データをすぐに使えるように保管してください。


ArchiveBox を NAS とペアリングする

個人用インターネット アーカイブの構築に真剣に取り組んでいる場合は、NAS (Network Attached Storage) 上で行うことを強くお勧めします。 NAS 上でコンテナを直接実行するか、データ ボリュームをネットワーク共有にマッピングすることによって、ArchiveBox のデータ ディレクトリをそのディレクトリに指定するだけです。こうすることで、PC に負担をかけることなく、NAS の広大なストレージを活用できます。さらに、NAS 上にあるということは、NAS がすでに備えている冗長性によって保護されることを意味します。

それはまた、ただであることをやめる あなたの アーカイブ。ホーム ネットワーク上の誰もが保存されたスナップショットを閲覧でき、設定したフィードはバックグラウンドで新しいコンテンツを静かに取り込み続けます。基本的に、個人的な家庭用インターネット アーカイブが作成されます。これは、保持する価値があると判断した Web の一角で、所有するハードウェアに保存され、家族や友人全員が利用できるものです。

UGREEN NASync DSP2800 サムネイル

ブランド

青緑色

CPU

インテル第 12 世代 N シリーズ

この最先端のネットワーク接続ストレージ デバイスは、ネットワーク アクセスがあればどこにいても、スマートフォン、ラップトップ、タブレット、テレビを介してデータを保存し、アクセスする方法を変革します。


関連情報は以下のリンクからご確認いただけます

公式情報はこちら

関連記事

前の投稿
ホーム アシスタントのウェイクワードをトレーニングした後、「オーケー ナブ」をやめました
次の投稿
Antigravity 2.0 で RSS リーダーを構築しましたが、VS Code の Claude は競合できません

関連記事