Skip to content

Instantly share code, notes, and snippets.

@Hironsan
Last active April 26, 2024 03:41
Show Gist options
  • Star 48 You must be signed in to star a gist
  • Fork 6 You must be signed in to fork a gist
  • Save Hironsan/1f1cc629613cbd7de042a7ce269b91d6 to your computer and use it in GitHub Desktop.
Save Hironsan/1f1cc629613cbd7de042a7ce269b91d6 to your computer and use it in GitHub Desktop.
@Hironsan
Copy link
Author

Hironsan commented Aug 27, 2023

Amazon Reviews Multilingualについて

記述日

  • 2023/8/27

問題

原因

解決策(quick-fix)

手順

  1. HuggingFace Datasetsをインストール。
!pip install -Uq datasets
  1. load_datasetで読み込む。
from datasets import load_dataset

dataset = load_dataset("amazon_reviews_multi", "ja")
dataset.set_format(type="pandas")
df = dataset["train"][:]
df = df.rename(columns={"stars": "star_rating"})
df.head()

image

注意点

  • 本書で元々使っていたデータセットとはカラム名やデータセットが分割済みといった点で違いがある
  • 現時点では、読み込み部分以外の動作確認はしていない

TODO

  • 関連するノートブックでの動作確認と書き換え

@Hironsan
Copy link
Author

残念ながら、amazon_reviews_multiも公開停止になってしまいました。現時点では、SetFit/amazon_reviews_multi_jaから似たような形式のデータセットをダウンロードすることは可能です。

from datasets import load_dataset

dataset = load_dataset("SetFit/amazon_reviews_multi_ja")
dataset.set_format(type="pandas")
df = dataset["train"][:]
df.head()

image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment