
- 1 : 2024/04/08(月) 16:28:11.77 ID:eWo+9C2Z0
-
OpenAI、GPT-4の強化にYouTube動画を100万時間分以上使用か。著作権の問題含む可能性も
https://gadget.phileweb.com/post-73117/ - 2 : 2024/04/08(月) 16:28:46.81 ID:DgWp+Q0G0
-
最高かよ
- 3 : 2024/04/08(月) 16:29:06.20 ID:eWo+9C2Z0
-
先週、AI大手のOpenAIは、AIをトレーニングするためのデータの入手に困っていると報じられた。またNew York Timesは、各社がAI強化用のデータを集めるために行ってきた方法のいくつかを詳述した。
そしてこの記事の中で、GPT-4のトレーニングデータ集めに困窮したOpenAIは、音声認識AI「Whisper」の文字起こし機能を利用し、100万時間におよぶYouTube動画からテキストを書き写したと報じられている。
New York Timesによると、OpenAIは2021年に使用可能なAI強化用データを使い果たし、その後はGithubのコンピューターコード、チェスの指し手のデータベース、オンライン学習ツールQuizletの学校課題コンテンツデータなどで大規模言語モデルをトレーニングしていた。そしてさらにデータを収集するため、YouTubeビデオ、ポッドキャスト、オーディオブックの文字起こしについて議論したという。
同社はこれが法的に問題があることは承知していたが、フェアユースであると信じていたと報じている。またOpenAIの社長グレッグ・ブロックマン氏が、個人的に動画の収集に関与したとも伝えた。
OpenAIの広報担当者は、同社のAI強化には「一般に公開されているデータや非公開データのパートナーシップを含む数多くの情報源」を利用しており、独自の合成データの生成も検討していると述べている。
一方、Googleの広報はOpenAIの活動に関する「未確認の報告を見た」として「当社は利用規約でYouTubeコンテンツの無許可のスクレイピングやダウンロードを禁止している」と述べている。ちなみに、YouTubeのニール・モーハンCEOは、OpenAIが動画生成AI「Sora」の強化のためにYouTubeを使用した可能性について、同様のことを述べ、そのような不正利用の防止のため「明確な法的・技術的根拠がある場合には相応の手段を講じる」とした。
OpenAIやGoogleを初めとするAI業界の企業たちは、大量のデータがあればあるほど精度が向上する大規模言語モデルの学習データが急速に消費されてしまうことに頭を悩ませている。
この問題に対応できる可能性ある解決策としては、自社のモデルによって作成された「合成」データでモデルをトレーニングする方法や、いわゆる「カリキュラム学習」がある。もうひとつの選択肢は、許可を得ているか否かによらず使えるデータは何でも使うことだが、ここ最近は大小さまざまなAI企業に対して、著作権あるデータの無断使用に関する訴訟が起こされており、堅実なやり方と言うのは難しそうだ。
- 4 : 2024/04/08(月) 16:29:30.15 ID:ca7UoROe0
-
学習して行かないと精度上がらないから当たり前やん
- 5 : 2024/04/08(月) 16:29:37.46 ID:fZmZhk8F0
-
つむぎ止めるのだ
- 6 : 2024/04/08(月) 16:29:39.00 ID:wFG8c0Vx0
-
ずんだもんすごい
- 7 : 2024/04/08(月) 16:30:07.83 ID:C5cSOWpQ0
-
淫夢ネタとか学習してたりするんか
- 8 : 2024/04/08(月) 16:30:32.23 ID:/EnLVe3sd
-
やめるのだ
- 9 : 2024/04/08(月) 16:30:39.57 ID:egZlPLxC0
-
おバカなのだ
- 10 : 2024/04/08(月) 16:30:52.18 ID:M223oKwa0
-
じゃあGoogleがtwitter(X)みたく規約改訂して学習すれば最強じゃん
- 11 : 2024/04/08(月) 16:30:56.87 ID:Pg7PBHAL0
-
YouTubeで学習してるのかよ
どおりで間違ったデタラメな歴史ばっかり覚えてるわけだ - 12 : 2024/04/08(月) 16:31:07.32 ID:KD2ydgD50
-
ネットの内容拾って作った動画コンテンツをAIが拾って使う
AIが出力した内容で動画コンテンツを作る
それをまたAIが拾って繰り返し - 13 : 2024/04/08(月) 16:31:29.19 ID:TlaKA0Fo0
-
あのさあw
- 14 : 2024/04/08(月) 16:31:32.16 ID:iZKtQEB+d
-
ずんだもん「5Gは闇の勢力の陰謀なのだ」
- 15 : 2024/04/08(月) 16:31:59.30 ID:wCROMOwc0
-
野獣先輩が復活する可能性が
- 16 : 2024/04/08(月) 16:32:02.41 ID:kNvXgtmU0
-
ネトウヨになりそう
- 17 : 2024/04/08(月) 16:32:11.95 ID:BHIR07gp0
-
いつも見ているのだ・・・
- 19 : 2024/04/08(月) 16:32:41.90 ID:ht+9ynCJ0
-
馬鹿になってそう
- 20 : 2024/04/08(月) 16:32:43.85 ID:4IKytwTb0
-
中国は崩壊するのだ
- 21 : 2024/04/08(月) 16:33:05.58 ID:YhsGBVBL0
-
人間を学習してる次点でシンギュラリティは起きない
- 22 : 2024/04/08(月) 16:33:06.47 ID:Vc0pjkXn0
-
2ch/5chの過去ログ全部食わせろ
- 23 : 2024/04/08(月) 16:33:14.05 ID:Uz0bHVco0
-
あたおかAIになりそう
- 24 : 2024/04/08(月) 16:33:18.60 ID:neGa9mxD0
-
「毒」が入っちゃったね…
日本人に関わるのはマジでやめた方がいいよ - 25 : 2024/04/08(月) 16:33:18.64 ID:iEtsqhYP0
-
陰謀論やホルホルや差別的言説も学習するの?🤔
- 26 : 2024/04/08(月) 16:33:23.92 ID:b5FASiIB0
-
chatgptが日本すごすぎ、中国韓国クソとかヘイト発言するの?
- 27 : 2024/04/08(月) 16:33:25.50 ID:AvRUKNnL0
-
Wikipediaクローリングしてる時点でな
- 28 : 2024/04/08(月) 16:33:38.32 ID:aojuKZr00
-
おまえあんなもんウヨウヨバカの脳みそ学習するだけやろ
嫌儲から学習しろ - 30 : 2024/04/08(月) 16:34:23.82 ID:L8jzsGj+0
-
>>28
自壊するやろ - 29 : 2024/04/08(月) 16:34:18.94 ID:vp6Qjr6J0
-
なら、またヘイト垂れるようになるな
教師データの下僕だから
- 31 : 2024/04/08(月) 16:34:28.76 ID:xmd1Vxsz0
-
ホルホルジャップ動画を沢山吸収したのか
- 32 : 2024/04/08(月) 16:34:33.46 ID:3T3YEpjv0
-
そんかもんソースにすな
AIは男の娘なのか?
まあそうだろうけど - 33 : 2024/04/08(月) 16:35:07.55 ID:ms9CauUX0
-
今の言語系AIってまだ学習元人間だからいいよな
将棋みたいに自己学習始めたら人間には理解不能のレベルまでいきそうだし - 34 : 2024/04/08(月) 16:35:14.20 ID:HUoyKsNz0
-
poeでAIドラえもん作ろうとしたんだがキャラ付けするとは話の要点を絞ってくれないな
- 35 : 2024/04/08(月) 16:35:31.08 ID:uSX+u5h50
-
日本は偉大なのだ
それに比べて中韓ときたら酷いのだ - 36 : 2024/04/08(月) 16:35:31.17 ID:jorudhXd0
-
AI「夢グループの商品をレビューするのだ」
- 37 : 2024/04/08(月) 16:35:31.82 ID:AqrzM+BX0
-
北方領土の歴史について解説するのだ
- 39 : 2024/04/08(月) 16:36:43.84 ID:G3oFsbh/0
-
ネットで真実を知ってそう
- 40 : 2024/04/08(月) 16:36:46.46 ID:UUX1XrJu0
-
ゆっくり動画で学習してたら
・EVオワコントヨタ大勝利
・三峡ダム間もなく崩壊
とか自信たっぷりに回答しそう - 41 : 2024/04/08(月) 16:37:14.78 ID:t+ZF9Ssw
-
貧乏なめたんのために貧乏宿でトコジラミチャレンジするのだ…
- 42 : 2024/04/08(月) 16:37:32.00 ID:rlEaNt4h0
-
有料ニュースサイトはアクセスできないしヤフーニュースとか数日経つと消えちゃうし
意外とガセネタが多い - 43 : 2024/04/08(月) 16:37:51.86 ID:6e1bZavZ0
-
反ワク等の陰謀論者、嫌韓反共等のレイシスト、女叩き等のインセル、ゲームアニメマンガ大好きオタク、視聴数を稼ぐ為の過激な物言い
全ての最悪が合体した存在かと思えば
単なるビジネスネット右翼が出来上がってしまう
コメント