OpenAIのGPT-4、ずんだもんやゆっくり解説で学習していたことが判明

サムネイル
1 : 2024/04/08(月) 16:28:11.77 ID:eWo+9C2Z0

OpenAI、GPT-4の強化にYouTube動画を100万時間分以上使用か。著作権の問題含む可能性も
https://gadget.phileweb.com/post-73117/

2 : 2024/04/08(月) 16:28:46.81 ID:DgWp+Q0G0
最高かよ
3 : 2024/04/08(月) 16:29:06.20 ID:eWo+9C2Z0
先週、AI大手のOpenAIは、AIをトレーニングするためのデータの入手に困っていると報じられた。またNew York Timesは、各社がAI強化用のデータを集めるために行ってきた方法のいくつかを詳述した。

そしてこの記事の中で、GPT-4のトレーニングデータ集めに困窮したOpenAIは、音声認識AI「Whisper」の文字起こし機能を利用し、100万時間におよぶYouTube動画からテキストを書き写したと報じられている。

New York Timesによると、OpenAIは2021年に使用可能なAI強化用データを使い果たし、その後はGithubのコンピューターコード、チェスの指し手のデータベース、オンライン学習ツールQuizletの学校課題コンテンツデータなどで大規模言語モデルをトレーニングしていた。そしてさらにデータを収集するため、YouTubeビデオ、ポッドキャスト、オーディオブックの文字起こしについて議論したという。

同社はこれが法的に問題があることは承知していたが、フェアユースであると信じていたと報じている。またOpenAIの社長グレッグ・ブロックマン氏が、個人的に動画の収集に関与したとも伝えた。

OpenAIの広報担当者は、同社のAI強化には「一般に公開されているデータや非公開データのパートナーシップを含む数多くの情報源」を利用しており、独自の合成データの生成も検討していると述べている。

一方、Googleの広報はOpenAIの活動に関する「未確認の報告を見た」として「当社は利用規約でYouTubeコンテンツの無許可のスクレイピングやダウンロードを禁止している」と述べている。ちなみに、YouTubeのニール・モーハンCEOは、OpenAIが動画生成AI「Sora」の強化のためにYouTubeを使用した可能性について、同様のことを述べ、そのような不正利用の防止のため「明確な法的・技術的根拠がある場合には相応の手段を講じる」とした。

OpenAIやGoogleを初めとするAI業界の企業たちは、大量のデータがあればあるほど精度が向上する大規模言語モデルの学習データが急速に消費されてしまうことに頭を悩ませている。

この問題に対応できる可能性ある解決策としては、自社のモデルによって作成された「合成」データでモデルをトレーニングする方法や、いわゆる「カリキュラム学習」がある。もうひとつの選択肢は、許可を得ているか否かによらず使えるデータは何でも使うことだが、ここ最近は大小さまざまなAI企業に対して、著作権あるデータの無断使用に関する訴訟が起こされており、堅実なやり方と言うのは難しそうだ。

4 : 2024/04/08(月) 16:29:30.15 ID:ca7UoROe0
学習して行かないと精度上がらないから当たり前やん
5 : 2024/04/08(月) 16:29:37.46 ID:fZmZhk8F0
つむぎ止めるのだ
6 : 2024/04/08(月) 16:29:39.00 ID:wFG8c0Vx0
ずんだもんすごい
7 : 2024/04/08(月) 16:30:07.83 ID:C5cSOWpQ0
淫夢ネタとか学習してたりするんか
8 : 2024/04/08(月) 16:30:32.23 ID:/EnLVe3sd
やめるのだ
9 : 2024/04/08(月) 16:30:39.57 ID:egZlPLxC0
おバカなのだ
10 : 2024/04/08(月) 16:30:52.18 ID:M223oKwa0
じゃあGoogleがtwitter(X)みたく規約改訂して学習すれば最強じゃん
11 : 2024/04/08(月) 16:30:56.87 ID:Pg7PBHAL0
YouTubeで学習してるのかよ
どおりで間違ったデタラメな歴史ばっかり覚えてるわけだ
12 : 2024/04/08(月) 16:31:07.32 ID:KD2ydgD50
ネットの内容拾って作った動画コンテンツをAIが拾って使う
AIが出力した内容で動画コンテンツを作る
それをまたAIが拾って繰り返し
13 : 2024/04/08(月) 16:31:29.19 ID:TlaKA0Fo0
あのさあw
14 : 2024/04/08(月) 16:31:32.16 ID:iZKtQEB+d
ずんだもん「5Gは闇の勢力の陰謀なのだ」
15 : 2024/04/08(月) 16:31:59.30 ID:wCROMOwc0
野獣先輩が復活する可能性が
16 : 2024/04/08(月) 16:32:02.41 ID:kNvXgtmU0
ネトウヨになりそう
17 : 2024/04/08(月) 16:32:11.95 ID:BHIR07gp0
いつも見ているのだ・・・
19 : 2024/04/08(月) 16:32:41.90 ID:ht+9ynCJ0
馬鹿になってそう
20 : 2024/04/08(月) 16:32:43.85 ID:4IKytwTb0
中国は崩壊するのだ
21 : 2024/04/08(月) 16:33:05.58 ID:YhsGBVBL0
人間を学習してる次点でシンギュラリティは起きない
22 : 2024/04/08(月) 16:33:06.47 ID:Vc0pjkXn0
2ch/5chの過去ログ全部食わせろ
23 : 2024/04/08(月) 16:33:14.05 ID:Uz0bHVco0
あたおかAIになりそう
24 : 2024/04/08(月) 16:33:18.60 ID:neGa9mxD0
「毒」が入っちゃったね…
日本人に関わるのはマジでやめた方がいいよ
25 : 2024/04/08(月) 16:33:18.64 ID:iEtsqhYP0
陰謀論やホルホルや差別的言説も学習するの?🤔
26 : 2024/04/08(月) 16:33:23.92 ID:b5FASiIB0
chatgptが日本すごすぎ、中国韓国クソとかヘイト発言するの?
27 : 2024/04/08(月) 16:33:25.50 ID:AvRUKNnL0
Wikipediaクローリングしてる時点でな
28 : 2024/04/08(月) 16:33:38.32 ID:aojuKZr00
おまえあんなもんウヨウヨバカの脳みそ学習するだけやろ
嫌儲から学習しろ
30 : 2024/04/08(月) 16:34:23.82 ID:L8jzsGj+0
>>28
自壊するやろ
29 : 2024/04/08(月) 16:34:18.94 ID:vp6Qjr6J0
なら、またヘイト垂れるようになるな

教師データの下僕だから

31 : 2024/04/08(月) 16:34:28.76 ID:xmd1Vxsz0
ホルホルジャップ動画を沢山吸収したのか
32 : 2024/04/08(月) 16:34:33.46 ID:3T3YEpjv0
そんかもんソースにすな
AIは男の娘なのか?
まあそうだろうけど
33 : 2024/04/08(月) 16:35:07.55 ID:ms9CauUX0
今の言語系AIってまだ学習元人間だからいいよな
将棋みたいに自己学習始めたら人間には理解不能のレベルまでいきそうだし
34 : 2024/04/08(月) 16:35:14.20 ID:HUoyKsNz0
poeでAIドラえもん作ろうとしたんだがキャラ付けするとは話の要点を絞ってくれないな
35 : 2024/04/08(月) 16:35:31.08 ID:uSX+u5h50
日本は偉大なのだ
それに比べて中韓ときたら酷いのだ
36 : 2024/04/08(月) 16:35:31.17 ID:jorudhXd0
AI「夢グループの商品をレビューするのだ」
37 : 2024/04/08(月) 16:35:31.82 ID:AqrzM+BX0
北方領土の歴史について解説するのだ
39 : 2024/04/08(月) 16:36:43.84 ID:G3oFsbh/0
ネットで真実を知ってそう
40 : 2024/04/08(月) 16:36:46.46 ID:UUX1XrJu0
ゆっくり動画で学習してたら
・EVオワコントヨタ大勝利
・三峡ダム間もなく崩壊
とか自信たっぷりに回答しそう
41 : 2024/04/08(月) 16:37:14.78 ID:t+ZF9Ssw
貧乏なめたんのために貧乏宿でトコジラミチャレンジするのだ…
42 : 2024/04/08(月) 16:37:32.00 ID:rlEaNt4h0
有料ニュースサイトはアクセスできないしヤフーニュースとか数日経つと消えちゃうし
意外とガセネタが多い
43 : 2024/04/08(月) 16:37:51.86 ID:6e1bZavZ0
反ワク等の陰謀論者、嫌韓反共等のレイシスト、女叩き等のインセル、ゲームアニメマンガ大好きオタク、視聴数を稼ぐ為の過激な物言い

全ての最悪が合体した存在かと思えば
単なるビジネスネット右翼が出来上がってしまう

コメント

タイトルとURLをコピーしました