CVPR 2023におけるGoogle

Google at CVPR 2023.

Googleのプログラムマネージャー、Shaina Mehtaが投稿しました

今週は、バンクーバーで開催される最も重要なコンピュータビジョンとパターン認識の年次会議であるCVPR 2023の始まりを迎えます(追加のバーチャルコンテンツもあります)。Google Researchはコンピュータビジョンの研究のリーダーであり、プラチナスポンサーであり、メインカンファレンスで約90の論文が発表され、40以上のカンファレンスワークショップやチュートリアルに積極的に参加しています。

今年のCVPRに参加する場合は、是非、ブースに立ち寄って、最新のマシンパーセプションの様々な分野に応用するための技術を積極的に探求している研究者とお話ししてください。弊社の研究者は、MediaPipeを使用したオンデバイスのMLアプリケーション、差分プライバシーの戦略、ニューラル輝度場技術など、いくつかの最近の取り組みについても話し、デモを行います。

以下のリストでCVPR 2023で発表される弊社の研究についても詳しくご覧いただけます(Googleの所属は太字で表示されています)。

理事会と組織委員会

シニアエリアチェアには、Cordelia SchmidMing-Hsuan Yangが含まれます。

エリアチェアには、Andre AraujoAnurag ArnabRodrigo BenensonAyan ChakrabartiHuiwen ChangAlireza FathiVittorio FerrariGolnaz GhiasiBoqing GongYedid HoshenVarun JampaniLu JiangDa-Cheng JuaDahun KimStephen LombardiPeyman MilanfarBen MildenhallArsha NagraniJordi Pont-TusetPaul Hongsuck SeoFei ShaSaurabh SinghNoah SnavelyKihyuk SohnChen SunPratul P. SrinivasanDeqing SunAndrea TagliasacchiFederico TombariJasper Uijlingsが含まれます。

広報委員会: Boqing Gong

デモチェア: Jonathan T. Barron

プログラム諮問委員会には、Cordelia SchmidRichard Szeliskiが含まれます。

パネル

人工知能とコンピュータビジョンの歴史と未来のパネリストには、Chelsea Finnが含まれます。

科学的発見と環境のパネリストには、Sara Beeryが含まれます。

ベストペーパー賞候補

MobileNeRF:モバイルアーキテクチャでの効率的なニューラルフィールドレンダリングのためのポリゴンラスタライズパイプラインの利用 Zhiqin ChenThomas FunkhouserPeter HedmanAndrea Tagliasacchi

DynIBaR:ニューラルダイナミックイメージベースドレンダリング Zhengqi LiQianqian WangForrester ColeRichard TuckerNoah Snavely

DreamBooth:主体駆動型ジェネレーションのためのテキストからイメージへの拡散モデルの微調整 Nataniel Ruiz*、Yuanzhen LiVarun JampaniYael PritchMichael RubinsteinKfir Aberman

ガイドされた拡散モデルの

注目論文

ビデオローカライズドナラティブによるビジョンと言語の接続 Paul VoigtlaenderSoravit ChangpinyoJordi Pont-TusetRadu SoricutVittorio Ferrari

MaskSketch:非対称構造ガイド付きマスク画像生成 Dina Bashkirova*、Jose LezamaKihyuk SohnKate SaenkoIrfan Essa

SPARF:スパースでノイズの多いポーズからのニューラル輝度場 Prune Truong*、Marie-Julie RakotosaonaFabian ManhardtFederico Tombari

MAGVIT:マスク付き生成ビデオトランスフォーマー Lijun Yu*、Yong ChengKihyuk SohnJose LezamaHan ZhangHuiwen ChangAlexander HauptmannMing-Hsuan YangYuan HaoIrfan EssaLu Jiang

ビジョントランスフォーマーによるオープンボキャブラリーオブジェクト検出の領域別事前学習 Dahun KimAnelia AngelovaWeicheng Kuo

I2MVFormer:大規模言語モデルによるマルチビュードキュメント監視によるゼロショット画像分類 Muhammad Ferjad Naeem、Gul Zain Khan、Yongqin Xian、Muhammad Zeshan Afzal、Didier Stricker、Luc Van Gool、Federico Tombari

直接PAC-Bayesian境界最小化による頑健な汎化の改善 Zifan Wang*、Nan DingTomer LevinboimXi ChenRadu Soricut

Imagen EditorとEditBench:テキストガイドされた画像修復の前進と評価(ブログ投稿を参照) Su WangChitwan SahariaCeslee MontgomeryJordi Pont-TusetShai NoyStefano PellegriniYasumasa OnoeSarah LaszloDavid J. FleetRadu SoricutJason BaldridgeMohammad NorouziPeter AndersonWilliam Cha

RUST:未ポーズの画像からの潜在的なニューラルシーン表現 Mehdi S. M. SajjadiAravindh MahendranThomas KipfEtienne PotDaniel DuckworthMario LučićKlaus Greff

複数ソースマルチモーダル知識メモリによる検索増強型ビジュアル言語事前学習(ブログ投稿を参照) Ziniu Hu*、Ahmet IscenChen SunZirui Wang、Kai-Wei Chang、Yizhou SunCordelia SchmidDavid RossAlireza Fathi

RobustNeRF:ロバスト損失による邪魔者の無視 Sara SabourSuhani VoraDaniel DuckworthIvan KrasinDavid J. FleetAndrea Tagliasacchi

論文

AligNeRF: アラインメントに注意したトレーニングによる高精度なニューラル放射場 Yifan Jiang*、Peter HedmanBen Mildenhall、Dejia Xu、Jonathan T. Barron、Zhangyang Wang、Tianfan Xue*

BlendFields: 少数ショットの例に基づく顔モデリング Kacper Kania、Stephan Garbin、Andrea Tagliasacchi、Virginia Estellers、Kwang Moo Yi、Tomasz Trzcinski、Julien Valentin、Marek Kowalski

キーポイントの検出と説明を共同で学習することによる変形可能なローカル特徴の向上 Guilherme Potje、Felipe Cadar、Andre Araujo、Renato Martins、Erickson Nascimento

オブジェクトがどのようにアクション認識を支援できるか? Xingyi ZhouAnurag ArnabChen SunCordelia Schmid

大規模なシーンに対するモーションブラーを備えたハイブリッドニューラルレンダリング Peng Dai、Yinda Zhang、Xin Yu、Xiaoyang Lyu、Xiaojuan Qi

IFSeg:ビジョン言語モデルによる画像フリーのセマンティックセグメンテーション Sukmin Yun、Seong Park、Paul Hongsuck Seo、Jinwoo Shin

ユーザ意識型サリエンシモデリングからの学習 (ブログ投稿を参照) Shi Chen*、Nachiappan ValliappanShaolei ShenXinyu YeKai KohlhoffJunfeng He

MAGE:表現学習と画像合成を統一するマスク付き生成エンコーダ Tianhong Li*、Huiwen Chang、Shlok Kumar Mishra、Han Zhang、Dina Katabi、Dilip Krishnan

NeRF-Supervised Deep Stereo Fabio Tosi、Alessio Tonioni、Daniele Gregorio、Matteo Poggi

Omnimatte3D:制約のない単眼ビデオでのオブジェクトとその効果の関連付け Mohammed Suhail、Erika LuZhengqi LiNoah Snavely、Leon Sigal、Forrester Cole

オープンボキャブラリーを使用した3Dシーン理解 Songyou PengKyle GenovaChiyu JiangAndrea TagliasacchiMarc PollefeysThomas Funkhouser

写真コレクションからの個人化された再構築 Chung-Yi Weng、Pratul SrinivasanBrian CurlessIra Kemelmacher-Shlizerman

プレフィックス条件付けは言語とラベルの監視を統一する Kuniaki Saito*、Kihyuk SohnXiang ZhangChun-Liang LiChen-Yu Lee、Kate Saenko、Tomas Pfister

ビデオ学習を再考する:共通の画像とビデオの学習のためのスパースビデオチューブ (ブログ投稿を参照) AJ PiergiovanniWeicheng KuoAnelia Angelova

Burstormer:バースト画像の復元と強化トランスフォーマー Akshay Dudhane、Syed Waqas Zamir、Salman Khan、Fahad Shahbaz Khan、Ming-Hsuan Yang

マルチヘッド蒸留を用いた分散学習 Andrey ZhmoginovMark SandlerNolan MillerGus KristiansenMax Vladymyrov

GINA-3D:野生の内在的ニューラルアセットの生成を学習する Bokui Shen、Xinchen Yan、Charles R. Qi、Mahyar Najibi、Boyang Deng、Leonidas Guibas、Yin Zhou、Dragomir Anguelov

Grad-PU: Gradient Descentを使用した学習済み距離関数による任意スケールポイントクラウドアップサンプリング Yun He, Danhang Tang , Yinda Zhang , Xiangyang Xue, Yanwei Fu

Hi-LASSIE: スパース画像アンサンブルからの高精度関節形状およびスケルトン発見 Chun-Han Yao*, Wei-Chih Hung, Yuanzhen Li , Michael Rubinstein , Ming-Hsuan Yang , Varun Jampani

視覚表現を超えたハイパーボリック対比学習 Songwei Ge, Shlok Mishra, Simon Kornblith , Chun-Liang Li, David Jacobs

Imagic: 拡散モデルを用いたテキストベースの実画像編集 Bahjat Kawar*, Shiran Zada , Oran Lang , Omer Tov , Huiwen Chang , Tali Dekel , Inbar Mosseri , Michal Irani

RGBシーケンスからのインクリメンタル3Dセマンティックシーングラフ予測 Shun-Cheng Wu, Keisuke Tateno , Nassir Navab, Federico Tombari

IPCC-TP: インクリメンタルピアソン相関係数を利用した複数エージェントの軌道予測 Dekai Zhu, Guangyao Zhai, Yan Di, Fabian Manhardt , Hendrik Berkemeyer, Tuan Tran, Nassir Navab, Federico Tombari , Benjamin Busam

ユーザーレベルの差分プライバシーを用いた画像埋め込みの生成学習 Zheng Xu, Maxwell Collins, Yuxiao Wang, Liviu Panait, Sewoong Oh, Sean Augenstein, Ting Liu, Florian Schroff, H. Brendan McMahan

NoisyTwins: Class-Consistent and Diverse Image Generation Through StyleGANs Harsh Rangwani, Lavish Bansal, Kartik Sharma, Tejan Karmali , Varun Jampani , Venkatesh Babu Radhakrishnan

ガイド拡散モデルを使用した実画像のNULL-Text反転 Ron Mokady*, Amir Hertz*, Kfir Aberman , Yael Pritch , Daniel Cohen-Or*

SCOOP: 自己教師あり対応および最適化ベースのシーンフロー Itai Lang*, Dror Aiger , Forrester Cole , Shai Avidan , Michael Rubinstein

ブートストラップされた放射状フィールド反転によるシェイプ、ポーズ、外観の単一画像からの取得 Dario Pavllo*, David Joseph Tan , Marie-Julie Rakotosaona , Federico Tombari

自己教師あり6Dオブジェクトポーズ推定のためのニューラルテクスチャ学習 Hanzhi Chen, Fabian Manhardt , Nassir Navab, Benjamin Busam

TryOnDiffusion: 2つのUNetの物体クラス整合性と多様性を持った画像生成 Luyang Zhu*, Dawei Yang , Tyler Zhu , Fitsum Reda , William Chan , Chitwan Saharia , Mohammad Norouzi , Ira Kemelmacher-Shlizerman

合成指示と模倣学習によるビジョン・ランゲージ・ナビゲーションの拡大 Aishwarya Kamath*, Peter Anderson , Su Wang , Jing Yu Koh*, Alexander Ku , Austin Waters , Yinfei Yang*, Jason Baldridge , Zarana Parekh

CLIPPO: ピクセルのみからの画像と言語の理解 Michael Tschannen , Basil Mustafa , Neil Houlsby

人物のための制御可能な光拡散David FutschikKelvin RitlandJames VecoreSean FanelloSergio Orts-EscolanoBrian CurlessDaniel SýkoraRohit Pandey

CUF:連続アップサンプリングフィルターCristina VasconcelosCengiz OztireliMark MatthewsMilad HashemiKevin SwerskyAndrea Tagliasacchi

多モーダルモデルのゼロショット汎化および頑強性の向上 Yunhao Ge*、Jie RenAndrew GallagherYuxiao WangMing-Hsuan YangHartwig AdamLaurent IttiBalaji LakshminarayananJiaping Zhao

LOCATE:弱く監視されたアフォーダンスグラウンディングのためのオブジェクトパーツのローカル化と転送 Gen Li、Varun JampaniDeqing Sun、Laura Sevilla-Lara

2D教示からの効率的な構造意識の3Dシーン表現のためのローカル輝度場Xiaoshuai ZhangAbhijit KunduThomas FunkhouserLeonidas GuibasHao SuKyle Genova

自己教示オートフローHsin-Ping HuangCharles HerrmannJunhwa HurErika LuKyle SargentAustin StoneMing-Hsuan YangDeqing Sun

一度だけのトレーニングでのパーソナライゼーション Hong-You Chen*、Yandong LiYin CuiMingda Zhang、Wei-Lun Chao、Li Zhang

密なビデオ字幕のためのビジュアル言語モデルの大規模事前学習(ブログ記事を参照) Antoine Yang*、Arsha NagraniPaul Hongsuck Seo、Antoine Miech、Jordi Pont-Tuset、Ivan Laptev、Josef Sivic、Cordelia Schmid

ビジョン言語事前学習を用いたユーザコメントからの画像の美的価値の学習Junjie KeKeren YeJiahui YuYonghui WuPeyman MilanfarFeng Yang

動的なアーリーエグジットによる加速統合ビジョン言語モデルのための複数のエグジットの必要性 Shengkun Tang、Yaqing Wang、Zhenglun Kong、Tianchi Zhang、Yao Li、Caiwen Ding、Yanzhi Wang、Yi Liang、Dongkuan Xu

偶発的なライトプローブ Hong-Xing Yu、Samir Agarwala、Charles HerrmannRichard SzeliskiNoah Snavely、Jiajun Wu、Deqing Sun

FedDM:通信効率の良いフェデレーテッドラーニングのための反復分布マッチング Yuanhao Xiong、Ruochen Wang、Minhao Cheng、Felix Yu、Cho-Jui Hsieh

FlexiViT:すべてのパッチサイズに対応する1つのモデルLucas BeyerPavel IzmailovAlexander KolesnikovMathilde CaronSimon KornblithXiaohua ZhaiMatthias MindererMichael TschannenIbrahim AlabdulmohsinFilip Pavetic

イテレーションビジョンアンドランゲージナビゲーション Jacob Krantz、Shurjo Banerjee、Wang Zhu、Jason Corso、Peter Anderson、Stefan Lee、Jesse Thomason

MoDi:多様なデータからの無条件のモーション合成 Sigal Raab、Inbal Leibovitch、Peizhuo Li、Kfir Aberman、Olga Sorkine-Hornung、Daniel Cohen-Or

視覚認識のための欠落したモダリティを持つマルチモーダルプロンプティング Yi-Lun Lee、Yi-Hsuan Tsai、Wei-Chen Chiu、Chen-Yu Lee

シーンに適応したエゴセントリックな3D人体姿勢推定 Jian Wang、Diogo Luvizon、Weipeng Xu、Lingjie Liu、Kripasindhu Sarkar、Christian Theobalt

単一視点画像からのスケーラブルな3D形状学習、ジオメトリおよびCLIPベースの一貫性を介して Zixuan Huang、Varun Jampani、Ngoc Anh Thai、Yuanzhen Li、Stefan Stojanov、James M. Rehg

Webスケールの画像テキストデータからの検索による画像認識の改善 Ahmet IscenAlireza FathiCordelia Schmid

JacobiNeRF:相互情報勾配を使用したNeRFシェーピング Xiaomeng Xu、Yanchao Yang、Kaichun Mo、Boxiao Pan、Li Yi、Leonidas Guibas

単眼RGBビデオからの個人化された高品質ボリューメトリックヘッドアバターの学習 Ziqian Bai*、Feitong TanZeng HuangKripasindhu SarkarDanhang TangDi QiuAbhimitra MekaRuofei DuMingsong DouSergio Orts-EscolanoRohit Pandey、Ping Tan、Thabo BeelerSean FanelloYinda Zhang

手のひらにNeRF:新規ビュー合成を介したロボティクスのための補正オーグメンテーション Allan Zhou、Mo Jin Kim、Lirui Wang、Pete FlorenceChelsea Finn

Pic2Word:ゼロショット構成画像検索のための画像から単語へのマッピング Kuniaki Saito*、Kihyuk SohnXiang ZhangChun-Liang LiChen-Yu LeeKate SaenkoTomas Pfister

曖昧性を意識した深度推定によるスペースカービングからのNeRFs SCADE Mikaela UyRicardo Martin BruallaLeonidas GuibasKe Li

制御可能なアバターの再構築のための構造化3D特徴 Enric CoronaMihai ZanfirThiemo AlldieckEduard Gabriel BazavanAndrei ZanfirCristian Sminchisescu

トークンチューリングマシン Michael S. RyooKeerthana GopalakrishnanKumara KahatapitiyaTed XiaoKanishka RaoAustin StoneYao LuJulian IbarzAnurag Arnab

TruFor:信頼性のある画像偽造検出とローカリゼーションのためのオールラウンドな手がかりの活用 Fabrizio Guillaro、Davide Cozzolino、Avneesh SudNicholas Dufour, Luisa Verdoliva

映像確率拡散モデルの射影潜在空間Sihyun Yu、Kihyuk Sohn、Subin Kim、Jinwoo Shin

視覚プロンプトチューニングによる生成転移学習Kihyuk SohnYuan HaoJose LezamaLuisa PolaniaHuiwen ChangHan ZhangIrfan EssaLu Jiang

グローバル-ローカルコンテキスト特徴を使用したゼロショット参照画像セグメンテーションSeonghoon Yu、Paul Hongsuck Seo、Jeany Son

AVFormer:凍結音声モデルに視覚を注入してゼロショットAV-ASRを実現する(ブログ記事を参照)Paul Hongsuck SeoArsha NagraniCordelia Schmid

DC2:デュアルカメラの焦点調整を学習してリフォーカスするHadi AlzayerAbdullah AbuolaimLeung Chun ChanYang YangYing Chen LouJia-Bin HuangAbhishek Kar

エッジから形状から概念へ:堅牢なビジョンのための敵対的拡張Aditay Tripathi*、Rishubh Singh、Anirban Chakraborty、Pradeep Shenoy

メタCLUE:包括的な視覚的比喩研究に向けてArjun R. AkulaBrendan DriscollPradyumna NarayanaSoravit ChangpinyoZhiwei JiaSuyash DamleGarima PruthiSugato BasuLeonidas GuibasWilliam T. FreemanYuanzhen LiVarun Jampani

条件付きジェネレータを使用したマルチリアリズム画像圧縮Eirikur AgustssonDavid MinnenGeorge TodericiFabian Mentzer

NeRDi:単一視点NeRF合成の一般的な画像事前条件としての言語による拡散Congyue Deng、Chiyu Jiang、Charles R. Qi、Xinchen Yan、Yin Zhou、Leonidas Guibas、Dragomir Anguelov

セマンティックセグメンテーションモデルのキャリブレーション:分析とアルゴリズムDongdong Wang、Boqing Gong、Liqiang Wang

持続性のある性質:無限の3D世界の生成モデルLucy Chai、Richard TuckerZhengqi Li、Phillip Isola、Noah Snavely

顔のアンチスポーフィングのためのドメイン汎化の再考:分離可能性と整列性Yiyou Sun*、Yaojie LiuXiaoming Liu、Yixuan Li、Wen-Sheng Chu

SINE:事前ガイド編集フィールドを使用した意味に基づく画像ベースのNeRF編集Chong Bao、Yinda Zhang、Bangbang Yang、Tianxing Fan、Zesong Yang、Hujun Bao、Guofeng Zhang、Zhaopeng Cui

GAN分類器に対するGANの逐次トレーニングにより、独立にトレーニングされたGANインスタンス間に存在する相関のある「知識ギャップ」が明らかになるArkanath PathakNicholas Dufour

SparsePose:スパースビューカメラポーズ回帰と微調整Samarth Sinha、Jason Zhang、Andrea Tagliasacchi、Igor Gilitschenski、David Lindell

教師が生成した空間的注意ラベルは、対比モデルの堅牢性と精度を向上させますYushi Yao、Chang YeGamaleldin F. ElsayedJunfeng He

ワークショップ

ミックスドリアリティのためのコンピュータビジョン スピーカーには、Ira Kemelmacher-Shlizermanが含まれます。

自律走行に関するワークショップ(WAD) スピーカーには、Chelsea Finnが含まれます。

マルチモーダルコンテンツモデレーション(MMCM) 主催者には、Chris Breglerが含まれ、スピーカーには、Mevan Babakarが含まれます。

医療用コンピュータビジョン(MCV) スピーカーには、Shekoofeh Aziziが含まれます。

VAND:視覚異常および新奇検出 スピーカーには、Yedid HoshenJie Renが含まれます。

3Dデータの構造的および合成学習 主催者には、Leonidas Guibasが含まれ、スピーカーには、Andrea TagliasacchiFei XiaAmir Hertzが含まれます。

ファイングレインドビジュアルカテゴリ化(FGVC10) 主催者には、Kimberly WilberSara Beeryが含まれ、パネリストには、Hartwig Adamが含まれます。

メタバースのNeRFの進歩に関するXRNeRF 主催者には、Jonathan T. Barronが含まれ、スピーカーには、Ben Pooleが含まれます。

自然言語を介した意味理解のための無限ラベル空間のOmniLabel 主催者には、Golnaz GhiasiLong Zhaoが含まれ、スピーカーには、Vittorio Ferrariが含まれます。

大規模ホリスティックビデオ理解 主催者には、David Rossが含まれ、スピーカーには、Cordelia Schmidが含まれます。

ゼロショット画像キャプショニング評価の新たなフロンティア(NICE) スピーカーには、Cordelia Schmidが含まれます。

計算カメラおよびディスプレイ(CCD) 主催者には、Ulugbek Kamilovが含まれ、スピーカーには、Mauricio Delbracioが含まれます。

野生での注視推定と予測 (GAZE) 主催者には、Thabo Beeleが含まれ、スピーカーには、Erroll Woodが含まれます。

ヘルスインフォマティクスのための顔とジェスチャー解析(FGAHI) スピーカーには、Daniel McDuffが含まれます。

動物の行動追跡とモデリングのためのコンピュータビジョン 主催者には、Sara Beeryが含まれ、スピーカーには、Arsha Nagraniが含まれます。

3Dビジョンとロボティクス スピーカーには、Pete Florenceが含まれます。

エンドツーエンド自動運転:知覚、予測、計画およびシミュレーション(E2EAD) 主催者には、Anurag Arnabが含まれます。

エンドツーエンド自動運転:新しいタスクと課題 スピーカーには、Sergey Levineが含まれます。

マルチモーダル学習とアプリケーション スピーカーには、Aleksander Hołyńskiが含まれます。

自律システムのための合成データ(SDAS) スピーカーには、Lukas Hoyerが含まれます。

ビジョンデータセットの理解 主催者には、José Lezamaが含まれ、スピーカーには、Vijay Janapa Reddiが含まれます。

未来を見通す:先見性 主催者には、Utsav Prabhuが含まれます。

画像復元と強化のための新しいトレンド(NTIRE) 主催者には、Ming-Hsuan Yangが含まれます。

コンピュータビジョンのための生成モデル スピーカーには、Ben MildenhallAndrea Tagliasacchiが含まれます。

コンピュータビジョンにおける敵対的な機械学習:堅牢性の芸術 主催者には、Xinyun Chenが含まれ、スピーカーには、Deqing Sunが含まれます。

メディアフォレンジック スピーカーには、Nicholas Carliniが含まれます。

追跡とその多くのギーズ:オープンワールドで任意のオブジェクトを追跡する 主催者には、Paul Voigtlaenderが含まれます。

ビジョン、グラフィックス、およびロボティクスのための3Dシーン理解 スピーカーには、Andy Zengが含まれます。

生理計測のためのコンピュータビジョン(CVPM)オーガナイザーには、Daniel McDuffが含まれています

野外での感情行動分析のためのオーガナイザーには、Stefanos Zafeiriouが含まれています

コンピュータビジョンの創造的な応用における倫理的考慮事項(EC3V)オーガナイザーには、Rida Qadri, Mohammad Havaei, Fernando Diaz, Emily Denton, Sarah Laszlo, Negar Rostamzadeh, Pamela Peter-Agbia, Eva Kozaneckaが含まれています

VizWiz Grand Challenge:視覚障害者が撮影した画像とビデオの説明をするスピーカーには、Haoran Qiが含まれています

効率的なコンピュータビジョンのためのディープラーニング(ブログ投稿を参照)オーガナイザーには、Andrew Howard, Chas Leichnerが含まれています。スピーカーには、Andrew Howardが含まれています

ビジュアルコピーディテクションのオーガナイザーには、Priya Goyalが含まれています

マルチビュー監視による3D学習(3DMV)のスピーカーには、Ben Pooleが含まれています

画像マッチング:ローカルフィーチャーとその先のオーガナイザーには、Eduard Trullsが含まれています

ビジョンフォーオールシーズン:悪天候および雷電条件(V4AS)のオーガナイザーには、Lukas Hoyerが含まれています

ビジョンのためのトランスフォーマー(T4V)のスピーカーには、Cordelia Schmid, Huiwen Changが含まれています

学者とビッグモデル-アカデミックがどのように適応できるか?オーガナイザーには、Sara Beeryが含まれています。スピーカーには、Jonathan T. Barron, Cordelia Schmidが含まれています

ScanNet屋内シーン理解チャレンジのスピーカーには、Tom Funkhouserが含まれています

顕微鏡画像解析のためのコンピュータビジョンのスピーカーには、Po-Hsuan Cameron Chenが含まれています

埋め込み型ビジョンのスピーカーには、Rahul Sukthankarが含まれています

Sight and Soundのオーガナイザーには、Arsha Nagrani, William Freemanが含まれています

コンテンツ作成のためのAIのオーガナイザーには、Deqing Sun, Huiwen Chang, Lu Jiangが含まれています

スピーカーには、Ben Mildenhall, Tim Salimans, Yuanzhen Liが含まれています

野生のコンピュータビジョンのオーガナイザーには、Xiuye Gu, Neil Houlsbyが含まれています。スピーカーには、Boqing Gong, Anelia Angelovaが含まれています

ロボット用のビジュアルプリトレーニングのオーガナイザーには、Mathilde Caronが含まれています

全方位コンピュータビジョンのオーガナイザーには、Yi-Hsuan Tsaiが含まれています

チュートリアル

ビジョンでの注目の理解と解釈を理解するためのすべてのビット:ViTs Hila Chefer, Sayak Paul

異常検知の最近の進歩 Guansong Pang、Joey Tianyi Zhou、Radu Tudor Ionescu、Yu Tian、Kihyuk Sohn

カメラとワイヤレスセンサーを使用した無接触ヘルスケア Wenjin Wang、Xuyu Wang、Jun Luo、Daniel McDuff

自己教師あり学習を超えたオブジェクトローカリゼーション Oriane Simeoni、Weidi Xie、Thomas Kipf, Patrick Pérez

ビジョンでのプロンプト Kaiyang Zhou、Ziwei Liu、Phillip Isola、Hyojin Bahng、Ludwig Schmidt、Sarah Pratt、Denny Zhou


*Googleでの作業

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

研究者たちは、ビデオ記録を使用して、鳥の姿勢を3Dで追跡するための新しいマーカーレスAIメソッドを開発しました

動物や鳥の行動、視線、微小な動きを追跡することは、研究者にとって困難な課題であり、正確な3Dアノテーションと複数の角度...

AIニュース

パーキンソン病を抱える男性が、脊髄インプラントのおかげで歩行能力を取り戻しました

そのインプラントは、彼の脊髄に電気信号のバーストを送り、彼の脚の筋肉を動かすように刺激します

AIニュース

「認知症予防を目指すバイリンガルゲームアプリ」

シンガポール工科大学の研究者が開発した多言語対応のアプリは、ゲーミフィケーションを利用して高齢者の認知症予防に役立つ...

機械学習

「LLMは強化学習を上回る- SPRINGと出会う LLM向けの革新的なプロンプティングフレームワークで、コンテキスト内での思考計画と推論を可能にするために設計されました」

SPRINGは、マルチタスクの計画と推論を必要とする対話型環境で強化学習アルゴリズムを上回るLLMベースのポリシーです。 カー...

AI研究

光を基にした機械学習システムは、より強力で効率的な大規模言語モデルを生み出す可能性がある

MITのシステムは、現行のシステムと比較して、エネルギー効率が100倍以上向上し、計算密度が25倍向上していることを示しています

コンピュータサイエンス

「バンク・オブ・アイルランドのIT障害後、人々がATMに殺到する」

「アイルランド銀行は、一部の顧客が口座内の残高を超えて資金を引き出したり送金したりすることを可能にする技術的な問題を...