MLSys - researchr conference series publications

researchr

You are not signed in
Sign in
Sign up

Viewing Publication 1 - 100 from 258

2024

vMCU: Coordinated Memory Management and Kernel Optimization for DNN Inference on MCUsSize Zheng 0001, Renze Chen, Meng Li 0004, Zihao Ye, Luis Ceze, Yun Liang 0001. mlsys 2024: [doi]

AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and AccelerationJi Lin 0002, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, Song Han 0003. mlsys 2024: [doi]

Does Compressing Activations Help Model Parallel Training?Song Bian 0002, Dacheng Li, Hongyi Wang 0001, Eric P. Xing, Shivaram Venkataraman. mlsys 2024: [doi]

Schrodinger's FP Training Neural Networks with Dynamic Floating-Point ContainersMilos Nikolic 0002, Enrique Torres-Sánchez, Jiahui Wang, Ali Hadi Zadeh, Mostafa Mahmoud, Ameer Abdelhadi, Kareem Ibrahim, Andreas Moshovos. mlsys 2024: [doi]

SLoRA: Scalable Serving of Thousands of LoRA AdaptersYing Sheng 0007, Shiyi Cao, Dacheng Li, Coleman Hooper, Nicholas Lee, Shuo Yang, Christopher Chou, Banghua Zhu, Lianmin Zheng, Kurt Keutzer, Joseph Gonzalez 0001, Ion Stoica. mlsys 2024: [doi]

Q-Hitter: A Better Token Oracle for Efficient LLM Inference via Sparse-Quantized KV CacheZhenyu Zhang 0015, Shiwei Liu, Runjin Chen, Bhavya Kailkhura, Beidi Chen, Atlas Wang. mlsys 2024: [doi]

Keyformer: KV Cache reduction through key tokens selection for Efficient Generative InferenceMuhammad Adnan, Akhil Arunkumar, Gaurav Jain, Prashant J. Nair, Ilya Soloveychik, Purushotham Kamath. mlsys 2024: [doi]

VIDUR: A Large-Scale Simulation Framework for LLM InferenceAmey Agrawal, Nitin Kedia, Jayashree Mohan, Ashish Panwar, Nipun Kwatra, Bhargav S. Gulavani, Ramachandran Ramjee, Alexey Tumanov. mlsys 2024: [doi]

On Latency Predictors for Neural Architecture SearchYash Akhauri, Mohamed S. Abdelfattah. mlsys 2024: [doi]

COMET: Neural Cost Model Explanation FrameworkIsha Chaudhary, Alex Renda, Charith Mendis, Gagandeep Singh. mlsys 2024: [doi]

Punica: Multi-Tenant LoRA ServingLequn Chen, Zihao Ye 0001, Yongji Wu, Danyang Zhuo, Luis Ceze, Arvind Krishnamurthy. mlsys 2024: [doi]

Accurate Low-Degree Polynomial Approximation of Non-Polynomial Operators for Fast Private Inference in Homomorphic EncryptionJingtian Dang, Jianming Tong, Anupam Golder, Cong Hao, Arijit Raychowdhury, Tushar Krishna. mlsys 2024: [doi]

SiDA: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable Large Mixture-of-Experts ModelsZhixu Du, Shiyu Li, Yuhao Wu, Xiangyu Jiang, Jingwei Sun 0002, Qilin Zheng, Yongkai Wu, Ang Li 0005, Hai Li 0001, Yiran Chen 0001. mlsys 2024: [doi]

ACROBAT: Optimizing Auto-batching of Dynamic Deep Learning at Compile TimePratik Fegade, Tianqi Chen 0001, Phillip B. Gibbons, Todd C. Mowry. mlsys 2024: [doi]

QMoE: Sub-1-Bit Compression of Trillion Parameter ModelsElias Frantar, Dan Alistarh. mlsys 2024: [doi]

Proteus: Preserving Model Confidentiality during Graph OptimizationsYubo Gao, Maryam Haghifam, Christina Giannoula, Renbo Tu, Gennady Pekhimenko, Nandita Vijaykumar. mlsys 2024: [doi]

Proceedings of the Seventh Annual Conference on Machine Learning and Systems, MLSys 2024, Santa Clara, CA, USA, May 13-16, 2024Phillip B. Gibbons, Gennady Pekhimenko, Christopher De Sa, editors, mlsys.org, 2024. [doi]

Prompt Cache: Modular Attention Reuse for Low-Latency InferenceIn Gim, Guojun Chen, Seung-Seob Lee, Nikhil Sarda, Anurag Khandelwal, Lin Zhong 0001. mlsys 2024: [doi]

FlashDecoding++: Faster Large Language Model Inference with Asynchronization, Flat GEMM Optimization, and HeuristicsKe Hong, Guohao Dai, Jiaming Xu, Qiuli Mao, Xiuhong Li, Jun Liu, Kangdi Chen, Yuhan Dong, Yu Wang 0002. mlsys 2024: [doi]

JIT-Q: Just-in-time Quantization with Processing-In-Memory for Efficient ML TrainingMohamed Assem Ibrahim, Shaizeen Aga, Ada Li, Suchita Pati, Mahzabeen Islam. mlsys 2024: [doi]

Lancet: Accelerating Mixture-of-Experts Training via Whole Graph Computation-Communication OverlappingChenyu Jiang, Ye Tian, Zhen Jia 0001, Shuai Zheng 0004, Chuan Wu 0001, Yida Wang 0003. mlsys 2024: [doi]

HeteroSwitch: Characterizing and Taming System-Induced Data Heterogeneity in Federated LearningGyudong Kim, Mehdi Ghasemi 0003, Soroush Heidari, Seungryong Kim, Young-geun Kim, Sarma B. K. Vrudhula, Carole-Jean Wu. mlsys 2024: [doi]

Disaggregated Multi-Tower: Topology-aware Modeling Technique for Efficient Large Scale RecommendationLiang Luo, Buyun Zhang, Michael Tsang, Yinbin Ma, Ching-Hsiang Chu, Yuxin Chen, Shen Li, Yuchen Hao, Yanli Zhao, Guna Lakshminarayanan, Ellie Wen, JongSoo Park, Dheevatsa Mudigere, Maxim Naumov. mlsys 2024: [doi]

Accelerating ReLU for MPC-Based Private Inference with a Communication-Efficient Sign EstimationKiwan Maeng, G. Edward Suh. mlsys 2024: [doi]

L-GreCo: Layerwise-adaptive Gradient Compression For Efficient Data-parallel Deep LearningIlia Markov, Kaveh Alim, Elias Frantar, Dan Alistarh. mlsys 2024: [doi]

Torch2Chip: An End-to-end Customizable Deep Neural Network Compression and Deployment Toolkit for Prototype Hardware Accelerator DesignJian Meng, Yuan Liao, Anupreetham Anupreetham, Ahmed Hasssan, Shixing Yu, Han-Sok Suh, Xiaofeng Hu, Jae-sun Seo. mlsys 2024: [doi]

LIFL: A Lightweight, Event-driven Serverless Platform for Federated LearningShixiong Qi, K. K. Ramakrishnan, Myungjin Lee. mlsys 2024: [doi]

UniDM: A Unified Framework for Data Manipulation with Large Language ModelsYichen Qian, Yongyi He, Rong Zhu, Jintao Huang, Zhijian Ma, Haibin Wang, Yaohua Wang, Xiuyu Sun, Defu Lian, Bolin Ding, Jingren Zhou. mlsys 2024: [doi]

FLASH: Fast Model Adaptation in ML-Centric Cloud PlatformsHaoran Qiu, Weichao Mao, Archit Patke, Shengkun Cui, Chen Wang 0039, Hubertus Franke, Zbigniew Kalbarczyk, Tamer Basar, Ravi K. Iyer. mlsys 2024: [doi]

Efficient Post-training Quantization with FP8 FormatsHaihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, Mengni Wang. mlsys 2024: [doi]

DiffusionPipe: Training Large Diffusion Models with Efficient PipelinesYe Tian, Zhen Jia 0001, Ziyue Luo, Yida Wang 0003, Chuan Wu 0001. mlsys 2024: [doi]

Distributed Matrix-Based Sampling for Graph Neural Network TrainingAlok Tripathy, Katherine A. Yelick, Aydin Buluç. mlsys 2024: [doi]

CloudEval-YAML: A Practical Benchmark for Cloud Configuration GenerationYifei Xu, Yuning Chen, Xumiao Zhang, Xianshang Lin, Pan Hu, Yunfei Ma, Songwu Lu, Wan Du, Zhuoqing Mao, Ennan Zhai, Dennis Cai. mlsys 2024: [doi]

Fine-Tuning Language Models Using Formal Methods Feedback: A Use Case in Autonomous SystemsYunhao Yang, Neel P. Bhatt, Tyler Ingebrand, William Ward, Steven Carr, Atlas Wang, Ufuk Topcu. mlsys 2024: [doi]

VQPy: An Object-Oriented Approach to Modern Video AnalyticsShan Yu, Zhenting Zhu, Yu Chen, Hanchen Xu, Pengzhan Zhao, Yang Wang, Arthi Padmanabhan, Hugo Latapie, Harry Xu 0001. mlsys 2024: [doi]

Atom: Low-Bit Quantization for Efficient and Accurate LLM ServingYilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng 0001, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen 0001, Baris Kasikci. mlsys 2024: [doi]

HeteGen: Efficient Heterogeneous Parallel Inference for Large Language Models on Resource-Constrained DevicesXuanlei Zhao, Bin Jia, Haotian Zhou, Ziming Liu, Shenggan Cheng, Yang You 0001. mlsys 2024: [doi]

FedTrans: Efficient Federated Learning via Multi-Model TransformationYuxuan Zhu, Jiachen Liu, Mosharaf Chowdhury, Fan Lai. mlsys 2024: [doi]

2023

Cuttlefish: Low-Rank Model Training without All the TuningHongyi Wang 0001, Saurabh Agarwal, Pongsakorn U.-Chupala, Yoshiki Tanaka, Eric P. Xing, Dimitris Papailiopoulos. mlsys 2023: [doi]

Safe Optimized Static Memory Allocation for Parallel Deep LearningIoannis Lamprou 0001, Zhen Zhang, Javier de Juan, Hang Yang, Yongqiang Lai, Etienne Filhol, Cédric Bastoul. mlsys 2023: [doi]

On Optimizing the Communication of Model ParallelismYonghao Zhuang 0001, Lianmin Zheng, Zhuohan Li 0001, Eric P. Xing, Qirong Ho, Joseph Gonzalez 0001, Ion Stoica, Hao Zhang, Hexu Zhao. mlsys 2023: [doi]

Practical Edge Kernels for Integer-Only Vision Transformers Under Post-training QuantizationZining Zhang 0001, Bingsheng He, Zhenjie Zhang. mlsys 2023: [doi]

Edge Impulse: An MLOps Platform for Tiny Machine LearningColby R. Banbury, Vijay Janapa Reddi, Alexander Elium, Shawn Hymel, David Tischler, Daniel Situnayake, Carl Ward, Louis Moreau, Jenny Plunkett, Matthew Kelcey, Mathijs Baaijens, Alessandro Grande, Dmitry Maslov, Arthur Beavis, Jan Jongboom, Jessica Quaye. mlsys 2023: [doi]

Virtual Machine Allocation with Lifetime PredictionsHugo Barbalho, Patricia Kovaleski, Beibin Li, Luke Marshall, Marco Molinaro, Abhisek Pan, Eli Cortez, Matheus Leao, Harsh Patwari, Zuzu Tang, Larissa Rozales Gonçalves, David Dion, Thomas Moscibroda, Ishai Menache. mlsys 2023: [doi]

Subgraph Stationary Hardware-Software Inference Co-DesignPayman Behnam, Alexey Tumanov, Tushar Krishna, Pranav Gadikar, Yangyu Chen, Jianming Tong, Yue Pan, Abhimanyu Rajeshkumar Bambhaniya, Alind Khare. mlsys 2023: [doi]

Sparsity-Aware Memory Interface Architecture using Stacked XORNet Compression for Accelerating Pruned-DNN ModelsYounghoon Byun, Seungsik Moon, Baeseong Park, Se Jung Kwon, Dongsoo Lee, Gunho Park, Eunji Yoo, Jung Gyu Min, Youngjoo Lee. mlsys 2023: [doi]

Learning to Parallelize with OpenMP by Augmented Heterogeneous AST RepresentationLe Chen, Quazi Ishtiaque Mahmud, Hung Phan, Nesreen K. Ahmed, Ali Jannesari. mlsys 2023: [doi]

RevBiFPN: The Fully Reversible Bidirectional Feature Pyramid NetworkVitaliy Chiley, Vithursan Thangarasa, Abhay Gupta, Anshul Samar, Joel Hestness, Dennis DeCoste. mlsys 2023: [doi]

AutoScratch: ML-Optimized Cache Management for Inference-Oriented GPUsYaosheng Fu, Evgeny Bolotin, Aamer Jaleel, Gal Dalal, Shie Mannor, Jacob Subag, Noam Korem, Michael Behar, David W. Nellans. mlsys 2023: [doi]

MegaBlocks: Efficient Sparse Training with Mixture-of-ExpertsTrevor Gale, Deepak Narayanan, Cliff Young, Matei Zaharia. mlsys 2023: [doi]

X-RLflow: Graph Reinforcement Learning for Neural Network Subgraphs TransformationGuoliang He, Sean Parker, Eiko Yoneki. mlsys 2023: [doi]

Transcending Runtime-Memory Tradeoffs in Checkpointing by being Fusion AwareHorace He, Shangdi Yu. mlsys 2023: [doi]

GlueFL: Reconciling Client Sampling and Model Masking for Bandwidth Efficient Federated LearningShiqi He, Qifan Yan, Feijie Wu, Lanjun Wang, Mathias Lécuyer, Ivan Beschastnikh. mlsys 2023: [doi]

Exploiting Hardware Utilization and Adaptive Dataflow for Efficient Sparse Convolution in 3D Point CloudsKe Hong, Zhongming Yu, Guohao Dai, Xinhao Yang, Yaoxiu Lian, Zehao Liu, Ningyi Xu, Yuhan Dong, Yu Wang 0002. mlsys 2023: [doi]

GiPH: Generalizable Placement Learning for Adaptive Heterogeneous ComputingYi Hu, Chaoran Zhang, Edward Andert, Harshul Singh, Aviral Shrivastava, James Laudon, Yanqi Zhou, Bob Iannucci, Carlee Joe-Wong. mlsys 2023: [doi]

ALCOP: Automatic Load-Compute Pipelining in Deep Learning Compiler for AI-GPUsGuyue Huang, Yang Bai, Liu Liu 0017, Yuke Wang, Bei Yu 0001, Yufei Ding, Yuan Xie 0001. mlsys 2023: [doi]

Tutel: Adaptive Mixture-of-Experts at ScaleChangho Hwang, Wei Cui, Yifan Xiong 0001, Ziyue Yang, Ze Liu, Han Hu 0001, Zilong Wang, Rafael Salas, Jithin Jose, Prabhat Ram, HoYuen Chau, Peng Cheng 0005, Fan Yang 0024, Mao Yang, Yongqiang Xiong. mlsys 2023: [doi]

Renee: End-To-End Training of Extreme Classification ModelsVidit Jain, Jatin Prakash, Deepak Saini, Jian Jiao 0007, Ramachandran Ramjee, Manik Varma. mlsys 2023: [doi]

Communication-Efficient Graph Neural Networks with Probabilistic Neighborhood Expansion Analysis and CachingTim Kaler, Alexandros-Stavros Iliopoulos, Philip Murzynowski, Tao B. Schardl, Charles E. Leiserson, Jie Chen 0007. mlsys 2023: [doi]

Reducing Activation Recomputation in Large Transformer ModelsVijay Anand Korthikanti, Jared Casper, Sangkug Lym, Lawrence McAfee, Michael Andersch, Mohammad Shoeybi, Bryan Catanzaro. mlsys 2023: [doi]

Validating Large Language Models with ReLMMichael Kuchnik, Virginia Smith, George Amvrosiadis. mlsys 2023: [doi]

On Noisy Evaluation in Federated Hyperparameter TuningKevin Kuo, Pratiksha Thaker, Mikhail Khodak, John Nguyen, Daniel Jiang, Ameet Talwalkar, Virginia Smith. mlsys 2023: [doi]

Breadth-First Pipeline ParallelismJoel Lamy-Poirier. mlsys 2023: [doi]

FedTree: A Federated Learning System For TreesQinbin Li, Zhaomin Wu, Yanzheng Cai, Yuxuan Han, Ching Man Yung, Tianyuan Fu, Bingsheng He. mlsys 2023: [doi]

SIRIUS: Harvesting Whole-Program Optimization Opportunities for DNNsYijin Li, Jiacheng Zhao, Qianqi Sun, Haohui Mai, Lei Chen, Wanlu Cao, Yanfan Chen, Zhicheng Li, Ying Liu, Xinyuan Zhang, Xiyu Shi, Jie Zhao, Jingling Xue, Huimin Cui, Xiaobing Feng 0002. mlsys 2023: [doi]

Efficient GPU Kernels for N: M-Sparse Weights in Deep LearningBin Lin, Ningxin Zheng, Lei Wang, Shijie Cao, Lingxiao Ma, Quanlu Zhang, Yi Zhu, Ting Cao, Jilong Xue, Yuqing Yang 0001, Fan Yang 0024. mlsys 2023: [doi]

Uniform Sparsity in Deep Neural NetworksSaurav Muralidharan. mlsys 2023: [doi]

PipeFisher: Efficient Training of Large Language Models Using Pipelining and Fisher Information MatricesKazuki Osawa, Shigang Li 0002, Torsten Hoefler. mlsys 2023: [doi]

Efficiently Scaling Transformer InferenceReiner Pope, Sholto Douglas, Aakanksha Chowdhery, Jacob Devlin, James Bradbury, Jonathan Heek, Kefan Xiao, Shivani Agrawal, Jeff Dean. mlsys 2023: [doi]

μ-TWO: 3× Faster Multi-Model Training with Orchestration and Memory OptimizationSanket Purandare, Abdul Wasay, Animesh Jain, Stratos Idreos. mlsys 2023: [doi]

Hotline Profiler: Automatic Annotation and A Multi-Scale Timeline for Visualizing Time-Use in DNN TrainingDaniel Snider, Fanny Chevalier, Gennady Pekhimenko. mlsys 2023: [doi]

Proceedings of the Sixth Conference on Machine Learning and Systems, MLSys 2023, Miami, FL, USA, June 4-8, 2023Dawn Song, Michael Carbin, Tianqi Chen 0001, editors, mlsys.org, 2023. [doi]

Building Verified Neural Networks for Computer Systems with OuroborosCheng Tan, Changliu Liu, Zhihao Jia, Tianhao Wei. mlsys 2023: [doi]

Adaptive Message Quantization and Parallelization for Distributed Full-graph GNN TrainingBorui Wan, Juntao Zhao, Chuan Wu 0001. mlsys 2023: [doi]

FLINT: A Platform for Federated Learning IntegrationEwen Wang, Boyi Chen, Mosharaf Chowdhury, Ajay Kannan, Franco Liang. mlsys 2023: [doi]

Cupcake: A Compression Scheduler for Scalable Communication-Efficient Distributed TrainingZhuang Wang, Xinyu Crystal Wu, Zhaozhuo Xu, T. S. Eugene Ng. mlsys 2023: [doi]

SysNoise: Exploring and Benchmarking Training-Deployment System InconsistencyYan Wang, Yuhang Li, Ruihao Gong, Aishan Liu, Yanfei Wang, Jian Hu, Yongqiang Yao, Yunchen Zhang, Tianzi Xiao, Fengwei Yu, Xianglong Liu 0001. mlsys 2023: [doi]

Unified Convolution Framework: A compiler-based approach to support sparse convolutionsJaeyeon Won, Changwan Hong, Charith Mendis, Joel S. Emer, Saman P. Amarasinghe. mlsys 2023: [doi]

HyperGef: A Framework Enabling Efficient Fusion for Hypergraph Neural Network on GPUsZhongming Yu, Guohao Dai, Shang Yang, Genghan Zhang, Hengrui Zhang, Feiwen Zhu, June Yang, Jishen Zhao, Yu Wang 0002. mlsys 2023: [doi]

Pre-train and Search: Efficient Embedding Table Sharding with Pre-trained Neural Cost ModelsDaochen Zha, Louis Feng, Liang Luo, Bhargav Bhushanam, Zirui Liu, Yusuo Hu, Jade Nie, Yuzhen Huang, Yuandong Tian, Arun Kejariwal, Xia Hu 0001. mlsys 2023: [doi]

ApproxCaliper: A Programmable Framework for Application-aware Neural Network OptimizationYifan Zhao, Hashim Sharif, Peter Pao-Huang, Vatsin Shah, Arun Narenthiran Sivakumar, Mateus Valverde Gasparino, Abdulrahman Mahmoud, Nathan Zhao, Sarita V. Adve, Girish Chowdhary 0001, Sasa Misailovic, Vikram S. Adve. mlsys 2023: [doi]

RecD: Deduplication for End-to-End Deep Learning Recommendation Model Training InfrastructureMark Zhao, Dhruv Choudhary, Devashish Tyagi, Ajay Somani, Max Kaplan, Sung-Han Lin, Sarunya Pumma, JongSoo Park, Aarti Basant, Niket Agarwal, Carole-Jean Wu, Christos Kozyrakis. mlsys 2023: [doi]

Be Careful with PyPI Packages: You May Unconsciously Spread Backdoor Model WeightsTianhang Zheng, Hao Lan, Baochun Li. mlsys 2023: [doi]

2022

Hydrozoa: Dynamic Hybrid-Parallel DNN Training on Serverless ContainersRunsheng Guo 0003, Victor Guo, Antonio Kim, Josh Hildred, Khuzaima Daudjee. mlsys 2022: [doi]

Collapsible Linear Blocks for Super-Efficient Super ResolutionKartikeya Bhardwaj, Milos Milosavljevic, Liam O'Neil, Dibakar Gope, Ramon Matas Navarro, Alex Chalfin, Naveen Suda, Lingchuan Meng, Danny Loh. mlsys 2022: [doi]

REX: Revisiting Budgeted Training with an Improved ScheduleJohn Chen, Cameron R. Wolfe, Tasos Kyrillidis. mlsys 2022: [doi]

SLA-Driven ML Inference Framework for Clouds with Hetergeneous AcceleratorsJunguk Cho, Diman Zad Tootaghaj, Lianjie Cao, Puneet Sharma. mlsys 2022: [doi]

Random Offset Block Embedding (ROBE) for compressed embedding tables in deep learning recommendation systemsAditya Desai, Li Chou, Anshumali Shrivastava. mlsys 2022: [doi]

Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and PipeliningTim Kaler, Nickolas Stathas, Anne Ouyang, Alexandros-Stavros Iliopoulos, Tao B. Schardl, Charles E. Leiserson, Jie Chen 0007. mlsys 2022: [doi]

Bit-serial Weight Pools: Compression and Arbitrary Precision Execution of Neural Networks on Resource Constrained ProcessorsShurui Li, Puneet Gupta. mlsys 2022: [doi]

Sequential Aggregation and Rematerialization: Distributed Full-batch Training of Graph Neural Networks on Large GraphsHesham Mostafa. mlsys 2022: [doi]

GPU Semiring Primitives for Sparse Neighborhood MethodsCorey J. Nolet, Divye Gala, Edward Raff, Joe Eaton, Brad Rees, Tim Oates. mlsys 2022: [doi]

Learning Compressed Embeddings for On-Device InferenceNiketan Pansare, Jay Katukuri, Aditya Arora, Frank Cipollone, Riyaaz Shaik, Noyan Tokgozoglu, Chandru Venkataraman. mlsys 2022: [doi]

torch.fx: Practical Program Capture and Transformation for Deep Learning in PythonJames K. Reed, Zachary Devito, Horace He, Ansley Ussery, Jason Ansel. mlsys 2022: [doi]

TyXe: Pyro-based Bayesian neural nets for PytorchHippolyt Ritter, Theofanis Karaletsos. mlsys 2022: [doi]

TorchSparse: Efficient Point Cloud Inference EngineHaotian Tang, Zhijian Liu, Xiuyu Li, Yujun Lin 0001, Song Han 0003. mlsys 2022: [doi]

ULPPACK: Fast Sub-8-bit Matrix Multiply on Commodity SIMD HardwareJaeyeon Won, Jeyeon Si, Sam Son, Tae Jun Ham, Jae W. Lee. mlsys 2022: [doi]

A Transferable Approach for Partitioning Machine Learning Models on Multi-Chip-ModulesXinfeng Xie, Prakash Prabhu, Ulysse Beaugnon, Phitchaya Mangpo Phothilimthana, Sudip Roy 0002, Azalia Mirhoseini, Eugene Brevdo, James Laudon, Yanqi Zhou. mlsys 2022: [doi]

Links

Filter by Year
OR AND NOT 1

Filter by Tag

Filter by Author

[+]
OR AND NOT 1

Filter by Top terms

[+]
OR AND NOT 1

MLSys (mlsys)

Viewing Publication 1 - 100 from 258

2024

2023

2022

Links

Filter by YearOR AND NOT 1

Filter by Tag

Filter by Author [+]OR AND NOT 1

Filter by Top terms [+]OR AND NOT 1

MLSys (mlsys)

Viewing Publication 1 - 100 from 258

2024

2023

2022

Filter by Year
OR AND NOT 1

Filter by Author

[+]
OR AND NOT 1

Filter by Top terms

[+]
OR AND NOT 1