linux/mm/hugetlb.c

457c8996SThomas Gleixner// SPDX-License-Identifier: GPL-2.0-only
1da177e4SLinus Torvalds/*
1da177e4SLinus Torvalds * Generic hugetlb support.
6d49e352SNadia Yvette Chambers * (C) Nadia Yvette Chambers, April 2004
1da177e4SLinus Torvalds */
1da177e4SLinus Torvalds#include <linux/list.h>
1da177e4SLinus Torvalds#include <linux/init.h>
1da177e4SLinus Torvalds#include <linux/mm.h>
e1759c21SAlexey Dobriyan#include <linux/seq_file.h>
1da177e4SLinus Torvalds#include <linux/highmem.h>
cddb8a5cSAndrea Arcangeli#include <linux/mmu_notifier.h>
1da177e4SLinus Torvalds#include <linux/nodemask.h>
63551ae0SDavid Gibson#include <linux/pagemap.h>
5da7ca86SChristoph Lameter#include <linux/mempolicy.h>
3b32123dSGideon Israel Dsouza#include <linux/compiler.h>
c34b3eceSThomas Prescher#include <linux/cpumask.h>
aea47ff3SChristoph Lameter#include <linux/cpuset.h>
3935baa9SDavid Gibson#include <linux/mutex.h>
97ad1087SMike Rapoport#include <linux/memblock.h>
c34b3eceSThomas Prescher#include <linux/minmax.h>
5a0e3ad6STejun Heo#include <linux/slab.h>
bbe88753SJoonsoo Kim#include <linux/sched/mm.h>
63489f8eSMike Kravetz#include <linux/mmdebug.h>
174cd4b1SIngo Molnar#include <linux/sched/signal.h>
0fe6e20bSNaoya Horiguchi#include <linux/rmap.h>
2a835290SThorsten Blum#include <linux/string_choices.h>
c6247f72SMatthew Wilcox#include <linux/string_helpers.h>
fd6a03edSNaoya Horiguchi#include <linux/swap.h>
68aa2fdbSLorenzo Stoakes#include <linux/leafops.h>
8382d914SDavidlohr Bueso#include <linux/jhash.h>
98fa15f3SAnshuman Khandual#include <linux/numa.h>
c77c0a8aSWaiman Long#include <linux/llist.h>
cf11e85fSRoman Gushchin#include <linux/cma.h>
8cc5fcbbSMina Almasry#include <linux/migrate.h>
f9317f77SMike Kravetz#include <linux/nospec.h>
662ce1dcSYang Yang#include <linux/delayacct.h>
b958d4d0SMuchun Song#include <linux/memory.h>
af19487fSAxel Rasmussen#include <linux/mm_inline.h>
c6c21c31SGang Li#include <linux/padata.h>
ad8b2e09SHarry Yoo#include <linux/pgalloc.h>
d6606683SLinus Torvalds
63551ae0SDavid Gibson#include <asm/page.h>
24669e58SAneesh Kumar K.V#include <asm/tlb.h>
5b47c029SFrank van der Linden#include <asm/setup.h>
63551ae0SDavid Gibson
24669e58SAneesh Kumar K.V#include <linux/io.h>
9a305230SLee Schermerhorn#include <linux/node.h>
ab5ac90aSMichal Hocko#include <linux/page_owner.h>
7835e98bSNick Piggin#include "internal.h"
f41f2ed4SMuchun Song#include "hugetlb_vmemmap.h"
474fe91fSFrank van der Linden#include "hugetlb_cma.h"
ecd6703fSHui Zhu#include "hugetlb_internal.h"
04f13d24Syangge#include <linux/page-isolation.h>
1da177e4SLinus Torvalds
c3f38a38SAneesh Kumar K.Vint hugetlb_max_hstate __read_mostly;
e5ff2159SAndi Kleenunsigned int default_hstate_idx;
e5ff2159SAndi Kleenstruct hstate hstates[HUGE_MAX_HSTATE];
cf11e85fSRoman Gushchin
8d88b076SFrank van der Linden__initdata nodemask_t hugetlb_bootmem_nodes;
b78b27d0SGang Li__initdata struct list_head huge_boot_pages[MAX_NUMNODES];
14ed3a59SFrank van der Lindenstatic unsigned long hstate_boot_nrinvalid[HUGE_MAX_HSTATE] __initdata;
53ba51d2SJon Tollefson
5b47c029SFrank van der Linden/*
5b47c029SFrank van der Linden * Due to ordering constraints across the init code for various
5b47c029SFrank van der Linden * architectures, hugetlb hstate cmdline parameters can't simply
5b47c029SFrank van der Linden * be early_param. early_param might call the setup function
5b47c029SFrank van der Linden * before valid hugetlb page sizes are determined, leading to
5b47c029SFrank van der Linden * incorrect rejection of valid hugepagesz= options.
5b47c029SFrank van der Linden *
5b47c029SFrank van der Linden * So, record the parameters early and consume them whenever the
5b47c029SFrank van der Linden * init code is ready for them, by calling hugetlb_parse_params().
5b47c029SFrank van der Linden */
5b47c029SFrank van der Linden
5b47c029SFrank van der Linden/* one (hugepagesz=,hugepages=) pair per hstate, one default_hugepagesz */
5b47c029SFrank van der Linden#define HUGE_MAX_CMDLINE_ARGS	(2 * HUGE_MAX_HSTATE + 1)
5b47c029SFrank van der Lindenstruct hugetlb_cmdline {
5b47c029SFrank van der Linden	char *val;
5b47c029SFrank van der Linden	int (*setup)(char *val);
5b47c029SFrank van der Linden};
5b47c029SFrank van der Linden
e5ff2159SAndi Kleen/* for command line parsing */
e5ff2159SAndi Kleenstatic struct hstate * __initdata parsed_hstate;
e5ff2159SAndi Kleenstatic unsigned long __initdata default_hstate_max_huge_pages;
9fee021dSVaishali Thakkarstatic bool __initdata parsed_valid_hugepagesz = true;
282f4214SMike Kravetzstatic bool __initdata parsed_default_hugepagesz;
b5389086SZhenguo Yaostatic unsigned int default_hugepages_in_node[MAX_NUMNODES] __initdata;
71f74568SThomas Prescherstatic unsigned long hugepage_allocation_threads __initdata;
e5ff2159SAndi Kleen
5b47c029SFrank van der Lindenstatic char hstate_cmdline_buf[COMMAND_LINE_SIZE] __initdata;
5b47c029SFrank van der Lindenstatic int hstate_cmdline_index __initdata;
5b47c029SFrank van der Lindenstatic struct hugetlb_cmdline hugetlb_params[HUGE_MAX_CMDLINE_ARGS] __initdata;
5b47c029SFrank van der Lindenstatic int hugetlb_param_index __initdata;
5b47c029SFrank van der Lindenstatic __init int hugetlb_add_param(char *s, int (*setup)(char *val));
5b47c029SFrank van der Lindenstatic __init void hugetlb_parse_params(void);
5b47c029SFrank van der Linden
5b47c029SFrank van der Linden#define hugetlb_early_param(str, func) \
5b47c029SFrank van der Lindenstatic __init int func##args(char *s) \
5b47c029SFrank van der Linden{ \
5b47c029SFrank van der Linden	return hugetlb_add_param(s, func); \
5b47c029SFrank van der Linden} \
5b47c029SFrank van der Lindenearly_param(str, func##args)
5b47c029SFrank van der Linden
3935baa9SDavid Gibson/*
31caf665SNaoya Horiguchi * Protects updates to hugepage_freelists, hugepage_activelist, nr_huge_pages,
31caf665SNaoya Horiguchi * free_huge_pages, and surplus_huge_pages.
3935baa9SDavid Gibson */
83362d22SMateusz Guzik__cacheline_aligned_in_smp DEFINE_SPINLOCK(hugetlb_lock);
0bd0f9fbSEric Paris
8382d914SDavidlohr Bueso/*
8382d914SDavidlohr Bueso * Serializes faults on the same logical page.  This is used to
8382d914SDavidlohr Bueso * prevent spurious OOMs when the hugepage pool is fully utilized.
8382d914SDavidlohr Bueso */
83362d22SMateusz Guzikstatic int num_fault_mutexes __ro_after_init;
83362d22SMateusz Guzikstruct mutex *hugetlb_fault_mutex_table __ro_after_init;
8382d914SDavidlohr Bueso
7ca02d0aSMike Kravetz/* Forward declaration */
7ca02d0aSMike Kravetzstatic int hugetlb_acct_memory(struct hstate *h, long delta);
8d9bfb26SMike Kravetzstatic void hugetlb_vma_lock_free(struct vm_area_struct *vma);
ecfbd733SMike Kravetzstatic void __hugetlb_vma_unlock_write_free(struct vm_area_struct *vma);
b30c14cdSJames Houghtonstatic void hugetlb_unshare_pmds(struct vm_area_struct *vma,
081056dcSJann Horn		unsigned long start, unsigned long end, bool take_locks);
bf491692SRik van Rielstatic struct resv_map *vma_resv_map(struct vm_area_struct *vma);
7ca02d0aSMike Kravetz
1d88433bSMiaohe Linstatic inline bool subpool_is_free(struct hugepage_subpool *spool)
1d88433bSMiaohe Lin{
1d88433bSMiaohe Lin	if (spool->count)
1d88433bSMiaohe Lin		return false;
1d88433bSMiaohe Lin	if (spool->max_hpages != -1)
1d88433bSMiaohe Lin		return spool->used_hpages == 0;
1d88433bSMiaohe Lin	if (spool->min_hpages != -1)
1d88433bSMiaohe Lin		return spool->rsv_hpages == spool->min_hpages;
1d88433bSMiaohe Lin
1d88433bSMiaohe Lin	return true;
1d88433bSMiaohe Lin}
1d88433bSMiaohe Lin
db71ef79SMike Kravetzstatic inline void unlock_or_release_subpool(struct hugepage_subpool *spool,
db71ef79SMike Kravetz						unsigned long irq_flags)
90481622SDavid Gibson{
db71ef79SMike Kravetz	spin_unlock_irqrestore(&spool->lock, irq_flags);
90481622SDavid Gibson
90481622SDavid Gibson	/* If no pages are used, and no other handles to the subpool
7c8de358SEthon Paul	 * remain, give up any reservations based on minimum size and
7ca02d0aSMike Kravetz	 * free the subpool */
1d88433bSMiaohe Lin	if (subpool_is_free(spool)) {
7ca02d0aSMike Kravetz		if (spool->min_hpages != -1)
7ca02d0aSMike Kravetz			hugetlb_acct_memory(spool->hstate,
7ca02d0aSMike Kravetz						-spool->min_hpages);
90481622SDavid Gibson		kfree(spool);
90481622SDavid Gibson	}
7ca02d0aSMike Kravetz}
90481622SDavid Gibson
7ca02d0aSMike Kravetzstruct hugepage_subpool *hugepage_new_subpool(struct hstate *h, long max_hpages,
7ca02d0aSMike Kravetz						long min_hpages)
90481622SDavid Gibson{
90481622SDavid Gibson	struct hugepage_subpool *spool;
90481622SDavid Gibson
bf4afc53SLinus Torvalds	spool = kzalloc_obj(*spool);
90481622SDavid Gibson	if (!spool)
90481622SDavid Gibson		return NULL;
90481622SDavid Gibson
90481622SDavid Gibson	spin_lock_init(&spool->lock);
90481622SDavid Gibson	spool->count = 1;
7ca02d0aSMike Kravetz	spool->max_hpages = max_hpages;
7ca02d0aSMike Kravetz	spool->hstate = h;
7ca02d0aSMike Kravetz	spool->min_hpages = min_hpages;
7ca02d0aSMike Kravetz
7ca02d0aSMike Kravetz	if (min_hpages != -1 && hugetlb_acct_memory(h, min_hpages)) {
7ca02d0aSMike Kravetz		kfree(spool);
7ca02d0aSMike Kravetz		return NULL;
7ca02d0aSMike Kravetz	}
7ca02d0aSMike Kravetz	spool->rsv_hpages = min_hpages;
90481622SDavid Gibson
90481622SDavid Gibson	return spool;
90481622SDavid Gibson}
90481622SDavid Gibson
90481622SDavid Gibsonvoid hugepage_put_subpool(struct hugepage_subpool *spool)
90481622SDavid Gibson{
db71ef79SMike Kravetz	unsigned long flags;
db71ef79SMike Kravetz
db71ef79SMike Kravetz	spin_lock_irqsave(&spool->lock, flags);
90481622SDavid Gibson	BUG_ON(!spool->count);
90481622SDavid Gibson	spool->count--;
db71ef79SMike Kravetz	unlock_or_release_subpool(spool, flags);
90481622SDavid Gibson}
90481622SDavid Gibson
1c5ecae3SMike Kravetz/*
1c5ecae3SMike Kravetz * Subpool accounting for allocating and reserving pages.
1c5ecae3SMike Kravetz * Return -ENOMEM if there are not enough resources to satisfy the
9e7ee400SRandy Dunlap * request.  Otherwise, return the number of pages by which the
1c5ecae3SMike Kravetz * global pools must be adjusted (upward).  The returned value may
1c5ecae3SMike Kravetz * only be different than the passed value (delta) in the case where
7c8de358SEthon Paul * a subpool minimum size must be maintained.
1c5ecae3SMike Kravetz */
1c5ecae3SMike Kravetzstatic long hugepage_subpool_get_pages(struct hugepage_subpool *spool,
90481622SDavid Gibson				      long delta)
90481622SDavid Gibson{
1c5ecae3SMike Kravetz	long ret = delta;
90481622SDavid Gibson
90481622SDavid Gibson	if (!spool)
1c5ecae3SMike Kravetz		return ret;
90481622SDavid Gibson
db71ef79SMike Kravetz	spin_lock_irq(&spool->lock);
90481622SDavid Gibson
1c5ecae3SMike Kravetz	if (spool->max_hpages != -1) {		/* maximum size accounting */
1c5ecae3SMike Kravetz		if ((spool->used_hpages + delta) <= spool->max_hpages)
1c5ecae3SMike Kravetz			spool->used_hpages += delta;
1c5ecae3SMike Kravetz		else {
1c5ecae3SMike Kravetz			ret = -ENOMEM;
1c5ecae3SMike Kravetz			goto unlock_ret;
1c5ecae3SMike Kravetz		}
1c5ecae3SMike Kravetz	}
1c5ecae3SMike Kravetz
09a95e29SMike Kravetz	/* minimum size accounting */
09a95e29SMike Kravetz	if (spool->min_hpages != -1 && spool->rsv_hpages) {
1c5ecae3SMike Kravetz		if (delta > spool->rsv_hpages) {
1c5ecae3SMike Kravetz			/*
1c5ecae3SMike Kravetz			 * Asking for more reserves than those already taken on
1c5ecae3SMike Kravetz			 * behalf of subpool.  Return difference.
1c5ecae3SMike Kravetz			 */
1c5ecae3SMike Kravetz			ret = delta - spool->rsv_hpages;
1c5ecae3SMike Kravetz			spool->rsv_hpages = 0;
1c5ecae3SMike Kravetz		} else {
1c5ecae3SMike Kravetz			ret = 0;	/* reserves already accounted for */
1c5ecae3SMike Kravetz			spool->rsv_hpages -= delta;
1c5ecae3SMike Kravetz		}
1c5ecae3SMike Kravetz	}
1c5ecae3SMike Kravetz
1c5ecae3SMike Kravetzunlock_ret:
db71ef79SMike Kravetz	spin_unlock_irq(&spool->lock);
90481622SDavid Gibson	return ret;
90481622SDavid Gibson}
90481622SDavid Gibson
1c5ecae3SMike Kravetz/*
1c5ecae3SMike Kravetz * Subpool accounting for freeing and unreserving pages.
1c5ecae3SMike Kravetz * Return the number of global page reservations that must be dropped.
1c5ecae3SMike Kravetz * The return value may only be different than the passed value (delta)
1c5ecae3SMike Kravetz * in the case where a subpool minimum size must be maintained.
1c5ecae3SMike Kravetz */
1c5ecae3SMike Kravetzstatic long hugepage_subpool_put_pages(struct hugepage_subpool *spool,
90481622SDavid Gibson				       long delta)
90481622SDavid Gibson{
1c5ecae3SMike Kravetz	long ret = delta;
db71ef79SMike Kravetz	unsigned long flags;
1c5ecae3SMike Kravetz
90481622SDavid Gibson	if (!spool)
1c5ecae3SMike Kravetz		return delta;
90481622SDavid Gibson
db71ef79SMike Kravetz	spin_lock_irqsave(&spool->lock, flags);
1c5ecae3SMike Kravetz
1c5ecae3SMike Kravetz	if (spool->max_hpages != -1)		/* maximum size accounting */
90481622SDavid Gibson		spool->used_hpages -= delta;
1c5ecae3SMike Kravetz
09a95e29SMike Kravetz	 /* minimum size accounting */
09a95e29SMike Kravetz	if (spool->min_hpages != -1 && spool->used_hpages < spool->min_hpages) {
1c5ecae3SMike Kravetz		if (spool->rsv_hpages + delta <= spool->min_hpages)
1c5ecae3SMike Kravetz			ret = 0;
1c5ecae3SMike Kravetz		else
1c5ecae3SMike Kravetz			ret = spool->rsv_hpages + delta - spool->min_hpages;
1c5ecae3SMike Kravetz
1c5ecae3SMike Kravetz		spool->rsv_hpages += delta;
1c5ecae3SMike Kravetz		if (spool->rsv_hpages > spool->min_hpages)
1c5ecae3SMike Kravetz			spool->rsv_hpages = spool->min_hpages;
1c5ecae3SMike Kravetz	}
1c5ecae3SMike Kravetz
1c5ecae3SMike Kravetz	/*
1c5ecae3SMike Kravetz	 * If hugetlbfs_put_super couldn't free spool due to an outstanding
1c5ecae3SMike Kravetz	 * quota reference, free it now.
1c5ecae3SMike Kravetz	 */
db71ef79SMike Kravetz	unlock_or_release_subpool(spool, flags);
1c5ecae3SMike Kravetz
1c5ecae3SMike Kravetz	return ret;
90481622SDavid Gibson}
90481622SDavid Gibson
90481622SDavid Gibsonstatic inline struct hugepage_subpool *subpool_vma(struct vm_area_struct *vma)
90481622SDavid Gibson{
496ad9aaSAl Viro	return subpool_inode(file_inode(vma->vm_file));
90481622SDavid Gibson}
90481622SDavid Gibson
e700898fSMike Kravetz/*
e700898fSMike Kravetz * hugetlb vma_lock helper routines
e700898fSMike Kravetz */
e700898fSMike Kravetzvoid hugetlb_vma_lock_read(struct vm_area_struct *vma)
e700898fSMike Kravetz{
e700898fSMike Kravetz	if (__vma_shareable_lock(vma)) {
e700898fSMike Kravetz		struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
e700898fSMike Kravetz
e700898fSMike Kravetz		down_read(&vma_lock->rw_sema);
bf491692SRik van Riel	} else if (__vma_private_lock(vma)) {
bf491692SRik van Riel		struct resv_map *resv_map = vma_resv_map(vma);
bf491692SRik van Riel
bf491692SRik van Riel		down_read(&resv_map->rw_sema);
e700898fSMike Kravetz	}
e700898fSMike Kravetz}
e700898fSMike Kravetz
e700898fSMike Kravetzvoid hugetlb_vma_unlock_read(struct vm_area_struct *vma)
e700898fSMike Kravetz{
e700898fSMike Kravetz	if (__vma_shareable_lock(vma)) {
e700898fSMike Kravetz		struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
e700898fSMike Kravetz
e700898fSMike Kravetz		up_read(&vma_lock->rw_sema);
bf491692SRik van Riel	} else if (__vma_private_lock(vma)) {
bf491692SRik van Riel		struct resv_map *resv_map = vma_resv_map(vma);
bf491692SRik van Riel
bf491692SRik van Riel		up_read(&resv_map->rw_sema);
e700898fSMike Kravetz	}
e700898fSMike Kravetz}
e700898fSMike Kravetz
e700898fSMike Kravetzvoid hugetlb_vma_lock_write(struct vm_area_struct *vma)
e700898fSMike Kravetz{
e700898fSMike Kravetz	if (__vma_shareable_lock(vma)) {
e700898fSMike Kravetz		struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
e700898fSMike Kravetz
e700898fSMike Kravetz		down_write(&vma_lock->rw_sema);
bf491692SRik van Riel	} else if (__vma_private_lock(vma)) {
bf491692SRik van Riel		struct resv_map *resv_map = vma_resv_map(vma);
bf491692SRik van Riel
bf491692SRik van Riel		down_write(&resv_map->rw_sema);
e700898fSMike Kravetz	}
e700898fSMike Kravetz}
e700898fSMike Kravetz
e700898fSMike Kravetzvoid hugetlb_vma_unlock_write(struct vm_area_struct *vma)
e700898fSMike Kravetz{
e700898fSMike Kravetz	if (__vma_shareable_lock(vma)) {
e700898fSMike Kravetz		struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
e700898fSMike Kravetz
e700898fSMike Kravetz		up_write(&vma_lock->rw_sema);
bf491692SRik van Riel	} else if (__vma_private_lock(vma)) {
bf491692SRik van Riel		struct resv_map *resv_map = vma_resv_map(vma);
bf491692SRik van Riel
bf491692SRik van Riel		up_write(&resv_map->rw_sema);
e700898fSMike Kravetz	}
e700898fSMike Kravetz}
e700898fSMike Kravetz
e700898fSMike Kravetzint hugetlb_vma_trylock_write(struct vm_area_struct *vma)
e700898fSMike Kravetz{
bf491692SRik van Riel
bf491692SRik van Riel	if (__vma_shareable_lock(vma)) {
e700898fSMike Kravetz		struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
e700898fSMike Kravetz
e700898fSMike Kravetz		return down_write_trylock(&vma_lock->rw_sema);
bf491692SRik van Riel	} else if (__vma_private_lock(vma)) {
bf491692SRik van Riel		struct resv_map *resv_map = vma_resv_map(vma);
bf491692SRik van Riel
bf491692SRik van Riel		return down_write_trylock(&resv_map->rw_sema);
bf491692SRik van Riel	}
bf491692SRik van Riel
bf491692SRik van Riel	return 1;
e700898fSMike Kravetz}
e700898fSMike Kravetz
e700898fSMike Kravetzvoid hugetlb_vma_assert_locked(struct vm_area_struct *vma)
e700898fSMike Kravetz{
e700898fSMike Kravetz	if (__vma_shareable_lock(vma)) {
e700898fSMike Kravetz		struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
e700898fSMike Kravetz
e700898fSMike Kravetz		lockdep_assert_held(&vma_lock->rw_sema);
bf491692SRik van Riel	} else if (__vma_private_lock(vma)) {
bf491692SRik van Riel		struct resv_map *resv_map = vma_resv_map(vma);
bf491692SRik van Riel
bf491692SRik van Riel		lockdep_assert_held(&resv_map->rw_sema);
e700898fSMike Kravetz	}
e700898fSMike Kravetz}
e700898fSMike Kravetz
e700898fSMike Kravetzvoid hugetlb_vma_lock_release(struct kref *kref)
e700898fSMike Kravetz{
e700898fSMike Kravetz	struct hugetlb_vma_lock *vma_lock = container_of(kref,
e700898fSMike Kravetz			struct hugetlb_vma_lock, refs);
e700898fSMike Kravetz
e700898fSMike Kravetz	kfree(vma_lock);
e700898fSMike Kravetz}
e700898fSMike Kravetz
e700898fSMike Kravetzstatic void __hugetlb_vma_unlock_write_put(struct hugetlb_vma_lock *vma_lock)
e700898fSMike Kravetz{
e700898fSMike Kravetz	struct vm_area_struct *vma = vma_lock->vma;
e700898fSMike Kravetz
e700898fSMike Kravetz	/*
e700898fSMike Kravetz	 * vma_lock structure may or not be released as a result of put,
e700898fSMike Kravetz	 * it certainly will no longer be attached to vma so clear pointer.
e700898fSMike Kravetz	 * Semaphore synchronizes access to vma_lock->vma field.
e700898fSMike Kravetz	 */
e700898fSMike Kravetz	vma_lock->vma = NULL;
e700898fSMike Kravetz	vma->vm_private_data = NULL;
e700898fSMike Kravetz	up_write(&vma_lock->rw_sema);
e700898fSMike Kravetz	kref_put(&vma_lock->refs, hugetlb_vma_lock_release);
e700898fSMike Kravetz}
e700898fSMike Kravetz
e700898fSMike Kravetzstatic void __hugetlb_vma_unlock_write_free(struct vm_area_struct *vma)
e700898fSMike Kravetz{
e700898fSMike Kravetz	if (__vma_shareable_lock(vma)) {
e700898fSMike Kravetz		struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
e700898fSMike Kravetz
e700898fSMike Kravetz		__hugetlb_vma_unlock_write_put(vma_lock);
bf491692SRik van Riel	} else if (__vma_private_lock(vma)) {
bf491692SRik van Riel		struct resv_map *resv_map = vma_resv_map(vma);
bf491692SRik van Riel
bf491692SRik van Riel		/* no free for anon vmas, but still need to unlock */
bf491692SRik van Riel		up_write(&resv_map->rw_sema);
e700898fSMike Kravetz	}
e700898fSMike Kravetz}
e700898fSMike Kravetz
e700898fSMike Kravetzstatic void hugetlb_vma_lock_free(struct vm_area_struct *vma)
e700898fSMike Kravetz{
e700898fSMike Kravetz	/*
e700898fSMike Kravetz	 * Only present in sharable vmas.
e700898fSMike Kravetz	 */
e700898fSMike Kravetz	if (!vma || !__vma_shareable_lock(vma))
e700898fSMike Kravetz		return;
e700898fSMike Kravetz
e700898fSMike Kravetz	if (vma->vm_private_data) {
e700898fSMike Kravetz		struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
e700898fSMike Kravetz
e700898fSMike Kravetz		down_write(&vma_lock->rw_sema);
e700898fSMike Kravetz		__hugetlb_vma_unlock_write_put(vma_lock);
e700898fSMike Kravetz	}
e700898fSMike Kravetz}
e700898fSMike Kravetz
ea52cb24SLorenzo Stoakes/*
ea52cb24SLorenzo Stoakes * vma specific semaphore used for pmd sharing and fault/truncation
ea52cb24SLorenzo Stoakes * synchronization
ea52cb24SLorenzo Stoakes */
ea52cb24SLorenzo Stoakesint hugetlb_vma_lock_alloc(struct vm_area_struct *vma)
e700898fSMike Kravetz{
e700898fSMike Kravetz	struct hugetlb_vma_lock *vma_lock;
e700898fSMike Kravetz
e700898fSMike Kravetz	/* Only establish in (flags) sharable vmas */
e700898fSMike Kravetz	if (!vma || !(vma->vm_flags & VM_MAYSHARE))
ea52cb24SLorenzo Stoakes		return 0;
e700898fSMike Kravetz
e700898fSMike Kravetz	/* Should never get here with non-NULL vm_private_data */
e700898fSMike Kravetz	if (vma->vm_private_data)
ea52cb24SLorenzo Stoakes		return -EINVAL;
e700898fSMike Kravetz
bf4afc53SLinus Torvalds	vma_lock = kmalloc_obj(*vma_lock);
e700898fSMike Kravetz	if (!vma_lock) {
e700898fSMike Kravetz		/*
e700898fSMike Kravetz		 * If we can not allocate structure, then vma can not
e700898fSMike Kravetz		 * participate in pmd sharing.  This is only a possible
e700898fSMike Kravetz		 * performance enhancement and memory saving issue.
e700898fSMike Kravetz		 * However, the lock is also used to synchronize page
e700898fSMike Kravetz		 * faults with truncation.  If the lock is not present,
e700898fSMike Kravetz		 * unlikely races could leave pages in a file past i_size
e700898fSMike Kravetz		 * until the file is removed.  Warn in the unlikely case of
e700898fSMike Kravetz		 * allocation failure.
e700898fSMike Kravetz		 */
e700898fSMike Kravetz		pr_warn_once("HugeTLB: unable to allocate vma specific lock\n");
ea52cb24SLorenzo Stoakes		return -EINVAL;
e700898fSMike Kravetz	}
e700898fSMike Kravetz
e700898fSMike Kravetz	kref_init(&vma_lock->refs);
e700898fSMike Kravetz	init_rwsem(&vma_lock->rw_sema);
e700898fSMike Kravetz	vma_lock->vma = vma;
e700898fSMike Kravetz	vma->vm_private_data = vma_lock;
ea52cb24SLorenzo Stoakes
ea52cb24SLorenzo Stoakes	return 0;
e700898fSMike Kravetz}
e700898fSMike Kravetz
0db9d74eSMina Almasry/* Helper that removes a struct file_region from the resv_map cache and returns
0db9d74eSMina Almasry * it for use.
0db9d74eSMina Almasry */
0db9d74eSMina Almasrystatic struct file_region *
0db9d74eSMina Almasryget_file_region_entry_from_cache(struct resv_map *resv, long from, long to)
0db9d74eSMina Almasry{
3259914fSXU pengfei	struct file_region *nrg;
0db9d74eSMina Almasry
0db9d74eSMina Almasry	VM_BUG_ON(resv->region_cache_count <= 0);
0db9d74eSMina Almasry
0db9d74eSMina Almasry	resv->region_cache_count--;
0db9d74eSMina Almasry	nrg = list_first_entry(&resv->region_cache, struct file_region, link);
0db9d74eSMina Almasry	list_del(&nrg->link);
0db9d74eSMina Almasry
0db9d74eSMina Almasry	nrg->from = from;
0db9d74eSMina Almasry	nrg->to = to;
0db9d74eSMina Almasry
0db9d74eSMina Almasry	return nrg;
0db9d74eSMina Almasry}
0db9d74eSMina Almasry
075a61d0SMina Almasrystatic void copy_hugetlb_cgroup_uncharge_info(struct file_region *nrg,
075a61d0SMina Almasry					      struct file_region *rg)
075a61d0SMina Almasry{
075a61d0SMina Almasry#ifdef CONFIG_CGROUP_HUGETLB
075a61d0SMina Almasry	nrg->reservation_counter = rg->reservation_counter;
075a61d0SMina Almasry	nrg->css = rg->css;
075a61d0SMina Almasry	if (rg->css)
075a61d0SMina Almasry		css_get(rg->css);
075a61d0SMina Almasry#endif
075a61d0SMina Almasry}
075a61d0SMina Almasry
075a61d0SMina Almasry/* Helper that records hugetlb_cgroup uncharge info. */
075a61d0SMina Almasrystatic void record_hugetlb_cgroup_uncharge_info(struct hugetlb_cgroup *h_cg,
075a61d0SMina Almasry						struct hstate *h,
075a61d0SMina Almasry						struct resv_map *resv,
075a61d0SMina Almasry						struct file_region *nrg)
075a61d0SMina Almasry{
075a61d0SMina Almasry#ifdef CONFIG_CGROUP_HUGETLB
075a61d0SMina Almasry	if (h_cg) {
075a61d0SMina Almasry		nrg->reservation_counter =
075a61d0SMina Almasry			&h_cg->rsvd_hugepage[hstate_index(h)];
075a61d0SMina Almasry		nrg->css = &h_cg->css;
d85aecf2SMiaohe Lin		/*
d85aecf2SMiaohe Lin		 * The caller will hold exactly one h_cg->css reference for the
d85aecf2SMiaohe Lin		 * whole contiguous reservation region. But this area might be
d85aecf2SMiaohe Lin		 * scattered when there are already some file_regions reside in
d85aecf2SMiaohe Lin		 * it. As a result, many file_regions may share only one css
d85aecf2SMiaohe Lin		 * reference. In order to ensure that one file_region must hold
d85aecf2SMiaohe Lin		 * exactly one h_cg->css reference, we should do css_get for
d85aecf2SMiaohe Lin		 * each file_region and leave the reference held by caller
d85aecf2SMiaohe Lin		 * untouched.
d85aecf2SMiaohe Lin		 */
d85aecf2SMiaohe Lin		css_get(&h_cg->css);
075a61d0SMina Almasry		if (!resv->pages_per_hpage)
075a61d0SMina Almasry			resv->pages_per_hpage = pages_per_huge_page(h);
075a61d0SMina Almasry		/* pages_per_hpage should be the same for all entries in
075a61d0SMina Almasry		 * a resv_map.
075a61d0SMina Almasry		 */
075a61d0SMina Almasry		VM_BUG_ON(resv->pages_per_hpage != pages_per_huge_page(h));
075a61d0SMina Almasry	} else {
075a61d0SMina Almasry		nrg->reservation_counter = NULL;
075a61d0SMina Almasry		nrg->css = NULL;
075a61d0SMina Almasry	}
075a61d0SMina Almasry#endif
075a61d0SMina Almasry}
075a61d0SMina Almasry
d85aecf2SMiaohe Linstatic void put_uncharge_info(struct file_region *rg)
d85aecf2SMiaohe Lin{
d85aecf2SMiaohe Lin#ifdef CONFIG_CGROUP_HUGETLB
d85aecf2SMiaohe Lin	if (rg->css)
d85aecf2SMiaohe Lin		css_put(rg->css);
d85aecf2SMiaohe Lin#endif
d85aecf2SMiaohe Lin}
d85aecf2SMiaohe Lin
a9b3f867SMina Almasrystatic bool has_same_uncharge_info(struct file_region *rg,
a9b3f867SMina Almasry				   struct file_region *org)
a9b3f867SMina Almasry{
a9b3f867SMina Almasry#ifdef CONFIG_CGROUP_HUGETLB
0739eb43SBaolin Wang	return rg->reservation_counter == org->reservation_counter &&
a9b3f867SMina Almasry	       rg->css == org->css;
a9b3f867SMina Almasry
a9b3f867SMina Almasry#else
a9b3f867SMina Almasry	return true;
a9b3f867SMina Almasry#endif
a9b3f867SMina Almasry}
a9b3f867SMina Almasry
a9b3f867SMina Almasrystatic void coalesce_file_region(struct resv_map *resv, struct file_region *rg)
a9b3f867SMina Almasry{
3259914fSXU pengfei	struct file_region *nrg, *prg;
a9b3f867SMina Almasry
a9b3f867SMina Almasry	prg = list_prev_entry(rg, link);
a9b3f867SMina Almasry	if (&prg->link != &resv->regions && prg->to == rg->from &&
a9b3f867SMina Almasry	    has_same_uncharge_info(prg, rg)) {
a9b3f867SMina Almasry		prg->to = rg->to;
a9b3f867SMina Almasry
a9b3f867SMina Almasry		list_del(&rg->link);
d85aecf2SMiaohe Lin		put_uncharge_info(rg);
a9b3f867SMina Almasry		kfree(rg);
a9b3f867SMina Almasry
7db5e7b6SWei Yang		rg = prg;
a9b3f867SMina Almasry	}
a9b3f867SMina Almasry
a9b3f867SMina Almasry	nrg = list_next_entry(rg, link);
a9b3f867SMina Almasry	if (&nrg->link != &resv->regions && nrg->from == rg->to &&
a9b3f867SMina Almasry	    has_same_uncharge_info(nrg, rg)) {
a9b3f867SMina Almasry		nrg->from = rg->from;
a9b3f867SMina Almasry
a9b3f867SMina Almasry		list_del(&rg->link);
d85aecf2SMiaohe Lin		put_uncharge_info(rg);
a9b3f867SMina Almasry		kfree(rg);
a9b3f867SMina Almasry	}
a9b3f867SMina Almasry}
a9b3f867SMina Almasry
2103cf9cSPeter Xustatic inline long
84448c8eSJakob Koschelhugetlb_resv_map_add(struct resv_map *map, struct list_head *rg, long from,
2103cf9cSPeter Xu		     long to, struct hstate *h, struct hugetlb_cgroup *cg,
2103cf9cSPeter Xu		     long *regions_needed)
2103cf9cSPeter Xu{
2103cf9cSPeter Xu	struct file_region *nrg;
2103cf9cSPeter Xu
2103cf9cSPeter Xu	if (!regions_needed) {
2103cf9cSPeter Xu		nrg = get_file_region_entry_from_cache(map, from, to);
2103cf9cSPeter Xu		record_hugetlb_cgroup_uncharge_info(cg, h, map, nrg);
84448c8eSJakob Koschel		list_add(&nrg->link, rg);
2103cf9cSPeter Xu		coalesce_file_region(map, nrg);
824b8c96SJoshua Hahn	} else {
2103cf9cSPeter Xu		*regions_needed += 1;
824b8c96SJoshua Hahn	}
2103cf9cSPeter Xu
2103cf9cSPeter Xu	return to - from;
2103cf9cSPeter Xu}
2103cf9cSPeter Xu
972a3da3SWei Yang/*
972a3da3SWei Yang * Must be called with resv->lock held.
972a3da3SWei Yang *
972a3da3SWei Yang * Calling this with regions_needed != NULL will count the number of pages
972a3da3SWei Yang * to be added but will not modify the linked list. And regions_needed will
972a3da3SWei Yang * indicate the number of file_regions needed in the cache to carry out to add
972a3da3SWei Yang * the regions for this range.
d75c6af9SMina Almasry */
d75c6af9SMina Almasrystatic long add_reservation_in_range(struct resv_map *resv, long f, long t,
075a61d0SMina Almasry				     struct hugetlb_cgroup *h_cg,
972a3da3SWei Yang				     struct hstate *h, long *regions_needed)
d75c6af9SMina Almasry{
0db9d74eSMina Almasry	long add = 0;
d75c6af9SMina Almasry	struct list_head *head = &resv->regions;
0db9d74eSMina Almasry	long last_accounted_offset = f;
84448c8eSJakob Koschel	struct file_region *iter, *trg = NULL;
84448c8eSJakob Koschel	struct list_head *rg = NULL;
d75c6af9SMina Almasry
0db9d74eSMina Almasry	if (regions_needed)
0db9d74eSMina Almasry		*regions_needed = 0;
d75c6af9SMina Almasry
0db9d74eSMina Almasry	/* In this loop, we essentially handle an entry for the range
84448c8eSJakob Koschel	 * [last_accounted_offset, iter->from), at every iteration, with some
0db9d74eSMina Almasry	 * bounds checking.
0db9d74eSMina Almasry	 */
84448c8eSJakob Koschel	list_for_each_entry_safe(iter, trg, head, link) {
0db9d74eSMina Almasry		/* Skip irrelevant regions that start before our range. */
84448c8eSJakob Koschel		if (iter->from < f) {
0db9d74eSMina Almasry			/* If this region ends after the last accounted offset,
0db9d74eSMina Almasry			 * then we need to update last_accounted_offset.
0db9d74eSMina Almasry			 */
84448c8eSJakob Koschel			if (iter->to > last_accounted_offset)
84448c8eSJakob Koschel				last_accounted_offset = iter->to;
0db9d74eSMina Almasry			continue;
0db9d74eSMina Almasry		}
d75c6af9SMina Almasry
0db9d74eSMina Almasry		/* When we find a region that starts beyond our range, we've
0db9d74eSMina Almasry		 * finished.
0db9d74eSMina Almasry		 */
84448c8eSJakob Koschel		if (iter->from >= t) {
84448c8eSJakob Koschel			rg = iter->link.prev;
d75c6af9SMina Almasry			break;
84448c8eSJakob Koschel		}
d75c6af9SMina Almasry
84448c8eSJakob Koschel		/* Add an entry for last_accounted_offset -> iter->from, and
0db9d74eSMina Almasry		 * update last_accounted_offset.
d75c6af9SMina Almasry		 */
84448c8eSJakob Koschel		if (iter->from > last_accounted_offset)
84448c8eSJakob Koschel			add += hugetlb_resv_map_add(resv, iter->link.prev,
2103cf9cSPeter Xu						    last_accounted_offset,
84448c8eSJakob Koschel						    iter->from, h, h_cg,
2103cf9cSPeter Xu						    regions_needed);
d75c6af9SMina Almasry
84448c8eSJakob Koschel		last_accounted_offset = iter->to;
0db9d74eSMina Almasry	}
0db9d74eSMina Almasry
0db9d74eSMina Almasry	/* Handle the case where our range extends beyond
0db9d74eSMina Almasry	 * last_accounted_offset.
0db9d74eSMina Almasry	 */
84448c8eSJakob Koschel	if (!rg)
84448c8eSJakob Koschel		rg = head->prev;
2103cf9cSPeter Xu	if (last_accounted_offset < t)
2103cf9cSPeter Xu		add += hugetlb_resv_map_add(resv, rg, last_accounted_offset,
2103cf9cSPeter Xu					    t, h, h_cg, regions_needed);
0db9d74eSMina Almasry
0db9d74eSMina Almasry	return add;
0db9d74eSMina Almasry}
0db9d74eSMina Almasry
0db9d74eSMina Almasry/* Must be called with resv->lock acquired. Will drop lock to allocate entries.
0db9d74eSMina Almasry */
0db9d74eSMina Almasrystatic int allocate_file_region_entries(struct resv_map *resv,
0db9d74eSMina Almasry					int regions_needed)
0db9d74eSMina Almasry	__must_hold(&resv->lock)
0db9d74eSMina Almasry{
34665341SMiaohe Lin	LIST_HEAD(allocated_regions);
0db9d74eSMina Almasry	int to_allocate = 0, i = 0;
0db9d74eSMina Almasry	struct file_region *trg = NULL, *rg = NULL;
0db9d74eSMina Almasry
0db9d74eSMina Almasry	VM_BUG_ON(regions_needed < 0);
0db9d74eSMina Almasry
0db9d74eSMina Almasry	/*
0db9d74eSMina Almasry	 * Check for sufficient descriptors in the cache to accommodate
0db9d74eSMina Almasry	 * the number of in progress add operations plus regions_needed.
0db9d74eSMina Almasry	 *
0db9d74eSMina Almasry	 * This is a while loop because when we drop the lock, some other call
0db9d74eSMina Almasry	 * to region_add or region_del may have consumed some region_entries,
0db9d74eSMina Almasry	 * so we keep looping here until we finally have enough entries for
0db9d74eSMina Almasry	 * (adds_in_progress + regions_needed).
0db9d74eSMina Almasry	 */
0db9d74eSMina Almasry	while (resv->region_cache_count <
0db9d74eSMina Almasry	       (resv->adds_in_progress + regions_needed)) {
0db9d74eSMina Almasry		to_allocate = resv->adds_in_progress + regions_needed -
0db9d74eSMina Almasry			      resv->region_cache_count;
0db9d74eSMina Almasry
0db9d74eSMina Almasry		/* At this point, we should have enough entries in the cache
f0953a1bSIngo Molnar		 * for all the existing adds_in_progress. We should only be
0db9d74eSMina Almasry		 * needing to allocate for regions_needed.
0db9d74eSMina Almasry		 */
0db9d74eSMina Almasry		VM_BUG_ON(resv->region_cache_count < resv->adds_in_progress);
0db9d74eSMina Almasry
0db9d74eSMina Almasry		spin_unlock(&resv->lock);
0db9d74eSMina Almasry		for (i = 0; i < to_allocate; i++) {
bf4afc53SLinus Torvalds			trg = kmalloc_obj(*trg);
0db9d74eSMina Almasry			if (!trg)
0db9d74eSMina Almasry				goto out_of_memory;
0db9d74eSMina Almasry			list_add(&trg->link, &allocated_regions);
0db9d74eSMina Almasry		}
0db9d74eSMina Almasry
0db9d74eSMina Almasry		spin_lock(&resv->lock);
0db9d74eSMina Almasry
d3ec7b6eSWei Yang		list_splice(&allocated_regions, &resv->region_cache);
d3ec7b6eSWei Yang		resv->region_cache_count += to_allocate;
0db9d74eSMina Almasry	}
0db9d74eSMina Almasry
0db9d74eSMina Almasry	return 0;
0db9d74eSMina Almasry
0db9d74eSMina Almasryout_of_memory:
0db9d74eSMina Almasry	list_for_each_entry_safe(rg, trg, &allocated_regions, link) {
d75c6af9SMina Almasry		list_del(&rg->link);
d75c6af9SMina Almasry		kfree(rg);
d75c6af9SMina Almasry	}
0db9d74eSMina Almasry	return -ENOMEM;
d75c6af9SMina Almasry}
d75c6af9SMina Almasry
1dd308a7SMike Kravetz/*
1dd308a7SMike Kravetz * Add the huge page range represented by [f, t) to the reserve
0db9d74eSMina Almasry * map.  Regions will be taken from the cache to fill in this range.
0db9d74eSMina Almasry * Sufficient regions should exist in the cache due to the previous
0db9d74eSMina Almasry * call to region_chg with the same range, but in some cases the cache will not
0db9d74eSMina Almasry * have sufficient entries due to races with other code doing region_add or
0db9d74eSMina Almasry * region_del.  The extra needed entries will be allocated.
cf3ad20bSMike Kravetz *
0db9d74eSMina Almasry * regions_needed is the out value provided by a previous call to region_chg.
0db9d74eSMina Almasry *
0db9d74eSMina Almasry * Return the number of new huge pages added to the map.  This number is greater
0db9d74eSMina Almasry * than or equal to zero.  If file_region entries needed to be allocated for
7c8de358SEthon Paul * this operation and we were not able to allocate, it returns -ENOMEM.
0db9d74eSMina Almasry * region_add of regions of length 1 never allocate file_regions and cannot
0db9d74eSMina Almasry * fail; region_chg will always allocate at least 1 entry and a region_add for
0db9d74eSMina Almasry * 1 page will only require at most 1 entry.
1dd308a7SMike Kravetz */
0db9d74eSMina Almasrystatic long region_add(struct resv_map *resv, long f, long t,
075a61d0SMina Almasry		       long in_regions_needed, struct hstate *h,
075a61d0SMina Almasry		       struct hugetlb_cgroup *h_cg)
96822904SAndy Whitcroft{
0db9d74eSMina Almasry	long add = 0, actual_regions_needed = 0;
96822904SAndy Whitcroft
7b24d861SDavidlohr Bueso	spin_lock(&resv->lock);
0db9d74eSMina Almasryretry:
0db9d74eSMina Almasry
0db9d74eSMina Almasry	/* Count how many regions are actually needed to execute this add. */
972a3da3SWei Yang	add_reservation_in_range(resv, f, t, NULL, NULL,
972a3da3SWei Yang				 &actual_regions_needed);
96822904SAndy Whitcroft
5e911373SMike Kravetz	/*
0db9d74eSMina Almasry	 * Check for sufficient descriptors in the cache to accommodate
0db9d74eSMina Almasry	 * this add operation. Note that actual_regions_needed may be greater
0db9d74eSMina Almasry	 * than in_regions_needed, as the resv_map may have been modified since
0db9d74eSMina Almasry	 * the region_chg call. In this case, we need to make sure that we
0db9d74eSMina Almasry	 * allocate extra entries, such that we have enough for all the
0db9d74eSMina Almasry	 * existing adds_in_progress, plus the excess needed for this
0db9d74eSMina Almasry	 * operation.
5e911373SMike Kravetz	 */
0db9d74eSMina Almasry	if (actual_regions_needed > in_regions_needed &&
0db9d74eSMina Almasry	    resv->region_cache_count <
0db9d74eSMina Almasry		    resv->adds_in_progress +
0db9d74eSMina Almasry			    (actual_regions_needed - in_regions_needed)) {
0db9d74eSMina Almasry		/* region_add operation of range 1 should never need to
0db9d74eSMina Almasry		 * allocate file_region entries.
0db9d74eSMina Almasry		 */
0db9d74eSMina Almasry		VM_BUG_ON(t - f <= 1);
5e911373SMike Kravetz
0db9d74eSMina Almasry		if (allocate_file_region_entries(
0db9d74eSMina Almasry			    resv, actual_regions_needed - in_regions_needed)) {
0db9d74eSMina Almasry			return -ENOMEM;
5e911373SMike Kravetz		}
5e911373SMike Kravetz
0db9d74eSMina Almasry		goto retry;
0db9d74eSMina Almasry	}
cf3ad20bSMike Kravetz
972a3da3SWei Yang	add = add_reservation_in_range(resv, f, t, h_cg, h, NULL);
0db9d74eSMina Almasry
0db9d74eSMina Almasry	resv->adds_in_progress -= in_regions_needed;
0db9d74eSMina Almasry
7b24d861SDavidlohr Bueso	spin_unlock(&resv->lock);
cf3ad20bSMike Kravetz	return add;
96822904SAndy Whitcroft}
96822904SAndy Whitcroft
1dd308a7SMike Kravetz/*
1dd308a7SMike Kravetz * Examine the existing reserve map and determine how many
1dd308a7SMike Kravetz * huge pages in the specified range [f, t) are NOT currently
1dd308a7SMike Kravetz * represented.  This routine is called before a subsequent
1dd308a7SMike Kravetz * call to region_add that will actually modify the reserve
1dd308a7SMike Kravetz * map to add the specified range [f, t).  region_chg does
1dd308a7SMike Kravetz * not change the number of huge pages represented by the
0db9d74eSMina Almasry * map.  A number of new file_region structures is added to the cache as a
0db9d74eSMina Almasry * placeholder, for the subsequent region_add call to use. At least 1
0db9d74eSMina Almasry * file_region structure is added.
0db9d74eSMina Almasry *
0db9d74eSMina Almasry * out_regions_needed is the number of regions added to the
0db9d74eSMina Almasry * resv->adds_in_progress.  This value needs to be provided to a follow up call
0db9d74eSMina Almasry * to region_add or region_abort for proper accounting.
5e911373SMike Kravetz *
5e911373SMike Kravetz * Returns the number of huge pages that need to be added to the existing
5e911373SMike Kravetz * reservation map for the range [f, t).  This number is greater or equal to
5e911373SMike Kravetz * zero.  -ENOMEM is returned if a new file_region structure or cache entry
5e911373SMike Kravetz * is needed and can not be allocated.
1dd308a7SMike Kravetz */
0db9d74eSMina Almasrystatic long region_chg(struct resv_map *resv, long f, long t,
0db9d74eSMina Almasry		       long *out_regions_needed)
96822904SAndy Whitcroft{
96822904SAndy Whitcroft	long chg = 0;
96822904SAndy Whitcroft
7b24d861SDavidlohr Bueso	spin_lock(&resv->lock);
5e911373SMike Kravetz
972a3da3SWei Yang	/* Count how many hugepages in this range are NOT represented. */
075a61d0SMina Almasry	chg = add_reservation_in_range(resv, f, t, NULL, NULL,
972a3da3SWei Yang				       out_regions_needed);
5e911373SMike Kravetz
0db9d74eSMina Almasry	if (*out_regions_needed == 0)
0db9d74eSMina Almasry		*out_regions_needed = 1;
5e911373SMike Kravetz
0db9d74eSMina Almasry	if (allocate_file_region_entries(resv, *out_regions_needed))
5e911373SMike Kravetz		return -ENOMEM;
5e911373SMike Kravetz
0db9d74eSMina Almasry	resv->adds_in_progress += *out_regions_needed;
96822904SAndy Whitcroft
7b24d861SDavidlohr Bueso	spin_unlock(&resv->lock);
96822904SAndy Whitcroft	return chg;
96822904SAndy Whitcroft}
96822904SAndy Whitcroft
1dd308a7SMike Kravetz/*
5e911373SMike Kravetz * Abort the in progress add operation.  The adds_in_progress field
5e911373SMike Kravetz * of the resv_map keeps track of the operations in progress between
5e911373SMike Kravetz * calls to region_chg and region_add.  Operations are sometimes
5e911373SMike Kravetz * aborted after the call to region_chg.  In such cases, region_abort
0db9d74eSMina Almasry * is called to decrement the adds_in_progress counter. regions_needed
0db9d74eSMina Almasry * is the value returned by the region_chg call, it is used to decrement
0db9d74eSMina Almasry * the adds_in_progress counter.
5e911373SMike Kravetz *
5e911373SMike Kravetz * NOTE: The range arguments [f, t) are not needed or used in this
5e911373SMike Kravetz * routine.  They are kept to make reading the calling code easier as
5e911373SMike Kravetz * arguments will match the associated region_chg call.
5e911373SMike Kravetz */
0db9d74eSMina Almasrystatic void region_abort(struct resv_map *resv, long f, long t,
0db9d74eSMina Almasry			 long regions_needed)
5e911373SMike Kravetz{
5e911373SMike Kravetz	spin_lock(&resv->lock);
5e911373SMike Kravetz	VM_BUG_ON(!resv->region_cache_count);
0db9d74eSMina Almasry	resv->adds_in_progress -= regions_needed;
5e911373SMike Kravetz	spin_unlock(&resv->lock);
5e911373SMike Kravetz}
5e911373SMike Kravetz
5e911373SMike Kravetz/*
feba16e2SMike Kravetz * Delete the specified range [f, t) from the reserve map.  If the
feba16e2SMike Kravetz * t parameter is LONG_MAX, this indicates that ALL regions after f
feba16e2SMike Kravetz * should be deleted.  Locate the regions which intersect [f, t)
feba16e2SMike Kravetz * and either trim, delete or split the existing regions.
feba16e2SMike Kravetz *
feba16e2SMike Kravetz * Returns the number of huge pages deleted from the reserve map.
feba16e2SMike Kravetz * In the normal case, the return value is zero or more.  In the
feba16e2SMike Kravetz * case where a region must be split, a new region descriptor must
feba16e2SMike Kravetz * be allocated.  If the allocation fails, -ENOMEM will be returned.
feba16e2SMike Kravetz * NOTE: If the parameter t == LONG_MAX, then we will never split
feba16e2SMike Kravetz * a region and possibly return -ENOMEM.  Callers specifying
feba16e2SMike Kravetz * t == LONG_MAX do not need to check for -ENOMEM error.
1dd308a7SMike Kravetz */
feba16e2SMike Kravetzstatic long region_del(struct resv_map *resv, long f, long t)
96822904SAndy Whitcroft{
1406ec9bSJoonsoo Kim	struct list_head *head = &resv->regions;
96822904SAndy Whitcroft	struct file_region *rg, *trg;
feba16e2SMike Kravetz	struct file_region *nrg = NULL;
feba16e2SMike Kravetz	long del = 0;
96822904SAndy Whitcroft
feba16e2SMike Kravetzretry:
7b24d861SDavidlohr Bueso	spin_lock(&resv->lock);
feba16e2SMike Kravetz	list_for_each_entry_safe(rg, trg, head, link) {
dbe409e4SMike Kravetz		/*
dbe409e4SMike Kravetz		 * Skip regions before the range to be deleted.  file_region
dbe409e4SMike Kravetz		 * ranges are normally of the form [from, to).  However, there
dbe409e4SMike Kravetz		 * may be a "placeholder" entry in the map which is of the form
dbe409e4SMike Kravetz		 * (from, to) with from == to.  Check for placeholder entries
dbe409e4SMike Kravetz		 * at the beginning of the range to be deleted.
dbe409e4SMike Kravetz		 */
dbe409e4SMike Kravetz		if (rg->to <= f && (rg->to != rg->from || rg->to != f))
feba16e2SMike Kravetz			continue;
dbe409e4SMike Kravetz
feba16e2SMike Kravetz		if (rg->from >= t)
96822904SAndy Whitcroft			break;
96822904SAndy Whitcroft
feba16e2SMike Kravetz		if (f > rg->from && t < rg->to) { /* Must split region */
feba16e2SMike Kravetz			/*
feba16e2SMike Kravetz			 * Check for an entry in the cache before dropping
feba16e2SMike Kravetz			 * lock and attempting allocation.
feba16e2SMike Kravetz			 */
feba16e2SMike Kravetz			if (!nrg &&
feba16e2SMike Kravetz			    resv->region_cache_count > resv->adds_in_progress) {
feba16e2SMike Kravetz				nrg = list_first_entry(&resv->region_cache,
feba16e2SMike Kravetz							struct file_region,
feba16e2SMike Kravetz							link);
feba16e2SMike Kravetz				list_del(&nrg->link);
feba16e2SMike Kravetz				resv->region_cache_count--;
96822904SAndy Whitcroft			}
96822904SAndy Whitcroft
feba16e2SMike Kravetz			if (!nrg) {
feba16e2SMike Kravetz				spin_unlock(&resv->lock);
bf4afc53SLinus Torvalds				nrg = kmalloc_obj(*nrg);
feba16e2SMike Kravetz				if (!nrg)
feba16e2SMike Kravetz					return -ENOMEM;
feba16e2SMike Kravetz				goto retry;
feba16e2SMike Kravetz			}
feba16e2SMike Kravetz
feba16e2SMike Kravetz			del += t - f;
79aa925bSMike Kravetz			hugetlb_cgroup_uncharge_file_region(
d85aecf2SMiaohe Lin				resv, rg, t - f, false);
feba16e2SMike Kravetz
feba16e2SMike Kravetz			/* New entry for end of split region */
feba16e2SMike Kravetz			nrg->from = t;
feba16e2SMike Kravetz			nrg->to = rg->to;
075a61d0SMina Almasry
075a61d0SMina Almasry			copy_hugetlb_cgroup_uncharge_info(nrg, rg);
075a61d0SMina Almasry
feba16e2SMike Kravetz			INIT_LIST_HEAD(&nrg->link);
feba16e2SMike Kravetz
feba16e2SMike Kravetz			/* Original entry is trimmed */
feba16e2SMike Kravetz			rg->to = f;
feba16e2SMike Kravetz
feba16e2SMike Kravetz			list_add(&nrg->link, &rg->link);
feba16e2SMike Kravetz			nrg = NULL;
96822904SAndy Whitcroft			break;
feba16e2SMike Kravetz		}
feba16e2SMike Kravetz
feba16e2SMike Kravetz		if (f <= rg->from && t >= rg->to) { /* Remove entire region */
feba16e2SMike Kravetz			del += rg->to - rg->from;
075a61d0SMina Almasry			hugetlb_cgroup_uncharge_file_region(resv, rg,
d85aecf2SMiaohe Lin							    rg->to - rg->from, true);
96822904SAndy Whitcroft			list_del(&rg->link);
96822904SAndy Whitcroft			kfree(rg);
feba16e2SMike Kravetz			continue;
96822904SAndy Whitcroft		}
7b24d861SDavidlohr Bueso
feba16e2SMike Kravetz		if (f <= rg->from) {	/* Trim beginning of region */
075a61d0SMina Almasry			hugetlb_cgroup_uncharge_file_region(resv, rg,
d85aecf2SMiaohe Lin							    t - rg->from, false);
075a61d0SMina Almasry
79aa925bSMike Kravetz			del += t - rg->from;
79aa925bSMike Kravetz			rg->from = t;
79aa925bSMike Kravetz		} else {		/* Trim end of region */
075a61d0SMina Almasry			hugetlb_cgroup_uncharge_file_region(resv, rg,
d85aecf2SMiaohe Lin							    rg->to - f, false);
79aa925bSMike Kravetz
79aa925bSMike Kravetz			del += rg->to - f;
79aa925bSMike Kravetz			rg->to = f;
feba16e2SMike Kravetz		}
feba16e2SMike Kravetz	}
feba16e2SMike Kravetz
7b24d861SDavidlohr Bueso	spin_unlock(&resv->lock);
feba16e2SMike Kravetz	kfree(nrg);
feba16e2SMike Kravetz	return del;
96822904SAndy Whitcroft}
96822904SAndy Whitcroft
1dd308a7SMike Kravetz/*
b5cec28dSMike Kravetz * A rare out of memory error was encountered which prevented removal of
b5cec28dSMike Kravetz * the reserve map region for a page.  The huge page itself was free'ed
b5cec28dSMike Kravetz * and removed from the page cache.  This routine will adjust the subpool
b5cec28dSMike Kravetz * usage count, and the global reserve count if needed.  By incrementing
b5cec28dSMike Kravetz * these counts, the reserve map entry which could not be deleted will
b5cec28dSMike Kravetz * appear as a "reserved" entry instead of simply dangling with incorrect
b5cec28dSMike Kravetz * counts.
b5cec28dSMike Kravetz */
72e2936cSzhong jiangvoid hugetlb_fix_reserve_counts(struct inode *inode)
b5cec28dSMike Kravetz{
b5cec28dSMike Kravetz	struct hugepage_subpool *spool = subpool_inode(inode);
b5cec28dSMike Kravetz	long rsv_adjust;
da56388cSMiaohe Lin	bool reserved = false;
b5cec28dSMike Kravetz
b5cec28dSMike Kravetz	rsv_adjust = hugepage_subpool_get_pages(spool, 1);
da56388cSMiaohe Lin	if (rsv_adjust > 0) {
b5cec28dSMike Kravetz		struct hstate *h = hstate_inode(inode);
b5cec28dSMike Kravetz
da56388cSMiaohe Lin		if (!hugetlb_acct_memory(h, 1))
da56388cSMiaohe Lin			reserved = true;
da56388cSMiaohe Lin	} else if (!rsv_adjust) {
da56388cSMiaohe Lin		reserved = true;
b5cec28dSMike Kravetz	}
da56388cSMiaohe Lin
da56388cSMiaohe Lin	if (!reserved)
da56388cSMiaohe Lin		pr_warn("hugetlb: Huge Page Reserved count may go negative.\n");
b5cec28dSMike Kravetz}
b5cec28dSMike Kravetz
b5cec28dSMike Kravetz/*
1dd308a7SMike Kravetz * Count and return the number of huge pages in the reserve map
1dd308a7SMike Kravetz * that intersect with the range [f, t).
1dd308a7SMike Kravetz */
1406ec9bSJoonsoo Kimstatic long region_count(struct resv_map *resv, long f, long t)
84afd99bSAndy Whitcroft{
1406ec9bSJoonsoo Kim	struct list_head *head = &resv->regions;
84afd99bSAndy Whitcroft	struct file_region *rg;
84afd99bSAndy Whitcroft	long chg = 0;
84afd99bSAndy Whitcroft
7b24d861SDavidlohr Bueso	spin_lock(&resv->lock);
84afd99bSAndy Whitcroft	/* Locate each segment we overlap with, and count that overlap. */
84afd99bSAndy Whitcroft	list_for_each_entry(rg, head, link) {
f2135a4aSWang Sheng-Hui		long seg_from;
f2135a4aSWang Sheng-Hui		long seg_to;
84afd99bSAndy Whitcroft
84afd99bSAndy Whitcroft		if (rg->to <= f)
84afd99bSAndy Whitcroft			continue;
84afd99bSAndy Whitcroft		if (rg->from >= t)
84afd99bSAndy Whitcroft			break;
84afd99bSAndy Whitcroft
84afd99bSAndy Whitcroft		seg_from = max(rg->from, f);
84afd99bSAndy Whitcroft		seg_to = min(rg->to, t);
84afd99bSAndy Whitcroft
84afd99bSAndy Whitcroft		chg += seg_to - seg_from;
84afd99bSAndy Whitcroft	}
7b24d861SDavidlohr Bueso	spin_unlock(&resv->lock);
84afd99bSAndy Whitcroft
84afd99bSAndy Whitcroft	return chg;
84afd99bSAndy Whitcroft}
84afd99bSAndy Whitcroft
96822904SAndy Whitcroft/*
e7c4b0bfSAndy Whitcroft * Convert the address within this vma to the page offset within
a08c7193SSidhartha Kumar * the mapping, huge page units here.
e7c4b0bfSAndy Whitcroft */
a5516438SAndi Kleenstatic pgoff_t vma_hugecache_offset(struct hstate *h,
a5516438SAndi Kleen			struct vm_area_struct *vma, unsigned long address)
e7c4b0bfSAndy Whitcroft{
a5516438SAndi Kleen	return ((address - vma->vm_start) >> huge_page_shift(h)) +
a5516438SAndi Kleen			(vma->vm_pgoff >> huge_page_order(h));
e7c4b0bfSAndy Whitcroft}
e7c4b0bfSAndy Whitcroft
3340289dSMel Gorman/*
84afd99bSAndy Whitcroft * Flags for MAP_PRIVATE reservations.  These are stored in the bottom
84afd99bSAndy Whitcroft * bits of the reservation map pointer, which are always clear due to
84afd99bSAndy Whitcroft * alignment.
84afd99bSAndy Whitcroft */
84afd99bSAndy Whitcroft#define HPAGE_RESV_OWNER    (1UL << 0)
84afd99bSAndy Whitcroft#define HPAGE_RESV_UNMAPPED (1UL << 1)
04f2cbe3SMel Gorman#define HPAGE_RESV_MASK (HPAGE_RESV_OWNER | HPAGE_RESV_UNMAPPED)
84afd99bSAndy Whitcroft
a1e78772SMel Gorman/*
a1e78772SMel Gorman * These helpers are used to track how many pages are reserved for
a1e78772SMel Gorman * faults in a MAP_PRIVATE mapping. Only the process that called mmap()
a1e78772SMel Gorman * is guaranteed to have their future faults succeed.
a1e78772SMel Gorman *
8d9bfb26SMike Kravetz * With the exception of hugetlb_dup_vma_private() which is called at fork(),
a1e78772SMel Gorman * the reserve counters are updated with the hugetlb_lock held. It is safe
a1e78772SMel Gorman * to reset the VMA at fork() time as it is not in use yet and there is no
a1e78772SMel Gorman * chance of the global counters getting corrupted as a result of the values.
84afd99bSAndy Whitcroft *
84afd99bSAndy Whitcroft * The private mapping reservation is represented in a subtly different
84afd99bSAndy Whitcroft * manner to a shared mapping.  A shared mapping has a region map associated
84afd99bSAndy Whitcroft * with the underlying file, this region map represents the backing file
84afd99bSAndy Whitcroft * pages which have ever had a reservation assigned which this persists even
84afd99bSAndy Whitcroft * after the page is instantiated.  A private mapping has a region map
84afd99bSAndy Whitcroft * associated with the original mmap which is attached to all VMAs which
84afd99bSAndy Whitcroft * reference it, this region map represents those offsets which have consumed
84afd99bSAndy Whitcroft * reservation ie. where pages have been instantiated.
a1e78772SMel Gorman */
e7c4b0bfSAndy Whitcroftstatic unsigned long get_vma_private_data(struct vm_area_struct *vma)
e7c4b0bfSAndy Whitcroft{
e7c4b0bfSAndy Whitcroft	return (unsigned long)vma->vm_private_data;
e7c4b0bfSAndy Whitcroft}
e7c4b0bfSAndy Whitcroft
e7c4b0bfSAndy Whitcroftstatic void set_vma_private_data(struct vm_area_struct *vma,
e7c4b0bfSAndy Whitcroft							unsigned long value)
e7c4b0bfSAndy Whitcroft{
e7c4b0bfSAndy Whitcroft	vma->vm_private_data = (void *)value;
e7c4b0bfSAndy Whitcroft}
e7c4b0bfSAndy Whitcroft
e9fe92aeSMina Almasrystatic void
e9fe92aeSMina Almasryresv_map_set_hugetlb_cgroup_uncharge_info(struct resv_map *resv_map,
e9fe92aeSMina Almasry					  struct hugetlb_cgroup *h_cg,
e9fe92aeSMina Almasry					  struct hstate *h)
e9fe92aeSMina Almasry{
e9fe92aeSMina Almasry#ifdef CONFIG_CGROUP_HUGETLB
e9fe92aeSMina Almasry	if (!h_cg || !h) {
e9fe92aeSMina Almasry		resv_map->reservation_counter = NULL;
e9fe92aeSMina Almasry		resv_map->pages_per_hpage = 0;
e9fe92aeSMina Almasry		resv_map->css = NULL;
e9fe92aeSMina Almasry	} else {
e9fe92aeSMina Almasry		resv_map->reservation_counter =
e9fe92aeSMina Almasry			&h_cg->rsvd_hugepage[hstate_index(h)];
e9fe92aeSMina Almasry		resv_map->pages_per_hpage = pages_per_huge_page(h);
e9fe92aeSMina Almasry		resv_map->css = &h_cg->css;
e9fe92aeSMina Almasry	}
e9fe92aeSMina Almasry#endif
e9fe92aeSMina Almasry}
e9fe92aeSMina Almasry
9119a41eSJoonsoo Kimstruct resv_map *resv_map_alloc(void)
84afd99bSAndy Whitcroft{
bf4afc53SLinus Torvalds	struct resv_map *resv_map = kmalloc_obj(*resv_map);
bf4afc53SLinus Torvalds	struct file_region *rg = kmalloc_obj(*rg);
5e911373SMike Kravetz
5e911373SMike Kravetz	if (!resv_map || !rg) {
5e911373SMike Kravetz		kfree(resv_map);
5e911373SMike Kravetz		kfree(rg);
84afd99bSAndy Whitcroft		return NULL;
5e911373SMike Kravetz	}
84afd99bSAndy Whitcroft
84afd99bSAndy Whitcroft	kref_init(&resv_map->refs);
7b24d861SDavidlohr Bueso	spin_lock_init(&resv_map->lock);
84afd99bSAndy Whitcroft	INIT_LIST_HEAD(&resv_map->regions);
bf491692SRik van Riel	init_rwsem(&resv_map->rw_sema);
84afd99bSAndy Whitcroft
5e911373SMike Kravetz	resv_map->adds_in_progress = 0;
e9fe92aeSMina Almasry	/*
e9fe92aeSMina Almasry	 * Initialize these to 0. On shared mappings, 0's here indicate these
e9fe92aeSMina Almasry	 * fields don't do cgroup accounting. On private mappings, these will be
e9fe92aeSMina Almasry	 * re-initialized to the proper values, to indicate that hugetlb cgroup
e9fe92aeSMina Almasry	 * reservations are to be un-charged from here.
e9fe92aeSMina Almasry	 */
e9fe92aeSMina Almasry	resv_map_set_hugetlb_cgroup_uncharge_info(resv_map, NULL, NULL);
5e911373SMike Kravetz
5e911373SMike Kravetz	INIT_LIST_HEAD(&resv_map->region_cache);
5e911373SMike Kravetz	list_add(&rg->link, &resv_map->region_cache);
5e911373SMike Kravetz	resv_map->region_cache_count = 1;
5e911373SMike Kravetz
84afd99bSAndy Whitcroft	return resv_map;
84afd99bSAndy Whitcroft}
84afd99bSAndy Whitcroft
9119a41eSJoonsoo Kimvoid resv_map_release(struct kref *ref)
84afd99bSAndy Whitcroft{
84afd99bSAndy Whitcroft	struct resv_map *resv_map = container_of(ref, struct resv_map, refs);
5e911373SMike Kravetz	struct list_head *head = &resv_map->region_cache;
5e911373SMike Kravetz	struct file_region *rg, *trg;
84afd99bSAndy Whitcroft
84afd99bSAndy Whitcroft	/* Clear out any active regions before we release the map. */
feba16e2SMike Kravetz	region_del(resv_map, 0, LONG_MAX);
5e911373SMike Kravetz
5e911373SMike Kravetz	/* ... and any entries left in the cache */
5e911373SMike Kravetz	list_for_each_entry_safe(rg, trg, head, link) {
5e911373SMike Kravetz		list_del(&rg->link);
5e911373SMike Kravetz		kfree(rg);
5e911373SMike Kravetz	}
5e911373SMike Kravetz
5e911373SMike Kravetz	VM_BUG_ON(resv_map->adds_in_progress);
5e911373SMike Kravetz
84afd99bSAndy Whitcroft	kfree(resv_map);
84afd99bSAndy Whitcroft}
84afd99bSAndy Whitcroft
4e35f483SJoonsoo Kimstatic inline struct resv_map *inode_resv_map(struct inode *inode)
4e35f483SJoonsoo Kim{
2811f2a8SJan Kara	return HUGETLBFS_I(inode)->resv_map;
4e35f483SJoonsoo Kim}
4e35f483SJoonsoo Kim
84afd99bSAndy Whitcroftstatic struct resv_map *vma_resv_map(struct vm_area_struct *vma)
a1e78772SMel Gorman{
81d1b09cSSasha Levin	VM_BUG_ON_VMA(!is_vm_hugetlb_page(vma), vma);
4e35f483SJoonsoo Kim	if (vma->vm_flags & VM_MAYSHARE) {
4e35f483SJoonsoo Kim		struct address_space *mapping = vma->vm_file->f_mapping;
4e35f483SJoonsoo Kim		struct inode *inode = mapping->host;
4e35f483SJoonsoo Kim
4e35f483SJoonsoo Kim		return inode_resv_map(inode);
4e35f483SJoonsoo Kim
4e35f483SJoonsoo Kim	} else {
84afd99bSAndy Whitcroft		return (struct resv_map *)(get_vma_private_data(vma) &
84afd99bSAndy Whitcroft							~HPAGE_RESV_MASK);
4e35f483SJoonsoo Kim	}
a1e78772SMel Gorman}
a1e78772SMel Gorman
04f2cbe3SMel Gormanstatic void set_vma_resv_flags(struct vm_area_struct *vma, unsigned long flags)
04f2cbe3SMel Gorman{
ea52cb24SLorenzo Stoakes	VM_WARN_ON_ONCE_VMA(!is_vm_hugetlb_page(vma), vma);
ea52cb24SLorenzo Stoakes	VM_WARN_ON_ONCE_VMA(vma->vm_flags & VM_MAYSHARE, vma);
e7c4b0bfSAndy Whitcroft
e7c4b0bfSAndy Whitcroft	set_vma_private_data(vma, get_vma_private_data(vma) | flags);
04f2cbe3SMel Gorman}
04f2cbe3SMel Gorman
ea52cb24SLorenzo Stoakesstatic void set_vma_desc_resv_map(struct vm_area_desc *desc, struct resv_map *map)
ea52cb24SLorenzo Stoakes{
097e8db5SLorenzo Stoakes	VM_WARN_ON_ONCE(!is_vma_hugetlb_flags(&desc->vma_flags));
0c2aa663SLorenzo Stoakes (Oracle)	VM_WARN_ON_ONCE(vma_desc_test(desc, VMA_MAYSHARE_BIT));
ea52cb24SLorenzo Stoakes
ea52cb24SLorenzo Stoakes	desc->private_data = map;
ea52cb24SLorenzo Stoakes}
ea52cb24SLorenzo Stoakes
ea52cb24SLorenzo Stoakesstatic void set_vma_desc_resv_flags(struct vm_area_desc *desc, unsigned long flags)
ea52cb24SLorenzo Stoakes{
097e8db5SLorenzo Stoakes	VM_WARN_ON_ONCE(!is_vma_hugetlb_flags(&desc->vma_flags));
0c2aa663SLorenzo Stoakes (Oracle)	VM_WARN_ON_ONCE(vma_desc_test(desc, VMA_MAYSHARE_BIT));
ea52cb24SLorenzo Stoakes
ea52cb24SLorenzo Stoakes	desc->private_data = (void *)((unsigned long)desc->private_data | flags);
ea52cb24SLorenzo Stoakes}
ea52cb24SLorenzo Stoakes
04f2cbe3SMel Gormanstatic int is_vma_resv_set(struct vm_area_struct *vma, unsigned long flag)
04f2cbe3SMel Gorman{
81d1b09cSSasha Levin	VM_BUG_ON_VMA(!is_vm_hugetlb_page(vma), vma);
e7c4b0bfSAndy Whitcroft
e7c4b0bfSAndy Whitcroft	return (get_vma_private_data(vma) & flag) != 0;
a1e78772SMel Gorman}
a1e78772SMel Gorman
ea52cb24SLorenzo Stoakesstatic bool is_vma_desc_resv_set(struct vm_area_desc *desc, unsigned long flag)
ea52cb24SLorenzo Stoakes{
097e8db5SLorenzo Stoakes	VM_WARN_ON_ONCE(!is_vma_hugetlb_flags(&desc->vma_flags));
ea52cb24SLorenzo Stoakes
ea52cb24SLorenzo Stoakes	return ((unsigned long)desc->private_data) & flag;
ea52cb24SLorenzo Stoakes}
ea52cb24SLorenzo Stoakes
187da0f8SMike Kravetzbool __vma_private_lock(struct vm_area_struct *vma)
187da0f8SMike Kravetz{
187da0f8SMike Kravetz	return !(vma->vm_flags & VM_MAYSHARE) &&
187da0f8SMike Kravetz		get_vma_private_data(vma) & ~HPAGE_RESV_MASK &&
187da0f8SMike Kravetz		is_vma_resv_set(vma, HPAGE_RESV_OWNER);
187da0f8SMike Kravetz}
187da0f8SMike Kravetz
8d9bfb26SMike Kravetzvoid hugetlb_dup_vma_private(struct vm_area_struct *vma)
a1e78772SMel Gorman{
81d1b09cSSasha Levin	VM_BUG_ON_VMA(!is_vm_hugetlb_page(vma), vma);
8d9bfb26SMike Kravetz	/*
8d9bfb26SMike Kravetz	 * Clear vm_private_data
612b8a31SMike Kravetz	 * - For shared mappings this is a per-vma semaphore that may be
612b8a31SMike Kravetz	 *   allocated in a subsequent call to hugetlb_vm_op_open.
612b8a31SMike Kravetz	 *   Before clearing, make sure pointer is not associated with vma
612b8a31SMike Kravetz	 *   as this will leak the structure.  This is the case when called
612b8a31SMike Kravetz	 *   via clear_vma_resv_huge_pages() and hugetlb_vm_op_open has already
612b8a31SMike Kravetz	 *   been called to allocate a new structure.
8d9bfb26SMike Kravetz	 * - For MAP_PRIVATE mappings, this is the reserve map which does
8d9bfb26SMike Kravetz	 *   not apply to children.  Faults generated by the children are
8d9bfb26SMike Kravetz	 *   not guaranteed to succeed, even if read-only.
8d9bfb26SMike Kravetz	 */
612b8a31SMike Kravetz	if (vma->vm_flags & VM_MAYSHARE) {
612b8a31SMike Kravetz		struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
612b8a31SMike Kravetz
612b8a31SMike Kravetz		if (vma_lock && vma_lock->vma != vma)
612b8a31SMike Kravetz			vma->vm_private_data = NULL;
824b8c96SJoshua Hahn	} else {
612b8a31SMike Kravetz		vma->vm_private_data = NULL;
a1e78772SMel Gorman	}
824b8c96SJoshua Hahn}
a1e78772SMel Gorman
550a7d60SMina Almasry/*
550a7d60SMina Almasry * Reset and decrement one ref on hugepage private reservation.
8651a137SLorenzo Stoakes * Called with mm->mmap_lock writer semaphore held.
ee40c992SRicardo Cañuelo Navarro * This function should be only used by mremap and operate on
550a7d60SMina Almasry * same sized vma. It should never come here with last ref on the
550a7d60SMina Almasry * reservation.
550a7d60SMina Almasry */
550a7d60SMina Almasryvoid clear_vma_resv_huge_pages(struct vm_area_struct *vma)
550a7d60SMina Almasry{
550a7d60SMina Almasry	/*
550a7d60SMina Almasry	 * Clear the old hugetlb private page reservation.
550a7d60SMina Almasry	 * It has already been transferred to new_vma.
550a7d60SMina Almasry	 *
550a7d60SMina Almasry	 * During a mremap() operation of a hugetlb vma we call move_vma()
550a7d60SMina Almasry	 * which copies vma into new_vma and unmaps vma. After the copy
550a7d60SMina Almasry	 * operation both new_vma and vma share a reference to the resv_map
550a7d60SMina Almasry	 * struct, and at that point vma is about to be unmapped. We don't
550a7d60SMina Almasry	 * want to return the reservation to the pool at unmap of vma because
550a7d60SMina Almasry	 * the reservation still lives on in new_vma, so simply decrement the
550a7d60SMina Almasry	 * ref here and remove the resv_map reference from this vma.
550a7d60SMina Almasry	 */
550a7d60SMina Almasry	struct resv_map *reservations = vma_resv_map(vma);
550a7d60SMina Almasry
afe041c2SBui Quang Minh	if (reservations && is_vma_resv_set(vma, HPAGE_RESV_OWNER)) {
afe041c2SBui Quang Minh		resv_map_put_hugetlb_cgroup_uncharge_info(reservations);
550a7d60SMina Almasry		kref_put(&reservations->refs, resv_map_release);
afe041c2SBui Quang Minh	}
550a7d60SMina Almasry
8d9bfb26SMike Kravetz	hugetlb_dup_vma_private(vma);
550a7d60SMina Almasry}
550a7d60SMina Almasry
240d67a8SSidhartha Kumarstatic void enqueue_hugetlb_folio(struct hstate *h, struct folio *folio)
1da177e4SLinus Torvalds{
240d67a8SSidhartha Kumar	int nid = folio_nid(folio);
9487ca60SMike Kravetz
9487ca60SMike Kravetz	lockdep_assert_held(&hugetlb_lock);
240d67a8SSidhartha Kumar	VM_BUG_ON_FOLIO(folio_ref_count(folio), folio);
b65a4edaSMike Kravetz
240d67a8SSidhartha Kumar	list_move(&folio->lru, &h->hugepage_freelists[nid]);
a5516438SAndi Kleen	h->free_huge_pages++;
a5516438SAndi Kleen	h->free_huge_pages_node[nid]++;
240d67a8SSidhartha Kumar	folio_set_hugetlb_freed(folio);
1da177e4SLinus Torvalds}
1da177e4SLinus Torvalds
a36f1e90SSidhartha Kumarstatic struct folio *dequeue_hugetlb_folio_node_exact(struct hstate *h,
a36f1e90SSidhartha Kumar								int nid)
bf50bab2SNaoya Horiguchi{
a36f1e90SSidhartha Kumar	struct folio *folio;
1a08ae36SPavel Tatashin	bool pin = !!(current->flags & PF_MEMALLOC_PIN);
bf50bab2SNaoya Horiguchi
9487ca60SMike Kravetz	lockdep_assert_held(&hugetlb_lock);
a36f1e90SSidhartha Kumar	list_for_each_entry(folio, &h->hugepage_freelists[nid], lru) {
a36f1e90SSidhartha Kumar		if (pin && !folio_is_longterm_pinnable(folio))
bbe88753SJoonsoo Kim			continue;
bbe88753SJoonsoo Kim
a36f1e90SSidhartha Kumar		if (folio_test_hwpoison(folio))
6664bfc8SWei Yang			continue;
bbe88753SJoonsoo Kim
04f13d24Syangge		if (is_migrate_isolate_page(&folio->page))
04f13d24Syangge			continue;
04f13d24Syangge
a36f1e90SSidhartha Kumar		list_move(&folio->lru, &h->hugepage_activelist);
a36f1e90SSidhartha Kumar		folio_ref_unfreeze(folio, 1);
a36f1e90SSidhartha Kumar		folio_clear_hugetlb_freed(folio);
bf50bab2SNaoya Horiguchi		h->free_huge_pages--;
bf50bab2SNaoya Horiguchi		h->free_huge_pages_node[nid]--;
a36f1e90SSidhartha Kumar		return folio;
bf50bab2SNaoya Horiguchi	}
bf50bab2SNaoya Horiguchi
6664bfc8SWei Yang	return NULL;
6664bfc8SWei Yang}
6664bfc8SWei Yang
a36f1e90SSidhartha Kumarstatic struct folio *dequeue_hugetlb_folio_nodemask(struct hstate *h, gfp_t gfp_mask,
a36f1e90SSidhartha Kumar							int nid, nodemask_t *nmask)
94310cbcSAnshuman Khandual{
3e59fcb0SMichal Hocko	unsigned int cpuset_mems_cookie;
3e59fcb0SMichal Hocko	struct zonelist *zonelist;
3e59fcb0SMichal Hocko	struct zone *zone;
3e59fcb0SMichal Hocko	struct zoneref *z;
98fa15f3SAnshuman Khandual	int node = NUMA_NO_NODE;
3e59fcb0SMichal Hocko
09a53362SOscar Salvador	/* 'nid' should not be NUMA_NO_NODE. Try to catch any misuse of it and rectifiy. */
09a53362SOscar Salvador	if (nid == NUMA_NO_NODE)
09a53362SOscar Salvador		nid = numa_node_id();
09a53362SOscar Salvador
3e59fcb0SMichal Hocko	zonelist = node_zonelist(nid, gfp_mask);
3e59fcb0SMichal Hocko
3e59fcb0SMichal Hockoretry_cpuset:
3e59fcb0SMichal Hocko	cpuset_mems_cookie = read_mems_allowed_begin();
3e59fcb0SMichal Hocko	for_each_zone_zonelist_nodemask(zone, z, zonelist, gfp_zone(gfp_mask), nmask) {
a36f1e90SSidhartha Kumar		struct folio *folio;
94310cbcSAnshuman Khandual
3e59fcb0SMichal Hocko		if (!cpuset_zone_allowed(zone, gfp_mask))
3e59fcb0SMichal Hocko			continue;
3e59fcb0SMichal Hocko		/*
3e59fcb0SMichal Hocko		 * no need to ask again on the same node. Pool is node rather than
3e59fcb0SMichal Hocko		 * zone aware
3e59fcb0SMichal Hocko		 */
3e59fcb0SMichal Hocko		if (zone_to_nid(zone) == node)
3e59fcb0SMichal Hocko			continue;
3e59fcb0SMichal Hocko		node = zone_to_nid(zone);
94310cbcSAnshuman Khandual
a36f1e90SSidhartha Kumar		folio = dequeue_hugetlb_folio_node_exact(h, node);
a36f1e90SSidhartha Kumar		if (folio)
a36f1e90SSidhartha Kumar			return folio;
94310cbcSAnshuman Khandual	}
3e59fcb0SMichal Hocko	if (unlikely(read_mems_allowed_retry(cpuset_mems_cookie)))
3e59fcb0SMichal Hocko		goto retry_cpuset;
3e59fcb0SMichal Hocko
94310cbcSAnshuman Khandual	return NULL;
94310cbcSAnshuman Khandual}
94310cbcSAnshuman Khandual
8346d69dSXin Haostatic unsigned long available_huge_pages(struct hstate *h)
8346d69dSXin Hao{
8346d69dSXin Hao	return h->free_huge_pages - h->resv_huge_pages;
8346d69dSXin Hao}
8346d69dSXin Hao
ff7d853bSSidhartha Kumarstatic struct folio *dequeue_hugetlb_folio_vma(struct hstate *h,
a5516438SAndi Kleen				struct vm_area_struct *vma,
72d8f726SPeter Xu				unsigned long address, long gbl_chg)
1da177e4SLinus Torvalds{
a36f1e90SSidhartha Kumar	struct folio *folio = NULL;
480eccf9SLee Schermerhorn	struct mempolicy *mpol;
04ec6264SVlastimil Babka	gfp_t gfp_mask;
3e59fcb0SMichal Hocko	nodemask_t *nodemask;
04ec6264SVlastimil Babka	int nid;
1da177e4SLinus Torvalds
a1e78772SMel Gorman	/*
72d8f726SPeter Xu	 * gbl_chg==1 means the allocation requires a new page that was not
72d8f726SPeter Xu	 * reserved before.  Making sure there's at least one free page.
a1e78772SMel Gorman	 */
72d8f726SPeter Xu	if (gbl_chg && !available_huge_pages(h))
c0ff7453SMiao Xie		goto err;
a1e78772SMel Gorman
04ec6264SVlastimil Babka	gfp_mask = htlb_alloc_mask(h);
04ec6264SVlastimil Babka	nid = huge_node(vma, address, gfp_mask, &mpol, &nodemask);
cfcaa66fSBen Widawsky
cfcaa66fSBen Widawsky	if (mpol_is_preferred_many(mpol)) {
a36f1e90SSidhartha Kumar		folio = dequeue_hugetlb_folio_nodemask(h, gfp_mask,
a36f1e90SSidhartha Kumar							nid, nodemask);
cfcaa66fSBen Widawsky
cfcaa66fSBen Widawsky		/* Fallback to all nodes if page==NULL */
cfcaa66fSBen Widawsky		nodemask = NULL;
cfcaa66fSBen Widawsky	}
cfcaa66fSBen Widawsky
a36f1e90SSidhartha Kumar	if (!folio)
a36f1e90SSidhartha Kumar		folio = dequeue_hugetlb_folio_nodemask(h, gfp_mask,
a36f1e90SSidhartha Kumar							nid, nodemask);
cfcaa66fSBen Widawsky
cc9a6c87SMel Gorman	mpol_cond_put(mpol);
ff7d853bSSidhartha Kumar	return folio;
cc9a6c87SMel Gorman
c0ff7453SMiao Xieerr:
cc9a6c87SMel Gorman	return NULL;
1da177e4SLinus Torvalds}
1da177e4SLinus Torvalds
14f27076SKefeng Wang#if defined(CONFIG_ARCH_HAS_GIGANTIC_PAGE) && defined(CONFIG_CONTIG_ALLOC)
14f27076SKefeng Wangstatic struct folio *alloc_gigantic_frozen_folio(int order, gfp_t gfp_mask,
d9cc948fSMichal Hocko		int nid, nodemask_t *nodemask)
944d9fecSLuiz Capitulino{
cf54f310SYu Zhao	struct folio *folio;
cf54f310SYu Zhao
14f27076SKefeng Wang	folio = hugetlb_cma_alloc_frozen_folio(order, gfp_mask, nid, nodemask);
14f27076SKefeng Wang	if (folio)
14f27076SKefeng Wang		return folio;
e0c13267SKefeng Wang
474fe91fSFrank van der Linden	if (hugetlb_cma_exclusive_alloc())
f866cfceSFrank van der Linden		return NULL;
f866cfceSFrank van der Linden
14f27076SKefeng Wang	folio = (struct folio *)alloc_contig_frozen_pages(1 << order, gfp_mask,
14f27076SKefeng Wang							  nid, nodemask);
cf54f310SYu Zhao	return folio;
cf54f310SYu Zhao}
14f27076SKefeng Wang#else /* !CONFIG_ARCH_HAS_GIGANTIC_PAGE || !CONFIG_CONTIG_ALLOC */
14f27076SKefeng Wangstatic struct folio *alloc_gigantic_frozen_folio(int order, gfp_t gfp_mask, int nid,
4a25f995SKefeng Wang					  nodemask_t *nodemask)
4eb0716eSAlexandre Ghiti{
4eb0716eSAlexandre Ghiti	return NULL;
4eb0716eSAlexandre Ghiti}
944d9fecSLuiz Capitulino#endif
944d9fecSLuiz Capitulino
32c87719SMike Kravetz/*
32c87719SMike Kravetz * Remove hugetlb folio from lists.
42a346b4SMatthew Wilcox (Oracle) * If vmemmap exists for the folio, clear the hugetlb flag so that the
42a346b4SMatthew Wilcox (Oracle) * folio appears as just a compound page.  Otherwise, wait until after
42a346b4SMatthew Wilcox (Oracle) * allocating vmemmap to clear the flag.
34d9e35bSMike Kravetz *
6eb4e88aSMike Kravetz * Must be called with hugetlb lock held.
6eb4e88aSMike Kravetz */
ecd6703fSHui Zhuvoid remove_hugetlb_folio(struct hstate *h, struct folio *folio,
bd225530SYu Zhao			  bool adjust_surplus)
6eb4e88aSMike Kravetz{
cfd5082bSSidhartha Kumar	int nid = folio_nid(folio);
6eb4e88aSMike Kravetz
f074732dSSidhartha Kumar	VM_BUG_ON_FOLIO(hugetlb_cgroup_from_folio(folio), folio);
f074732dSSidhartha Kumar	VM_BUG_ON_FOLIO(hugetlb_cgroup_from_folio_rsvd(folio), folio);
6eb4e88aSMike Kravetz
9487ca60SMike Kravetz	lockdep_assert_held(&hugetlb_lock);
a743e0afSUsama Arif	if (hstate_is_gigantic_no_runtime(h))
6eb4e88aSMike Kravetz		return;
6eb4e88aSMike Kravetz
cfd5082bSSidhartha Kumar	list_del(&folio->lru);
6eb4e88aSMike Kravetz
cfd5082bSSidhartha Kumar	if (folio_test_hugetlb_freed(folio)) {
bd225530SYu Zhao		folio_clear_hugetlb_freed(folio);
6eb4e88aSMike Kravetz		h->free_huge_pages--;
6eb4e88aSMike Kravetz		h->free_huge_pages_node[nid]--;
6eb4e88aSMike Kravetz	}
6eb4e88aSMike Kravetz	if (adjust_surplus) {
6eb4e88aSMike Kravetz		h->surplus_huge_pages--;
6eb4e88aSMike Kravetz		h->surplus_huge_pages_node[nid]--;
6eb4e88aSMike Kravetz	}
6eb4e88aSMike Kravetz
e32d20c0SMike Kravetz	/*
42a346b4SMatthew Wilcox (Oracle)	 * We can only clear the hugetlb flag after allocating vmemmap
32c87719SMike Kravetz	 * pages.  Otherwise, someone (memory error handling) may try to write
32c87719SMike Kravetz	 * to tail struct pages.
32c87719SMike Kravetz	 */
32c87719SMike Kravetz	if (!folio_test_hugetlb_vmemmap_optimized(folio))
42a346b4SMatthew Wilcox (Oracle)		__folio_clear_hugetlb(folio);
32c87719SMike Kravetz
6eb4e88aSMike Kravetz	h->nr_huge_pages--;
6eb4e88aSMike Kravetz	h->nr_huge_pages_node[nid]--;
6eb4e88aSMike Kravetz}
6eb4e88aSMike Kravetz
ecd6703fSHui Zhuvoid add_hugetlb_folio(struct hstate *h, struct folio *folio,
ad2fa371SMuchun Song		       bool adjust_surplus)
ad2fa371SMuchun Song{
2f6c57d6SSidhartha Kumar	int nid = folio_nid(folio);
ad2fa371SMuchun Song
2f6c57d6SSidhartha Kumar	VM_BUG_ON_FOLIO(!folio_test_hugetlb_vmemmap_optimized(folio), folio);
ad2fa371SMuchun Song
ad2fa371SMuchun Song	lockdep_assert_held(&hugetlb_lock);
ad2fa371SMuchun Song
2f6c57d6SSidhartha Kumar	INIT_LIST_HEAD(&folio->lru);
ad2fa371SMuchun Song	h->nr_huge_pages++;
ad2fa371SMuchun Song	h->nr_huge_pages_node[nid]++;
ad2fa371SMuchun Song
ad2fa371SMuchun Song	if (adjust_surplus) {
ad2fa371SMuchun Song		h->surplus_huge_pages++;
ad2fa371SMuchun Song		h->surplus_huge_pages_node[nid]++;
ad2fa371SMuchun Song	}
ad2fa371SMuchun Song
d99e3140SMatthew Wilcox (Oracle)	__folio_set_hugetlb(folio);
2f6c57d6SSidhartha Kumar	folio_change_private(folio, NULL);
a9e1eab2SMiaohe Lin	/*
2f6c57d6SSidhartha Kumar	 * We have to set hugetlb_vmemmap_optimized again as above
2f6c57d6SSidhartha Kumar	 * folio_change_private(folio, NULL) cleared it.
a9e1eab2SMiaohe Lin	 */
2f6c57d6SSidhartha Kumar	folio_set_hugetlb_vmemmap_optimized(folio);
ad2fa371SMuchun Song
51718e25SMatthew Wilcox (Oracle)	arch_clear_hugetlb_flags(folio);
240d67a8SSidhartha Kumar	enqueue_hugetlb_folio(h, folio);
ad2fa371SMuchun Song}
ad2fa371SMuchun Song
6f6956cfSSidhartha Kumarstatic void __update_and_free_hugetlb_folio(struct hstate *h,
6f6956cfSSidhartha Kumar						struct folio *folio)
6af2acb6SAdam Litke{
42a346b4SMatthew Wilcox (Oracle)	bool clear_flag = folio_test_hugetlb_vmemmap_optimized(folio);
a5516438SAndi Kleen
a743e0afSUsama Arif	if (hstate_is_gigantic_no_runtime(h))
944d9fecSLuiz Capitulino		return;
18229df5SAndy Whitcroft
161df60eSNaoya Horiguchi	/*
161df60eSNaoya Horiguchi	 * If we don't know which subpages are hwpoisoned, we can't free
161df60eSNaoya Horiguchi	 * the hugepage, so it's leaked intentionally.
161df60eSNaoya Horiguchi	 */
7f325a8dSSidhartha Kumar	if (folio_test_hugetlb_raw_hwp_unreliable(folio))
161df60eSNaoya Horiguchi		return;
161df60eSNaoya Horiguchi
d8f5f7e4SMike Kravetz	/*
42a346b4SMatthew Wilcox (Oracle)	 * If folio is not vmemmap optimized (!clear_flag), then the folio
c5ad3233SUsama Arif	 * is no longer identified as a hugetlb page.  hugetlb_vmemmap_restore_folio
d8f5f7e4SMike Kravetz	 * can only be passed hugetlb pages and will BUG otherwise.
d8f5f7e4SMike Kravetz	 */
42a346b4SMatthew Wilcox (Oracle)	if (clear_flag && hugetlb_vmemmap_restore_folio(h, folio)) {
ad2fa371SMuchun Song		spin_lock_irq(&hugetlb_lock);
ad2fa371SMuchun Song		/*
ad2fa371SMuchun Song		 * If we cannot allocate vmemmap pages, just refuse to free the
ad2fa371SMuchun Song		 * page and put the page back on the hugetlb free list and treat
ad2fa371SMuchun Song		 * as a surplus page.
ad2fa371SMuchun Song		 */
7f325a8dSSidhartha Kumar		add_hugetlb_folio(h, folio, true);
ad2fa371SMuchun Song		spin_unlock_irq(&hugetlb_lock);
ad2fa371SMuchun Song		return;
ad2fa371SMuchun Song	}
ad2fa371SMuchun Song
161df60eSNaoya Horiguchi	/*
32c87719SMike Kravetz	 * If vmemmap pages were allocated above, then we need to clear the
42a346b4SMatthew Wilcox (Oracle)	 * hugetlb flag under the hugetlb lock.
32c87719SMike Kravetz	 */
52ccdde1SMiaohe Lin	if (folio_test_hugetlb(folio)) {
32c87719SMike Kravetz		spin_lock_irq(&hugetlb_lock);
42a346b4SMatthew Wilcox (Oracle)		__folio_clear_hugetlb(folio);
32c87719SMike Kravetz		spin_unlock_irq(&hugetlb_lock);
32c87719SMike Kravetz	}
32c87719SMike Kravetz
5596d9e8SMiaohe Lin	/*
5596d9e8SMiaohe Lin	 * Move PageHWPoison flag from head page to the raw error pages,
5596d9e8SMiaohe Lin	 * which makes any healthy subpages reusable.
5596d9e8SMiaohe Lin	 */
5596d9e8SMiaohe Lin	if (unlikely(folio_test_hwpoison(folio)))
5596d9e8SMiaohe Lin		folio_clear_hugetlb_hwpoison(folio);
5596d9e8SMiaohe Lin
14f27076SKefeng Wang	VM_BUG_ON_FOLIO(folio_ref_count(folio), folio);
14f27076SKefeng Wang	if (folio_test_hugetlb_cma(folio))
14f27076SKefeng Wang		hugetlb_cma_free_frozen_folio(folio);
14f27076SKefeng Wang	else
14f27076SKefeng Wang		free_frozen_pages(&folio->page, folio_order(folio));
944d9fecSLuiz Capitulino}
6af2acb6SAdam Litke
b65d4adbSMuchun Song/*
d6ef19e2SSidhartha Kumar * As update_and_free_hugetlb_folio() can be called under any context, so we cannot
b65d4adbSMuchun Song * use GFP_KERNEL to allocate vmemmap pages. However, we can defer the
b65d4adbSMuchun Song * actual freeing in a workqueue to prevent from using GFP_ATOMIC to allocate
b65d4adbSMuchun Song * the vmemmap pages.
b65d4adbSMuchun Song *
b65d4adbSMuchun Song * free_hpage_workfn() locklessly retrieves the linked list of pages to be
b65d4adbSMuchun Song * freed and frees them one-by-one. As the page->mapping pointer is going
b65d4adbSMuchun Song * to be cleared in free_hpage_workfn() anyway, it is reused as the llist_node
b65d4adbSMuchun Song * structure of a lockless linked list of huge pages to be freed.
b65d4adbSMuchun Song */
b65d4adbSMuchun Songstatic LLIST_HEAD(hpage_freelist);
b65d4adbSMuchun Song
b65d4adbSMuchun Songstatic void free_hpage_workfn(struct work_struct *work)
b65d4adbSMuchun Song{
b65d4adbSMuchun Song	struct llist_node *node;
b65d4adbSMuchun Song
b65d4adbSMuchun Song	node = llist_del_all(&hpage_freelist);
b65d4adbSMuchun Song
b65d4adbSMuchun Song	while (node) {
3ec145f9SMatthew Wilcox (Oracle)		struct folio *folio;
b65d4adbSMuchun Song		struct hstate *h;
b65d4adbSMuchun Song
3ec145f9SMatthew Wilcox (Oracle)		folio = container_of((struct address_space **)node,
3ec145f9SMatthew Wilcox (Oracle)				     struct folio, mapping);
b65d4adbSMuchun Song		node = node->next;
3ec145f9SMatthew Wilcox (Oracle)		folio->mapping = NULL;
b65d4adbSMuchun Song		/*
affd26b1SSidhartha Kumar		 * The VM_BUG_ON_FOLIO(!folio_test_hugetlb(folio), folio) in
affd26b1SSidhartha Kumar		 * folio_hstate() is going to trigger because a previous call to
9c5ccf2dSMatthew Wilcox (Oracle)		 * remove_hugetlb_folio() will clear the hugetlb bit, so do
9c5ccf2dSMatthew Wilcox (Oracle)		 * not use folio_hstate() directly.
b65d4adbSMuchun Song		 */
3ec145f9SMatthew Wilcox (Oracle)		h = size_to_hstate(folio_size(folio));
b65d4adbSMuchun Song
3ec145f9SMatthew Wilcox (Oracle)		__update_and_free_hugetlb_folio(h, folio);
b65d4adbSMuchun Song
b65d4adbSMuchun Song		cond_resched();
b65d4adbSMuchun Song	}
b65d4adbSMuchun Song}
b65d4adbSMuchun Songstatic DECLARE_WORK(free_hpage_work, free_hpage_workfn);
b65d4adbSMuchun Song
b65d4adbSMuchun Songstatic inline void flush_free_hpage_work(struct hstate *h)
b65d4adbSMuchun Song{
6213834cSMuchun Song	if (hugetlb_vmemmap_optimizable(h))
b65d4adbSMuchun Song		flush_work(&free_hpage_work);
b65d4adbSMuchun Song}
b65d4adbSMuchun Song
d6ef19e2SSidhartha Kumarstatic void update_and_free_hugetlb_folio(struct hstate *h, struct folio *folio,
b65d4adbSMuchun Song				 bool atomic)
b65d4adbSMuchun Song{
d6ef19e2SSidhartha Kumar	if (!folio_test_hugetlb_vmemmap_optimized(folio) || !atomic) {
6f6956cfSSidhartha Kumar		__update_and_free_hugetlb_folio(h, folio);
b65d4adbSMuchun Song		return;
b65d4adbSMuchun Song	}
b65d4adbSMuchun Song
b65d4adbSMuchun Song	/*
b65d4adbSMuchun Song	 * Defer freeing to avoid using GFP_ATOMIC to allocate vmemmap pages.
b65d4adbSMuchun Song	 *
b65d4adbSMuchun Song	 * Only call schedule_work() if hpage_freelist is previously
b65d4adbSMuchun Song	 * empty. Otherwise, schedule_work() had been called but the workfn
b65d4adbSMuchun Song	 * hasn't retrieved the list yet.
b65d4adbSMuchun Song	 */
d6ef19e2SSidhartha Kumar	if (llist_add((struct llist_node *)&folio->mapping, &hpage_freelist))
b65d4adbSMuchun Song		schedule_work(&free_hpage_work);
b65d4adbSMuchun Song}
b65d4adbSMuchun Song
cfb8c750SMike Kravetzstatic void bulk_vmemmap_restore_error(struct hstate *h,
cfb8c750SMike Kravetz					struct list_head *folio_list,
cfb8c750SMike Kravetz					struct list_head *non_hvo_folios)
10c6ec49SMike Kravetz{
04bbfd84SMatthew Wilcox (Oracle)	struct folio *folio, *t_folio;
10c6ec49SMike Kravetz
cfb8c750SMike Kravetz	if (!list_empty(non_hvo_folios)) {
d2cf88c2SMike Kravetz		/*
cfb8c750SMike Kravetz		 * Free any restored hugetlb pages so that restore of the
cfb8c750SMike Kravetz		 * entire list can be retried.
cfb8c750SMike Kravetz		 * The idea is that in the common case of ENOMEM errors freeing
cfb8c750SMike Kravetz		 * hugetlb pages with vmemmap we will free up memory so that we
cfb8c750SMike Kravetz		 * can allocate vmemmap for more hugetlb pages.
d2cf88c2SMike Kravetz		 */
cfb8c750SMike Kravetz		list_for_each_entry_safe(folio, t_folio, non_hvo_folios, lru) {
cfb8c750SMike Kravetz			list_del(&folio->lru);
cfb8c750SMike Kravetz			spin_lock_irq(&hugetlb_lock);
42a346b4SMatthew Wilcox (Oracle)			__folio_clear_hugetlb(folio);
cfb8c750SMike Kravetz			spin_unlock_irq(&hugetlb_lock);
cfb8c750SMike Kravetz			update_and_free_hugetlb_folio(h, folio, false);
cfb8c750SMike Kravetz			cond_resched();
cfb8c750SMike Kravetz		}
cfb8c750SMike Kravetz	} else {
cfb8c750SMike Kravetz		/*
cfb8c750SMike Kravetz		 * In the case where there are no folios which can be
cfb8c750SMike Kravetz		 * immediately freed, we loop through the list trying to restore
cfb8c750SMike Kravetz		 * vmemmap individually in the hope that someone elsewhere may
cfb8c750SMike Kravetz		 * have done something to cause success (such as freeing some
cfb8c750SMike Kravetz		 * memory).  If unable to restore a hugetlb page, the hugetlb
cfb8c750SMike Kravetz		 * page is made a surplus page and removed from the list.
cfb8c750SMike Kravetz		 * If are able to restore vmemmap and free one hugetlb page, we
cfb8c750SMike Kravetz		 * quit processing the list to retry the bulk operation.
cfb8c750SMike Kravetz		 */
cfb8c750SMike Kravetz		list_for_each_entry_safe(folio, t_folio, folio_list, lru)
c5ad3233SUsama Arif			if (hugetlb_vmemmap_restore_folio(h, folio)) {
cfb8c750SMike Kravetz				list_del(&folio->lru);
d2cf88c2SMike Kravetz				spin_lock_irq(&hugetlb_lock);
d2cf88c2SMike Kravetz				add_hugetlb_folio(h, folio, true);
d2cf88c2SMike Kravetz				spin_unlock_irq(&hugetlb_lock);
cfb8c750SMike Kravetz			} else {
cfb8c750SMike Kravetz				list_del(&folio->lru);
cfb8c750SMike Kravetz				spin_lock_irq(&hugetlb_lock);
42a346b4SMatthew Wilcox (Oracle)				__folio_clear_hugetlb(folio);
cfb8c750SMike Kravetz				spin_unlock_irq(&hugetlb_lock);
cfb8c750SMike Kravetz				update_and_free_hugetlb_folio(h, folio, false);
cfb8c750SMike Kravetz				cond_resched();
cfb8c750SMike Kravetz				break;
cfb8c750SMike Kravetz			}
d2cf88c2SMike Kravetz	}
d2cf88c2SMike Kravetz}
d2cf88c2SMike Kravetz
cfb8c750SMike Kravetzstatic void update_and_free_pages_bulk(struct hstate *h,
cfb8c750SMike Kravetz						struct list_head *folio_list)
cfb8c750SMike Kravetz{
cfb8c750SMike Kravetz	long ret;
cfb8c750SMike Kravetz	struct folio *folio, *t_folio;
cfb8c750SMike Kravetz	LIST_HEAD(non_hvo_folios);
cfb8c750SMike Kravetz
d2cf88c2SMike Kravetz	/*
cfb8c750SMike Kravetz	 * First allocate required vmemmmap (if necessary) for all folios.
cfb8c750SMike Kravetz	 * Carefully handle errors and free up any available hugetlb pages
cfb8c750SMike Kravetz	 * in an effort to make forward progress.
d2cf88c2SMike Kravetz	 */
cfb8c750SMike Kravetzretry:
cfb8c750SMike Kravetz	ret = hugetlb_vmemmap_restore_folios(h, folio_list, &non_hvo_folios);
cfb8c750SMike Kravetz	if (ret < 0) {
cfb8c750SMike Kravetz		bulk_vmemmap_restore_error(h, folio_list, &non_hvo_folios);
cfb8c750SMike Kravetz		goto retry;
cfb8c750SMike Kravetz	}
cfb8c750SMike Kravetz
cfb8c750SMike Kravetz	/*
cfb8c750SMike Kravetz	 * At this point, list should be empty, ret should be >= 0 and there
cfb8c750SMike Kravetz	 * should only be pages on the non_hvo_folios list.
cfb8c750SMike Kravetz	 * Do note that the non_hvo_folios list could be empty.
cfb8c750SMike Kravetz	 * Without HVO enabled, ret will be 0 and there is no need to call
42a346b4SMatthew Wilcox (Oracle)	 * __folio_clear_hugetlb as this was done previously.
cfb8c750SMike Kravetz	 */
cfb8c750SMike Kravetz	VM_WARN_ON(!list_empty(folio_list));
cfb8c750SMike Kravetz	VM_WARN_ON(ret < 0);
cfb8c750SMike Kravetz	if (!list_empty(&non_hvo_folios) && ret) {
d2cf88c2SMike Kravetz		spin_lock_irq(&hugetlb_lock);
cfb8c750SMike Kravetz		list_for_each_entry(folio, &non_hvo_folios, lru)
42a346b4SMatthew Wilcox (Oracle)			__folio_clear_hugetlb(folio);
d2cf88c2SMike Kravetz		spin_unlock_irq(&hugetlb_lock);
d2cf88c2SMike Kravetz	}
d2cf88c2SMike Kravetz
cfb8c750SMike Kravetz	list_for_each_entry_safe(folio, t_folio, &non_hvo_folios, lru) {
d6ef19e2SSidhartha Kumar		update_and_free_hugetlb_folio(h, folio, false);
10c6ec49SMike Kravetz		cond_resched();
10c6ec49SMike Kravetz	}
10c6ec49SMike Kravetz}
10c6ec49SMike Kravetz
e5ff2159SAndi Kleenstruct hstate *size_to_hstate(unsigned long size)
e5ff2159SAndi Kleen{
e5ff2159SAndi Kleen	struct hstate *h;
e5ff2159SAndi Kleen
e5ff2159SAndi Kleen	for_each_hstate(h) {
e5ff2159SAndi Kleen		if (huge_page_size(h) == size)
e5ff2159SAndi Kleen			return h;
e5ff2159SAndi Kleen	}
e5ff2159SAndi Kleen	return NULL;
e5ff2159SAndi Kleen}
e5ff2159SAndi Kleen
454a00c4SMatthew Wilcox (Oracle)void free_huge_folio(struct folio *folio)
27a85ef1SDavid Gibson{
a5516438SAndi Kleen	/*
a5516438SAndi Kleen	 * Can't pass hstate in here because it is called from the
42a346b4SMatthew Wilcox (Oracle)	 * generic mm code.
a5516438SAndi Kleen	 */
0356c4b9SSidhartha Kumar	struct hstate *h = folio_hstate(folio);
0356c4b9SSidhartha Kumar	int nid = folio_nid(folio);
0356c4b9SSidhartha Kumar	struct hugepage_subpool *spool = hugetlb_folio_subpool(folio);
07443a85SJoonsoo Kim	bool restore_reserve;
db71ef79SMike Kravetz	unsigned long flags;
27a85ef1SDavid Gibson
0356c4b9SSidhartha Kumar	VM_BUG_ON_FOLIO(folio_ref_count(folio), folio);
0356c4b9SSidhartha Kumar	VM_BUG_ON_FOLIO(folio_mapcount(folio), folio);
8ace22bcSYongkai Wu
0356c4b9SSidhartha Kumar	hugetlb_set_folio_subpool(folio, NULL);
0356c4b9SSidhartha Kumar	if (folio_test_anon(folio))
0356c4b9SSidhartha Kumar		__ClearPageAnonExclusive(&folio->page);
0356c4b9SSidhartha Kumar	folio->mapping = NULL;
0356c4b9SSidhartha Kumar	restore_reserve = folio_test_hugetlb_restore_reserve(folio);
0356c4b9SSidhartha Kumar	folio_clear_hugetlb_restore_reserve(folio);
27a85ef1SDavid Gibson
1c5ecae3SMike Kravetz	/*
d6995da3SMike Kravetz	 * If HPageRestoreReserve was set on page, page allocation consumed a
0919e1b6SMike Kravetz	 * reservation.  If the page was associated with a subpool, there
0919e1b6SMike Kravetz	 * would have been a page reserved in the subpool before allocation
0919e1b6SMike Kravetz	 * via hugepage_subpool_get_pages().  Since we are 'restoring' the
6c26d310SMiaohe Lin	 * reservation, do not call hugepage_subpool_put_pages() as this will
0919e1b6SMike Kravetz	 * remove the reserved page from the subpool.
0919e1b6SMike Kravetz	 */
0919e1b6SMike Kravetz	if (!restore_reserve) {
0919e1b6SMike Kravetz		/*
0919e1b6SMike Kravetz		 * A return code of zero implies that the subpool will be
0919e1b6SMike Kravetz		 * under its minimum size if the reservation is not restored
0919e1b6SMike Kravetz		 * after page is free.  Therefore, force restore_reserve
0919e1b6SMike Kravetz		 * operation.
1c5ecae3SMike Kravetz		 */
1c5ecae3SMike Kravetz		if (hugepage_subpool_put_pages(spool, 1) == 0)
1c5ecae3SMike Kravetz			restore_reserve = true;
0919e1b6SMike Kravetz	}
1c5ecae3SMike Kravetz
db71ef79SMike Kravetz	spin_lock_irqsave(&hugetlb_lock, flags);
0356c4b9SSidhartha Kumar	folio_clear_hugetlb_migratable(folio);
d4ab0316SSidhartha Kumar	hugetlb_cgroup_uncharge_folio(hstate_index(h),
d4ab0316SSidhartha Kumar				     pages_per_huge_page(h), folio);
d4ab0316SSidhartha Kumar	hugetlb_cgroup_uncharge_folio_rsvd(hstate_index(h),
d4ab0316SSidhartha Kumar					  pages_per_huge_page(h), folio);
05d4532bSJoshua Hahn	lruvec_stat_mod_folio(folio, NR_HUGETLB, -pages_per_huge_page(h));
8cba9576SNhat Pham	mem_cgroup_uncharge(folio);
07443a85SJoonsoo Kim	if (restore_reserve)
07443a85SJoonsoo Kim		h->resv_huge_pages++;
07443a85SJoonsoo Kim
0356c4b9SSidhartha Kumar	if (folio_test_hugetlb_temporary(folio)) {
cfd5082bSSidhartha Kumar		remove_hugetlb_folio(h, folio, false);
db71ef79SMike Kravetz		spin_unlock_irqrestore(&hugetlb_lock, flags);
d6ef19e2SSidhartha Kumar		update_and_free_hugetlb_folio(h, folio, true);
ab5ac90aSMichal Hocko	} else if (h->surplus_huge_pages_node[nid]) {
0edaecfaSAneesh Kumar K.V		/* remove the page from active list */
cfd5082bSSidhartha Kumar		remove_hugetlb_folio(h, folio, true);
db71ef79SMike Kravetz		spin_unlock_irqrestore(&hugetlb_lock, flags);
d6ef19e2SSidhartha Kumar		update_and_free_hugetlb_folio(h, folio, true);
7893d1d5SAdam Litke	} else {
51718e25SMatthew Wilcox (Oracle)		arch_clear_hugetlb_flags(folio);
240d67a8SSidhartha Kumar		enqueue_hugetlb_folio(h, folio);
db71ef79SMike Kravetz		spin_unlock_irqrestore(&hugetlb_lock, flags);
27a85ef1SDavid Gibson	}
1121828aSMike Kravetz}
27a85ef1SDavid Gibson
d3d99fccSOscar Salvador/*
d3d99fccSOscar Salvador * Must be called with the hugetlb lock held
d3d99fccSOscar Salvador */
4094d343SKefeng Wangstatic void account_new_hugetlb_folio(struct hstate *h, struct folio *folio)
d3d99fccSOscar Salvador{
d3d99fccSOscar Salvador	lockdep_assert_held(&hugetlb_lock);
d3d99fccSOscar Salvador	h->nr_huge_pages++;
4094d343SKefeng Wang	h->nr_huge_pages_node[folio_nid(folio)]++;
d3d99fccSOscar Salvador}
d3d99fccSOscar Salvador
ecd6703fSHui Zhuvoid init_new_hugetlb_folio(struct folio *folio)
b7ba30c6SAndi Kleen{
d99e3140SMatthew Wilcox (Oracle)	__folio_set_hugetlb(folio);
de656ed3SSidhartha Kumar	INIT_LIST_HEAD(&folio->lru);
de656ed3SSidhartha Kumar	hugetlb_set_folio_subpool(folio, NULL);
de656ed3SSidhartha Kumar	set_hugetlb_cgroup(folio, NULL);
de656ed3SSidhartha Kumar	set_hugetlb_cgroup_rsvd(folio, NULL);
d3d99fccSOscar Salvador}
d3d99fccSOscar Salvador
7795912cSAndrew Morton/*
c0d0381aSMike Kravetz * Find and lock address space (mapping) in write mode.
c0d0381aSMike Kravetz *
6e8cda4cSMatthew Wilcox (Oracle) * Upon entry, the folio is locked which means that folio_mapping() is
336bf30eSMike Kravetz * stable.  Due to locking order, we can only trylock_write.  If we can
336bf30eSMike Kravetz * not get the lock, simply return NULL to caller.
c0d0381aSMike Kravetz */
6e8cda4cSMatthew Wilcox (Oracle)struct address_space *hugetlb_folio_mapping_lock_write(struct folio *folio)
c0d0381aSMike Kravetz{
6e8cda4cSMatthew Wilcox (Oracle)	struct address_space *mapping = folio_mapping(folio);
c0d0381aSMike Kravetz
c0d0381aSMike Kravetz	if (!mapping)
c0d0381aSMike Kravetz		return mapping;
c0d0381aSMike Kravetz
c0d0381aSMike Kravetz	if (i_mmap_trylock_write(mapping))
c0d0381aSMike Kravetz		return mapping;
c0d0381aSMike Kravetz
c0d0381aSMike Kravetz	return NULL;
c0d0381aSMike Kravetz}
c0d0381aSMike Kravetz
14f27076SKefeng Wangstatic struct folio *alloc_buddy_frozen_folio(int order, gfp_t gfp_mask,
4a25f995SKefeng Wang		int nid, nodemask_t *nmask, nodemask_t *node_alloc_noretry)
1da177e4SLinus Torvalds{
f6a8dd98SMatthew Wilcox (Oracle)	struct folio *folio;
f60858f9SMike Kravetz	bool alloc_try_hard = true;
f96efd58SJoe Jin
f60858f9SMike Kravetz	/*
f6a8dd98SMatthew Wilcox (Oracle)	 * By default we always try hard to allocate the folio with
f6a8dd98SMatthew Wilcox (Oracle)	 * __GFP_RETRY_MAYFAIL flag.  However, if we are allocating folios in
f60858f9SMike Kravetz	 * a loop (to adjust global huge page counts) and previous allocation
f60858f9SMike Kravetz	 * failed, do not continue to try hard on the same node.  Use the
f60858f9SMike Kravetz	 * node_alloc_noretry bitmap to manage this state information.
f60858f9SMike Kravetz	 */
f60858f9SMike Kravetz	if (node_alloc_noretry && node_isset(nid, *node_alloc_noretry))
f60858f9SMike Kravetz		alloc_try_hard = false;
f60858f9SMike Kravetz	if (alloc_try_hard)
f60858f9SMike Kravetz		gfp_mask |= __GFP_RETRY_MAYFAIL;
2b21624fSMike Kravetz
e7a44603SOscar Salvador	folio = (struct folio *)__alloc_frozen_pages(gfp_mask, order, nid, nmask);
2b21624fSMike Kravetz
f60858f9SMike Kravetz	/*
f6a8dd98SMatthew Wilcox (Oracle)	 * If we did not specify __GFP_RETRY_MAYFAIL, but still got a
f6a8dd98SMatthew Wilcox (Oracle)	 * folio this indicates an overall state change.  Clear bit so
f6a8dd98SMatthew Wilcox (Oracle)	 * that we resume normal 'try hard' allocations.
f60858f9SMike Kravetz	 */
f6a8dd98SMatthew Wilcox (Oracle)	if (node_alloc_noretry && folio && !alloc_try_hard)
f60858f9SMike Kravetz		node_clear(nid, *node_alloc_noretry);
f60858f9SMike Kravetz
f60858f9SMike Kravetz	/*
f6a8dd98SMatthew Wilcox (Oracle)	 * If we tried hard to get a folio but failed, set bit so that
f60858f9SMike Kravetz	 * subsequent attempts will not try as hard until there is an
f60858f9SMike Kravetz	 * overall state change.
f60858f9SMike Kravetz	 */
f6a8dd98SMatthew Wilcox (Oracle)	if (node_alloc_noretry && !folio && alloc_try_hard)
f60858f9SMike Kravetz		node_set(nid, *node_alloc_noretry);
f60858f9SMike Kravetz
f6a8dd98SMatthew Wilcox (Oracle)	if (!folio) {
19fc1a7eSSidhartha Kumar		__count_vm_event(HTLB_BUDDY_PGALLOC_FAIL);
19fc1a7eSSidhartha Kumar		return NULL;
19fc1a7eSSidhartha Kumar	}
19fc1a7eSSidhartha Kumar
19fc1a7eSSidhartha Kumar	__count_vm_event(HTLB_BUDDY_PGALLOC);
f6a8dd98SMatthew Wilcox (Oracle)	return folio;
63b4613cSNishanth Aravamudan}
63b4613cSNishanth Aravamudan
d67e32f2SMike Kravetzstatic struct folio *only_alloc_fresh_hugetlb_folio(struct hstate *h,
d67e32f2SMike Kravetz		gfp_t gfp_mask, int nid, nodemask_t *nmask,
f60858f9SMike Kravetz		nodemask_t *node_alloc_noretry)
b2261026SJoonsoo Kim{
19fc1a7eSSidhartha Kumar	struct folio *folio;
4a25f995SKefeng Wang	int order = huge_page_order(h);
d67e32f2SMike Kravetz
4fe2a810SKefeng Wang	if (nid == NUMA_NO_NODE)
4fe2a810SKefeng Wang		nid = numa_mem_id();
4fe2a810SKefeng Wang
4a25f995SKefeng Wang	if (order_is_gigantic(order))
14f27076SKefeng Wang		folio = alloc_gigantic_frozen_folio(order, gfp_mask, nid, nmask);
cf54f310SYu Zhao	else
14f27076SKefeng Wang		folio = alloc_buddy_frozen_folio(order, gfp_mask, nid, nmask,
4a25f995SKefeng Wang						 node_alloc_noretry);
d67e32f2SMike Kravetz	if (folio)
dd4d324bSKefeng Wang		init_new_hugetlb_folio(folio);
d67e32f2SMike Kravetz	return folio;
d67e32f2SMike Kravetz}
d67e32f2SMike Kravetz
d67e32f2SMike Kravetz/*
902020f0SKefeng Wang * Common helper to allocate a fresh hugetlb folio. All specific allocators
902020f0SKefeng Wang * should use this function to get new hugetlb folio
d67e32f2SMike Kravetz *
902020f0SKefeng Wang * Note that returned folio is 'frozen':  ref count of head page and all tail
902020f0SKefeng Wang * pages is zero, and the accounting must be done in the caller.
d67e32f2SMike Kravetz */
d67e32f2SMike Kravetzstatic struct folio *alloc_fresh_hugetlb_folio(struct hstate *h,
6584a14aSOscar Salvador		gfp_t gfp_mask, int nid, nodemask_t *nmask)
d67e32f2SMike Kravetz{
d67e32f2SMike Kravetz	struct folio *folio;
d67e32f2SMike Kravetz
902020f0SKefeng Wang	folio = only_alloc_fresh_hugetlb_folio(h, gfp_mask, nid, nmask, NULL);
902020f0SKefeng Wang	if (folio)
902020f0SKefeng Wang		hugetlb_vmemmap_optimize_folio(h, folio);
d67e32f2SMike Kravetz	return folio;
d67e32f2SMike Kravetz}
d67e32f2SMike Kravetz
ecd6703fSHui Zhuvoid prep_and_add_allocated_folios(struct hstate *h,
d67e32f2SMike Kravetz				   struct list_head *folio_list)
d67e32f2SMike Kravetz{
d67e32f2SMike Kravetz	unsigned long flags;
d67e32f2SMike Kravetz	struct folio *folio, *tmp_f;
d67e32f2SMike Kravetz
79359d6dSMike Kravetz	/* Send list for bulk vmemmap optimization processing */
79359d6dSMike Kravetz	hugetlb_vmemmap_optimize_folios(h, folio_list);
79359d6dSMike Kravetz
d67e32f2SMike Kravetz	/* Add all new pool pages to free lists in one lock cycle */
d67e32f2SMike Kravetz	spin_lock_irqsave(&hugetlb_lock, flags);
d67e32f2SMike Kravetz	list_for_each_entry_safe(folio, tmp_f, folio_list, lru) {
4094d343SKefeng Wang		account_new_hugetlb_folio(h, folio);
d67e32f2SMike Kravetz		enqueue_hugetlb_folio(h, folio);
d67e32f2SMike Kravetz	}
d67e32f2SMike Kravetz	spin_unlock_irqrestore(&hugetlb_lock, flags);
d67e32f2SMike Kravetz}
d67e32f2SMike Kravetz
d67e32f2SMike Kravetz/*
d67e32f2SMike Kravetz * Allocates a fresh hugetlb page in a node interleaved manner.  The page
d67e32f2SMike Kravetz * will later be added to the appropriate hugetlb pool.
d67e32f2SMike Kravetz */
d67e32f2SMike Kravetzstatic struct folio *alloc_pool_huge_folio(struct hstate *h,
d67e32f2SMike Kravetz					nodemask_t *nodes_allowed,
2e73ff23SGang Li					nodemask_t *node_alloc_noretry,
2e73ff23SGang Li					int *next_node)
d67e32f2SMike Kravetz{
af0fb9dfSMichal Hocko	gfp_t gfp_mask = htlb_alloc_mask(h) | __GFP_THISNODE;
d67e32f2SMike Kravetz	int nr_nodes, node;
b2261026SJoonsoo Kim
2e73ff23SGang Li	for_each_node_mask_to_alloc(next_node, nr_nodes, node, nodes_allowed) {
d67e32f2SMike Kravetz		struct folio *folio;
d67e32f2SMike Kravetz
d67e32f2SMike Kravetz		folio = only_alloc_fresh_hugetlb_folio(h, gfp_mask, node,
19fc1a7eSSidhartha Kumar					nodes_allowed, node_alloc_noretry);
d67e32f2SMike Kravetz		if (folio)
d67e32f2SMike Kravetz			return folio;
b2261026SJoonsoo Kim	}
b2261026SJoonsoo Kim
d67e32f2SMike Kravetz	return NULL;
b2261026SJoonsoo Kim}
b2261026SJoonsoo Kim
e8c5c824SLee Schermerhorn/*
10c6ec49SMike Kravetz * Remove huge page from pool from next node to free.  Attempt to keep
10c6ec49SMike Kravetz * persistent huge pages more or less balanced over allowed nodes.
10c6ec49SMike Kravetz * This routine only 'removes' the hugetlb page.  The caller must make
10c6ec49SMike Kravetz * an additional call to free the page to low level allocators.
e8c5c824SLee Schermerhorn * Called with hugetlb_lock locked.
e8c5c824SLee Schermerhorn */
d5b43e96SMatthew Wilcox (Oracle)static struct folio *remove_pool_hugetlb_folio(struct hstate *h,
d5b43e96SMatthew Wilcox (Oracle)		nodemask_t *nodes_allowed, bool acct_surplus)
e8c5c824SLee Schermerhorn{
b2261026SJoonsoo Kim	int nr_nodes, node;
04bbfd84SMatthew Wilcox (Oracle)	struct folio *folio = NULL;
e8c5c824SLee Schermerhorn
9487ca60SMike Kravetz	lockdep_assert_held(&hugetlb_lock);
b2261026SJoonsoo Kim	for_each_node_mask_to_free(h, nr_nodes, node, nodes_allowed) {
685f3457SLee Schermerhorn		/*
685f3457SLee Schermerhorn		 * If we're returning unused surplus pages, only examine
685f3457SLee Schermerhorn		 * nodes with surplus pages.
685f3457SLee Schermerhorn		 */
b2261026SJoonsoo Kim		if ((!acct_surplus || h->surplus_huge_pages_node[node]) &&
b2261026SJoonsoo Kim		    !list_empty(&h->hugepage_freelists[node])) {
04bbfd84SMatthew Wilcox (Oracle)			folio = list_entry(h->hugepage_freelists[node].next,
04bbfd84SMatthew Wilcox (Oracle)					  struct folio, lru);
cfd5082bSSidhartha Kumar			remove_hugetlb_folio(h, folio, acct_surplus);
9a76db09SLee Schermerhorn			break;
e8c5c824SLee Schermerhorn		}
b2261026SJoonsoo Kim	}
e8c5c824SLee Schermerhorn
d5b43e96SMatthew Wilcox (Oracle)	return folio;
e8c5c824SLee Schermerhorn}
e8c5c824SLee Schermerhorn
c8721bbbSNaoya Horiguchi/*
54fa49b2SSidhartha Kumar * Dissolve a given free hugetlb folio into free buddy pages. This function
54fa49b2SSidhartha Kumar * does nothing for in-use hugetlb folios and non-hugetlb folios.
faf53defSNaoya Horiguchi * This function returns values like below:
faf53defSNaoya Horiguchi *
ad2fa371SMuchun Song *  -ENOMEM: failed to allocate vmemmap pages to free the freed hugepages
ad2fa371SMuchun Song *           when the system is under memory pressure and the feature of
ad2fa371SMuchun Song *           freeing unused vmemmap pages associated with each hugetlb page
ad2fa371SMuchun Song *           is enabled.
faf53defSNaoya Horiguchi *  -EBUSY:  failed to dissolved free hugepages or the hugepage is in-use
faf53defSNaoya Horiguchi *           (allocated or reserved.)
faf53defSNaoya Horiguchi *       0:  successfully dissolved free hugepages or the page is not a
faf53defSNaoya Horiguchi *           hugepage (considered as already dissolved)
c8721bbbSNaoya Horiguchi */
54fa49b2SSidhartha Kumarint dissolve_free_hugetlb_folio(struct folio *folio)
c8721bbbSNaoya Horiguchi{
6bc9b564SNaoya Horiguchi	int rc = -EBUSY;
082d5b6bSGerald Schaefer
7ffddd49SMuchun Songretry:
faf53defSNaoya Horiguchi	/* Not to disrupt normal path by vainly holding hugetlb_lock */
1a7cdab5SSidhartha Kumar	if (!folio_test_hugetlb(folio))
faf53defSNaoya Horiguchi		return 0;
faf53defSNaoya Horiguchi
db71ef79SMike Kravetz	spin_lock_irq(&hugetlb_lock);
1a7cdab5SSidhartha Kumar	if (!folio_test_hugetlb(folio)) {
faf53defSNaoya Horiguchi		rc = 0;
faf53defSNaoya Horiguchi		goto out;
faf53defSNaoya Horiguchi	}
faf53defSNaoya Horiguchi
1a7cdab5SSidhartha Kumar	if (!folio_ref_count(folio)) {
1a7cdab5SSidhartha Kumar		struct hstate *h = folio_hstate(folio);
cb402bbdSJinjiang Tu		bool adjust_surplus = false;
cb402bbdSJinjiang Tu
8346d69dSXin Hao		if (!available_huge_pages(h))
082d5b6bSGerald Schaefer			goto out;
7ffddd49SMuchun Song
7ffddd49SMuchun Song		/*
7ffddd49SMuchun Song		 * We should make sure that the page is already on the free list
7ffddd49SMuchun Song		 * when it is dissolved.
7ffddd49SMuchun Song		 */
1a7cdab5SSidhartha Kumar		if (unlikely(!folio_test_hugetlb_freed(folio))) {
db71ef79SMike Kravetz			spin_unlock_irq(&hugetlb_lock);
7ffddd49SMuchun Song			cond_resched();
7ffddd49SMuchun Song
7ffddd49SMuchun Song			/*
7ffddd49SMuchun Song			 * Theoretically, we should return -EBUSY when we
7ffddd49SMuchun Song			 * encounter this race. In fact, we have a chance
7ffddd49SMuchun Song			 * to successfully dissolve the page if we do a
7ffddd49SMuchun Song			 * retry. Because the race window is quite small.
7ffddd49SMuchun Song			 * If we seize this opportunity, it is an optimization
7ffddd49SMuchun Song			 * for increasing the success rate of dissolving page.
7ffddd49SMuchun Song			 */
7ffddd49SMuchun Song			goto retry;
7ffddd49SMuchun Song		}
7ffddd49SMuchun Song
cb402bbdSJinjiang Tu		if (h->surplus_huge_pages_node[folio_nid(folio)])
cb402bbdSJinjiang Tu			adjust_surplus = true;
cb402bbdSJinjiang Tu		remove_hugetlb_folio(h, folio, adjust_surplus);
ad2fa371SMuchun Song		h->max_huge_pages--;
ad2fa371SMuchun Song		spin_unlock_irq(&hugetlb_lock);
ad2fa371SMuchun Song
c3114a84SAnshuman Khandual		/*
d6ef19e2SSidhartha Kumar		 * Normally update_and_free_hugtlb_folio will allocate required vmemmmap
d6ef19e2SSidhartha Kumar		 * before freeing the page.  update_and_free_hugtlb_folio will fail to
ad2fa371SMuchun Song		 * free the page if it can not allocate required vmemmap.  We
ad2fa371SMuchun Song		 * need to adjust max_huge_pages if the page is not freed.
ad2fa371SMuchun Song		 * Attempt to allocate vmemmmap here so that we can take
ad2fa371SMuchun Song		 * appropriate action on failure.
30a89adfSMike Kravetz		 *
30a89adfSMike Kravetz		 * The folio_test_hugetlb check here is because
30a89adfSMike Kravetz		 * remove_hugetlb_folio will clear hugetlb folio flag for
30a89adfSMike Kravetz		 * non-vmemmap optimized hugetlb folios.
ad2fa371SMuchun Song		 */
30a89adfSMike Kravetz		if (folio_test_hugetlb(folio)) {
c5ad3233SUsama Arif			rc = hugetlb_vmemmap_restore_folio(h, folio);
30a89adfSMike Kravetz			if (rc) {
ad2fa371SMuchun Song				spin_lock_irq(&hugetlb_lock);
cb402bbdSJinjiang Tu				add_hugetlb_folio(h, folio, adjust_surplus);
ad2fa371SMuchun Song				h->max_huge_pages++;
30a89adfSMike Kravetz				goto out;
ad2fa371SMuchun Song			}
824b8c96SJoshua Hahn		} else {
30a89adfSMike Kravetz			rc = 0;
824b8c96SJoshua Hahn		}
ad2fa371SMuchun Song
30a89adfSMike Kravetz		update_and_free_hugetlb_folio(h, folio, false);
ad2fa371SMuchun Song		return rc;
c8721bbbSNaoya Horiguchi	}
082d5b6bSGerald Schaeferout:
db71ef79SMike Kravetz	spin_unlock_irq(&hugetlb_lock);
082d5b6bSGerald Schaefer	return rc;
c8721bbbSNaoya Horiguchi}
c8721bbbSNaoya Horiguchi
c8721bbbSNaoya Horiguchi/*
c8721bbbSNaoya Horiguchi * Dissolve free hugepages in a given pfn range. Used by memory hotplug to
c8721bbbSNaoya Horiguchi * make specified memory blocks removable from the system.
2247bb33SGerald Schaefer * Note that this will dissolve a free gigantic hugepage completely, if any
2247bb33SGerald Schaefer * part of it lies within the given range.
54fa49b2SSidhartha Kumar * Also note that if dissolve_free_hugetlb_folio() returns with an error, all
54fa49b2SSidhartha Kumar * free hugetlb folios that were dissolved before that error are lost.
c8721bbbSNaoya Horiguchi */
d199483cSSidhartha Kumarint dissolve_free_hugetlb_folios(unsigned long start_pfn, unsigned long end_pfn)
c8721bbbSNaoya Horiguchi{
c8721bbbSNaoya Horiguchi	unsigned long pfn;
54fa49b2SSidhartha Kumar	struct folio *folio;
082d5b6bSGerald Schaefer	int rc = 0;
dc2628f3SMuchun Song	unsigned int order;
dc2628f3SMuchun Song	struct hstate *h;
c8721bbbSNaoya Horiguchi
d0177639SLi Zhong	if (!hugepages_supported())
082d5b6bSGerald Schaefer		return rc;
d0177639SLi Zhong
dc2628f3SMuchun Song	order = huge_page_order(&default_hstate);
dc2628f3SMuchun Song	for_each_hstate(h)
dc2628f3SMuchun Song		order = min(order, huge_page_order(h));
dc2628f3SMuchun Song
dc2628f3SMuchun Song	for (pfn = start_pfn; pfn < end_pfn; pfn += 1 << order) {
54fa49b2SSidhartha Kumar		folio = pfn_folio(pfn);
54fa49b2SSidhartha Kumar		rc = dissolve_free_hugetlb_folio(folio);
eb03aa00SGerald Schaefer		if (rc)
082d5b6bSGerald Schaefer			break;
eb03aa00SGerald Schaefer	}
082d5b6bSGerald Schaefer
082d5b6bSGerald Schaefer	return rc;
c8721bbbSNaoya Horiguchi}
c8721bbbSNaoya Horiguchi
ab5ac90aSMichal Hocko/*
ab5ac90aSMichal Hocko * Allocates a fresh surplus page from the page allocator.
ab5ac90aSMichal Hocko */
3a740e8bSSidhartha Kumarstatic struct folio *alloc_surplus_hugetlb_folio(struct hstate *h,
3a740e8bSSidhartha Kumar				gfp_t gfp_mask,	int nid, nodemask_t *nmask)
7893d1d5SAdam Litke{
19fc1a7eSSidhartha Kumar	struct folio *folio = NULL;
7893d1d5SAdam Litke
eb02f14cSUsama Arif	if (hstate_is_gigantic_no_runtime(h))
aa888a74SAndi Kleen		return NULL;
aa888a74SAndi Kleen
db71ef79SMike Kravetz	spin_lock_irq(&hugetlb_lock);
9980d744SMichal Hocko	if (h->surplus_huge_pages >= h->nr_overcommit_huge_pages)
9980d744SMichal Hocko		goto out_unlock;
db71ef79SMike Kravetz	spin_unlock_irq(&hugetlb_lock);
d1c3fb1fSNishanth Aravamudan
902020f0SKefeng Wang	folio = alloc_fresh_hugetlb_folio(h, gfp_mask, nid, nmask);
19fc1a7eSSidhartha Kumar	if (!folio)
0c397daeSMichal Hocko		return NULL;
d1c3fb1fSNishanth Aravamudan
db71ef79SMike Kravetz	spin_lock_irq(&hugetlb_lock);
9980d744SMichal Hocko	/*
2273dea6SLiu Shixin	 * nr_huge_pages needs to be adjusted within the same lock cycle
2273dea6SLiu Shixin	 * as surplus_pages, otherwise it might confuse
2273dea6SLiu Shixin	 * persistent_huge_pages() momentarily.
2273dea6SLiu Shixin	 */
4094d343SKefeng Wang	account_new_hugetlb_folio(h, folio);
2273dea6SLiu Shixin
2273dea6SLiu Shixin	/*
9980d744SMichal Hocko	 * We could have raced with the pool size change.
9980d744SMichal Hocko	 * Double check that and simply deallocate the new page
9980d744SMichal Hocko	 * if we would end up overcommiting the surpluses. Abuse
454a00c4SMatthew Wilcox (Oracle)	 * temporary page to workaround the nasty free_huge_folio
9980d744SMichal Hocko	 * codeflow
9980d744SMichal Hocko	 */
9980d744SMichal Hocko	if (h->surplus_huge_pages >= h->nr_overcommit_huge_pages) {
19fc1a7eSSidhartha Kumar		folio_set_hugetlb_temporary(folio);
db71ef79SMike Kravetz		spin_unlock_irq(&hugetlb_lock);
454a00c4SMatthew Wilcox (Oracle)		free_huge_folio(folio);
2bf753e6SKai Shen		return NULL;
b65a4edaSMike Kravetz	}
b65a4edaSMike Kravetz
9980d744SMichal Hocko	h->surplus_huge_pages++;
19fc1a7eSSidhartha Kumar	h->surplus_huge_pages_node[folio_nid(folio)]++;
9980d744SMichal Hocko
9980d744SMichal Hockoout_unlock:
db71ef79SMike Kravetz	spin_unlock_irq(&hugetlb_lock);
7893d1d5SAdam Litke
3a740e8bSSidhartha Kumar	return folio;
7893d1d5SAdam Litke}
7893d1d5SAdam Litke
e37d3e83SSidhartha Kumarstatic struct folio *alloc_migrate_hugetlb_folio(struct hstate *h, gfp_t gfp_mask,
ab5ac90aSMichal Hocko				     int nid, nodemask_t *nmask)
ab5ac90aSMichal Hocko{
19fc1a7eSSidhartha Kumar	struct folio *folio;
ab5ac90aSMichal Hocko
ab5ac90aSMichal Hocko	if (hstate_is_gigantic(h))
ab5ac90aSMichal Hocko		return NULL;
ab5ac90aSMichal Hocko
6584a14aSOscar Salvador	folio = alloc_fresh_hugetlb_folio(h, gfp_mask, nid, nmask);
19fc1a7eSSidhartha Kumar	if (!folio)
ab5ac90aSMichal Hocko		return NULL;
ab5ac90aSMichal Hocko
902020f0SKefeng Wang	spin_lock_irq(&hugetlb_lock);
4094d343SKefeng Wang	account_new_hugetlb_folio(h, folio);
902020f0SKefeng Wang	spin_unlock_irq(&hugetlb_lock);
902020f0SKefeng Wang
2b21624fSMike Kravetz	/* fresh huge pages are frozen */
19fc1a7eSSidhartha Kumar	folio_ref_unfreeze(folio, 1);
ab5ac90aSMichal Hocko	/*
ab5ac90aSMichal Hocko	 * We do not account these pages as surplus because they are only
ab5ac90aSMichal Hocko	 * temporary and will be released properly on the last reference
ab5ac90aSMichal Hocko	 */
19fc1a7eSSidhartha Kumar	folio_set_hugetlb_temporary(folio);
ab5ac90aSMichal Hocko
e37d3e83SSidhartha Kumar	return folio;
ab5ac90aSMichal Hocko}
ab5ac90aSMichal Hocko
e4e574b7SAdam Litke/*
099730d6SDave Hansen * Use the VMA's mpolicy to allocate a huge page from the buddy.
099730d6SDave Hansen */
e0ec90eeSDave Hansenstatic
ff7d853bSSidhartha Kumarstruct folio *alloc_buddy_hugetlb_folio_with_mpol(struct hstate *h,
099730d6SDave Hansen		struct vm_area_struct *vma, unsigned long addr)
099730d6SDave Hansen{
3a740e8bSSidhartha Kumar	struct folio *folio = NULL;
aaf14e40SMichal Hocko	struct mempolicy *mpol;
aaf14e40SMichal Hocko	gfp_t gfp_mask = htlb_alloc_mask(h);
aaf14e40SMichal Hocko	int nid;
aaf14e40SMichal Hocko	nodemask_t *nodemask;
aaf14e40SMichal Hocko
aaf14e40SMichal Hocko	nid = huge_node(vma, addr, gfp_mask, &mpol, &nodemask);
cfcaa66fSBen Widawsky	if (mpol_is_preferred_many(mpol)) {
cf54f310SYu Zhao		gfp_t gfp = gfp_mask & ~(__GFP_DIRECT_RECLAIM | __GFP_NOFAIL);
cfcaa66fSBen Widawsky
3a740e8bSSidhartha Kumar		folio = alloc_surplus_hugetlb_folio(h, gfp, nid, nodemask);
cfcaa66fSBen Widawsky
cfcaa66fSBen Widawsky		/* Fallback to all nodes if page==NULL */
cfcaa66fSBen Widawsky		nodemask = NULL;
cfcaa66fSBen Widawsky	}
cfcaa66fSBen Widawsky
3a740e8bSSidhartha Kumar	if (!folio)
3a740e8bSSidhartha Kumar		folio = alloc_surplus_hugetlb_folio(h, gfp_mask, nid, nodemask);
aaf14e40SMichal Hocko	mpol_cond_put(mpol);
ff7d853bSSidhartha Kumar	return folio;
099730d6SDave Hansen}
099730d6SDave Hansen
26a8ea80SSteve Sistarestruct folio *alloc_hugetlb_folio_reserve(struct hstate *h, int preferred_nid,
26a8ea80SSteve Sistare		nodemask_t *nmask, gfp_t gfp_mask)
26a8ea80SSteve Sistare{
26a8ea80SSteve Sistare	struct folio *folio;
26a8ea80SSteve Sistare
26a8ea80SSteve Sistare	spin_lock_irq(&hugetlb_lock);
c39b8745SVivek Kasireddy	if (!h->resv_huge_pages) {
c39b8745SVivek Kasireddy		spin_unlock_irq(&hugetlb_lock);
c39b8745SVivek Kasireddy		return NULL;
c39b8745SVivek Kasireddy	}
c39b8745SVivek Kasireddy
26a8ea80SSteve Sistare	folio = dequeue_hugetlb_folio_nodemask(h, gfp_mask, preferred_nid,
26a8ea80SSteve Sistare					       nmask);
c39b8745SVivek Kasireddy	if (folio)
26a8ea80SSteve Sistare		h->resv_huge_pages--;
26a8ea80SSteve Sistare
26a8ea80SSteve Sistare	spin_unlock_irq(&hugetlb_lock);
26a8ea80SSteve Sistare	return folio;
26a8ea80SSteve Sistare}
26a8ea80SSteve Sistare
e37d3e83SSidhartha Kumar/* folio migration callback function */
e37d3e83SSidhartha Kumarstruct folio *alloc_hugetlb_folio_nodemask(struct hstate *h, int preferred_nid,
42d0c3fbSBaolin Wang		nodemask_t *nmask, gfp_t gfp_mask, bool allow_alloc_fallback)
4db9b2efSMichal Hocko{
db71ef79SMike Kravetz	spin_lock_irq(&hugetlb_lock);
8346d69dSXin Hao	if (available_huge_pages(h)) {
a36f1e90SSidhartha Kumar		struct folio *folio;
3e59fcb0SMichal Hocko
a36f1e90SSidhartha Kumar		folio = dequeue_hugetlb_folio_nodemask(h, gfp_mask,
a36f1e90SSidhartha Kumar						preferred_nid, nmask);
a36f1e90SSidhartha Kumar		if (folio) {
db71ef79SMike Kravetz			spin_unlock_irq(&hugetlb_lock);
e37d3e83SSidhartha Kumar			return folio;
4db9b2efSMichal Hocko		}
4db9b2efSMichal Hocko	}
db71ef79SMike Kravetz	spin_unlock_irq(&hugetlb_lock);
4db9b2efSMichal Hocko
42d0c3fbSBaolin Wang	/* We cannot fallback to other nodes, as we could break the per-node pool. */
42d0c3fbSBaolin Wang	if (!allow_alloc_fallback)
42d0c3fbSBaolin Wang		gfp_mask |= __GFP_THISNODE;
42d0c3fbSBaolin Wang
e37d3e83SSidhartha Kumar	return alloc_migrate_hugetlb_folio(h, gfp_mask, preferred_nid, nmask);
4db9b2efSMichal Hocko}
4db9b2efSMichal Hocko
003af997SAristeu Rozanskistatic nodemask_t *policy_mbind_nodemask(gfp_t gfp)
003af997SAristeu Rozanski{
003af997SAristeu Rozanski#ifdef CONFIG_NUMA
003af997SAristeu Rozanski	struct mempolicy *mpol = get_task_policy(current);
003af997SAristeu Rozanski
003af997SAristeu Rozanski	/*
003af997SAristeu Rozanski	 * Only enforce MPOL_BIND policy which overlaps with cpuset policy
003af997SAristeu Rozanski	 * (from policy_nodemask) specifically for hugetlb case
003af997SAristeu Rozanski	 */
003af997SAristeu Rozanski	if (mpol->mode == MPOL_BIND &&
003af997SAristeu Rozanski		(apply_policy_zone(mpol, gfp_zone(gfp)) &&
003af997SAristeu Rozanski		 cpuset_nodemask_valid_mems_allowed(&mpol->nodes)))
003af997SAristeu Rozanski		return &mpol->nodes;
003af997SAristeu Rozanski#endif
003af997SAristeu Rozanski	return NULL;
003af997SAristeu Rozanski}
003af997SAristeu Rozanski
bf50bab2SNaoya Horiguchi/*
25985edcSLucas De Marchi * Increase the hugetlb pool such that it can accommodate a reservation
e4e574b7SAdam Litke * of size 'delta'.
e4e574b7SAdam Litke */
0a4f3d1bSLiu Xiangstatic int gather_surplus_pages(struct hstate *h, long delta)
1b2a1e7bSJules Irenge	__must_hold(&hugetlb_lock)
e4e574b7SAdam Litke{
34665341SMiaohe Lin	LIST_HEAD(surplus_list);
454a00c4SMatthew Wilcox (Oracle)	struct folio *folio, *tmp;
0a4f3d1bSLiu Xiang	int ret;
0a4f3d1bSLiu Xiang	long i;
0a4f3d1bSLiu Xiang	long needed, allocated;
28073b02SHillf Danton	bool alloc_ok = true;
d0f14f7eSKoichiro Den	nodemask_t *mbind_nodemask, alloc_nodemask;
d0f14f7eSKoichiro Den
d0f14f7eSKoichiro Den	mbind_nodemask = policy_mbind_nodemask(htlb_alloc_mask(h));
d0f14f7eSKoichiro Den	if (mbind_nodemask)
d0f14f7eSKoichiro Den		nodes_and(alloc_nodemask, *mbind_nodemask, cpuset_current_mems_allowed);
d0f14f7eSKoichiro Den	else
d0f14f7eSKoichiro Den		alloc_nodemask = cpuset_current_mems_allowed;
e4e574b7SAdam Litke
9487ca60SMike Kravetz	lockdep_assert_held(&hugetlb_lock);
a5516438SAndi Kleen	needed = (h->resv_huge_pages + delta) - h->free_huge_pages;
ac09b3a1SAdam Litke	if (needed <= 0) {
a5516438SAndi Kleen		h->resv_huge_pages += delta;
e4e574b7SAdam Litke		return 0;
ac09b3a1SAdam Litke	}
e4e574b7SAdam Litke
e4e574b7SAdam Litke	allocated = 0;
e4e574b7SAdam Litke
e4e574b7SAdam Litke	ret = -ENOMEM;
e4e574b7SAdam Litkeretry:
db71ef79SMike Kravetz	spin_unlock_irq(&hugetlb_lock);
e4e574b7SAdam Litke	for (i = 0; i < needed; i++) {
998d4e2cSAndrew Morton		folio = NULL;
d0f14f7eSKoichiro Den
00ccf40aSOscar Salvador		/*
00ccf40aSOscar Salvador		 * It is okay to use NUMA_NO_NODE because we use numa_mem_id()
00ccf40aSOscar Salvador		 * down the road to pick the current node if that is the case.
00ccf40aSOscar Salvador		 */
d0f14f7eSKoichiro Den		folio = alloc_surplus_hugetlb_folio(h, htlb_alloc_mask(h),
00ccf40aSOscar Salvador						    NUMA_NO_NODE, &alloc_nodemask);
3a740e8bSSidhartha Kumar		if (!folio) {
28073b02SHillf Danton			alloc_ok = false;
28073b02SHillf Danton			break;
28073b02SHillf Danton		}
3a740e8bSSidhartha Kumar		list_add(&folio->lru, &surplus_list);
69ed779aSDavid Rientjes		cond_resched();
e4e574b7SAdam Litke	}
28073b02SHillf Danton	allocated += i;
e4e574b7SAdam Litke
e4e574b7SAdam Litke	/*
e4e574b7SAdam Litke	 * After retaking hugetlb_lock, we need to recalculate 'needed'
e4e574b7SAdam Litke	 * because either resv_huge_pages or free_huge_pages may have changed.
e4e574b7SAdam Litke	 */
db71ef79SMike Kravetz	spin_lock_irq(&hugetlb_lock);
a5516438SAndi Kleen	needed = (h->resv_huge_pages + delta) -
a5516438SAndi Kleen			(h->free_huge_pages + allocated);
28073b02SHillf Danton	if (needed > 0) {
28073b02SHillf Danton		if (alloc_ok)
e4e574b7SAdam Litke			goto retry;
28073b02SHillf Danton		/*
28073b02SHillf Danton		 * We were not able to allocate enough pages to
28073b02SHillf Danton		 * satisfy the entire reservation so we free what
28073b02SHillf Danton		 * we've allocated so far.
28073b02SHillf Danton		 */
28073b02SHillf Danton		goto free;
28073b02SHillf Danton	}
e4e574b7SAdam Litke	/*
e4e574b7SAdam Litke	 * The surplus_list now contains _at_least_ the number of extra pages
25985edcSLucas De Marchi	 * needed to accommodate the reservation.  Add the appropriate number
e4e574b7SAdam Litke	 * of pages to the hugetlb pool and free the extras back to the buddy
ac09b3a1SAdam Litke	 * allocator.  Commit the entire reservation here to prevent another
ac09b3a1SAdam Litke	 * process from stealing the pages as they are added to the pool but
ac09b3a1SAdam Litke	 * before they are reserved.
e4e574b7SAdam Litke	 */
e4e574b7SAdam Litke	needed += allocated;
a5516438SAndi Kleen	h->resv_huge_pages += delta;
e4e574b7SAdam Litke	ret = 0;
a9869b83SNaoya Horiguchi
19fc3f0aSAdam Litke	/* Free the needed pages to the hugetlb pool */
454a00c4SMatthew Wilcox (Oracle)	list_for_each_entry_safe(folio, tmp, &surplus_list, lru) {
19fc3f0aSAdam Litke		if ((--needed) < 0)
19fc3f0aSAdam Litke			break;
b65a4edaSMike Kravetz		/* Add the page to the hugetlb allocator */
454a00c4SMatthew Wilcox (Oracle)		enqueue_hugetlb_folio(h, folio);
19fc3f0aSAdam Litke	}
28073b02SHillf Dantonfree:
db71ef79SMike Kravetz	spin_unlock_irq(&hugetlb_lock);
19fc3f0aSAdam Litke
b65a4edaSMike Kravetz	/*
b65a4edaSMike Kravetz	 * Free unnecessary surplus pages to the buddy allocator.
454a00c4SMatthew Wilcox (Oracle)	 * Pages have no ref count, call free_huge_folio directly.
b65a4edaSMike Kravetz	 */
454a00c4SMatthew Wilcox (Oracle)	list_for_each_entry_safe(folio, tmp, &surplus_list, lru)
454a00c4SMatthew Wilcox (Oracle)		free_huge_folio(folio);
db71ef79SMike Kravetz	spin_lock_irq(&hugetlb_lock);
e4e574b7SAdam Litke
e4e574b7SAdam Litke	return ret;
e4e574b7SAdam Litke}
e4e574b7SAdam Litke
e4e574b7SAdam Litke/*
e5bbc8a6SMike Kravetz * This routine has two main purposes:
e5bbc8a6SMike Kravetz * 1) Decrement the reservation count (resv_huge_pages) by the value passed
e5bbc8a6SMike Kravetz *    in unused_resv_pages.  This corresponds to the prior adjustments made
e5bbc8a6SMike Kravetz *    to the associated reservation map.
e5bbc8a6SMike Kravetz * 2) Free any unused surplus pages that may have been allocated to satisfy
e5bbc8a6SMike Kravetz *    the reservation.  As many as unused_resv_pages may be freed.
e4e574b7SAdam Litke */
a5516438SAndi Kleenstatic void return_unused_surplus_pages(struct hstate *h,
a5516438SAndi Kleen					unsigned long unused_resv_pages)
e4e574b7SAdam Litke{
e4e574b7SAdam Litke	unsigned long nr_pages;
10c6ec49SMike Kravetz	LIST_HEAD(page_list);
10c6ec49SMike Kravetz
9487ca60SMike Kravetz	lockdep_assert_held(&hugetlb_lock);
10c6ec49SMike Kravetz	/* Uncommit the reservation */
10c6ec49SMike Kravetz	h->resv_huge_pages -= unused_resv_pages;
e4e574b7SAdam Litke
a743e0afSUsama Arif	if (hstate_is_gigantic_no_runtime(h))
e5bbc8a6SMike Kravetz		goto out;
aa888a74SAndi Kleen
e5bbc8a6SMike Kravetz	/*
e5bbc8a6SMike Kravetz	 * Part (or even all) of the reservation could have been backed
e5bbc8a6SMike Kravetz	 * by pre-allocated pages. Only free surplus pages.
e5bbc8a6SMike Kravetz	 */
a5516438SAndi Kleen	nr_pages = min(unused_resv_pages, h->surplus_huge_pages);
e4e574b7SAdam Litke
685f3457SLee Schermerhorn	/*
685f3457SLee Schermerhorn	 * We want to release as many surplus pages as possible, spread
9b5e5d0fSLee Schermerhorn	 * evenly across all nodes with memory. Iterate across these nodes
9b5e5d0fSLee Schermerhorn	 * until we can no longer free unreserved surplus pages. This occurs
9b5e5d0fSLee Schermerhorn	 * when the nodes with surplus pages have no free pages.
d5b43e96SMatthew Wilcox (Oracle)	 * remove_pool_hugetlb_folio() will balance the freed pages across the
9b5e5d0fSLee Schermerhorn	 * on-line nodes with memory and will handle the hstate accounting.
685f3457SLee Schermerhorn	 */
685f3457SLee Schermerhorn	while (nr_pages--) {
d5b43e96SMatthew Wilcox (Oracle)		struct folio *folio;
d5b43e96SMatthew Wilcox (Oracle)
d5b43e96SMatthew Wilcox (Oracle)		folio = remove_pool_hugetlb_folio(h, &node_states[N_MEMORY], 1);
d5b43e96SMatthew Wilcox (Oracle)		if (!folio)
e5bbc8a6SMike Kravetz			goto out;
10c6ec49SMike Kravetz
d5b43e96SMatthew Wilcox (Oracle)		list_add(&folio->lru, &page_list);
e4e574b7SAdam Litke	}
e5bbc8a6SMike Kravetz
e5bbc8a6SMike Kravetzout:
db71ef79SMike Kravetz	spin_unlock_irq(&hugetlb_lock);
10c6ec49SMike Kravetz	update_and_free_pages_bulk(h, &page_list);
db71ef79SMike Kravetz	spin_lock_irq(&hugetlb_lock);
e4e574b7SAdam Litke}
e4e574b7SAdam Litke
5e911373SMike Kravetz
c37f9fb1SAndy Whitcroft/*
feba16e2SMike Kravetz * vma_needs_reservation, vma_commit_reservation and vma_end_reservation
5e911373SMike Kravetz * are used by the huge page allocation routines to manage reservations.
cf3ad20bSMike Kravetz *
cf3ad20bSMike Kravetz * vma_needs_reservation is called to determine if the huge page at addr
cf3ad20bSMike Kravetz * within the vma has an associated reservation.  If a reservation is
cf3ad20bSMike Kravetz * needed, the value 1 is returned.  The caller is then responsible for
cf3ad20bSMike Kravetz * managing the global reservation and subpool usage counts.  After
cf3ad20bSMike Kravetz * the huge page has been allocated, vma_commit_reservation is called
feba16e2SMike Kravetz * to add the page to the reservation map.  If the page allocation fails,
feba16e2SMike Kravetz * the reservation must be ended instead of committed.  vma_end_reservation
feba16e2SMike Kravetz * is called in such cases.
cf3ad20bSMike Kravetz *
cf3ad20bSMike Kravetz * In the normal case, vma_commit_reservation returns the same value
cf3ad20bSMike Kravetz * as the preceding vma_needs_reservation call.  The only time this
cf3ad20bSMike Kravetz * is not the case is if a reserve map was changed between calls.  It
cf3ad20bSMike Kravetz * is the responsibility of the caller to notice the difference and
cf3ad20bSMike Kravetz * take appropriate action.
96b96a96SMike Kravetz *
96b96a96SMike Kravetz * vma_add_reservation is used in error paths where a reservation must
96b96a96SMike Kravetz * be restored when a newly allocated huge page must be freed.  It is
96b96a96SMike Kravetz * to be called after calling vma_needs_reservation to determine if a
96b96a96SMike Kravetz * reservation exists.
846be085SMike Kravetz *
846be085SMike Kravetz * vma_del_reservation is used in error paths where an entry in the reserve
846be085SMike Kravetz * map was created during huge page allocation and must be removed.  It is to
846be085SMike Kravetz * be called after calling vma_needs_reservation to determine if a reservation
846be085SMike Kravetz * exists.
c37f9fb1SAndy Whitcroft */
5e911373SMike Kravetzenum vma_resv_mode {
5e911373SMike Kravetz	VMA_NEEDS_RESV,
5e911373SMike Kravetz	VMA_COMMIT_RESV,
feba16e2SMike Kravetz	VMA_END_RESV,
96b96a96SMike Kravetz	VMA_ADD_RESV,
846be085SMike Kravetz	VMA_DEL_RESV,
5e911373SMike Kravetz};
cf3ad20bSMike Kravetzstatic long __vma_reservation_common(struct hstate *h,
cf3ad20bSMike Kravetz				struct vm_area_struct *vma, unsigned long addr,
5e911373SMike Kravetz				enum vma_resv_mode mode)
c37f9fb1SAndy Whitcroft{
4e35f483SJoonsoo Kim	struct resv_map *resv;
4e35f483SJoonsoo Kim	pgoff_t idx;
cf3ad20bSMike Kravetz	long ret;
0db9d74eSMina Almasry	long dummy_out_regions_needed;
c37f9fb1SAndy Whitcroft
4e35f483SJoonsoo Kim	resv = vma_resv_map(vma);
4e35f483SJoonsoo Kim	if (!resv)
c37f9fb1SAndy Whitcroft		return 1;
c37f9fb1SAndy Whitcroft
4e35f483SJoonsoo Kim	idx = vma_hugecache_offset(h, vma, addr);
5e911373SMike Kravetz	switch (mode) {
5e911373SMike Kravetz	case VMA_NEEDS_RESV:
0db9d74eSMina Almasry		ret = region_chg(resv, idx, idx + 1, &dummy_out_regions_needed);
0db9d74eSMina Almasry		/* We assume that vma_reservation_* routines always operate on
0db9d74eSMina Almasry		 * 1 page, and that adding to resv map a 1 page entry can only
0db9d74eSMina Almasry		 * ever require 1 region.
0db9d74eSMina Almasry		 */
0db9d74eSMina Almasry		VM_BUG_ON(dummy_out_regions_needed != 1);
5e911373SMike Kravetz		break;
5e911373SMike Kravetz	case VMA_COMMIT_RESV:
075a61d0SMina Almasry		ret = region_add(resv, idx, idx + 1, 1, NULL, NULL);
0db9d74eSMina Almasry		/* region_add calls of range 1 should never fail. */
0db9d74eSMina Almasry		VM_BUG_ON(ret < 0);
5e911373SMike Kravetz		break;
feba16e2SMike Kravetz	case VMA_END_RESV:
0db9d74eSMina Almasry		region_abort(resv, idx, idx + 1, 1);
5e911373SMike Kravetz		ret = 0;
5e911373SMike Kravetz		break;
96b96a96SMike Kravetz	case VMA_ADD_RESV:
0db9d74eSMina Almasry		if (vma->vm_flags & VM_MAYSHARE) {
075a61d0SMina Almasry			ret = region_add(resv, idx, idx + 1, 1, NULL, NULL);
0db9d74eSMina Almasry			/* region_add calls of range 1 should never fail. */
0db9d74eSMina Almasry			VM_BUG_ON(ret < 0);
0db9d74eSMina Almasry		} else {
0db9d74eSMina Almasry			region_abort(resv, idx, idx + 1, 1);
96b96a96SMike Kravetz			ret = region_del(resv, idx, idx + 1);
96b96a96SMike Kravetz		}
96b96a96SMike Kravetz		break;
846be085SMike Kravetz	case VMA_DEL_RESV:
846be085SMike Kravetz		if (vma->vm_flags & VM_MAYSHARE) {
846be085SMike Kravetz			region_abort(resv, idx, idx + 1, 1);
846be085SMike Kravetz			ret = region_del(resv, idx, idx + 1);
846be085SMike Kravetz		} else {
846be085SMike Kravetz			ret = region_add(resv, idx, idx + 1, 1, NULL, NULL);
846be085SMike Kravetz			/* region_add calls of range 1 should never fail. */
846be085SMike Kravetz			VM_BUG_ON(ret < 0);
846be085SMike Kravetz		}
846be085SMike Kravetz		break;
5e911373SMike Kravetz	default:
5e911373SMike Kravetz		BUG();
5e911373SMike Kravetz	}
84afd99bSAndy Whitcroft
846be085SMike Kravetz	if (vma->vm_flags & VM_MAYSHARE || mode == VMA_DEL_RESV)
cf3ad20bSMike Kravetz		return ret;
67961f9dSMike Kravetz	/*
bf3d12b9SMiaohe Lin	 * We know private mapping must have HPAGE_RESV_OWNER set.
bf3d12b9SMiaohe Lin	 *
67961f9dSMike Kravetz	 * In most cases, reserves always exist for private mappings.
67961f9dSMike Kravetz	 * However, a file associated with mapping could have been
67961f9dSMike Kravetz	 * hole punched or truncated after reserves were consumed.
67961f9dSMike Kravetz	 * As subsequent fault on such a range will not use reserves.
67961f9dSMike Kravetz	 * Subtle - The reserve map for private mappings has the
67961f9dSMike Kravetz	 * opposite meaning than that of shared mappings.  If NO
67961f9dSMike Kravetz	 * entry is in the reserve map, it means a reservation exists.
67961f9dSMike Kravetz	 * If an entry exists in the reserve map, it means the
67961f9dSMike Kravetz	 * reservation has already been consumed.  As a result, the
67961f9dSMike Kravetz	 * return value of this routine is the opposite of the
67961f9dSMike Kravetz	 * value returned from reserve map manipulation routines above.
67961f9dSMike Kravetz	 */
bf3d12b9SMiaohe Lin	if (ret > 0)
67961f9dSMike Kravetz		return 0;
bf3d12b9SMiaohe Lin	if (ret == 0)
67961f9dSMike Kravetz		return 1;
bf3d12b9SMiaohe Lin	return ret;
84afd99bSAndy Whitcroft}
cf3ad20bSMike Kravetz
cf3ad20bSMike Kravetzstatic long vma_needs_reservation(struct hstate *h,
a5516438SAndi Kleen			struct vm_area_struct *vma, unsigned long addr)
c37f9fb1SAndy Whitcroft{
5e911373SMike Kravetz	return __vma_reservation_common(h, vma, addr, VMA_NEEDS_RESV);
cf3ad20bSMike Kravetz}
c37f9fb1SAndy Whitcroft
cf3ad20bSMike Kravetzstatic long vma_commit_reservation(struct hstate *h,
cf3ad20bSMike Kravetz			struct vm_area_struct *vma, unsigned long addr)
cf3ad20bSMike Kravetz{
5e911373SMike Kravetz	return __vma_reservation_common(h, vma, addr, VMA_COMMIT_RESV);
5e911373SMike Kravetz}
5e911373SMike Kravetz
feba16e2SMike Kravetzstatic void vma_end_reservation(struct hstate *h,
5e911373SMike Kravetz			struct vm_area_struct *vma, unsigned long addr)
5e911373SMike Kravetz{
feba16e2SMike Kravetz	(void)__vma_reservation_common(h, vma, addr, VMA_END_RESV);
c37f9fb1SAndy Whitcroft}
c37f9fb1SAndy Whitcroft
96b96a96SMike Kravetzstatic long vma_add_reservation(struct hstate *h,
96b96a96SMike Kravetz			struct vm_area_struct *vma, unsigned long addr)
96b96a96SMike Kravetz{
96b96a96SMike Kravetz	return __vma_reservation_common(h, vma, addr, VMA_ADD_RESV);
96b96a96SMike Kravetz}
96b96a96SMike Kravetz
846be085SMike Kravetzstatic long vma_del_reservation(struct hstate *h,
846be085SMike Kravetz			struct vm_area_struct *vma, unsigned long addr)
96b96a96SMike Kravetz{
846be085SMike Kravetz	return __vma_reservation_common(h, vma, addr, VMA_DEL_RESV);
846be085SMike Kravetz}
846be085SMike Kravetz
846be085SMike Kravetz/*
846be085SMike Kravetz * This routine is called to restore reservation information on error paths.
d0ce0e47SSidhartha Kumar * It should ONLY be called for folios allocated via alloc_hugetlb_folio(),
d0ce0e47SSidhartha Kumar * and the hugetlb mutex should remain held when calling this routine.
846be085SMike Kravetz *
846be085SMike Kravetz * It handles two specific cases:
d2d7bb44SSidhartha Kumar * 1) A reservation was in place and the folio consumed the reservation.
d2d7bb44SSidhartha Kumar *    hugetlb_restore_reserve is set in the folio.
d2d7bb44SSidhartha Kumar * 2) No reservation was in place for the page, so hugetlb_restore_reserve is
d0ce0e47SSidhartha Kumar *    not set.  However, alloc_hugetlb_folio always updates the reserve map.
846be085SMike Kravetz *
454a00c4SMatthew Wilcox (Oracle) * In case 1, free_huge_folio later in the error path will increment the
454a00c4SMatthew Wilcox (Oracle) * global reserve count.  But, free_huge_folio does not have enough context
846be085SMike Kravetz * to adjust the reservation map.  This case deals primarily with private
846be085SMike Kravetz * mappings.  Adjust the reserve map here to be consistent with global
454a00c4SMatthew Wilcox (Oracle) * reserve count adjustments to be made by free_huge_folio.  Make sure the
846be085SMike Kravetz * reserve map indicates there is a reservation present.
846be085SMike Kravetz *
d0ce0e47SSidhartha Kumar * In case 2, simply undo reserve map modifications done by alloc_hugetlb_folio.
846be085SMike Kravetz */
846be085SMike Kravetzvoid restore_reserve_on_error(struct hstate *h, struct vm_area_struct *vma,
d2d7bb44SSidhartha Kumar			unsigned long address, struct folio *folio)
846be085SMike Kravetz{
96b96a96SMike Kravetz	long rc = vma_needs_reservation(h, vma, address);
96b96a96SMike Kravetz
0ffdc38eSSidhartha Kumar	if (folio_test_hugetlb_restore_reserve(folio)) {
846be085SMike Kravetz		if (unlikely(rc < 0))
96b96a96SMike Kravetz			/*
96b96a96SMike Kravetz			 * Rare out of memory condition in reserve map
0ffdc38eSSidhartha Kumar			 * manipulation.  Clear hugetlb_restore_reserve so
0ffdc38eSSidhartha Kumar			 * that global reserve count will not be incremented
454a00c4SMatthew Wilcox (Oracle)			 * by free_huge_folio.  This will make it appear
0ffdc38eSSidhartha Kumar			 * as though the reservation for this folio was
96b96a96SMike Kravetz			 * consumed.  This may prevent the task from
0ffdc38eSSidhartha Kumar			 * faulting in the folio at a later time.  This
96b96a96SMike Kravetz			 * is better than inconsistent global huge page
96b96a96SMike Kravetz			 * accounting of reserve counts.
96b96a96SMike Kravetz			 */
0ffdc38eSSidhartha Kumar			folio_clear_hugetlb_restore_reserve(folio);
846be085SMike Kravetz		else if (rc)
846be085SMike Kravetz			(void)vma_add_reservation(h, vma, address);
846be085SMike Kravetz		else
846be085SMike Kravetz			vma_end_reservation(h, vma, address);
846be085SMike Kravetz	} else {
846be085SMike Kravetz		if (!rc) {
96b96a96SMike Kravetz			/*
846be085SMike Kravetz			 * This indicates there is an entry in the reserve map
d0ce0e47SSidhartha Kumar			 * not added by alloc_hugetlb_folio.  We know it was added
d0ce0e47SSidhartha Kumar			 * before the alloc_hugetlb_folio call, otherwise
0ffdc38eSSidhartha Kumar			 * hugetlb_restore_reserve would be set on the folio.
846be085SMike Kravetz			 * Remove the entry so that a subsequent allocation
846be085SMike Kravetz			 * does not consume a reservation.
96b96a96SMike Kravetz			 */
846be085SMike Kravetz			rc = vma_del_reservation(h, vma, address);
846be085SMike Kravetz			if (rc < 0)
846be085SMike Kravetz				/*
846be085SMike Kravetz				 * VERY rare out of memory condition.  Since
846be085SMike Kravetz				 * we can not delete the entry, set
0ffdc38eSSidhartha Kumar				 * hugetlb_restore_reserve so that the reserve
0ffdc38eSSidhartha Kumar				 * count will be incremented when the folio
846be085SMike Kravetz				 * is freed.  This reserve will be consumed
846be085SMike Kravetz				 * on a subsequent allocation.
846be085SMike Kravetz				 */
0ffdc38eSSidhartha Kumar				folio_set_hugetlb_restore_reserve(folio);
846be085SMike Kravetz		} else if (rc < 0) {
846be085SMike Kravetz			/*
846be085SMike Kravetz			 * Rare out of memory condition from
846be085SMike Kravetz			 * vma_needs_reservation call.  Memory allocation is
846be085SMike Kravetz			 * only attempted if a new entry is needed.  Therefore,
846be085SMike Kravetz			 * this implies there is not an entry in the
846be085SMike Kravetz			 * reserve map.
846be085SMike Kravetz			 *
846be085SMike Kravetz			 * For shared mappings, no entry in the map indicates
846be085SMike Kravetz			 * no reservation.  We are done.
846be085SMike Kravetz			 */
846be085SMike Kravetz			if (!(vma->vm_flags & VM_MAYSHARE))
846be085SMike Kravetz				/*
846be085SMike Kravetz				 * For private mappings, no entry indicates
846be085SMike Kravetz				 * a reservation is present.  Since we can
0ffdc38eSSidhartha Kumar				 * not add an entry, set hugetlb_restore_reserve
0ffdc38eSSidhartha Kumar				 * on the folio so reserve count will be
846be085SMike Kravetz				 * incremented when freed.  This reserve will
846be085SMike Kravetz				 * be consumed on a subsequent allocation.
846be085SMike Kravetz				 */
0ffdc38eSSidhartha Kumar				folio_set_hugetlb_restore_reserve(folio);
824b8c96SJoshua Hahn		} else {
846be085SMike Kravetz			/*
846be085SMike Kravetz			 * No reservation present, do nothing
846be085SMike Kravetz			 */
96b96a96SMike Kravetz			vma_end_reservation(h, vma, address);
96b96a96SMike Kravetz		}
96b96a96SMike Kravetz	}
824b8c96SJoshua Hahn}
96b96a96SMike Kravetz
369fa227SOscar Salvador/*
19fc1a7eSSidhartha Kumar * alloc_and_dissolve_hugetlb_folio - Allocate a new folio and dissolve
19fc1a7eSSidhartha Kumar * the old one
19fc1a7eSSidhartha Kumar * @old_folio: Old folio to dissolve
ae37c7ffSOscar Salvador * @list: List to isolate the page in case we need to
369fa227SOscar Salvador * Returns 0 on success, otherwise negated error.
369fa227SOscar Salvador */
344ef45bSGe Yangstatic int alloc_and_dissolve_hugetlb_folio(struct folio *old_folio,
344ef45bSGe Yang			struct list_head *list)
369fa227SOscar Salvador{
344ef45bSGe Yang	gfp_t gfp_mask;
344ef45bSGe Yang	struct hstate *h;
de656ed3SSidhartha Kumar	int nid = folio_nid(old_folio);
831bc31aSBaolin Wang	struct folio *new_folio = NULL;
369fa227SOscar Salvador	int ret = 0;
369fa227SOscar Salvador
369fa227SOscar Salvadorretry:
344ef45bSGe Yang	/*
344ef45bSGe Yang	 * The old_folio might have been dissolved from under our feet, so make sure
344ef45bSGe Yang	 * to carefully check the state under the lock.
344ef45bSGe Yang	 */
369fa227SOscar Salvador	spin_lock_irq(&hugetlb_lock);
de656ed3SSidhartha Kumar	if (!folio_test_hugetlb(old_folio)) {
369fa227SOscar Salvador		/*
19fc1a7eSSidhartha Kumar		 * Freed from under us. Drop new_folio too.
369fa227SOscar Salvador		 */
369fa227SOscar Salvador		goto free_new;
de656ed3SSidhartha Kumar	} else if (folio_ref_count(old_folio)) {
9747b9e9SBaolin Wang		bool isolated;
9747b9e9SBaolin Wang
369fa227SOscar Salvador		/*
19fc1a7eSSidhartha Kumar		 * Someone has grabbed the folio, try to isolate it here.
ae37c7ffSOscar Salvador		 * Fail with -EBUSY if not possible.
369fa227SOscar Salvador		 */
ae37c7ffSOscar Salvador		spin_unlock_irq(&hugetlb_lock);
4c640f12SDavid Hildenbrand		isolated = folio_isolate_hugetlb(old_folio, list);
9747b9e9SBaolin Wang		ret = isolated ? 0 : -EBUSY;
ae37c7ffSOscar Salvador		spin_lock_irq(&hugetlb_lock);
369fa227SOscar Salvador		goto free_new;
de656ed3SSidhartha Kumar	} else if (!folio_test_hugetlb_freed(old_folio)) {
369fa227SOscar Salvador		/*
19fc1a7eSSidhartha Kumar		 * Folio's refcount is 0 but it has not been enqueued in the
369fa227SOscar Salvador		 * freelist yet. Race window is small, so we can succeed here if
369fa227SOscar Salvador		 * we retry.
369fa227SOscar Salvador		 */
369fa227SOscar Salvador		spin_unlock_irq(&hugetlb_lock);
369fa227SOscar Salvador		cond_resched();
369fa227SOscar Salvador		goto retry;
369fa227SOscar Salvador	} else {
344ef45bSGe Yang		h = folio_hstate(old_folio);
831bc31aSBaolin Wang		if (!new_folio) {
831bc31aSBaolin Wang			spin_unlock_irq(&hugetlb_lock);
344ef45bSGe Yang			gfp_mask = htlb_alloc_mask(h) | __GFP_THISNODE;
902020f0SKefeng Wang			new_folio = alloc_fresh_hugetlb_folio(h, gfp_mask,
902020f0SKefeng Wang							      nid, NULL);
831bc31aSBaolin Wang			if (!new_folio)
831bc31aSBaolin Wang				return -ENOMEM;
831bc31aSBaolin Wang			goto retry;
831bc31aSBaolin Wang		}
831bc31aSBaolin Wang
369fa227SOscar Salvador		/*
19fc1a7eSSidhartha Kumar		 * Ok, old_folio is still a genuine free hugepage. Remove it from
369fa227SOscar Salvador		 * the freelist and decrease the counters. These will be
4094d343SKefeng Wang		 * incremented again when calling account_new_hugetlb_folio()
240d67a8SSidhartha Kumar		 * and enqueue_hugetlb_folio() for new_folio. The counters will
240d67a8SSidhartha Kumar		 * remain stable since this happens under the lock.
369fa227SOscar Salvador		 */
cfd5082bSSidhartha Kumar		remove_hugetlb_folio(h, old_folio, false);
369fa227SOscar Salvador
369fa227SOscar Salvador		/*
19fc1a7eSSidhartha Kumar		 * Ref count on new_folio is already zero as it was dropped
b65a4edaSMike Kravetz		 * earlier.  It can be directly added to the pool free list.
369fa227SOscar Salvador		 */
4094d343SKefeng Wang		account_new_hugetlb_folio(h, new_folio);
240d67a8SSidhartha Kumar		enqueue_hugetlb_folio(h, new_folio);
369fa227SOscar Salvador
369fa227SOscar Salvador		/*
19fc1a7eSSidhartha Kumar		 * Folio has been replaced, we can safely free the old one.
369fa227SOscar Salvador		 */
369fa227SOscar Salvador		spin_unlock_irq(&hugetlb_lock);
d6ef19e2SSidhartha Kumar		update_and_free_hugetlb_folio(h, old_folio, false);
369fa227SOscar Salvador	}
369fa227SOscar Salvador
369fa227SOscar Salvador	return ret;
369fa227SOscar Salvador
369fa227SOscar Salvadorfree_new:
369fa227SOscar Salvador	spin_unlock_irq(&hugetlb_lock);
bd225530SYu Zhao	if (new_folio)
d6ef19e2SSidhartha Kumar		update_and_free_hugetlb_folio(h, new_folio, false);
369fa227SOscar Salvador
369fa227SOscar Salvador	return ret;
369fa227SOscar Salvador}
369fa227SOscar Salvador
b4c829faSVishal Moola (Oracle)int isolate_or_dissolve_huge_folio(struct folio *folio, struct list_head *list)
369fa227SOscar Salvador{
ae37c7ffSOscar Salvador	int ret = -EBUSY;
369fa227SOscar Salvador
344ef45bSGe Yang	/* Not to disrupt normal path by vainly holding hugetlb_lock */
344ef45bSGe Yang	if (!folio_test_hugetlb(folio))
369fa227SOscar Salvador		return 0;
369fa227SOscar Salvador
369fa227SOscar Salvador	/*
369fa227SOscar Salvador	 * Fence off gigantic pages as there is a cyclic dependency between
369fa227SOscar Salvador	 * alloc_contig_range and them. Return -ENOMEM as this has the effect
369fa227SOscar Salvador	 * of bailing out right away without further retrying.
369fa227SOscar Salvador	 */
4a25f995SKefeng Wang	if (order_is_gigantic(folio_order(folio)))
369fa227SOscar Salvador		return -ENOMEM;
369fa227SOscar Salvador
4c640f12SDavid Hildenbrand	if (folio_ref_count(folio) && folio_isolate_hugetlb(folio, list))
ae37c7ffSOscar Salvador		ret = 0;
d5e33bd8SSidhartha Kumar	else if (!folio_ref_count(folio))
344ef45bSGe Yang		ret = alloc_and_dissolve_hugetlb_folio(folio, list);
ae37c7ffSOscar Salvador
ae37c7ffSOscar Salvador	return ret;
369fa227SOscar Salvador}
369fa227SOscar Salvador
04f13d24Syangge/*
04f13d24Syangge *  replace_free_hugepage_folios - Replace free hugepage folios in a given pfn
04f13d24Syangge *  range with new folios.
04f13d24Syangge *  @start_pfn: start pfn of the given pfn range
04f13d24Syangge *  @end_pfn: end pfn of the given pfn range
04f13d24Syangge *  Returns 0 on success, otherwise negated error.
04f13d24Syangge */
04f13d24Syanggeint replace_free_hugepage_folios(unsigned long start_pfn, unsigned long end_pfn)
04f13d24Syangge{
5a74b9f1SKefeng Wang	unsigned long nr = 0;
5a74b9f1SKefeng Wang	struct page *page;
5a74b9f1SKefeng Wang	struct hstate *h;
5a74b9f1SKefeng Wang	LIST_HEAD(list);
04f13d24Syangge	int ret = 0;
04f13d24Syangge
5a74b9f1SKefeng Wang	/* Avoid pfn iterations if no free non-gigantic huge pages */
5a74b9f1SKefeng Wang	for_each_hstate(h) {
5a74b9f1SKefeng Wang		if (hstate_is_gigantic(h))
5a74b9f1SKefeng Wang			continue;
5a74b9f1SKefeng Wang
5a74b9f1SKefeng Wang		nr += h->free_huge_pages;
5a74b9f1SKefeng Wang		if (nr)
5a74b9f1SKefeng Wang			break;
5a74b9f1SKefeng Wang	}
5a74b9f1SKefeng Wang
5a74b9f1SKefeng Wang	if (!nr)
5a74b9f1SKefeng Wang		return 0;
04f13d24Syangge
04f13d24Syangge	while (start_pfn < end_pfn) {
5a74b9f1SKefeng Wang		page = pfn_to_page(start_pfn);
5a74b9f1SKefeng Wang		nr = 1;
113ed54aSGe Yang
5a74b9f1SKefeng Wang		if (PageHuge(page) || PageCompound(page)) {
5a74b9f1SKefeng Wang			struct folio *folio = page_folio(page);
5a74b9f1SKefeng Wang
5a74b9f1SKefeng Wang			nr = folio_nr_pages(folio) - folio_page_idx(folio, page);
5a74b9f1SKefeng Wang
5a74b9f1SKefeng Wang			/*
5a74b9f1SKefeng Wang			 * Don't disrupt normal path by vainly holding
5a74b9f1SKefeng Wang			 * hugetlb_lock
5a74b9f1SKefeng Wang			 */
344ef45bSGe Yang			if (folio_test_hugetlb(folio) && !folio_ref_count(folio)) {
5a74b9f1SKefeng Wang				if (order_is_gigantic(folio_order(folio))) {
5a74b9f1SKefeng Wang					ret = -ENOMEM;
5a74b9f1SKefeng Wang					break;
5a74b9f1SKefeng Wang				}
5a74b9f1SKefeng Wang
5a74b9f1SKefeng Wang				ret = alloc_and_dissolve_hugetlb_folio(folio, &list);
04f13d24Syangge				if (ret)
04f13d24Syangge					break;
04f13d24Syangge
5a74b9f1SKefeng Wang				putback_movable_pages(&list);
04f13d24Syangge			}
5a74b9f1SKefeng Wang		} else if (PageBuddy(page)) {
5a74b9f1SKefeng Wang			/*
5a74b9f1SKefeng Wang			 * Buddy order check without zone lock is unsafe and
5a74b9f1SKefeng Wang			 * the order is maybe invalid, but race should be
5a74b9f1SKefeng Wang			 * small, and the worst thing is skipping free hugetlb.
5a74b9f1SKefeng Wang			 */
5a74b9f1SKefeng Wang			const unsigned int order = buddy_order_unsafe(page);
5a74b9f1SKefeng Wang
5a74b9f1SKefeng Wang			if (order <= MAX_PAGE_ORDER)
5a74b9f1SKefeng Wang				nr = 1UL << order;
5a74b9f1SKefeng Wang		}
5a74b9f1SKefeng Wang		start_pfn += nr;
04f13d24Syangge	}
04f13d24Syangge
04f13d24Syangge	return ret;
04f13d24Syangge}
04f13d24Syangge
67bab133SGe Yangvoid wait_for_freed_hugetlb_folios(void)
67bab133SGe Yang{
67bab133SGe Yang	if (llist_empty(&hpage_freelist))
67bab133SGe Yang		return;
67bab133SGe Yang
67bab133SGe Yang	flush_work(&free_hpage_work);
67bab133SGe Yang}
67bab133SGe Yang
923682a0SPeter Xutypedef enum {
923682a0SPeter Xu	/*
923682a0SPeter Xu	 * For either 0/1: we checked the per-vma resv map, and one resv
923682a0SPeter Xu	 * count either can be reused (0), or an extra needed (1).
923682a0SPeter Xu	 */
923682a0SPeter Xu	MAP_CHG_REUSE = 0,
923682a0SPeter Xu	MAP_CHG_NEEDED = 1,
923682a0SPeter Xu	/*
923682a0SPeter Xu	 * Cannot use per-vma resv count can be used, hence a new resv
923682a0SPeter Xu	 * count is enforced.
923682a0SPeter Xu	 *
923682a0SPeter Xu	 * NOTE: This is mostly identical to MAP_CHG_NEEDED, except
923682a0SPeter Xu	 * that currently vma_needs_reservation() has an unwanted side
923682a0SPeter Xu	 * effect to either use end() or commit() to complete the
b6c46600Sjianyun.gao	 * transaction. Hence it needs to differentiate from NEEDED.
923682a0SPeter Xu	 */
923682a0SPeter Xu	MAP_CHG_ENFORCED = 2,
923682a0SPeter Xu} map_chg_state;
923682a0SPeter Xu
30cef82bSPeter Xu/*
30cef82bSPeter Xu * NOTE! "cow_from_owner" represents a very hacky usage only used in CoW
30cef82bSPeter Xu * faults of hugetlb private mappings on top of a non-page-cache folio (in
30cef82bSPeter Xu * which case even if there's a private vma resv map it won't cover such
30cef82bSPeter Xu * allocation).  New call sites should (probably) never set it to true!!
30cef82bSPeter Xu * When it's set, the allocation will bypass all vma level reservations.
30cef82bSPeter Xu */
d0ce0e47SSidhartha Kumarstruct folio *alloc_hugetlb_folio(struct vm_area_struct *vma,
30cef82bSPeter Xu				    unsigned long addr, bool cow_from_owner)
348ea204SAdam Litke{
90481622SDavid Gibson	struct hugepage_subpool *spool = subpool_vma(vma);
a5516438SAndi Kleen	struct hstate *h = hstate_vma(vma);
d4ab0316SSidhartha Kumar	struct folio *folio;
a833a693SWupeng Ma	long retval, gbl_chg, gbl_reserve;
923682a0SPeter Xu	map_chg_state map_chg;
99113577SJoshua Hahn	int ret, idx;
d0ce0e47SSidhartha Kumar	struct hugetlb_cgroup *h_cg = NULL;
8cba9576SNhat Pham	gfp_t gfp = htlb_alloc_mask(h) | __GFP_RETRY_MAYFAIL;
8cba9576SNhat Pham
6d76dcf4SAneesh Kumar K.V	idx = hstate_index(h);
923682a0SPeter Xu
923682a0SPeter Xu	/* Whether we need a separate per-vma reservation? */
923682a0SPeter Xu	if (cow_from_owner) {
923682a0SPeter Xu		/*
923682a0SPeter Xu		 * Special case!  Since it's a CoW on top of a reserved
923682a0SPeter Xu		 * page, the private resv map doesn't count.  So it cannot
923682a0SPeter Xu		 * consume the per-vma resv map even if it's reserved.
923682a0SPeter Xu		 */
923682a0SPeter Xu		map_chg = MAP_CHG_ENFORCED;
923682a0SPeter Xu	} else {
a1e78772SMel Gorman		/*
d85f69b0SMike Kravetz		 * Examine the region/reserve map to determine if the process
d85f69b0SMike Kravetz		 * has a reservation for the page to be allocated.  A return
d85f69b0SMike Kravetz		 * code of zero indicates a reservation exists (no change).
a1e78772SMel Gorman		 */
923682a0SPeter Xu		retval = vma_needs_reservation(h, vma, addr);
923682a0SPeter Xu		if (retval < 0)
76dcee75SAneesh Kumar K.V			return ERR_PTR(-ENOMEM);
923682a0SPeter Xu		map_chg = retval ? MAP_CHG_NEEDED : MAP_CHG_REUSE;
923682a0SPeter Xu	}
d85f69b0SMike Kravetz
d85f69b0SMike Kravetz	/*
923682a0SPeter Xu	 * Whether we need a separate global reservation?
923682a0SPeter Xu	 *
d85f69b0SMike Kravetz	 * Processes that did not create the mapping will have no
d85f69b0SMike Kravetz	 * reserves as indicated by the region/reserve map. Check
d85f69b0SMike Kravetz	 * that the allocation will not exceed the subpool limit.
923682a0SPeter Xu	 * Or if it can get one from the pool reservation directly.
d85f69b0SMike Kravetz	 */
923682a0SPeter Xu	if (map_chg) {
d85f69b0SMike Kravetz		gbl_chg = hugepage_subpool_get_pages(spool, 1);
8cba9576SNhat Pham		if (gbl_chg < 0)
8cba9576SNhat Pham			goto out_end_reservation;
923682a0SPeter Xu	} else {
923682a0SPeter Xu		/*
923682a0SPeter Xu		 * If we have the vma reservation ready, no need for extra
923682a0SPeter Xu		 * global reservation.
923682a0SPeter Xu		 */
923682a0SPeter Xu		gbl_chg = 0;
d85f69b0SMike Kravetz	}
d85f69b0SMike Kravetz
923682a0SPeter Xu	/*
923682a0SPeter Xu	 * If this allocation is not consuming a per-vma reservation,
923682a0SPeter Xu	 * charge the hugetlb cgroup now.
08cf9fafSMina Almasry	 */
923682a0SPeter Xu	if (map_chg) {
08cf9fafSMina Almasry		ret = hugetlb_cgroup_charge_cgroup_rsvd(
08cf9fafSMina Almasry			idx, pages_per_huge_page(h), &h_cg);
8f34af6fSJianyu Zhan		if (ret)
8f34af6fSJianyu Zhan			goto out_subpool_put;
08cf9fafSMina Almasry	}
08cf9fafSMina Almasry
08cf9fafSMina Almasry	ret = hugetlb_cgroup_charge_cgroup(idx, pages_per_huge_page(h), &h_cg);
08cf9fafSMina Almasry	if (ret)
08cf9fafSMina Almasry		goto out_uncharge_cgroup_reservation;
8f34af6fSJianyu Zhan
db71ef79SMike Kravetz	spin_lock_irq(&hugetlb_lock);
d85f69b0SMike Kravetz	/*
d85f69b0SMike Kravetz	 * glb_chg is passed to indicate whether or not a page must be taken
d85f69b0SMike Kravetz	 * from the global free pool (global change).  gbl_chg == 0 indicates
d85f69b0SMike Kravetz	 * a reservation exists for the allocation.
d85f69b0SMike Kravetz	 */
58db7c5fSPeter Xu	folio = dequeue_hugetlb_folio_vma(h, vma, addr, gbl_chg);
ff7d853bSSidhartha Kumar	if (!folio) {
db71ef79SMike Kravetz		spin_unlock_irq(&hugetlb_lock);
ff7d853bSSidhartha Kumar		folio = alloc_buddy_hugetlb_folio_with_mpol(h, vma, addr);
ff7d853bSSidhartha Kumar		if (!folio)
8f34af6fSJianyu Zhan			goto out_uncharge_cgroup;
12df140fSRik van Riel		spin_lock_irq(&hugetlb_lock);
ff7d853bSSidhartha Kumar		list_add(&folio->lru, &h->hugepage_activelist);
ff7d853bSSidhartha Kumar		folio_ref_unfreeze(folio, 1);
81a6fcaeSJoonsoo Kim		/* Fall through */
a1e78772SMel Gorman	}
ff7d853bSSidhartha Kumar
f931af2eSPeter Xu	/*
f931af2eSPeter Xu	 * Either dequeued or buddy-allocated folio needs to add special
f931af2eSPeter Xu	 * mark to the folio when it consumes a global reservation.
f931af2eSPeter Xu	 */
f931af2eSPeter Xu	if (!gbl_chg) {
f931af2eSPeter Xu		folio_set_hugetlb_restore_reserve(folio);
f931af2eSPeter Xu		h->resv_huge_pages--;
f931af2eSPeter Xu	}
f931af2eSPeter Xu
ff7d853bSSidhartha Kumar	hugetlb_cgroup_commit_charge(idx, pages_per_huge_page(h), h_cg, folio);
08cf9fafSMina Almasry	/* If allocation is not consuming a reservation, also store the
08cf9fafSMina Almasry	 * hugetlb_cgroup pointer on the page.
08cf9fafSMina Almasry	 */
923682a0SPeter Xu	if (map_chg) {
08cf9fafSMina Almasry		hugetlb_cgroup_commit_charge_rsvd(idx, pages_per_huge_page(h),
ff7d853bSSidhartha Kumar						  h_cg, folio);
08cf9fafSMina Almasry	}
08cf9fafSMina Almasry
db71ef79SMike Kravetz	spin_unlock_irq(&hugetlb_lock);
a1e78772SMel Gorman
ff7d853bSSidhartha Kumar	hugetlb_set_folio_subpool(folio, spool);
a1e78772SMel Gorman
923682a0SPeter Xu	if (map_chg != MAP_CHG_ENFORCED) {
923682a0SPeter Xu		/* commit() is only needed if the map_chg is not enforced */
923682a0SPeter Xu		retval = vma_commit_reservation(h, vma, addr);
33039678SMike Kravetz		/*
923682a0SPeter Xu		 * Check for possible race conditions. When it happens..
33039678SMike Kravetz		 * The page was added to the reservation map between
33039678SMike Kravetz		 * vma_needs_reservation and vma_commit_reservation.
33039678SMike Kravetz		 * This indicates a race with hugetlb_reserve_pages.
33039678SMike Kravetz		 * Adjust for the subpool count incremented above AND
33039678SMike Kravetz		 * in hugetlb_reserve_pages for the same page.	Also,
33039678SMike Kravetz		 * the reservation count added in hugetlb_reserve_pages
33039678SMike Kravetz		 * no longer applies.
33039678SMike Kravetz		 */
923682a0SPeter Xu		if (unlikely(map_chg == MAP_CHG_NEEDED && retval == 0)) {
33039678SMike Kravetz			long rsv_adjust;
33039678SMike Kravetz
33039678SMike Kravetz			rsv_adjust = hugepage_subpool_put_pages(spool, 1);
33039678SMike Kravetz			hugetlb_acct_memory(h, -rsv_adjust);
b76b4690SPeter Xu			spin_lock_irq(&hugetlb_lock);
923682a0SPeter Xu			hugetlb_cgroup_uncharge_folio_rsvd(
a1c655f5SJoshua Hahn			    hstate_index(h), pages_per_huge_page(h), folio);
b76b4690SPeter Xu			spin_unlock_irq(&hugetlb_lock);
b76b4690SPeter Xu		}
33039678SMike Kravetz	}
8cba9576SNhat Pham
99113577SJoshua Hahn	ret = mem_cgroup_charge_hugetlb(folio, gfp);
99113577SJoshua Hahn	/*
99113577SJoshua Hahn	 * Unconditionally increment NR_HUGETLB here. If it turns out that
99113577SJoshua Hahn	 * mem_cgroup_charge_hugetlb failed, then immediately free the page and
99113577SJoshua Hahn	 * decrement NR_HUGETLB.
99113577SJoshua Hahn	 */
05d4532bSJoshua Hahn	lruvec_stat_mod_folio(folio, NR_HUGETLB, pages_per_huge_page(h));
99113577SJoshua Hahn
99113577SJoshua Hahn	if (ret == -ENOMEM) {
99113577SJoshua Hahn		free_huge_folio(folio);
99113577SJoshua Hahn		return ERR_PTR(-ENOMEM);
99113577SJoshua Hahn	}
8cba9576SNhat Pham
d0ce0e47SSidhartha Kumar	return folio;
8f34af6fSJianyu Zhan
8f34af6fSJianyu Zhanout_uncharge_cgroup:
8f34af6fSJianyu Zhan	hugetlb_cgroup_uncharge_cgroup(idx, pages_per_huge_page(h), h_cg);
08cf9fafSMina Almasryout_uncharge_cgroup_reservation:
923682a0SPeter Xu	if (map_chg)
08cf9fafSMina Almasry		hugetlb_cgroup_uncharge_cgroup_rsvd(idx, pages_per_huge_page(h),
08cf9fafSMina Almasry						    h_cg);
8f34af6fSJianyu Zhanout_subpool_put:
a833a693SWupeng Ma	/*
a833a693SWupeng Ma	 * put page to subpool iff the quota of subpool's rsv_hpages is used
a833a693SWupeng Ma	 * during hugepage_subpool_get_pages.
a833a693SWupeng Ma	 */
a833a693SWupeng Ma	if (map_chg && !gbl_chg) {
a833a693SWupeng Ma		gbl_reserve = hugepage_subpool_put_pages(spool, 1);
a833a693SWupeng Ma		hugetlb_acct_memory(h, -gbl_reserve);
a833a693SWupeng Ma	}
a833a693SWupeng Ma
a833a693SWupeng Ma
8cba9576SNhat Phamout_end_reservation:
923682a0SPeter Xu	if (map_chg != MAP_CHG_ENFORCED)
feba16e2SMike Kravetz		vma_end_reservation(h, vma, addr);
8f34af6fSJianyu Zhan	return ERR_PTR(-ENOSPC);
b45b5bd6SDavid Gibson}
b45b5bd6SDavid Gibson
d2d78671SFrank van der Lindenstatic __init void *alloc_bootmem(struct hstate *h, int nid, bool node_exact)
d2d78671SFrank van der Linden{
d2d78671SFrank van der Linden	struct huge_bootmem_page *m;
d2d78671SFrank van der Linden	int listnode = nid;
d2d78671SFrank van der Linden
474fe91fSFrank van der Linden	if (hugetlb_early_cma(h))
474fe91fSFrank van der Linden		m = hugetlb_cma_alloc_bootmem(h, &listnode, node_exact);
474fe91fSFrank van der Linden	else {
d2d78671SFrank van der Linden		if (node_exact)
d2d78671SFrank van der Linden			m = memblock_alloc_exact_nid_raw(huge_page_size(h),
d2d78671SFrank van der Linden				huge_page_size(h), 0,
d2d78671SFrank van der Linden				MEMBLOCK_ALLOC_ACCESSIBLE, nid);
d2d78671SFrank van der Linden		else {
d2d78671SFrank van der Linden			m = memblock_alloc_try_nid_raw(huge_page_size(h),
d2d78671SFrank van der Linden				huge_page_size(h), 0,
d2d78671SFrank van der Linden				MEMBLOCK_ALLOC_ACCESSIBLE, nid);
d2d78671SFrank van der Linden			/*
d2d78671SFrank van der Linden			 * For pre-HVO to work correctly, pages need to be on
d2d78671SFrank van der Linden			 * the list for the node they were actually allocated
d2d78671SFrank van der Linden			 * from. That node may be different in the case of
d2d78671SFrank van der Linden			 * fallback by memblock_alloc_try_nid_raw. So,
d2d78671SFrank van der Linden			 * extract the actual node first.
d2d78671SFrank van der Linden			 */
d2d78671SFrank van der Linden			if (m)
a1e59fc6SRitesh Harjani (IBM)				listnode = early_pfn_to_nid(PHYS_PFN(__pa(m)));
d2d78671SFrank van der Linden		}
474fe91fSFrank van der Linden
474fe91fSFrank van der Linden		if (m) {
474fe91fSFrank van der Linden			m->flags = 0;
474fe91fSFrank van der Linden			m->cma = NULL;
474fe91fSFrank van der Linden		}
d2d78671SFrank van der Linden	}
d2d78671SFrank van der Linden
d2d78671SFrank van der Linden	if (m) {
d2d78671SFrank van der Linden		/*
d2d78671SFrank van der Linden		 * Use the beginning of the huge page to store the
d2d78671SFrank van der Linden		 * huge_bootmem_page struct (until gather_bootmem
d2d78671SFrank van der Linden		 * puts them into the mem_map).
d2d78671SFrank van der Linden		 *
d2d78671SFrank van der Linden		 * Put them into a private list first because mem_map
d2d78671SFrank van der Linden		 * is not up yet.
d2d78671SFrank van der Linden		 */
d2d78671SFrank van der Linden		INIT_LIST_HEAD(&m->list);
d2d78671SFrank van der Linden		list_add(&m->list, &huge_boot_pages[listnode]);
d2d78671SFrank van der Linden		m->hstate = h;
d2d78671SFrank van der Linden	}
d2d78671SFrank van der Linden
d2d78671SFrank van der Linden	return m;
d2d78671SFrank van der Linden}
d2d78671SFrank van der Linden
b5389086SZhenguo Yaoint alloc_bootmem_huge_page(struct hstate *h, int nid)
e24a1307SAneesh Kumar K.V	__attribute__ ((weak, alias("__alloc_bootmem_huge_page")));
b5389086SZhenguo Yaoint __alloc_bootmem_huge_page(struct hstate *h, int nid)
aa888a74SAndi Kleen{
b5389086SZhenguo Yao	struct huge_bootmem_page *m = NULL; /* initialize for clang */
b78b27d0SGang Li	int nr_nodes, node = nid;
aa888a74SAndi Kleen
b5389086SZhenguo Yao	/* do node specific alloc */
b5389086SZhenguo Yao	if (nid != NUMA_NO_NODE) {
d2d78671SFrank van der Linden		m = alloc_bootmem(h, node, true);
b5389086SZhenguo Yao		if (!m)
b5389086SZhenguo Yao			return 0;
b5389086SZhenguo Yao		goto found;
b5389086SZhenguo Yao	}
d2d78671SFrank van der Linden
b5389086SZhenguo Yao	/* allocate from next node when distributing huge pages */
8d88b076SFrank van der Linden	for_each_node_mask_to_alloc(&h->next_nid_to_alloc, nr_nodes, node,
8d88b076SFrank van der Linden				    &hugetlb_bootmem_nodes) {
d2d78671SFrank van der Linden		m = alloc_bootmem(h, node, false);
b5389086SZhenguo Yao		if (!m)
b5389086SZhenguo Yao			return 0;
aa888a74SAndi Kleen		goto found;
aa888a74SAndi Kleen	}
aa888a74SAndi Kleen
aa888a74SAndi Kleenfound:
fde1c4ecSUsama Arif
fde1c4ecSUsama Arif	/*
fde1c4ecSUsama Arif	 * Only initialize the head struct page in memmap_init_reserved_pages,
fde1c4ecSUsama Arif	 * rest of the struct pages will be initialized by the HugeTLB
fde1c4ecSUsama Arif	 * subsystem itself.
fde1c4ecSUsama Arif	 * The head struct page is used to get folio information by the HugeTLB
fde1c4ecSUsama Arif	 * subsystem like zone id and node id.
fde1c4ecSUsama Arif	 */
a1e59fc6SRitesh Harjani (IBM)	memblock_reserved_mark_noinit(__pa((void *)m + PAGE_SIZE),
fde1c4ecSUsama Arif		huge_page_size(h) - PAGE_SIZE);
b1222550SFrank van der Linden
aa888a74SAndi Kleen	return 1;
aa888a74SAndi Kleen}
aa888a74SAndi Kleen
fde1c4ecSUsama Arif/* Initialize [start_page:end_page_number] tail struct pages of a hugepage */
fde1c4ecSUsama Arifstatic void __init hugetlb_folio_init_tail_vmemmap(struct folio *folio,
f0369fb1SKiryl Shutsemau					struct hstate *h,
fde1c4ecSUsama Arif					unsigned long start_page_number,
fde1c4ecSUsama Arif					unsigned long end_page_number)
fde1c4ecSUsama Arif{
e24f66e8SMatthew Wilcox (Oracle)	enum zone_type zone = folio_zonenum(folio);
fde1c4ecSUsama Arif	int nid = folio_nid(folio);
372c9b54SDavid Hildenbrand	struct page *page = folio_page(folio, start_page_number);
fde1c4ecSUsama Arif	unsigned long head_pfn = folio_pfn(folio);
fde1c4ecSUsama Arif	unsigned long pfn, end_pfn = head_pfn + end_page_number;
f0369fb1SKiryl Shutsemau	unsigned int order = huge_page_order(h);
fde1c4ecSUsama Arif
372c9b54SDavid Hildenbrand	/*
372c9b54SDavid Hildenbrand	 * As we marked all tail pages with memblock_reserved_mark_noinit(),
372c9b54SDavid Hildenbrand	 * we must initialize them ourselves here.
372c9b54SDavid Hildenbrand	 */
372c9b54SDavid Hildenbrand	for (pfn = head_pfn + start_page_number; pfn < end_pfn; page++, pfn++) {
fde1c4ecSUsama Arif		__init_single_page(page, pfn, zone, nid);
f0369fb1SKiryl Shutsemau		prep_compound_tail(page, &folio->page, order);
372c9b54SDavid Hildenbrand		set_page_count(page, 0);
fde1c4ecSUsama Arif	}
fde1c4ecSUsama Arif}
fde1c4ecSUsama Arif
fde1c4ecSUsama Arifstatic void __init hugetlb_folio_init_vmemmap(struct folio *folio,
fde1c4ecSUsama Arif					      struct hstate *h,
fde1c4ecSUsama Arif					      unsigned long nr_pages)
fde1c4ecSUsama Arif{
fde1c4ecSUsama Arif	int ret;
fde1c4ecSUsama Arif
372c9b54SDavid Hildenbrand	/*
372c9b54SDavid Hildenbrand	 * This is an open-coded prep_compound_page() whereby we avoid
372c9b54SDavid Hildenbrand	 * walking pages twice by initializing/preparing+freezing them in the
372c9b54SDavid Hildenbrand	 * same go.
372c9b54SDavid Hildenbrand	 */
fde1c4ecSUsama Arif	__folio_clear_reserved(folio);
fde1c4ecSUsama Arif	__folio_set_head(folio);
a48bf7b4SSidhartha Kumar	ret = folio_ref_freeze(folio, 1);
fde1c4ecSUsama Arif	VM_BUG_ON(!ret);
f0369fb1SKiryl Shutsemau	hugetlb_folio_init_tail_vmemmap(folio, h, 1, nr_pages);
e24f66e8SMatthew Wilcox (Oracle)	prep_compound_head(&folio->page, huge_page_order(h));
fde1c4ecSUsama Arif}
fde1c4ecSUsama Arif
d2d78671SFrank van der Lindenstatic bool __init hugetlb_bootmem_page_prehvo(struct huge_bootmem_page *m)
d2d78671SFrank van der Linden{
d2d78671SFrank van der Linden	return m->flags & HUGE_BOOTMEM_HVO;
d2d78671SFrank van der Linden}
d2d78671SFrank van der Linden
d2d78671SFrank van der Lindenstatic bool __init hugetlb_bootmem_page_earlycma(struct huge_bootmem_page *m)
d2d78671SFrank van der Linden{
d2d78671SFrank van der Linden	return m->flags & HUGE_BOOTMEM_CMA;
d2d78671SFrank van der Linden}
d2d78671SFrank van der Linden
3d61909cSFrank van der Linden/*
3d61909cSFrank van der Linden * memblock-allocated pageblocks might not have the migrate type set
3d61909cSFrank van der Linden * if marked with the 'noinit' flag. Set it to the default (MIGRATE_MOVABLE)
d2d78671SFrank van der Linden * here, or MIGRATE_CMA if this was a page allocated through an early CMA
d2d78671SFrank van der Linden * reservation.
3d61909cSFrank van der Linden *
d2d78671SFrank van der Linden * In case of vmemmap optimized folios, the tail vmemmap pages are mapped
d2d78671SFrank van der Linden * read-only, but that's ok - for sparse vmemmap this does not write to
d2d78671SFrank van der Linden * the page structure.
3d61909cSFrank van der Linden */
3d61909cSFrank van der Lindenstatic void __init hugetlb_bootmem_init_migratetype(struct folio *folio,
3d61909cSFrank van der Linden							  struct hstate *h)
3d61909cSFrank van der Linden{
3d61909cSFrank van der Linden	unsigned long nr_pages = pages_per_huge_page(h), i;
3d61909cSFrank van der Linden
3d61909cSFrank van der Linden	WARN_ON_ONCE(!pageblock_aligned(folio_pfn(folio)));
3d61909cSFrank van der Linden
d2d78671SFrank van der Linden	for (i = 0; i < nr_pages; i += pageblock_nr_pages) {
d2d78671SFrank van der Linden		if (folio_test_hugetlb_cma(folio))
d2d78671SFrank van der Linden			init_cma_pageblock(folio_page(folio, i));
d2d78671SFrank van der Linden		else
1bc3587aSZi Yan			init_pageblock_migratetype(folio_page(folio, i),
1bc3587aSZi Yan					  MIGRATE_MOVABLE, false);
3d61909cSFrank van der Linden	}
d2d78671SFrank van der Linden}
3d61909cSFrank van der Linden
79359d6dSMike Kravetzstatic void __init prep_and_add_bootmem_folios(struct hstate *h,
79359d6dSMike Kravetz					struct list_head *folio_list)
79359d6dSMike Kravetz{
79359d6dSMike Kravetz	unsigned long flags;
79359d6dSMike Kravetz	struct folio *folio, *tmp_f;
79359d6dSMike Kravetz
79359d6dSMike Kravetz	/* Send list for bulk vmemmap optimization processing */
752fe17aSFrank van der Linden	hugetlb_vmemmap_optimize_bootmem_folios(h, folio_list);
79359d6dSMike Kravetz
79359d6dSMike Kravetz	list_for_each_entry_safe(folio, tmp_f, folio_list, lru) {
79359d6dSMike Kravetz		if (!folio_test_hugetlb_vmemmap_optimized(folio)) {
79359d6dSMike Kravetz			/*
79359d6dSMike Kravetz			 * If HVO fails, initialize all tail struct pages
79359d6dSMike Kravetz			 * We do not worry about potential long lock hold
79359d6dSMike Kravetz			 * time as this is early in boot and there should
79359d6dSMike Kravetz			 * be no contention.
79359d6dSMike Kravetz			 */
f0369fb1SKiryl Shutsemau			hugetlb_folio_init_tail_vmemmap(folio, h,
79359d6dSMike Kravetz					HUGETLB_VMEMMAP_RESERVE_PAGES,
79359d6dSMike Kravetz					pages_per_huge_page(h));
79359d6dSMike Kravetz		}
3d61909cSFrank van der Linden		hugetlb_bootmem_init_migratetype(folio, h);
b78b27d0SGang Li		/* Subdivide locks to achieve better parallel performance */
b78b27d0SGang Li		spin_lock_irqsave(&hugetlb_lock, flags);
4094d343SKefeng Wang		account_new_hugetlb_folio(h, folio);
79359d6dSMike Kravetz		enqueue_hugetlb_folio(h, folio);
79359d6dSMike Kravetz		spin_unlock_irqrestore(&hugetlb_lock, flags);
79359d6dSMike Kravetz	}
b78b27d0SGang Li}
79359d6dSMike Kravetz
b1222550SFrank van der Lindenbool __init hugetlb_bootmem_page_zones_valid(int nid,
14ed3a59SFrank van der Linden					     struct huge_bootmem_page *m)
14ed3a59SFrank van der Linden{
14ed3a59SFrank van der Linden	unsigned long start_pfn;
14ed3a59SFrank van der Linden	bool valid;
14ed3a59SFrank van der Linden
752fe17aSFrank van der Linden	if (m->flags & HUGE_BOOTMEM_ZONES_VALID) {
752fe17aSFrank van der Linden		/*
752fe17aSFrank van der Linden		 * Already validated, skip check.
752fe17aSFrank van der Linden		 */
752fe17aSFrank van der Linden		return true;
752fe17aSFrank van der Linden	}
752fe17aSFrank van der Linden
d2d78671SFrank van der Linden	if (hugetlb_bootmem_page_earlycma(m)) {
d2d78671SFrank van der Linden		valid = cma_validate_zones(m->cma);
d2d78671SFrank van der Linden		goto out;
d2d78671SFrank van der Linden	}
d2d78671SFrank van der Linden
14ed3a59SFrank van der Linden	start_pfn = virt_to_phys(m) >> PAGE_SHIFT;
14ed3a59SFrank van der Linden
14ed3a59SFrank van der Linden	valid = !pfn_range_intersects_zones(nid, start_pfn,
14ed3a59SFrank van der Linden			pages_per_huge_page(m->hstate));
d2d78671SFrank van der Lindenout:
14ed3a59SFrank van der Linden	if (!valid)
14ed3a59SFrank van der Linden		hstate_boot_nrinvalid[hstate_index(m->hstate)]++;
14ed3a59SFrank van der Linden
14ed3a59SFrank van der Linden	return valid;
14ed3a59SFrank van der Linden}
14ed3a59SFrank van der Linden
14ed3a59SFrank van der Linden/*
14ed3a59SFrank van der Linden * Free a bootmem page that was found to be invalid (intersecting with
14ed3a59SFrank van der Linden * multiple zones).
14ed3a59SFrank van der Linden *
14ed3a59SFrank van der Linden * Since it intersects with multiple zones, we can't just do a free
14ed3a59SFrank van der Linden * operation on all pages at once, but instead have to walk all
14ed3a59SFrank van der Linden * pages, freeing them one by one.
14ed3a59SFrank van der Linden */
14ed3a59SFrank van der Lindenstatic void __init hugetlb_bootmem_free_invalid_page(int nid, struct page *page,
14ed3a59SFrank van der Linden					     struct hstate *h)
14ed3a59SFrank van der Linden{
14ed3a59SFrank van der Linden	unsigned long npages = pages_per_huge_page(h);
14ed3a59SFrank van der Linden	unsigned long pfn;
14ed3a59SFrank van der Linden
14ed3a59SFrank van der Linden	while (npages--) {
14ed3a59SFrank van der Linden		pfn = page_to_pfn(page);
09bdc4feSMike Rapoport (Microsoft)		__init_page_from_nid(pfn, nid);
14ed3a59SFrank van der Linden		free_reserved_page(page);
14ed3a59SFrank van der Linden		page++;
14ed3a59SFrank van der Linden	}
14ed3a59SFrank van der Linden}
14ed3a59SFrank van der Linden
48b8d744SMike Kravetz/*
48b8d744SMike Kravetz * Put bootmem huge pages into the standard lists after mem_map is up.
5e0a760bSKirill A. Shutemov * Note: This only applies to gigantic (order > MAX_PAGE_ORDER) pages.
48b8d744SMike Kravetz */
b78b27d0SGang Listatic void __init gather_bootmem_prealloc_node(unsigned long nid)
aa888a74SAndi Kleen{
d67e32f2SMike Kravetz	LIST_HEAD(folio_list);
14ed3a59SFrank van der Linden	struct huge_bootmem_page *m, *tm;
d67e32f2SMike Kravetz	struct hstate *h = NULL, *prev_h = NULL;
aa888a74SAndi Kleen
14ed3a59SFrank van der Linden	list_for_each_entry_safe(m, tm, &huge_boot_pages[nid], list) {
40d18ebfSMike Kravetz		struct page *page = virt_to_page(m);
fde1c4ecSUsama Arif		struct folio *folio = (void *)page;
d67e32f2SMike Kravetz
d67e32f2SMike Kravetz		h = m->hstate;
14ed3a59SFrank van der Linden		if (!hugetlb_bootmem_page_zones_valid(nid, m)) {
14ed3a59SFrank van der Linden			/*
14ed3a59SFrank van der Linden			 * Can't use this page. Initialize the
14ed3a59SFrank van der Linden			 * page structures if that hasn't already
14ed3a59SFrank van der Linden			 * been done, and give them to the page
14ed3a59SFrank van der Linden			 * allocator.
14ed3a59SFrank van der Linden			 */
14ed3a59SFrank van der Linden			hugetlb_bootmem_free_invalid_page(nid, page, h);
14ed3a59SFrank van der Linden			continue;
14ed3a59SFrank van der Linden		}
14ed3a59SFrank van der Linden
d67e32f2SMike Kravetz		/*
d67e32f2SMike Kravetz		 * It is possible to have multiple huge page sizes (hstates)
d67e32f2SMike Kravetz		 * in this list.  If so, process each size separately.
d67e32f2SMike Kravetz		 */
d67e32f2SMike Kravetz		if (h != prev_h && prev_h != NULL)
79359d6dSMike Kravetz			prep_and_add_bootmem_folios(prev_h, &folio_list);
d67e32f2SMike Kravetz		prev_h = h;
ee8f248dSBecky Bruce
48b8d744SMike Kravetz		VM_BUG_ON(!hstate_is_gigantic(h));
d1c60955SSidhartha Kumar		WARN_ON(folio_ref_count(folio) != 1);
fde1c4ecSUsama Arif
fde1c4ecSUsama Arif		hugetlb_folio_init_vmemmap(folio, h,
fde1c4ecSUsama Arif					   HUGETLB_VMEMMAP_RESERVE_PAGES);
dd4d324bSKefeng Wang		init_new_hugetlb_folio(folio);
752fe17aSFrank van der Linden
752fe17aSFrank van der Linden		if (hugetlb_bootmem_page_prehvo(m))
752fe17aSFrank van der Linden			/*
752fe17aSFrank van der Linden			 * If pre-HVO was done, just set the
752fe17aSFrank van der Linden			 * flag, the HVO code will then skip
752fe17aSFrank van der Linden			 * this folio.
752fe17aSFrank van der Linden			 */
752fe17aSFrank van der Linden			folio_set_hugetlb_vmemmap_optimized(folio);
752fe17aSFrank van der Linden
d2d78671SFrank van der Linden		if (hugetlb_bootmem_page_earlycma(m))
d2d78671SFrank van der Linden			folio_set_hugetlb_cma(folio);
d2d78671SFrank van der Linden
d67e32f2SMike Kravetz		list_add(&folio->lru, &folio_list);
af0fb9dfSMichal Hocko
b0320c7bSRafael Aquini		/*
48b8d744SMike Kravetz		 * We need to restore the 'stolen' pages to totalram_pages
48b8d744SMike Kravetz		 * in order to fix confusing memory reports from free(1) and
48b8d744SMike Kravetz		 * other side-effects, like CommitLimit going negative.
d2d78671SFrank van der Linden		 *
d2d78671SFrank van der Linden		 * For CMA pages, this is done in init_cma_pageblock
d2d78671SFrank van der Linden		 * (via hugetlb_bootmem_init_migratetype), so skip it here.
b0320c7bSRafael Aquini		 */
d2d78671SFrank van der Linden		if (!folio_test_hugetlb_cma(folio))
c78a7f36SMiaohe Lin			adjust_managed_page_count(page, pages_per_huge_page(h));
520495feSCannon Matthews		cond_resched();
aa888a74SAndi Kleen	}
d67e32f2SMike Kravetz
79359d6dSMike Kravetz	prep_and_add_bootmem_folios(h, &folio_list);
aa888a74SAndi Kleen}
fde1c4ecSUsama Arif
b78b27d0SGang Listatic void __init gather_bootmem_prealloc_parallel(unsigned long start,
b78b27d0SGang Li						    unsigned long end, void *arg)
b78b27d0SGang Li{
b78b27d0SGang Li	int nid;
b78b27d0SGang Li
b78b27d0SGang Li	for (nid = start; nid < end; nid++)
b78b27d0SGang Li		gather_bootmem_prealloc_node(nid);
b78b27d0SGang Li}
b78b27d0SGang Li
b78b27d0SGang Listatic void __init gather_bootmem_prealloc(void)
b78b27d0SGang Li{
b78b27d0SGang Li	struct padata_mt_job job = {
b78b27d0SGang Li		.thread_fn	= gather_bootmem_prealloc_parallel,
b78b27d0SGang Li		.fn_arg		= NULL,
b78b27d0SGang Li		.start		= 0,
76e96115SRitesh Harjani (IBM)		.size		= nr_node_ids,
b78b27d0SGang Li		.align		= 1,
b78b27d0SGang Li		.min_chunk	= 1,
b78b27d0SGang Li		.max_threads	= num_node_state(N_MEMORY),
b78b27d0SGang Li		.numa_aware	= true,
b78b27d0SGang Li	};
b78b27d0SGang Li
b78b27d0SGang Li	padata_do_multithreaded(&job);
b78b27d0SGang Li}
b78b27d0SGang Li
b5389086SZhenguo Yaostatic void __init hugetlb_hstate_alloc_pages_onenode(struct hstate *h, int nid)
b5389086SZhenguo Yao{
b5389086SZhenguo Yao	unsigned long i;
b5389086SZhenguo Yao	char buf[32];
7e1fbaa0Ssuhua	LIST_HEAD(folio_list);
b5389086SZhenguo Yao
b5389086SZhenguo Yao	for (i = 0; i < h->max_huge_pages_node[nid]; ++i) {
b5389086SZhenguo Yao		if (hstate_is_gigantic(h)) {
b5389086SZhenguo Yao			if (!alloc_bootmem_huge_page(h, nid))
b5389086SZhenguo Yao				break;
b5389086SZhenguo Yao		} else {
19fc1a7eSSidhartha Kumar			struct folio *folio;
b5389086SZhenguo Yao			gfp_t gfp_mask = htlb_alloc_mask(h) | __GFP_THISNODE;
b5389086SZhenguo Yao
7e1fbaa0Ssuhua			folio = only_alloc_fresh_hugetlb_folio(h, gfp_mask, nid,
7e1fbaa0Ssuhua					&node_states[N_MEMORY], NULL);
46ba5a01SLi Zhe			if (!folio && !list_empty(&folio_list) &&
46ba5a01SLi Zhe			    hugetlb_vmemmap_optimizable_size(h)) {
46ba5a01SLi Zhe				prep_and_add_allocated_folios(h, &folio_list);
46ba5a01SLi Zhe				INIT_LIST_HEAD(&folio_list);
46ba5a01SLi Zhe				folio = only_alloc_fresh_hugetlb_folio(h, gfp_mask, nid,
46ba5a01SLi Zhe						&node_states[N_MEMORY], NULL);
46ba5a01SLi Zhe			}
19fc1a7eSSidhartha Kumar			if (!folio)
b5389086SZhenguo Yao				break;
7e1fbaa0Ssuhua			list_add(&folio->lru, &folio_list);
b5389086SZhenguo Yao		}
b5389086SZhenguo Yao		cond_resched();
b5389086SZhenguo Yao	}
7e1fbaa0Ssuhua
7e1fbaa0Ssuhua	if (!list_empty(&folio_list))
7e1fbaa0Ssuhua		prep_and_add_allocated_folios(h, &folio_list);
7e1fbaa0Ssuhua
b5389086SZhenguo Yao	if (i == h->max_huge_pages_node[nid])
b5389086SZhenguo Yao		return;
b5389086SZhenguo Yao
b5389086SZhenguo Yao	string_get_size(huge_page_size(h), 1, STRING_UNITS_2, buf, 32);
b5389086SZhenguo Yao	pr_warn("HugeTLB: allocating %u of page size %s failed node%d.  Only allocated %lu hugepages.\n",
b5389086SZhenguo Yao		h->max_huge_pages_node[nid], buf, nid, i);
b5389086SZhenguo Yao	h->max_huge_pages -= (h->max_huge_pages_node[nid] - i);
b5389086SZhenguo Yao	h->max_huge_pages_node[nid] = i;
b5389086SZhenguo Yao}
aa888a74SAndi Kleen
fc37bbb3SGang Listatic bool __init hugetlb_hstate_alloc_pages_specific_nodes(struct hstate *h)
fc37bbb3SGang Li{
fc37bbb3SGang Li	int i;
fc37bbb3SGang Li	bool node_specific_alloc = false;
fc37bbb3SGang Li
fc37bbb3SGang Li	for_each_online_node(i) {
fc37bbb3SGang Li		if (h->max_huge_pages_node[i] > 0) {
fc37bbb3SGang Li			hugetlb_hstate_alloc_pages_onenode(h, i);
fc37bbb3SGang Li			node_specific_alloc = true;
fc37bbb3SGang Li		}
fc37bbb3SGang Li	}
fc37bbb3SGang Li
fc37bbb3SGang Li	return node_specific_alloc;
fc37bbb3SGang Li}
fc37bbb3SGang Li
fc37bbb3SGang Listatic void __init hugetlb_hstate_alloc_pages_errcheck(unsigned long allocated, struct hstate *h)
fc37bbb3SGang Li{
fc37bbb3SGang Li	if (allocated < h->max_huge_pages) {
fc37bbb3SGang Li		char buf[32];
fc37bbb3SGang Li
fc37bbb3SGang Li		string_get_size(huge_page_size(h), 1, STRING_UNITS_2, buf, 32);
fc37bbb3SGang Li		pr_warn("HugeTLB: allocating %lu of page size %s failed.  Only allocated %lu hugepages.\n",
fc37bbb3SGang Li			h->max_huge_pages, buf, allocated);
fc37bbb3SGang Li		h->max_huge_pages = allocated;
fc37bbb3SGang Li	}
fc37bbb3SGang Li}
fc37bbb3SGang Li
c6c21c31SGang Listatic void __init hugetlb_pages_alloc_boot_node(unsigned long start, unsigned long end, void *arg)
c6c21c31SGang Li{
c6c21c31SGang Li	struct hstate *h = (struct hstate *)arg;
c6c21c31SGang Li	int i, num = end - start;
c6c21c31SGang Li	nodemask_t node_alloc_noretry;
c6c21c31SGang Li	LIST_HEAD(folio_list);
c6c21c31SGang Li	int next_node = first_online_node;
c6c21c31SGang Li
c6c21c31SGang Li	/* Bit mask controlling how hard we retry per-node allocations.*/
c6c21c31SGang Li	nodes_clear(node_alloc_noretry);
c6c21c31SGang Li
c6c21c31SGang Li	for (i = 0; i < num; ++i) {
3dfd02c9SLi Zhe		struct folio *folio;
3dfd02c9SLi Zhe
3dfd02c9SLi Zhe		if (hugetlb_vmemmap_optimizable_size(h) &&
3dfd02c9SLi Zhe		    (si_mem_available() == 0) && !list_empty(&folio_list)) {
3dfd02c9SLi Zhe			prep_and_add_allocated_folios(h, &folio_list);
3dfd02c9SLi Zhe			INIT_LIST_HEAD(&folio_list);
3dfd02c9SLi Zhe		}
3dfd02c9SLi Zhe		folio = alloc_pool_huge_folio(h, &node_states[N_MEMORY],
c6c21c31SGang Li						&node_alloc_noretry, &next_node);
c6c21c31SGang Li		if (!folio)
c6c21c31SGang Li			break;
c6c21c31SGang Li
c6c21c31SGang Li		list_move(&folio->lru, &folio_list);
c6c21c31SGang Li		cond_resched();
c6c21c31SGang Li	}
c6c21c31SGang Li
c6c21c31SGang Li	prep_and_add_allocated_folios(h, &folio_list);
c6c21c31SGang Li}
c6c21c31SGang Li
d5c3eb3fSGang Listatic unsigned long __init hugetlb_gigantic_pages_alloc_boot(struct hstate *h)
d5c3eb3fSGang Li{
d5c3eb3fSGang Li	unsigned long i;
d5c3eb3fSGang Li
d5c3eb3fSGang Li	for (i = 0; i < h->max_huge_pages; ++i) {
d5c3eb3fSGang Li		if (!alloc_bootmem_huge_page(h, NUMA_NO_NODE))
d5c3eb3fSGang Li			break;
d5c3eb3fSGang Li		cond_resched();
d5c3eb3fSGang Li	}
d5c3eb3fSGang Li
d5c3eb3fSGang Li	return i;
d5c3eb3fSGang Li}
d5c3eb3fSGang Li
d5c3eb3fSGang Listatic unsigned long __init hugetlb_pages_alloc_boot(struct hstate *h)
d5c3eb3fSGang Li{
c6c21c31SGang Li	struct padata_mt_job job = {
c6c21c31SGang Li		.fn_arg		= h,
c6c21c31SGang Li		.align		= 1,
c6c21c31SGang Li		.numa_aware	= true
c6c21c31SGang Li	};
d5c3eb3fSGang Li
70478a55SThomas Prescher	unsigned long jiffies_start;
70478a55SThomas Prescher	unsigned long jiffies_end;
2a8f3f44SLi RongQing	unsigned long remaining;
70478a55SThomas Prescher
c6c21c31SGang Li	job.thread_fn	= hugetlb_pages_alloc_boot_node;
d5c3eb3fSGang Li
c6c21c31SGang Li	/*
c34b3eceSThomas Prescher	 * job.max_threads is 25% of the available cpu threads by default.
c6c21c31SGang Li	 *
c34b3eceSThomas Prescher	 * On large servers with terabytes of memory, huge page allocation
c34b3eceSThomas Prescher	 * can consume a considerably amount of time.
c6c21c31SGang Li	 *
c34b3eceSThomas Prescher	 * Tests below show how long it takes to allocate 1 TiB of memory with 2MiB huge pages.
c34b3eceSThomas Prescher	 * 2MiB huge pages. Using more threads can significantly improve allocation time.
c6c21c31SGang Li	 *
c34b3eceSThomas Prescher	 * +-----------------------+-------+-------+-------+-------+-------+
c34b3eceSThomas Prescher	 * | threads               |   8   |   16  |   32  |   64  |   128 |
c34b3eceSThomas Prescher	 * +-----------------------+-------+-------+-------+-------+-------+
c34b3eceSThomas Prescher	 * | skylake      144 cpus |   44s |   22s |   16s |   19s |   20s |
c34b3eceSThomas Prescher	 * | cascade lake 192 cpus |   39s |   20s |   11s |   10s |    9s |
c34b3eceSThomas Prescher	 * +-----------------------+-------+-------+-------+-------+-------+
c6c21c31SGang Li	 */
71f74568SThomas Prescher	if (hugepage_allocation_threads == 0) {
71f74568SThomas Prescher		hugepage_allocation_threads = num_online_cpus() / 4;
71f74568SThomas Prescher		hugepage_allocation_threads = max(hugepage_allocation_threads, 1);
71f74568SThomas Prescher	}
c34b3eceSThomas Prescher
71f74568SThomas Prescher	job.max_threads	= hugepage_allocation_threads;
70478a55SThomas Prescher
70478a55SThomas Prescher	jiffies_start = jiffies;
2a8f3f44SLi RongQing	do {
2a8f3f44SLi RongQing		remaining = h->max_huge_pages - h->nr_huge_pages;
2a8f3f44SLi RongQing
2a8f3f44SLi RongQing		job.start     = h->nr_huge_pages;
2a8f3f44SLi RongQing		job.size      = remaining;
2a8f3f44SLi RongQing		job.min_chunk = remaining / hugepage_allocation_threads;
c6c21c31SGang Li		padata_do_multithreaded(&job);
2a8f3f44SLi RongQing
2a8f3f44SLi RongQing		if (h->nr_huge_pages == h->max_huge_pages)
2a8f3f44SLi RongQing			break;
2a8f3f44SLi RongQing
2a8f3f44SLi RongQing		/*
2a8f3f44SLi RongQing		 * Retry only if the vmemmap optimization might have been able to free
2a8f3f44SLi RongQing		 * some memory back to the system.
2a8f3f44SLi RongQing		 */
2a8f3f44SLi RongQing		if (!hugetlb_vmemmap_optimizable(h))
2a8f3f44SLi RongQing			break;
2a8f3f44SLi RongQing
2a8f3f44SLi RongQing		/* Continue if progress was made in last iteration */
2a8f3f44SLi RongQing	} while (remaining != (h->max_huge_pages - h->nr_huge_pages));
2a8f3f44SLi RongQing
70478a55SThomas Prescher	jiffies_end = jiffies;
70478a55SThomas Prescher
70478a55SThomas Prescher	pr_info("HugeTLB: allocation took %dms with hugepage_allocation_threads=%ld\n",
70478a55SThomas Prescher		jiffies_to_msecs(jiffies_end - jiffies_start),
70478a55SThomas Prescher		hugepage_allocation_threads);
d5c3eb3fSGang Li
c6c21c31SGang Li	return h->nr_huge_pages;
d5c3eb3fSGang Li}
d5c3eb3fSGang Li
d67e32f2SMike Kravetz/*
d67e32f2SMike Kravetz * NOTE: this routine is called in different contexts for gigantic and
d67e32f2SMike Kravetz * non-gigantic pages.
d67e32f2SMike Kravetz * - For gigantic pages, this is called early in the boot process and
d67e32f2SMike Kravetz *   pages are allocated from memblock allocated or something similar.
d67e32f2SMike Kravetz *   Gigantic pages are actually added to pools later with the routine
d67e32f2SMike Kravetz *   gather_bootmem_prealloc.
d67e32f2SMike Kravetz * - For non-gigantic pages, this is called later in the boot process after
d67e32f2SMike Kravetz *   all of mm is up and functional.  Pages are allocated from buddy and
d67e32f2SMike Kravetz *   then added to hugetlb pools.
d67e32f2SMike Kravetz */
8faa8b07SAndi Kleenstatic void __init hugetlb_hstate_alloc_pages(struct hstate *h)
1da177e4SLinus Torvalds{
d5c3eb3fSGang Li	unsigned long allocated;
f60858f9SMike Kravetz
d2d78671SFrank van der Linden	/*
d2d78671SFrank van der Linden	 * Skip gigantic hugepages allocation if early CMA
d2d78671SFrank van der Linden	 * reservations are not available.
d2d78671SFrank van der Linden	 */
474fe91fSFrank van der Linden	if (hstate_is_gigantic(h) && hugetlb_cma_total_size() &&
474fe91fSFrank van der Linden	    !hugetlb_early_cma(h)) {
b5389086SZhenguo Yao		pr_warn_once("HugeTLB: hugetlb_cma is enabled, skip boot time allocation\n");
b5389086SZhenguo Yao		return;
b5389086SZhenguo Yao	}
b5389086SZhenguo Yao
b322e88bSLi RongQing	if (!h->max_huge_pages)
b322e88bSLi RongQing		return;
b322e88bSLi RongQing
b5389086SZhenguo Yao	/* do node specific alloc */
fc37bbb3SGang Li	if (hugetlb_hstate_alloc_pages_specific_nodes(h))
b5389086SZhenguo Yao		return;
b5389086SZhenguo Yao
b5389086SZhenguo Yao	/* below will do all node balanced alloc */
d5c3eb3fSGang Li	if (hstate_is_gigantic(h))
d5c3eb3fSGang Li		allocated = hugetlb_gigantic_pages_alloc_boot(h);
d5c3eb3fSGang Li	else
d5c3eb3fSGang Li		allocated = hugetlb_pages_alloc_boot(h);
f60858f9SMike Kravetz
d5c3eb3fSGang Li	hugetlb_hstate_alloc_pages_errcheck(allocated, h);
d715cf80SLiam R. Howlett}
e5ff2159SAndi Kleen
e5ff2159SAndi Kleenstatic void __init hugetlb_init_hstates(void)
e5ff2159SAndi Kleen{
79dfc695SMike Kravetz	struct hstate *h, *h2;
e5ff2159SAndi Kleen
e5ff2159SAndi Kleen	for_each_hstate(h) {
8d88b076SFrank van der Linden		/*
8d88b076SFrank van der Linden		 * Always reset to first_memory_node here, even if
8d88b076SFrank van der Linden		 * next_nid_to_alloc was set before - we can't
8d88b076SFrank van der Linden		 * reference hugetlb_bootmem_nodes after init, and
8d88b076SFrank van der Linden		 * first_memory_node is right for all further allocations.
8d88b076SFrank van der Linden		 */
8d88b076SFrank van der Linden		h->next_nid_to_alloc = first_memory_node;
8d88b076SFrank van der Linden		h->next_nid_to_free = first_memory_node;
8d88b076SFrank van der Linden
8faa8b07SAndi Kleen		/* oversize hugepages were init'ed in early boot */
bae7f4aeSLuiz Capitulino		if (!hstate_is_gigantic(h))
8faa8b07SAndi Kleen			hugetlb_hstate_alloc_pages(h);
79dfc695SMike Kravetz
79dfc695SMike Kravetz		/*
79dfc695SMike Kravetz		 * Set demote order for each hstate.  Note that
79dfc695SMike Kravetz		 * h->demote_order is initially 0.
79dfc695SMike Kravetz		 * - We can not demote gigantic pages if runtime freeing
79dfc695SMike Kravetz		 *   is not supported, so skip this.
a01f4390SMike Kravetz		 * - If CMA allocation is possible, we can not demote
a01f4390SMike Kravetz		 *   HUGETLB_PAGE_ORDER or smaller size pages.
79dfc695SMike Kravetz		 */
a743e0afSUsama Arif		if (hstate_is_gigantic_no_runtime(h))
79dfc695SMike Kravetz			continue;
474fe91fSFrank van der Linden		if (hugetlb_cma_total_size() && h->order <= HUGETLB_PAGE_ORDER)
a01f4390SMike Kravetz			continue;
79dfc695SMike Kravetz		for_each_hstate(h2) {
79dfc695SMike Kravetz			if (h2 == h)
79dfc695SMike Kravetz				continue;
79dfc695SMike Kravetz			if (h2->order < h->order &&
79dfc695SMike Kravetz			    h2->order > h->demote_order)
79dfc695SMike Kravetz				h->demote_order = h2->order;
79dfc695SMike Kravetz		}
e5ff2159SAndi Kleen	}
e5ff2159SAndi Kleen}
e5ff2159SAndi Kleen
e5ff2159SAndi Kleenstatic void __init report_hugepages(void)
e5ff2159SAndi Kleen{
e5ff2159SAndi Kleen	struct hstate *h;
14ed3a59SFrank van der Linden	unsigned long nrinvalid;
e5ff2159SAndi Kleen
e5ff2159SAndi Kleen	for_each_hstate(h) {
4abd32dbSAndi Kleen		char buf[32];
c6247f72SMatthew Wilcox
14ed3a59SFrank van der Linden		nrinvalid = hstate_boot_nrinvalid[hstate_index(h)];
14ed3a59SFrank van der Linden		h->max_huge_pages -= nrinvalid;
14ed3a59SFrank van der Linden
c6247f72SMatthew Wilcox		string_get_size(huge_page_size(h), 1, STRING_UNITS_2, buf, 32);
6213834cSMuchun Song		pr_info("HugeTLB: registered %s page size, pre-allocated %ld pages\n",
3aefb1f0SWenjie Xu			buf, h->nr_huge_pages);
14ed3a59SFrank van der Linden		if (nrinvalid)
14ed3a59SFrank van der Linden			pr_info("HugeTLB: %s page size: %lu invalid page%s discarded\n",
2a835290SThorsten Blum					buf, nrinvalid, str_plural(nrinvalid));
6213834cSMuchun Song		pr_info("HugeTLB: %d KiB vmemmap can be freed for a %s page\n",
6213834cSMuchun Song			hugetlb_vmemmap_optimizable_size(h) / SZ_1K, buf);
e5ff2159SAndi Kleen	}
e5ff2159SAndi Kleen}
e5ff2159SAndi Kleen
1da177e4SLinus Torvalds#ifdef CONFIG_HIGHMEM
6ae11b27SLee Schermerhornstatic void try_to_free_low(struct hstate *h, unsigned long count,
6ae11b27SLee Schermerhorn						nodemask_t *nodes_allowed)
1da177e4SLinus Torvalds{
4415cc8dSChristoph Lameter	int i;
1121828aSMike Kravetz	LIST_HEAD(page_list);
4415cc8dSChristoph Lameter
9487ca60SMike Kravetz	lockdep_assert_held(&hugetlb_lock);
bae7f4aeSLuiz Capitulino	if (hstate_is_gigantic(h))
aa888a74SAndi Kleen		return;
aa888a74SAndi Kleen
1121828aSMike Kravetz	/*
1121828aSMike Kravetz	 * Collect pages to be freed on a list, and free after dropping lock
1121828aSMike Kravetz	 */
6ae11b27SLee Schermerhorn	for_each_node_mask(i, *nodes_allowed) {
04bbfd84SMatthew Wilcox (Oracle)		struct folio *folio, *next;
a5516438SAndi Kleen		struct list_head *freel = &h->hugepage_freelists[i];
04bbfd84SMatthew Wilcox (Oracle)		list_for_each_entry_safe(folio, next, freel, lru) {
a5516438SAndi Kleen			if (count >= h->nr_huge_pages)
1121828aSMike Kravetz				goto out;
04bbfd84SMatthew Wilcox (Oracle)			if (folio_test_highmem(folio))
1da177e4SLinus Torvalds				continue;
04bbfd84SMatthew Wilcox (Oracle)			remove_hugetlb_folio(h, folio, false);
04bbfd84SMatthew Wilcox (Oracle)			list_add(&folio->lru, &page_list);
1121828aSMike Kravetz		}
1121828aSMike Kravetz	}
1121828aSMike Kravetz
1121828aSMike Kravetzout:
db71ef79SMike Kravetz	spin_unlock_irq(&hugetlb_lock);
10c6ec49SMike Kravetz	update_and_free_pages_bulk(h, &page_list);
db71ef79SMike Kravetz	spin_lock_irq(&hugetlb_lock);
1da177e4SLinus Torvalds}
1da177e4SLinus Torvalds#else
6ae11b27SLee Schermerhornstatic inline void try_to_free_low(struct hstate *h, unsigned long count,
6ae11b27SLee Schermerhorn						nodemask_t *nodes_allowed)
1da177e4SLinus Torvalds{
1da177e4SLinus Torvalds}
1da177e4SLinus Torvalds#endif
1da177e4SLinus Torvalds
20a0307cSWu Fengguang/*
20a0307cSWu Fengguang * Increment or decrement surplus_huge_pages.  Keep node-specific counters
20a0307cSWu Fengguang * balanced by operating on them in a round-robin fashion.
20a0307cSWu Fengguang * Returns 1 if an adjustment was made.
20a0307cSWu Fengguang */
6ae11b27SLee Schermerhornstatic int adjust_pool_surplus(struct hstate *h, nodemask_t *nodes_allowed,
6ae11b27SLee Schermerhorn				int delta)
20a0307cSWu Fengguang{
b2261026SJoonsoo Kim	int nr_nodes, node;
20a0307cSWu Fengguang
9487ca60SMike Kravetz	lockdep_assert_held(&hugetlb_lock);
20a0307cSWu Fengguang	VM_BUG_ON(delta != -1 && delta != 1);
20a0307cSWu Fengguang
e8c5c824SLee Schermerhorn	if (delta < 0) {
2e73ff23SGang Li		for_each_node_mask_to_alloc(&h->next_nid_to_alloc, nr_nodes, node, nodes_allowed) {
b2261026SJoonsoo Kim			if (h->surplus_huge_pages_node[node])
b2261026SJoonsoo Kim				goto found;
b2261026SJoonsoo Kim		}
b2261026SJoonsoo Kim	} else {
b2261026SJoonsoo Kim		for_each_node_mask_to_free(h, nr_nodes, node, nodes_allowed) {
b2261026SJoonsoo Kim			if (h->surplus_huge_pages_node[node] <
b2261026SJoonsoo Kim					h->nr_huge_pages_node[node])
b2261026SJoonsoo Kim				goto found;
e8c5c824SLee Schermerhorn		}
9a76db09SLee Schermerhorn	}
b2261026SJoonsoo Kim	return 0;
20a0307cSWu Fengguang
b2261026SJoonsoo Kimfound:
20a0307cSWu Fengguang	h->surplus_huge_pages += delta;
b2261026SJoonsoo Kim	h->surplus_huge_pages_node[node] += delta;
b2261026SJoonsoo Kim	return 1;
20a0307cSWu Fengguang}
20a0307cSWu Fengguang
a5516438SAndi Kleen#define persistent_huge_pages(h) (h->nr_huge_pages - h->surplus_huge_pages)
fd875dcaSMike Kravetzstatic int set_max_huge_pages(struct hstate *h, unsigned long count, int nid,
6ae11b27SLee Schermerhorn			      nodemask_t *nodes_allowed)
1da177e4SLinus Torvalds{
aabf58bfSJinjiang Tu	unsigned long persistent_free_count;
d67e32f2SMike Kravetz	unsigned long min_count;
d67e32f2SMike Kravetz	unsigned long allocated;
d67e32f2SMike Kravetz	struct folio *folio;
10c6ec49SMike Kravetz	LIST_HEAD(page_list);
f60858f9SMike Kravetz	NODEMASK_ALLOC(nodemask_t, node_alloc_noretry, GFP_KERNEL);
f60858f9SMike Kravetz
f60858f9SMike Kravetz	/*
f60858f9SMike Kravetz	 * Bit mask controlling how hard we retry per-node allocations.
f60858f9SMike Kravetz	 * If we can not allocate the bit mask, do not attempt to allocate
f60858f9SMike Kravetz	 * the requested huge pages.
f60858f9SMike Kravetz	 */
f60858f9SMike Kravetz	if (node_alloc_noretry)
f60858f9SMike Kravetz		nodes_clear(*node_alloc_noretry);
f60858f9SMike Kravetz	else
f60858f9SMike Kravetz		return -ENOMEM;
1da177e4SLinus Torvalds
29383967SMike Kravetz	/*
29383967SMike Kravetz	 * resize_lock mutex prevents concurrent adjustments to number of
29383967SMike Kravetz	 * pages in hstate via the proc/sysfs interfaces.
29383967SMike Kravetz	 */
29383967SMike Kravetz	mutex_lock(&h->resize_lock);
b65d4adbSMuchun Song	flush_free_hpage_work(h);
db71ef79SMike Kravetz	spin_lock_irq(&hugetlb_lock);
4eb0716eSAlexandre Ghiti
4eb0716eSAlexandre Ghiti	/*
fd875dcaSMike Kravetz	 * Check for a node specific request.
fd875dcaSMike Kravetz	 * Changing node specific huge page count may require a corresponding
fd875dcaSMike Kravetz	 * change to the global count.  In any case, the passed node mask
fd875dcaSMike Kravetz	 * (nodes_allowed) will restrict alloc/free to the specified node.
fd875dcaSMike Kravetz	 */
fd875dcaSMike Kravetz	if (nid != NUMA_NO_NODE) {
fd875dcaSMike Kravetz		unsigned long old_count = count;
fd875dcaSMike Kravetz
b72b3c9cSXueshi Hu		count += persistent_huge_pages(h) -
b72b3c9cSXueshi Hu			 (h->nr_huge_pages_node[nid] -
b72b3c9cSXueshi Hu			  h->surplus_huge_pages_node[nid]);
fd875dcaSMike Kravetz		/*
fd875dcaSMike Kravetz		 * User may have specified a large count value which caused the
fd875dcaSMike Kravetz		 * above calculation to overflow.  In this case, they wanted
fd875dcaSMike Kravetz		 * to allocate as many huge pages as possible.  Set count to
fd875dcaSMike Kravetz		 * largest possible value to align with their intention.
fd875dcaSMike Kravetz		 */
fd875dcaSMike Kravetz		if (count < old_count)
fd875dcaSMike Kravetz			count = ULONG_MAX;
fd875dcaSMike Kravetz	}
fd875dcaSMike Kravetz
fd875dcaSMike Kravetz	/*
4eb0716eSAlexandre Ghiti	 * Gigantic pages runtime allocation depend on the capability for large
4eb0716eSAlexandre Ghiti	 * page range allocation.
4eb0716eSAlexandre Ghiti	 * If the system does not provide this feature, return an error when
4eb0716eSAlexandre Ghiti	 * the user tries to allocate gigantic pages but let the user free the
4eb0716eSAlexandre Ghiti	 * boottime allocated gigantic pages.
4eb0716eSAlexandre Ghiti	 */
4eb0716eSAlexandre Ghiti	if (hstate_is_gigantic(h) && !IS_ENABLED(CONFIG_CONTIG_ALLOC)) {
4eb0716eSAlexandre Ghiti		if (count > persistent_huge_pages(h)) {
db71ef79SMike Kravetz			spin_unlock_irq(&hugetlb_lock);
29383967SMike Kravetz			mutex_unlock(&h->resize_lock);
f60858f9SMike Kravetz			NODEMASK_FREE(node_alloc_noretry);
4eb0716eSAlexandre Ghiti			return -EINVAL;
4eb0716eSAlexandre Ghiti		}
4eb0716eSAlexandre Ghiti		/* Fall through to decrease pool */
4eb0716eSAlexandre Ghiti	}
aa888a74SAndi Kleen
7893d1d5SAdam Litke	/*
7893d1d5SAdam Litke	 * Increase the pool size
7893d1d5SAdam Litke	 * First take pages out of surplus state.  Then make up the
7893d1d5SAdam Litke	 * remaining difference by allocating fresh huge pages.
d1c3fb1fSNishanth Aravamudan	 *
3a740e8bSSidhartha Kumar	 * We might race with alloc_surplus_hugetlb_folio() here and be unable
d1c3fb1fSNishanth Aravamudan	 * to convert a surplus huge page to a normal huge page. That is
d1c3fb1fSNishanth Aravamudan	 * not critical, though, it just means the overall size of the
d1c3fb1fSNishanth Aravamudan	 * pool might be one hugepage larger than it needs to be, but
d1c3fb1fSNishanth Aravamudan	 * within all the constraints specified by the sysctls.
7893d1d5SAdam Litke	 */
a5516438SAndi Kleen	while (h->surplus_huge_pages && count > persistent_huge_pages(h)) {
6ae11b27SLee Schermerhorn		if (!adjust_pool_surplus(h, nodes_allowed, -1))
7893d1d5SAdam Litke			break;
7893d1d5SAdam Litke	}
7893d1d5SAdam Litke
d67e32f2SMike Kravetz	allocated = 0;
d67e32f2SMike Kravetz	while (count > (persistent_huge_pages(h) + allocated)) {
7893d1d5SAdam Litke		/*
7893d1d5SAdam Litke		 * If this allocation races such that we no longer need the
454a00c4SMatthew Wilcox (Oracle)		 * page, free_huge_folio will handle it by freeing the page
7893d1d5SAdam Litke		 * and reducing the surplus.
7893d1d5SAdam Litke		 */
db71ef79SMike Kravetz		spin_unlock_irq(&hugetlb_lock);
649920c6SJia He
649920c6SJia He		/* yield cpu to avoid soft lockup */
649920c6SJia He		cond_resched();
649920c6SJia He
d67e32f2SMike Kravetz		folio = alloc_pool_huge_folio(h, nodes_allowed,
2e73ff23SGang Li						node_alloc_noretry,
2e73ff23SGang Li						&h->next_nid_to_alloc);
d67e32f2SMike Kravetz		if (!folio) {
d67e32f2SMike Kravetz			prep_and_add_allocated_folios(h, &page_list);
db71ef79SMike Kravetz			spin_lock_irq(&hugetlb_lock);
7893d1d5SAdam Litke			goto out;
d67e32f2SMike Kravetz		}
d67e32f2SMike Kravetz
d67e32f2SMike Kravetz		list_add(&folio->lru, &page_list);
d67e32f2SMike Kravetz		allocated++;
7893d1d5SAdam Litke
536240f2SMel Gorman		/* Bail for signals. Probably ctrl-c from user */
d67e32f2SMike Kravetz		if (signal_pending(current)) {
d67e32f2SMike Kravetz			prep_and_add_allocated_folios(h, &page_list);
d67e32f2SMike Kravetz			spin_lock_irq(&hugetlb_lock);
536240f2SMel Gorman			goto out;
7893d1d5SAdam Litke		}
7893d1d5SAdam Litke
d67e32f2SMike Kravetz		spin_lock_irq(&hugetlb_lock);
d67e32f2SMike Kravetz	}
d67e32f2SMike Kravetz
d67e32f2SMike Kravetz	/* Add allocated pages to the pool */
d67e32f2SMike Kravetz	if (!list_empty(&page_list)) {
d67e32f2SMike Kravetz		spin_unlock_irq(&hugetlb_lock);
d67e32f2SMike Kravetz		prep_and_add_allocated_folios(h, &page_list);
d67e32f2SMike Kravetz		spin_lock_irq(&hugetlb_lock);
d67e32f2SMike Kravetz	}
d67e32f2SMike Kravetz
7893d1d5SAdam Litke	/*
7893d1d5SAdam Litke	 * Decrease the pool size
7893d1d5SAdam Litke	 * First return free pages to the buddy allocator (being careful
7893d1d5SAdam Litke	 * to keep enough around to satisfy reservations).  Then place
7893d1d5SAdam Litke	 * pages into surplus state as needed so the pool will shrink
7893d1d5SAdam Litke	 * to the desired size as pages become free.
d1c3fb1fSNishanth Aravamudan	 *
d1c3fb1fSNishanth Aravamudan	 * By placing pages into the surplus state independent of the
d1c3fb1fSNishanth Aravamudan	 * overcommit value, we are allowing the surplus pool size to
d1c3fb1fSNishanth Aravamudan	 * exceed overcommit. There are few sane options here. Since
3a740e8bSSidhartha Kumar	 * alloc_surplus_hugetlb_folio() is checking the global counter,
d1c3fb1fSNishanth Aravamudan	 * though, we'll note that we're not allowed to exceed surplus
d1c3fb1fSNishanth Aravamudan	 * and won't grow the pool anywhere else. Not until one of the
d1c3fb1fSNishanth Aravamudan	 * sysctls are changed, or the surplus pages go out of use.
aabf58bfSJinjiang Tu	 *
aabf58bfSJinjiang Tu	 * min_count is the expected number of persistent pages, we
aabf58bfSJinjiang Tu	 * shouldn't calculate min_count by using
aabf58bfSJinjiang Tu	 * resv_huge_pages + persistent_huge_pages() - free_huge_pages,
aabf58bfSJinjiang Tu	 * because there may exist free surplus huge pages, and this will
aabf58bfSJinjiang Tu	 * lead to subtracting twice. Free surplus huge pages come from HVO
aabf58bfSJinjiang Tu	 * failing to restore vmemmap, see comments in the callers of
aabf58bfSJinjiang Tu	 * hugetlb_vmemmap_restore_folio(). Thus, we should calculate
aabf58bfSJinjiang Tu	 * persistent free count first.
7893d1d5SAdam Litke	 */
aabf58bfSJinjiang Tu	persistent_free_count = h->free_huge_pages;
aabf58bfSJinjiang Tu	if (h->free_huge_pages > persistent_huge_pages(h)) {
aabf58bfSJinjiang Tu		if (h->free_huge_pages > h->surplus_huge_pages)
aabf58bfSJinjiang Tu			persistent_free_count -= h->surplus_huge_pages;
aabf58bfSJinjiang Tu		else
aabf58bfSJinjiang Tu			persistent_free_count = 0;
aabf58bfSJinjiang Tu	}
aabf58bfSJinjiang Tu	min_count = h->resv_huge_pages + persistent_huge_pages(h) - persistent_free_count;
6b0c880dSAdam Litke	min_count = max(count, min_count);
6ae11b27SLee Schermerhorn	try_to_free_low(h, min_count, nodes_allowed);
10c6ec49SMike Kravetz
10c6ec49SMike Kravetz	/*
10c6ec49SMike Kravetz	 * Collect pages to be removed on list without dropping lock
10c6ec49SMike Kravetz	 */
a5516438SAndi Kleen	while (min_count < persistent_huge_pages(h)) {
d5b43e96SMatthew Wilcox (Oracle)		folio = remove_pool_hugetlb_folio(h, nodes_allowed, 0);
d5b43e96SMatthew Wilcox (Oracle)		if (!folio)
1da177e4SLinus Torvalds			break;
10c6ec49SMike Kravetz
d5b43e96SMatthew Wilcox (Oracle)		list_add(&folio->lru, &page_list);
1da177e4SLinus Torvalds	}
10c6ec49SMike Kravetz	/* free the pages after dropping lock */
db71ef79SMike Kravetz	spin_unlock_irq(&hugetlb_lock);
10c6ec49SMike Kravetz	update_and_free_pages_bulk(h, &page_list);
b65d4adbSMuchun Song	flush_free_hpage_work(h);
db71ef79SMike Kravetz	spin_lock_irq(&hugetlb_lock);
10c6ec49SMike Kravetz
a5516438SAndi Kleen	while (count < persistent_huge_pages(h)) {
6ae11b27SLee Schermerhorn		if (!adjust_pool_surplus(h, nodes_allowed, 1))
7893d1d5SAdam Litke			break;
7893d1d5SAdam Litke	}
7893d1d5SAdam Litkeout:
4eb0716eSAlexandre Ghiti	h->max_huge_pages = persistent_huge_pages(h);
db71ef79SMike Kravetz	spin_unlock_irq(&hugetlb_lock);
29383967SMike Kravetz	mutex_unlock(&h->resize_lock);
4eb0716eSAlexandre Ghiti
f60858f9SMike Kravetz	NODEMASK_FREE(node_alloc_noretry);
f60858f9SMike Kravetz
4eb0716eSAlexandre Ghiti	return 0;
1da177e4SLinus Torvalds}
1da177e4SLinus Torvalds
c0f398c3SYu Zhaostatic long demote_free_hugetlb_folios(struct hstate *src, struct hstate *dst,
c0f398c3SYu Zhao				       struct list_head *src_list)
8531fc6fSMike Kravetz{
c0f398c3SYu Zhao	long rc;
c0f398c3SYu Zhao	struct folio *folio, *next;
c0f398c3SYu Zhao	LIST_HEAD(dst_list);
c0f398c3SYu Zhao	LIST_HEAD(ret_list);
8531fc6fSMike Kravetz
c0f398c3SYu Zhao	rc = hugetlb_vmemmap_restore_folios(src, src_list, &ret_list);
c0f398c3SYu Zhao	list_splice_init(&ret_list, src_list);
8531fc6fSMike Kravetz
8531fc6fSMike Kravetz	/*
8531fc6fSMike Kravetz	 * Taking target hstate mutex synchronizes with set_max_huge_pages.
8531fc6fSMike Kravetz	 * Without the mutex, pages added to target hstate could be marked
8531fc6fSMike Kravetz	 * as surplus.
8531fc6fSMike Kravetz	 *
c0f398c3SYu Zhao	 * Note that we already hold src->resize_lock.  To prevent deadlock,
8531fc6fSMike Kravetz	 * use the convention of always taking larger size hstate mutex first.
8531fc6fSMike Kravetz	 */
c0f398c3SYu Zhao	mutex_lock(&dst->resize_lock);
c0f398c3SYu Zhao
c0f398c3SYu Zhao	list_for_each_entry_safe(folio, next, src_list, lru) {
c0f398c3SYu Zhao		int i;
dac2a4f6SFrank van der Linden		bool cma;
c0f398c3SYu Zhao
c0f398c3SYu Zhao		if (folio_test_hugetlb_vmemmap_optimized(folio))
c0f398c3SYu Zhao			continue;
c0f398c3SYu Zhao
dac2a4f6SFrank van der Linden		cma = folio_test_hugetlb_cma(folio);
dac2a4f6SFrank van der Linden
c0f398c3SYu Zhao		list_del(&folio->lru);
cf54f310SYu Zhao
cf54f310SYu Zhao		split_page_owner(&folio->page, huge_page_order(src), huge_page_order(dst));
95599ef6SYu Zhao		pgalloc_tag_split(folio, huge_page_order(src), huge_page_order(dst));
c0f398c3SYu Zhao
c0f398c3SYu Zhao		for (i = 0; i < pages_per_huge_page(src); i += pages_per_huge_page(dst)) {
c0f398c3SYu Zhao			struct page *page = folio_page(folio, i);
89a41a02SDavid Hildenbrand			/* Careful: see __split_huge_page_tail() */
89a41a02SDavid Hildenbrand			struct folio *new_folio = (struct folio *)page;
c0f398c3SYu Zhao
cf54f310SYu Zhao			clear_compound_head(page);
c0f398c3SYu Zhao			prep_compound_page(page, dst->order);
c0f398c3SYu Zhao
89a41a02SDavid Hildenbrand			new_folio->mapping = NULL;
dd4d324bSKefeng Wang			init_new_hugetlb_folio(new_folio);
dac2a4f6SFrank van der Linden			/* Copy the CMA flag so that it is freed correctly */
dac2a4f6SFrank van der Linden			if (cma)
dac2a4f6SFrank van der Linden				folio_set_hugetlb_cma(new_folio);
89a41a02SDavid Hildenbrand			list_add(&new_folio->lru, &dst_list);
8531fc6fSMike Kravetz		}
c0f398c3SYu Zhao	}
c0f398c3SYu Zhao
c0f398c3SYu Zhao	prep_and_add_allocated_folios(dst, &dst_list);
c0f398c3SYu Zhao
c0f398c3SYu Zhao	mutex_unlock(&dst->resize_lock);
c0f398c3SYu Zhao
c0f398c3SYu Zhao	return rc;
c0f398c3SYu Zhao}
c0f398c3SYu Zhao
ecd6703fSHui Zhulong demote_pool_huge_page(struct hstate *src, nodemask_t *nodes_allowed,
c0f398c3SYu Zhao			   unsigned long nr_to_demote)
c0f398c3SYu Zhao	__must_hold(&hugetlb_lock)
c0f398c3SYu Zhao{
c0f398c3SYu Zhao	int nr_nodes, node;
c0f398c3SYu Zhao	struct hstate *dst;
c0f398c3SYu Zhao	long rc = 0;
c0f398c3SYu Zhao	long nr_demoted = 0;
c0f398c3SYu Zhao
c0f398c3SYu Zhao	lockdep_assert_held(&hugetlb_lock);
c0f398c3SYu Zhao
c0f398c3SYu Zhao	/* We should never get here if no demote order */
c0f398c3SYu Zhao	if (!src->demote_order) {
c0f398c3SYu Zhao		pr_warn("HugeTLB: NULL demote order passed to demote_pool_huge_page.\n");
c0f398c3SYu Zhao		return -EINVAL;		/* internal error */
c0f398c3SYu Zhao	}
c0f398c3SYu Zhao	dst = size_to_hstate(PAGE_SIZE << src->demote_order);
c0f398c3SYu Zhao
c0f398c3SYu Zhao	for_each_node_mask_to_free(src, nr_nodes, node, nodes_allowed) {
c0f398c3SYu Zhao		LIST_HEAD(list);
c0f398c3SYu Zhao		struct folio *folio, *next;
c0f398c3SYu Zhao
c0f398c3SYu Zhao		list_for_each_entry_safe(folio, next, &src->hugepage_freelists[node], lru) {
c0f398c3SYu Zhao			if (folio_test_hwpoison(folio))
c0f398c3SYu Zhao				continue;
c0f398c3SYu Zhao
c0f398c3SYu Zhao			remove_hugetlb_folio(src, folio, false);
c0f398c3SYu Zhao			list_add(&folio->lru, &list);
c0f398c3SYu Zhao
c0f398c3SYu Zhao			if (++nr_demoted == nr_to_demote)
c0f398c3SYu Zhao				break;
c0f398c3SYu Zhao		}
c0f398c3SYu Zhao
c0f398c3SYu Zhao		spin_unlock_irq(&hugetlb_lock);
c0f398c3SYu Zhao
c0f398c3SYu Zhao		rc = demote_free_hugetlb_folios(src, dst, &list);
8531fc6fSMike Kravetz
8531fc6fSMike Kravetz		spin_lock_irq(&hugetlb_lock);
8531fc6fSMike Kravetz
c0f398c3SYu Zhao		list_for_each_entry_safe(folio, next, &list, lru) {
c0f398c3SYu Zhao			list_del(&folio->lru);
c0f398c3SYu Zhao			add_hugetlb_folio(src, folio, false);
c0f398c3SYu Zhao
c0f398c3SYu Zhao			nr_demoted--;
c0f398c3SYu Zhao		}
c0f398c3SYu Zhao
c0f398c3SYu Zhao		if (rc < 0 || nr_demoted == nr_to_demote)
c0f398c3SYu Zhao			break;
c0f398c3SYu Zhao	}
c0f398c3SYu Zhao
8531fc6fSMike Kravetz	/*
8531fc6fSMike Kravetz	 * Not absolutely necessary, but for consistency update max_huge_pages
8531fc6fSMike Kravetz	 * based on pool changes for the demoted page.
8531fc6fSMike Kravetz	 */
c0f398c3SYu Zhao	src->max_huge_pages -= nr_demoted;
c0f398c3SYu Zhao	dst->max_huge_pages += nr_demoted << (huge_page_order(src) - huge_page_order(dst));
8531fc6fSMike Kravetz
c0f398c3SYu Zhao	if (rc < 0)
8531fc6fSMike Kravetz		return rc;
8531fc6fSMike Kravetz
c0f398c3SYu Zhao	if (nr_demoted)
c0f398c3SYu Zhao		return nr_demoted;
5a317412SMike Kravetz	/*
5a317412SMike Kravetz	 * Only way to get here is if all pages on free lists are poisoned.
5a317412SMike Kravetz	 * Return -EBUSY so that caller will not retry.
5a317412SMike Kravetz	 */
5a317412SMike Kravetz	return -EBUSY;
79dfc695SMike Kravetz}
79dfc695SMike Kravetz
ecd6703fSHui Zhussize_t __nr_hugepages_store_common(bool obey_mempolicy,
238d3c13SDavid Rientjes					   struct hstate *h, int nid,
238d3c13SDavid Rientjes					   unsigned long count, size_t len)
a3437870SNishanth Aravamudan{
a3437870SNishanth Aravamudan	int err;
2d0adf7eSOscar Salvador	nodemask_t nodes_allowed, *n_mask;
a3437870SNishanth Aravamudan
a743e0afSUsama Arif	if (hstate_is_gigantic_no_runtime(h))
2d0adf7eSOscar Salvador		return -EINVAL;
adbe8726SEric B Munson
9a305230SLee Schermerhorn	if (nid == NUMA_NO_NODE) {
9a305230SLee Schermerhorn		/*
9a305230SLee Schermerhorn		 * global hstate attribute
9a305230SLee Schermerhorn		 */
9a305230SLee Schermerhorn		if (!(obey_mempolicy &&
2d0adf7eSOscar Salvador				init_nodemask_of_mempolicy(&nodes_allowed)))
2d0adf7eSOscar Salvador			n_mask = &node_states[N_MEMORY];
2d0adf7eSOscar Salvador		else
2d0adf7eSOscar Salvador			n_mask = &nodes_allowed;
2d0adf7eSOscar Salvador	} else {
9a305230SLee Schermerhorn		/*
fd875dcaSMike Kravetz		 * Node specific request.  count adjustment happens in
fd875dcaSMike Kravetz		 * set_max_huge_pages() after acquiring hugetlb_lock.
9a305230SLee Schermerhorn		 */
2d0adf7eSOscar Salvador		init_nodemask_of_node(&nodes_allowed, nid);
2d0adf7eSOscar Salvador		n_mask = &nodes_allowed;
fd875dcaSMike Kravetz	}
9a305230SLee Schermerhorn
2d0adf7eSOscar Salvador	err = set_max_huge_pages(h, count, nid, n_mask);
06808b08SLee Schermerhorn
4eb0716eSAlexandre Ghiti	return err ? err : len;
06808b08SLee Schermerhorn}
06808b08SLee Schermerhorn
a3437870SNishanth Aravamudanstatic int __init hugetlb_init(void)
a3437870SNishanth Aravamudan{
8382d914SDavidlohr Bueso	int i;
8382d914SDavidlohr Bueso
d6995da3SMike Kravetz	BUILD_BUG_ON(sizeof_field(struct page, private) * BITS_PER_BYTE <
d6995da3SMike Kravetz			__NR_HPAGEFLAGS);
7b4f21f5SDavid Hildenbrand	BUILD_BUG_ON_INVALID(HUGETLB_PAGE_ORDER > MAX_FOLIO_ORDER);
d6995da3SMike Kravetz
c2833a5bSMike Kravetz	if (!hugepages_supported()) {
c2833a5bSMike Kravetz		if (hugetlb_max_hstate || default_hstate_max_huge_pages)
c2833a5bSMike Kravetz			pr_warn("HugeTLB: huge pages not supported, ignoring associated command-line parameters\n");
0ef89d25SBenjamin Herrenschmidt		return 0;
d715cf80SLiam R. Howlett	}
d715cf80SLiam R. Howlett
282f4214SMike Kravetz	/*
282f4214SMike Kravetz	 * Make sure HPAGE_SIZE (HUGETLB_PAGE_ORDER) hstate exists.  Some
282f4214SMike Kravetz	 * architectures depend on setup being done here.
282f4214SMike Kravetz	 */
a3437870SNishanth Aravamudan	hugetlb_add_hstate(HUGETLB_PAGE_ORDER);
282f4214SMike Kravetz	if (!parsed_default_hugepagesz) {
282f4214SMike Kravetz		/*
282f4214SMike Kravetz		 * If we did not parse a default huge page size, set
282f4214SMike Kravetz		 * default_hstate_idx to HPAGE_SIZE hstate. And, if the
282f4214SMike Kravetz		 * number of huge pages for this default size was implicitly
282f4214SMike Kravetz		 * specified, set that here as well.
282f4214SMike Kravetz		 * Note that the implicit setting will overwrite an explicit
282f4214SMike Kravetz		 * setting.  A warning will be printed in this case.
282f4214SMike Kravetz		 */
282f4214SMike Kravetz		default_hstate_idx = hstate_index(size_to_hstate(HPAGE_SIZE));
f8b74815SVaishali Thakkar		if (default_hstate_max_huge_pages) {
282f4214SMike Kravetz			if (default_hstate.max_huge_pages) {
282f4214SMike Kravetz				char buf[32];
282f4214SMike Kravetz
282f4214SMike Kravetz				string_get_size(huge_page_size(&default_hstate),
282f4214SMike Kravetz					1, STRING_UNITS_2, buf, 32);
282f4214SMike Kravetz				pr_warn("HugeTLB: Ignoring hugepages=%lu associated with %s page size\n",
282f4214SMike Kravetz					default_hstate.max_huge_pages, buf);
282f4214SMike Kravetz				pr_warn("HugeTLB: Using hugepages=%lu for number of default huge pages\n",
282f4214SMike Kravetz					default_hstate_max_huge_pages);
282f4214SMike Kravetz			}
282f4214SMike Kravetz			default_hstate.max_huge_pages =
282f4214SMike Kravetz				default_hstate_max_huge_pages;
b5389086SZhenguo Yao
0a7a0f6fSPeng Liu			for_each_online_node(i)
b5389086SZhenguo Yao				default_hstate.max_huge_pages_node[i] =
b5389086SZhenguo Yao					default_hugepages_in_node[i];
282f4214SMike Kravetz		}
f8b74815SVaishali Thakkar	}
a3437870SNishanth Aravamudan
a3437870SNishanth Aravamudan	hugetlb_init_hstates();
aa888a74SAndi Kleen	gather_bootmem_prealloc();
a3437870SNishanth Aravamudan	report_hugepages();
a3437870SNishanth Aravamudan
a3437870SNishanth Aravamudan	hugetlb_sysfs_init();
7179e7bfSJianguo Wu	hugetlb_cgroup_file_init();
962de548SKefeng Wang	hugetlb_sysctl_init();
9a305230SLee Schermerhorn
8382d914SDavidlohr Bueso#ifdef CONFIG_SMP
8382d914SDavidlohr Bueso	num_fault_mutexes = roundup_pow_of_two(8 * num_possible_cpus());
8382d914SDavidlohr Bueso#else
8382d914SDavidlohr Bueso	num_fault_mutexes = 1;
8382d914SDavidlohr Bueso#endif
c672c7f2SMike Kravetz	hugetlb_fault_mutex_table =
bf4afc53SLinus Torvalds		kmalloc_objs(struct mutex, num_fault_mutexes);
c672c7f2SMike Kravetz	BUG_ON(!hugetlb_fault_mutex_table);
8382d914SDavidlohr Bueso
8382d914SDavidlohr Bueso	for (i = 0; i < num_fault_mutexes; i++)
c672c7f2SMike Kravetz		mutex_init(&hugetlb_fault_mutex_table[i]);
a3437870SNishanth Aravamudan	return 0;
a3437870SNishanth Aravamudan}
3e89e1c5SPaul Gortmakersubsys_initcall(hugetlb_init);
a3437870SNishanth Aravamudan
ae94da89SMike Kravetz/* Overwritten by architectures with more huge page sizes */
ae94da89SMike Kravetzbool __init __attribute((weak)) arch_hugetlb_valid_size(unsigned long size)
9fee021dSVaishali Thakkar{
ae94da89SMike Kravetz	return size == HPAGE_SIZE;
9fee021dSVaishali Thakkar}
9fee021dSVaishali Thakkar
d00181b9SKirill A. Shutemovvoid __init hugetlb_add_hstate(unsigned int order)
a3437870SNishanth Aravamudan{
a3437870SNishanth Aravamudan	struct hstate *h;
8faa8b07SAndi Kleen	unsigned long i;
8faa8b07SAndi Kleen
a3437870SNishanth Aravamudan	if (size_to_hstate(PAGE_SIZE << order)) {
a3437870SNishanth Aravamudan		return;
a3437870SNishanth Aravamudan	}
47d38344SAneesh Kumar K.V	BUG_ON(hugetlb_max_hstate >= HUGE_MAX_HSTATE);
59838b25SFrank van der Linden	BUG_ON(order < order_base_2(__NR_USED_SUBPAGE));
7b4f21f5SDavid Hildenbrand	WARN_ON(order > MAX_FOLIO_ORDER);
47d38344SAneesh Kumar K.V	h = &hstates[hugetlb_max_hstate++];
667574e8SMiaohe Lin	__mutex_init(&h->resize_lock, "resize mutex", &h->resize_key);
a3437870SNishanth Aravamudan	h->order = order;
aca78307SMiaohe Lin	h->mask = ~(huge_page_size(h) - 1);
8faa8b07SAndi Kleen	for (i = 0; i < MAX_NUMNODES; ++i)
8faa8b07SAndi Kleen		INIT_LIST_HEAD(&h->hugepage_freelists[i]);
0edaecfaSAneesh Kumar K.V	INIT_LIST_HEAD(&h->hugepage_activelist);
a3437870SNishanth Aravamudan	snprintf(h->name, HSTATE_NAME_LEN, "hugepages-%lukB",
c2c3a60aSMiaohe Lin					huge_page_size(h)/SZ_1K);
8faa8b07SAndi Kleen
a3437870SNishanth Aravamudan	parsed_hstate = h;
a3437870SNishanth Aravamudan}
a3437870SNishanth Aravamudan
b5389086SZhenguo Yaobool __init __weak hugetlb_node_alloc_supported(void)
b5389086SZhenguo Yao{
b5389086SZhenguo Yao	return true;
b5389086SZhenguo Yao}
f87442f4SPeng Liu
f87442f4SPeng Liustatic void __init hugepages_clear_pages_in_node(void)
f87442f4SPeng Liu{
f87442f4SPeng Liu	if (!hugetlb_max_hstate) {
f87442f4SPeng Liu		default_hstate_max_huge_pages = 0;
f87442f4SPeng Liu		memset(default_hugepages_in_node, 0,
10395680SMiaohe Lin			sizeof(default_hugepages_in_node));
f87442f4SPeng Liu	} else {
f87442f4SPeng Liu		parsed_hstate->max_huge_pages = 0;
f87442f4SPeng Liu		memset(parsed_hstate->max_huge_pages_node, 0,
10395680SMiaohe Lin			sizeof(parsed_hstate->max_huge_pages_node));
f87442f4SPeng Liu	}
f87442f4SPeng Liu}
f87442f4SPeng Liu
5b47c029SFrank van der Lindenstatic __init int hugetlb_add_param(char *s, int (*setup)(char *))
5b47c029SFrank van der Linden{
5b47c029SFrank van der Linden	size_t len;
5b47c029SFrank van der Linden	char *p;
5b47c029SFrank van der Linden
*c45b3549SThorsten Blum	if (!s)
*c45b3549SThorsten Blum		return -EINVAL;
*c45b3549SThorsten Blum
5b47c029SFrank van der Linden	if (hugetlb_param_index >= HUGE_MAX_CMDLINE_ARGS)
5b47c029SFrank van der Linden		return -EINVAL;
5b47c029SFrank van der Linden
5b47c029SFrank van der Linden	len = strlen(s) + 1;
5b47c029SFrank van der Linden	if (len + hstate_cmdline_index > sizeof(hstate_cmdline_buf))
5b47c029SFrank van der Linden		return -EINVAL;
5b47c029SFrank van der Linden
5b47c029SFrank van der Linden	p = &hstate_cmdline_buf[hstate_cmdline_index];
5b47c029SFrank van der Linden	memcpy(p, s, len);
5b47c029SFrank van der Linden	hstate_cmdline_index += len;
5b47c029SFrank van der Linden
5b47c029SFrank van der Linden	hugetlb_params[hugetlb_param_index].val = p;
5b47c029SFrank van der Linden	hugetlb_params[hugetlb_param_index].setup = setup;
5b47c029SFrank van der Linden
5b47c029SFrank van der Linden	hugetlb_param_index++;
5b47c029SFrank van der Linden
5b47c029SFrank van der Linden	return 0;
5b47c029SFrank van der Linden}
5b47c029SFrank van der Linden
5b47c029SFrank van der Lindenstatic __init void hugetlb_parse_params(void)
5b47c029SFrank van der Linden{
5b47c029SFrank van der Linden	int i;
5b47c029SFrank van der Linden	struct hugetlb_cmdline *hcp;
5b47c029SFrank van der Linden
5b47c029SFrank van der Linden	for (i = 0; i < hugetlb_param_index; i++) {
5b47c029SFrank van der Linden		hcp = &hugetlb_params[i];
5b47c029SFrank van der Linden
5b47c029SFrank van der Linden		hcp->setup(hcp->val);
5b47c029SFrank van der Linden	}
f866cfceSFrank van der Linden
474fe91fSFrank van der Linden	hugetlb_cma_validate_params();
5b47c029SFrank van der Linden}
5b47c029SFrank van der Linden
282f4214SMike Kravetz/*
282f4214SMike Kravetz * hugepages command line processing
282f4214SMike Kravetz * hugepages normally follows a valid hugepagsz or default_hugepagsz
282f4214SMike Kravetz * specification.  If not, ignore the hugepages value.  hugepages can also
282f4214SMike Kravetz * be the first huge page command line  option in which case it implicitly
282f4214SMike Kravetz * specifies the number of huge pages for the default size.
282f4214SMike Kravetz */
282f4214SMike Kravetzstatic int __init hugepages_setup(char *s)
a3437870SNishanth Aravamudan{
a3437870SNishanth Aravamudan	unsigned long *mhp;
8faa8b07SAndi Kleen	static unsigned long *last_mhp;
b5389086SZhenguo Yao	int node = NUMA_NO_NODE;
b5389086SZhenguo Yao	int count;
b5389086SZhenguo Yao	unsigned long tmp;
b5389086SZhenguo Yao	char *p = s;
a3437870SNishanth Aravamudan
b0201916SSourabh Jain	if (!hugepages_supported()) {
b0201916SSourabh Jain		pr_warn("HugeTLB: hugepages unsupported, ignoring hugepages=%s cmdline\n", s);
b0201916SSourabh Jain		return 0;
b0201916SSourabh Jain	}
b0201916SSourabh Jain
9fee021dSVaishali Thakkar	if (!parsed_valid_hugepagesz) {
282f4214SMike Kravetz		pr_warn("HugeTLB: hugepages=%s does not follow a valid hugepagesz, ignoring\n", s);
9fee021dSVaishali Thakkar		parsed_valid_hugepagesz = true;
5b47c029SFrank van der Linden		return -EINVAL;
9fee021dSVaishali Thakkar	}
282f4214SMike Kravetz
a3437870SNishanth Aravamudan	/*
282f4214SMike Kravetz	 * !hugetlb_max_hstate means we haven't parsed a hugepagesz= parameter
282f4214SMike Kravetz	 * yet, so this hugepages= parameter goes to the "default hstate".
282f4214SMike Kravetz	 * Otherwise, it goes with the previously parsed hugepagesz or
282f4214SMike Kravetz	 * default_hugepagesz.
a3437870SNishanth Aravamudan	 */
9fee021dSVaishali Thakkar	else if (!hugetlb_max_hstate)
a3437870SNishanth Aravamudan		mhp = &default_hstate_max_huge_pages;
a3437870SNishanth Aravamudan	else
a3437870SNishanth Aravamudan		mhp = &parsed_hstate->max_huge_pages;
a3437870SNishanth Aravamudan
8faa8b07SAndi Kleen	if (mhp == last_mhp) {
282f4214SMike Kravetz		pr_warn("HugeTLB: hugepages= specified twice without interleaving hugepagesz=, ignoring hugepages=%s\n", s);
f81f6e4bSPeng Liu		return 1;
8faa8b07SAndi Kleen	}
8faa8b07SAndi Kleen
b5389086SZhenguo Yao	while (*p) {
b5389086SZhenguo Yao		count = 0;
b5389086SZhenguo Yao		if (sscanf(p, "%lu%n", &tmp, &count) != 1)
b5389086SZhenguo Yao			goto invalid;
b5389086SZhenguo Yao		/* Parameter is node format */
b5389086SZhenguo Yao		if (p[count] == ':') {
b5389086SZhenguo Yao			if (!hugetlb_node_alloc_supported()) {
b5389086SZhenguo Yao				pr_warn("HugeTLB: architecture can't support node specific alloc, ignoring!\n");
f81f6e4bSPeng Liu				return 1;
b5389086SZhenguo Yao			}
0a7a0f6fSPeng Liu			if (tmp >= MAX_NUMNODES || !node_online(tmp))
e79ce983SLiu Yuntao				goto invalid;
0a7a0f6fSPeng Liu			node = array_index_nospec(tmp, MAX_NUMNODES);
b5389086SZhenguo Yao			p += count + 1;
b5389086SZhenguo Yao			/* Parse hugepages */
b5389086SZhenguo Yao			if (sscanf(p, "%lu%n", &tmp, &count) != 1)
b5389086SZhenguo Yao				goto invalid;
b5389086SZhenguo Yao			if (!hugetlb_max_hstate)
b5389086SZhenguo Yao				default_hugepages_in_node[node] = tmp;
b5389086SZhenguo Yao			else
b5389086SZhenguo Yao				parsed_hstate->max_huge_pages_node[node] = tmp;
b5389086SZhenguo Yao			*mhp += tmp;
b5389086SZhenguo Yao			/* Go to parse next node*/
b5389086SZhenguo Yao			if (p[count] == ',')
b5389086SZhenguo Yao				p += count + 1;
b5389086SZhenguo Yao			else
b5389086SZhenguo Yao				break;
b5389086SZhenguo Yao		} else {
b5389086SZhenguo Yao			if (p != s)
b5389086SZhenguo Yao				goto invalid;
b5389086SZhenguo Yao			*mhp = tmp;
b5389086SZhenguo Yao			break;
b5389086SZhenguo Yao		}
b5389086SZhenguo Yao	}
a3437870SNishanth Aravamudan
8faa8b07SAndi Kleen	last_mhp = mhp;
8faa8b07SAndi Kleen
5b47c029SFrank van der Linden	return 0;
b5389086SZhenguo Yao
b5389086SZhenguo Yaoinvalid:
b5389086SZhenguo Yao	pr_warn("HugeTLB: Invalid hugepages parameter %s\n", p);
f87442f4SPeng Liu	hugepages_clear_pages_in_node();
5b47c029SFrank van der Linden	return -EINVAL;
a3437870SNishanth Aravamudan}
5b47c029SFrank van der Lindenhugetlb_early_param("hugepages", hugepages_setup);
e11bfbfcSNick Piggin
282f4214SMike Kravetz/*
282f4214SMike Kravetz * hugepagesz command line processing
282f4214SMike Kravetz * A specific huge page size can only be specified once with hugepagesz.
282f4214SMike Kravetz * hugepagesz is followed by hugepages on the command line.  The global
282f4214SMike Kravetz * variable 'parsed_valid_hugepagesz' is used to determine if prior
282f4214SMike Kravetz * hugepagesz argument was valid.
282f4214SMike Kravetz */
359f2544SMike Kravetzstatic int __init hugepagesz_setup(char *s)
e11bfbfcSNick Piggin{
359f2544SMike Kravetz	unsigned long size;
282f4214SMike Kravetz	struct hstate *h;
282f4214SMike Kravetz
b0201916SSourabh Jain	if (!hugepages_supported()) {
b0201916SSourabh Jain		pr_warn("HugeTLB: hugepages unsupported, ignoring hugepagesz=%s cmdline\n", s);
b0201916SSourabh Jain		return 0;
b0201916SSourabh Jain	}
b0201916SSourabh Jain
282f4214SMike Kravetz	parsed_valid_hugepagesz = false;
359f2544SMike Kravetz	size = (unsigned long)memparse(s, NULL);
359f2544SMike Kravetz
359f2544SMike Kravetz	if (!arch_hugetlb_valid_size(size)) {
282f4214SMike Kravetz		pr_err("HugeTLB: unsupported hugepagesz=%s\n", s);
5b47c029SFrank van der Linden		return -EINVAL;
359f2544SMike Kravetz	}
359f2544SMike Kravetz
282f4214SMike Kravetz	h = size_to_hstate(size);
282f4214SMike Kravetz	if (h) {
282f4214SMike Kravetz		/*
282f4214SMike Kravetz		 * hstate for this size already exists.  This is normally
282f4214SMike Kravetz		 * an error, but is allowed if the existing hstate is the
282f4214SMike Kravetz		 * default hstate.  More specifically, it is only allowed if
282f4214SMike Kravetz		 * the number of huge pages for the default hstate was not
282f4214SMike Kravetz		 * previously specified.
282f4214SMike Kravetz		 */
282f4214SMike Kravetz		if (!parsed_default_hugepagesz ||  h != &default_hstate ||
282f4214SMike Kravetz		    default_hstate.max_huge_pages) {
282f4214SMike Kravetz			pr_warn("HugeTLB: hugepagesz=%s specified twice, ignoring\n", s);
5b47c029SFrank van der Linden			return -EINVAL;
38237830SMike Kravetz		}
38237830SMike Kravetz
282f4214SMike Kravetz		/*
282f4214SMike Kravetz		 * No need to call hugetlb_add_hstate() as hstate already
282f4214SMike Kravetz		 * exists.  But, do set parsed_hstate so that a following
282f4214SMike Kravetz		 * hugepages= parameter will be applied to this hstate.
282f4214SMike Kravetz		 */
282f4214SMike Kravetz		parsed_hstate = h;
282f4214SMike Kravetz		parsed_valid_hugepagesz = true;
5b47c029SFrank van der Linden		return 0;
e11bfbfcSNick Piggin	}
282f4214SMike Kravetz
359f2544SMike Kravetz	hugetlb_add_hstate(ilog2(size) - PAGE_SHIFT);
282f4214SMike Kravetz	parsed_valid_hugepagesz = true;
5b47c029SFrank van der Linden	return 0;
359f2544SMike Kravetz}
5b47c029SFrank van der Lindenhugetlb_early_param("hugepagesz", hugepagesz_setup);
359f2544SMike Kravetz
282f4214SMike Kravetz/*
282f4214SMike Kravetz * default_hugepagesz command line input
282f4214SMike Kravetz * Only one instance of default_hugepagesz allowed on command line.
282f4214SMike Kravetz */
ae94da89SMike Kravetzstatic int __init default_hugepagesz_setup(char *s)
e11bfbfcSNick Piggin{
ae94da89SMike Kravetz	unsigned long size;
b5389086SZhenguo Yao	int i;
ae94da89SMike Kravetz
b0201916SSourabh Jain	if (!hugepages_supported()) {
b0201916SSourabh Jain		pr_warn("HugeTLB: hugepages unsupported, ignoring default_hugepagesz=%s cmdline\n",
b0201916SSourabh Jain			s);
b0201916SSourabh Jain		return 0;
b0201916SSourabh Jain	}
b0201916SSourabh Jain
282f4214SMike Kravetz	parsed_valid_hugepagesz = false;
282f4214SMike Kravetz	if (parsed_default_hugepagesz) {
282f4214SMike Kravetz		pr_err("HugeTLB: default_hugepagesz previously specified, ignoring %s\n", s);
5b47c029SFrank van der Linden		return -EINVAL;
282f4214SMike Kravetz	}
282f4214SMike Kravetz
282f4214SMike Kravetz	size = (unsigned long)memparse(s, NULL);
282f4214SMike Kravetz
282f4214SMike Kravetz	if (!arch_hugetlb_valid_size(size)) {
282f4214SMike Kravetz		pr_err("HugeTLB: unsupported default_hugepagesz=%s\n", s);
5b47c029SFrank van der Linden		return -EINVAL;
282f4214SMike Kravetz	}
282f4214SMike Kravetz
282f4214SMike Kravetz	hugetlb_add_hstate(ilog2(size) - PAGE_SHIFT);
282f4214SMike Kravetz	parsed_valid_hugepagesz = true;
282f4214SMike Kravetz	parsed_default_hugepagesz = true;
282f4214SMike Kravetz	default_hstate_idx = hstate_index(size_to_hstate(size));
282f4214SMike Kravetz
282f4214SMike Kravetz	/*
282f4214SMike Kravetz	 * The number of default huge pages (for this size) could have been
282f4214SMike Kravetz	 * specified as the first hugetlb parameter: hugepages=X.  If so,
282f4214SMike Kravetz	 * then default_hstate_max_huge_pages is set.  If the default huge
5e0a760bSKirill A. Shutemov	 * page size is gigantic (> MAX_PAGE_ORDER), then the pages must be
282f4214SMike Kravetz	 * allocated here from bootmem allocator.
282f4214SMike Kravetz	 */
282f4214SMike Kravetz	if (default_hstate_max_huge_pages) {
282f4214SMike Kravetz		default_hstate.max_huge_pages = default_hstate_max_huge_pages;
5b47c029SFrank van der Linden		/*
5b47c029SFrank van der Linden		 * Since this is an early parameter, we can't check
5b47c029SFrank van der Linden		 * NUMA node state yet, so loop through MAX_NUMNODES.
5b47c029SFrank van der Linden		 */
5b47c029SFrank van der Linden		for (i = 0; i < MAX_NUMNODES; i++) {
5b47c029SFrank van der Linden			if (default_hugepages_in_node[i] != 0)
b5389086SZhenguo Yao				default_hstate.max_huge_pages_node[i] =
b5389086SZhenguo Yao					default_hugepages_in_node[i];
5b47c029SFrank van der Linden		}
282f4214SMike Kravetz		default_hstate_max_huge_pages = 0;
282f4214SMike Kravetz	}
282f4214SMike Kravetz
5b47c029SFrank van der Linden	return 0;
e11bfbfcSNick Piggin}
5b47c029SFrank van der Lindenhugetlb_early_param("default_hugepagesz", default_hugepagesz_setup);
5b47c029SFrank van der Linden
8d88b076SFrank van der Lindenvoid __init hugetlb_bootmem_set_nodes(void)
8d88b076SFrank van der Linden{
8d88b076SFrank van der Linden	int i, nid;
8d88b076SFrank van der Linden	unsigned long start_pfn, end_pfn;
8d88b076SFrank van der Linden
8d88b076SFrank van der Linden	if (!nodes_empty(hugetlb_bootmem_nodes))
8d88b076SFrank van der Linden		return;
8d88b076SFrank van der Linden
8d88b076SFrank van der Linden	for_each_mem_pfn_range(i, MAX_NUMNODES, &start_pfn, &end_pfn, &nid) {
8d88b076SFrank van der Linden		if (end_pfn > start_pfn)
8d88b076SFrank van der Linden			node_set(nid, hugetlb_bootmem_nodes);
8d88b076SFrank van der Linden	}
8d88b076SFrank van der Linden}
8d88b076SFrank van der Linden
5b47c029SFrank van der Lindenvoid __init hugetlb_bootmem_alloc(void)
5b47c029SFrank van der Linden{
5b47c029SFrank van der Linden	struct hstate *h;
91ec7187SFrank van der Linden	int i;
5b47c029SFrank van der Linden
8d88b076SFrank van der Linden	hugetlb_bootmem_set_nodes();
8d88b076SFrank van der Linden
91ec7187SFrank van der Linden	for (i = 0; i < MAX_NUMNODES; i++)
91ec7187SFrank van der Linden		INIT_LIST_HEAD(&huge_boot_pages[i]);
91ec7187SFrank van der Linden
5b47c029SFrank van der Linden	hugetlb_parse_params();
5b47c029SFrank van der Linden
5b47c029SFrank van der Linden	for_each_hstate(h) {
91ec7187SFrank van der Linden		h->next_nid_to_alloc = first_online_node;
91ec7187SFrank van der Linden
5b47c029SFrank van der Linden		if (hstate_is_gigantic(h))
5b47c029SFrank van der Linden			hugetlb_hstate_alloc_pages(h);
5b47c029SFrank van der Linden	}
5b47c029SFrank van der Linden}
a3437870SNishanth Aravamudan
71f74568SThomas Prescher/*
71f74568SThomas Prescher * hugepage_alloc_threads command line parsing.
71f74568SThomas Prescher *
71f74568SThomas Prescher * When set, use this specific number of threads for the boot
71f74568SThomas Prescher * allocation of hugepages.
71f74568SThomas Prescher */
71f74568SThomas Prescherstatic int __init hugepage_alloc_threads_setup(char *s)
71f74568SThomas Prescher{
71f74568SThomas Prescher	unsigned long allocation_threads;
71f74568SThomas Prescher
71f74568SThomas Prescher	if (kstrtoul(s, 0, &allocation_threads) != 0)
71f74568SThomas Prescher		return 1;
71f74568SThomas Prescher
71f74568SThomas Prescher	if (allocation_threads == 0)
71f74568SThomas Prescher		return 1;
71f74568SThomas Prescher
71f74568SThomas Prescher	hugepage_allocation_threads = allocation_threads;
71f74568SThomas Prescher
71f74568SThomas Prescher	return 1;
71f74568SThomas Prescher}
71f74568SThomas Prescher__setup("hugepage_alloc_threads=", hugepage_alloc_threads_setup);
71f74568SThomas Prescher
8ca39e68SMuchun Songstatic unsigned int allowed_mems_nr(struct hstate *h)
8a213460SNishanth Aravamudan{
8a213460SNishanth Aravamudan	int node;
8a213460SNishanth Aravamudan	unsigned int nr = 0;
d2226ebdSFeng Tang	nodemask_t *mbind_nodemask;
8ca39e68SMuchun Song	unsigned int *array = h->free_huge_pages_node;
8ca39e68SMuchun Song	gfp_t gfp_mask = htlb_alloc_mask(h);
8a213460SNishanth Aravamudan
d2226ebdSFeng Tang	mbind_nodemask = policy_mbind_nodemask(gfp_mask);
8ca39e68SMuchun Song	for_each_node_mask(node, cpuset_current_mems_allowed) {
d2226ebdSFeng Tang		if (!mbind_nodemask || node_isset(node, *mbind_nodemask))
8a213460SNishanth Aravamudan			nr += array[node];
8ca39e68SMuchun Song	}
8a213460SNishanth Aravamudan
8a213460SNishanth Aravamudan	return nr;
8a213460SNishanth Aravamudan}
8a213460SNishanth Aravamudan
e1759c21SAlexey Dobriyanvoid hugetlb_report_meminfo(struct seq_file *m)
1da177e4SLinus Torvalds{
fcb2b0c5SRoman Gushchin	struct hstate *h;
fcb2b0c5SRoman Gushchin	unsigned long total = 0;
fcb2b0c5SRoman Gushchin
457c1b27SNishanth Aravamudan	if (!hugepages_supported())
457c1b27SNishanth Aravamudan		return;
fcb2b0c5SRoman Gushchin
fcb2b0c5SRoman Gushchin	for_each_hstate(h) {
fcb2b0c5SRoman Gushchin		unsigned long count = h->nr_huge_pages;
fcb2b0c5SRoman Gushchin
aca78307SMiaohe Lin		total += huge_page_size(h) * count;
fcb2b0c5SRoman Gushchin
fcb2b0c5SRoman Gushchin		if (h == &default_hstate)
e1759c21SAlexey Dobriyan			seq_printf(m,
1da177e4SLinus Torvalds				   "HugePages_Total:   %5lu\n"
1da177e4SLinus Torvalds				   "HugePages_Free:    %5lu\n"
b45b5bd6SDavid Gibson				   "HugePages_Rsvd:    %5lu\n"
7893d1d5SAdam Litke				   "HugePages_Surp:    %5lu\n"
4f98a2feSRik van Riel				   "Hugepagesize:   %8lu kB\n",
fcb2b0c5SRoman Gushchin				   count,
a5516438SAndi Kleen				   h->free_huge_pages,
a5516438SAndi Kleen				   h->resv_huge_pages,
a5516438SAndi Kleen				   h->surplus_huge_pages,
aca78307SMiaohe Lin				   huge_page_size(h) / SZ_1K);
fcb2b0c5SRoman Gushchin	}
fcb2b0c5SRoman Gushchin
aca78307SMiaohe Lin	seq_printf(m, "Hugetlb:        %8lu kB\n", total / SZ_1K);
1da177e4SLinus Torvalds}
1da177e4SLinus Torvalds
7981593bSJoe Perchesint hugetlb_report_node_meminfo(char *buf, int len, int nid)
1da177e4SLinus Torvalds{
a5516438SAndi Kleen	struct hstate *h = &default_hstate;
7981593bSJoe Perches
457c1b27SNishanth Aravamudan	if (!hugepages_supported())
457c1b27SNishanth Aravamudan		return 0;
7981593bSJoe Perches
7981593bSJoe Perches	return sysfs_emit_at(buf, len,
1da177e4SLinus Torvalds			     "Node %d HugePages_Total: %5u\n"
a1de0919SNishanth Aravamudan			     "Node %d HugePages_Free:  %5u\n"
a1de0919SNishanth Aravamudan			     "Node %d HugePages_Surp:  %5u\n",
a5516438SAndi Kleen			     nid, h->nr_huge_pages_node[nid],
a5516438SAndi Kleen			     nid, h->free_huge_pages_node[nid],
a5516438SAndi Kleen			     nid, h->surplus_huge_pages_node[nid]);
1da177e4SLinus Torvalds}
1da177e4SLinus Torvalds
dcadcf1cSGang Livoid hugetlb_show_meminfo_node(int nid)
949f7ec5SDavid Rientjes{
949f7ec5SDavid Rientjes	struct hstate *h;
949f7ec5SDavid Rientjes
457c1b27SNishanth Aravamudan	if (!hugepages_supported())
457c1b27SNishanth Aravamudan		return;
457c1b27SNishanth Aravamudan
949f7ec5SDavid Rientjes	for_each_hstate(h)
dcadcf1cSGang Li		printk("Node %d hugepages_total=%u hugepages_free=%u hugepages_surp=%u hugepages_size=%lukB\n",
949f7ec5SDavid Rientjes			nid,
949f7ec5SDavid Rientjes			h->nr_huge_pages_node[nid],
949f7ec5SDavid Rientjes			h->free_huge_pages_node[nid],
949f7ec5SDavid Rientjes			h->surplus_huge_pages_node[nid],
aca78307SMiaohe Lin			huge_page_size(h) / SZ_1K);
949f7ec5SDavid Rientjes}
949f7ec5SDavid Rientjes
5d317b2bSNaoya Horiguchivoid hugetlb_report_usage(struct seq_file *m, struct mm_struct *mm)
5d317b2bSNaoya Horiguchi{
5d317b2bSNaoya Horiguchi	seq_printf(m, "HugetlbPages:\t%8lu kB\n",
6c1aa2d3SZhangPeng		   K(atomic_long_read(&mm->hugetlb_usage)));
5d317b2bSNaoya Horiguchi}
5d317b2bSNaoya Horiguchi
1da177e4SLinus Torvalds/* Return the number pages of memory we physically have, in PAGE_SIZE units. */
1da177e4SLinus Torvaldsunsigned long hugetlb_total_pages(void)
1da177e4SLinus Torvalds{
d0028588SWanpeng Li	struct hstate *h;
d0028588SWanpeng Li	unsigned long nr_total_pages = 0;
d0028588SWanpeng Li
d0028588SWanpeng Li	for_each_hstate(h)
d0028588SWanpeng Li		nr_total_pages += h->nr_huge_pages * pages_per_huge_page(h);
d0028588SWanpeng Li	return nr_total_pages;
1da177e4SLinus Torvalds}
1da177e4SLinus Torvalds
a5516438SAndi Kleenstatic int hugetlb_acct_memory(struct hstate *h, long delta)
fc1b8a73SMel Gorman{
fc1b8a73SMel Gorman	int ret = -ENOMEM;
fc1b8a73SMel Gorman
0aa7f354SMiaohe Lin	if (!delta)
0aa7f354SMiaohe Lin		return 0;
0aa7f354SMiaohe Lin
db71ef79SMike Kravetz	spin_lock_irq(&hugetlb_lock);
fc1b8a73SMel Gorman	/*
fc1b8a73SMel Gorman	 * When cpuset is configured, it breaks the strict hugetlb page
fc1b8a73SMel Gorman	 * reservation as the accounting is done on a global variable. Such
fc1b8a73SMel Gorman	 * reservation is completely rubbish in the presence of cpuset because
fc1b8a73SMel Gorman	 * the reservation is not checked against page availability for the
fc1b8a73SMel Gorman	 * current cpuset. Application can still potentially OOM'ed by kernel
fc1b8a73SMel Gorman	 * with lack of free htlb page in cpuset that the task is in.
fc1b8a73SMel Gorman	 * Attempt to enforce strict accounting with cpuset is almost
fc1b8a73SMel Gorman	 * impossible (or too ugly) because cpuset is too fluid that
fc1b8a73SMel Gorman	 * task or memory node can be dynamically moved between cpusets.
fc1b8a73SMel Gorman	 *
fc1b8a73SMel Gorman	 * The change of semantics for shared hugetlb mapping with cpuset is
fc1b8a73SMel Gorman	 * undesirable. However, in order to preserve some of the semantics,
fc1b8a73SMel Gorman	 * we fall back to check against current free page availability as
fc1b8a73SMel Gorman	 * a best attempt and hopefully to minimize the impact of changing
fc1b8a73SMel Gorman	 * semantics that cpuset has.
8ca39e68SMuchun Song	 *
8ca39e68SMuchun Song	 * Apart from cpuset, we also have memory policy mechanism that
8ca39e68SMuchun Song	 * also determines from which node the kernel will allocate memory
8ca39e68SMuchun Song	 * in a NUMA system. So similar to cpuset, we also should consider
8ca39e68SMuchun Song	 * the memory policy of the current task. Similar to the description
8ca39e68SMuchun Song	 * above.
fc1b8a73SMel Gorman	 */
fc1b8a73SMel Gorman	if (delta > 0) {
a5516438SAndi Kleen		if (gather_surplus_pages(h, delta) < 0)
fc1b8a73SMel Gorman			goto out;
fc1b8a73SMel Gorman
8ca39e68SMuchun Song		if (delta > allowed_mems_nr(h)) {
a5516438SAndi Kleen			return_unused_surplus_pages(h, delta);
fc1b8a73SMel Gorman			goto out;
fc1b8a73SMel Gorman		}
fc1b8a73SMel Gorman	}
fc1b8a73SMel Gorman
fc1b8a73SMel Gorman	ret = 0;
fc1b8a73SMel Gorman	if (delta < 0)
a5516438SAndi Kleen		return_unused_surplus_pages(h, (unsigned long) -delta);
fc1b8a73SMel Gorman
fc1b8a73SMel Gormanout:
db71ef79SMike Kravetz	spin_unlock_irq(&hugetlb_lock);
fc1b8a73SMel Gorman	return ret;
fc1b8a73SMel Gorman}
fc1b8a73SMel Gorman
84afd99bSAndy Whitcroftstatic void hugetlb_vm_op_open(struct vm_area_struct *vma)
84afd99bSAndy Whitcroft{
f522c3acSJoonsoo Kim	struct resv_map *resv = vma_resv_map(vma);
84afd99bSAndy Whitcroft
84afd99bSAndy Whitcroft	/*
612b8a31SMike Kravetz	 * HPAGE_RESV_OWNER indicates a private mapping.
84afd99bSAndy Whitcroft	 * This new VMA should share its siblings reservation map if present.
84afd99bSAndy Whitcroft	 * The VMA will only ever have a valid reservation map pointer where
84afd99bSAndy Whitcroft	 * it is being copied for another still existing VMA.  As that VMA
25985edcSLucas De Marchi	 * has a reference to the reservation map it cannot disappear until
84afd99bSAndy Whitcroft	 * after this open call completes.  It is therefore safe to take a
84afd99bSAndy Whitcroft	 * new reference here without additional locking.
84afd99bSAndy Whitcroft	 */
09a26e83SMike Kravetz	if (resv && is_vma_resv_set(vma, HPAGE_RESV_OWNER)) {
09a26e83SMike Kravetz		resv_map_dup_hugetlb_cgroup_uncharge_info(resv);
f522c3acSJoonsoo Kim		kref_get(&resv->refs);
84afd99bSAndy Whitcroft	}
8d9bfb26SMike Kravetz
131a79b4SMike Kravetz	/*
131a79b4SMike Kravetz	 * vma_lock structure for sharable mappings is vma specific.
612b8a31SMike Kravetz	 * Clear old pointer (if copied via vm_area_dup) and allocate
612b8a31SMike Kravetz	 * new structure.  Before clearing, make sure vma_lock is not
612b8a31SMike Kravetz	 * for this vma.
131a79b4SMike Kravetz	 */
131a79b4SMike Kravetz	if (vma->vm_flags & VM_MAYSHARE) {
612b8a31SMike Kravetz		struct hugetlb_vma_lock *vma_lock = vma->vm_private_data;
612b8a31SMike Kravetz
612b8a31SMike Kravetz		if (vma_lock) {
612b8a31SMike Kravetz			if (vma_lock->vma != vma) {
131a79b4SMike Kravetz				vma->vm_private_data = NULL;
8d9bfb26SMike Kravetz				hugetlb_vma_lock_alloc(vma);
824b8c96SJoshua Hahn			} else {
612b8a31SMike Kravetz				pr_warn("HugeTLB: vma_lock already exists in %s.\n", __func__);
824b8c96SJoshua Hahn			}
824b8c96SJoshua Hahn		} else {
612b8a31SMike Kravetz			hugetlb_vma_lock_alloc(vma);
09a26e83SMike Kravetz		}
131a79b4SMike Kravetz	}
824b8c96SJoshua Hahn}
84afd99bSAndy Whitcroft
a1e78772SMel Gormanstatic void hugetlb_vm_op_close(struct vm_area_struct *vma)
a1e78772SMel Gorman{
a5516438SAndi Kleen	struct hstate *h = hstate_vma(vma);
8d9bfb26SMike Kravetz	struct resv_map *resv;
90481622SDavid Gibson	struct hugepage_subpool *spool = subpool_vma(vma);
4e35f483SJoonsoo Kim	unsigned long reserve, start, end;
1c5ecae3SMike Kravetz	long gbl_reserve;
84afd99bSAndy Whitcroft
8d9bfb26SMike Kravetz	hugetlb_vma_lock_free(vma);
8d9bfb26SMike Kravetz
8d9bfb26SMike Kravetz	resv = vma_resv_map(vma);
4e35f483SJoonsoo Kim	if (!resv || !is_vma_resv_set(vma, HPAGE_RESV_OWNER))
4e35f483SJoonsoo Kim		return;
4e35f483SJoonsoo Kim
a5516438SAndi Kleen	start = vma_hugecache_offset(h, vma, vma->vm_start);
a5516438SAndi Kleen	end = vma_hugecache_offset(h, vma, vma->vm_end);
84afd99bSAndy Whitcroft
4e35f483SJoonsoo Kim	reserve = (end - start) - region_count(resv, start, end);
e9fe92aeSMina Almasry	hugetlb_cgroup_uncharge_counter(resv, start, end);
7251ff78SAdam Litke	if (reserve) {
1c5ecae3SMike Kravetz		/*
1c5ecae3SMike Kravetz		 * Decrement reserve counts.  The global reserve count may be
1c5ecae3SMike Kravetz		 * adjusted if the subpool has a minimum size.
1c5ecae3SMike Kravetz		 */
1c5ecae3SMike Kravetz		gbl_reserve = hugepage_subpool_put_pages(spool, reserve);
1c5ecae3SMike Kravetz		hugetlb_acct_memory(h, -gbl_reserve);
7251ff78SAdam Litke	}
e9fe92aeSMina Almasry
e9fe92aeSMina Almasry	kref_put(&resv->refs, resv_map_release);
a1e78772SMel Gorman}
a1e78772SMel Gorman
31383c68SDan Williamsstatic int hugetlb_vm_op_split(struct vm_area_struct *vma, unsigned long addr)
31383c68SDan Williams{
31383c68SDan Williams	if (addr & ~(huge_page_mask(hstate_vma(vma))))
31383c68SDan Williams		return -EINVAL;
081056dcSJann Horn	return 0;
081056dcSJann Horn}
b30c14cdSJames Houghton
081056dcSJann Hornvoid hugetlb_split(struct vm_area_struct *vma, unsigned long addr)
081056dcSJann Horn{
b30c14cdSJames Houghton	/*
b30c14cdSJames Houghton	 * PMD sharing is only possible for PUD_SIZE-aligned address ranges
b30c14cdSJames Houghton	 * in HugeTLB VMAs. If we will lose PUD_SIZE alignment due to this
b30c14cdSJames Houghton	 * split, unshare PMDs in the PUD_SIZE interval surrounding addr now.
081056dcSJann Horn	 * This function is called in the middle of a VMA split operation, with
081056dcSJann Horn	 * MM, VMA and rmap all write-locked to prevent concurrent page table
081056dcSJann Horn	 * walks (except hardware and gup_fast()).
b30c14cdSJames Houghton	 */
081056dcSJann Horn	vma_assert_write_locked(vma);
081056dcSJann Horn	i_mmap_assert_write_locked(vma->vm_file->f_mapping);
081056dcSJann Horn
b30c14cdSJames Houghton	if (addr & ~PUD_MASK) {
b30c14cdSJames Houghton		unsigned long floor = addr & PUD_MASK;
b30c14cdSJames Houghton		unsigned long ceil = floor + PUD_SIZE;
b30c14cdSJames Houghton
081056dcSJann Horn		if (floor >= vma->vm_start && ceil <= vma->vm_end) {
081056dcSJann Horn			/*
081056dcSJann Horn			 * Locking:
081056dcSJann Horn			 * Use take_locks=false here.
081056dcSJann Horn			 * The file rmap lock is already held.
081056dcSJann Horn			 * The hugetlb VMA lock can't be taken when we already
081056dcSJann Horn			 * hold the file rmap lock, and we don't need it because
081056dcSJann Horn			 * its purpose is to synchronize against concurrent page
081056dcSJann Horn			 * table walks, which are not possible thanks to the
081056dcSJann Horn			 * locks held by our caller.
081056dcSJann Horn			 */
081056dcSJann Horn			hugetlb_unshare_pmds(vma, floor, ceil, /* take_locks = */ false);
b30c14cdSJames Houghton		}
081056dcSJann Horn	}
31383c68SDan Williams}
31383c68SDan Williams
05ea8860SDan Williamsstatic unsigned long hugetlb_vm_op_pagesize(struct vm_area_struct *vma)
05ea8860SDan Williams{
aca78307SMiaohe Lin	return huge_page_size(hstate_vma(vma));
05ea8860SDan Williams}
05ea8860SDan Williams
1da177e4SLinus Torvalds/*
1da177e4SLinus Torvalds * We cannot handle pagefaults against hugetlb pages at all.  They cause
1da177e4SLinus Torvalds * handle_mm_fault() to try to instantiate regular-sized pages in the
6c26d310SMiaohe Lin * hugepage VMA.  do_page_fault() is supposed to trap this, so BUG is we get
1da177e4SLinus Torvalds * this far.
1da177e4SLinus Torvalds */
b3ec9f33SSouptick Joarderstatic vm_fault_t hugetlb_vm_op_fault(struct vm_fault *vmf)
1da177e4SLinus Torvalds{
1da177e4SLinus Torvalds	BUG();
d0217ac0SNick Piggin	return 0;
1da177e4SLinus Torvalds}
1da177e4SLinus Torvalds
0f48947cSMike Rapoport (Microsoft)#ifdef CONFIG_USERFAULTFD
0f48947cSMike Rapoport (Microsoft)static bool hugetlb_can_userfault(struct vm_area_struct *vma,
0f48947cSMike Rapoport (Microsoft)				  vm_flags_t vm_flags)
0f48947cSMike Rapoport (Microsoft){
0f48947cSMike Rapoport (Microsoft)	return true;
0f48947cSMike Rapoport (Microsoft)}
0f48947cSMike Rapoport (Microsoft)
0f48947cSMike Rapoport (Microsoft)static const struct vm_uffd_ops hugetlb_uffd_ops = {
0f48947cSMike Rapoport (Microsoft)	.can_userfault = hugetlb_can_userfault,
0f48947cSMike Rapoport (Microsoft)};
0f48947cSMike Rapoport (Microsoft)#endif
0f48947cSMike Rapoport (Microsoft)
eec3636aSJane Chu/*
eec3636aSJane Chu * When a new function is introduced to vm_operations_struct and added
eec3636aSJane Chu * to hugetlb_vm_ops, please consider adding the function to shm_vm_ops.
eec3636aSJane Chu * This is because under System V memory model, mappings created via
eec3636aSJane Chu * shmget/shmat with "huge page" specified are backed by hugetlbfs files,
eec3636aSJane Chu * their original vm_ops are overwritten with shm_vm_ops.
eec3636aSJane Chu */
f0f37e2fSAlexey Dobriyanconst struct vm_operations_struct hugetlb_vm_ops = {
d0217ac0SNick Piggin	.fault = hugetlb_vm_op_fault,
84afd99bSAndy Whitcroft	.open = hugetlb_vm_op_open,
a1e78772SMel Gorman	.close = hugetlb_vm_op_close,
dd3b614fSDmitry Safonov	.may_split = hugetlb_vm_op_split,
05ea8860SDan Williams	.pagesize = hugetlb_vm_op_pagesize,
0f48947cSMike Rapoport (Microsoft)#ifdef CONFIG_USERFAULTFD
0f48947cSMike Rapoport (Microsoft)	.uffd_ops = &hugetlb_uffd_ops,
0f48947cSMike Rapoport (Microsoft)#endif
1da177e4SLinus Torvalds};
1da177e4SLinus Torvalds
e06fa168SMatthew Wilcox (Oracle)static pte_t make_huge_pte(struct vm_area_struct *vma, struct folio *folio,
d8fd84ddSDavid Hildenbrand		bool try_mkwrite)
63551ae0SDavid Gibson{
e06fa168SMatthew Wilcox (Oracle)	pte_t entry = folio_mk_pte(folio, vma->vm_page_prot);
79c1c594SChristophe Leroy	unsigned int shift = huge_page_shift(hstate_vma(vma));
63551ae0SDavid Gibson
d8fd84ddSDavid Hildenbrand	if (try_mkwrite && (vma->vm_flags & VM_WRITE)) {
e06fa168SMatthew Wilcox (Oracle)		entry = pte_mkwrite_novma(pte_mkdirty(entry));
63551ae0SDavid Gibson	} else {
e06fa168SMatthew Wilcox (Oracle)		entry = pte_wrprotect(entry);
63551ae0SDavid Gibson	}
63551ae0SDavid Gibson	entry = pte_mkyoung(entry);
79c1c594SChristophe Leroy	entry = arch_make_huge_pte(entry, shift, vma->vm_flags);
63551ae0SDavid Gibson
63551ae0SDavid Gibson	return entry;
63551ae0SDavid Gibson}
63551ae0SDavid Gibson
1e8f889bSDavid Gibsonstatic void set_huge_ptep_writable(struct vm_area_struct *vma,
1e8f889bSDavid Gibson				   unsigned long address, pte_t *ptep)
1e8f889bSDavid Gibson{
1e8f889bSDavid Gibson	pte_t entry;
1e8f889bSDavid Gibson
e6c0c032SChristophe Leroy	entry = huge_pte_mkwrite(huge_pte_mkdirty(huge_ptep_get(vma->vm_mm, address, ptep)));
32f84528SChris Forbes	if (huge_ptep_set_access_flags(vma, address, ptep, entry, 1))
4b3073e1SRussell King		update_mmu_cache(vma, address, ptep);
1e8f889bSDavid Gibson}
1e8f889bSDavid Gibson
052ccfbcSGuillaume Morinstatic void set_huge_ptep_maybe_writable(struct vm_area_struct *vma,
052ccfbcSGuillaume Morin					 unsigned long address, pte_t *ptep)
052ccfbcSGuillaume Morin{
052ccfbcSGuillaume Morin	if (vma->vm_flags & VM_WRITE)
052ccfbcSGuillaume Morin		set_huge_ptep_writable(vma, address, ptep);
052ccfbcSGuillaume Morin}
052ccfbcSGuillaume Morin
4eae4efaSPeter Xustatic void
ea4c353dSSidhartha Kumarhugetlb_install_folio(struct vm_area_struct *vma, pte_t *ptep, unsigned long addr,
935d4f0cSRyan Roberts		      struct folio *new_folio, pte_t old, unsigned long sz)
4eae4efaSPeter Xu{
e06fa168SMatthew Wilcox (Oracle)	pte_t newpte = make_huge_pte(vma, new_folio, true);
5a2f8d22SPeter Xu
ea4c353dSSidhartha Kumar	__folio_mark_uptodate(new_folio);
9d5fafd5SDavid Hildenbrand	hugetlb_add_new_anon_rmap(new_folio, vma, addr);
5a2f8d22SPeter Xu	if (userfaultfd_wp(vma) && huge_pte_uffd_wp(old))
5a2f8d22SPeter Xu		newpte = huge_pte_mkuffd_wp(newpte);
935d4f0cSRyan Roberts	set_huge_pte_at(vma->vm_mm, addr, ptep, newpte, sz);
4eae4efaSPeter Xu	hugetlb_count_add(pages_per_huge_page(hstate_vma(vma)), vma->vm_mm);
ea4c353dSSidhartha Kumar	folio_set_hugetlb_migratable(new_folio);
4eae4efaSPeter Xu}
4eae4efaSPeter Xu
63551ae0SDavid Gibsonint copy_hugetlb_page_range(struct mm_struct *dst, struct mm_struct *src,
bc70fbf2SPeter Xu			    struct vm_area_struct *dst_vma,
bc70fbf2SPeter Xu			    struct vm_area_struct *src_vma)
63551ae0SDavid Gibson{
3aa4ed80SMiaohe Lin	pte_t *src_pte, *dst_pte, entry;
ad27ce20SZhangPeng	struct folio *pte_folio;
1c59827dSHugh Dickins	unsigned long addr;
bc70fbf2SPeter Xu	bool cow = is_cow_mapping(src_vma->vm_flags);
bc70fbf2SPeter Xu	struct hstate *h = hstate_vma(src_vma);
a5516438SAndi Kleen	unsigned long sz = huge_page_size(h);
4eae4efaSPeter Xu	unsigned long npages = pages_per_huge_page(h);
ac46d4f3SJérôme Glisse	struct mmu_notifier_range range;
e95a9851SMike Kravetz	unsigned long last_addr_mask;
03bfbc3aSLorenzo Stoakes	softleaf_t softleaf;
e8569dd2SAndreas Sandberg	int ret = 0;
1e8f889bSDavid Gibson
ac46d4f3SJérôme Glisse	if (cow) {
7d4a8be0SAlistair Popple		mmu_notifier_range_init(&range, MMU_NOTIFY_CLEAR, 0, src,
bc70fbf2SPeter Xu					src_vma->vm_start,
bc70fbf2SPeter Xu					src_vma->vm_end);
ac46d4f3SJérôme Glisse		mmu_notifier_invalidate_range_start(&range);
e727bfd5SSuren Baghdasaryan		vma_assert_write_locked(src_vma);
623a1ddfSDavid Hildenbrand		raw_write_seqcount_begin(&src->write_protect_seq);
40549ba8SMike Kravetz	} else {
40549ba8SMike Kravetz		/*
40549ba8SMike Kravetz		 * For shared mappings the vma lock must be held before
9c67a207SPeter Xu		 * calling hugetlb_walk() in the src vma. Otherwise, the
40549ba8SMike Kravetz		 * returned ptep could go away if part of a shared pmd and
40549ba8SMike Kravetz		 * another thread calls huge_pmd_unshare.
40549ba8SMike Kravetz		 */
40549ba8SMike Kravetz		hugetlb_vma_lock_read(src_vma);
ac46d4f3SJérôme Glisse	}
e8569dd2SAndreas Sandberg
e95a9851SMike Kravetz	last_addr_mask = hugetlb_mask_last_page(h);
bc70fbf2SPeter Xu	for (addr = src_vma->vm_start; addr < src_vma->vm_end; addr += sz) {
cb900f41SKirill A. Shutemov		spinlock_t *src_ptl, *dst_ptl;
9c67a207SPeter Xu		src_pte = hugetlb_walk(src_vma, addr, sz);
e95a9851SMike Kravetz		if (!src_pte) {
e95a9851SMike Kravetz			addr |= last_addr_mask;
c74df32cSHugh Dickins			continue;
e95a9851SMike Kravetz		}
bc70fbf2SPeter Xu		dst_pte = huge_pte_alloc(dst, dst_vma, addr, sz);
e8569dd2SAndreas Sandberg		if (!dst_pte) {
e8569dd2SAndreas Sandberg			ret = -ENOMEM;
e8569dd2SAndreas Sandberg			break;
e8569dd2SAndreas Sandberg		}
c5c99429SLarry Woodman
14967a9cSJane Chu#ifdef CONFIG_HUGETLB_PMD_PAGE_TABLE_SHARING
14967a9cSJane Chu		/* If the pagetables are shared, there is nothing to do */
14967a9cSJane Chu		if (ptdesc_pmd_is_shared(virt_to_ptdesc(dst_pte))) {
e95a9851SMike Kravetz			addr |= last_addr_mask;
c5c99429SLarry Woodman			continue;
e95a9851SMike Kravetz		}
14967a9cSJane Chu#endif
c5c99429SLarry Woodman
cb900f41SKirill A. Shutemov		dst_ptl = huge_pte_lock(h, dst, dst_pte);
cb900f41SKirill A. Shutemov		src_ptl = huge_pte_lockptr(h, src, src_pte);
cb900f41SKirill A. Shutemov		spin_lock_nested(src_ptl, SINGLE_DEPTH_NESTING);
e6c0c032SChristophe Leroy		entry = huge_ptep_get(src_vma->vm_mm, addr, src_pte);
4eae4efaSPeter Xuagain:
3aa4ed80SMiaohe Lin		if (huge_pte_none(entry)) {
03bfbc3aSLorenzo Stoakes			/* Skip if src entry none. */
03bfbc3aSLorenzo Stoakes			goto next;
03bfbc3aSLorenzo Stoakes		}
03bfbc3aSLorenzo Stoakes
03bfbc3aSLorenzo Stoakes		softleaf = softleaf_from_pte(entry);
03bfbc3aSLorenzo Stoakes		if (unlikely(softleaf_is_hwpoison(softleaf))) {
5a2f8d22SPeter Xu			if (!userfaultfd_wp(dst_vma))
c2cb0dccSNaoya Horiguchi				entry = huge_pte_clear_uffd_wp(entry);
935d4f0cSRyan Roberts			set_huge_pte_at(dst, addr, dst_pte, entry, sz);
03bfbc3aSLorenzo Stoakes		} else if (unlikely(softleaf_is_migration(softleaf))) {
5a2f8d22SPeter Xu			bool uffd_wp = pte_swp_uffd_wp(entry);
4a705fefSNaoya Horiguchi
93976a20SLorenzo Stoakes			if (!softleaf_is_migration_read(softleaf) && cow) {
4a705fefSNaoya Horiguchi				/*
4a705fefSNaoya Horiguchi				 * COW mappings require pages in both
4a705fefSNaoya Horiguchi				 * parent and child to be set to read.
4a705fefSNaoya Horiguchi				 */
68aa2fdbSLorenzo Stoakes				softleaf = make_readable_migration_entry(
68aa2fdbSLorenzo Stoakes							swp_offset(softleaf));
68aa2fdbSLorenzo Stoakes				entry = swp_entry_to_pte(softleaf);
bc70fbf2SPeter Xu				if (userfaultfd_wp(src_vma) && uffd_wp)
5a2f8d22SPeter Xu					entry = pte_swp_mkuffd_wp(entry);
935d4f0cSRyan Roberts				set_huge_pte_at(src, addr, src_pte, entry, sz);
4a705fefSNaoya Horiguchi			}
5a2f8d22SPeter Xu			if (!userfaultfd_wp(dst_vma))
bc70fbf2SPeter Xu				entry = huge_pte_clear_uffd_wp(entry);
935d4f0cSRyan Roberts			set_huge_pte_at(dst, addr, dst_pte, entry, sz);
68aa2fdbSLorenzo Stoakes		} else if (unlikely(pte_is_marker(entry))) {
68aa2fdbSLorenzo Stoakes			const pte_marker marker = copy_pte_marker(softleaf, dst_vma);
af19487fSAxel Rasmussen
af19487fSAxel Rasmussen			if (marker)
af19487fSAxel Rasmussen				set_huge_pte_at(dst, addr, dst_pte,
935d4f0cSRyan Roberts						make_pte_marker(marker), sz);
4a705fefSNaoya Horiguchi		} else {
e6c0c032SChristophe Leroy			entry = huge_ptep_get(src_vma->vm_mm, addr, src_pte);
ad27ce20SZhangPeng			pte_folio = page_folio(pte_page(entry));
ad27ce20SZhangPeng			folio_get(pte_folio);
4eae4efaSPeter Xu
4eae4efaSPeter Xu			/*
fb3d824dSDavid Hildenbrand			 * Failing to duplicate the anon rmap is a rare case
fb3d824dSDavid Hildenbrand			 * where we see pinned hugetlb pages while they're
fb3d824dSDavid Hildenbrand			 * prone to COW. We need to do the COW earlier during
fb3d824dSDavid Hildenbrand			 * fork.
4eae4efaSPeter Xu			 *
4eae4efaSPeter Xu			 * When pre-allocating the page or copying data, we
4eae4efaSPeter Xu			 * need to be without the pgtable locks since we could
4eae4efaSPeter Xu			 * sleep during the process.
4eae4efaSPeter Xu			 */
ad27ce20SZhangPeng			if (!folio_test_anon(pte_folio)) {
44887f39SDavid Hildenbrand				hugetlb_add_file_rmap(pte_folio);
ebe2e35eSDavid Hildenbrand			} else if (hugetlb_try_dup_anon_rmap(pte_folio, src_vma)) {
4eae4efaSPeter Xu				pte_t src_pte_old = entry;
d0ce0e47SSidhartha Kumar				struct folio *new_folio;
4eae4efaSPeter Xu
4eae4efaSPeter Xu				spin_unlock(src_ptl);
4eae4efaSPeter Xu				spin_unlock(dst_ptl);
4eae4efaSPeter Xu				/* Do not use reserve as it's private owned */
30cef82bSPeter Xu				new_folio = alloc_hugetlb_folio(dst_vma, addr, false);
d0ce0e47SSidhartha Kumar				if (IS_ERR(new_folio)) {
ad27ce20SZhangPeng					folio_put(pte_folio);
d0ce0e47SSidhartha Kumar					ret = PTR_ERR(new_folio);
4eae4efaSPeter Xu					break;
4eae4efaSPeter Xu				}
530dd992SKefeng Wang				ret = copy_user_large_folio(new_folio, pte_folio,
f5d09de9SKefeng Wang							    addr, dst_vma);
ad27ce20SZhangPeng				folio_put(pte_folio);
1cb9dc4bSLiu Shixin				if (ret) {
1cb9dc4bSLiu Shixin					folio_put(new_folio);
1cb9dc4bSLiu Shixin					break;
1cb9dc4bSLiu Shixin				}
4eae4efaSPeter Xu
d0ce0e47SSidhartha Kumar				/* Install the new hugetlb folio if src pte stable */
4eae4efaSPeter Xu				dst_ptl = huge_pte_lock(h, dst, dst_pte);
4eae4efaSPeter Xu				src_ptl = huge_pte_lockptr(h, src, src_pte);
4eae4efaSPeter Xu				spin_lock_nested(src_ptl, SINGLE_DEPTH_NESTING);
e6c0c032SChristophe Leroy				entry = huge_ptep_get(src_vma->vm_mm, addr, src_pte);
4eae4efaSPeter Xu				if (!pte_same(src_pte_old, entry)) {
bc70fbf2SPeter Xu					restore_reserve_on_error(h, dst_vma, addr,
d2d7bb44SSidhartha Kumar								new_folio);
d0ce0e47SSidhartha Kumar					folio_put(new_folio);
3aa4ed80SMiaohe Lin					/* huge_ptep of dst_pte won't change as in child */
4eae4efaSPeter Xu					goto again;
4eae4efaSPeter Xu				}
5a2f8d22SPeter Xu				hugetlb_install_folio(dst_vma, dst_pte, addr,
935d4f0cSRyan Roberts						      new_folio, src_pte_old, sz);
03bfbc3aSLorenzo Stoakes				goto next;
4eae4efaSPeter Xu			}
4eae4efaSPeter Xu
34ee645eSJoerg Roedel			if (cow) {
0f10851eSJérôme Glisse				/*
0f10851eSJérôme Glisse				 * No need to notify as we are downgrading page
0f10851eSJérôme Glisse				 * table protection not changing it to point
0f10851eSJérôme Glisse				 * to a new page.
0f10851eSJérôme Glisse				 *
ee65728eSMike Rapoport				 * See Documentation/mm/mmu_notifier.rst
0f10851eSJérôme Glisse				 */
7f2e9525SGerald Schaefer				huge_ptep_set_wrprotect(src, addr, src_pte);
84894e1cSPeter Xu				entry = huge_pte_wrprotect(entry);
34ee645eSJoerg Roedel			}
4eae4efaSPeter Xu
5a2f8d22SPeter Xu			if (!userfaultfd_wp(dst_vma))
5a2f8d22SPeter Xu				entry = huge_pte_clear_uffd_wp(entry);
5a2f8d22SPeter Xu
935d4f0cSRyan Roberts			set_huge_pte_at(dst, addr, dst_pte, entry, sz);
4eae4efaSPeter Xu			hugetlb_count_add(npages, dst);
1c59827dSHugh Dickins		}
03bfbc3aSLorenzo Stoakes
03bfbc3aSLorenzo Stoakesnext:
cb900f41SKirill A. Shutemov		spin_unlock(src_ptl);
cb900f41SKirill A. Shutemov		spin_unlock(dst_ptl);
63551ae0SDavid Gibson	}
63551ae0SDavid Gibson
623a1ddfSDavid Hildenbrand	if (cow) {
623a1ddfSDavid Hildenbrand		raw_write_seqcount_end(&src->write_protect_seq);
ac46d4f3SJérôme Glisse		mmu_notifier_invalidate_range_end(&range);
40549ba8SMike Kravetz	} else {
40549ba8SMike Kravetz		hugetlb_vma_unlock_read(src_vma);
623a1ddfSDavid Hildenbrand	}
e8569dd2SAndreas Sandberg
e8569dd2SAndreas Sandberg	return ret;
63551ae0SDavid Gibson}
63551ae0SDavid Gibson
550a7d60SMina Almasrystatic void move_huge_pte(struct vm_area_struct *vma, unsigned long old_addr,
935d4f0cSRyan Roberts			  unsigned long new_addr, pte_t *src_pte, pte_t *dst_pte,
935d4f0cSRyan Roberts			  unsigned long sz)
550a7d60SMina Almasry{
0cef0bb8SRyan Roberts	bool need_clear_uffd_wp = vma_has_uffd_without_event_remap(vma);
550a7d60SMina Almasry	struct hstate *h = hstate_vma(vma);
550a7d60SMina Almasry	struct mm_struct *mm = vma->vm_mm;
550a7d60SMina Almasry	spinlock_t *src_ptl, *dst_ptl;
db110a99SAneesh Kumar K.V	pte_t pte;
550a7d60SMina Almasry
550a7d60SMina Almasry	dst_ptl = huge_pte_lock(h, mm, dst_pte);
550a7d60SMina Almasry	src_ptl = huge_pte_lockptr(h, mm, src_pte);
550a7d60SMina Almasry
550a7d60SMina Almasry	/*
550a7d60SMina Almasry	 * We don't have to worry about the ordering of src and dst ptlocks
8651a137SLorenzo Stoakes	 * because exclusive mmap_lock (or the i_mmap_lock) prevents deadlock.
550a7d60SMina Almasry	 */
550a7d60SMina Almasry	if (src_ptl != dst_ptl)
550a7d60SMina Almasry		spin_lock_nested(src_ptl, SINGLE_DEPTH_NESTING);
550a7d60SMina Almasry
02410ac7SRyan Roberts	pte = huge_ptep_get_and_clear(mm, old_addr, src_pte, sz);
0cef0bb8SRyan Roberts
fb888710SLorenzo Stoakes	if (need_clear_uffd_wp && pte_is_uffd_wp_marker(pte)) {
0cef0bb8SRyan Roberts		huge_pte_clear(mm, new_addr, dst_pte, sz);
fb888710SLorenzo Stoakes	} else {
0cef0bb8SRyan Roberts		if (need_clear_uffd_wp) {
0cef0bb8SRyan Roberts			if (pte_present(pte))
0cef0bb8SRyan Roberts				pte = huge_pte_clear_uffd_wp(pte);
fb888710SLorenzo Stoakes			else
0cef0bb8SRyan Roberts				pte = pte_swp_clear_uffd_wp(pte);
0cef0bb8SRyan Roberts		}
935d4f0cSRyan Roberts		set_huge_pte_at(mm, new_addr, dst_pte, pte, sz);
0cef0bb8SRyan Roberts	}
550a7d60SMina Almasry
550a7d60SMina Almasry	if (src_ptl != dst_ptl)
550a7d60SMina Almasry		spin_unlock(src_ptl);
550a7d60SMina Almasry	spin_unlock(dst_ptl);
550a7d60SMina Almasry}
550a7d60SMina Almasry
550a7d60SMina Almasryint move_hugetlb_page_tables(struct vm_area_struct *vma,
550a7d60SMina Almasry			     struct vm_area_struct *new_vma,
550a7d60SMina Almasry			     unsigned long old_addr, unsigned long new_addr,
550a7d60SMina Almasry			     unsigned long len)
550a7d60SMina Almasry{
550a7d60SMina Almasry	struct hstate *h = hstate_vma(vma);
550a7d60SMina Almasry	struct address_space *mapping = vma->vm_file->f_mapping;
550a7d60SMina Almasry	unsigned long sz = huge_page_size(h);
550a7d60SMina Almasry	struct mm_struct *mm = vma->vm_mm;
550a7d60SMina Almasry	unsigned long old_end = old_addr + len;
e95a9851SMike Kravetz	unsigned long last_addr_mask;
550a7d60SMina Almasry	pte_t *src_pte, *dst_pte;
550a7d60SMina Almasry	struct mmu_notifier_range range;
8ce720d5SDavid Hildenbrand (Red Hat)	struct mmu_gather tlb;
550a7d60SMina Almasry
7d4a8be0SAlistair Popple	mmu_notifier_range_init(&range, MMU_NOTIFY_CLEAR, 0, mm, old_addr,
550a7d60SMina Almasry				old_end);
550a7d60SMina Almasry	adjust_range_if_pmd_sharing_possible(vma, &range.start, &range.end);
3d0b95cdSBaolin Wang	/*
3d0b95cdSBaolin Wang	 * In case of shared PMDs, we should cover the maximum possible
3d0b95cdSBaolin Wang	 * range.
3d0b95cdSBaolin Wang	 */
3d0b95cdSBaolin Wang	flush_cache_range(vma, range.start, range.end);
8ce720d5SDavid Hildenbrand (Red Hat)	tlb_gather_mmu_vma(&tlb, vma);
3d0b95cdSBaolin Wang
550a7d60SMina Almasry	mmu_notifier_invalidate_range_start(&range);
e95a9851SMike Kravetz	last_addr_mask = hugetlb_mask_last_page(h);
550a7d60SMina Almasry	/* Prevent race with file truncation */
40549ba8SMike Kravetz	hugetlb_vma_lock_write(vma);
550a7d60SMina Almasry	i_mmap_lock_write(mapping);
550a7d60SMina Almasry	for (; old_addr < old_end; old_addr += sz, new_addr += sz) {
9c67a207SPeter Xu		src_pte = hugetlb_walk(vma, old_addr, sz);
e95a9851SMike Kravetz		if (!src_pte) {
e95a9851SMike Kravetz			old_addr |= last_addr_mask;
e95a9851SMike Kravetz			new_addr |= last_addr_mask;
550a7d60SMina Almasry			continue;
e95a9851SMike Kravetz		}
e6c0c032SChristophe Leroy		if (huge_pte_none(huge_ptep_get(mm, old_addr, src_pte)))
550a7d60SMina Almasry			continue;
550a7d60SMina Almasry
8ce720d5SDavid Hildenbrand (Red Hat)		if (huge_pmd_unshare(&tlb, vma, old_addr, src_pte)) {
4ddb4d91SMike Kravetz			old_addr |= last_addr_mask;
4ddb4d91SMike Kravetz			new_addr |= last_addr_mask;
550a7d60SMina Almasry			continue;
3d0b95cdSBaolin Wang		}
550a7d60SMina Almasry
550a7d60SMina Almasry		dst_pte = huge_pte_alloc(mm, new_vma, new_addr, sz);
550a7d60SMina Almasry		if (!dst_pte)
550a7d60SMina Almasry			break;
550a7d60SMina Almasry
935d4f0cSRyan Roberts		move_huge_pte(vma, old_addr, new_addr, src_pte, dst_pte, sz);
8ce720d5SDavid Hildenbrand (Red Hat)		tlb_remove_huge_tlb_entry(h, &tlb, src_pte, old_addr);
550a7d60SMina Almasry	}
3d0b95cdSBaolin Wang
8ce720d5SDavid Hildenbrand (Red Hat)	tlb_flush_mmu_tlbonly(&tlb);
8ce720d5SDavid Hildenbrand (Red Hat)	huge_pmd_unshare_flush(&tlb, vma);
8ce720d5SDavid Hildenbrand (Red Hat)
550a7d60SMina Almasry	mmu_notifier_invalidate_range_end(&range);
13e4ad2cSNadav Amit	i_mmap_unlock_write(mapping);
40549ba8SMike Kravetz	hugetlb_vma_unlock_write(vma);
8ce720d5SDavid Hildenbrand (Red Hat)	tlb_finish_mmu(&tlb);
550a7d60SMina Almasry
550a7d60SMina Almasry	return len + old_addr - old_end;
550a7d60SMina Almasry}
550a7d60SMina Almasry
2820b0f0SRik van Rielvoid __unmap_hugepage_range(struct mmu_gather *tlb, struct vm_area_struct *vma,
24669e58SAneesh Kumar K.V			    unsigned long start, unsigned long end,
7f4b6065SFan Ni			    struct folio *folio, zap_flags_t zap_flags)
63551ae0SDavid Gibson{
63551ae0SDavid Gibson	struct mm_struct *mm = vma->vm_mm;
05275594SFan Ni	const bool folio_provided = !!folio;
63551ae0SDavid Gibson	unsigned long address;
c7546f8fSDavid Gibson	pte_t *ptep;
63551ae0SDavid Gibson	pte_t pte;
cb900f41SKirill A. Shutemov	spinlock_t *ptl;
a5516438SAndi Kleen	struct hstate *h = hstate_vma(vma);
a5516438SAndi Kleen	unsigned long sz = huge_page_size(h);
21cc2b5cSJeongjun Park	bool adjust_reservation;
e95a9851SMike Kravetz	unsigned long last_addr_mask;
a5516438SAndi Kleen
63551ae0SDavid Gibson	WARN_ON(!is_vm_hugetlb_page(vma));
a5516438SAndi Kleen	BUG_ON(start & ~huge_page_mask(h));
a5516438SAndi Kleen	BUG_ON(end & ~huge_page_mask(h));
63551ae0SDavid Gibson
07e32661SAneesh Kumar K.V	/*
07e32661SAneesh Kumar K.V	 * This is a hugetlb vma, all the pte entries should point
07e32661SAneesh Kumar K.V	 * to huge page.
07e32661SAneesh Kumar K.V	 */
ed6a7935SPeter Zijlstra	tlb_change_page_size(tlb, sz);
24669e58SAneesh Kumar K.V	tlb_start_vma(tlb, vma);
dff11abeSMike Kravetz
e95a9851SMike Kravetz	last_addr_mask = hugetlb_mask_last_page(h);
569f48b8SHillf Danton	address = start;
569f48b8SHillf Danton	for (; address < end; address += sz) {
9c67a207SPeter Xu		ptep = hugetlb_walk(vma, address, sz);
e95a9851SMike Kravetz		if (!ptep) {
e95a9851SMike Kravetz			address |= last_addr_mask;
c7546f8fSDavid Gibson			continue;
e95a9851SMike Kravetz		}
c7546f8fSDavid Gibson
cb900f41SKirill A. Shutemov		ptl = huge_pte_lock(h, mm, ptep);
8ce720d5SDavid Hildenbrand (Red Hat)		if (huge_pmd_unshare(tlb, vma, address, ptep)) {
31d49da5SAneesh Kumar K.V			spin_unlock(ptl);
4ddb4d91SMike Kravetz			address |= last_addr_mask;
31d49da5SAneesh Kumar K.V			continue;
31d49da5SAneesh Kumar K.V		}
39dde65cSChen, Kenneth W
e6c0c032SChristophe Leroy		pte = huge_ptep_get(mm, address, ptep);
31d49da5SAneesh Kumar K.V		if (huge_pte_none(pte)) {
31d49da5SAneesh Kumar K.V			spin_unlock(ptl);
31d49da5SAneesh Kumar K.V			continue;
31d49da5SAneesh Kumar K.V		}
6629326bSHillf Danton
6629326bSHillf Danton		/*
9fbc1f63SNaoya Horiguchi		 * Migrating hugepage or HWPoisoned hugepage is already
9fbc1f63SNaoya Horiguchi		 * unmapped and its refcount is dropped, so just clear pte here.
6629326bSHillf Danton		 */
9fbc1f63SNaoya Horiguchi		if (unlikely(!pte_present(pte))) {
05e90bd0SPeter Xu			/*
05e90bd0SPeter Xu			 * If the pte was wr-protected by uffd-wp in any of the
05e90bd0SPeter Xu			 * swap forms, meanwhile the caller does not want to
05e90bd0SPeter Xu			 * drop the uffd-wp bit in this zap, then replace the
05e90bd0SPeter Xu			 * pte with a marker.
05e90bd0SPeter Xu			 */
05e90bd0SPeter Xu			if (pte_swp_uffd_wp_any(pte) &&
05e90bd0SPeter Xu			    !(zap_flags & ZAP_FLAG_DROP_MARKER))
05e90bd0SPeter Xu				set_huge_pte_at(mm, address, ptep,
935d4f0cSRyan Roberts						make_pte_marker(PTE_MARKER_UFFD_WP),
935d4f0cSRyan Roberts						sz);
05e90bd0SPeter Xu			else
9386fac3SPunit Agrawal				huge_pte_clear(mm, address, ptep, sz);
31d49da5SAneesh Kumar K.V			spin_unlock(ptl);
31d49da5SAneesh Kumar K.V			continue;
8c4894c6SNaoya Horiguchi		}
6629326bSHillf Danton
04f2cbe3SMel Gorman		/*
7f4b6065SFan Ni		 * If a folio is supplied, it is because a specific
7f4b6065SFan Ni		 * folio is being unmapped, not a range. Ensure the folio we
7f4b6065SFan Ni		 * are about to unmap is the actual folio of interest.
04f2cbe3SMel Gorman		 */
05275594SFan Ni		if (folio_provided) {
05275594SFan Ni			if (folio != page_folio(pte_page(pte))) {
31d49da5SAneesh Kumar K.V				spin_unlock(ptl);
31d49da5SAneesh Kumar K.V				continue;
31d49da5SAneesh Kumar K.V			}
04f2cbe3SMel Gorman			/*
04f2cbe3SMel Gorman			 * Mark the VMA as having unmapped its page so that
04f2cbe3SMel Gorman			 * future faults in this VMA will fail rather than
04f2cbe3SMel Gorman			 * looking like data was lost
04f2cbe3SMel Gorman			 */
04f2cbe3SMel Gorman			set_vma_resv_flags(vma, HPAGE_RESV_UNMAPPED);
05275594SFan Ni		} else {
05275594SFan Ni			folio = page_folio(pte_page(pte));
04f2cbe3SMel Gorman		}
04f2cbe3SMel Gorman
02410ac7SRyan Roberts		pte = huge_ptep_get_and_clear(mm, address, ptep, sz);
b528e4b6SAneesh Kumar K.V		tlb_remove_huge_tlb_entry(h, tlb, ptep, address);
106c992aSGerald Schaefer		if (huge_pte_dirty(pte))
05275594SFan Ni			folio_mark_dirty(folio);
05e90bd0SPeter Xu		/* Leave a uffd-wp pte marker if needed */
05e90bd0SPeter Xu		if (huge_pte_uffd_wp(pte) &&
05e90bd0SPeter Xu		    !(zap_flags & ZAP_FLAG_DROP_MARKER))
05e90bd0SPeter Xu			set_huge_pte_at(mm, address, ptep,
935d4f0cSRyan Roberts					make_pte_marker(PTE_MARKER_UFFD_WP),
935d4f0cSRyan Roberts					sz);
5d317b2bSNaoya Horiguchi		hugetlb_count_sub(pages_per_huge_page(h), mm);
05275594SFan Ni		hugetlb_remove_rmap(folio);
21cc2b5cSJeongjun Park		spin_unlock(ptl);
31d49da5SAneesh Kumar K.V
df7a6d1fSBreno Leitao		/*
df7a6d1fSBreno Leitao		 * Restore the reservation for anonymous page, otherwise the
df7a6d1fSBreno Leitao		 * backing page could be stolen by someone.
df7a6d1fSBreno Leitao		 * If there we are freeing a surplus, do not set the restore
df7a6d1fSBreno Leitao		 * reservation bit.
df7a6d1fSBreno Leitao		 */
21cc2b5cSJeongjun Park		adjust_reservation = false;
21cc2b5cSJeongjun Park
21cc2b5cSJeongjun Park		spin_lock_irq(&hugetlb_lock);
df7a6d1fSBreno Leitao		if (!h->surplus_huge_pages && __vma_private_lock(vma) &&
05275594SFan Ni		    folio_test_anon(folio)) {
05275594SFan Ni			folio_set_hugetlb_restore_reserve(folio);
df7a6d1fSBreno Leitao			/* Reservation to be adjusted after the spin lock */
df7a6d1fSBreno Leitao			adjust_reservation = true;
df7a6d1fSBreno Leitao		}
21cc2b5cSJeongjun Park		spin_unlock_irq(&hugetlb_lock);
df7a6d1fSBreno Leitao
df7a6d1fSBreno Leitao		/*
df7a6d1fSBreno Leitao		 * Adjust the reservation for the region that will have the
df7a6d1fSBreno Leitao		 * reserve restored. Keep in mind that vma_needs_reservation() changes
df7a6d1fSBreno Leitao		 * resv->adds_in_progress if it succeeds. If this is not done,
df7a6d1fSBreno Leitao		 * do_exit() will not see it, and will keep the reservation
df7a6d1fSBreno Leitao		 * forever.
df7a6d1fSBreno Leitao		 */
8daf9c70SOscar Salvador		if (adjust_reservation) {
8daf9c70SOscar Salvador			int rc = vma_needs_reservation(h, vma, address);
8daf9c70SOscar Salvador
8daf9c70SOscar Salvador			if (rc < 0)
8daf9c70SOscar Salvador				/* Pressumably allocate_file_region_entries failed
8daf9c70SOscar Salvador				 * to allocate a file_region struct. Clear
8daf9c70SOscar Salvador				 * hugetlb_restore_reserve so that global reserve
8daf9c70SOscar Salvador				 * count will not be incremented by free_huge_folio.
8daf9c70SOscar Salvador				 * Act as if we consumed the reservation.
8daf9c70SOscar Salvador				 */
05275594SFan Ni				folio_clear_hugetlb_restore_reserve(folio);
8daf9c70SOscar Salvador			else if (rc)
df7a6d1fSBreno Leitao				vma_add_reservation(h, vma, address);
8daf9c70SOscar Salvador		}
df7a6d1fSBreno Leitao
05275594SFan Ni		tlb_remove_page_size(tlb, folio_page(folio, 0),
05275594SFan Ni				     folio_size(folio));
24669e58SAneesh Kumar K.V		/*
7f4b6065SFan Ni		 * If we were instructed to unmap a specific folio, we're done.
24669e58SAneesh Kumar K.V		 */
05275594SFan Ni		if (folio_provided)
31d49da5SAneesh Kumar K.V			break;
fe1668aeSChen, Kenneth W	}
24669e58SAneesh Kumar K.V	tlb_end_vma(tlb, vma);
a4a118f2SNadav Amit
8ce720d5SDavid Hildenbrand (Red Hat)	huge_pmd_unshare_flush(tlb, vma);
1da177e4SLinus Torvalds}
63551ae0SDavid Gibson
2820b0f0SRik van Rielvoid __hugetlb_zap_begin(struct vm_area_struct *vma,
2820b0f0SRik van Riel			 unsigned long *start, unsigned long *end)
d833352aSMel Gorman{
2820b0f0SRik van Riel	if (!vma->vm_file)	/* hugetlbfs_file_mmap error */
2820b0f0SRik van Riel		return;
131a79b4SMike Kravetz
2820b0f0SRik van Riel	adjust_range_if_pmd_sharing_possible(vma, start, end);
2820b0f0SRik van Riel	hugetlb_vma_lock_write(vma);
2820b0f0SRik van Riel	if (vma->vm_file)
2820b0f0SRik van Riel		i_mmap_lock_write(vma->vm_file->f_mapping);
2820b0f0SRik van Riel}
2820b0f0SRik van Riel
2820b0f0SRik van Rielvoid __hugetlb_zap_end(struct vm_area_struct *vma,
2820b0f0SRik van Riel		       struct zap_details *details)
2820b0f0SRik van Riel{
2820b0f0SRik van Riel	zap_flags_t zap_flags = details ? details->zap_flags : 0;
2820b0f0SRik van Riel
2820b0f0SRik van Riel	if (!vma->vm_file)	/* hugetlbfs_file_mmap error */
2820b0f0SRik van Riel		return;
d833352aSMel Gorman
04ada095SMike Kravetz	if (zap_flags & ZAP_FLAG_UNMAP) {	/* final unmap */
d833352aSMel Gorman		/*
04ada095SMike Kravetz		 * Unlock and free the vma lock before releasing i_mmap_rwsem.
04ada095SMike Kravetz		 * When the vma_lock is freed, this makes the vma ineligible
04ada095SMike Kravetz		 * for pmd sharing.  And, i_mmap_rwsem is required to set up
04ada095SMike Kravetz		 * pmd sharing.  This is important as page tables for this
04ada095SMike Kravetz		 * unmapped range will be asynchrously deleted.  If the page
04ada095SMike Kravetz		 * tables are shared, there will be issues when accessed by
04ada095SMike Kravetz		 * someone else.
d833352aSMel Gorman		 */
ecfbd733SMike Kravetz		__hugetlb_vma_unlock_write_free(vma);
04ada095SMike Kravetz	} else {
04ada095SMike Kravetz		hugetlb_vma_unlock_write(vma);
04ada095SMike Kravetz	}
2820b0f0SRik van Riel
2820b0f0SRik van Riel	if (vma->vm_file)
2820b0f0SRik van Riel		i_mmap_unlock_write(vma->vm_file->f_mapping);
d833352aSMel Gorman}
d833352aSMel Gorman
502717f4SChen, Kenneth Wvoid unmap_hugepage_range(struct vm_area_struct *vma, unsigned long start,
81edb1baSFan Ni			  unsigned long end, struct folio *folio,
05e90bd0SPeter Xu			  zap_flags_t zap_flags)
502717f4SChen, Kenneth W{
369258ceSMike Kravetz	struct mmu_notifier_range range;
24669e58SAneesh Kumar K.V	struct mmu_gather tlb;
dff11abeSMike Kravetz
7d4a8be0SAlistair Popple	mmu_notifier_range_init(&range, MMU_NOTIFY_CLEAR, 0, vma->vm_mm,
369258ceSMike Kravetz				start, end);
369258ceSMike Kravetz	adjust_range_if_pmd_sharing_possible(vma, &range.start, &range.end);
369258ceSMike Kravetz	mmu_notifier_invalidate_range_start(&range);
a72afd87SWill Deacon	tlb_gather_mmu(&tlb, vma->vm_mm);
369258ceSMike Kravetz
81edb1baSFan Ni	__unmap_hugepage_range(&tlb, vma, start, end,
7f4b6065SFan Ni			       folio, zap_flags);
369258ceSMike Kravetz
369258ceSMike Kravetz	mmu_notifier_invalidate_range_end(&range);
ae8eba8bSWill Deacon	tlb_finish_mmu(&tlb);
502717f4SChen, Kenneth W}
502717f4SChen, Kenneth W
04f2cbe3SMel Gorman/*
04f2cbe3SMel Gorman * This is called when the original mapper is failing to COW a MAP_PRIVATE
578b7725SZhiyuan Dai * mapping it owns the reserve page for. The intention is to unmap the page
04f2cbe3SMel Gorman * from other VMAs and let the children be SIGKILLed if they are faulting the
04f2cbe3SMel Gorman * same region.
04f2cbe3SMel Gorman */
2f4612afSDavidlohr Buesostatic void unmap_ref_private(struct mm_struct *mm, struct vm_area_struct *vma,
b0752f1aSFan Ni			      struct folio *folio, unsigned long address)
04f2cbe3SMel Gorman{
7526674dSAdam Litke	struct hstate *h = hstate_vma(vma);
04f2cbe3SMel Gorman	struct vm_area_struct *iter_vma;
04f2cbe3SMel Gorman	struct address_space *mapping;
04f2cbe3SMel Gorman	pgoff_t pgoff;
04f2cbe3SMel Gorman
04f2cbe3SMel Gorman	/*
04f2cbe3SMel Gorman	 * vm_pgoff is in PAGE_SIZE units, hence the different calculation
04f2cbe3SMel Gorman	 * from page cache lookup which is in HPAGE_SIZE units.
04f2cbe3SMel Gorman	 */
7526674dSAdam Litke	address = address & huge_page_mask(h);
36e4f20aSMichal Hocko	pgoff = ((address - vma->vm_start) >> PAGE_SHIFT) +
36e4f20aSMichal Hocko			vma->vm_pgoff;
93c76a3dSAl Viro	mapping = vma->vm_file->f_mapping;
04f2cbe3SMel Gorman
4eb2b1dcSMel Gorman	/*
4eb2b1dcSMel Gorman	 * Take the mapping lock for the duration of the table walk. As
4eb2b1dcSMel Gorman	 * this mapping should be shared between all the VMAs,
4eb2b1dcSMel Gorman	 * __unmap_hugepage_range() is called as the lock is already held
4eb2b1dcSMel Gorman	 */
83cde9e8SDavidlohr Bueso	i_mmap_lock_write(mapping);
6b2dbba8SMichel Lespinasse	vma_interval_tree_foreach(iter_vma, &mapping->i_mmap, pgoff, pgoff) {
04f2cbe3SMel Gorman		/* Do not unmap the current VMA */
04f2cbe3SMel Gorman		if (iter_vma == vma)
04f2cbe3SMel Gorman			continue;
04f2cbe3SMel Gorman
04f2cbe3SMel Gorman		/*
2f84a899SMel Gorman		 * Shared VMAs have their own reserves and do not affect
2f84a899SMel Gorman		 * MAP_PRIVATE accounting but it is possible that a shared
2f84a899SMel Gorman		 * VMA is using the same page so check and skip such VMAs.
2f84a899SMel Gorman		 */
2f84a899SMel Gorman		if (iter_vma->vm_flags & VM_MAYSHARE)
2f84a899SMel Gorman			continue;
2f84a899SMel Gorman
2f84a899SMel Gorman		/*
04f2cbe3SMel Gorman		 * Unmap the page from other VMAs without their own reserves.
04f2cbe3SMel Gorman		 * They get marked to be SIGKILLed if they fault in these
04f2cbe3SMel Gorman		 * areas. This is because a future no-page fault on this VMA
04f2cbe3SMel Gorman		 * could insert a zeroed page instead of the data existing
04f2cbe3SMel Gorman		 * from the time of fork. This would look like data corruption
04f2cbe3SMel Gorman		 */
04f2cbe3SMel Gorman		if (!is_vma_resv_set(iter_vma, HPAGE_RESV_OWNER))
24669e58SAneesh Kumar K.V			unmap_hugepage_range(iter_vma, address,
b0752f1aSFan Ni					     address + huge_page_size(h),
81edb1baSFan Ni					     folio, 0);
04f2cbe3SMel Gorman	}
83cde9e8SDavidlohr Bueso	i_mmap_unlock_write(mapping);
04f2cbe3SMel Gorman}
04f2cbe3SMel Gorman
0fe6e20bSNaoya Horiguchi/*
c89357e2SDavid Hildenbrand * hugetlb_wp() should be called with page lock of the original hugepage held.
aa6d2e8cSBaolin Wang * Called with hugetlb_fault_mutex_table held and pte_page locked so we
ef009b25SMichal Hocko * cannot race with other handlers or page migration.
ef009b25SMichal Hocko * Keep the pte_same checks anyway to make transition from the mutex easier.
0fe6e20bSNaoya Horiguchi */
2ae1ab99SOscar Salvadorstatic vm_fault_t hugetlb_wp(struct vm_fault *vmf)
1e8f889bSDavid Gibson{
bd722058SVishal Moola (Oracle)	struct vm_area_struct *vma = vmf->vma;
bd722058SVishal Moola (Oracle)	struct mm_struct *mm = vma->vm_mm;
bd722058SVishal Moola (Oracle)	const bool unshare = vmf->flags & FAULT_FLAG_UNSHARE;
e6c0c032SChristophe Leroy	pte_t pte = huge_ptep_get(mm, vmf->address, vmf->pte);
a5516438SAndi Kleen	struct hstate *h = hstate_vma(vma);
959a78b6SZhangPeng	struct folio *old_folio;
d0ce0e47SSidhartha Kumar	struct folio *new_folio;
30cef82bSPeter Xu	bool cow_from_owner = 0;
2b740303SSouptick Joarder	vm_fault_t ret = 0;
ac46d4f3SJérôme Glisse	struct mmu_notifier_range range;
1e8f889bSDavid Gibson
1d8d1464SDavid Hildenbrand	/*
60d5b473SPeter Xu	 * Never handle CoW for uffd-wp protected pages.  It should be only
60d5b473SPeter Xu	 * handled when the uffd-wp protection is removed.
60d5b473SPeter Xu	 *
60d5b473SPeter Xu	 * Note that only the CoW optimization path (in hugetlb_no_page())
60d5b473SPeter Xu	 * can trigger this, because hugetlb_fault() will always resolve
60d5b473SPeter Xu	 * uffd-wp bit first.
60d5b473SPeter Xu	 */
60d5b473SPeter Xu	if (!unshare && huge_pte_uffd_wp(pte))
60d5b473SPeter Xu		return 0;
60d5b473SPeter Xu
1d8d1464SDavid Hildenbrand	/* Let's take out MAP_SHARED mappings first. */
1d8d1464SDavid Hildenbrand	if (vma->vm_flags & VM_MAYSHARE) {
bd722058SVishal Moola (Oracle)		set_huge_ptep_writable(vma, vmf->address, vmf->pte);
1d8d1464SDavid Hildenbrand		return 0;
1d8d1464SDavid Hildenbrand	}
1d8d1464SDavid Hildenbrand
959a78b6SZhangPeng	old_folio = page_folio(pte_page(pte));
1e8f889bSDavid Gibson
662ce1dcSYang Yang	delayacct_wpcopy_start();
662ce1dcSYang Yang
04f2cbe3SMel Gormanretry_avoidcopy:
c89357e2SDavid Hildenbrand	/*
c89357e2SDavid Hildenbrand	 * If no-one else is actually using this page, we're the exclusive
c89357e2SDavid Hildenbrand	 * owner and can reuse this page.
b8a25288SDavid Hildenbrand	 *
b8a25288SDavid Hildenbrand	 * Note that we don't rely on the (safer) folio refcount here, because
b8a25288SDavid Hildenbrand	 * copying the hugetlb folio when there are unexpected (temporary)
b8a25288SDavid Hildenbrand	 * folio references could harm simple fork()+exit() users when
b8a25288SDavid Hildenbrand	 * we run out of free hugetlb folios: we would have to kill processes
b8a25288SDavid Hildenbrand	 * in scenarios that used to work. As a side effect, there can still
b8a25288SDavid Hildenbrand	 * be leaks between processes, for example, with FOLL_GET users.
c89357e2SDavid Hildenbrand	 */
959a78b6SZhangPeng	if (folio_mapcount(old_folio) == 1 && folio_test_anon(old_folio)) {
5ca43289SDavid Hildenbrand		if (!PageAnonExclusive(&old_folio->page)) {
06968625SDavid Hildenbrand			folio_move_anon_rmap(old_folio, vma);
5ca43289SDavid Hildenbrand			SetPageAnonExclusive(&old_folio->page);
5ca43289SDavid Hildenbrand		}
c89357e2SDavid Hildenbrand		if (likely(!unshare))
052ccfbcSGuillaume Morin			set_huge_ptep_maybe_writable(vma, vmf->address,
052ccfbcSGuillaume Morin						     vmf->pte);
662ce1dcSYang Yang
662ce1dcSYang Yang		delayacct_wpcopy_end();
83c54070SNick Piggin		return 0;
1e8f889bSDavid Gibson	}
959a78b6SZhangPeng	VM_BUG_ON_PAGE(folio_test_anon(old_folio) &&
959a78b6SZhangPeng		       PageAnonExclusive(&old_folio->page), &old_folio->page);
1e8f889bSDavid Gibson
04f2cbe3SMel Gorman	/*
2ae1ab99SOscar Salvador	 * If the process that created a MAP_PRIVATE mapping is about to perform
2ae1ab99SOscar Salvador	 * a COW due to a shared page count, attempt to satisfy the allocation
2ae1ab99SOscar Salvador	 * without using the existing reserves.
2ae1ab99SOscar Salvador	 * In order to determine where this is a COW on a MAP_PRIVATE mapping it
2ae1ab99SOscar Salvador	 * is enough to check whether the old_folio is anonymous. This means that
2ae1ab99SOscar Salvador	 * the reserve for this address was consumed. If reserves were used, a
2ae1ab99SOscar Salvador	 * partial faulted mapping at the fime of fork() could consume its reserves
2ae1ab99SOscar Salvador	 * on COW instead of the full address range.
04f2cbe3SMel Gorman	 */
5944d011SJoonsoo Kim	if (is_vma_resv_set(vma, HPAGE_RESV_OWNER) &&
2ae1ab99SOscar Salvador	    folio_test_anon(old_folio))
30cef82bSPeter Xu		cow_from_owner = true;
04f2cbe3SMel Gorman
959a78b6SZhangPeng	folio_get(old_folio);
b76c8cfbSLarry Woodman
ad4404a2SDavidlohr Bueso	/*
ad4404a2SDavidlohr Bueso	 * Drop page table lock as buddy allocator may be called. It will
ad4404a2SDavidlohr Bueso	 * be acquired again before returning to the caller, as expected.
ad4404a2SDavidlohr Bueso	 */
bd722058SVishal Moola (Oracle)	spin_unlock(vmf->ptl);
30cef82bSPeter Xu	new_folio = alloc_hugetlb_folio(vma, vmf->address, cow_from_owner);
1e8f889bSDavid Gibson
d0ce0e47SSidhartha Kumar	if (IS_ERR(new_folio)) {
04f2cbe3SMel Gorman		/*
04f2cbe3SMel Gorman		 * If a process owning a MAP_PRIVATE mapping fails to COW,
04f2cbe3SMel Gorman		 * it is due to references held by a child and an insufficient
04f2cbe3SMel Gorman		 * huge page pool. To guarantee the original mappers
04f2cbe3SMel Gorman		 * reliability, unmap the page from child processes. The child
04f2cbe3SMel Gorman		 * may get SIGKILLed if it later faults.
04f2cbe3SMel Gorman		 */
30cef82bSPeter Xu		if (cow_from_owner) {
40549ba8SMike Kravetz			struct address_space *mapping = vma->vm_file->f_mapping;
40549ba8SMike Kravetz			pgoff_t idx;
40549ba8SMike Kravetz			u32 hash;
40549ba8SMike Kravetz
959a78b6SZhangPeng			folio_put(old_folio);
40549ba8SMike Kravetz			/*
40549ba8SMike Kravetz			 * Drop hugetlb_fault_mutex and vma_lock before
40549ba8SMike Kravetz			 * unmapping.  unmapping needs to hold vma_lock
40549ba8SMike Kravetz			 * in write mode.  Dropping vma_lock in read mode
40549ba8SMike Kravetz			 * here is OK as COW mappings do not interact with
40549ba8SMike Kravetz			 * PMD sharing.
40549ba8SMike Kravetz			 *
40549ba8SMike Kravetz			 * Reacquire both after unmap operation.
40549ba8SMike Kravetz			 */
bd722058SVishal Moola (Oracle)			idx = vma_hugecache_offset(h, vma, vmf->address);
40549ba8SMike Kravetz			hash = hugetlb_fault_mutex_hash(mapping, idx);
40549ba8SMike Kravetz			hugetlb_vma_unlock_read(vma);
40549ba8SMike Kravetz			mutex_unlock(&hugetlb_fault_mutex_table[hash]);
40549ba8SMike Kravetz
b0752f1aSFan Ni			unmap_ref_private(mm, vma, old_folio, vmf->address);
40549ba8SMike Kravetz
40549ba8SMike Kravetz			mutex_lock(&hugetlb_fault_mutex_table[hash]);
40549ba8SMike Kravetz			hugetlb_vma_lock_read(vma);
bd722058SVishal Moola (Oracle)			spin_lock(vmf->ptl);
bd722058SVishal Moola (Oracle)			vmf->pte = hugetlb_walk(vma, vmf->address,
bd722058SVishal Moola (Oracle)					huge_page_size(h));
bd722058SVishal Moola (Oracle)			if (likely(vmf->pte &&
e6c0c032SChristophe Leroy				   pte_same(huge_ptep_get(mm, vmf->address, vmf->pte), pte)))
04f2cbe3SMel Gorman				goto retry_avoidcopy;
a734bcc8SHillf Danton			/*
cb900f41SKirill A. Shutemov			 * race occurs while re-acquiring page table
cb900f41SKirill A. Shutemov			 * lock, and our job is done.
a734bcc8SHillf Danton			 */
662ce1dcSYang Yang			delayacct_wpcopy_end();
a734bcc8SHillf Danton			return 0;
04f2cbe3SMel Gorman		}
04f2cbe3SMel Gorman
d0ce0e47SSidhartha Kumar		ret = vmf_error(PTR_ERR(new_folio));
ad4404a2SDavidlohr Bueso		goto out_release_old;
1e8f889bSDavid Gibson	}
1e8f889bSDavid Gibson
0fe6e20bSNaoya Horiguchi	/*
0fe6e20bSNaoya Horiguchi	 * When the original hugepage is shared one, it does not have
0fe6e20bSNaoya Horiguchi	 * anon_vma prepared.
0fe6e20bSNaoya Horiguchi	 */
98b74bb4SVishal Moola (Oracle)	ret = __vmf_anon_prepare(vmf);
9acad7baSVishal Moola (Oracle)	if (unlikely(ret))
ad4404a2SDavidlohr Bueso		goto out_release_all;
0fe6e20bSNaoya Horiguchi
bd722058SVishal Moola (Oracle)	if (copy_user_large_folio(new_folio, old_folio, vmf->real_address, vma)) {
88e4f525SOscar Salvador		ret = VM_FAULT_HWPOISON_LARGE | VM_FAULT_SET_HINDEX(hstate_index(h));
1cb9dc4bSLiu Shixin		goto out_release_all;
1cb9dc4bSLiu Shixin	}
d0ce0e47SSidhartha Kumar	__folio_mark_uptodate(new_folio);
1e8f889bSDavid Gibson
bd722058SVishal Moola (Oracle)	mmu_notifier_range_init(&range, MMU_NOTIFY_CLEAR, 0, mm, vmf->address,
bd722058SVishal Moola (Oracle)				vmf->address + huge_page_size(h));
ac46d4f3SJérôme Glisse	mmu_notifier_invalidate_range_start(&range);
ad4404a2SDavidlohr Bueso
b76c8cfbSLarry Woodman	/*
cb900f41SKirill A. Shutemov	 * Retake the page table lock to check for racing updates
b76c8cfbSLarry Woodman	 * before the page tables are altered
b76c8cfbSLarry Woodman	 */
bd722058SVishal Moola (Oracle)	spin_lock(vmf->ptl);
bd722058SVishal Moola (Oracle)	vmf->pte = hugetlb_walk(vma, vmf->address, huge_page_size(h));
e6c0c032SChristophe Leroy	if (likely(vmf->pte && pte_same(huge_ptep_get(mm, vmf->address, vmf->pte), pte))) {
e06fa168SMatthew Wilcox (Oracle)		pte_t newpte = make_huge_pte(vma, new_folio, !unshare);
0f230bc2SPeter Xu
c89357e2SDavid Hildenbrand		/* Break COW or unshare */
bd722058SVishal Moola (Oracle)		huge_ptep_clear_flush(vma, vmf->address, vmf->pte);
e135826bSDavid Hildenbrand		hugetlb_remove_rmap(old_folio);
bd722058SVishal Moola (Oracle)		hugetlb_add_new_anon_rmap(new_folio, vma, vmf->address);
0f230bc2SPeter Xu		if (huge_pte_uffd_wp(pte))
0f230bc2SPeter Xu			newpte = huge_pte_mkuffd_wp(newpte);
bd722058SVishal Moola (Oracle)		set_huge_pte_at(mm, vmf->address, vmf->pte, newpte,
bd722058SVishal Moola (Oracle)				huge_page_size(h));
d0ce0e47SSidhartha Kumar		folio_set_hugetlb_migratable(new_folio);
1e8f889bSDavid Gibson		/* Make the old page be freed below */
959a78b6SZhangPeng		new_folio = old_folio;
1e8f889bSDavid Gibson	}
bd722058SVishal Moola (Oracle)	spin_unlock(vmf->ptl);
ac46d4f3SJérôme Glisse	mmu_notifier_invalidate_range_end(&range);
ad4404a2SDavidlohr Buesoout_release_all:
c89357e2SDavid Hildenbrand	/*
c89357e2SDavid Hildenbrand	 * No restore in case of successful pagetable update (Break COW or
c89357e2SDavid Hildenbrand	 * unshare)
c89357e2SDavid Hildenbrand	 */
959a78b6SZhangPeng	if (new_folio != old_folio)
bd722058SVishal Moola (Oracle)		restore_reserve_on_error(h, vma, vmf->address, new_folio);
d0ce0e47SSidhartha Kumar	folio_put(new_folio);
ad4404a2SDavidlohr Buesoout_release_old:
959a78b6SZhangPeng	folio_put(old_folio);
8312034fSJoonsoo Kim
bd722058SVishal Moola (Oracle)	spin_lock(vmf->ptl); /* Caller expects lock to be held */
662ce1dcSYang Yang
662ce1dcSYang Yang	delayacct_wpcopy_end();
ad4404a2SDavidlohr Bueso	return ret;
1e8f889bSDavid Gibson}
1e8f889bSDavid Gibson
3ae77f43SHugh Dickins/*
3ae77f43SHugh Dickins * Return whether there is a pagecache page to back given address within VMA.
3ae77f43SHugh Dickins */
24334e78SPeter Xubool hugetlbfs_pagecache_present(struct hstate *h,
2a15efc9SHugh Dickins				 struct vm_area_struct *vma, unsigned long address)
2a15efc9SHugh Dickins{
91a2fb95SSidhartha Kumar	struct address_space *mapping = vma->vm_file->f_mapping;
a08c7193SSidhartha Kumar	pgoff_t idx = linear_page_index(vma, address);
fd4aed8dSMike Kravetz	struct folio *folio;
2a15efc9SHugh Dickins
fd4aed8dSMike Kravetz	folio = filemap_get_folio(mapping, idx);
fd4aed8dSMike Kravetz	if (IS_ERR(folio))
fd4aed8dSMike Kravetz		return false;
fd4aed8dSMike Kravetz	folio_put(folio);
fd4aed8dSMike Kravetz	return true;
2a15efc9SHugh Dickins}
2a15efc9SHugh Dickins
9b91c0e2SSidhartha Kumarint hugetlb_add_to_page_cache(struct folio *folio, struct address_space *mapping,
ab76ad54SMike Kravetz			   pgoff_t idx)
ab76ad54SMike Kravetz{
ab76ad54SMike Kravetz	struct inode *inode = mapping->host;
ab76ad54SMike Kravetz	struct hstate *h = hstate_inode(inode);
d9ef44deSMatthew Wilcox (Oracle)	int err;
ab76ad54SMike Kravetz
a08c7193SSidhartha Kumar	idx <<= huge_page_order(h);
d9ef44deSMatthew Wilcox (Oracle)	__folio_set_locked(folio);
d9ef44deSMatthew Wilcox (Oracle)	err = __filemap_add_folio(mapping, folio, idx, GFP_KERNEL, NULL);
d9ef44deSMatthew Wilcox (Oracle)
d9ef44deSMatthew Wilcox (Oracle)	if (unlikely(err)) {
d9ef44deSMatthew Wilcox (Oracle)		__folio_clear_locked(folio);
ab76ad54SMike Kravetz		return err;
d9ef44deSMatthew Wilcox (Oracle)	}
9b91c0e2SSidhartha Kumar	folio_clear_hugetlb_restore_reserve(folio);
ab76ad54SMike Kravetz
22146c3cSMike Kravetz	/*
d9ef44deSMatthew Wilcox (Oracle)	 * mark folio dirty so that it will not be removed from cache/file
22146c3cSMike Kravetz	 * by non-hugetlbfs specific code paths.
22146c3cSMike Kravetz	 */
d9ef44deSMatthew Wilcox (Oracle)	folio_mark_dirty(folio);
22146c3cSMike Kravetz
ab76ad54SMike Kravetz	spin_lock(&inode->i_lock);
ab76ad54SMike Kravetz	inode->i_blocks += blocks_per_huge_page(h);
ab76ad54SMike Kravetz	spin_unlock(&inode->i_lock);
ab76ad54SMike Kravetz	return 0;
ab76ad54SMike Kravetz}
ab76ad54SMike Kravetz
7dac0ec8SVishal Moola (Oracle)static inline vm_fault_t hugetlb_handle_userfault(struct vm_fault *vmf,
7677f7fdSAxel Rasmussen						  struct address_space *mapping,
7677f7fdSAxel Rasmussen						  unsigned long reason)
7677f7fdSAxel Rasmussen{
7677f7fdSAxel Rasmussen	u32 hash;
7677f7fdSAxel Rasmussen
7677f7fdSAxel Rasmussen	/*
958f32ceSLiu Shixin	 * vma_lock and hugetlb_fault_mutex must be dropped before handling
958f32ceSLiu Shixin	 * userfault. Also mmap_lock could be dropped due to handling
958f32ceSLiu Shixin	 * userfault, any vma operation should be careful from here.
7677f7fdSAxel Rasmussen	 */
7dac0ec8SVishal Moola (Oracle)	hugetlb_vma_unlock_read(vmf->vma);
7dac0ec8SVishal Moola (Oracle)	hash = hugetlb_fault_mutex_hash(mapping, vmf->pgoff);
7677f7fdSAxel Rasmussen	mutex_unlock(&hugetlb_fault_mutex_table[hash]);
7dac0ec8SVishal Moola (Oracle)	return handle_userfault(vmf, reason);
7677f7fdSAxel Rasmussen}
7677f7fdSAxel Rasmussen
2ea7ff1eSPeter Xu/*
2ea7ff1eSPeter Xu * Recheck pte with pgtable lock.  Returns true if pte didn't change, or
2ea7ff1eSPeter Xu * false if pte changed or is changing.
2ea7ff1eSPeter Xu */
e6c0c032SChristophe Leroystatic bool hugetlb_pte_stable(struct hstate *h, struct mm_struct *mm, unsigned long addr,
2ea7ff1eSPeter Xu			       pte_t *ptep, pte_t old_pte)
2ea7ff1eSPeter Xu{
2ea7ff1eSPeter Xu	spinlock_t *ptl;
2ea7ff1eSPeter Xu	bool same;
2ea7ff1eSPeter Xu
2ea7ff1eSPeter Xu	ptl = huge_pte_lock(h, mm, ptep);
e6c0c032SChristophe Leroy	same = pte_same(huge_ptep_get(mm, addr, ptep), old_pte);
2ea7ff1eSPeter Xu	spin_unlock(ptl);
2ea7ff1eSPeter Xu
2ea7ff1eSPeter Xu	return same;
2ea7ff1eSPeter Xu}
2ea7ff1eSPeter Xu
7b6ec181SVishal Moola (Oracle)static vm_fault_t hugetlb_no_page(struct address_space *mapping,
7dac0ec8SVishal Moola (Oracle)			struct vm_fault *vmf)
ac9b9c66SHugh Dickins{
d531fd2cSOscar Salvador	u32 hash = hugetlb_fault_mutex_hash(mapping, vmf->pgoff);
d531fd2cSOscar Salvador	bool new_folio, new_anon_folio = false;
7b6ec181SVishal Moola (Oracle)	struct vm_area_struct *vma = vmf->vma;
7b6ec181SVishal Moola (Oracle)	struct mm_struct *mm = vma->vm_mm;
a5516438SAndi Kleen	struct hstate *h = hstate_vma(vma);
2b740303SSouptick Joarder	vm_fault_t ret = VM_FAULT_SIGBUS;
9293fb47SOscar Salvador	bool folio_locked = true;
d531fd2cSOscar Salvador	struct folio *folio;
d531fd2cSOscar Salvador	unsigned long size;
d531fd2cSOscar Salvador	pte_t new_pte;
4c887265SAdam Litke
04f2cbe3SMel Gorman	/*
04f2cbe3SMel Gorman	 * Currently, we are forced to kill the process in the event the
04f2cbe3SMel Gorman	 * original mapper has unmapped pages from the child due to a failed
c89357e2SDavid Hildenbrand	 * COW/unsharing. Warn that such a situation has occurred as it may not
c89357e2SDavid Hildenbrand	 * be obvious.
04f2cbe3SMel Gorman	 */
04f2cbe3SMel Gorman	if (is_vma_resv_set(vma, HPAGE_RESV_UNMAPPED)) {
910154d5SGeoffrey Thomas		pr_warn_ratelimited("PID %d killed due to inadequate hugepage pool\n",
04f2cbe3SMel Gorman			   current->pid);
958f32ceSLiu Shixin		goto out;
04f2cbe3SMel Gorman	}
04f2cbe3SMel Gorman
4c887265SAdam Litke	/*
188a3972SMike Kravetz	 * Use page lock to guard against racing truncation
188a3972SMike Kravetz	 * before we get page_table_lock.
4c887265SAdam Litke	 */
d0ce0e47SSidhartha Kumar	new_folio = false;
7b6ec181SVishal Moola (Oracle)	folio = filemap_lock_hugetlb_folio(h, mapping, vmf->pgoff);
66dabbb6SChristoph Hellwig	if (IS_ERR(folio)) {
188a3972SMike Kravetz		size = i_size_read(mapping->host) >> huge_page_shift(h);
7b6ec181SVishal Moola (Oracle)		if (vmf->pgoff >= size)
188a3972SMike Kravetz			goto out;
7677f7fdSAxel Rasmussen		/* Check for page in userfault range */
2ea7ff1eSPeter Xu		if (userfaultfd_missing(vma)) {
2ea7ff1eSPeter Xu			/*
2ea7ff1eSPeter Xu			 * Since hugetlb_no_page() was examining pte
2ea7ff1eSPeter Xu			 * without pgtable lock, we need to re-test under
2ea7ff1eSPeter Xu			 * lock because the pte may not be stable and could
2ea7ff1eSPeter Xu			 * have changed from under us.  Try to detect
2ea7ff1eSPeter Xu			 * either changed or during-changing ptes and retry
2ea7ff1eSPeter Xu			 * properly when needed.
2ea7ff1eSPeter Xu			 *
2ea7ff1eSPeter Xu			 * Note that userfaultfd is actually fine with
2ea7ff1eSPeter Xu			 * false positives (e.g. caused by pte changed),
2ea7ff1eSPeter Xu			 * but not wrong logical events (e.g. caused by
2ea7ff1eSPeter Xu			 * reading a pte during changing).  The latter can
2ea7ff1eSPeter Xu			 * confuse the userspace, so the strictness is very
2ea7ff1eSPeter Xu			 * much preferred.  E.g., MISSING event should
2ea7ff1eSPeter Xu			 * never happen on the page after UFFDIO_COPY has
2ea7ff1eSPeter Xu			 * correctly installed the page and returned.
2ea7ff1eSPeter Xu			 */
e6c0c032SChristophe Leroy			if (!hugetlb_pte_stable(h, mm, vmf->address, vmf->pte, vmf->orig_pte)) {
2ea7ff1eSPeter Xu				ret = 0;
2ea7ff1eSPeter Xu				goto out;
2ea7ff1eSPeter Xu			}
2ea7ff1eSPeter Xu
7dac0ec8SVishal Moola (Oracle)			return hugetlb_handle_userfault(vmf, mapping,
7677f7fdSAxel Rasmussen							VM_UFFD_MISSING);
2ea7ff1eSPeter Xu		}
1a1aad8aSMike Kravetz
37641efaSVishal Moola (Oracle)		if (!(vma->vm_flags & VM_MAYSHARE)) {
98b74bb4SVishal Moola (Oracle)			ret = __vmf_anon_prepare(vmf);
37641efaSVishal Moola (Oracle)			if (unlikely(ret))
37641efaSVishal Moola (Oracle)				goto out;
37641efaSVishal Moola (Oracle)		}
37641efaSVishal Moola (Oracle)
30cef82bSPeter Xu		folio = alloc_hugetlb_folio(vma, vmf->address, false);
d0ce0e47SSidhartha Kumar		if (IS_ERR(folio)) {
4643d67eSMike Kravetz			/*
4643d67eSMike Kravetz			 * Returning error will result in faulting task being
4643d67eSMike Kravetz			 * sent SIGBUS.  The hugetlb fault mutex prevents two
4643d67eSMike Kravetz			 * tasks from racing to fault in the same page which
4643d67eSMike Kravetz			 * could result in false unable to allocate errors.
4643d67eSMike Kravetz			 * Page migration does not take the fault mutex, but
4643d67eSMike Kravetz			 * does a clear then write of pte's under page table
4643d67eSMike Kravetz			 * lock.  Page fault code could race with migration,
4643d67eSMike Kravetz			 * notice the clear pte and try to allocate a page
4643d67eSMike Kravetz			 * here.  Before returning error, get ptl and make
4643d67eSMike Kravetz			 * sure there really is no pte entry.
4643d67eSMike Kravetz			 */
e6c0c032SChristophe Leroy			if (hugetlb_pte_stable(h, mm, vmf->address, vmf->pte, vmf->orig_pte))
d0ce0e47SSidhartha Kumar				ret = vmf_error(PTR_ERR(folio));
f9bf6c03SPeter Xu			else
f9bf6c03SPeter Xu				ret = 0;
6bda666aSChristoph Lameter			goto out;
6bda666aSChristoph Lameter		}
78fefd04SKefeng Wang		folio_zero_user(folio, vmf->real_address);
d0ce0e47SSidhartha Kumar		__folio_mark_uptodate(folio);
d0ce0e47SSidhartha Kumar		new_folio = true;
ac9b9c66SHugh Dickins
f83a275dSMel Gorman		if (vma->vm_flags & VM_MAYSHARE) {
7b6ec181SVishal Moola (Oracle)			int err = hugetlb_add_to_page_cache(folio, mapping,
7b6ec181SVishal Moola (Oracle)							vmf->pgoff);
6bda666aSChristoph Lameter			if (err) {
3a5497a2SMiaohe Lin				/*
3a5497a2SMiaohe Lin				 * err can't be -EEXIST which implies someone
3a5497a2SMiaohe Lin				 * else consumed the reservation since hugetlb
3a5497a2SMiaohe Lin				 * fault mutex is held when add a hugetlb page
3a5497a2SMiaohe Lin				 * to the page cache. So it's safe to call
3a5497a2SMiaohe Lin				 * restore_reserve_on_error() here.
3a5497a2SMiaohe Lin				 */
7b6ec181SVishal Moola (Oracle)				restore_reserve_on_error(h, vma, vmf->address,
7b6ec181SVishal Moola (Oracle)							folio);
d0ce0e47SSidhartha Kumar				folio_put(folio);
37641efaSVishal Moola (Oracle)				ret = VM_FAULT_SIGBUS;
6bda666aSChristoph Lameter				goto out;
6bda666aSChristoph Lameter			}
23be7468SMel Gorman		} else {
d531fd2cSOscar Salvador			new_anon_folio = true;
d0ce0e47SSidhartha Kumar			folio_lock(folio);
0fe6e20bSNaoya Horiguchi		}
0fe6e20bSNaoya Horiguchi	} else {
57303d80SAndy Whitcroft		/*
998b4382SNaoya Horiguchi		 * If memory error occurs between mmap() and fault, some process
998b4382SNaoya Horiguchi		 * don't have hwpoisoned swap entry for errored virtual address.
998b4382SNaoya Horiguchi		 * So we need to block hugepage fault by PG_hwpoison bit check.
fd6a03edSNaoya Horiguchi		 */
d0ce0e47SSidhartha Kumar		if (unlikely(folio_test_hwpoison(folio))) {
0eb98f15SMiaohe Lin			ret = VM_FAULT_HWPOISON_LARGE |
972dc4deSAneesh Kumar K.V				VM_FAULT_SET_HINDEX(hstate_index(h));
fd6a03edSNaoya Horiguchi			goto backout_unlocked;
6bda666aSChristoph Lameter		}
7677f7fdSAxel Rasmussen
7677f7fdSAxel Rasmussen		/* Check for page in userfault range. */
7677f7fdSAxel Rasmussen		if (userfaultfd_minor(vma)) {
d0ce0e47SSidhartha Kumar			folio_unlock(folio);
d0ce0e47SSidhartha Kumar			folio_put(folio);
2ea7ff1eSPeter Xu			/* See comment in userfaultfd_missing() block above */
e6c0c032SChristophe Leroy			if (!hugetlb_pte_stable(h, mm, vmf->address, vmf->pte, vmf->orig_pte)) {
2ea7ff1eSPeter Xu				ret = 0;
2ea7ff1eSPeter Xu				goto out;
2ea7ff1eSPeter Xu			}
7dac0ec8SVishal Moola (Oracle)			return hugetlb_handle_userfault(vmf, mapping,
7677f7fdSAxel Rasmussen							VM_UFFD_MINOR);
7677f7fdSAxel Rasmussen		}
998b4382SNaoya Horiguchi	}
1e8f889bSDavid Gibson
57303d80SAndy Whitcroft	/*
57303d80SAndy Whitcroft	 * If we are going to COW a private mapping later, we examine the
57303d80SAndy Whitcroft	 * pending reservations for this page now. This will ensure that
57303d80SAndy Whitcroft	 * any allocations necessary to record that reservation occur outside
57303d80SAndy Whitcroft	 * the spinlock.
57303d80SAndy Whitcroft	 */
7b6ec181SVishal Moola (Oracle)	if ((vmf->flags & FAULT_FLAG_WRITE) && !(vma->vm_flags & VM_SHARED)) {
7b6ec181SVishal Moola (Oracle)		if (vma_needs_reservation(h, vma, vmf->address) < 0) {
2b26736cSAndy Whitcroft			ret = VM_FAULT_OOM;
2b26736cSAndy Whitcroft			goto backout_unlocked;
2b26736cSAndy Whitcroft		}
5e911373SMike Kravetz		/* Just decrements count, does not deallocate */
7b6ec181SVishal Moola (Oracle)		vma_end_reservation(h, vma, vmf->address);
5e911373SMike Kravetz	}
57303d80SAndy Whitcroft
7b6ec181SVishal Moola (Oracle)	vmf->ptl = huge_pte_lock(h, mm, vmf->pte);
83c54070SNick Piggin	ret = 0;
c64e912cSPeter Xu	/* If pte changed from under us, retry */
e6c0c032SChristophe Leroy	if (!pte_same(huge_ptep_get(mm, vmf->address, vmf->pte), vmf->orig_pte))
4c887265SAdam Litke		goto backout;
4c887265SAdam Litke
d531fd2cSOscar Salvador	if (new_anon_folio)
7b6ec181SVishal Moola (Oracle)		hugetlb_add_new_anon_rmap(folio, vma, vmf->address);
4781593dSPeter Xu	else
44887f39SDavid Hildenbrand		hugetlb_add_file_rmap(folio);
e06fa168SMatthew Wilcox (Oracle)	new_pte = make_huge_pte(vma, folio, vma->vm_flags & VM_SHARED);
c64e912cSPeter Xu	/*
c64e912cSPeter Xu	 * If this pte was previously wr-protected, keep it wr-protected even
c64e912cSPeter Xu	 * if populated.
c64e912cSPeter Xu	 */
68aa2fdbSLorenzo Stoakes	if (unlikely(pte_is_uffd_wp_marker(vmf->orig_pte)))
f1eb1bacSPeter Xu		new_pte = huge_pte_mkuffd_wp(new_pte);
7b6ec181SVishal Moola (Oracle)	set_huge_pte_at(mm, vmf->address, vmf->pte, new_pte, huge_page_size(h));
1e8f889bSDavid Gibson
5d317b2bSNaoya Horiguchi	hugetlb_count_add(pages_per_huge_page(h), mm);
7b6ec181SVishal Moola (Oracle)	if ((vmf->flags & FAULT_FLAG_WRITE) && !(vma->vm_flags & VM_SHARED)) {
9293fb47SOscar Salvador		/*
9293fb47SOscar Salvador		 * No need to keep file folios locked. See comment in
9293fb47SOscar Salvador		 * hugetlb_fault().
9293fb47SOscar Salvador		 */
d531fd2cSOscar Salvador		if (!new_anon_folio) {
9293fb47SOscar Salvador			folio_locked = false;
9293fb47SOscar Salvador			folio_unlock(folio);
9293fb47SOscar Salvador		}
1e8f889bSDavid Gibson		/* Optimization, do the COW without a second fault */
2ae1ab99SOscar Salvador		ret = hugetlb_wp(vmf);
1e8f889bSDavid Gibson	}
1e8f889bSDavid Gibson
7b6ec181SVishal Moola (Oracle)	spin_unlock(vmf->ptl);
cb6acd01SMike Kravetz
cb6acd01SMike Kravetz	/*
d0ce0e47SSidhartha Kumar	 * Only set hugetlb_migratable in newly allocated pages.  Existing pages
d0ce0e47SSidhartha Kumar	 * found in the pagecache may not have hugetlb_migratable if they have
8f251a3dSMike Kravetz	 * been isolated for migration.
cb6acd01SMike Kravetz	 */
d0ce0e47SSidhartha Kumar	if (new_folio)
d0ce0e47SSidhartha Kumar		folio_set_hugetlb_migratable(folio);
cb6acd01SMike Kravetz
9293fb47SOscar Salvador	if (folio_locked)
d0ce0e47SSidhartha Kumar		folio_unlock(folio);
4c887265SAdam Litkeout:
958f32ceSLiu Shixin	hugetlb_vma_unlock_read(vma);
98b74bb4SVishal Moola (Oracle)
98b74bb4SVishal Moola (Oracle)	/*
98b74bb4SVishal Moola (Oracle)	 * We must check to release the per-VMA lock. __vmf_anon_prepare() is
98b74bb4SVishal Moola (Oracle)	 * the only way ret can be set to VM_FAULT_RETRY.
98b74bb4SVishal Moola (Oracle)	 */
98b74bb4SVishal Moola (Oracle)	if (unlikely(ret & VM_FAULT_RETRY))
98b74bb4SVishal Moola (Oracle)		vma_end_read(vma);
98b74bb4SVishal Moola (Oracle)
958f32ceSLiu Shixin	mutex_unlock(&hugetlb_fault_mutex_table[hash]);
ac9b9c66SHugh Dickins	return ret;
4c887265SAdam Litke
4c887265SAdam Litkebackout:
7b6ec181SVishal Moola (Oracle)	spin_unlock(vmf->ptl);
2b26736cSAndy Whitcroftbackout_unlocked:
d531fd2cSOscar Salvador	/* We only need to restore reservations for private mappings */
d531fd2cSOscar Salvador	if (new_anon_folio)
7b6ec181SVishal Moola (Oracle)		restore_reserve_on_error(h, vma, vmf->address, folio);
fa27759aSMike Kravetz
d0ce0e47SSidhartha Kumar	folio_unlock(folio);
d0ce0e47SSidhartha Kumar	folio_put(folio);
4c887265SAdam Litke	goto out;
ac9b9c66SHugh Dickins}
ac9b9c66SHugh Dickins
8382d914SDavidlohr Bueso#ifdef CONFIG_SMP
188b04a7SWei Yangu32 hugetlb_fault_mutex_hash(struct address_space *mapping, pgoff_t idx)
8382d914SDavidlohr Bueso{
8382d914SDavidlohr Bueso	unsigned long key[2];
8382d914SDavidlohr Bueso	u32 hash;
8382d914SDavidlohr Bueso
8382d914SDavidlohr Bueso	key[0] = (unsigned long) mapping;
8382d914SDavidlohr Bueso	key[1] = idx;
8382d914SDavidlohr Bueso
55254636SMike Kravetz	hash = jhash2((u32 *)&key, sizeof(key)/(sizeof(u32)), 0);
8382d914SDavidlohr Bueso
8382d914SDavidlohr Bueso	return hash & (num_fault_mutexes - 1);
8382d914SDavidlohr Bueso}
8382d914SDavidlohr Bueso#else
8382d914SDavidlohr Bueso/*
6c26d310SMiaohe Lin * For uniprocessor systems we always use a single mutex, so just
8382d914SDavidlohr Bueso * return 0 and avoid the hashing overhead.
8382d914SDavidlohr Bueso */
188b04a7SWei Yangu32 hugetlb_fault_mutex_hash(struct address_space *mapping, pgoff_t idx)
8382d914SDavidlohr Bueso{
8382d914SDavidlohr Bueso	return 0;
8382d914SDavidlohr Bueso}
8382d914SDavidlohr Bueso#endif
8382d914SDavidlohr Bueso
2b740303SSouptick Joardervm_fault_t hugetlb_fault(struct mm_struct *mm, struct vm_area_struct *vma,
788c7df4SHugh Dickins			unsigned long address, unsigned int flags)
86e5216fSAdam Litke{
2b740303SSouptick Joarder	vm_fault_t ret;
8382d914SDavidlohr Bueso	u32 hash;
061e62e8SZhangPeng	struct folio *folio = NULL;
a5516438SAndi Kleen	struct hstate *h = hstate_vma(vma);
8382d914SDavidlohr Bueso	struct address_space *mapping;
2ae1ab99SOscar Salvador	bool need_wait_lock = false;
0ca22723SVishal Moola (Oracle)	struct vm_fault vmf = {
0ca22723SVishal Moola (Oracle)		.vma = vma,
9b42fa16SVishal Moola (Oracle)		.address = address & huge_page_mask(h),
0ca22723SVishal Moola (Oracle)		.real_address = address,
0ca22723SVishal Moola (Oracle)		.flags = flags,
9b42fa16SVishal Moola (Oracle)		.pgoff = vma_hugecache_offset(h, vma,
9b42fa16SVishal Moola (Oracle)				address & huge_page_mask(h)),
0ca22723SVishal Moola (Oracle)		/* TODO: Track hugetlb faults using vm_fault */
0ca22723SVishal Moola (Oracle)
0ca22723SVishal Moola (Oracle)		/*
0ca22723SVishal Moola (Oracle)		 * Some fields may not be initialized, be careful as it may
0ca22723SVishal Moola (Oracle)		 * be hard to debug if called functions make assumptions
0ca22723SVishal Moola (Oracle)		 */
0ca22723SVishal Moola (Oracle)	};
86e5216fSAdam Litke
3935baa9SDavid Gibson	/*
3935baa9SDavid Gibson	 * Serialize hugepage allocation and instantiation, so that we don't
3935baa9SDavid Gibson	 * get spurious allocation failures if two CPUs race to instantiate
3935baa9SDavid Gibson	 * the same page in the page cache.
3935baa9SDavid Gibson	 */
40549ba8SMike Kravetz	mapping = vma->vm_file->f_mapping;
0ca22723SVishal Moola (Oracle)	hash = hugetlb_fault_mutex_hash(mapping, vmf.pgoff);
c672c7f2SMike Kravetz	mutex_lock(&hugetlb_fault_mutex_table[hash]);
8382d914SDavidlohr Bueso
40549ba8SMike Kravetz	/*
40549ba8SMike Kravetz	 * Acquire vma lock before calling huge_pte_alloc and hold
9b42fa16SVishal Moola (Oracle)	 * until finished with vmf.pte.  This prevents huge_pmd_unshare from
9b42fa16SVishal Moola (Oracle)	 * being called elsewhere and making the vmf.pte no longer valid.
40549ba8SMike Kravetz	 */
40549ba8SMike Kravetz	hugetlb_vma_lock_read(vma);
9b42fa16SVishal Moola (Oracle)	vmf.pte = huge_pte_alloc(mm, vma, vmf.address, huge_page_size(h));
9b42fa16SVishal Moola (Oracle)	if (!vmf.pte) {
40549ba8SMike Kravetz		hugetlb_vma_unlock_read(vma);
40549ba8SMike Kravetz		mutex_unlock(&hugetlb_fault_mutex_table[hash]);
40549ba8SMike Kravetz		return VM_FAULT_OOM;
40549ba8SMike Kravetz	}
40549ba8SMike Kravetz
e6c0c032SChristophe Leroy	vmf.orig_pte = huge_ptep_get(mm, vmf.address, vmf.pte);
c093cf45SLorenzo Stoakes	if (huge_pte_none(vmf.orig_pte))
c093cf45SLorenzo Stoakes		/*
c093cf45SLorenzo Stoakes		 * hugetlb_no_page will drop vma lock and hugetlb fault
c093cf45SLorenzo Stoakes		 * mutex internally, which make us return immediately.
c093cf45SLorenzo Stoakes		 */
c093cf45SLorenzo Stoakes		return hugetlb_no_page(mapping, &vmf);
c093cf45SLorenzo Stoakes
68aa2fdbSLorenzo Stoakes	if (pte_is_marker(vmf.orig_pte)) {
c093cf45SLorenzo Stoakes		const pte_marker marker =
68aa2fdbSLorenzo Stoakes			softleaf_to_marker(softleaf_from_pte(vmf.orig_pte));
af19487fSAxel Rasmussen
af19487fSAxel Rasmussen		if (marker & PTE_MARKER_POISONED) {
8e34419fSOscar Salvador			ret = VM_FAULT_HWPOISON_LARGE |
8e34419fSOscar Salvador				VM_FAULT_SET_HINDEX(hstate_index(h));
af19487fSAxel Rasmussen			goto out_mutex;
7c53dfbdSLorenzo Stoakes		} else if (WARN_ON_ONCE(marker & PTE_MARKER_GUARD)) {
7c53dfbdSLorenzo Stoakes			/* This isn't supported in hugetlb. */
7c53dfbdSLorenzo Stoakes			ret = VM_FAULT_SIGSEGV;
7c53dfbdSLorenzo Stoakes			goto out_mutex;
af19487fSAxel Rasmussen		}
af19487fSAxel Rasmussen
7b6ec181SVishal Moola (Oracle)		return hugetlb_no_page(mapping, &vmf);
af19487fSAxel Rasmussen	}
86e5216fSAdam Litke
83c54070SNick Piggin	ret = 0;
1e8f889bSDavid Gibson
cced784dSOscar Salvador	/* Not present, either a migration or a hwpoisoned entry */
03bfbc3aSLorenzo Stoakes	if (!pte_present(vmf.orig_pte) && !huge_pte_none(vmf.orig_pte)) {
03bfbc3aSLorenzo Stoakes		const softleaf_t softleaf = softleaf_from_pte(vmf.orig_pte);
03bfbc3aSLorenzo Stoakes
03bfbc3aSLorenzo Stoakes		if (softleaf_is_migration(softleaf)) {
fcd48540SPeter Xu			/*
fcd48540SPeter Xu			 * Release the hugetlb fault lock now, but retain
fcd48540SPeter Xu			 * the vma lock, because it is needed to guard the
fcd48540SPeter Xu			 * huge_pte_lockptr() later in
fcd48540SPeter Xu			 * migration_entry_wait_huge(). The vma lock will
fcd48540SPeter Xu			 * be released there.
fcd48540SPeter Xu			 */
fcd48540SPeter Xu			mutex_unlock(&hugetlb_fault_mutex_table[hash]);
e6c0c032SChristophe Leroy			migration_entry_wait_huge(vma, vmf.address, vmf.pte);
fcd48540SPeter Xu			return 0;
03bfbc3aSLorenzo Stoakes		}
03bfbc3aSLorenzo Stoakes		if (softleaf_is_hwpoison(softleaf)) {
fcd48540SPeter Xu			ret = VM_FAULT_HWPOISON_LARGE |
fcd48540SPeter Xu			    VM_FAULT_SET_HINDEX(hstate_index(h));
03bfbc3aSLorenzo Stoakes		}
03bfbc3aSLorenzo Stoakes
0f792cf9SNaoya Horiguchi		goto out_mutex;
fcd48540SPeter Xu	}
0f792cf9SNaoya Horiguchi
0f792cf9SNaoya Horiguchi	/*
c89357e2SDavid Hildenbrand	 * If we are going to COW/unshare the mapping later, we examine the
c89357e2SDavid Hildenbrand	 * pending reservations for this page now. This will ensure that any
57303d80SAndy Whitcroft	 * allocations necessary to record that reservation occur outside the
2ae1ab99SOscar Salvador	 * spinlock.
57303d80SAndy Whitcroft	 */
c89357e2SDavid Hildenbrand	if ((flags & (FAULT_FLAG_WRITE|FAULT_FLAG_UNSHARE)) &&
9b42fa16SVishal Moola (Oracle)	    !(vma->vm_flags & VM_MAYSHARE) && !huge_pte_write(vmf.orig_pte)) {
9b42fa16SVishal Moola (Oracle)		if (vma_needs_reservation(h, vma, vmf.address) < 0) {
2b26736cSAndy Whitcroft			ret = VM_FAULT_OOM;
b4d1d99fSDavid Gibson			goto out_mutex;
2b26736cSAndy Whitcroft		}
5e911373SMike Kravetz		/* Just decrements count, does not deallocate */
9b42fa16SVishal Moola (Oracle)		vma_end_reservation(h, vma, vmf.address);
57303d80SAndy Whitcroft	}
57303d80SAndy Whitcroft
9b42fa16SVishal Moola (Oracle)	vmf.ptl = huge_pte_lock(h, mm, vmf.pte);
0fe6e20bSNaoya Horiguchi
c89357e2SDavid Hildenbrand	/* Check for a racing update before calling hugetlb_wp() */
e6c0c032SChristophe Leroy	if (unlikely(!pte_same(vmf.orig_pte, huge_ptep_get(mm, vmf.address, vmf.pte))))
cb900f41SKirill A. Shutemov		goto out_ptl;
b4d1d99fSDavid Gibson
166f3eccSPeter Xu	/* Handle userfault-wp first, before trying to lock more pages */
e6c0c032SChristophe Leroy	if (userfaultfd_wp(vma) && huge_pte_uffd_wp(huge_ptep_get(mm, vmf.address, vmf.pte)) &&
9b42fa16SVishal Moola (Oracle)	    (flags & FAULT_FLAG_WRITE) && !huge_pte_write(vmf.orig_pte)) {
d61ea1cbSPeter Xu		if (!userfaultfd_wp_async(vma)) {
9b42fa16SVishal Moola (Oracle)			spin_unlock(vmf.ptl);
40549ba8SMike Kravetz			hugetlb_vma_unlock_read(vma);
166f3eccSPeter Xu			mutex_unlock(&hugetlb_fault_mutex_table[hash]);
166f3eccSPeter Xu			return handle_userfault(&vmf, VM_UFFD_WP);
166f3eccSPeter Xu		}
166f3eccSPeter Xu
9b42fa16SVishal Moola (Oracle)		vmf.orig_pte = huge_pte_clear_uffd_wp(vmf.orig_pte);
9b42fa16SVishal Moola (Oracle)		set_huge_pte_at(mm, vmf.address, vmf.pte, vmf.orig_pte,
52526ca7SMuhammad Usama Anjum				huge_page_size(hstate_vma(vma)));
d61ea1cbSPeter Xu		/* Fallthrough to CoW */
d61ea1cbSPeter Xu	}
d61ea1cbSPeter Xu
c89357e2SDavid Hildenbrand	if (flags & (FAULT_FLAG_WRITE|FAULT_FLAG_UNSHARE)) {
9b42fa16SVishal Moola (Oracle)		if (!huge_pte_write(vmf.orig_pte)) {
9293fb47SOscar Salvador			/*
9293fb47SOscar Salvador			 * Anonymous folios need to be lock since hugetlb_wp()
9293fb47SOscar Salvador			 * checks whether we can re-use the folio exclusively
9293fb47SOscar Salvador			 * for us in case we are the only user of it.
9293fb47SOscar Salvador			 */
2ae1ab99SOscar Salvador			folio = page_folio(pte_page(vmf.orig_pte));
9293fb47SOscar Salvador			if (folio_test_anon(folio) && !folio_trylock(folio)) {
2ae1ab99SOscar Salvador				need_wait_lock = true;
2ae1ab99SOscar Salvador				goto out_ptl;
2ae1ab99SOscar Salvador			}
2ae1ab99SOscar Salvador			folio_get(folio);
2ae1ab99SOscar Salvador			ret = hugetlb_wp(&vmf);
9293fb47SOscar Salvador			if (folio_test_anon(folio))
2ae1ab99SOscar Salvador				folio_unlock(folio);
2ae1ab99SOscar Salvador			folio_put(folio);
2ae1ab99SOscar Salvador			goto out_ptl;
c89357e2SDavid Hildenbrand		} else if (likely(flags & FAULT_FLAG_WRITE)) {
9b42fa16SVishal Moola (Oracle)			vmf.orig_pte = huge_pte_mkdirty(vmf.orig_pte);
b4d1d99fSDavid Gibson		}
c89357e2SDavid Hildenbrand	}
9b42fa16SVishal Moola (Oracle)	vmf.orig_pte = pte_mkyoung(vmf.orig_pte);
9b42fa16SVishal Moola (Oracle)	if (huge_ptep_set_access_flags(vma, vmf.address, vmf.pte, vmf.orig_pte,
788c7df4SHugh Dickins						flags & FAULT_FLAG_WRITE))
9b42fa16SVishal Moola (Oracle)		update_mmu_cache(vma, vmf.address, vmf.pte);
cb900f41SKirill A. Shutemovout_ptl:
9b42fa16SVishal Moola (Oracle)	spin_unlock(vmf.ptl);
b4d1d99fSDavid Gibsonout_mutex:
40549ba8SMike Kravetz	hugetlb_vma_unlock_read(vma);
98b74bb4SVishal Moola (Oracle)
98b74bb4SVishal Moola (Oracle)	/*
98b74bb4SVishal Moola (Oracle)	 * We must check to release the per-VMA lock. __vmf_anon_prepare() in
98b74bb4SVishal Moola (Oracle)	 * hugetlb_wp() is the only way ret can be set to VM_FAULT_RETRY.
98b74bb4SVishal Moola (Oracle)	 */
98b74bb4SVishal Moola (Oracle)	if (unlikely(ret & VM_FAULT_RETRY))
98b74bb4SVishal Moola (Oracle)		vma_end_read(vma);
98b74bb4SVishal Moola (Oracle)
c672c7f2SMike Kravetz	mutex_unlock(&hugetlb_fault_mutex_table[hash]);
0f792cf9SNaoya Horiguchi	/*
2ae1ab99SOscar Salvador	 * hugetlb_wp drops all the locks, but the folio lock, before trying to
2ae1ab99SOscar Salvador	 * unmap the folio from other processes. During that window, if another
2ae1ab99SOscar Salvador	 * process mapping that folio faults in, it will take the mutex and then
2ae1ab99SOscar Salvador	 * it will wait on folio_lock, causing an ABBA deadlock.
2ae1ab99SOscar Salvador	 * Use trylock instead and bail out if we fail.
2ae1ab99SOscar Salvador	 *
2ae1ab99SOscar Salvador	 * Ideally, we should hold a refcount on the folio we wait for, but we do
2ae1ab99SOscar Salvador	 * not want to use the folio after it becomes unlocked, but rather just
2ae1ab99SOscar Salvador	 * wait for it to become unlocked, so hopefully next fault successes on
2ae1ab99SOscar Salvador	 * the trylock.
0f792cf9SNaoya Horiguchi	 */
0f792cf9SNaoya Horiguchi	if (need_wait_lock)
061e62e8SZhangPeng		folio_wait_locked(folio);
1e8f889bSDavid Gibson	return ret;
86e5216fSAdam Litke}
86e5216fSAdam Litke
714c1891SAxel Rasmussen#ifdef CONFIG_USERFAULTFD
8fb5debcSMike Kravetz/*
72e315f7SHugh Dickins * Can probably be eliminated, but still used by hugetlb_mfill_atomic_pte().
72e315f7SHugh Dickins */
72e315f7SHugh Dickinsstatic struct folio *alloc_hugetlb_folio_vma(struct hstate *h,
72e315f7SHugh Dickins		struct vm_area_struct *vma, unsigned long address)
72e315f7SHugh Dickins{
72e315f7SHugh Dickins	struct mempolicy *mpol;
72e315f7SHugh Dickins	nodemask_t *nodemask;
72e315f7SHugh Dickins	struct folio *folio;
72e315f7SHugh Dickins	gfp_t gfp_mask;
72e315f7SHugh Dickins	int node;
72e315f7SHugh Dickins
72e315f7SHugh Dickins	gfp_mask = htlb_alloc_mask(h);
72e315f7SHugh Dickins	node = huge_node(vma, address, gfp_mask, &mpol, &nodemask);
42d0c3fbSBaolin Wang	/*
42d0c3fbSBaolin Wang	 * This is used to allocate a temporary hugetlb to hold the copied
42d0c3fbSBaolin Wang	 * content, which will then be copied again to the final hugetlb
42d0c3fbSBaolin Wang	 * consuming a reservation. Set the alloc_fallback to false to indicate
42d0c3fbSBaolin Wang	 * that breaking the per-node hugetlb pool is not allowed in this case.
42d0c3fbSBaolin Wang	 */
42d0c3fbSBaolin Wang	folio = alloc_hugetlb_folio_nodemask(h, node, nodemask, gfp_mask, false);
72e315f7SHugh Dickins	mpol_cond_put(mpol);
72e315f7SHugh Dickins
72e315f7SHugh Dickins	return folio;
72e315f7SHugh Dickins}
72e315f7SHugh Dickins
72e315f7SHugh Dickins/*
a734991cSAxel Rasmussen * Used by userfaultfd UFFDIO_* ioctls. Based on userfaultfd's mfill_atomic_pte
a734991cSAxel Rasmussen * with modifications for hugetlb pages.
8fb5debcSMike Kravetz */
61c50040SAxel Rasmussenint hugetlb_mfill_atomic_pte(pte_t *dst_pte,
8fb5debcSMike Kravetz			     struct vm_area_struct *dst_vma,
8fb5debcSMike Kravetz			     unsigned long dst_addr,
8fb5debcSMike Kravetz			     unsigned long src_addr,
d9712937SAxel Rasmussen			     uffd_flags_t flags,
0169fd51SZhangPeng			     struct folio **foliop)
8fb5debcSMike Kravetz{
61c50040SAxel Rasmussen	struct mm_struct *dst_mm = dst_vma->vm_mm;
d9712937SAxel Rasmussen	bool is_continue = uffd_flags_mode_is(flags, MFILL_ATOMIC_CONTINUE);
d9712937SAxel Rasmussen	bool wp_enabled = (flags & MFILL_ATOMIC_WP);
8cc5fcbbSMina Almasry	struct hstate *h = hstate_vma(dst_vma);
8cc5fcbbSMina Almasry	struct address_space *mapping = dst_vma->vm_file->f_mapping;
8cc5fcbbSMina Almasry	pgoff_t idx = vma_hugecache_offset(h, dst_vma, dst_addr);
530dd992SKefeng Wang	unsigned long size = huge_page_size(h);
1c9e8defSMike Kravetz	int vm_shared = dst_vma->vm_flags & VM_SHARED;
8fb5debcSMike Kravetz	pte_t _dst_pte;
8fb5debcSMike Kravetz	spinlock_t *ptl;
8cc5fcbbSMina Almasry	int ret = -ENOMEM;
d0ce0e47SSidhartha Kumar	struct folio *folio;
d0ce0e47SSidhartha Kumar	bool folio_in_pagecache = false;
c093cf45SLorenzo Stoakes	pte_t dst_ptep;
8fb5debcSMike Kravetz
8a13897fSAxel Rasmussen	if (uffd_flags_mode_is(flags, MFILL_ATOMIC_POISON)) {
8a13897fSAxel Rasmussen		ptl = huge_pte_lock(h, dst_mm, dst_pte);
8a13897fSAxel Rasmussen
8a13897fSAxel Rasmussen		/* Don't overwrite any existing PTEs (even markers) */
e6c0c032SChristophe Leroy		if (!huge_pte_none(huge_ptep_get(dst_mm, dst_addr, dst_pte))) {
8a13897fSAxel Rasmussen			spin_unlock(ptl);
8a13897fSAxel Rasmussen			return -EEXIST;
8a13897fSAxel Rasmussen		}
8a13897fSAxel Rasmussen
8a13897fSAxel Rasmussen		_dst_pte = make_pte_marker(PTE_MARKER_POISONED);
530dd992SKefeng Wang		set_huge_pte_at(dst_mm, dst_addr, dst_pte, _dst_pte, size);
8a13897fSAxel Rasmussen
8a13897fSAxel Rasmussen		/* No need to invalidate - it was non-present before */
8a13897fSAxel Rasmussen		update_mmu_cache(dst_vma, dst_addr, dst_pte);
8a13897fSAxel Rasmussen
8a13897fSAxel Rasmussen		spin_unlock(ptl);
8a13897fSAxel Rasmussen		return 0;
8a13897fSAxel Rasmussen	}
8a13897fSAxel Rasmussen
f6191471SAxel Rasmussen	if (is_continue) {
f6191471SAxel Rasmussen		ret = -EFAULT;
a08c7193SSidhartha Kumar		folio = filemap_lock_hugetlb_folio(h, mapping, idx);
66dabbb6SChristoph Hellwig		if (IS_ERR(folio))
f6191471SAxel Rasmussen			goto out;
d0ce0e47SSidhartha Kumar		folio_in_pagecache = true;
0169fd51SZhangPeng	} else if (!*foliop) {
0169fd51SZhangPeng		/* If a folio already exists, then it's UFFDIO_COPY for
d84cf06eSMina Almasry		 * a non-missing case. Return -EEXIST.
d84cf06eSMina Almasry		 */
d84cf06eSMina Almasry		if (vm_shared &&
d84cf06eSMina Almasry		    hugetlbfs_pagecache_present(h, dst_vma, dst_addr)) {
d84cf06eSMina Almasry			ret = -EEXIST;
8fb5debcSMike Kravetz			goto out;
d84cf06eSMina Almasry		}
d84cf06eSMina Almasry
30cef82bSPeter Xu		folio = alloc_hugetlb_folio(dst_vma, dst_addr, false);
d0ce0e47SSidhartha Kumar		if (IS_ERR(folio)) {
060b6c72SDev Jain			pte_t *actual_pte = hugetlb_walk(dst_vma, dst_addr, PMD_SIZE);
060b6c72SDev Jain			if (actual_pte) {
060b6c72SDev Jain				ret = -EEXIST;
060b6c72SDev Jain				goto out;
060b6c72SDev Jain			}
d84cf06eSMina Almasry			ret = -ENOMEM;
d84cf06eSMina Almasry			goto out;
d84cf06eSMina Almasry		}
8fb5debcSMike Kravetz
e87340caSZhangPeng		ret = copy_folio_from_user(folio, (const void __user *) src_addr,
e87340caSZhangPeng					   false);
8fb5debcSMike Kravetz
c1e8d7c6SMichel Lespinasse		/* fallback to copy_from_user outside mmap_lock */
8fb5debcSMike Kravetz		if (unlikely(ret)) {
9e368259SAndrea Arcangeli			ret = -ENOENT;
d0ce0e47SSidhartha Kumar			/* Free the allocated folio which may have
8cc5fcbbSMina Almasry			 * consumed a reservation.
8cc5fcbbSMina Almasry			 */
d2d7bb44SSidhartha Kumar			restore_reserve_on_error(h, dst_vma, dst_addr, folio);
d0ce0e47SSidhartha Kumar			folio_put(folio);
8cc5fcbbSMina Almasry
d0ce0e47SSidhartha Kumar			/* Allocate a temporary folio to hold the copied
8cc5fcbbSMina Almasry			 * contents.
8cc5fcbbSMina Almasry			 */
d0ce0e47SSidhartha Kumar			folio = alloc_hugetlb_folio_vma(h, dst_vma, dst_addr);
d0ce0e47SSidhartha Kumar			if (!folio) {
8cc5fcbbSMina Almasry				ret = -ENOMEM;
8cc5fcbbSMina Almasry				goto out;
8cc5fcbbSMina Almasry			}
0169fd51SZhangPeng			*foliop = folio;
0169fd51SZhangPeng			/* Set the outparam foliop and return to the caller to
8cc5fcbbSMina Almasry			 * copy the contents outside the lock. Don't free the
0169fd51SZhangPeng			 * folio.
8cc5fcbbSMina Almasry			 */
8fb5debcSMike Kravetz			goto out;
8fb5debcSMike Kravetz		}
8fb5debcSMike Kravetz	} else {
8cc5fcbbSMina Almasry		if (vm_shared &&
8cc5fcbbSMina Almasry		    hugetlbfs_pagecache_present(h, dst_vma, dst_addr)) {
0169fd51SZhangPeng			folio_put(*foliop);
8cc5fcbbSMina Almasry			ret = -EEXIST;
0169fd51SZhangPeng			*foliop = NULL;
8cc5fcbbSMina Almasry			goto out;
8cc5fcbbSMina Almasry		}
8cc5fcbbSMina Almasry
30cef82bSPeter Xu		folio = alloc_hugetlb_folio(dst_vma, dst_addr, false);
d0ce0e47SSidhartha Kumar		if (IS_ERR(folio)) {
0169fd51SZhangPeng			folio_put(*foliop);
8cc5fcbbSMina Almasry			ret = -ENOMEM;
0169fd51SZhangPeng			*foliop = NULL;
8cc5fcbbSMina Almasry			goto out;
8cc5fcbbSMina Almasry		}
f5d09de9SKefeng Wang		ret = copy_user_large_folio(folio, *foliop, dst_addr, dst_vma);
0169fd51SZhangPeng		folio_put(*foliop);
0169fd51SZhangPeng		*foliop = NULL;
1cb9dc4bSLiu Shixin		if (ret) {
1cb9dc4bSLiu Shixin			folio_put(folio);
1cb9dc4bSLiu Shixin			goto out;
1cb9dc4bSLiu Shixin		}
8fb5debcSMike Kravetz	}
8fb5debcSMike Kravetz
8fb5debcSMike Kravetz	/*
b14d1671SJames Houghton	 * If we just allocated a new page, we need a memory barrier to ensure
b14d1671SJames Houghton	 * that preceding stores to the page become visible before the
b14d1671SJames Houghton	 * set_pte_at() write. The memory barrier inside __folio_mark_uptodate
b14d1671SJames Houghton	 * is what we need.
b14d1671SJames Houghton	 *
b14d1671SJames Houghton	 * In the case where we have not allocated a new page (is_continue),
b14d1671SJames Houghton	 * the page must already be uptodate. UFFDIO_CONTINUE already includes
b14d1671SJames Houghton	 * an earlier smp_wmb() to ensure that prior stores will be visible
b14d1671SJames Houghton	 * before the set_pte_at() write.
8fb5debcSMike Kravetz	 */
b14d1671SJames Houghton	if (!is_continue)
d0ce0e47SSidhartha Kumar		__folio_mark_uptodate(folio);
b14d1671SJames Houghton	else
b14d1671SJames Houghton		WARN_ON_ONCE(!folio_test_uptodate(folio));
8fb5debcSMike Kravetz
f6191471SAxel Rasmussen	/* Add shared, newly allocated pages to the page cache. */
f6191471SAxel Rasmussen	if (vm_shared && !is_continue) {
1e392147SAndrea Arcangeli		ret = -EFAULT;
530dd992SKefeng Wang		if (idx >= (i_size_read(mapping->host) >> huge_page_shift(h)))
1e392147SAndrea Arcangeli			goto out_release_nounlock;
1c9e8defSMike Kravetz
1e392147SAndrea Arcangeli		/*
1e392147SAndrea Arcangeli		 * Serialization between remove_inode_hugepages() and
7e1813d4SMike Kravetz		 * hugetlb_add_to_page_cache() below happens through the
1e392147SAndrea Arcangeli		 * hugetlb_fault_mutex_table that here must be hold by
1e392147SAndrea Arcangeli		 * the caller.
1e392147SAndrea Arcangeli		 */
9b91c0e2SSidhartha Kumar		ret = hugetlb_add_to_page_cache(folio, mapping, idx);
1c9e8defSMike Kravetz		if (ret)
1c9e8defSMike Kravetz			goto out_release_nounlock;
d0ce0e47SSidhartha Kumar		folio_in_pagecache = true;
1c9e8defSMike Kravetz	}
1c9e8defSMike Kravetz
bcc66543SMiaohe Lin	ptl = huge_pte_lock(h, dst_mm, dst_pte);
8fb5debcSMike Kravetz
8625147cSJames Houghton	ret = -EIO;
d0ce0e47SSidhartha Kumar	if (folio_test_hwpoison(folio))
8625147cSJames Houghton		goto out_release_unlock;
8625147cSJames Houghton
fa27759aSMike Kravetz	ret = -EEXIST;
c093cf45SLorenzo Stoakes
c093cf45SLorenzo Stoakes	dst_ptep = huge_ptep_get(dst_mm, dst_addr, dst_pte);
c093cf45SLorenzo Stoakes	/*
c093cf45SLorenzo Stoakes	 * See comment about UFFD marker overwriting in
c093cf45SLorenzo Stoakes	 * mfill_atomic_install_pte().
c093cf45SLorenzo Stoakes	 */
68aa2fdbSLorenzo Stoakes	if (!huge_pte_none(dst_ptep) && !pte_is_uffd_marker(dst_ptep))
8fb5debcSMike Kravetz		goto out_release_unlock;
8fb5debcSMike Kravetz
d0ce0e47SSidhartha Kumar	if (folio_in_pagecache)
44887f39SDavid Hildenbrand		hugetlb_add_file_rmap(folio);
4781593dSPeter Xu	else
9d5fafd5SDavid Hildenbrand		hugetlb_add_new_anon_rmap(folio, dst_vma, dst_addr);
8fb5debcSMike Kravetz
6041c691SPeter Xu	/*
6041c691SPeter Xu	 * For either: (1) CONTINUE on a non-shared VMA, or (2) UFFDIO_COPY
6041c691SPeter Xu	 * with wp flag set, don't set pte write bit.
6041c691SPeter Xu	 */
e06fa168SMatthew Wilcox (Oracle)	_dst_pte = make_huge_pte(dst_vma, folio,
d8fd84ddSDavid Hildenbrand				 !wp_enabled && !(is_continue && !vm_shared));
6041c691SPeter Xu	/*
6041c691SPeter Xu	 * Always mark UFFDIO_COPY page dirty; note that this may not be
6041c691SPeter Xu	 * extremely important for hugetlbfs for now since swapping is not
6041c691SPeter Xu	 * supported, but we should still be clear in that this page cannot be
6041c691SPeter Xu	 * thrown away at will, even if write bit not set.
6041c691SPeter Xu	 */
8fb5debcSMike Kravetz	_dst_pte = huge_pte_mkdirty(_dst_pte);
8fb5debcSMike Kravetz	_dst_pte = pte_mkyoung(_dst_pte);
8fb5debcSMike Kravetz
d9712937SAxel Rasmussen	if (wp_enabled)
6041c691SPeter Xu		_dst_pte = huge_pte_mkuffd_wp(_dst_pte);
6041c691SPeter Xu
530dd992SKefeng Wang	set_huge_pte_at(dst_mm, dst_addr, dst_pte, _dst_pte, size);
8fb5debcSMike Kravetz
8fb5debcSMike Kravetz	hugetlb_count_add(pages_per_huge_page(h), dst_mm);
8fb5debcSMike Kravetz
8fb5debcSMike Kravetz	/* No need to invalidate - it was non-present before */
8fb5debcSMike Kravetz	update_mmu_cache(dst_vma, dst_addr, dst_pte);
8fb5debcSMike Kravetz
8fb5debcSMike Kravetz	spin_unlock(ptl);
f6191471SAxel Rasmussen	if (!is_continue)
d0ce0e47SSidhartha Kumar		folio_set_hugetlb_migratable(folio);
f6191471SAxel Rasmussen	if (vm_shared || is_continue)
d0ce0e47SSidhartha Kumar		folio_unlock(folio);
8fb5debcSMike Kravetz	ret = 0;
8fb5debcSMike Kravetzout:
8fb5debcSMike Kravetz	return ret;
8fb5debcSMike Kravetzout_release_unlock:
8fb5debcSMike Kravetz	spin_unlock(ptl);
f6191471SAxel Rasmussen	if (vm_shared || is_continue)
d0ce0e47SSidhartha Kumar		folio_unlock(folio);
5af10dfdSAndrea Arcangeliout_release_nounlock:
d0ce0e47SSidhartha Kumar	if (!folio_in_pagecache)
d2d7bb44SSidhartha Kumar		restore_reserve_on_error(h, dst_vma, dst_addr, folio);
d0ce0e47SSidhartha Kumar	folio_put(folio);
8fb5debcSMike Kravetz	goto out;
8fb5debcSMike Kravetz}
714c1891SAxel Rasmussen#endif /* CONFIG_USERFAULTFD */
8fb5debcSMike Kravetz
a79390f5SPeter Xulong hugetlb_change_protection(struct vm_area_struct *vma,
5a90d5a1SPeter Xu		unsigned long address, unsigned long end,
5a90d5a1SPeter Xu		pgprot_t newprot, unsigned long cp_flags)
8f860591SZhang, Yanmin{
8f860591SZhang, Yanmin	struct mm_struct *mm = vma->vm_mm;
8f860591SZhang, Yanmin	unsigned long start = address;
8f860591SZhang, Yanmin	pte_t *ptep;
8f860591SZhang, Yanmin	pte_t pte;
a5516438SAndi Kleen	struct hstate *h = hstate_vma(vma);
a79390f5SPeter Xu	long pages = 0, psize = huge_page_size(h);
ac46d4f3SJérôme Glisse	struct mmu_notifier_range range;
e95a9851SMike Kravetz	unsigned long last_addr_mask;
5a90d5a1SPeter Xu	bool uffd_wp = cp_flags & MM_CP_UFFD_WP;
5a90d5a1SPeter Xu	bool uffd_wp_resolve = cp_flags & MM_CP_UFFD_WP_RESOLVE;
8ce720d5SDavid Hildenbrand (Red Hat)	struct mmu_gather tlb;
dff11abeSMike Kravetz
dff11abeSMike Kravetz	/*
dff11abeSMike Kravetz	 * In the case of shared PMDs, the area to flush could be beyond
ac46d4f3SJérôme Glisse	 * start/end.  Set range.start/range.end to cover the maximum possible
dff11abeSMike Kravetz	 * range if PMD sharing is possible.
dff11abeSMike Kravetz	 */
7269f999SJérôme Glisse	mmu_notifier_range_init(&range, MMU_NOTIFY_PROTECTION_VMA,
7d4a8be0SAlistair Popple				0, mm, start, end);
ac46d4f3SJérôme Glisse	adjust_range_if_pmd_sharing_possible(vma, &range.start, &range.end);
8f860591SZhang, Yanmin
8f860591SZhang, Yanmin	BUG_ON(address >= end);
ac46d4f3SJérôme Glisse	flush_cache_range(vma, range.start, range.end);
8ce720d5SDavid Hildenbrand (Red Hat)	tlb_gather_mmu_vma(&tlb, vma);
8f860591SZhang, Yanmin
ac46d4f3SJérôme Glisse	mmu_notifier_invalidate_range_start(&range);
40549ba8SMike Kravetz	hugetlb_vma_lock_write(vma);
83cde9e8SDavidlohr Bueso	i_mmap_lock_write(vma->vm_file->f_mapping);
40549ba8SMike Kravetz	last_addr_mask = hugetlb_mask_last_page(h);
60dfaad6SPeter Xu	for (; address < end; address += psize) {
03bfbc3aSLorenzo Stoakes		softleaf_t entry;
cb900f41SKirill A. Shutemov		spinlock_t *ptl;
03bfbc3aSLorenzo Stoakes
9c67a207SPeter Xu		ptep = hugetlb_walk(vma, address, psize);
e95a9851SMike Kravetz		if (!ptep) {
fed15f13SPeter Xu			if (!uffd_wp) {
e95a9851SMike Kravetz				address |= last_addr_mask;
8f860591SZhang, Yanmin				continue;
e95a9851SMike Kravetz			}
fed15f13SPeter Xu			/*
fed15f13SPeter Xu			 * Userfaultfd wr-protect requires pgtable
fed15f13SPeter Xu			 * pre-allocations to install pte markers.
fed15f13SPeter Xu			 */
fed15f13SPeter Xu			ptep = huge_pte_alloc(mm, vma, address, psize);
d1751118SPeter Xu			if (!ptep) {
d1751118SPeter Xu				pages = -ENOMEM;
fed15f13SPeter Xu				break;
fed15f13SPeter Xu			}
d1751118SPeter Xu		}
cb900f41SKirill A. Shutemov		ptl = huge_pte_lock(h, mm, ptep);
8ce720d5SDavid Hildenbrand (Red Hat)		if (huge_pmd_unshare(&tlb, vma, address, ptep)) {
60dfaad6SPeter Xu			/*
60dfaad6SPeter Xu			 * When uffd-wp is enabled on the vma, unshare
60dfaad6SPeter Xu			 * shouldn't happen at all.  Warn about it if it
60dfaad6SPeter Xu			 * happened due to some reason.
60dfaad6SPeter Xu			 */
60dfaad6SPeter Xu			WARN_ON_ONCE(uffd_wp || uffd_wp_resolve);
7da4d641SPeter Zijlstra			pages++;
cb900f41SKirill A. Shutemov			spin_unlock(ptl);
4ddb4d91SMike Kravetz			address |= last_addr_mask;
39dde65cSChen, Kenneth W			continue;
7da4d641SPeter Zijlstra		}
e6c0c032SChristophe Leroy		pte = huge_ptep_get(mm, address, ptep);
03bfbc3aSLorenzo Stoakes		if (huge_pte_none(pte)) {
03bfbc3aSLorenzo Stoakes			if (unlikely(uffd_wp))
03bfbc3aSLorenzo Stoakes				/* Safe to modify directly (none->non-present). */
03bfbc3aSLorenzo Stoakes				set_huge_pte_at(mm, address, ptep,
03bfbc3aSLorenzo Stoakes						make_pte_marker(PTE_MARKER_UFFD_WP),
03bfbc3aSLorenzo Stoakes						psize);
03bfbc3aSLorenzo Stoakes			goto next;
03bfbc3aSLorenzo Stoakes		}
68aa2fdbSLorenzo Stoakes
03bfbc3aSLorenzo Stoakes		entry = softleaf_from_pte(pte);
03bfbc3aSLorenzo Stoakes		if (unlikely(softleaf_is_hwpoison(entry))) {
03bfbc3aSLorenzo Stoakes			/* Nothing to do. */
03bfbc3aSLorenzo Stoakes		} else if (unlikely(softleaf_is_migration(entry))) {
68aa2fdbSLorenzo Stoakes			struct folio *folio = softleaf_to_folio(entry);
44f86392SDavid Hildenbrand			pte_t newpte = pte;
a8bda28dSNaoya Horiguchi
03bfbc3aSLorenzo Stoakes			if (softleaf_is_migration_write(entry)) {
cdf48aa8SSidhartha Kumar				if (folio_test_anon(folio))
6c287605SDavid Hildenbrand					entry = make_readable_exclusive_migration_entry(
6c287605SDavid Hildenbrand								swp_offset(entry));
6c287605SDavid Hildenbrand				else
4dd845b5SAlistair Popple					entry = make_readable_migration_entry(
4dd845b5SAlistair Popple								swp_offset(entry));
a8bda28dSNaoya Horiguchi				newpte = swp_entry_to_pte(entry);
44f86392SDavid Hildenbrand				pages++;
44f86392SDavid Hildenbrand			}
44f86392SDavid Hildenbrand
5a90d5a1SPeter Xu			if (uffd_wp)
5a90d5a1SPeter Xu				newpte = pte_swp_mkuffd_wp(newpte);
5a90d5a1SPeter Xu			else if (uffd_wp_resolve)
5a90d5a1SPeter Xu				newpte = pte_swp_clear_uffd_wp(newpte);
44f86392SDavid Hildenbrand			if (!pte_same(pte, newpte))
935d4f0cSRyan Roberts				set_huge_pte_at(mm, address, ptep, newpte, psize);
68aa2fdbSLorenzo Stoakes		} else if (unlikely(pte_is_marker(pte))) {
c5977c95SPeter Xu			/*
c5977c95SPeter Xu			 * Do nothing on a poison marker; page is
b6c46600Sjianyun.gao			 * corrupted, permissions do not apply. Here
c5977c95SPeter Xu			 * pte_marker_uffd_wp()==true implies !poison
c5977c95SPeter Xu			 * because they're mutual exclusive.
c5977c95SPeter Xu			 */
68aa2fdbSLorenzo Stoakes			if (pte_is_uffd_wp_marker(pte) && uffd_wp_resolve)
0e678153SDavid Hildenbrand				/* Safe to modify directly (non-present->none). */
60dfaad6SPeter Xu				huge_pte_clear(mm, address, ptep, psize);
03bfbc3aSLorenzo Stoakes		} else {
023bdd00SAneesh Kumar K.V			pte_t old_pte;
79c1c594SChristophe Leroy			unsigned int shift = huge_page_shift(hstate_vma(vma));
023bdd00SAneesh Kumar K.V
023bdd00SAneesh Kumar K.V			old_pte = huge_ptep_modify_prot_start(vma, address, ptep);
16785bd7SAnshuman Khandual			pte = huge_pte_modify(old_pte, newprot);
79c1c594SChristophe Leroy			pte = arch_make_huge_pte(pte, shift, vma->vm_flags);
5a90d5a1SPeter Xu			if (uffd_wp)
f1eb1bacSPeter Xu				pte = huge_pte_mkuffd_wp(pte);
5a90d5a1SPeter Xu			else if (uffd_wp_resolve)
5a90d5a1SPeter Xu				pte = huge_pte_clear_uffd_wp(pte);
023bdd00SAneesh Kumar K.V			huge_ptep_modify_prot_commit(vma, address, ptep, old_pte, pte);
7da4d641SPeter Zijlstra			pages++;
8ce720d5SDavid Hildenbrand (Red Hat)			tlb_remove_huge_tlb_entry(h, &tlb, ptep, address);
8f860591SZhang, Yanmin		}
f52ce0eaSYang Shi
03bfbc3aSLorenzo Stoakesnext:
03bfbc3aSLorenzo Stoakes		spin_unlock(ptl);
f52ce0eaSYang Shi		cond_resched();
8f860591SZhang, Yanmin	}
8ce720d5SDavid Hildenbrand (Red Hat)
8ce720d5SDavid Hildenbrand (Red Hat)	tlb_flush_mmu_tlbonly(&tlb);
8ce720d5SDavid Hildenbrand (Red Hat)	huge_pmd_unshare_flush(&tlb, vma);
0f10851eSJérôme Glisse	/*
1af5a810SAlistair Popple	 * No need to call mmu_notifier_arch_invalidate_secondary_tlbs() we are
1af5a810SAlistair Popple	 * downgrading page table protection not changing it to point to a new
1af5a810SAlistair Popple	 * page.
0f10851eSJérôme Glisse	 *
ee65728eSMike Rapoport	 * See Documentation/mm/mmu_notifier.rst
0f10851eSJérôme Glisse	 */
83cde9e8SDavidlohr Bueso	i_mmap_unlock_write(vma->vm_file->f_mapping);
40549ba8SMike Kravetz	hugetlb_vma_unlock_write(vma);
ac46d4f3SJérôme Glisse	mmu_notifier_invalidate_range_end(&range);
8ce720d5SDavid Hildenbrand (Red Hat)	tlb_finish_mmu(&tlb);
7da4d641SPeter Zijlstra
d1751118SPeter Xu	return pages > 0 ? (pages << h->order) : pages;
8f860591SZhang, Yanmin}
8f860591SZhang, Yanmin
986f5f2bSVivek Kasireddy/*
986f5f2bSVivek Kasireddy * Update the reservation map for the range [from, to].
986f5f2bSVivek Kasireddy *
986f5f2bSVivek Kasireddy * Returns the number of entries that would be added to the reservation map
986f5f2bSVivek Kasireddy * associated with the range [from, to].  This number is greater or equal to
986f5f2bSVivek Kasireddy * zero. -EINVAL or -ENOMEM is returned in case of any errors.
986f5f2bSVivek Kasireddy */
986f5f2bSVivek Kasireddy
986f5f2bSVivek Kasireddylong hugetlb_reserve_pages(struct inode *inode,
a1e78772SMel Gorman		long from, long to,
ea52cb24SLorenzo Stoakes		struct vm_area_desc *desc,
097e8db5SLorenzo Stoakes		vma_flags_t vma_flags)
e4e574b7SAdam Litke{
a833a693SWupeng Ma	long chg = -1, add = -1, spool_resv, gbl_resv;
a5516438SAndi Kleen	struct hstate *h = hstate_inode(inode);
90481622SDavid Gibson	struct hugepage_subpool *spool = subpool_inode(inode);
9119a41eSJoonsoo Kim	struct resv_map *resv_map;
075a61d0SMina Almasry	struct hugetlb_cgroup *h_cg = NULL;
0db9d74eSMina Almasry	long gbl_reserve, regions_needed = 0;
9ee5d176SShameer Kolothum	int err;
e4e574b7SAdam Litke
63489f8eSMike Kravetz	/* This should never happen */
63489f8eSMike Kravetz	if (from > to) {
63489f8eSMike Kravetz		VM_WARN(1, "%s called with a negative range\n", __func__);
986f5f2bSVivek Kasireddy		return -EINVAL;
63489f8eSMike Kravetz	}
63489f8eSMike Kravetz
a1e78772SMel Gorman	/*
17c9d12eSMel Gorman	 * Only apply hugepage reservation if asked. At fault time, an
17c9d12eSMel Gorman	 * attempt will be made for VM_NORESERVE to allocate a page
90481622SDavid Gibson	 * without using reserves
17c9d12eSMel Gorman	 */
097e8db5SLorenzo Stoakes	if (vma_flags_test(&vma_flags, VMA_NORESERVE_BIT))
986f5f2bSVivek Kasireddy		return 0;
17c9d12eSMel Gorman
17c9d12eSMel Gorman	/*
a1e78772SMel Gorman	 * Shared mappings base their reservation on the number of pages that
a1e78772SMel Gorman	 * are already allocated on behalf of the file. Private mappings need
a1e78772SMel Gorman	 * to reserve the full area even if read-only as mprotect() may be
ea52cb24SLorenzo Stoakes	 * called to make the mapping read-write. Assume !desc is a shm mapping
a1e78772SMel Gorman	 */
0c2aa663SLorenzo Stoakes (Oracle)	if (!desc || vma_desc_test(desc, VMA_MAYSHARE_BIT)) {
f27a5136SMike Kravetz		/*
f27a5136SMike Kravetz		 * resv_map can not be NULL as hugetlb_reserve_pages is only
f27a5136SMike Kravetz		 * called for inodes for which resv_maps were created (see
f27a5136SMike Kravetz		 * hugetlbfs_get_inode).
f27a5136SMike Kravetz		 */
4e35f483SJoonsoo Kim		resv_map = inode_resv_map(inode);
9119a41eSJoonsoo Kim
0db9d74eSMina Almasry		chg = region_chg(resv_map, from, to, &regions_needed);
9119a41eSJoonsoo Kim	} else {
e9fe92aeSMina Almasry		/* Private mapping. */
9119a41eSJoonsoo Kim		resv_map = resv_map_alloc();
9ee5d176SShameer Kolothum		if (!resv_map) {
9ee5d176SShameer Kolothum			err = -ENOMEM;
8d9bfb26SMike Kravetz			goto out_err;
9ee5d176SShameer Kolothum		}
5a6fe125SMel Gorman
17c9d12eSMel Gorman		chg = to - from;
17c9d12eSMel Gorman
ea52cb24SLorenzo Stoakes		set_vma_desc_resv_map(desc, resv_map);
ea52cb24SLorenzo Stoakes		set_vma_desc_resv_flags(desc, HPAGE_RESV_OWNER);
5a6fe125SMel Gorman	}
5a6fe125SMel Gorman
9ee5d176SShameer Kolothum	if (chg < 0) {
9ee5d176SShameer Kolothum		/* region_chg() above can return -ENOMEM */
9ee5d176SShameer Kolothum		err = (chg == -ENOMEM) ? -ENOMEM : -EINVAL;
c50ac050SDave Hansen		goto out_err;
9ee5d176SShameer Kolothum	}
17c9d12eSMel Gorman
9ee5d176SShameer Kolothum	err = hugetlb_cgroup_charge_cgroup_rsvd(hstate_index(h),
9ee5d176SShameer Kolothum				chg * pages_per_huge_page(h), &h_cg);
9ee5d176SShameer Kolothum	if (err < 0)
075a61d0SMina Almasry		goto out_err;
075a61d0SMina Almasry
0c2aa663SLorenzo Stoakes (Oracle)	if (desc && !vma_desc_test(desc, VMA_MAYSHARE_BIT) && h_cg) {
075a61d0SMina Almasry		/* For private mappings, the hugetlb_cgroup uncharge info hangs
075a61d0SMina Almasry		 * of the resv_map.
075a61d0SMina Almasry		 */
075a61d0SMina Almasry		resv_map_set_hugetlb_cgroup_uncharge_info(resv_map, h_cg, h);
075a61d0SMina Almasry	}
075a61d0SMina Almasry
1c5ecae3SMike Kravetz	/*
1c5ecae3SMike Kravetz	 * There must be enough pages in the subpool for the mapping. If
1c5ecae3SMike Kravetz	 * the subpool has a minimum size, there may be some global
1c5ecae3SMike Kravetz	 * reservations already in place (gbl_reserve).
1c5ecae3SMike Kravetz	 */
1c5ecae3SMike Kravetz	gbl_reserve = hugepage_subpool_get_pages(spool, chg);
9ee5d176SShameer Kolothum	if (gbl_reserve < 0) {
9ee5d176SShameer Kolothum		err = gbl_reserve;
075a61d0SMina Almasry		goto out_uncharge_cgroup;
9ee5d176SShameer Kolothum	}
17c9d12eSMel Gorman
17c9d12eSMel Gorman	/*
17c9d12eSMel Gorman	 * Check enough hugepages are available for the reservation.
90481622SDavid Gibson	 * Hand the pages back to the subpool if there are not
17c9d12eSMel Gorman	 */
9ee5d176SShameer Kolothum	err = hugetlb_acct_memory(h, gbl_reserve);
9ee5d176SShameer Kolothum	if (err < 0)
075a61d0SMina Almasry		goto out_put_pages;
17c9d12eSMel Gorman
17c9d12eSMel Gorman	/*
17c9d12eSMel Gorman	 * Account for the reservations made. Shared mappings record regions
17c9d12eSMel Gorman	 * that have reservations as they are shared by multiple VMAs.
17c9d12eSMel Gorman	 * When the last VMA disappears, the region map says how much
17c9d12eSMel Gorman	 * the reservation was and the page cache tells how much of
17c9d12eSMel Gorman	 * the reservation was consumed. Private mappings are per-VMA and
17c9d12eSMel Gorman	 * only the consumed reservations are tracked. When the VMA
17c9d12eSMel Gorman	 * disappears, the original reservation is the VMA size and the
17c9d12eSMel Gorman	 * consumed reservations are stored in the map. Hence, nothing
17c9d12eSMel Gorman	 * else has to be done for private mappings here
17c9d12eSMel Gorman	 */
0c2aa663SLorenzo Stoakes (Oracle)	if (!desc || vma_desc_test(desc, VMA_MAYSHARE_BIT)) {
075a61d0SMina Almasry		add = region_add(resv_map, from, to, regions_needed, h, h_cg);
33039678SMike Kravetz
0db9d74eSMina Almasry		if (unlikely(add < 0)) {
0db9d74eSMina Almasry			hugetlb_acct_memory(h, -gbl_reserve);
9ee5d176SShameer Kolothum			err = add;
075a61d0SMina Almasry			goto out_put_pages;
0db9d74eSMina Almasry		} else if (unlikely(chg > add)) {
33039678SMike Kravetz			/*
33039678SMike Kravetz			 * pages in this range were added to the reserve
33039678SMike Kravetz			 * map between region_chg and region_add.  This
d0ce0e47SSidhartha Kumar			 * indicates a race with alloc_hugetlb_folio.  Adjust
33039678SMike Kravetz			 * the subpool and reserve counts modified above
33039678SMike Kravetz			 * based on the difference.
33039678SMike Kravetz			 */
33039678SMike Kravetz			long rsv_adjust;
33039678SMike Kravetz
d85aecf2SMiaohe Lin			/*
d85aecf2SMiaohe Lin			 * hugetlb_cgroup_uncharge_cgroup_rsvd() will put the
d85aecf2SMiaohe Lin			 * reference to h_cg->css. See comment below for detail.
d85aecf2SMiaohe Lin			 */
075a61d0SMina Almasry			hugetlb_cgroup_uncharge_cgroup_rsvd(
075a61d0SMina Almasry				hstate_index(h),
075a61d0SMina Almasry				(chg - add) * pages_per_huge_page(h), h_cg);
075a61d0SMina Almasry
33039678SMike Kravetz			rsv_adjust = hugepage_subpool_put_pages(spool,
33039678SMike Kravetz								chg - add);
33039678SMike Kravetz			hugetlb_acct_memory(h, -rsv_adjust);
d85aecf2SMiaohe Lin		} else if (h_cg) {
d85aecf2SMiaohe Lin			/*
d85aecf2SMiaohe Lin			 * The file_regions will hold their own reference to
d85aecf2SMiaohe Lin			 * h_cg->css. So we should release the reference held
d85aecf2SMiaohe Lin			 * via hugetlb_cgroup_charge_cgroup_rsvd() when we are
d85aecf2SMiaohe Lin			 * done.
d85aecf2SMiaohe Lin			 */
d85aecf2SMiaohe Lin			hugetlb_cgroup_put_rsvd_cgroup(h_cg);
33039678SMike Kravetz		}
33039678SMike Kravetz	}
986f5f2bSVivek Kasireddy	return chg;
33b8f84aSMike Kravetz
075a61d0SMina Almasryout_put_pages:
a833a693SWupeng Ma	spool_resv = chg - gbl_reserve;
a833a693SWupeng Ma	if (spool_resv) {
a833a693SWupeng Ma		/* put sub pool's reservation back, chg - gbl_reserve */
a833a693SWupeng Ma		gbl_resv = hugepage_subpool_put_pages(spool, spool_resv);
a833a693SWupeng Ma		/*
a833a693SWupeng Ma		 * subpool's reserved pages can not be put back due to race,
a833a693SWupeng Ma		 * return to hstate.
a833a693SWupeng Ma		 */
a833a693SWupeng Ma		hugetlb_acct_memory(h, -gbl_resv);
a833a693SWupeng Ma	}
1d3f9bb4SJoshua Hahn	/* Restore used_hpages for pages that failed global reservation */
1d3f9bb4SJoshua Hahn	if (gbl_reserve && spool) {
1d3f9bb4SJoshua Hahn		unsigned long flags;
1d3f9bb4SJoshua Hahn
1d3f9bb4SJoshua Hahn		spin_lock_irqsave(&spool->lock, flags);
1d3f9bb4SJoshua Hahn		if (spool->max_hpages != -1)
1d3f9bb4SJoshua Hahn			spool->used_hpages -= gbl_reserve;
1d3f9bb4SJoshua Hahn		unlock_or_release_subpool(spool, flags);
1d3f9bb4SJoshua Hahn	}
075a61d0SMina Almasryout_uncharge_cgroup:
075a61d0SMina Almasry	hugetlb_cgroup_uncharge_cgroup_rsvd(hstate_index(h),
075a61d0SMina Almasry					    chg * pages_per_huge_page(h), h_cg);
c50ac050SDave Hansenout_err:
0c2aa663SLorenzo Stoakes (Oracle)	if (!desc || vma_desc_test(desc, VMA_MAYSHARE_BIT))
0db9d74eSMina Almasry		/* Only call region_abort if the region_chg succeeded but the
0db9d74eSMina Almasry		 * region_add failed or didn't run.
0db9d74eSMina Almasry		 */
0db9d74eSMina Almasry		if (chg >= 0 && add < 0)
0db9d74eSMina Almasry			region_abort(resv_map, from, to, regions_needed);
ea52cb24SLorenzo Stoakes	if (desc && is_vma_desc_resv_set(desc, HPAGE_RESV_OWNER)) {
f031dd27SJoonsoo Kim		kref_put(&resv_map->refs, resv_map_release);
ea52cb24SLorenzo Stoakes		set_vma_desc_resv_map(desc, NULL);
92fe9dcbSRik van Riel	}
9ee5d176SShameer Kolothum	return err;
a43a8c39SChen, Kenneth W}
a43a8c39SChen, Kenneth W
b5cec28dSMike Kravetzlong hugetlb_unreserve_pages(struct inode *inode, long start, long end,
b5cec28dSMike Kravetz								long freed)
a43a8c39SChen, Kenneth W{
a5516438SAndi Kleen	struct hstate *h = hstate_inode(inode);
4e35f483SJoonsoo Kim	struct resv_map *resv_map = inode_resv_map(inode);
9119a41eSJoonsoo Kim	long chg = 0;
90481622SDavid Gibson	struct hugepage_subpool *spool = subpool_inode(inode);
1c5ecae3SMike Kravetz	long gbl_reserve;
45c682a6SKen Chen
f27a5136SMike Kravetz	/*
f27a5136SMike Kravetz	 * Since this routine can be called in the evict inode path for all
f27a5136SMike Kravetz	 * hugetlbfs inodes, resv_map could be NULL.
f27a5136SMike Kravetz	 */
b5cec28dSMike Kravetz	if (resv_map) {
b5cec28dSMike Kravetz		chg = region_del(resv_map, start, end);
b5cec28dSMike Kravetz		/*
b5cec28dSMike Kravetz		 * region_del() can fail in the rare case where a region
b5cec28dSMike Kravetz		 * must be split and another region descriptor can not be
b5cec28dSMike Kravetz		 * allocated.  If end == LONG_MAX, it will not fail.
b5cec28dSMike Kravetz		 */
b5cec28dSMike Kravetz		if (chg < 0)
b5cec28dSMike Kravetz			return chg;
b5cec28dSMike Kravetz	}
b5cec28dSMike Kravetz
45c682a6SKen Chen	spin_lock(&inode->i_lock);
e4c6f8beSEric Sandeen	inode->i_blocks -= (blocks_per_huge_page(h) * freed);
45c682a6SKen Chen	spin_unlock(&inode->i_lock);
45c682a6SKen Chen
1c5ecae3SMike Kravetz	/*
1c5ecae3SMike Kravetz	 * If the subpool has a minimum size, the number of global
1c5ecae3SMike Kravetz	 * reservations to be released may be adjusted.
dddf31a4SMiaohe Lin	 *
dddf31a4SMiaohe Lin	 * Note that !resv_map implies freed == 0. So (chg - freed)
dddf31a4SMiaohe Lin	 * won't go negative.
1c5ecae3SMike Kravetz	 */
1c5ecae3SMike Kravetz	gbl_reserve = hugepage_subpool_put_pages(spool, (chg - freed));
1c5ecae3SMike Kravetz	hugetlb_acct_memory(h, -gbl_reserve);
b5cec28dSMike Kravetz
b5cec28dSMike Kravetz	return 0;
a43a8c39SChen, Kenneth W}
93f70f90SNaoya Horiguchi
188cac58SDavid Hildenbrand#ifdef CONFIG_HUGETLB_PMD_PAGE_TABLE_SHARING
3212b535SSteve Capperstatic unsigned long page_table_shareable(struct vm_area_struct *svma,
3212b535SSteve Capper				struct vm_area_struct *vma,
3212b535SSteve Capper				unsigned long addr, pgoff_t idx)
3212b535SSteve Capper{
3212b535SSteve Capper	unsigned long saddr = ((idx - svma->vm_pgoff) << PAGE_SHIFT) +
3212b535SSteve Capper				svma->vm_start;
3212b535SSteve Capper	unsigned long sbase = saddr & PUD_MASK;
3212b535SSteve Capper	unsigned long s_end = sbase + PUD_SIZE;
3212b535SSteve Capper
3212b535SSteve Capper	/* Allow segments to share if only one is marked locked */
bfbe7110SLorenzo Stoakes	vm_flags_t vm_flags = vma->vm_flags & ~VM_LOCKED_MASK;
bfbe7110SLorenzo Stoakes	vm_flags_t svm_flags = svma->vm_flags & ~VM_LOCKED_MASK;
3212b535SSteve Capper
3212b535SSteve Capper	/*
3212b535SSteve Capper	 * match the virtual addresses, permission and the alignment of the
3212b535SSteve Capper	 * page table page.
131a79b4SMike Kravetz	 *
131a79b4SMike Kravetz	 * Also, vma_lock (vm_private_data) is required for sharing.
3212b535SSteve Capper	 */
3212b535SSteve Capper	if (pmd_index(addr) != pmd_index(saddr) ||
3212b535SSteve Capper	    vm_flags != svm_flags ||
131a79b4SMike Kravetz	    !range_in_vma(svma, sbase, s_end) ||
131a79b4SMike Kravetz	    !svma->vm_private_data)
3212b535SSteve Capper		return 0;
3212b535SSteve Capper
3212b535SSteve Capper	return saddr;
3212b535SSteve Capper}
3212b535SSteve Capper
bbff39ccSMike Kravetzbool want_pmd_share(struct vm_area_struct *vma, unsigned long addr)
3212b535SSteve Capper{
bbff39ccSMike Kravetz	unsigned long start = addr & PUD_MASK;
bbff39ccSMike Kravetz	unsigned long end = start + PUD_SIZE;
bbff39ccSMike Kravetz
8d9bfb26SMike Kravetz#ifdef CONFIG_USERFAULTFD
8d9bfb26SMike Kravetz	if (uffd_disable_huge_pmd_share(vma))
8d9bfb26SMike Kravetz		return false;
8d9bfb26SMike Kravetz#endif
3212b535SSteve Capper	/*
3212b535SSteve Capper	 * check on proper vm_flags and page table alignment
3212b535SSteve Capper	 */
8d9bfb26SMike Kravetz	if (!(vma->vm_flags & VM_MAYSHARE))
31aafb45SNicholas Krause		return false;
bbff39ccSMike Kravetz	if (!vma->vm_private_data)	/* vma lock required for sharing */
8d9bfb26SMike Kravetz		return false;
8d9bfb26SMike Kravetz	if (!range_in_vma(vma, start, end))
8d9bfb26SMike Kravetz		return false;
8d9bfb26SMike Kravetz	return true;
8d9bfb26SMike Kravetz}
8d9bfb26SMike Kravetz
3212b535SSteve Capper/*
017b1660SMike Kravetz * Determine if start,end range within vma could be mapped by shared pmd.
017b1660SMike Kravetz * If yes, adjust start and end to cover range associated with possible
017b1660SMike Kravetz * shared pmd mappings.
017b1660SMike Kravetz */
017b1660SMike Kravetzvoid adjust_range_if_pmd_sharing_possible(struct vm_area_struct *vma,
017b1660SMike Kravetz				unsigned long *start, unsigned long *end)
017b1660SMike Kravetz{
a1ba9da8SLi Xinhai	unsigned long v_start = ALIGN(vma->vm_start, PUD_SIZE),
a1ba9da8SLi Xinhai		v_end = ALIGN_DOWN(vma->vm_end, PUD_SIZE);
017b1660SMike Kravetz
a1ba9da8SLi Xinhai	/*
f0953a1bSIngo Molnar	 * vma needs to span at least one aligned PUD size, and the range
f0953a1bSIngo Molnar	 * must be at least partially within in.
a1ba9da8SLi Xinhai	 */
a1ba9da8SLi Xinhai	if (!(vma->vm_flags & VM_MAYSHARE) || !(v_end > v_start) ||
a1ba9da8SLi Xinhai		(*end <= v_start) || (*start >= v_end))
017b1660SMike Kravetz		return;
017b1660SMike Kravetz
75802ca6SPeter Xu	/* Extend the range to be PUD aligned for a worst case scenario */
a1ba9da8SLi Xinhai	if (*start > v_start)
a1ba9da8SLi Xinhai		*start = ALIGN_DOWN(*start, PUD_SIZE);
017b1660SMike Kravetz
a1ba9da8SLi Xinhai	if (*end < v_end)
a1ba9da8SLi Xinhai		*end = ALIGN(*end, PUD_SIZE);
017b1660SMike Kravetz}
017b1660SMike Kravetz
017b1660SMike Kravetz/*
3212b535SSteve Capper * Search for a shareable pmd page for hugetlb. In any case calls pmd_alloc()
3212b535SSteve Capper * and returns the corresponding pte. While this is not necessary for the
3212b535SSteve Capper * !shared pmd case because we can allocate the pmd later as well, it makes the
3a47c54fSMike Kravetz * code much cleaner. pmd allocation is essential for the shared case because
3a47c54fSMike Kravetz * pud has to be populated inside the same i_mmap_rwsem section - otherwise
3a47c54fSMike Kravetz * racing tasks could either miss the sharing (see huge_pte_offset) or select a
3a47c54fSMike Kravetz * bad pmd for sharing.
3212b535SSteve Capper */
aec44e0fSPeter Xupte_t *huge_pmd_share(struct mm_struct *mm, struct vm_area_struct *vma,
aec44e0fSPeter Xu		      unsigned long addr, pud_t *pud)
3212b535SSteve Capper{
3212b535SSteve Capper	struct address_space *mapping = vma->vm_file->f_mapping;
3212b535SSteve Capper	pgoff_t idx = ((addr - vma->vm_start) >> PAGE_SHIFT) +
3212b535SSteve Capper			vma->vm_pgoff;
3212b535SSteve Capper	struct vm_area_struct *svma;
3212b535SSteve Capper	unsigned long saddr;
3212b535SSteve Capper	pte_t *spte = NULL;
3212b535SSteve Capper	pte_t *pte;
3212b535SSteve Capper
3a47c54fSMike Kravetz	i_mmap_lock_read(mapping);
3212b535SSteve Capper	vma_interval_tree_foreach(svma, &mapping->i_mmap, idx, idx) {
3212b535SSteve Capper		if (svma == vma)
3212b535SSteve Capper			continue;
3212b535SSteve Capper
3212b535SSteve Capper		saddr = page_table_shareable(svma, vma, addr, idx);
3212b535SSteve Capper		if (saddr) {
9c67a207SPeter Xu			spte = hugetlb_walk(svma, saddr,
7868a208SPunit Agrawal					    vma_mmu_pagesize(svma));
3212b535SSteve Capper			if (spte) {
59d9094dSLiu Shixin				ptdesc_pmd_pts_inc(virt_to_ptdesc(spte));
3212b535SSteve Capper				break;
3212b535SSteve Capper			}
3212b535SSteve Capper		}
3212b535SSteve Capper	}
3212b535SSteve Capper
3212b535SSteve Capper	if (!spte)
3212b535SSteve Capper		goto out;
3212b535SSteve Capper
349d1670SPeter Xu	spin_lock(&mm->page_table_lock);
dc6c9a35SKirill A. Shutemov	if (pud_none(*pud)) {
3212b535SSteve Capper		pud_populate(mm, pud,
3212b535SSteve Capper				(pmd_t *)((unsigned long)spte & PAGE_MASK));
c17b1f42SKirill A. Shutemov		mm_inc_nr_pmds(mm);
dc6c9a35SKirill A. Shutemov	} else {
59d9094dSLiu Shixin		ptdesc_pmd_pts_dec(virt_to_ptdesc(spte));
dc6c9a35SKirill A. Shutemov	}
349d1670SPeter Xu	spin_unlock(&mm->page_table_lock);
3212b535SSteve Capperout:
3212b535SSteve Capper	pte = (pte_t *)pmd_alloc(mm, pud, addr);
3a47c54fSMike Kravetz	i_mmap_unlock_read(mapping);
3212b535SSteve Capper	return pte;
3212b535SSteve Capper}
3212b535SSteve Capper
8ce720d5SDavid Hildenbrand (Red Hat)/**
8ce720d5SDavid Hildenbrand (Red Hat) * huge_pmd_unshare - Unmap a pmd table if it is shared by multiple users
8ce720d5SDavid Hildenbrand (Red Hat) * @tlb: the current mmu_gather.
8ce720d5SDavid Hildenbrand (Red Hat) * @vma: the vma covering the pmd table.
8ce720d5SDavid Hildenbrand (Red Hat) * @addr: the address we are trying to unshare.
8ce720d5SDavid Hildenbrand (Red Hat) * @ptep: pointer into the (pmd) page table.
3212b535SSteve Capper *
8ce720d5SDavid Hildenbrand (Red Hat) * Called with the page table lock held, the i_mmap_rwsem held in write mode
8ce720d5SDavid Hildenbrand (Red Hat) * and the hugetlb vma lock held in write mode.
3212b535SSteve Capper *
8ce720d5SDavid Hildenbrand (Red Hat) * Note: The caller must call huge_pmd_unshare_flush() before dropping the
8ce720d5SDavid Hildenbrand (Red Hat) * i_mmap_rwsem.
8ce720d5SDavid Hildenbrand (Red Hat) *
8ce720d5SDavid Hildenbrand (Red Hat) * Returns: 1 if it was a shared PMD table and it got unmapped, or 0 if it
8ce720d5SDavid Hildenbrand (Red Hat) *	    was not a shared PMD table.
3212b535SSteve Capper */
8ce720d5SDavid Hildenbrand (Red Hat)int huge_pmd_unshare(struct mmu_gather *tlb, struct vm_area_struct *vma,
4ddb4d91SMike Kravetz		unsigned long addr, pte_t *ptep)
3212b535SSteve Capper{
59d9094dSLiu Shixin	unsigned long sz = huge_page_size(hstate_vma(vma));
8ce720d5SDavid Hildenbrand (Red Hat)	struct mm_struct *mm = vma->vm_mm;
4ddb4d91SMike Kravetz	pgd_t *pgd = pgd_offset(mm, addr);
4ddb4d91SMike Kravetz	p4d_t *p4d = p4d_offset(pgd, addr);
4ddb4d91SMike Kravetz	pud_t *pud = pud_offset(p4d, addr);
3212b535SSteve Capper
59d9094dSLiu Shixin	if (sz != PMD_SIZE)
59d9094dSLiu Shixin		return 0;
14967a9cSJane Chu	if (!ptdesc_pmd_is_shared(virt_to_ptdesc(ptep)))
3212b535SSteve Capper		return 0;
cec944ddSDeepanshu Kartikey	i_mmap_assert_write_locked(vma->vm_file->f_mapping);
cec944ddSDeepanshu Kartikey	hugetlb_vma_assert_locked(vma);
3212b535SSteve Capper	pud_clear(pud);
8ce720d5SDavid Hildenbrand (Red Hat)
8ce720d5SDavid Hildenbrand (Red Hat)	tlb_unshare_pmd_ptdesc(tlb, virt_to_ptdesc(ptep), addr);
8ce720d5SDavid Hildenbrand (Red Hat)
dc6c9a35SKirill A. Shutemov	mm_dec_nr_pmds(mm);
3212b535SSteve Capper	return 1;
3212b535SSteve Capper}
c1991e07SPeter Xu
8ce720d5SDavid Hildenbrand (Red Hat)/*
8ce720d5SDavid Hildenbrand (Red Hat) * huge_pmd_unshare_flush - Complete a sequence of huge_pmd_unshare() calls
8ce720d5SDavid Hildenbrand (Red Hat) * @tlb: the current mmu_gather.
8ce720d5SDavid Hildenbrand (Red Hat) * @vma: the vma covering the pmd table.
8ce720d5SDavid Hildenbrand (Red Hat) *
8ce720d5SDavid Hildenbrand (Red Hat) * Perform necessary TLB flushes or IPI broadcasts to synchronize PMD table
8ce720d5SDavid Hildenbrand (Red Hat) * unsharing with concurrent page table walkers.
8ce720d5SDavid Hildenbrand (Red Hat) *
8ce720d5SDavid Hildenbrand (Red Hat) * This function must be called after a sequence of huge_pmd_unshare()
8ce720d5SDavid Hildenbrand (Red Hat) * calls while still holding the i_mmap_rwsem.
8ce720d5SDavid Hildenbrand (Red Hat) */
8ce720d5SDavid Hildenbrand (Red Hat)void huge_pmd_unshare_flush(struct mmu_gather *tlb, struct vm_area_struct *vma)
8ce720d5SDavid Hildenbrand (Red Hat){
8ce720d5SDavid Hildenbrand (Red Hat)	/*
8ce720d5SDavid Hildenbrand (Red Hat)	 * We must synchronize page table unsharing such that nobody will
8ce720d5SDavid Hildenbrand (Red Hat)	 * try reusing a previously-shared page table while it might still
8ce720d5SDavid Hildenbrand (Red Hat)	 * be in use by previous sharers (TLB, GUP_fast).
8ce720d5SDavid Hildenbrand (Red Hat)	 */
8ce720d5SDavid Hildenbrand (Red Hat)	i_mmap_assert_write_locked(vma->vm_file->f_mapping);
8ce720d5SDavid Hildenbrand (Red Hat)
8ce720d5SDavid Hildenbrand (Red Hat)	tlb_flush_unshared_tables(tlb);
8ce720d5SDavid Hildenbrand (Red Hat)}
8ce720d5SDavid Hildenbrand (Red Hat)
188cac58SDavid Hildenbrand#else /* !CONFIG_HUGETLB_PMD_PAGE_TABLE_SHARING */
8d9bfb26SMike Kravetz
aec44e0fSPeter Xupte_t *huge_pmd_share(struct mm_struct *mm, struct vm_area_struct *vma,
aec44e0fSPeter Xu		      unsigned long addr, pud_t *pud)
9e5fc74cSSteve Capper{
9e5fc74cSSteve Capper	return NULL;
9e5fc74cSSteve Capper}
e81f2d22SZhang Zhen
8ce720d5SDavid Hildenbrand (Red Hat)int huge_pmd_unshare(struct mmu_gather *tlb, struct vm_area_struct *vma,
4ddb4d91SMike Kravetz		unsigned long addr, pte_t *ptep)
e81f2d22SZhang Zhen{
e81f2d22SZhang Zhen	return 0;
e81f2d22SZhang Zhen}
017b1660SMike Kravetz
8ce720d5SDavid Hildenbrand (Red Hat)void huge_pmd_unshare_flush(struct mmu_gather *tlb, struct vm_area_struct *vma)
8ce720d5SDavid Hildenbrand (Red Hat){
8ce720d5SDavid Hildenbrand (Red Hat)}
8ce720d5SDavid Hildenbrand (Red Hat)
017b1660SMike Kravetzvoid adjust_range_if_pmd_sharing_possible(struct vm_area_struct *vma,
017b1660SMike Kravetz				unsigned long *start, unsigned long *end)
017b1660SMike Kravetz{
017b1660SMike Kravetz}
c1991e07SPeter Xu
c1991e07SPeter Xubool want_pmd_share(struct vm_area_struct *vma, unsigned long addr)
c1991e07SPeter Xu{
c1991e07SPeter Xu	return false;
c1991e07SPeter Xu}
188cac58SDavid Hildenbrand#endif /* CONFIG_HUGETLB_PMD_PAGE_TABLE_SHARING */
3212b535SSteve Capper
9e5fc74cSSteve Capper#ifdef CONFIG_ARCH_WANT_GENERAL_HUGETLB
aec44e0fSPeter Xupte_t *huge_pte_alloc(struct mm_struct *mm, struct vm_area_struct *vma,
9e5fc74cSSteve Capper			unsigned long addr, unsigned long sz)
9e5fc74cSSteve Capper{
9e5fc74cSSteve Capper	pgd_t *pgd;
c2febafcSKirill A. Shutemov	p4d_t *p4d;
9e5fc74cSSteve Capper	pud_t *pud;
9e5fc74cSSteve Capper	pte_t *pte = NULL;
9e5fc74cSSteve Capper
9e5fc74cSSteve Capper	pgd = pgd_offset(mm, addr);
f4f0a3d8SKirill A. Shutemov	p4d = p4d_alloc(mm, pgd, addr);
f4f0a3d8SKirill A. Shutemov	if (!p4d)
f4f0a3d8SKirill A. Shutemov		return NULL;
c2febafcSKirill A. Shutemov	pud = pud_alloc(mm, p4d, addr);
9e5fc74cSSteve Capper	if (pud) {
9e5fc74cSSteve Capper		if (sz == PUD_SIZE) {
9e5fc74cSSteve Capper			pte = (pte_t *)pud;
9e5fc74cSSteve Capper		} else {
9e5fc74cSSteve Capper			BUG_ON(sz != PMD_SIZE);
c1991e07SPeter Xu			if (want_pmd_share(vma, addr) && pud_none(*pud))
aec44e0fSPeter Xu				pte = huge_pmd_share(mm, vma, addr, pud);
9e5fc74cSSteve Capper			else
9e5fc74cSSteve Capper				pte = (pte_t *)pmd_alloc(mm, pud, addr);
9e5fc74cSSteve Capper		}
9e5fc74cSSteve Capper	}
191fcdb6SJohn Hubbard
191fcdb6SJohn Hubbard	if (pte) {
191fcdb6SJohn Hubbard		pte_t pteval = ptep_get_lockless(pte);
191fcdb6SJohn Hubbard
191fcdb6SJohn Hubbard		BUG_ON(pte_present(pteval) && !pte_huge(pteval));
191fcdb6SJohn Hubbard	}
9e5fc74cSSteve Capper
9e5fc74cSSteve Capper	return pte;
9e5fc74cSSteve Capper}
9e5fc74cSSteve Capper
9b19df29SPunit Agrawal/*
9b19df29SPunit Agrawal * huge_pte_offset() - Walk the page table to resolve the hugepage
9b19df29SPunit Agrawal * entry at address @addr
9b19df29SPunit Agrawal *
8ac0b81aSLi Xinhai * Return: Pointer to page table entry (PUD or PMD) for
8ac0b81aSLi Xinhai * address @addr, or NULL if a !p*d_present() entry is encountered and the
9b19df29SPunit Agrawal * size @sz doesn't match the hugepage size at this level of the page
9b19df29SPunit Agrawal * table.
9b19df29SPunit Agrawal */
7868a208SPunit Agrawalpte_t *huge_pte_offset(struct mm_struct *mm,
7868a208SPunit Agrawal		       unsigned long addr, unsigned long sz)
9e5fc74cSSteve Capper{
9e5fc74cSSteve Capper	pgd_t *pgd;
c2febafcSKirill A. Shutemov	p4d_t *p4d;
8ac0b81aSLi Xinhai	pud_t *pud;
8ac0b81aSLi Xinhai	pmd_t *pmd;
9e5fc74cSSteve Capper
9e5fc74cSSteve Capper	pgd = pgd_offset(mm, addr);
c2febafcSKirill A. Shutemov	if (!pgd_present(*pgd))
c2febafcSKirill A. Shutemov		return NULL;
c2febafcSKirill A. Shutemov	p4d = p4d_offset(pgd, addr);
c2febafcSKirill A. Shutemov	if (!p4d_present(*p4d))
c2febafcSKirill A. Shutemov		return NULL;
9b19df29SPunit Agrawal
c2febafcSKirill A. Shutemov	pud = pud_offset(p4d, addr);
8ac0b81aSLi Xinhai	if (sz == PUD_SIZE)
8ac0b81aSLi Xinhai		/* must be pud huge, non-present or none */
9e5fc74cSSteve Capper		return (pte_t *)pud;
8ac0b81aSLi Xinhai	if (!pud_present(*pud))
8ac0b81aSLi Xinhai		return NULL;
8ac0b81aSLi Xinhai	/* must have a valid entry and size to go further */
9b19df29SPunit Agrawal
9e5fc74cSSteve Capper	pmd = pmd_offset(pud, addr);
8ac0b81aSLi Xinhai	/* must be pmd huge, non-present or none */
9e5fc74cSSteve Capper	return (pte_t *)pmd;
9e5fc74cSSteve Capper}
9e5fc74cSSteve Capper
e95a9851SMike Kravetz/*
e95a9851SMike Kravetz * Return a mask that can be used to update an address to the last huge
e95a9851SMike Kravetz * page in a page table page mapping size.  Used to skip non-present
e95a9851SMike Kravetz * page table entries when linearly scanning address ranges.  Architectures
e95a9851SMike Kravetz * with unique huge page to page table relationships can define their own
e95a9851SMike Kravetz * version of this routine.
e95a9851SMike Kravetz */
e95a9851SMike Kravetzunsigned long hugetlb_mask_last_page(struct hstate *h)
e95a9851SMike Kravetz{
e95a9851SMike Kravetz	unsigned long hp_size = huge_page_size(h);
e95a9851SMike Kravetz
e95a9851SMike Kravetz	if (hp_size == PUD_SIZE)
e95a9851SMike Kravetz		return P4D_SIZE - PUD_SIZE;
e95a9851SMike Kravetz	else if (hp_size == PMD_SIZE)
e95a9851SMike Kravetz		return PUD_SIZE - PMD_SIZE;
e95a9851SMike Kravetz	else
e95a9851SMike Kravetz		return 0UL;
e95a9851SMike Kravetz}
e95a9851SMike Kravetz
e95a9851SMike Kravetz#else
e95a9851SMike Kravetz
e95a9851SMike Kravetz/* See description above.  Architectures can provide their own version. */
e95a9851SMike Kravetz__weak unsigned long hugetlb_mask_last_page(struct hstate *h)
e95a9851SMike Kravetz{
188cac58SDavid Hildenbrand#ifdef CONFIG_HUGETLB_PMD_PAGE_TABLE_SHARING
4ddb4d91SMike Kravetz	if (huge_page_size(h) == PMD_SIZE)
4ddb4d91SMike Kravetz		return PUD_SIZE - PMD_SIZE;
4ddb4d91SMike Kravetz#endif
e95a9851SMike Kravetz	return 0UL;
e95a9851SMike Kravetz}
e95a9851SMike Kravetz
61f77edaSNaoya Horiguchi#endif /* CONFIG_ARCH_WANT_GENERAL_HUGETLB */
61f77edaSNaoya Horiguchi
4c640f12SDavid Hildenbrand/**
4c640f12SDavid Hildenbrand * folio_isolate_hugetlb - try to isolate an allocated hugetlb folio
4c640f12SDavid Hildenbrand * @folio: the folio to isolate
4c640f12SDavid Hildenbrand * @list: the list to add the folio to on success
4c640f12SDavid Hildenbrand *
4c640f12SDavid Hildenbrand * Isolate an allocated (refcount > 0) hugetlb folio, marking it as
4c640f12SDavid Hildenbrand * isolated/non-migratable, and moving it from the active list to the
4c640f12SDavid Hildenbrand * given list.
4c640f12SDavid Hildenbrand *
4c640f12SDavid Hildenbrand * Isolation will fail if @folio is not an allocated hugetlb folio, or if
4c640f12SDavid Hildenbrand * it is already isolated/non-migratable.
4c640f12SDavid Hildenbrand *
4c640f12SDavid Hildenbrand * On success, an additional folio reference is taken that must be dropped
b235448eSDavid Hildenbrand * using folio_putback_hugetlb() to undo the isolation.
4c640f12SDavid Hildenbrand *
4c640f12SDavid Hildenbrand * Return: True if isolation worked, otherwise False.
4c640f12SDavid Hildenbrand */
4c640f12SDavid Hildenbrandbool folio_isolate_hugetlb(struct folio *folio, struct list_head *list)
31caf665SNaoya Horiguchi{
9747b9e9SBaolin Wang	bool ret = true;
bcc54222SNaoya Horiguchi
db71ef79SMike Kravetz	spin_lock_irq(&hugetlb_lock);
6aa3a920SSidhartha Kumar	if (!folio_test_hugetlb(folio) ||
6aa3a920SSidhartha Kumar	    !folio_test_hugetlb_migratable(folio) ||
6aa3a920SSidhartha Kumar	    !folio_try_get(folio)) {
9747b9e9SBaolin Wang		ret = false;
bcc54222SNaoya Horiguchi		goto unlock;
bcc54222SNaoya Horiguchi	}
6aa3a920SSidhartha Kumar	folio_clear_hugetlb_migratable(folio);
6aa3a920SSidhartha Kumar	list_move_tail(&folio->lru, list);
bcc54222SNaoya Horiguchiunlock:
db71ef79SMike Kravetz	spin_unlock_irq(&hugetlb_lock);
bcc54222SNaoya Horiguchi	return ret;
31caf665SNaoya Horiguchi}
31caf665SNaoya Horiguchi
04bac040SSidhartha Kumarint get_hwpoison_hugetlb_folio(struct folio *folio, bool *hugetlb, bool unpoison)
25182f05SNaoya Horiguchi{
25182f05SNaoya Horiguchi	int ret = 0;
25182f05SNaoya Horiguchi
25182f05SNaoya Horiguchi	*hugetlb = false;
25182f05SNaoya Horiguchi	spin_lock_irq(&hugetlb_lock);
04bac040SSidhartha Kumar	if (folio_test_hugetlb(folio)) {
25182f05SNaoya Horiguchi		*hugetlb = true;
04bac040SSidhartha Kumar		if (folio_test_hugetlb_freed(folio))
b283d983SNaoya Horiguchi			ret = 0;
04bac040SSidhartha Kumar		else if (folio_test_hugetlb_migratable(folio) || unpoison)
04bac040SSidhartha Kumar			ret = folio_try_get(folio);
0ed950d1SNaoya Horiguchi		else
0ed950d1SNaoya Horiguchi			ret = -EBUSY;
25182f05SNaoya Horiguchi	}
25182f05SNaoya Horiguchi	spin_unlock_irq(&hugetlb_lock);
25182f05SNaoya Horiguchi	return ret;
25182f05SNaoya Horiguchi}
25182f05SNaoya Horiguchi
e591ef7dSNaoya Horiguchiint get_huge_page_for_hwpoison(unsigned long pfn, int flags,
e591ef7dSNaoya Horiguchi				bool *migratable_cleared)
405ce051SNaoya Horiguchi{
405ce051SNaoya Horiguchi	int ret;
405ce051SNaoya Horiguchi
405ce051SNaoya Horiguchi	spin_lock_irq(&hugetlb_lock);
e591ef7dSNaoya Horiguchi	ret = __get_huge_page_for_hwpoison(pfn, flags, migratable_cleared);
405ce051SNaoya Horiguchi	spin_unlock_irq(&hugetlb_lock);
405ce051SNaoya Horiguchi	return ret;
405ce051SNaoya Horiguchi}
405ce051SNaoya Horiguchi
b235448eSDavid Hildenbrand/**
b235448eSDavid Hildenbrand * folio_putback_hugetlb - unisolate a hugetlb folio
b235448eSDavid Hildenbrand * @folio: the isolated hugetlb folio
b235448eSDavid Hildenbrand *
b235448eSDavid Hildenbrand * Putback/un-isolate the hugetlb folio that was previous isolated using
b235448eSDavid Hildenbrand * folio_isolate_hugetlb(): marking it non-isolated/migratable and putting it
b235448eSDavid Hildenbrand * back onto the active list.
b235448eSDavid Hildenbrand *
b235448eSDavid Hildenbrand * Will drop the additional folio reference obtained through
b235448eSDavid Hildenbrand * folio_isolate_hugetlb().
b235448eSDavid Hildenbrand */
b235448eSDavid Hildenbrandvoid folio_putback_hugetlb(struct folio *folio)
31caf665SNaoya Horiguchi{
db71ef79SMike Kravetz	spin_lock_irq(&hugetlb_lock);
ea8e72f4SSidhartha Kumar	folio_set_hugetlb_migratable(folio);
ea8e72f4SSidhartha Kumar	list_move_tail(&folio->lru, &(folio_hstate(folio))->hugepage_activelist);
db71ef79SMike Kravetz	spin_unlock_irq(&hugetlb_lock);
ea8e72f4SSidhartha Kumar	folio_put(folio);
31caf665SNaoya Horiguchi}
ab5ac90aSMichal Hocko
345c62d1SSidhartha Kumarvoid move_hugetlb_state(struct folio *old_folio, struct folio *new_folio, int reason)
ab5ac90aSMichal Hocko{
345c62d1SSidhartha Kumar	struct hstate *h = folio_hstate(old_folio);
ab5ac90aSMichal Hocko
345c62d1SSidhartha Kumar	hugetlb_cgroup_migrate(old_folio, new_folio);
9989db9fSSidhartha Kumar	folio_set_owner_migrate_reason(new_folio, reason);
ab5ac90aSMichal Hocko
ab5ac90aSMichal Hocko	/*
345c62d1SSidhartha Kumar	 * transfer temporary state of the new hugetlb folio. This is
ab5ac90aSMichal Hocko	 * reverse to other transitions because the newpage is going to
ab5ac90aSMichal Hocko	 * be final while the old one will be freed so it takes over
ab5ac90aSMichal Hocko	 * the temporary status.
ab5ac90aSMichal Hocko	 *
ab5ac90aSMichal Hocko	 * Also note that we have to transfer the per-node surplus state
ab5ac90aSMichal Hocko	 * here as well otherwise the global surplus count will not match
ab5ac90aSMichal Hocko	 * the per-node's.
ab5ac90aSMichal Hocko	 */
345c62d1SSidhartha Kumar	if (folio_test_hugetlb_temporary(new_folio)) {
345c62d1SSidhartha Kumar		int old_nid = folio_nid(old_folio);
345c62d1SSidhartha Kumar		int new_nid = folio_nid(new_folio);
ab5ac90aSMichal Hocko
345c62d1SSidhartha Kumar		folio_set_hugetlb_temporary(old_folio);
345c62d1SSidhartha Kumar		folio_clear_hugetlb_temporary(new_folio);
345c62d1SSidhartha Kumar
ab5ac90aSMichal Hocko
5af1ab1dSMiaohe Lin		/*
5af1ab1dSMiaohe Lin		 * There is no need to transfer the per-node surplus state
5af1ab1dSMiaohe Lin		 * when we do not cross the node.
5af1ab1dSMiaohe Lin		 */
5af1ab1dSMiaohe Lin		if (new_nid == old_nid)
5af1ab1dSMiaohe Lin			return;
db71ef79SMike Kravetz		spin_lock_irq(&hugetlb_lock);
ab5ac90aSMichal Hocko		if (h->surplus_huge_pages_node[old_nid]) {
ab5ac90aSMichal Hocko			h->surplus_huge_pages_node[old_nid]--;
ab5ac90aSMichal Hocko			h->surplus_huge_pages_node[new_nid]++;
ab5ac90aSMichal Hocko		}
db71ef79SMike Kravetz		spin_unlock_irq(&hugetlb_lock);
ab5ac90aSMichal Hocko	}
ba23f58dSDavid Hildenbrand
ba23f58dSDavid Hildenbrand	/*
ba23f58dSDavid Hildenbrand	 * Our old folio is isolated and has "migratable" cleared until it
ba23f58dSDavid Hildenbrand	 * is putback. As migration succeeded, set the new folio "migratable"
ba23f58dSDavid Hildenbrand	 * and add it to the active list.
ba23f58dSDavid Hildenbrand	 */
ba23f58dSDavid Hildenbrand	spin_lock_irq(&hugetlb_lock);
ba23f58dSDavid Hildenbrand	folio_set_hugetlb_migratable(new_folio);
ba23f58dSDavid Hildenbrand	list_move_tail(&new_folio->lru, &(folio_hstate(new_folio))->hugepage_activelist);
ba23f58dSDavid Hildenbrand	spin_unlock_irq(&hugetlb_lock);
ab5ac90aSMichal Hocko}
cf11e85fSRoman Gushchin
081056dcSJann Horn/*
081056dcSJann Horn * If @take_locks is false, the caller must ensure that no concurrent page table
081056dcSJann Horn * access can happen (except for gup_fast() and hardware page walks).
081056dcSJann Horn * If @take_locks is true, we take the hugetlb VMA lock (to lock out things like
081056dcSJann Horn * concurrent page fault handling) and the file rmap lock.
081056dcSJann Horn */
b30c14cdSJames Houghtonstatic void hugetlb_unshare_pmds(struct vm_area_struct *vma,
b30c14cdSJames Houghton				   unsigned long start,
081056dcSJann Horn				   unsigned long end,
081056dcSJann Horn				   bool take_locks)
6dfeaff9SPeter Xu{
6dfeaff9SPeter Xu	struct hstate *h = hstate_vma(vma);
6dfeaff9SPeter Xu	unsigned long sz = huge_page_size(h);
6dfeaff9SPeter Xu	struct mm_struct *mm = vma->vm_mm;
6dfeaff9SPeter Xu	struct mmu_notifier_range range;
8ce720d5SDavid Hildenbrand (Red Hat)	struct mmu_gather tlb;
b30c14cdSJames Houghton	unsigned long address;
6dfeaff9SPeter Xu	spinlock_t *ptl;
6dfeaff9SPeter Xu	pte_t *ptep;
6dfeaff9SPeter Xu
6dfeaff9SPeter Xu	if (!(vma->vm_flags & VM_MAYSHARE))
6dfeaff9SPeter Xu		return;
6dfeaff9SPeter Xu
6dfeaff9SPeter Xu	if (start >= end)
6dfeaff9SPeter Xu		return;
6dfeaff9SPeter Xu
9c8bbfacSBaolin Wang	flush_cache_range(vma, start, end);
8ce720d5SDavid Hildenbrand (Red Hat)	tlb_gather_mmu_vma(&tlb, vma);
8ce720d5SDavid Hildenbrand (Red Hat)
6dfeaff9SPeter Xu	/*
6dfeaff9SPeter Xu	 * No need to call adjust_range_if_pmd_sharing_possible(), because
6dfeaff9SPeter Xu	 * we have already done the PUD_SIZE alignment.
6dfeaff9SPeter Xu	 */
7d4a8be0SAlistair Popple	mmu_notifier_range_init(&range, MMU_NOTIFY_CLEAR, 0, mm,
6dfeaff9SPeter Xu				start, end);
6dfeaff9SPeter Xu	mmu_notifier_invalidate_range_start(&range);
081056dcSJann Horn	if (take_locks) {
40549ba8SMike Kravetz		hugetlb_vma_lock_write(vma);
6dfeaff9SPeter Xu		i_mmap_lock_write(vma->vm_file->f_mapping);
081056dcSJann Horn	} else {
081056dcSJann Horn		i_mmap_assert_write_locked(vma->vm_file->f_mapping);
081056dcSJann Horn	}
6dfeaff9SPeter Xu	for (address = start; address < end; address += PUD_SIZE) {
9c67a207SPeter Xu		ptep = hugetlb_walk(vma, address, sz);
6dfeaff9SPeter Xu		if (!ptep)
6dfeaff9SPeter Xu			continue;
6dfeaff9SPeter Xu		ptl = huge_pte_lock(h, mm, ptep);
8ce720d5SDavid Hildenbrand (Red Hat)		huge_pmd_unshare(&tlb, vma, address, ptep);
6dfeaff9SPeter Xu		spin_unlock(ptl);
6dfeaff9SPeter Xu	}
8ce720d5SDavid Hildenbrand (Red Hat)	huge_pmd_unshare_flush(&tlb, vma);
081056dcSJann Horn	if (take_locks) {
6dfeaff9SPeter Xu		i_mmap_unlock_write(vma->vm_file->f_mapping);
40549ba8SMike Kravetz		hugetlb_vma_unlock_write(vma);
081056dcSJann Horn	}
6dfeaff9SPeter Xu	/*
1af5a810SAlistair Popple	 * No need to call mmu_notifier_arch_invalidate_secondary_tlbs(), see
ee65728eSMike Rapoport	 * Documentation/mm/mmu_notifier.rst.
6dfeaff9SPeter Xu	 */
6dfeaff9SPeter Xu	mmu_notifier_invalidate_range_end(&range);
8ce720d5SDavid Hildenbrand (Red Hat)	tlb_finish_mmu(&tlb);
6dfeaff9SPeter Xu}
6dfeaff9SPeter Xu
b30c14cdSJames Houghton/*
b30c14cdSJames Houghton * This function will unconditionally remove all the shared pmd pgtable entries
b30c14cdSJames Houghton * within the specific vma for a hugetlbfs memory range.
b30c14cdSJames Houghton */
b30c14cdSJames Houghtonvoid hugetlb_unshare_all_pmds(struct vm_area_struct *vma)
b30c14cdSJames Houghton{
b30c14cdSJames Houghton	hugetlb_unshare_pmds(vma, ALIGN(vma->vm_start, PUD_SIZE),
081056dcSJann Horn			ALIGN_DOWN(vma->vm_end, PUD_SIZE),
081056dcSJann Horn			/* take_locks = */ true);
b30c14cdSJames Houghton}
ee40c992SRicardo Cañuelo Navarro
ee40c992SRicardo Cañuelo Navarro/*
ee40c992SRicardo Cañuelo Navarro * For hugetlb, mremap() is an odd edge case - while the VMA copying is
ee40c992SRicardo Cañuelo Navarro * performed, we permit both the old and new VMAs to reference the same
ee40c992SRicardo Cañuelo Navarro * reservation.
ee40c992SRicardo Cañuelo Navarro *
ee40c992SRicardo Cañuelo Navarro * We fix this up after the operation succeeds, or if a newly allocated VMA
ee40c992SRicardo Cañuelo Navarro * is closed as a result of a failure to allocate memory.
ee40c992SRicardo Cañuelo Navarro */
ee40c992SRicardo Cañuelo Navarrovoid fixup_hugetlb_reservations(struct vm_area_struct *vma)
ee40c992SRicardo Cañuelo Navarro{
ee40c992SRicardo Cañuelo Navarro	if (is_vm_hugetlb_page(vma))
ee40c992SRicardo Cañuelo Navarro		clear_vma_resv_huge_pages(vma);
ee40c992SRicardo Cañuelo Navarro}